e9ce05fd81f45db42bb459126acf004b (4)

Remerciements
Remerciements
Je ne saurai soumettre ce mémoire sans adresser mes remerciements à toute l’équipe

non-vie d’ADDACTIS SOFTWARE ainsi qu’à la compagnie d’assurance qui a bien voulu
me transmettre ses données pour mener à bien ce projet.
Je tiens à exprimer toute ma gratitude à Mme Sandrine SIDOBRE, ma directrice de mé-

moire, qui a su me transmettre ses compétences et son expérience en assurance non-vie.
Je la remercie aussi pour ses remarques et suggestions constructives pour la rédaction
de ce mémoire.
Je remercie également Mr Michael CASALINUOVO pour m’avoir éclairé sur les problé-
matiques se rapportant à la data science.
Je porte une attention particulière à mon tuteur universitaire, Mr Jean BERARD, qui
a su me guider dans la construction technique de mon sujet en m’apportant des pistes
de recherche.
1
Résumé
Résumé
Pour faire face à leurs engagements futurs, les organismes d’assurance sont tenus
de constituer des provisions dès la déclaration d’un sinistre. Ces provisions dites provi-
sions dossier/dossier d’ouverture sont évaluées différemment d’un assureur à un autre,
conduisant à considérer plusieurs approches.
Les assureurs envisagent de plus en plus l’approche visant à l’utilisation ligne à ligne
de leur base de sinistres. Plusieurs travaux ont notamment été menés sur le provision-
nement ligne à ligne tout en se déclinant comme une alternative aux méthodes classiques.
La principale motivation de ce mémoire porte sur le calcul de provisions dossier/dossier

d’ouverture. Ainsi, pour un nouveau sinistre, nous cherchons à évaluer la provision dos-
sier/dossier d’ouverture à constituer selon différentes caractéristiques initiales ; quant
aux sinistres préalablement existants dans la base, nous souhaitons challenger les pro-
visions d’ouverture des gestionnaires et celles estimées par les modèles.
Il est ainsi question, à terme, de proposer à des gestionnaires de sinistres une grille d’éva-
luation des provisions dossier/dossier. Cette grille est intrinsèquement liée à la branche
d’assurance considérée, qui dans le cadre de ce mémoire, est la protection juridique et
aussi aux données de l’assureur.
Pour mener à bien ces travaux, nous nous appuyons sur des méthodes de machine
learning et notamment celles basées sur les arbres de régression et sur les réseaux de
neurones. Une comparaison des trois méthodes est présentée pour un choix ultime d’un
modèle d’implémentation.
Mots clés
Provisions dossier/dossier d’ouverture, protection juridique, arbres de régression, ré-

seaux de neurones.
2
Abstract
Abstract
To fulfill their future liabilities, insurance companies are required to book reserves
as soon as a claim occures. These reserves known as the case estimates are assessed
differently from one insurer to another, leading to consider several approaches.
However, insurers are increasingly considering the approach linked to the direct use
of the individual claims. Several studies have been carried out on individual claims reser-
ving and, fro the most, on the calculation of technical reserves.
The main motivation of this thesis is to compute opening case estimates reserves at
the date of reporting. Thus, reagrding a new claim, we seek to evaluate the case estimates
conditionally established to the knowledge of initial characteristics ; as for the pre-existing
claims in the database, we want to challenge the opening reserves of the managers and
those estimated by the models.
A second motivation has an operational goal : provide to the claims managers an eva-
luation grid of the case estimates. This grid is intrinsically linked to the line of business
considered, which is legal expenses.
To carry out this work, we rely on machine learning methods and especially those ba-
sed on regression trees and neural networks.
Keywords :
Opening case estimates, legal expenses, regression trees, neural networks.
1
Table des matières
Table des matières
Remerciements 1
Résumé 2
Introduction 4
I Introduction au provisionnement non-vie 5
1 Généralités 6
1.1 Périmètre de l’assurance non-vie . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Provisions techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Evaluation des provisions IBNR . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Problématique du mémoire 10
2.1 Le périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Un sinistre de protection juridique . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 L’apport de ce mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Analyse des données 14

3.1 Périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Description des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Statistiques descriptives des variables . . . . . . . . . . . . . . . . . . . . . 19
3.4 Gestion de l’effet de troncature des données . . . . . . . . . . . . . . . . . . 27
3.5 Portefeuille final pour la modélisation . . . . . . . . . . . . . . . . . . . . . 30
II Estimation des provisions dossier/dossier d’ouverture 32
4 Détection du seuil des graves 37

4.1 La théorie des valeurs extrêmes (TVE) . . . . . . . . . . . . . . . . . . . . . 37
4.2 Détermination du seuil des graves . . . . . . . . . . . . . . . . . . . . . . . 42
5 La méthode CART 51
5.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Illustration sur les données et analyse des résultats . . . . . . . . . . . . . 56
6 La méthode Random Forest (RF) 67

6.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7 Les réseaux de neurones 82

7.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2
TABLE DES MATIÈRES
Conclusion 100
Abréviations 102
Bibliographie 107
Annexes 108
A Théorème de Pickands-Balkema-de-Haan (1975) et Propriété de stabilité de la

GPD 109
B Algorithme pour la construction d’un arbre de régression 110
C Elagage d’un arbre 111
D Algorithme de la rétro-propagation de l’erreur 112
E Vérification de l’hypothèse d’homogénéité - Réseau à deux couches cachées 113
3
Introduction
Introduction
L’actuariat et la data science ? Il y a environ cinquante ans, les acteurs de l’assurance

n’auraient sans doute pas imaginé que les techniques actuarielles existantes, aussi fiables
soient-elles, étaient en passe d’être challengées par des méthodes présentées comme in-
novantes.
De nombreux chercheurs se sont penchés sur la possible association des deux domaines
avec l’application des méthodes de data science à l’actuariat. Une activité de l’assurance
est ciblée en particulier dans ce mémoire, à savoir le provisionnement non-vie. De ré-
cents travaux sur le sujet font état d’approches permettant l’estimation de provisions
techniques ou encore de l’estimation de fréquences de sinistres.
Sous le même volet, ce mémoire tend à répondre à une problématique liée au niveau
de provision à constituer lors de la déclaration d’un nouveau sinistre. Cette provision
est appelée provision dossier/dossier. Elle a pour objectif de couvrir tous les coûts fu-
turs associés au nouveau sinistre. La modélisation de la série des règlements futurs liés
à ce sinistre constitue un point de départ dans l’estimation des provisions d’ouverture.
La qualité de la modélisation est un facteur déterminant dans la recherche de la "juste"
estimation. L’exposition à un sous-provisionnement ou à un sur-provisionnement reste
inhérent à tout modèle ; mais celle-ci peut être considérablement réduite en utilisant des
méthodes adaptées à la problématique.
Nous proposons dans ce document d’étudier la question du provisionnement à l’ouverture

d’un sinistre, avec l’utilisation de trois méthodes de machine learning.
Nous présentons dans une première partie le provisionnement dans sa généralité, la
branche de l’assurance étudiée c’est-à-dire la protection juridique, une analyse des don-
nées utilisées et l’approche de modélisation retenue.
Nous abordons dans une seconde partie, ce que nous considérons comme le coeur du
sujet : l’estimation des provisions dossier/dossier d’ouverture. Une comparaison des mé-
thodes - arbre de régression, forêt aléatoire et réseau de neurones - utilisées permettra
de proposer un modèle, destiné à terme à servir dans un cadre opérationnel.
4
I
Introduction au provisionnement non-vie

Chapitre 1: Généralités
Généralités
Sommaire
1.1 Périmètre de l’assurance non-vie . . . . . . . . . . . . . . . . . . . . . 6
1.2 Provisions techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Evaluation des provisions IBNR . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Triangle de liquidation : approche classique des assureurs . . . . . 7
1.3.2 Le provisionnement ligne à ligne . . . . . . . . . . . . . . . . . . . 8
1.3.3 Le calcul des provisions . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Périmètre de l’assurance non-vie
En référence à l’article R321-1 du Code des Assurances, les assurances non-vie

(branches 1-17) couvrent les assurances de biens, les assurances de responsabilité et
les assurances de dommages corporels. L’assurance de biens prend en charge les biens
matériels de l’assuré contre les risques d’accidents, incendies, vols et autres dommages
involontaires. L’assurance de responsabilité couvre les conséquences financières des dom-
mages dont l’assuré est responsable vis-à-vis d’un tiers. L’assureur indemnise les victimes
à la place de l’assuré. Le bénéficiaire est systématiquement un tiers.
Dans le secteur assurantiel, le cycle de production est inversé : le règlement des montants
de sinistres s’effectue après que les primes soient versées. Ainsi, les assureurs dans une
complète ignorance des coûts de sinistres futurs, sont tenus de constituer des provisions
pour faire face à leurs engagements.
1.2 Provisions techniques
L’article R331-6 du Code des Assurances fait état de différentes provisions à consti-
tuer :
• La provision pour primes non acquises (PPNA) est destinée à constater la part des
primes émises et des primes restant à émettre se rapportant à la période comprise
entre la date d’inventaire et la date de la prochaine échéance de prime ou, à défaut,
du terme du contrat.
• La provision pour sinistres à payer (PSAP) qui est la valeur estimative des dé-
penses en principal et en frais, tant internes qu’externes, nécessaires au règlement
de tous les sinistres survenus et non réglés.
Ces provisions sont perçues comme les provisions dossier/dossier (D/D) (case esti-
mates en anglais), estimées par un expert ou un gestionnaire de sinistres. Cepen-
dant, un décalage inhérent aux sinistres survenus mais non encore déclarés (dits
6
1.3 Evaluation des provisions IBNR
sinistres tardifs), doit être pris en compte. Les montants de provisions rattachés à
ces sinistres sont les IBNR (Incurred But Not Reported). Les IBNR peuvent être dé-
composées en IBNeR (Incurred But Not enough Reported) qui sont des montants de
provisions associées aux sinistres déclarés mais dont la charge ultime tend à être
sous-estimée ; et en IBNyR (Incurred But Not yet Reported), qui elles sont associées
aux sinistres non encore déclarés.
L’article R331-15 spécifie que la PSAP est calculée exercice par exercice, pour son
montant brut, sans tenir compte des recours à exercer. Les recours sont évalués
séparément ; et la PSAP nette de recours est transcrite au passif du bilan.
• La provision pour risques croissants correspond à la provision pouvant être exigée

pour les opérations d’assurance contre les risques de maladie et d’invalidité ; elle
est égale à la différence des valeurs actuelles des engagements respectivement pris
par l’assureur et l’assuré.
• Les autres provisions sont constituées de la provision pour risques en cours, la

provision pour risque d’exigibilité, la provision pour égalisation.
1.3.1 Triangle de liquidation : approche classique des assureurs
Les assureurs disposent de bases de données contenant les vues des sinistres associés
aux différents contrats. La difficulté de l’étude des sinistres repose sur le fait que certains
ont une durée de vie de plusieurs années.
Le schéma suivant permet de suivre la vie d’un sinistre depuis sa survenance jusqu’à sa
clôture définitive.
Figure 1.1 – Développement d’un sinistre (Source Internet)
7
Pour chaque contrat, les quantités analysables sont de nature très variée :
• montants de sinistres : paiements de sinistres, charges de sinistres, recours, ...
• primes : émises ou acquises, ...
• nombres de sinistres : déclarés, réglés, tardifs, ...
L’approche la plus usuellement mise en oeuvre par les assureurs pour analyser leurs
sinistres, est celle par agrégation des données en triangles.
Les quantités sont rapportées à des périodes d’échelle annuelle, semestrielle ou trimes-
trielle.
Les périodes infra-annuelles sont particulièrement pertinentes pour les grands orga-
nismes qui portent une attention au suivi de leurs provisions en cours d’année.
Chaque sinistre est rattaché à une période d’origine qui peut être l’année de survenance
(accident year), l’année de souscription (underwritting year) ou l’année de déclaration
(reporting year). En général, l’étude des triangles de liquidation se fait sous l’angle "année
de survenance".
Une fois le sinistre déclaré, il évolue sur une période dite de développement.
De nombreuses études abordent parallèlement une toute autre approche : celle du

provisionnement ligne à ligne.
1.3.2 Le provisionnement ligne à ligne
L’estimation des provisions ou de la fréquence de sinistres par cette approche n’est

pas "si" récente dans la mesure où les tous premiers travaux sur le sujet remontent à
1978 : Reid (1978) propose une méthode basée sur le nombre de sinistres ouverts, clos
avec paiements et clos sans paiements. Elle s’avérait complexe et l’auteur l’a étendue à
une méthode beaucoup plus flexible.
En 1989, Arjas (1989) introduit l’utilisation du marked point process pour la modélisation
du développement des sinistres, en se basant sur la théorie des martingales. Cette idée
est étendue par Norberg (1993, 1999) en utilisant plutôt le marked Poisson process. Merz
& Wuthrich (2008) proposent une description de cette classe de méthodes dans leur livre
Stochastic claims reserving methods in insurance.
Haastrup et Arjas (1996) explorent une toute autre approche : l’approche bayésienne
non-paramétrique.
Ces dernières années, l’avancée des recherches sur ce sujet a été grandissante : Taylor et
McGuire (2004) proposent d’ajuster un modèle linéaire généralisé (GLM) sur les données
de sinistres individuels. Zhao et al. (2009) publient un document où ils exposent une
approche qui juxtapose un cadre paramétrique et un cadre non-paramétrique, avec les
techniques d’analyse de survie. Zhao et Zhou (2010) étendront cette idée en y intégrant
la théorie des copules. Antonio et Plat (2010) se basent sur le cadre d’étude d’Arjas et
Norberg pour une application sur un portefeuille de garantie responsabilité civile.
8
1.3.3 Le calcul des provisions
Pour une date t (par exemple la date d’inventaire), l’assureur s’intéresse à la charge
ultime des sinistres déjà survenus. Cette charge ultime correspond à la somme des règle-
ments effectués au cours de la vie du sinistre.
A cette date t, l’assureur dispose de l’information sur les montants déjà réglés et sur
les provisions D/D constituées. En effet, les provisions D/D sont régulièrement réévaluées
au cours de la vie du sinistre aux vues des nouvelles informations parvenant à l’assureur.
Une relation lie les montants réglés, les provisions D/D et la charge :
Chargest = R èglementst + Provisions dossier/dossiert
La charge connue en t est ainsi projetée pour obtenir une estimation de la charge
ultime. Cette estimation peut être faite en utilisant des méthodes classiques de provision-
nement telles que l’approche chain ladder ou encore l’approche Bornhuetter Fergusson.
Les IBNRs au titre de la période d’origine considérée se calculent en effectuant la diffé-
rence entre la charge ultime projetée et la charge connue à date. Les montants IBNRs sont
ainsi constitués d’une estimation des règlements restants à effectuer et d’une estimation
des provisions D/D futures.
A la clôture du sinistre, la charge ultime est égale à la somme des règlements. Cependant,
en général, la projection séparée d’un triangle de charges et d’un triangle de règlements
ne conduit pas aux mêmes ultimes. Il existe alors dans ce cas précis, une méthode pour
les faire converger, à savoir la méthode Munich Chain Ladder.
Il est fait mention dans cette section de méthodes classiques de provisionnement ; tou-
tefois, une comparaison avec les approches d’apprentissage automatique ne sera pas
réalisée dans ce mémoire.
9
Chapitre 2: Problématique du mémoire
Problématique du mémoire
Sommaire
2.1 Le périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Un sinistre de protection juridique . . . . . . . . . . . . . . . . . . . . 12
2.3 L’apport de ce mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Depuis plusieurs années, de nombreux domaines scientifiques ont tiré parti de l’ac-
croissement de la puissance calculatoire des ordinateurs pour développer des modèles
d’une prédictivité robuste. L’actuariat est l’un des domaines à encore utiliser des mé-
thodes anciennes pour la modélisation de l’activité d’assurance : c’est le cas notamment
du provisionnement non-vie. Ces méthodes anciennes ont tout de même le mérite d’être
robustes, aisément interprétables et faciles à mettre en oeuvre.
Un engouement pour l’application des méthodes de machine learning dans le calcul de
provisions techniques ou encore de provisions dossier/dossier émerge. Dans plusieurs cas
d’étude (notamment en tarification), ces méthodes apparaissent de plus en plus comme
des alternatives aux méthodes standards.
De récents travaux de l’ASTIN (2017) se penchent sur l’estimation des provisions suivant
le même processus que la méthode chain ladder mais en utilisant les réseaux de neurones
(ou multi-perceptrons). Baudry & Robert (2017) adoptent pratiquement la même approche
mais en faisant appel à l’algorithme Extra-Tree. Wuthrich (2017) s’intéresse quant à lui à
l’estimation du nombre de paiements futurs d’un sinistre non clos.
2.1 Le périmètre d’étude
L’étude porte sur la branche protection juridique (branche 17). La garantie protec-
tion juridique permet à un assuré d’être représenté et défendu par son assureur dans
une procédure judiciaire qui l’oppose à un tiers 1 .
Le paragraphe suivant fournit des informations sur la protection juridique et sont

extraites du site de la Fédération Française de l’Assurance (FFA) 2 .
L’assurance de protection juridique prend en charge des frais de procédures ou four-

nit des services, en cas de différend ou de litige opposant l’assuré à un tiers en vue,
notamment :
de défendre ou représenter l’assuré, avant ou pendant une procédure ;

de défendre l’assuré contre une réclamation dont il fait l’objet ;
d’obtenir réparation à l’amiable, ou devant les tribunaux si nécessaire, du dommage
subi.
1. https://www.service-public.fr/particuliers/vosdroits/F3049
2. https://www.ffa-assurance.fr/content/assurance-de-protection-juridique?parent=74&lastChecked=120
10
2.1 Le périmètre d’étude
Notons la différence notable entre une garantie responsabilité civile et une garantie
protection juridique : au titre de la garantie responsabilité civile, l’assureur prend en
charge la réparation des dommages que son assuré cause à un tiers. L’assureur de la
protection juridique, lui, n’indemnise aucun tiers.
D’une façon générale, l’assurance de protection juridique se décline sous trois formes :
La garantie défense pénale et recours après un accident
Cette garantie, largement répandue dans les assurances multirisques habitation et au-
tomobile, concerne exclusivement les litiges liés aux événements garantis dans le contrat
(accident, dégât des eaux, incendie).
La protection juridique couvrant un domaine d’intervention
L’objet de ce type de garantie est de couvrir les événements, conflits ou litiges se rap-
portant à un domaine précis et dénommé. Il existe de nombreux domaines d’intervention :
santé, accidents corporels, habitation, automobile, consommation.
La protection juridique générale
Il s’agit de la garantie la plus large proposée par l’assureur qui définit précisément son
étendue, soit positivement en indiquant la liste des domaines couverts, soit négativement
en indiquant la liste des exclusions. Dans ce dernier cas, tous les domaines sont par
principe couverts à l’exception de ceux mentionnés dans les exclusions. Cette garantie
couvre la grande majorité des litiges de la vie quotidienne. Elle peut également comprendre
la garantie défense pénale et recours suite à un accident.
Ci-dessous quelques exemples d’application de la garantie protection juridique 3 :
1. un litige lié à la construction d’une maison : le maître d’ouvrage et le constructeur

se doivent de souscrire une garantie décennale. Si à la réception de la maison, le
propriétaire constate des malfaçons et que le constructeur ne souhaite pas inter-
venir, alors l’assureur (en lien avec la garantie protection juridique) mandate un
juriste spécialisé pour faire valoir les droits de l’assuré.
2. un litige lié à un achat sur internet : un juriste spécialisé en droit du commerce est
mandaté pour défendre l’assuré.
3. un litige lié à la non-restitution d’un dépôt de garantie dans le cadre d’un contrat
de location.
4. un litige suite à un vol de carte bancaire.
Pour cette étude, nous avons sollicité une compagnie d’assurance spécialisée dans la
commercialisation de contrats de protection juridique pour l’obtention des données. Cet
3. https://www.allianz.fr/protection-juridique/exemples-d-intervention/
11
2.2 Un sinistre de protection juridique
assureur se positionne sur les risques professionnels (ou d’entreprises), particuliers (et
propriétaires), immobiliers.
2.2 Un sinistre de protection juridique
Qu’est-ce qu’un sinistre de protection juridique ?

Selon l’article L127-2-1 du Code des Assurances, est considéré comme sinistre, "le
refus qui est opposé à une réclamation dont l’assuré est l’auteur ou le destinataire".
L’élément important pour l’assureur lors de la déclaration d’un sinistre, est la consti-
tution de provisions dites provisions dossier/dossier (D/D), nécessaires à la couverture
de tous les coûts liés au sinistre. Estimer au "plus juste" ces provisions est un défi pour
les assureurs notamment pour les branches à déroulé moyen ou long. Très souvent, à
l’ouverture du sinistre, peu d’informations sont disponibles pour estimer finement les
provisions D/D. L’apport ultérieur d’informations permet de les affiner.
L’appréciation des provisions D/D d’ouverture est faite a posteriori avec l’information
obtenue sur la charge ultime :
les provisions D/D sont "parfaitement" estimées si elles sont égales à la charge
ultime du sinistre, c’est-à-dire égales au coût total à la clôture du sinistre. Nous
sommes dans un monde parfait.
elles sont sur-estimées (l’assureur est en sur-provisionnement) si elles sont supé-

rieures à la charge ultime.
sinon, elles sont sous-estimées (sous-provisionnement).
Une estimation des provisions D/D nécessite de passer par des approches d’évaluation
qui diffèrent d’un assureur à un autre de par leurs caractéristiques (pertinence, fiabilité,
robustesse). Elles restent propres à chaque assureur, et sont de ce fait confidentielles.
L’idée de ce mémoire est de proposer à l’assureur de nouvelles méthodes d’estimation des
provisions D/D à l’ouverture ; l’approche actuelle adoptée par la compagnie d’assurance
n’est pas jugée suffisamment efficiente.
2.3 L’apport de ce mémoire
Le principal constat exposé par la compagnie est le suivant : elle fait face, à un sur-
provisionnement important des montants de sinistres.
L’objectif de l’étude est donc de proposer un modèle d’estimation des provisions D/D
par profil de risque. Ce modèle est voué à apporter un nouveau regard sur l’estimation
actuellement faite par les gestionnaires.
12
2.3 L’apport de ce mémoire
Pour l’estimation des provisions D/D à l’ouverture, les méthodes CART, random forest
(RF) et réseaux neuronaux sont mises en application.
Les méthodes évoquées ci-dessus rentrent dans la catégorie des techniques de machine
learning.
Qu’est-ce que le machine learning ?
Le machine learning ou apprentissage automatisé "concerne la conception, l’analyse,

le développement et l’implémentation de méthodes permettant à une machine (au sens
large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles
ou problématiques par des algorithmes plus classiques" 4 .
Les algorithmes d’apprentissage se distinguent les uns des autres selon leur interven-
tion dans l’exploration des données. Deux principales catégories s’opposent tout en se
complétant souvent selon le besoin :
L’apprentissage supervisé : les algorithmes utilisés dans cette catégorie permettent

la construction de modèles à partir des variables explicatives et une variable ou
couple de variables à expliquer. Ces algorithmes interviennent dans des problèmes
de discrimination et de régression. Les méthodes d’arbres de régression et de ré-
seaux de neurones présentées dans ce mémoire sont des exemples de cette catégorie
d’apprentissage. Le gradient boosting est l’une des méthodes les plus utilisées dans
les concours Kaggle et a historiquement fait ses preuves.
L’apprentissage non supervisé 5 : cette catégorie d’apprentissage consiste à inférer

sur les données sans la définition formelle d’une variable à expliquer. Les algo-
rithmes associés sont à la recherche de structures "naturelles" dans les données.
L’exploration des données afin d’en construire des classes homogènes est le but
premier de ces algorithmes. Les différentes tâches ciblées en apprentissage non su-
pervisé sont le clustering, les règles d’association et la réduction de dimensions. Les
méthodes k-means et k-Nearest Neighbour sont des représentantes de l’apprentis-
sage non supervisé.
D’autres catégories d’apprentissage existent telles que l’apprentissage semi-supervisé,

l’apprentissage par renforcement ou encore l’apprentissage par transfert ; mais leur utili-
sation reste encore marginale.
4. https ://www.wikiwand.com/fr/Apprentissage_automatique
5. http ://www.vincentlemaire-labs.fr/cours/2.2-ApprentissageNonSupervise.pdf
13
Chapitre 3: Analyse des données
Analyse des données
Sommaire
3.1 Périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Description des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Statistiques descriptives des variables . . . . . . . . . . . . . . . . . . 19
3.3.1 Statistiques élémentaires . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.2 Détection des corrélations . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Statistiques sur le nombre de sinistres . . . . . . . . . . . . . . . . 22
3.3.4 Statistiques sur la durée de vie des sinistres . . . . . . . . . . . . . 23
3.3.5 La prise en compte de l’inflation passée . . . . . . . . . . . . . . . . 25
3.3.6 Statistiques sur les montants de règlements . . . . . . . . . . . . . 26
3.4 Gestion de l’effet de troncature des données . . . . . . . . . . . . . . . 27
3.4.1 Implications de l’effet de troncature . . . . . . . . . . . . . . . . . . 27
3.4.2 Approche envisagée . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5 Portefeuille final pour la modélisation . . . . . . . . . . . . . . . . . . 30
3.1 Périmètre d’étude
La compagnie d’assurance pour laquelle l’étude a été réalisée commercialise des

contrats qui relèvent de la branche 17 (Protection juridique) et de la branche 16 (Pertes
pécuniaires) du Code des Assurances. Notre étude se limitera aux sinistres rattachés à
des polices de la branche 17.
L’entreprise a connu en 2012 une refonte de son système de gestion et la migration

vers le nouveau système s’est déroulée courant 2013.
La base transmise est constituée de sinistres déclarés entre 1988 et 2017 mais la vue de
chaque sinistre n’est disponible qu’entre la fin de l’année 2013 et la fin de l’année 2017.
Trois catégories de sinistres se présentent :
pour un sinistre déclaré à partir de la fin de l’année 2013 (début 2014), nous avons
accès à son développement complet : les règlements effectués année après année
sont connus. Nous associons ces sinistres à la catégorie 1 ;
pour tout sinistre déclaré antérieurement à la fin de l’année 2013, et dont le dévelop-
pement se poursuit après le début de l’année 2014, nous observons une troncature
à gauche des règlements : tous les règlements effectués avant la fin de l’année 2013
sont absents de la base de données. Ce sont les sinistres de catégorie 2 ;
pour tout sinistre déclaré et clos avant la fin de l’année 2013, l’information complète
sur les règlements n’est pas disponible. Cependant, les années de déclaration et de
clôture sont connues. Nous associons ces sinistres à la catégorie 3.
La fenêtre d’observation exhaustive des règlements est donc la plage "début 2014 - fin
2017".
14
3.2 Description des variables
Le graphique 3.1 illustre la catégorisation des sinistres.
Figure 3.1 – Catégorisation des sinistres
La base de la compagnie résulte de la fusion de trois bases primaires distinctes :
la base sinistres : elle contient les informations contextuelles au sinistre (date de

déclaration, date de survenance,...) mais aussi les données financières (provisions
dossier/dossier, règlements,...).
la base polices : toute information relative au contrat d’assurance est recensée dans
cette base. Il est nécessaire de noter que seules les polices sinistrées sont conservées
pour l’étude.
la base clients : elle contient des informations liées au client.
Une volumétrie relativement importante est nécessaire pour pouvoir appliquer des
méthodes de machine learning. La base contient 235 760 sinistres déclarés entre 1988 et
fin 2017. Plusieurs retraitements ont été effectués sur cette base et les impacts associés
seront évoqués ultérieurement.
Variables et signification
La base contient 37 variables (auxquelles s’ajoutent les variables identifiées comme

des clés de fusion, non pertinentes pour l’analyse) présentées dans les tables 3.1 et 3.2.
La compagnie d’assurance commercialise et a commercialisé environ 341 produits dif-

férents (variable PRODUIT) au travers de contrats de type groupe ou individuel (variable
TYPE_PRODUIT), souscrits auprès de particuliers ou de professionnels (variable PART_-
PROF).
15
Nombre de
Variables Qualitative Quantitative
modalités
GROUPE_COMPTABLE X 66
STRATEGIE X 4
POSITION_ASSURE X 2
GARANTIE_ACTIVE X 106
MOTIF_CLOTURE X 14
DATE_INVENTAIRE
STATUT_DOSSIER X 5
PHASE_SINISTRE X 3
CD_JURIDICTION X 36
PROVISION_DEPENSE_CUMUL X
PROVISION_RECOURS_CUMUL X
ENCAISSEMENT_DEPOT_CUMUL X
ENCAISSEMENT_RECOURS_CUMUL X
ENCAISSEMENT_FRANCHISE_CUMUL X
ENCAISSEMENT_DEPENSE_REGLEE_CUMUL X
REGLEMENT_DEPOT_REVERSE_CUMUL X
REGLEMENT_RECOURS_REVERSE_CUMUL X
REGLEMENT_DEPENSE_CUMUL X
REGLEMENT_FRANCHISE_ENCAISSEE_CUMUL X
REGLEMENT_FRANCHISE_REVERSEE_CUMUL X
TYPE_POLICE X 4
DISTRIBUTION X 14
PRODUIT X 341
TYPE_PRODUIT X 3
MARCHE X 6
SOUS_MARCHE X 17
PART_PROF X 2
TYPE_CLIENT X 2
INTERMEDIAIRE X 3 744
TYPE_GESTION X 2
TYPE_ENCAISSEMENT X 2
Table 3.1 – Variables de la base d’étude transmise par la compagnie
Variables calendaires
DATE_SURVENANCE
DATE_DECLARATION
DATE_CREATION
DATE_CLOTURE
DATE_REOUVERTURE
DATE_CREATION_POLICE
Table 3.2 – Variables de la base d’étude
Les polices du portefeuille sinistré peuvent couvrir jusqu’à 106 garanties (variable GA-
RANTIE_ACTIVE) dont par exemple la garantie honoraires d’expert, l’assistance au contrôle
fiscal, l’assistance e-reputation, la protection patrimoniale ou encore la garantie des
charges impayées.
Un sinistre pourra être clos sous le motif d’une cause gagnée judiciairement ou à l’amiable ;
ou inversement pour cause perdue judiciairement (variable MOTIF_CLOTURE).
16
La garantie couverte par une police peut être accordée ou refusée (variable STRATEGIE),
mais il arrive que la compagnie octroie des gestes commerciaux. Si toutefois la garantie
est refusée, le sinistre est systématiquement clos.
La gestion des sinistres est effectuée par des gestionnaires identifiés par un groupe comp-
table associé à une zone géographique. Par ailleurs, un client peut demander la gestion
d’un dossier sinistre par un groupe situé dans une zone autre que celle de la survenance
du sinistre : ceci correspond à une gestion locale ou centrale (variable TYPE_GESTION).
Variables connues à l’ouverture d’un sinistre
Pour l’estimation des provisions D/D d’ouverture, seules les variables connues à l’ou-
verture d’un sinistre sont retenues pour la modélisation.
Elles sont les suivantes :
les dates de survenance et de déclaration

le groupe comptable en charge de la gestion du sinistre
la garantie activée
le produit commercialisé
le type de gestion et le mode de distribution
Ce sont principalement ces variables qui seront utilisées pour la modélisation de la

charge ultime à l’ouverture du sinistre.
Enfin, trois variables viennent en complément ou en remplacement des variables exis-

tantes :
la durée de vie du sinistre qui est la différence (en nombre de jours) entre la date
de clôture et la date de déclaration. Cette variable est créée pour présenter ses
statistiques mais ne sert pas dans la modélisation de la charge ultime ;
le délai de déclaration qui est la différence (en nombre de jours) entre la date de
déclaration et la date de survenance ;
la variable développement qui résulte d’un choix de modélisation explicité plus loin.
La durée de vie de sinistre n’est connue que pour les sinistres clos. Elle est censurée
à droite pour les sinistres non clos.
17
Opérations de retraitement
Des retraitements ont été opérés au regard de ces variables :
deux suppressions :
— 263 sinistres doublons ont été supprimés. (Ils avaient tous été créés par er-
reur) ;
— tout sinistre dont la date de clôture est antérieure à la date de déclaration a

été supprimé (16 sinistres). Il aurait été préférable d’analyser chacun de ces
sinistres afin de déceler la cause probable de cette erreur, mais ceci n’a pas été
fait pour faute d’accès direct aux dossiers sinistres ;
et deux modifications :
— tout sinistre clos dont le code de juridiction n’est pas renseigné s’est vu assigner
la modalité "AMIABLE". Il est ainsi supposé que tout sinistre dont la procédure
n’a abouti auprès d’aucune juridiction s’est clos à l’amiable ;
— la variable STRATEGIE à "NULL" pour les sinistres clos correspond à une clô-
ture sans suite. Une modalité a été affectée à ce type de sinistre, ce qui évite
leur suppression.
Ces retraitements portent dorénavant le nombre de sinistres de la base à 235 481

contre 235 760, soit une perte de moins de 0,1%. Nous identifions la base à 235 481
sinistres comme la base post-retraitement.
En résumé
L’estimation des provisions dossier/dossier ne portera que sur les contrats indivi-
duels (modalité "IND" de la variable "TYPE_PRODUIT"). Le filtre sur cette variable conduit
à ne plus la considérer dans la suite de l’étude. Une extension de l’étude consisterait à
modéliser la charge ultime des sinistres associés aux contrats groupes, mais il faudrait
avoir à disposition plus de données que celles présentes actuellement dans la base.
Nous nous restreignons par ailleurs aux sinistres déclarés entre 2002 et 2017 car très
peu de sinistres (278) sont connus avant 2002.
Les sinistres liés aux contrats individuels et déclarés entre 2002 et 2017 sont au nombre
de 135 579 (soit 57,57% de la base post-retraitement). Pour la suite, cette base à 135 579
sinistres est identifiée comme la base de sinistres des contrats individuels.
Dans la section suivante, nous présentons quelques statistiques sur les nombres de
sinistres, leur durée de vie et leur coût.
18
3.3 Statistiques descriptives des variables
3.3.1 Statistiques élémentaires
Les statistiques descriptives ont été réalisées avec les informations connues en date du
31-12-2017 et contenues dans la base de sinistres des contrats individuels. Elles portent
à la fois sur les sinistres clos et sur les sinistres non clos.
Il a été notamment constaté que plusieurs des variables possèdent un grand nombre
de modalités. Ces variables en question sont identifiables dans la table 3.1 de la section
précédente.
Le tableau 3.3 expose pour chaque variable qualitative, la modalité la plus représentée et
le nombre de sinistres associé.
Variables Modalité la plus représentée Nombre de sinistres

GROUPE_COMPTABLE 1B 24 047 (18%)
STRATEGIE Garantie accordée 103 267 (76%)
POSITION_ASSURE Demandeur 98 906 (73%)
GARANTIE_ACTIVE HONORAIRES D’EXPERT 17 063 (13%)
MOTIF_CLOTURE Clôture rapide 57 660 (43%)
STATUT_DOSSIER CLOS 111 890 (83%)
CD_JURIDICTION AMIABLE 101 752 (75%)
TYPE_POLICE A qualifier 105 629 (78%)
DISTRIBUTION Grand courtage 56 694 (42%)
PRODUIT 2.DEC.88 24 041 (18%)
MARCHE Professionnel 47 029 (35%)
SOUS_MARCHE Professionnel 43 371 (32%)
PART_PROF PROF 83 788 (62%)
TYPE_CLIENT Personne physique 69 735 (51%)
INTERMEDIAIRE 01EISLDO 8 284 (6%)
TYPE_GESTION Gestion locale 135 255 (99%)
TYPE_ENCAISSEMENT Confié 131 495 (97%)
Table 3.3 – Statistiques sur des variables qualitatives
Sur un nombre restreint de variables, leur dynamique dans le temps est analysée :
est-ce que les sinistres déclarés en 2005 ont par exemple une caractéristique similaire à
celle des sinistres déclarés en 2016 ? Les graphiques 3.2 et 3.3 aident à répondre cette
question. Chacun de ces graphiques présente le nombre de sinistres par modalité, et ce
pour toutes les années de déclaration entre 2002 et 2017. Sont pris en compte dans la
représentation graphique, les sinistres de catégorie 1, 2 et 3.
Sur le graphique 3.2, environ 16% des sinistres déclarés entre 2002 et 2006 sont rat-
tachés au produit de type VPV. De 2007 à 2009, le produit le plus représenté est le COP.
Les contrats associés au produit DEC sont les plus sinistrés sur les années 2011-2017.
Sur le graphique 3.3, de 2014 à 2017, plus de 20% des litiges se rapportent à la ga-
19
Figure 3.2 – Dynamique de la variable PRODUIT
Figure 3.3 – Dynamique de la variable GARANTIE
rantie HONORAIRE D’EXPERT. Cette garantie n’apparait dans les dossiers sinistrés qu’à
partir de 2010. Antérieurement à 2011, la garantie contractuelle est la plus sollicitée dans
l’indemnisation des litiges, représentant plus de 30% du total des dossiers. La garantie
CONTRACTUEL connait une certaine stabilité de 2004 à 2010.
Il est légitime de se poser la question du niveau de dépendance entre toutes ces variables.
Nous analysons ainsi les corrélations entre elles.
20
3.3.2 Détection des corrélations
Pour établir l’existence de corrélations entre deux variables qualitatives, le test du χ 2

de Pearson peut être réalisé sur celles-ci. Un autre test souvent utilisé par les statisticiens
est le test du V de Cramer 1 . Il permet de comparer l’intensité du lien entre deux variables.
Plus la statistique du V de Cramer est proche de 0, moins les variables étudiées sont
dépendantes. Il vaudra 1 lorsque les deux variables sont complètement dépendantes : la
liaison entre les deux variables est ainsi forte.
Le test du V de Cramer a été utilisé 2 pour détecter les dépendances entre différentes
variables qualitatives de notre base d’étude. La variable "INTERMEDIAIRE" n’a volontai-
rement pas été prise en compte dans le calcul des corrélations car elle possède un grand
nombre de modalités.
Figure 3.4 – Matrice de corrélation des variables qualitatives
La variable "PRODUIT" est fortement dépendante des variables "MARCHE", "SOUS_-

MARCHE" et "PART_PROF". En effet, un produit commercialisé cible particulièrement un
marché donné : par exemple, le produit "COP" (codage interne à la base) cible le marché
de l’immobilier et le sous-marché de la copropriété, et reste dans le cadre des particuliers.
Une dépendance implicite est ainsi établie entre ces trois variables d’où une mesure de la
corrélation quasi-proche de 1.
Le "TYPE_GESTION" et le "TYPE_ENCAISSEMENT" ne semblent quasi corrélées à aucune
des autres variables qualitatives.
1. Se référer à https ://lemakistatheux.wordpress.com/2013/05/31/le-v-de-cramer/

2. http ://sas-and-r.blogspot.com/2011/06/example-839-calculating-cramers-v.html
21
3.3.3 Statistiques sur le nombre de sinistres
Le tableau 3.4 synthétise l’information sur le nombre de sinistres clos, qui comprend
les sinistres clos à 0 et les sinistres clos avec règlement, et le nombre de sinistres non clos.
Un sinistre est dit clos à 0, lorsqu’aucun règlement n’a été enregistré lors de sa période
de développement.
NOMBRE DE SINISTRES
Année Clos Clos à 0 Clos avec règlement Non clos Total
256 1 257
2002 Troncature Troncature
99,6% 0,4% 100%
703 3 706
99,6% 0,4% 100%
1 365 6 1 371
99,5% 0,5% 100%
2 440 38 2 478
98,5% 1,5% 100%
2 859 40 2 899
98,6% 1,4% 100%
3 305 63 3 368
98,1% 1,9% 100%
4 390 92 4 482
97,9% 2,1% 100%
6 423 120 6 543
98,1% 1,9% 100%
7 532 206 7 738
97,3% 2,7% 100%
9 340 351 9 691

96,4% 3,6% 100%
10 717 577 11 294

94,9% 5,1% 100%
12 515 1 422 13 937

89,8% 10,2% 100%
13 880 1 747 15 627

2014 8 616 5 264
88,8% 11,2% 100%
14 217 2 825 17 042
2015 9 314 4 903
83,4% 16,6% 100%
13 950 5 050 19 000
2016 10 025 3 925
73,4% 26,6% 100%
7 998 11 148 19 146
2017 6 130 1 868
41,8% 58,2% 100%
111 890 23 689 135 579
TOTAL 34 085 15 960
82,5% 17,5% 100%
Table 3.4 – Statistiques sur le nombre de sinistres de la base des contrats individuels
Nous pointons les constats suivants sur le nombre de sinistres :
Les années 2014, 2015 et 2016 représentent à elles seules 38% de la base.
Une tendance se dessine quant à l’évolution croissante du nombre de sinistres dans
le temps, à la fois pour les clos et au global.
Pour chaque année de déclaration entre 2013 et 2017, la proportion de sinistres

clos sans règlement reste inférieure à 75% des clos.
Toute année de déclaration confondue, la proportion de clos sans règlement est

supérieure à 62%, ce qui est relativement important. Une tendance à la baisse de
22
cette proportion est constatée entre 2011 et 2014 mais repart à la hausse à partir
de 2015.
La proportion de sinistres non clos se répartit majoritairement sur les trois der-
nières années. La sinistralité actuelle du portefeuille est axée principalement sur
les années de déclaration les plus récentes (2015-2017).
Nous présentons dans la partie suivante quelques statistiques sur la durée de vie des
sinistres.
3.3.4 Statistiques sur la durée de vie des sinistres
Un sinistre développé sur une longue période a une forte probabilité d’avoir un cumul
de règlements élevé. Les statistiques sur la durée de vie des sinistres ont pour objectif
d’isoler ou de détecter des populations de sinistres homogènes. La question est de savoir
si un sinistre déclaré par exemple en 2002 a une durée de vie relativement similaire à
celle d’un sinistre déclaré en 2012.
Nous tentons de repérer une certaine stabilité des statistiques dans le temps. Une ap-
proche pour mesurer cette dynamique est l’analyse des courbes de survie 3 des sinistres.
Le graphique 3.5 illustre la courbe de survie des sinistres par année de déclaration. Cha-
cune de ces courbes intègre l’information sur la durée de vie des sinistres clos et non clos,
mais aussi des sinistres de catégorie 1, 2 et 3. Pour rappel, la durée de vie des sinistres
non clos est censurée à droite.
Nous identifions quatre types de population :
la population 1 : ce sont les sinistres associés aux années de déclaration

2002-2004. Ils présentent la particularité d’être de vieilles affaires et d’avoir une
durée de vie en moyenne longue.
Nous rappelons que sur les années de 2002 à 2004, très peu de sinistres sont
connus.
la population 2 : ce sont les sinistres rattachés aux années de déclaration

2005-2009.
la population 3 : ce sont les sinistres rattachés aux années de déclaration

2010-2014. A partir de 2010 (à savoir de 2010 à 2014), les sinistres déclarés se
closent rapidement. Nous notons par exemple que moins de 50% des sinistres ont
une durée de vie supérieure à un an et seul 25% sont clos après deux ans de vie.
Cette population comprend entre-autre les sinistres clos qui ont une durée de vie
maximale d’environ quatre ans.
3. Nous utilisons le package Survival de R pour la représentation des courbes.
23
la population 4 : ce sont les sinistres associés aux années de déclaration

2015-2017. Ils sont les plus récents et par conséquent, leur durée de vie ne peut
être que faible relativement à celle des autres sinistres. Nous distinguons sur cette
plage deux types de censure : celle due aux sinistres clos de manière rapide, qui
potentiellement ont un développement différent des sinistres rattachés aux années
antérieures ; et celle due aux sinistres non clos. Les sinistres non clos ont une durée
de vie résiduelle non nulle et plus ou moins importante selon leurs caractéristiques.
Figure 3.5 – Courbe de survie des sinistres par année de déclaration
La durée de vie des sinistres conditionne leur durée de développement. Environ 99,5%
des sinistres se sont développés sur au plus 8 ans et 99,95% sur au plus 10 ans ; la
moyenne étant de 2 ans.
Outre, les conclusions que nous pouvons tirer de l’analyse de la survie des sinistres,
l’étude parallèle des montants de règlements permet sans doute de détecter aussi des
profils de sinistres.
Avant de présenter différentes statistiques sur les sinistres, nous traitons tout d’abord
la question de la revalorisation des montants, en tenant compte de l’inflation.
24
3.3.5 La prise en compte de l’inflation passée
Les incréments de règlements sur la période 2014-2017, sont connus pour tous les
sinistres de la catégorie 1 et 2. Il n’est pas possible d’appliquer l’inflation sur les règle-
ments des sinistres de la catégorie 3.
Pour appliquer de l’inflation, nous proposons d’utiliser une courbe d’inflation pour porter
les montants de règlements à une même année de référence. Les règlements effectués
en protection juridique sont liés majoritairement aux frais de consultation d’experts ou
d’avocats. A défaut de trouver un indice particulièrement associé au domaine juridique,
nous nous basons sur le salaire net annuel moyen des cadres et professions intellectuelles
supérieures (entre 2002 et 2015) 4 pour déduire une courbe d’inflation entre 2002 et 2015.
Cet indice est représenté par le graphe 3.6. Pour les années 2016 et 2017, nous émettons
l’hypothèse que le taux d’inflation de 2015 reste constant sur 2016 et 2017. La tendance à
la hausse des salaires est tout de même conservée (le facteur d’inflation est supérieur à 1).
Tous les montants sont revalorisés sous le référentiel 2017.

Pour un règlement (incrément) effectué en date t, sa revalorisation s’effectue comme
suit :
2017
Y
Inflat é
R èglementt = R èglementt ∗ (1 + tauxs ) ∗ (1 + tauxt )1/2
s =t +1
Les règlements sont supposés être effectués en milieu d’année.

Tous les montants présentés par la suite sont revalorisés de l’inflation passée.
Figure 3.6 – Courbe d’inflation sur 2002-2015
Pour la revalorisation des règlements futurs, se pose aussi la question de l’inflation

future.
4. https ://insee.fr/fr/statistiques/serie/001665103#Tableau
25
A défaut d’une modélisation de la courbe par une méthode comme celle de Wilkie, nous
utilisons un proxy qui est la moyenne des taux connus de l’année 2002 à l’année 2015.
Ce proxy définit le scénario central. Nous lui appliquons un choc à la hausse de 5% pour
définir le scénario up (facteur à 1,013061) et un choc à la baisse de 5% pour définir le
scénario down (facteur à 1,011817).
Sur les trois scénarios, l’hypothèse de conservation des salaires à la hausse est respectée.
3.3.6 Statistiques sur les montants de règlements
Les statistiques exposées précédemment se basent uniquement sur l’axe temporel lié
aux années de déclaration. Nous explorons un second axe, croisé au premier, à savoir
la durée de développement des sinistres. La motivation est de parvenir, sous l’hypothèse
de stationnarité, à isoler des profils de sinistres qui se distinguent remarquablement des
autres.
Nous nous intéressons dans un premier temps à la moyenne des règlements (incréments)
des sinistres suivant l’année de déclaration et l’année de développement. La table 3.5
présente pour une année de déclaration et une période de développement données, la
moyenne des règlements 5 des sinistres.
Année de déclaration 0 1 2 3 4 5 6
2007 0 0 0 0 0 0 50
2008 0 0 0 0 0 68 216
2009 0 0 0 0 38 169 219
2010 0 0 0 53 203 251 196
2011 0 0 45 218 205 166 171
2012 0 54 261 260 221 229
2013 55 301 254 243 248
2014 210 298 237 220
2015 206 302 244
2016 184 284
2017 175
Table 3.5 – Moyenne de règlements (en ¿) des sinistres par (année de déclaration, période
de développement)
De manière inattendue, un sinistre déclaré en 2013 et ayant été développé sur une
année a un règlement moyen équivalent à un sinistre déclaré en 2012 et ayant été déve-
loppé sur deux années. Les montants de règlements effectués en 2013 sont très faibles
en comparaison de ceux des autres années, pour une même période de développement.
L’explication de ce constat est la présence de cette troncature à gauche des données avant
la fin de l’année 2013 exposée antérieurement.
Face à cette non-exhaustivité des montants renseignés en 2013, ils ne sont pas pris
en compte dans la modélisation de la charge ultime.
5. Les montants sont arrondis à l’euro près.
26
3.4 Gestion de l’effet de troncature des données
Nous présentons l’histogramme des log-règlements des sinistres de catégorie 1 et 2

par période de développement (figure 3.7), afin de détecter un potentiel glissement dans
le temps de la distribution empirique des montants.
Sur le graphique 3.7, la distribution des montants semble conserver une certaine stabilité
sur les trois premières périodes de développement : sur ces périodes, la distribution des
log-règlements se recentre sur la médiane.
Nous précisons que la stabilité de la distribution des règlements d’une période de dé-
veloppement à une autre n’est pas une hypothèse requise : nous ne nous attendons pas
à observer une stabilité des règlements au cours du développement d’un sinistre.
Figure 3.7 – Log-règlements par période de développement
3.4.1 Implications de l’effet de troncature
Nous avons fait état d’une troncature à gauche des données, et donc d’une absence
de l’information de la charge ultime pour un grand nombre des sinistres clos. Il est de ce
fait inapproprié de modéliser directement la charge ultime (c’est-à-dire l’utiliser comme
variable à expliquer) en considérant l’intégralité de la base de sinistres des contrats indi-
viduels.
Une première approche de modélisation consisterait à ne prendre en compte que les
sinistres déclarés dans la fenêtre d’observation fin 2013-fin 2017. Cependant, des in-
formations liées aux sinistres de la catégorie 2 seraient perdues. La modélisation de la
charge ultime n’est envisageable qu’en présence d’une base de donnés complète.
27
3.4.2 Approche envisagée
Nous adoptons dans ce mémoire une autre approche qui se penche sur la modélisation
des incréments de règlements par période de développement. Cette approche conduit à
re-structurer la base de sinistres des contrats individuels et à proposer deux nouveaux
types de bases :
La base des incréments de règlements
Pour chaque ligne de la base de sinistres des contrats individuels, l’information sur
les caractéristiques initiales et le déroulé des règlements sur la fenêtre d’observation est
connue. Pour constituer la base des incréments de règlements par période de développe-
ment, chaque sinistre est dupliqué suivant la période de développement et le montant de
règlement associé. Elle intègre la connaissance du déroulé des sinistres clos (hors caté-
gorie 3) et non clos.
Exemple (associé au graphique 3.8) : Considérons un sinistre déclaré en 2012 et clos en

2016. Les règlements effectués en 2014, 2015 et 2016 au titre de ce sinistre sont connus ;
mais pas les règlements antérieurs. Dans la base des incréments de règlements, ce sinistre
sera dupliqué trois fois et la différence entre ces duplicatas est la période de développement
et le montant associés.
Figure 3.8 – Exemple d’un sinistre dupliqué
La période de développement est intégrée en tant que variable explicative catégorielle.

Nous faisons ainsi le choix de regrouper les règlements de toutes les périodes de dévelop-
pement dans une seule et même base. Une alternative aurait été de séparer les périodes
de développement et d’ajuster un modèle différent pour chacune d’elles. Une des actions
à mener qui est liée à ce choix est la prise en compte de poids accordée à chaque période
de développement.
La variable à expliquer est l’incrément de règlement. La variable "période de développe-

ment" prend les modalités {0 ;... ;8}. Ce qui suppose qu’un sinistre ne peut se développer
que sur 9 ans. En reprenant l’exemple précédent, le règlement de 2014 est lié à la période
de développement 2 et le règlement de 2015 à la période 3.
28
Les bases de transition entre périodes de développement
L’approche évoquée permet la modélisation des incréments de règlements mais pas

celle de la charge ultime. Si nous définissons la charge ultime d’un sinistre comme la
somme des règlements multipliés par la probabilité de passage d’une période de déve-
loppement à une autre, alors la modélisation de la probabilité est la dernière étape pour
estimer la charge ultime.
Comment procéder ?
A partir de la base de sinistres de contrats individuels, huit bases distinctes sont extraites.
Chacune d’elles est utilisée pour estimer la probabilité de passage d’une période de dé-
veloppement à une autre. La base associée au passage d’une période de développement t
à la suivante comprend les caractéristiques initiales de tous les sinistres ayant au moins
été développé sur t périodes et une variable binaire indiquant si le sinistre est développé
ou non à t + 1.
Exemple : Considérons un premier sinistre déclaré en 2012 et clos en 2015 ; il s’est dé-
veloppé sur 4 périodes. Considérons un second déclaré en 2012 et clos en 2013 ; il s’est
développé sur 2 périodes. Un dernier sinistre développé sur une période en 2012. Pour
comprendre comment ils interviennent dans la construction des bases de transition, nous
nous référons à la figure 3.9.
Figure 3.9 – Bases de transition
La variable binaire "Passage" détermine pour chaque sinistre s’il est observé en période
de développement t + 1 sachant qu’il a été développé sur t périodes.
29
3.5 Portefeuille final pour la modélisation
Nous récapitulons la construction des différentes bases (figure 3.10) évoquées dans
les sections précédentes.
Figure 3.10 – Les différentes bases d’étude
La base des incréments de règlements (149 199 lignes) et les bases de probabilités
de passage sont celles utilisées pour la modélisation de la charge ultime. Elles intègrent
l’information sur les sinistres clos et sur les sinistres non clos.
Les variables retenues sont consignées dans la table 3.6.
Variables Base des règlements Bases de passage

GROUPE_COMPTABLE X X
POSITION_ASSURE X X
GARANTIE_ACTIVE X X
TYPE_POLICE X X
DISTRIBUTION X X
CODE_PRODUIT X X
NUM_PRODUIT X X
MARCHE X X
SOUS_MARCHE X X
PART_PROF X X
TYPE_CLIENT X X
TYPE_GESTION X X
TYPE_ENCAISSEMENT X X
DELAI_DECLARATION X X
REGLEMENT X
DEVELOPPEMENT X
PASSAGE X
Table 3.6 – Variables du portefeuille final
La variable DEVELOPPEMENT est catégorielle et propose les modalités {0 ;1 ;... ;8}. La

variable PASSAGE est binaire et indique si le sinistre se développe d’une période de déve-
loppement à une autre.
Ayant à disposition une base solide, nous pouvons appliquer les méthodes proposées
30
pour l’estimation de la charge ultime.

Dans les prochains chapitres, :
— nous déterminons le seuil d’écrêtement des graves pour la séparation des sinistres
attritionnels et des sinistres graves.
— les méthodes d’apprentissage sont appliquées sur les sinistres attritionnels. Les
sinistres graves sont réintégrés via une autre modélisation.
31
II
Estimation des provisions dossier/dossier d’ouverture

Introduction : Explication de l’approche
Introduction : Explication de l’approche
A la déclaration d’un sinistre, les gestionnaires de sinistres sont tenus de constituer

des provisions D/D afin de couvrir tous les coûts futurs engendrés par le dit sinistre.
Cette estimation des provisions est faite sur la base des informations disponibles à l’ou-
verture du sinistre (contexte du sinistre, connaissance du client, garantie concernée,...).
Formalisme général
La modélisation directe de la charge ultime ne peut être envisagée étant donné l’effet
de troncature constaté dans la base de sinistres des contrats individuels. L’approche qui
consiste à modéliser en amont les incréments de règlements conduit à formuler la relation
ci-dessous.
Elle permet de comprendre la modélisation statistique des provisions D/D. La provision
D/D constituée à l’ouverture d’un sinistre correspond à l’espérance du cumul des règle-
ments revalorisés associés à ce sinistre.
Soit (Ft )t ≥t0 une filtration, la provision D/D à l’ouverture s’écrit :
T
X
Provision D/Dt0 = E[ R èglementsrevalorisé |Ft0 ]
s =0
T
X Coef d 0 inflations
= E[ R èglements ∗ |Ft0 ]
s =0
Coef d 0 actualisations
X Coef d 0 inflations
= P(T ≥ s) ∗ E[R èglements ∗ |T ≥ s; Ft0 ]
s=0,1,...
Coef d 0 actualisations
Où
t0 correspond à la date d’ouverture du sinistre ;

T , la date de clôture du sinistre ;
Ft0 correspond représente les informations disponibles à la date d’ouverture, c’est-
à-dire l’ensemble des variables connues à t0 et participant à la modélisation.

P(T ≥ s) = P(T ≥ 1) ∗ P(T ≥ 2|T ≥ 1) ∗ · · · ∗ P(T ≥ s|T ≥ s − 1) ; s ≥ 1
Les coefficients d’inflation et d’actualisation font des intervenir des taux futurs et sont
définis par :
s
Y
Coef d 0 inflations = (1 + tauxhinflation ) ∗ (1 + tauxtinflation
0
)1/2
h =t 0 +1
et
33
s
Y
Coef d 0 actualisations = (1 + tauxhactualisation ) ∗ (1 + tauxtactualisation
0
)1/2
h =t 0 +1
La variable muette s est intrinsèquement liée aux périodes de développement d’un

sinistre.
Remarque : Pour la modélisation, les règlements de la base des incréments sont re-
valorisés de l’inflation passée (Se référer au chapitre précédent). Ils sont modélisés bruts
de recours et bruts de réassurance.
Le coefficient de revalorisation ne sera porté que par le coefficient d’inflation. Nous sup-
posons un taux d’actualisation nul, ce qui nous place ainsi dans une vision prudente et
non une vision best-estimate.
Les hypothèses sous-jacentes à l’approche
Il est important de noter que cette approche assume deux hypothèses :
l’hypothèse d’homogénéité statistique
Soit,
— t l’année de déclaration : t ∈ Dec = {2006; . . . ; R = 2017}
— s la période de développement : s = 0, . . . , 8
— Ft |s la distribution des règlements Xt |s pour l’année t et la période s.
Sous l’hypothèse d’homogénéité statistique,
∀s, ∀t1 , t2 ∈ Dec, Ft1 |s ∼ Ft2 |s

0 ∼0 désigne l’équivalence en loi de deux distributions.
En particulier, E(Xt1 |s ) = E(Xt2 |s ) et σ (Xt1 |s ) = σ (Xt2 |s ).
l’hypothèse de stationnarité
Nous supposons l’existence de coefficients de revalorisation utilisés pour une mise

en as-if des règlements à une date de référence notée R.
Les chroniques de règlements revalorisés
∀t, t + s ≤ R, {Coef de revalorisationt +s→R ∗ Xt |s }
34
sont stationnaires.
Le coefficient de revalorisation Coef de revalorisationt +s→R permet de ramener un
montant en date t + s à la date R. Il est indépendant de la date de déclaration.
Les étapes de modélisation de la charge ultime
Le processus de modélisation de la charge ultime se résume aux étapes suivantes :
i) Définition des poids

La première étape passe par la définition des poids pour la prise en compte de l’effet
"nombre de sinistres" par période de développement.
ii) Séparation de la base

La base des incréments de règlements est séparée en une base d’apprentissage et
en une base de test. Un modèle d’arbre de régression ou de forêt aléatoire ou de
réseau neuronal est ensuite appliqué sur la base d’apprentissage.
iii) Hypothèse d’homogénéité

Nous vérifions par la suite l’hypothèse d’homogénéité.
iv) Hypothèse de stabilité

Un ajustement des facteurs de revalorisation est opéré sur les montants de règle-
ments estimés afin de tester l’hypothèse de stationnarité.
v) Modèle des probabilités de passage

Les probabilités de passage sont modélisées à l’aide d’un arbre de régression 6 .
vi) Modèle de la charge ultime

Les modèles de règlements et de probabilités de passage sont agrégés pour aboutir
au modèle de la charge ultime.
vii) Performance du modèle

Le modèle de la charge ultime est enfin testé sur la base de test et le résultat estimé
est ainsi comparé à la charge réelle des sinistres.
Pour ce qui concerne les deux dernières étapes, un estimateur de la charge ultime
(sous le scénario central) pour un sinistre donné peut être défini comme suit :
S
X
Charge
[ ultime sc énario central = R èglement
[revalorisé +
0
[revalorisé
pˆs ∗ R èglements
s =1
= R èglement
[ 0 ∗ Coef d 0 inflation 1/2
sc énario central
+
S
[ s ∗ Coef d 0 inflation s+1/2
X
pˆs ∗ R èglement sc énario central
s =1
Où
s
Y
pˆs = ph[
−1→h
h =1
6. Une variable binaire peut être perçue comme quantitative.
35
Interprétation
Considérons un sinistre identifié par ses caractéristiques initiales. Les règlements par
période de développement sont estimés en changeant itérativement la valeur prise par
la variable catégorielle "période de développement". Une série de règlements est ainsi
obtenue : le règlement de la période 0 est pris tel quel et les règlements suivants sont
pondérés par le produit des probabilités de passage du sinistre d’une période à la suivante.
36
Chapitre 4: Détection du seuil des graves
Détection du seuil des graves
Sommaire
4.1 La théorie des valeurs extrêmes (TVE) . . . . . . . . . . . . . . . . . . 37
4.1.1 La loi asymptotique du maximum . . . . . . . . . . . . . . . . . . . 38
4.1.2 La loi des excès au-delà d’un seuil . . . . . . . . . . . . . . . . . . 40
4.1.3 Estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Détermination du seuil des graves . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Représentations QQ-plot . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2 La fonction des excès moyens . . . . . . . . . . . . . . . . . . . . . 45
4.2.3 L’estimateur de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.4 L’estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.5 L’estimateur de Gertensgarbe . . . . . . . . . . . . . . . . . . . . . 48
4.2.6 La méthode des écarts inter-quantiles . . . . . . . . . . . . . . . . 49
4.2.7 Choix du seuil des graves . . . . . . . . . . . . . . . . . . . . . . . 49
Ce chapitre s’inspire des travaux de Sabrina Savarre et de Benoît Payre pour la déter-
mination d’un seuil séparant les sinistres attritionnels des sinistres graves 1 .
Nous analysons le graphique 4.1. Il permet de se rendre compte d’une importante asymé-
trie à droite de la distribution des règlements par période de développement. Cependant,
nous ne serons pas amenés à définir un seuil par période de développement, mais un
seul seuil pour toute la base des règlements.
Un montant de règlement associé à un coût élevé peut être effectué avec une faible pro-
babilité, mais non nulle. Les sinistres de faible coût ont un comportement statistique
différent de celui des sinistres à coût élevé. Une question se pose quant au seuil au delà
duquel un règlement est considéré comme grave, c’est-à-dire associé à un coût élevé.
La procédure consistant à identifier ce seuil nous conduira à séparer les sinistres

attritionnels des sinistres graves.
Nous nous baserons sur la théorie des valeurs extrêmes (rappel de la théorie, présentation
des méthodes d’estimation) pour la détermination du seuil des sinistres graves.
4.1 La théorie des valeurs extrêmes (TVE)
Nous rappelons dans cette section les principaux théorèmes et résultats de la théorie
des valeurs extrêmes. Nous pourrons nous référer à :
— C. ROBERT, Théorie des Valeurs Extrêmes (2016)

1.
37
Figure 4.1 – Distribution des montants de règlements
— A. GUILLOU et A. YOU, Introduction à la théorie des valeurs extrêmes : Applications

en actuariat (2011) 2
— B. RAGGAD, Fondements de la théorie des valeurs extrêmes, ses principales appli-

cations et son apport à la gestion du marché pétrolier (2009)
pour un approfondissement de la TVE.
L’étude des valeurs extrêmes passe par l’analyse de deux approches : l’approche GEV
(Generalized Extreme Value) et l’approche GPD (Generalized Pareto Distribution). Ces deux
approches sont présentées dans les sections suivantes.
4.1.1 La loi asymptotique du maximum
La TVE a pour objectif d’étudier la loi asymptotique du maximum d’une suite de va-
riables aléatoires réelles.
Considérons (X1 , X2 , ..., Xn ), une suite de n variables aléatoires indépendantes et identi-
quement distribuées (i.i.d) de fonction de répartition commune F .
Pour l’étude du comportement extrême des événements, la variable Mn = max {X1 , ..., Xn }
est introduite. Elle correspond au maximum des n variables définies ci-dessus.
Un des résultats fondamentaux de la TVE est le théorème établi en 1928 par Fisher
et Tippet. Ce théorème définit la loi asymptotique de la variable maximum Mn .
2. https://www.institutdesactuaires.com/global/gene/link.php?doc_id=657&fg=1
38
Théorème de Fisher-Tippet
S’il existe deux suites de normalisation an > 0 et bn ∈ R, et une loi non-dégénérée H

telle que :
Mn − an
→H
bn
Alors H est l’une des trois lois limites suivantes, données par leur fonction de répartition :
i) la distribution de Gumbel
Λ(x ) = exp(− exp(−x )), x ∈ R
ii) la distribution de Fréchet


 exp(−x −α ), x > 0

Φ α (x ) = 

 0, x ≤ 0

iii) la distribution de Weibull


 exp(−(−x )α ), x ≤ 0

Ψα ( x ) = 

 1, x > 0

Ce théorème stipule que celle que soit la loi F , la limite des extrêmes a toujours la
même forme. Bien que le comportement de ces lois soit complètement différent, elles
peuvent être combinées en une seule paramétrisation contenant un unique paramètre γ
qui contrôle l’épaisseur de la queue de distribution. Ce paramètre est l’indice des valeurs
extrêmes.
La forme commune est la suivante :

 exp −(1 + γx )−1/γ , γ , 0, 1 + γx > 0

Hγ (x ) = 

 exp − exp(−x ) , γ = 0, −∞ ≤ x ≤ ∞

où H est une fonction de répartition non dégénérée. Cette loi est appelée la loi des valeurs
extrêmes généralisée, notée GEV (Generalized Extreme Value).
Jenkinson propose une écriture uniforme en introduisant les paramètres de position

µ ∈ R et d’échelle σ > 0 :
( )
x − µ −1/γ x −µ

Hγ,µ,σ (x ) = exp − 1 + γ , γ , 0, 1 + γ >0
σ σ
Remarque : Ce théorème est l’analogue du théorème central limite, qui définit la loi
asymptotique d’une somme de variables i.i.d. Le TCL fournit une seule loi limite possible
tandis que le théorème de Fisher-Tippet en fournit trois :
i) le cas γ = 0 est associé à la distribution de Gumbel ;

ii) le cas γ > 0 est associé à la distribution de Fréchet de paramètre α = 1/γ ;
iii) le cas γ < 0 est associé à la distribution de Weibull de paramètre α = −1/γ.
39
Chaque distribution de la liste ci-dessus correspond à un domaine d’attraction, ca-

ractérisé par l’indice des extrêmes.
Le tableau 4.1 donne des exemples de distribution appartenant à chacun des domaines
d’attraction.
Domaine d’attraction Gumbel Fréchet Weibull

Loi Queue fine Queue épaisse Queue finie
Exemples Log-normale Pareto Uniforme
Exponentielle Cauchy Bêta
Table 4.1 – Exemples de lois dans les domaines d’attraction
L’approche basée sur la GEV est critiquée dans la mesure où l’utilisation d’un seul
maxima conduit à une perte d’information contenue dans les autres grandes valeurs de
l’échantillon 3 .
La méthode des excès au-delà d’un seuil (ou Peaks-Over-Threshold (POT)) proposée par
Pickands (1975) permet de résoudre ce problème.
4.1.2 La loi des excès au-delà d’un seuil
La méthode POT analyse le comportement des observations au delà d’un seuil donné.
Plutôt que de considérer le maximum Mn , nous nous intéressons aux valeurs qui excèdent
un certain seuil élevé.
Cette méthode initialement proposée par Pickands (1975), a été étudiée aussi par d’autres
auteurs 4 .
Soit un seuil u ∈ R et soit Nu =

Pn
1Xi >u le nombre de dépassements du seuil u par les
i =1
(Xi )i =1,...,n . Nous notons Yi les excès correspondants, c’est-à-dire Yi = Xi − u.
Nous cherchons à partir de la loi F de X à définir une loi conditionnelle Fu par rapport
au seuil u pour les variables excédant ce seuil. La loi conditionnelle des excès est définie
par :
F (u + y ) − F (u )
Fu (y) = P(X − u ≤ y|X > u ) = ,y ≥ 0
1 − F (u )
Le théorème de Pickands-Balkema-de-Haan (explicité en annexe) donne la loi limite
pour les valeurs extrêmes. Sous certaines conditions de convergence, la loi limite est une
loi Pareto généralisée (notée GPD (Generalized Pareto Distribution)). Ce théorème expose
une relation entre la loi limite du maximum et la loi des excès au-delà d’un certain seuil.
La fonction de répartition de la GPD est définie par :
y −1/γ

 1 − 1 + γ σ (u )
 ,γ , 0
Gγ,σ (u ) (y) = 


 1 − exp − y , γ = 0

σ (u )
3. Bechir Raggad, Fondements de la théorie des valeurs extrêmes, ses principales applications et son
apport à la gestion du marché pétrolier (2009)
4. Smith(1987), Davison et Smith(1990), Reiss et Thomas (2001)
40
Les approches GEV et GPD ont en commun la question de l’estimation de l’indice des
valeurs extrêmes.
4.1.3 Estimation statistique
Diverses méthodes ont été proposées pour estimer les paramètres des lois GEV et
GPD. Nous trouvons par exemple :
la méthode basée sur le maximum de vraisemblance (Smith, 1987)

la méthode basée sur les moments pondérés (Greenwood et al., 1979)
les méthodes bayésiennes (Lye et al., 1993)
les approches non-paramétriques : l’estimateur de Pickands (1975), l’estimateur de
Hill (1975), l’estimateur de Dekkers-Einmahl-de Hann (Dekkers et al., 1989).
Estimation par la méthode des "maxima par blocs"
Les paramètres de la loi GEV sont estimés à l’aide d’un échantillon de maxima de n
variables aléatoires i.i.d. Pour obtenir un tel échantillon, il faut utiliser la méthode dite
des "maxima par blocs". Une valeur k ∈ 1, . . . , n (assez grande) est choisie et l’échantillon
X1 , . . . , Xn est divisé en m sous-échantillons de taille k. Nous récupérons ainsi m maxima
M1 , . . . , Mm utilisés pour l’estimation des paramètres de la loi GEV.
Pour l’estimation, nous pouvons par exemple utiliser la méthode du maximum de vraisem-
blance en considérant que la loi commune des maxima est une loi des valeurs extrêmes.
La méthode des maxima par blocs requiert un grand nombre d’observations et une diffi-
culté liée à la constitution des blocs vient aussi se greffer.
Nous n’utiliserons pas cette méthode par la suite pour la détermination du seuil des
graves.
Estimation non-paramétrique de l’indice des extrêmes
Deux estimateurs proposés dans la littérature et liés à une approche non-paramétrique

sont présentés. Nous renvoyons aux auteurs pour comprendre les étapes de construction
des estimateurs.
Ces estimateurs sont basés sur les statistiques d’ordre X1,n , . . . , Xn,k .
l’estimateur de Hill (1975)
k
1X
Hill
γ̂k,n = log(Xn −i +1,n ) − log(Xn −k,n )
k i =1
Remarque : L’estimateur de Hill ne s’emploie que lorsque la loi appartient au do-

maine d’attraction de Fréchet.
l’estimateur de Pickands (1975)
41
4.2 Détermination du seuil des graves
!
1 Xn −k,n − Xn −2k,n
Pickands
γ̂k,n = log
log2 Xn −2k,n − Xn −4k,n
Remarque : Cet estimateur est valable quelque soit la distribution des extrêmes.
Pour ces estimateurs, le choix de k (le nombre d’observations retenu) est crucial. Pour
k trop grand, l’approximation par une GPD sera mauvaise et l’estimateur aura un biais
important. A l’inverse pour un k petit, le calcul de l’estimateur engendre une variance
importante, conduisant à une perte de sa stabilité. Le choix de k relève d’un compromis
biais/variance.
Estimation de Gertensgarbe
La méthode est issue des travaux de Gertensgarbe et Werner de 1989. Elle permet
de déterminer le point de départ de la région extrême et fournir une estimation du seuil
optimal. Elle fait intervenir la version séquentielle du test de Mann-Kendall avec à l’idée,
qu’à partir de la zone des extrêmes une modification du comportement des écarts se fera
remarquer.
Soit un échantillon x1 , . . . , xn . Considérons la série des écarts ∆i de l’échantillon ordonné

x1,n , . . . , xn,n , soit ∆i = xi,n − xi −1,n avec i = 2, . . . , n.
Pour chaque élément ∆k de la série, nous calculons combien d’éléments précédents lui
sont inférieurs, soit nk . Le test porte sur la quantité Ui∗ qui est la somme cumulée des nk ,
soit Ui∗ =
Pi
k =2 nk .
La statistique du test est donnée par :
i (i −1)
Ui∗ − E(Ui∗ ) Ui∗ − 4
Ui = p = q , i = 1, . . . , n − 1
Var (Ui∗ ) i (i −1)(2i +5)
72
Une autre série pour la décroissance des différences ∆n , . . . , ∆2 est calculée. Le point
d’intersection de ces deux séries signe l’entrée dans la zone des extrêmes.
A partir des estimateurs de l’indice des valeurs extrêmes, il est proposé dans la section
suivante de détecter le seuil des graves.
Nous proposons dans un premier temps, à travers des QQ-plot, de tester l’adéquation
des observations à une certaine loi de probabilité.
Des représentations graphiques permettront d’aborder la question de la détermination
du seuil des graves : la fonction des excès moyens, l’estimateur de Hill, l’estimateur
de Pickands, la méthode de Gertensgarbe. Une valeur u sera identifié comme un seuil,
42
pour ce qui concerne les trois premières méthodes, lorsque l’évolution de l’estimateur
en fonction du seuil se stabilise. Ces approches graphiques ne visent pas à fournir une
valeur précise du seuil, mais conduisent à définir un intervalle d’appartenance du seuil.
Une dernière approche, la méthode des écarts relatifs inter-quantiles, est proposée pour
la détection du seuil u.
4.2.1 Représentations QQ-plot
Le QQ-plot est un graphique qui représente les quantiles d’un échantillon d’observa-
tions (xi )i =1,...,n contre les quantiles d’une distribution théorique. Il permet ainsi d’analyser
graphiquement l’adéquation d’un échantillon à une distribution.
Si l’échantillon est issu de cette distribution théorique, le QQ-plot est linéaire.
Le QQ-plot exponentiel
Le QQ-plot exponentiel étudie l’adéquation à une loi exponentielle. Le graphique re-

présente les couples de points :
i

−log 1 − ; xi,n , i = 1, . . . , n
n+1
Il permet de tirer une conclusion quant à la queue de la distribution :
si les observations sont issues d’une loi exponentielle, les points du graphique sont
alignés. La queue de la distribution est dite très légère ;
si la queue est lourde, le graphique est convexe ;

si la queue est légère, le graphique est concave.
Le graphique 4.2 présente le QQ-plot exponentiel associé aux montants de règlements

non nuls.
Le graphique a une forme convexe, ce qui laisse suggérer que la queue de la distri-
bution sous-jacente aux observations est plus épaisse que celle de l’exponentielle. Cela
pourrait correspondre à une Pareto ou une GPD.
Le QQ-plot généralisé
Le QQ-plot généralisé permet de définir le domaine d’attraction de la loi sous-jacente

aux observations.
Soit :
 k 
 1 X 
Hk,n = Xn −k,n ∗   log(Xn −i +1,n ) − log(Xn −k,n )
k
i =1
Les points log( n +i 1 ); log(Hk,n ) sont ensuite représentés. Le signe de l’indice des extrêmes
est déduit de l’allure de la courbe :
si la courbe est constante, γ = 0 ;

si la courbe est croissante, γ > 0 ;
43
Figure 4.2 – QQ-plot exponentiel des montants de règlements
si la courbe est décroissante, γ < 0.

Le graphique 4.3 représente le QQ-plot généralisé associé aux montants de règlements
non nuls.
Figure 4.3 – QQ-plot généralisé
Le graphique a une allure croissante, ce qui laisse suggérer que l’indice des valeurs
extrêmes est positif. La distribution des règlements est dans le domaine d’attraction de
44
Fréchet. Ainsi, l’estimateur de Hill pourra être calculé sur les observations.
4.2.2 La fonction des excès moyens
Cette méthode conduit à la détermination d’un seuil u. L’estimateur empirique de la

fonction des excès moyens par rapport à un seuil donné est défini comme suit :
Pn
i =1 ( X i − u ) +
ên (u ) = Pn
i =1 1Xi >u
Dans le cas particulier où la distribution X est une GPD, alors la fonction des excès
moyens est linéaire.
L’approche par la fonction des excès moyens consiste à tracer le mean excess plot, c’est-
à-dire l’ensemble de points (u ; ên (u )), puis à choisir le seuil u à partir duquel ên (u ) est
approximativement linéaire en u 5 .
Le graphique 4.4 représente la fonction des excès moyens en fonction du seuil.
Figure 4.4 – La fonction des excès moyens
Nous identifions trois seuils correspondant chacun à une entrée dans une zone de
stabilité à savoir 700, 5 500 et 7 220.
Le seuil à 700 est inférieur à la moyenne des règlements (hors les 0) : il est étrange qu’un
seuil des graves soit inférieur à la moyenne de la distribution ; nous considérons ainsi
que ce seuil est trop faible pour représenter un seuil de graves.
0,5% des observations sont supérieures au seuil 5 500 et correspondent à 4% du coût
global. 0,1% des observations sont supérieures au seuil 7 220 et correspondent à 1,6%
du coût global.
5. Nous nous référons à la propriété de stabilité de la GPD (en annexe) pour argumenter ce critère.
45
Il est aussi possible d’analyser l’évolution de la pente de l’espérance résiduelle au-delà

d’un seuil. C’est le coefficient directeur de la droite de régression linéaire entre les valeurs
au-dessus d’un seuil et les valeurs de la fonction des excès moyens correspondantes.
Le graphique 4.5 présente l’évolution de la pente de l’espérance résiduelle en fonction du
seuil.
Figure 4.5 – Evolution de la pente de l’espérance résiduelle en fonction du seuil
Nous obtenons des seuils équivalents aux seuils définis précédemment qui nous
semblent élevés.
4.2.3 L’estimateur de Hill
Le graphique 4.6 représente l’estimateur de Hill selon le nombre d’excès considéré.

Un zoom est effectué autour des statistiques d’ordre 1-2000 (figure de gauche du
graphique 4.7) et autour des statistiques d’ordre 1500-9000 (figure de droite). Au-delà de
ces statistiques d’ordre, le seuil devient proche et par la suite inférieur à la moyenne des
règlements.
Nous identifions trois seuils 5 691, 3 628 et 1 810 sur lesquels une analyse d’impact
en terme de nombre de sinistres et de coût est effectuée.
Le tableau 4.2 récapitule la proportion des observations dont le montant de règlements

est supérieur à chacun des seuils défini ci-dessus, ainsi que leur proportion dans le coût
global.
Seuil 5 691 3 628 1 810

Proportion du nombre de sinistres (%) 0,4 1,8 10,5
Proportion du coût global (%) 3,7 9,5 29,7
Table 4.2 – Différents seuils de Hill
46
Figure 4.6 – Estimateur de Hill
Figure 4.7 – Estimateur de Hill : à gauche, les ordres 1-2000 et à droite, les ordres 1500-
9000
4.2.4 L’estimateur de Pickands
Le graphique 4.8 représente l’estimateur de Pickands selon le nombre d’excès consi-

déré.
L’estimateur de Pickands est plus volatil que celui de Hill, car il ne se base que sur
trois observations. Il est sensible aux variations entre les valeurs des statistiques d’ordre.
Nous utiliserons tout de même ses seuils pour la comparaison avec les autres méthodes
d’estimation.
47
Figure 4.8 – Estimateur de Pickands
4.2.5 L’estimateur de Gertensgarbe
La première application (l’itération 0) de la méthode de Gertensgarbe ne fournit pas de

résultats probants au regard de notre jeu de données. En effet, aucun point d’intersection
n’est détecté entre les séries (croissantes et décroissantes) du test de Mann-Kendall. Nous
avons donc isolé les observations dont le montant de règlement est supérieur au quantile
à 95% arrondi au millier près ; puis de nouveau appliqué la méthode de Gertensgarbe.
Le figure 4.9 représente le graphe de Gertensgarbe (quatre itérations) et permet de détecter

l’entrée dans la zone des extrêmes.
Figure 4.9 – L’estimateur de Gertensgarbe
48
A l’issue des quatre itérations, quatre seuils sont identifiés et les proportions en
nombre de sinistres et en coût global pour les montants supérieurs au seuil sont analy-
sées. La table 4.3 récapitule ce point.
Seuil 11 788 8 826 6 737 3 909

Proportion du nombre de sinistres (%) 0,03 0,09 0,2 1,5
Proportion du coût global (%) 0,6 1,1 2,1 8,2
Table 4.3 – Différents seuils de Gertensgarbe
4.2.6 La méthode des écarts inter-quantiles
Cette méthode permet, à partir de l’analyse des écarts relatifs entre différents quan-
tiles, de détecter les pics de variations. Elle indique potentiellement une plage d’apparte-
nance du seuil des graves.
Etant donné l’impossibilité de définir tous les quantiles, nous faisons le choix d’étudier
les écarts des quantiles correspondant aux niveaux compris entre 95% et 100% par pas
de 0,5%.
La table 4.4 présente les quantiles aux niveaux explicités ci-dessus
Niveau (%) 95 95,5 96 96,5 97 97,5 98 98,5 99 99,5

Quantile 2375 2478 2627 2803 2961 3168 3500 3889 4472 5613
Ecart relatif (%) 4,2 5,7 6,3 5,3 6,5 9,5 10,0 13,0 20,3
Table 4.4 – Ecarts inter-quantiles
Le passage du quantile à 97,5% au quantile à 98% dénote une variation de 9,5% qui
est environ 3 points au-dessus des précédents écarts. Le même constant est observable
pour le passage du quantile à 98,5% au quantile à 99%.
Il est ainsi considéré que le seuil des graves par cette méthode est compris entre 3 168 et
3 889.
4.2.7 Choix du seuil des graves
Les seuils identifiés dans les différentes méthodes sont repris dans le tableau 4.5.
Excès moyens Pente Hill Pickands Gertensgarbe Inter-quantiles

1810 1523
2249
3004 3168
3628 3909 3889
5500 5500 5691 6737
7220 7220 8826
Table 4.5 – Seuils des différentes méthodes
Chaque ligne du précédent tableau correspond à un ordre de grandeur des quantiles.

Au vu de ces résultats, nous décidons de choisir un seuil à 3600 pour la séparation entre
49
sinistres attritionnels et sinistres graves. 1,8% des observations ont un montant de règle-
ment supérieur à ce seuil, et correspondent à 9,7% du coût global.
Nous testons a posteriori l’adéquation des règlements supérieurs au seuil à une dis-
tribution GPD.
Le graphique 4.10 présente la distribution des excès contre la distribution GPD :
— à gauche, lorsque tous les montants de règlements sont considérés ;
— à droite, lorsque seuls les montants supérieurs à 3600 sont considérés.
Nous constatons que la figure de droite propose une meilleure adéquation à une
distribution GPD que celle de gauche. Ce chapitre prend tout ce sens avec ce graphique,
quant à l’utilité de définir un seuil de séparation.
Figure 4.10 – La distribution des excès vs la distribution GPD théorique
A partir du seuil choisi, un écrêtement est réalisé sur la base des règlements : tous
les montants supérieurs au seuil prennent la valeur du seuil. Une base dite attritionnelle
est ainsi obtenue.
Les modèles de machine learning sont applliqués sur la base attritionnelle.
Les montants "graves" font l’objet d’un calcul particulier : les surplus des montants au
dessus du seuil sont résumés par leur moyenne. Le forfait des graves est calculé à partir
de cette moyenne et de la proportion constatée de sinistres dits graves.
Ce forfait est ensuite intégré dans l’estimation des montants attritionnels.
50
Chapitre 5: La méthode CART
La méthode CART
Sommaire
5.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 La construction d’un arbre de régression . . . . . . . . . . . . . . . 51
5.1.2 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.3 Robustesse des modèles : indicateurs statistiques . . . . . . . . . . 54
5.2 Illustration sur les données et analyse des résultats . . . . . . . . . . 56
5.2.1 Gestion de l’effet "nombre de sinistres" par des poids . . . . . . . . 56
5.2.2 Vérification de l’hypothèse d’homogénéité statistique . . . . . . . . 59
5.2.3 Vérification de l’hypothèse de stationnarité . . . . . . . . . . . . . . 60
5.2.4 Mesure de l’importance des variables . . . . . . . . . . . . . . . . . 61
5.2.5 Modélisation des probabilités de passage . . . . . . . . . . . . . . . 61
5.2.6 Modèle de la charge ultime . . . . . . . . . . . . . . . . . . . . . . . 62
5.1 Théorie
Cette section est en majeure partie inspirée du livre An Introduction to Statistical Lear-
ning : with applications in R écrit par G. James et al.
Les méthodes dites de partitionnement récursif ont été intégrées dans les classes de
modèles par Breiman, Freidman, Olshen et Stone en 1984, sous la dénomination CART :
Classification And Regression Tree. Les méthodes CART (aussi appelées les méthodes
d’arbre de décision), traitent à la fois des problèmes de régression et des problèmes de
classification.
Cette méthode vient s’ajouter à une liste de méthodes statistiques déjà existantes : la
régression multilinéaire, les modèles linéaires généralisés, l’analyse discriminante. La
méthode CART reste simple d’utilisation et facile d’interprétation.
Nous ne nous focalisons dans cette section que sur les arbres de régression.
5.1.1 La construction d’un arbre de régression
Un arbre de régression est construit par partitionnement récursif d’un ensemble d’ob-
servations suivant différentes caractéristiques. Le résultat fourni regroupe par classes
homogènes l’ensemble des observations au regard de la variable à prédire (variable quan-
titative).
Nous reprenons l’exemple exposé dans le livre de G. James et al., qui se base sur le
jeu de données Hitters 1 du package ISLR de R. L’exemple tend à prédire le salaire d’un
joueur de baseball sur la base de son ancienneté et du nombre de hits réalisés l’année
précédente. La variable à prédire est le logarithme du salaire et les deux caractéristiques
1. Les données sont recueillies sur les saisons 1986-1987.
51
5.1 Théorie
Figure 5.1 – Arbre de régression (non élagué) sur les données Hitters
mentionnées ci-dessus sont les variables explicatives. Le salaire renseigné dans le jeu de
données est en milliers de dollars.
La figure 5.1 présente l’arbre de décision associé à cette régression. Il consiste en une
succession de règles de décision commençant depuis la racine de l’arbre.
Comment interpréter l’arbre ? :
Le premier noeud est situé au sommet de l’arbre (c’est la racine). Il fournit comme
information 2 la moyenne et la variance des valeurs prises par la variable à prédire.
La première variable utilisée est l’ancienneté du joueur (variable Years). Le noeud

(racine) assigne les observations avec une ancienneté inférieure à 4,5 ans à la
branche gauche et les autres à la branche droite.
L’espace des observations assignées à la branche droite est subdivisé suivant la

variable Hits. Les joueurs ayant joué plus de 4,5 ans et ayant réalisé plus de 118
hits, ont en moyenne un salaire de 1000 ∗ e 6,7 = 845 560 dollars.
Le partitionnement est ainsi récursif jusqu’au dernier niveau de l’arbre. L’arbre

permet de remarquer que l’espace des observations est subdivisé en sept régions
aussi appelées feuilles terminales.
L’arbre de régression 5.1 traduit de manière simple la relation entre la variable Salary
et les caractéristiques Years et Hits : plus un joueur aura une ancienneté élevée et aura
fait preuve d’adresse la saison précédente, plus son salaire aura tendance à être élevé.
2. Elle n’est pas présente sur l’arbre 5.1.
52
5.1 Théorie
5.1.2 Formalisme
Cadre
Considérons l’espace des variables {Y, X 1 , ..., X j , ..., X p }, p variables explicatives et Y

une variable quantitative à expliquer. Les données sont constituées de n réalisations de
cet p+1-uplet de variables. L’objectif est d’explorer les variables afin d’en dégager une
structure : trouver une relation entre les variables et détecter celles qui sont les plus
discriminantes. L’estimation de la variable à expliquer est faite en s’aidant des règles de
décision prises dans l’arbre.
La construction de l’arbre se fait par la détermination d’une séquence de noeuds . Chaque

noeud s’identifie par la sélection d’une variable parmi les variables explicatives et d’une
division (ou split) qui engendre une partition de l’ensemble des observations en deux
classes. A la racine de l’arbre, correspond tout l’échantillon et à chaque division, cet
échantillon est récursivement partitionné.
Nous renvoyons à G. James et al. [7] pour les détails techniques.

La construction d’un arbre passe par la définition d’un algorithme (annexe A) dont nous
spécifions a minima les paramètres clés.
Les paramètres clés de l’algorithme
Pour dérouler l’algorithme, les paramètres (basiques) suivants sont à spécifier :
La profondeur maximale : c’est le niveau maximal souhaité dans l’arbre. Ce para-

mètre dicte la taille de l’arbre.
Le gain minimum pour splitter : la fonction de gain est calculée pour chaque seg-
mentation admissible et l’algorithme ne retient que les segmentations dont le gain
est supérieur à la valeur renseignée.
Le nombre d’observations minimal sur une feuille : l’algorithme écarte tous les
noeuds fils présentant une taille inférieure à cette valeur.
C’est sur la base du choix de ces paramètres, qu’il sera éventuellement possible de
construire des modèles différents les uns des autres. Il est donc important de choisir les
paramètres qui s’ajustent le mieux aux données. Des packages, par exemple h2o sur R
ou sklearn sur Pyhton, proposent le calcul d’ hyperparamètres déterminés à partir de
l’optimisation d’un critère d’évaluation ou de comparaison.
Généralement,un phénomène de sur-apprentissage est observé lors de la construction

de l’arbre maximal ; c’est-à-dire que le modèle s’ajuste très bien aux données mais fait
preuve d’un faible pouvoir prédictif à la vue de nouvelles observations. Un élagage de
l’arbre (retirer les feuilles "nuisibles") est nécessaire pour accroître le pouvoir prédictif du
modèle.
53
5.1 Théorie
Elagage d’un arbre
A quel point doit-on laisser grandir un arbre ?

Un arbre maximal sur-apprend sur les données et un arbre trop petit ne détecte pas les
structures entre les variables. Il est donc nécessaire de trouver l’arbre optimal pour palier
à ces deux limites.
Breiman et al. proposent la stratégie suivante :
— Partant de l’arbre maximal Tmax , construire une suite de sous-arbres élagués de

Tmax .
— Choisir l’arbre final parmi cette sous-suite d’arbres.
Nous nous référons à la publication Model selection for CART regression Trees de Ser-
vane Grey et Elodie Nedelec (2008) [12] pour la compréhension du processus d’élagage
d’un arbre. Une version synthétique est aussi présentée dans l’annexe B.
Dans la suite, la modélisation tiendra toujours compte de l’élagage des arbres.
Prédiction de la variable à expliquer
Une feuille résulte de l’interaction entre les modalités de différentes variables. A chaque
feuille, correspond une valeur prédictive de la variable à expliquer. Elle est égale à la
moyenne empirique des observations sur cette feuille.
Connaissant les modalités prises par une observation, une branche de l’arbre lui est
associée, et ainsi la feuille terminale fournit la valeur prédictive.
5.1.3 Robustesse des modèles : indicateurs statistiques
Avant d’appliquer un modèle de régression sur une base de données, il est important
de la séparer en trois sous-bases : la base d’apprentissage, la base de test et la base de
validation. Dans de nombreuses situations, la base de test et la base de validation se
confondent.
Ce choix est fait pour notamment tester la robustesse des modèles (pouvoir de prédiction)
construits.
Les modèles sont construits sur la base d’apprentissage et appliqués sur la base de test
(et de validation) pour fournir des prédictions. Le processus classique de modélisation
conduit à réaliser un grand nombre de modèles mais un seul est retenu. Plusieurs in-
dicateurs statistiques aident au choix du meilleur modèle. Les indicateurs suivants sont
les plus usuellement utilisés en apprentissage supervisé.
Le Mean Square Error (MSE)
n
1X
MSE = (yi − ŷi )2
n i =1
54
5.1 Théorie
Où
n est le nombre d’observations de la base de test (ou de validation)
yi est la valeur de la variable à expliquer prise par l’observation i
ŷi est la valeur estimée de la variable à expliquer par le modèle pour l’observation i.
Le Root Mean Square Error (RMSE)
√
RMSE = MSE
Le Mean Absolute Error (MAE)
n
1X
MAE = |yi − ŷi |
n i =1
Le Mean Absolute Percentage Error (MAPE)
n
1 X |yi − ŷi |
MAPE =
n i =1 yi
L’erreur relative
Pn Pn
i =1 yi − i =1 ŷi
Erreur relative = Pn
i =1 yi
L’erreur relative négative est interprétée comme une sur-estimation.
Le modèle présentant la plus faible valeur sur ces indicateurs pourrait être jugé plus
pertinent, mais seulement au regard des modèles construits.
55
5.2 Illustration sur les données et analyse des résultats
La modélisation à partir de la base des incréments de règlements suppose une homo-

généité statistique des sinistres sur une période de développement quelque soit l’année
de déclaration, et aussi une stabilité des chroniques de règlements. Ces hypothèses sont
testées a posteriori. Un autre point à rappeler avant d’entamer la modélisation est l’effet
nombre de sinistres.
5.2.1 Gestion de l’effet "nombre de sinistres" par des poids
La définition des poids
Sur la base de l’information sur le nombre de sinistres par période de développement,

des poids proportionnels peuvent être définis :
Nombre de sinistres de la période de r éf érence

Poids associ é au d éveloppementt =
Nombre de sinistres d éveloppés en t
Le nombre de sinistres de la période de référence correspond au nombre de sinistres

le plus élevé ; soit le nombre de sinistres associé à la période 0.
Avec le constat que ces poids sont élevés, nous proposons des poids intermédiaires entre
ceux égaux à 1 et ceux proportionnels (définis ci-dessus) : ce sont les poids égaux à la
racine carrée des poids proportionnels.
Les poids estimés sont consignés dans la table 5.1.
Année de développement 0 1 2 3 4 5 6 7 8
Poids proportionnels 1 1,7 3,8 7,5 14,8 29,1 56,9 112,4 208,2
Poids en racine carrée 1 1,3 1,9 2,7 3,8 5,4 7,5 10,6 14,4
Table 5.1 – Poids pour l’algorithme d’arbre de régression
Le très faible nombre de sinistres sur les dernières périodes de développement se

traduit par un poids attribué beaucoup plus important.
Comment interviennent les poids ?
Pour tenir compte des poids dans l’estimation des règlements, l’algorithme classique
d’arbre de régression est légèrement adapté. L’approche développée par l’algorithme rpart 3
de R pour l’intégration des poids de l’arbre est celle qui impacte directement la fonction de
coût. Nous reprenons les notations de la partie théorique. La fonction de coût est redéfinie
par :
n
X
L= wi (yi − ȳ)2
i =1
3. https://github.com/cran/rpart/blob/master/src/anova.c
56
Où
— wi désigne le poids associé à chaque observation
— ȳ est la moyenne pondérée des valeurs observées de la variable à expliquer.
n
1 X
ȳ = Pn wi ∗ y i
i =1 w i i =1
Avec les poids définis dans la table 5.1, un premier modèle d’arbre de régression est
appliqué sur la base d’apprentissage constituée de 75% de la base des incréments de
règlements. Les résultats qui seront exposés, sont produits à partir de la base de
test.
Premiers résultats après l’introduction des poids
Le graphique 5.2 présente pour chaque période de développement l’erreur relative

commise par le modèle en considérant les différents poids (unitaire, proportionnel et ra-
cine). Ce graphique pointe notamment une mauvaise calibration du modèle sur la période
de développement 8 lorsque les poids choisis sont proportionnels.
Figure 5.2 – Erreur relative par période de développement avec les différents poids
Les poids en racine carrée accentuent le phénomène de sur-estimation par période

de développement. Notamment, sur les périodes 1, 2 et 3 où nous observons une sous-
estimation, l’erreur relative avec les poids en racine est la plus faible. Sur les périodes 4,
5 et 6 où une sur-estimation est observée, l’erreur relative avec les poids en racine est de
nouveau la plus faible. Une tendance à la baisse de l’erreur relative (sur-estimation) se
57
dégage lorsque le modèle est construit avec les poids en racine carrée.
Ces poids sont considérés comme intermédiaires entre les poids unitaires et les poids
proportionnels.
Nous analysons parallèlement le RMSE pondéré et le MAE pondéré par période de déve-
loppement au travers du graphique 5.3. Le RMSE du modèle avec les poids proportionnels
est systématiquement plus élevé que celui des autres modèles, excepté pour la dernière
période de développement.
Le RMSE des modèles avec des poids unitaires et en racine carrée sont sensiblement
proches. Nous pourrions sur la base de ce critère modéliser avec l’un ou l’autre de ces
poids sans grand impact.
L’analyse du MAE conduit à écarter les poids proportionnels pour la modélisation.
Figure 5.3 – RMSE et MAE par année de développement avec les différents poids
En résumé
Pour considérer un minimum l’effet nombre de sinistres, nous conservons les poids
en racine pour la suite de la modélisation.
58
5.2.2 Vérification de l’hypothèse d’homogénéité statistique
Considérons le modèle retenu précédemment après définition du vecteur de pondéra-

tions.
Nous observons dans un premier temps, la moyenne des règlements estimés contre la
moyenne des règlements réels par période de développement et par année de déclaration
avec le graphique 5.4.
Figure 5.4 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
En observant les règlements connus, une rupture d’homogénéité se fait remarquer

à partir de la période de développement 5. Un sinistre déclaré par exemple en 2009 et
développé jusqu’à la période 6, a subi un règlement moyen de 97 tandis qu’un sinistre
déclaré en 2008 et développé en 6 a un règlement moyen de 264 soit deux fois plus. Les
règlements effectués en période de développement 8 font tout aussi état d’une distorsion
entre les années de déclaration. Sur cette période donnée, les règlements ne semblent
ainsi pas homogènes pour toutes les années de déclaration.
Nous comparons par suite la moyenne des règlements connus à la moyenne des rè-
glements prédits, afin de s’apercevoir si cette distorsion est maintenue ou non lors de la
modélisation.
Le modèle parvient à lisser la moyenne des règlements sur les différentes années de
déclaration par période de développement.
59
Nous analysons dans un dernier temps l’écart-type des règlements estimés contre ceux
observés à travers des intervalles de prédiction gaussiens (avec une confiance de 95%)
par année de déclaration et par période de développement.
Le graphique 5.5 laisse entrevoir des intervalles d’amplitude relativement équivalente jus-
qu’à la période de développement 5. A partir de la sixième période de développement, il
existe toujours une année de déclaration qui brise l’homogénéité au sein d’une même
période. C’est par exemple le cas de l’année 2009 de la période 7.
De manière pragmatique, il semble difficile d’attribuer ces différences à du bruit ou à

un mauvais calibrage du modèle sur ces années. Il est par ailleurs important de remar-
quer que l’estimation de la charge ultime est majoritairement portée par les résultats des
premières périodes de développement, dû au faible nombre de sinistres sur les dernières
périodes.
Nous pouvons sans impact majeur admettre que l’hypothèse d’homogénéité est vérifiée,
ou du moins sur les premières périodes de développement.
Figure 5.5 – Intervalles gaussiens sur les règlements prédits
La deuxième hypothèse sous-jacente à notre approche est testée dans le paragraphe

suivant.
5.2.3 Vérification de l’hypothèse de stationnarité
Les montants de règlements sont revalorisés avec une courbe d’inflation définie a
priori (se référer au chapitre 3). Nous estimons que l’hypothèse de stabilité des sinistres
peut être vérifiée en ajustant les coefficients de revalorisation de manière itérative.
La technique envisagée est la suivante :
60
l’itération 0 correspond à l’estimation des règlements revalorisés de l’inflation définie

a priori.
une courbe d’inflation est calculée a posteriori en utilisant la relation suivante :

P
R èglements pr éditst
Coefficientt = P
R èglements connust
Où t est l’année calendaire de la fenêtre d’observation 2014-2017.
un arbre de régression est de nouveau appliqué en revalorisant les montants de

règlements avec la nouvelle courbe d’inflation, calculée a posteriori.
il est ainsi possible d’itérer plusieurs fois.
La mise en place de cette technique itérative passe par la définition d’un critère d’ar-
rêt : si l’écart absolu entre les facteurs d’inflation de l’itération i et ceux de l’itération
i − 1 est inférieure à 5% ou si le nombre d’itérations est supérieur à 10, alors l’algorithme
décrit ci-dessus s’arrête. Lorsque le nombre d’itérations excède 10, nous supposons que
l’algorithme n’a pas convergé. Le critère porté sur la variation des facteurs ne garantit
pas une meilleure performance de la régression mais assure néanmoins que les montants
sont stationnaires quelque soit l’année de déclaration.
Le tableau 5.2 résume les facteurs de revalorisation a priori et les facteurs de revalo-
risation après 5 itérations.
Coefficients de revalorisation 2014 2015 2016 2017

A priori 1,0394 1,0278 1,0166 1,0055
Après 5 itérations 1,0443 1,0395 1,0367 1,0089
Table 5.2 – Coefficients de revalorisation
Pour la suite de la modélisation, nous conservons les coefficients de revalorisation

estimés après 5 itérations.
5.2.4 Mesure de l’importance des variables
La variable ’DEVELOPPEMENT’ a été introduite après avoir choisi une approche qui
consistait à modéliser les règlements par période de développement dans un même en-
semble. Nous mesurons a posteriori l’importance accordée à cette variable (figure 5.6).
Nous constatons très rapidement que le modèle n’accorde pas d’importance à la va-
riable explicative ’DEVELOPPEMENT’.
5.2.5 Modélisation des probabilités de passage
Pour un sinistre donné, le montant de règlement moyen par période de développe-

ment a été estimé conditionnellement à sa survie sur neuf périodes. Cependant, tous
les sinistres ne se développent pas sur une si longue durée, et il est donc nécessaire de
61
Figure 5.6 – Importance des variables
prendre en considération la probabilité qu’ayant été développé sur une période donnée,
un sinistre le soit la période suivante. Ce qui peut se traduire aussi par l’estimation de la
durée de vie du sinistre.
Dans le chapitre sur la présentation des données, sont construites les bases pour la
modélisation des probabilités. La variable à expliquer est binaire, et prend la valeur 1
lorsqu’un sinistre ayant été développé jusqu’à la période t, poursuit son développement à
la période t + 1 ; sinon cette variable prend la valeur 0.
Comme nous ne nous intéressons qu’à la probabilité, un simple arbre de régression peut
être appliqué au jeu de données. Si l’objectif relevait de la classification, il aurait fallu
appliquer un arbre de classification.
A partir des huit bases distinctes, les probabilités de passage pt →t +1 , t compris entre
1 et 8 sont estimées. Par ailleurs, un sinistre une fois déclaré, se développe au moins sur
la période 0.
Sur la base d’un modèle de probabilité et d’un modèle de règlements, un modèle de charge
ultime peut être proposé.
5.2.6 Modèle de la charge ultime
Le modèle de la charge ultime est une agrégation du modèle des règlements et du

modèle des probabilités de passage.
La charge ultime estimée est vue comme la somme des règlements estimés par période de
développement, et pondérés par les différentes probabilités de passage. Un estimateur de
la charge ultime est défini dans le chapitre introductif de la partie II du document.
La robustesse du modèle de la charge ultime est challengée sur la base de test constituée
de 25% de la base des incréments de règlements. Deux situations se présentent :
62
i) lorsque dans la base de test, le sinistre est identifié comme clos et appartient à la
catégorie 1 4 , alors l’estimation fournie par le modèle peut être directement com-
parée aux règlements cumulés connus dans la base. Pour un sinistre clos, nous
connaissons avec certitude le nombre de périodes développées.
ii) lorsque le sinistre est identifié comme non clos et appartient à la catégorie 1, alors il
est envisagé d’estimer la charge ultime revalorisée de l’inflation future et de vérifier
qu’elle est a minima supérieure aux règlements cumulés connus à fin 2017.
Remarque : Les sinistres de la catégorie 2 et 3 ont servi pour l’estimation des règle-
ments et des probabilités de passage mais sont moins utiles pour la phase de test du
modèle de la charge ultime. Pour rappel, nous n’avons pas à disposition les règlements
cumulés depuis l’ouverture de ces sinistres.
Nous abordons uniquement la première situation à savoir le cas des sinistres clos.
Il est force de constater que les sinistres clos constituent un sous-portefeuille de tous
les sinistres ayant permis la modélisation. L’application brute de la formule d’estimation
abordée dans le chapitre introductif introduit ainsi un biais dans les résultats.
Nous distinguons de ce fait deux méthodes d’estimation de la charge ultime :

i) la méthode d’estimation a posteriori : elle est identique à celle évoquée au chapitre
introductif.
ii) la méthode d’estimation a priori : elle corrige le biais induit par la sélection du sous-
portefeuille de sinistres clos. Pour un sinistre développé sur h périodes, la charge
ultime est estimée par :
h −2
(h )
X
Charge
[ ultime = R èglement
[revalorisé +
0
[revalorisé +
pˆs ∗ R èglements
s =1
[revalorisé phˆ−1 , h > 1

1h>1 R èglementh −1
1 − pˆh
Exemple : Considérons un sinistre déclaré en 2014 et clos en 2015. Il s’est développé

sur les périodes 0 et 1. Nous estimons ainsi sa charge ultime par :
Charge
[ ultime
(2)
= R èglement [revalorisé pˆ1
[revalorisé + R èglement
0 1
1 − pˆ2
Comparaison de l’estimation a posteriori et de la charge réelle
Le graphique 5.7 permet de se rendre compte de la proportion de sinistres dont la

charge estimée est inférieure à la charge réelle.
Une modélisation parfaite se serait matérialisée par un alignement des observations
suivant la première bissectrice. Mais dans cette modélisation, environ 70% des résultats
4. Seuls les sinistres de cette catégorie ne sont pas tronqués sur la fenêtre d’observation.
63
Figure 5.7 – Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos)
sont sur-estimés, donc au-dessus de la bissectrice.
Sur la base de test utilisée, nous pouvons comparer la charge réelle, la charge estimée
et les provisions des gestionnaires en considérant certaines variables. Les graphiques 5.8
et 5.9 illustrent pour quatre variables, les estimations faites par les gestionnaires, les
estimations faites par le modèle CART et les charges réelles.
Figure 5.8 – Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires
64
Figure 5.9 – Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires
Les provisions d’ouverture estimées par les gestionnaires sont a posteriori systéma-
tiquement supérieures à la charge ultime. Sur certaines caractéristiques, l’estimation
faite par les gestionnaires est supérieure au double de la charge ultime. C’est le cas par
exemple de la modalité PJMO de la variable SOUS_MARCHE ou encore de la modalité
CTU.
C’est pour tenter de réduire cette grande différence que l’étude a été menée.
Nous présentons le tableau 5.3 qui synthétise la charge réelle au global (base de
test), la charge estimée a priori et l’estimation des gestionnaires. Les montants en gris
correspondent aux scénarios down et up.
Charge réelle Charge estimée Estimation des gestionnaires

6 312 209
5 940 875 6 307 224 12 355 281
6 302 076
Table 5.3 – Comparaison des charges
Les estimations fournies par le modèle CART restent très proches de la charge ultime :
le modèle sur-estime la charge globale 5 avec une erreur relative de 2,6%.
Comparaison de l’estimation a priori et de la charge réelle
Tout comme l’estimation a posteriori, nous pouvons comparer l’estimation a priori

faite par le modèle et la charge ultime au travers du graphique 5.10. Les résultats restent
très similaires à la précédente méthode d’estimation. De même, environ 70% des sinistres
5. Pour rappel, les comparaisons sont faites sur la base de test constituée des sinistres clos.
65
ont une charge sur-estimée.
La comparaison avec les estimations des gestionnaires fait tout aussi état de résultats
relativement meilleurs. Tandis que les gestionnaires sur-estiment de 108%, le modèle
sur-estime quant à lui de 2%. L’amélioration des estimations est ainsi non négligeable.
Figure 5.10 – Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos)

6 030 209
5 940 875 6 026 497 12 355 281
6 022 787
Table 5.4 – Comparaison des charges
66
Chapitre 6: La méthode Random Forest (RF)
La méthode Random Forest (RF)
Sommaire
6.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1.1 La méthode RF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1.2 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.3 Importance des variables . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.1 Gestion de l’effet "nombre de sinistres" par des poids . . . . . . . . 70
6.2.2 Etude de la sensibilité des résultats aux paramètres . . . . . . . . 72
6.2.3 Mesure de l’importance des variables . . . . . . . . . . . . . . . . . 76
6.2.6 Modélisation de la charge ultime . . . . . . . . . . . . . . . . . . . 78
6.1 Théorie
La classe des méthodes dites d’agrégation regroupe entre autres le bagging (Breiman,
1996), le random forest (Breiman, 2001), le gradient boosting. Le socle de ces modèles est la
méthode CART. Les modèles d’agrégation se veulent être une amélioration de la méthode
CART, en exploitant ses faiblesses pour construire des modèles adaptatifs. L’instabilité
bien connue des arbres de décision peut être corrigée par la technique d’agrégation de
modèles : ils participent à la réduction de variance des arbres.
Dans ce mémoire, seule la méthode random forest (associée à un problème de ré-

gression) est exposée. Mais l’étude pourrait s’étendre à d’autres modèles d’agrégation,
le but de ce mémoire n’étant pas d’exposer toutes les techniques de machine learning
disponibles dans la littérature.
6.1.1 La méthode RF
L’arbre de régression fait preuve d’une grande instabilité due au sur-apprentissage

inhérent à l’algorithme. La méthode random forest (notée RF par la suite) fait intervenir
une composante aléatoire pour réduire la variance.
Une forêt aléatoire est un ensemble d’arbres supposés indépendants au sens probabi-
liste et statistique, avec une composante aléatoire dont l’aléa porte sur les variables qui
interviennent dans le modèle. Initialement introduite par Breiman en 2001, la méthode
RF a été de nombreuses fois testée, comparée et analysée. Sa qualité de prédiction ou de
prévision est incontestablement meilleure à celle de l’arbre de décision.
Construire un random forest passe par l’apprentissage d’un nombre donné d’arbres sur
les données, chacun se distinguant de l’autre à la fois par les variables prises en compte
dans le modèle et par l’échantillon d’apprentissage (bootstrapping).
67
6.1 Théorie
6.1.2 Formalisme
Cadre
Soit l’espace de variables {Y, X 1 , ..., X p }, p variables explicatives et Y une variable

quantitative à expliquer. La méthode RF construit B arbres dont le noeud de chaque
arbre j est appris sur un ensemble de variables X̃j = {X̃j1 , ..., X̃jm } ⊂ {X 1 , ..., X p }. Le nombre
m reste constant pour tous les noeuds de tous les arbres. Il dénote le nombre de variables
choisies aléatoirement pour la modélisation de chaque noeud. Soit Tj la fonction prédictive
de l’arbre j.
Nous notons pour ∀ j = 1, ..., B :
Ŷj = Tj (X̃j )
La relation ci-dessus n’est rien d’autre que la prédiction fournie par un arbre sur la
base des variables explicatives ayant servi au modèle.
Lorsque la variable à expliquer est quantitative, alors la prédiction par la méthode RF

est la suivante :
B B
1X 1X
Ŷ (RF )
= Ŷj = Tj (X̃j )
B j =1 B j =1
Parallèlement, la modélisation de chaque arbre se fait sur un échantillon bootstrappé

de l’échantillon initial des observations. La composante aléatoire porte donc sur les va-
riables choisies mais aussi sur la fréquence d’apparition des différentes modalités dans
la base d’apprentissage.
La stratégie d’élagage d’un arbre de la forêt peut ne pas être adoptée. En effet, chaque
arbre ajuste les données avec un faible biais (sur-apprentissage) mais une variance impor-
tante. Cependant, l’agrégation de tous les arbres participe à une réduction de la variance
totale du modèle.
Description de l’algorithme
Les paramètres inhérents à l’algorithme RF comprennent de manière logique ceux

sous-jacents à l’algorithme CART mais aussi d’autres paramètres :
Le nombre d’arbres à modéliser dans la forêt.

Le nombre de variables à tirer aléatoirement (m) à chaque noeud parmi la liste des
variables incluses dans le modèle. Par défaut, et pour les algorithmes ordinaires
(c’est-à-dire ceux suggérés par les langages standards comme R), m = p/3 pour
un problème de régression Mais d’autres valeurs de m sont proposées telles que
m = log2 (p) ou m = %p ou encore m compris entre 1 et p. Lorsque m n’est pas
entier, il est arrondi à la partie inférieure.
68
6.1 Théorie
frenchb 1 – Algorithme standard RF

Data: Toute la base d’apprentissage
for k allant de 1 à B do
Bootstrapper l’échantillon initial ;
if m = p then
Appliquer un modèle CART en prenant en compte toutes les variables à chaque
noeud ;
else
Appliquer un modèle CART en prenant en ne considérant que m variables à chaque
noeud
end
Conserver la prédiction Ŷk de l’arbre ;
end
Calculer l’estimation moyenne Ŷ (RF ) ;
L’erreur out-of-bag (OOB)
L’erreur OOB est une mesure de l’erreur de prédiction des méthodes d’agrégation
utilisant le bootstrapping pour ré-échantillonner les données d’apprentissage.
Pour chaque observation de la base d’apprentissage initiale, seuls les modèles estimés sur
un échantillon bootstrappé ne contenant pas cette observation sont pris en considération.
L’erreur OOB est l’erreur moyenne de prédiction de toutes ces observations.
Empiriquement, l’estimation de l’erreur OOB est proche de l’estimation de l’erreur de

prédiction sur la base de test. Utiliser cette estimation pour comparer des modèles RF
peut se substituer à la décision de diviser les données en base d’apprentissage et en base
de test.
Si toutefois, l’estimation de l’erreur de prédiction est réalisée sur une base de test, nous
pourrons nous appuyer sur les indicateurs statistiques MSE, RMSE, MAE.
6.1.3 Importance des variables
La modélisation par les GLMs suppose le passage par une phase de sélection des va-
riables à inclure dans le modèle final. Cette sélection se base sur des méthodologies telles
que les algorithmes backward, forward ou stepwise ; mais aussi sur des tests statistiques
comme le test de Fisher qui juge de la significativité des variables.
En comparaison, dans la modélisation d’une forêt de régression, toutes les variables sont
prises en compte et leur importance est mesurée a posteriori.
L’importance d’une variable se définit par l’apport de cette variable dans la construction
de l’arbre. Plus concrètement, c’est la part de gain apporté par cette variable dans le mo-
dèle, relativement aux autres variables.
L’apport est calculé comme suit pour chaque variable de chaque arbre :
les noeuds segmentés selon cette variable sont détectés en parcourant l’arbre
l’importance est définie comme la somme des gains de ces noeuds divisée par la
somme totale de gains
69
Par définition donc :

p
X
importance (X i ) = 100%
i =1
Les variables ayant une importance élevée, relativement aux autres, sont les plus
représentatives du modèle. Notons que les variables possédant de nombreuses modali-
tés ont tendance à être sur-représentées dans les modèles et possèdent de ce fait une
importance élevée.
Cette section reprend les mêmes étapes de modélisation que celles évoquées dans
le chapitre relatif à la méthode CART ; à la différence près qu’une étude de sensibilité
des résultats aux paramètres de la forêt aléatoire est menée. Les paramètres importants
choisis sont le nombre d’arbres, la profondeur des arbres et le nombre de variables à
échantillonner à chaque split.
6.2.1 Gestion de l’effet "nombre de sinistres" par des poids
Les poids présentés dans le chapitre de la modélisation CART (se référer à la table 5.1)
sont repris dans la modélisation par forêt aléatoire.
Une question se pose quant à la prise en compte des poids dans l’algorithme de
construction des arbres. La majorité des packages servant à développer des modèles RF
propose d’associer des poids aux observations : lors du processus de ré-échantillonnage
de la base d’apprentissage, les observations avec un poids élevé sont sélectionnées le plus
souvent. Les poids augmentent ainsi la probabilité de sélection d’une observation.
Les observations liées aux dernières périodes de développement sont le plus souvent ré-
échantillonnées pour rétablir l’équilibre avec le grand nombre d’observations des périodes
récentes.
Un premier modèle RF est construit et permet de rendre compte de l’impact des poids
dans les estimations. Il est constitué de 100 arbres avec une profondeur de 10 pour cha-
cun des arbres et le nombre de variables ré-échantillonnées à chaque split est de 5.
Le graphique 6.1 présente pour chaque période de développement l’erreur relative d’un
modèle avec les poids définis dans la table 5.1 et l’erreur relative avec les poids tous égaux
à 1.
Le graphique pointe un mauvais calibrage du modèle sur la période de développement

4, relativement aux autres périodes de développement.
70
Figure 6.1 – Erreur relative avec les différents poids
En analysant le modèle avec les poids proportionnels, nous constatons que sur les pé-
riodes de développement où les trois modèles sous-estiment, il présente la plus forte
sous-estimation.
Exemple : Sur la période de développement 1, les trois modèles sous-estiment (erreur

relative > 0). Le modèle avec les poids proportionnels a la plus forte sous-estimation. Le
même constat est observé sur les périodes 2, 3 ou 7.
Nous pouvons mener le même raisonnement sur les périodes à sur-estimation pour
conclure que le modèle avec les poids proportionnels a tendance à sous-estimer les règle-
ments en comparaison aux autres modèles.
Nous analysons parallèlement le RMSE pondéré et le MAE pondéré par période de dé-
veloppement au travers du graphique 6.2.
Sur la base de ces critères, les trois modèles se distinguent principalement sur les der-
nières périodes de développement. De manière générale et grossière,
RMSE (poids proportionnels) < RMSE (poids en racine ) < RMSE (poids unitaires)
La même relation est maintenue pour le MAE.
En résumé
Le modèle avec les poids proportionnels sous-estiment les règlements en comparaison

aux autres modèles mais présentent les plus faibles RMSE et MAE.
71
Le constat inverse est associé au modèle avec les poids unitaires.

Nous prenons le parti de choisir un modèle intermédiaire qui est le modèle avec les poids
en racine carrée pour la suite de la modélisation.
Un modèle de départ à 100 arbres (profondeur 10, nombre de variables à 5) a été

imposé pour l’étude de la sensibilité des résultats aux pondérations. Il est question dans
la section suivante d’analyser la sensibilité des indicateurs aux choix des paramètres RF.
6.2.2 Etude de la sensibilité des résultats aux paramètres
Les forêts sont construites avec l’objectif d’une étude de sensibilité du RMSE et du
MAE au regard de trois paramètres : le nombre d’arbres, la profondeur des arbres et le
nombre de variables à échantillonner à chaque split.
La modélisation se fait sur la base d’apprentissage et la prédiction sur la base de test. Les
indicateurs calculés par la suite sont pondérés en utilisant les poids en racine carrée.
Nombre d’arbres ?
La méthode RF est une extension de la méthode CART à plusieurs arbres de régres-

sion. Construire une forêt suppose de connaître le nombre d’arbres à modéliser. Afin de
définir ce nombre d’arbres, nous partons du postulat qu’une forêt contient au minimum
50 arbres (chacun ayant une profondeur de 10). Sur la base d’une plage de ~50; 200 (par
pas de 10) arbres, l’évolution du RMSE et du MAE est analysée : le plus petit RMSE ou
MAE est détecté et le nombre d’arbres associé est retenu pour la suite.
72
Figure 6.3 – Evolution des indicateurs statistiques en fonction du nombre d’arbres
Le graphique 6.3 semble indiquer que la forêt aléatoire à 180 arbres présente le plus
petit RMSE et la forêt à 110 arbres le plus faible MAE. Les différentes forêts ont un RMSE
et un MAE du même ordre de grandeur (un écart maximal d’une unité pour le RMSE et
le MAE). Le choix du nombre d’arbres n’impacte pas considérablement les résultats. Par
ailleurs, il n’existe pas de relation linéaire entre le nombre d’arbres et les indicateurs. Une
tendance dans l’évolution des indicateurs ne s’impose pas. Mais étant donnés les écarts
très faibles des indicateurs entre les modèles, l’erreur de décision est minime. La forêt à
180 arbres est conservée pour la suite de la modélisation.
Profondeur des arbres ?
Les arbres de la forêt précédemment modélisée ont tous une profondeur de 10 : ce

paramètre devient dorénavant variable sur un intervalle de ~2; 30 (par pas de 4). L’évolu-
tion du RMSE et du MAE est analysée afin d’en repérer les petites valeurs. Faire varier la
profondeur d’un arbre permet de trouver un bon compromis entre "biais important/faible
variance" et "faible biais/variance importante". Un modèle à faible biais et à forte variance
perd en pouvoir prédictif une fois appliqué à une base de test non comprise dans la base
d’apprentissage.
Le graphique 6.4 semble indiquer que la forêt à 180 arbres avec une profondeur de
10 possède le plus petit RMSE et celle à 180 arbres avec une profondeur de 14 possède
le plus petit MAE 1 . Comme c’est le cas sur ce graphique, il peut arriver que le RMSE
et le MAE n’adopte pas la même tendance (croissance ou décroissance). Contrairement
1. L’analyse n’est valable que sur la liste des niveaux de profondeur définis plus haut.
73
à ce que nous pourrions interpréter, le RMSE n’a pas nécessairement une tendance à
la hausse lorsque le modèle devient volatile (présentant une variance élevée). Le RMSE
accorde plus de poids aux écarts les plus importants 2 .
Figure 6.4 – Evolution des indicateurs statistiques en fonction de la profondeur (180 arbres)
Nous prenons le parti de poursuivre la modélisation avec une forêt aléatoire de 180
arbres, chacun ayant une profondeur de 10.
Nombre de variables à échantillonner ?
Le dernier paramètre dont la sensibilité est étudiée, est le nombre de variables échan-
tillonnées parmi la liste disponible à chaque split. Pour un modèle de régression, la valeur
par défaut couramment employée dans les différents packages est la quantité p/3, p étant
le nombre de variables explicatives disponibles dans la base des incréments de règlements
soit 15 variables. Sur la base d’une plage de ~2; 7 variables à échantillonner, l’évolution
du RMSE et du MAE est analysée.
Le graphique 6.5 semble indiquer qu’échantillonner 4 variables à chaque split conduirait
à obtenir le plus petit RMSE.
Nous proposons d’analyser l’erreur relative entre les montants de règlements connus
et ceux prédits avec la table 6.1. L’erreur relative prend la plus petite valeur sur le modèle
à 180 arbres, profondeur 10 avec 3 variables à échantillonnées à chaque split.
En résumé
Le modèle RF finalement retenu pour expliquer les montants de règlements est une
forêt à 180 arbres, une profondeur de 10 pour chaque arbre et un nombre de variables
2. https :medium.com/human-in-a-machine-world/mae-and-rmse-which-metric-is-better-
e60ac3bde13d
74
Figure 6.5 – Evolution des indicateurs statistiques en fonction du nombre de variables

échantillonnées (180 arbres, profondeur 10)
Nombre de variables Erreur relative

2 −0, 7%
3 0, 3%
4 0, 6%
5 1, 0%
6 1, 0%
7 1, 0%
Table 6.1 – Erreur relative en fonction du nombre de variables échantillonnées (180 arbres,
profondeur de 10)
échantillonnées égal à 4.
Le processus de construction des forêts effectué dans ce mémoire reste très heuristique.
L’exploration de tous les modèles dans l’espace ~50; 200 arbres x ~2; 30 de profondeur
x ~2; 7 variables à échantillonner à chaque split (soit 26 274 modèles) aurait été souhai-
table. Adopter cette approche est très coûteuse en temps d’exécution (environ 7 heures 3 ),
sans compter les problématiques de mémoire et de performance des machines. Il s’est
avéré que dans notre situation, le RMSE et le MAE sont très peu sensibles à la variation
de ces différents paramètres : les valeurs sont relativement proches d’un modèle à l’autre.
Il n’est donc pas crucial de lancer plusieurs milliers de modèles.
3. En raison d’une minute en moyenne par modèle
75
Figure 6.6 – Significativité des variables
6.2.3 Mesure de l’importance des variables
L’importance des variables de ce modèle est représentée sur le graphique 6.6. Celles
les plus significatives sont la "GARANTIE_ACTIVE", le "GROUPE_COMPTABLE", le "DE-
VELOPPEMENT",et le "CODE_PRODUIT". Trois de ces quatre variables sont intrinsèques
à la police client.
Il est tout à fait normal que le montant de règlement du sinistre soit dépendant de la ga-
rantie accordée et du produit ; pour cause, les primes payées pour acquérir les produits
d’assurance sont différentes. Le mode de gestion des sinistres semble tout aussi impacter
la distribution des règlements.
Nous considérons la forêt à 180 arbres, une profondeur de 10 pour chaque arbre et
un nombre de variables échantillonnées égal à 4. Puis nous analysons la moyenne des
règlements estimés contre la moyenne des règlements réels par période de développement
à l’aide du graphique 6.7.
Le constat évoqué dans la modélisation CART sur les règlements réels reste le même
dans cette partie étant donné que la base de test utilisée est identique dans les deux
situations.
Le modèle RF parvient à corriger la distorsion présente entre les règlements réels par an-
née de déclaration des périodes de développement 6, 7 ou 8 par exemple. Les montants de
règlements prédits par année de déclaration sont homogènes à la vue de leurs moyennes.
Nous analysons parallèlement les écarts-types associés à travers des intervalles de pré-
diction gaussiens avec une confiance de 95% (figure 6.8). L’hypothèse d’homogénéité par
76
réels (en rouge)
période de développement est portée à la fois sur la moyenne et l’écart-type des règlements.
Sous cette hypothèse, et par période de développement, les intervalles de prédiction entre
les différentes années de déclaration doivent être stables.
Outre les périodes de développement 6, 7 et 8 où un intervalle de prédiction se détache

des autres, l’hypothèse d’homogénéité semble respectée sur les autres périodes.
Le faible nombre de sinistres sur les dernières périodes laisse supposer que la non-
homogénéité observée est attribuée à du bruit sur la modélisation.
Nous admettons que l’hypothèse d’homogénéité avec la modélisation RF est vérifiée.
Nous suivons la même procédure que celle de la modélisation CART pour vérifier l’hy-
pothèse de stationnarité.
L’algorithme dans ce cas-ci s’arrête au bout de deux itérations, donc traduit une conver-
gence relativement rapide. Nous supposons ainsi qu’il existe de coefficients de revalorisa-
tion permettant de mener les montants de règlements à différentes dates de déclaration
vers une date de référence. Ces coefficients correspondent à ceux obtenus après les deux
itérations de l’algorithme et sont présentés dans le tableau 6.2.
77

A priori 1,0394 1,0278 1,0166 1,0055
6.2.6 Modélisation de la charge ultime
Pour estimer la charge ultime, un modèle de probabilité de passage devrait être

construit comme dans l’approche CART. Cependant, les résultats fournis par un arbre de
régression sont très proches des proportions empiriques et nous proposons de les conser-
ver pour la modélisation RF de la charge ultime. La meilleure approche serait de réaliser
les combinaisons (modèle de règlements RF, modèle de probabilité CART) et (modèle de
règlements RF, modèle de probabilité RF) et d’étudier leur impact sur les estimations de
la charge ultime. Mais pour la suite, nous nous limitons à la première combinaison.
Tout comme dans la modélisation CART, la robustesse du modèle est testée à l’aide des
caractéristiques des sinistres de la base de test, tout en distinguant le cas des sinistres
clos.
Nous abordons la comparaison entre l’estimation a posteriori et la charge réelle et la
comparaison entre l’estimation a priori et la charge réelle.
Le graphique 6.9 confronte la charge ultime réelle des sinistres clos et la charge esti-
mée. Nous nous intéressons aux écarts entre ces deux charges. Environ 68% des sinistres
de la base de test présentent un écart inférieur à 500, dont 74% correspondent à des si-
78
nistres clos sans règlement.
La sur-estimation globale observée est portée majoritairement par les sinistres clos sans
règlement. Le calibrage sur les charges élevées se révèle très insuffisant.
Figure 6.9 – Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos)
Nous comparons parallèlement la charge réelle, la charge estimée et l’estimation des

gestionnaires au global. Comme dans la modélisation CART, l’estimation avec le modèle
RF est en légère sur-estimation de la charge réelle. Cependant, les résultats obtenus avec
la modélisation RF sont sensiblement inférieurs que ceux de la modélisation CART.
La forêt aléatoire étant une agrégation d’arbres de régression, le biais et la variance sont
réduits en effectuant une modélisation par forêt aléatoire. La charge ainsi estimée par
le modèle RF est statistiquement proche de la charge réelle que la charge estimée par le
modèle CART.

6 289 576
5 940 875 6 281 478 12 355 281
6 276 052
Table 6.3 – Comparaison des charges (RF)
Les résultats présentés par modalités de variables font état d’un calibrage plutôt sa-
tisfaisant du modèle sur la charge réelle au global.
79
Figure 6.10 – Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires
Figure 6.11 – Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires
Le graphique 6.12 confronte la charge ultime réelle des sinistres clos et la charge
estimée.
Environ 72% des sinistres clos dans la base de test (dont 90% sont clos sans aucun
règlement) ont une charge sur-estimée par rapport à la charge réelle. En comparant les
valeurs réelles, les valeurs estimées et les provisions des gestionnaires (table 6.4), nous
80
Figure 6.12 – Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos)
constatons que le modèle RF fournit des estimations relativement proches en moyenne

de la charge réelle connue (environ -2,7% en erreur relative globale). Il est tout de même
important de noter que les gestionnaires sur-estiment a posteriori la charge ultime globale
de 108%.
Par ailleurs, une légère sur-estimation est préférable à une légère sous-estimation. Une
sous-estimation accrue des provisions de sinistres met en péril la couverture future des
règlements. Elle reste moins souhaitable qu’une sur-estimation accrue, car bien que le
coût d’immobilisation pèse sur la gestion financière de l’entreprise, cette dernière est tout
de même assurée d’honorer ses engagements.
L’approche de modélisation par les méthodes CART et RF proposent ainsi d’estimer en
trouvant un "juste milieu".

6 123 280
5 940 875 6 114 831 12 355 281
6 110 736
Table 6.4 – Comparaison des charges (RF)
81
Chapitre 7: Les réseaux de neurones
Les réseaux de neurones
Sommaire
7.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.1 Comprendre les réseaux de neurones . . . . . . . . . . . . . . . . . 82
7.1.2 Cadre mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.1.3 Apprentissage d’un réseau neuronal . . . . . . . . . . . . . . . . . 85
7.2.1 Gestion de l’effet ’nombre de sinistres’ par des poids . . . . . . . . . 88
7.2.2 Etude de la sensibilité au nombre de neurones . . . . . . . . . . . 90
7.2.5 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . . 95
7.1 Théorie
7.1.1 Comprendre les réseaux de neurones
Les réseaux de neurones (artificiels) s’inscrivent dans la catégorie des méthodes d’ap-
prentissage profond (deep learning). Ils tendent à détecter ou reconnaître des structures
au sein d’une base de données. La modélisation des réseaux de neurones s’appuie sur
le fonctionnement des neurones du cerveau humain. La terminologie neurone formel re-
viendra très souvent : c’est la représentation mathématique et informatique d’un neurone
biologique. Il calque les caractéristiques biologiques (dendrites, axone et synapses) au
moyen de fonctions et de variables numériques.
L’archétype d’un neurone biologique
Un neurone biologique (figure 7.1) peut se décomposer en trois régions principales :
1. les dendrites : ce sont de fines extensions tubulaires qui se ramifient autour du

neurone. Les signaux envoyés au neurone sont captés par les dendrites.
2. l’axone : c’est le long de l’axone que les signaux partent du neurone. Il transporte
l’influx nerveux. L’axone se connecte aux dendrites des autres neurones.
3. les synapses : c’est une jonction entre deux neurones, et généralement entre l’axone
d’un neurone et une dendrite d’un autre neurone.
L’archétype d’un neurone formel
Un neurone formel (figure 7.2) est conçu comme un automate doté d’une fonction
d’activation qui transforme ses entrées en sortie selon des règles précises 1 . Le neurone
formel (ou artificiel) copie le neurone biologique :
1. https://www.wikiwand.com/fr/R%C3%A9seau_de_neurones_artificiels
82
7.1 Théorie
Figure 7.1 – Un neurone biologique
une dendrite correspond à un signal d’entrée.

un axone correspond à un signal de sortie.
un synapse correspond à un poids de la connexion.
Les signaux provenant d’autres sources sont captés par le neurone au travers des
dendrites, la force d’un signal étant mesurée par un synapse. Les signaux entrants sont
traités et retranscrits en un signal de sortie, qui alimentera l’entrée d’un autre neurone.
Figure 7.2 – Un neurone formel
Un réseau de neurones
Un réseau de neurones est un ensemble de connexions entre plusieurs neurones for-

mels. De façon plus représentative, un réseau de neurones est composé a minima d’une
couche d’entrée et d’une couche de sortie. La couche d’entrée comprend les neurones
représentatifs des variables explicatives du modèle. La couche de sortie correspond à
un neurone (dit de sortie) qui représente la variable à expliquer. Un réseau de neurones
83
7.1 Théorie
Figure 7.3 – Un réseau de neurones avec une couche cachée (à trois neurones)
beaucoup plus complexe consiste à intégrer différentes couches cachées, chaque couche
cachée étant elle-même constituée de plusieurs neurones. Il est important de remarquer
que les neurones au sein d’une même couche n’ont pas de connexions entre eux.
Un tel réseau de neurones à plusieurs couches est communément appelé un perceptron

multicouche (PMC). La suite sera consacrée au formalisme mathématique des PMCs et
à leur modélisation.
7.1.2 Cadre mathématique
Les réseaux de neurones peuvent être à la fois utilisés pour la classification et pour
la régression. Ce mémoire ne se focalise que sur la régression. Par souci de lisibilité, les
formules ne sont présentées que pour un perceptron à une couche cachée notée PMC(1) .
Considérons l’espace des variables {Y, X1 , ..., Xp }, p variables explicatives et Y une va-
riable quantitative à expliquer. Un réseau neuronal (PMC(1) ) est défini par :
des signaux d’entrée x1 , ..., xp

une fonction d’activation (ou de transfert) σ telle que pour chaque neurone m de la
couche cachée :
zm = σ (w0m + wm
T
· x), m = 1, ..., M
où
— zm est l’output associé au neurone m de la couche cachée.

T
— {w0m , wm } = {w0m , ..., wp,m } est le vecteur de poids des flux entrants du neurone
m.
T
— wm · x est le produit vectoriel entre le vecteur poids et les variables explicatives
84
7.1 Théorie
défini par :
p
X
T
wm ·x= wj,m ∗ xj
j =1
une fonction d’estimation f telle que :
ŷ = f ( 0 + T
· z)
où
T
— { 0, } est le vecteur poids associé à l’activation du neurone de sortie.
— z = {z1 , ..., zm } l’ensemble des outputs des neurones "cachés". Ce sont des ré-
sultats intermédiaires dont leur combinaison linéaire est transformée à travers
la fonction d’estimation.
Remarque : w0 et 0 sont des "biais" : l’analogie peut être faite avec la notion d’intercept
dans les modèles linéaires.
Un modèle neuronal est donc entièrement déterminé par la donnée des variables expli-
catives et à expliquer, des fonctions d’activation et d’estimation, et des poids. Les fonctions
sont choisies a priori du modèle. Les poids sont estimés au cours de l’apprentissage.
Fonction d’activation
Les différents types de neurones se distinguent par la nature de leur fonction d’acti-
vation :
une fonction linéaire : σ = Id

une fonction de type seuil : σ (x ) = 1[0;∞[ (x )
une fonction sigmoïdale : σ (x ) = 1+exp(−
1
x)
√
une fonction radiale : σ (x ) = 1/2π exp(−x 2 /2)
En pratique, la même fonction d’activation est utilisée pour tous les neurones d’une
même couche cachée. Les modèles avec des fonctions linéaires et sigmoïdales sont les plus
utilisés car ces fonctions sont différentiables. Imposer que la fonction soit différentiable
est une propriété importante dès lors que l’optimisation des paramètres est effectuée avec
un algorithme de descente de gradient.
De manière analogue au GLM, l’objectif est d’estimer la variable cible en optimisant un

critère à définir. La prochaine section présente les étapes de calibration d’un modèle
neuronal.
7.1.3 Apprentissage d’un réseau neuronal
A la construction d’un modèle neuronal, les variables et fonctions d’activation (et d’es-
timation) sont connues. L’apprentissage du réseau se résume à l’estimation des poids
85
7.1 Théorie
w et du modèle. L’estimation des paramètres dans un modèle linéaire est basée sur
la méthode des moindres carrés. Le critère à optimiser dans un réseau neuronal est la
fonction de perte quadratique.
p
Considérons {yi ; x = {xi1 , ..., xi }}i =1,...,n un échantillon de l’espace des variables défini pré-
cédemment.
La fonction de perte quadratique est définie par :
n
X n
X
L (y, x, w, ) = Li = (yi − f (x, w, ))2
i =1 i =1
Divers algorithmes d’optimisation sont proposés dans la littérature pour minimiser

la valeur de la fonction L. Ils se basent sur la technique de descente de gradient par
rétro-propagation. C’est une méthode pour calculer le gradient de l’erreur pour chaque
neurone, de la dernière couche à la première.
La rétro-propagation du gradient
La technique consiste à corriger les erreurs sur l’estimation des poids synaptiques.
L’algorithme du gradient a pour but de converger de manière itérative vers une configu-
ration optimisée des poids synaptiques.
Il s’agira d’évaluer les dérivées partielles de la fonction L en une observation et par rapport
aux différents poids.
n
X n
X M
X
Li = (yi − f ( 0 + m ∗ zm,i ))2
i =1 i =1 m =1
∂Li
= −2 ∗ (yi − f ( 0 + T
· zi )) ∗ zm,i ∗ f 0 ( 0 + T
· zi )
∂ m
n
X n
X p
X
j
Li = (yi − f ( 0 + T
σ ( w0 + wj ∗ xi )))2
i =1 i =1 j =1
∂Li
= − 2 ∗ ( yi − f ( 0 + T
· zi )) ∗ f 0 ( 0 + T
· zi )) ∗ xij ∗ T
∗ σ 0 ( w0 + w T · x i )
∂wm,j
∂Li
∂ m
et
∂Li
∂wm,j
, ∀j = 1, ..., p ∀m = 1, ..., M sont les gradients de la fonction de perte L.
Les paramètres optimaux du modèle sont tels que L est minimale. Il est question de
résoudre le système d’équations à dérivées partielles :
=0
 ∂Li

∂ m


∂Li
=0



∂wm,j
86
7.1 Théorie
Les solutions de ce système sont obtenus numériquement avec des méthodes qui
reposent sur l’idée de la descente locale : les valeurs des paramètres sont modifiées ité-
rativement jusqu’à obtenir un optimum local (et peut-être global). L’algorithme itératif
réajuste les poids à chaque itération de sorte à converger. A l’itération ν + 1,
n
(ν +1) (ν )
X ∂Li
m = m −γ ∀m = 1, ..., M
i =1
∂ m
n
(ν +1) (ν )
X ∂Li
wm,j = wm,j −γ ∀j = 1, ..., p
i =1
∂wm,j
Le paramètre γ est appelé le pas du gradient (learning rate). Il peut être fixé, ou peut
varier en cours d’exécution de l’algorithme (il est adaptatif).
L’algorithme permettant l’estimation des poids par rétro-propagation de l’erreur est pré-
senté en annexe. La descente de gradient décrite ci-dessus se décline aussi sous sa version
stochastique, mais que nous n’aborderons pas dans le cadre de ce mémoire.
Modéliser un réseau de neurones
Avant de lancer les modèles, les variables devront subir un traitement au préalable.
i l’espace des variables qualitatives est transcrit en un tableau disjonctif complet.

Ce tableau est constitué en lignes des individus et en colonnes les modalités des
variables. A l’intersection de la ligne i et de la colonne/modalité k (associée à la
variable j), nous avons 1 si l’individu possède la modalité et 0 sinon.
Cette technique est inspirée de l’approche ACM (Analyse des Correspondances Mul-
tiples).
ii les variables quantitatives sont normalisées. La bĳection suivante est opérée pour
chaque variable quantitative :
xj − moyenne (x)
xj → xjnorm =
ecartType (x)
Sur une même base de données, un réseau de neurones se distingue d’un autre par
le nombre de couches cachées, le nombre de neurones par couche cachée et la fonction
d’activation. Les décisions prises sur ces trois facteurs conditionneront la qualité du mo-
dèle, à savoir son pouvoir de prédiction ou sa robustesse.
Différents paramètres pourront être modulés au cours de l’algorithme :
le nombre d’itérations
un terme de régularisation
le choix de la valeur γ
87
l’erreur maximale tolérée
Des études de sensibilité peuvent être à effectuer sur chacun des trois premiers para-
mètres pour isoler leur impact dans le modèle.
Les modèles neuronaux sont souvent décrits comme étant beaucoup moins acces-
sibles que les autres méthodes de machine learning décrites antérieurement. Mais ils ont
fait preuve d’une importante efficacité dans bien de nombreux problèmes de modélisation,
conduisant à des résultats plus probants que ceux des autres méthodes.
La modélisation par le réseau neuronal (RN) s’appuie sur les mêmes bases d’apprentis-
sage et de test que les modèles CART et RF. Cependant, un pré-traitement est effectué (se
référer à la section technique) sur les variables tant quantitatives que qualitatives, avant
application des modèles.
Comme dans la modélisation CART ou RF, sont définies des étapes à suivre pour la
mise en ouvre des modèles RN. Leur description n’est pas reprise dans cette section car
similaire à celle de la méthode RF.
7.2.1 Gestion de l’effet ’nombre de sinistres’ par des poids
Les poids présentés dans le chapitre de la modélisation CART (se référer à la table 5.1)
sont repris dans la modélisation par forêt aléatoire.
La construction des réseaux de neurones est réalisée en utilisant le package nnet de

R, qui a la particularité de proposer la prise en compte de pondérations liées aux obser-
vations.
Nous renvoyons au lien qui est le code source de la fonction de modélisation des réseaux
de neurones.
Remarque : Les poids associés aux neurones (se référer à la partie théorique) sont diffé-
rents des poids associés aux observations. Dans cette section, ce sont les poids associés
aux observations qui sont traités.
Définir un réseau de neurones débute par le choix du nombre de couches et du

nombre de neurones par couche. Ce choix conditionne la structure de tout le réseau, tout
en intensifiant sa complexité. La première approche est de construire des réseaux à une
88
couche, en connaissance du théorème d’approximation universelle 2 .
Pour l’étude de la sensibilité des résultats aux poids définis, nous débutons avec un
réseau à une couche cachée et trois neurones. Le graphique 7.4 présente pour chaque
période de développement les indicateurs RMSE et MAE des modèles avec les différents
poids. Par période de développement, le RMSE des trois modèles est sensiblement iden-
tique avec une exception pour la période 7. Les valeurs du RMSE ne semble pas être
impactées par l’introduction des poids.
La même analyse n’est plus complètement valable lorsque nous nous intéressons au
MAE. L’introduction de poids proportionnels réduit le MAE des premières périodes de
développement ; mais les poids en racine carrée fournissent de meilleurs résultats avec
des valeurs plus faibles. La tendance s’inverse à partir de la période 5 ; sous un aspect
plus global, le modèle avec les poids en racine propose un MAE relativement faible.
En résumé
Nous nous basons sur l’indicateur MAE pour décider des poids en racine pour la suite
de la modélisation par réseau neuronal.
2. Le théorème d’approximation universelle indique qu’un réseau à propagation avant d’une seule couche
cachée contenant un nombre fini de neurones (c’est-à-dire, un perceptron monocouche) peut approximer des
fonctions continues sur des sous-ensembles compacts.
89
7.2.2 Etude de la sensibilité au nombre de neurones
Modélisation à une couche cachée
Sur la base d’une plage de ~2; 10 neurones sur la couche cachée, l’évolution du RMSE
et du MAE est analysée. Le choix du nombre de neurones maximal (10) est arbitraire et
devrait être étendu car les variations des indicateurs statistiques semblent importantes
(écart maximal constaté de 4 unités pour le RMSE et de 10 unités pour le MAE).
Figure 7.5 – Evolution des indicateurs en fonction du nombre de neurones
Le graphique 7.5 révèle que le réseau à 8 neurones possède à la fois le plus faible MAE
(331) et le plus faible RMSE (536). Les deux indicateurs semblent indiquer les mêmes
tendances : le réseau avec le RMSE le plus élevé possède aussi le MAE le plus élevé.
Par ailleurs, il s’avère particulièrement intéressant d’analyser l’erreur relative entre les
règlements connus et les règlements estimés (table 7.1).
Nombre de neurones Erreur relative (%)

2 7, 7
3 1, 1
4 −2, 7
5 0, 6
6 −0, 6
7 0, 3
8 −0, 3
9 −1, 8
10 0, 5
Table 7.1 – Erreur relative en fonction du nombre de neurones
Dans certaines situations, un modèle peut présenter un RMSE ou un MAE relative-
90
ment élevé et parallèlement estimer avec une erreur relative faible ou tout simplement
l’inverse. C’est le cas notamment du réseau à deux neurones construit sur notre base
d’apprentissage.
Ce réseau qui présente l’un des MAE les moins élevés avec un RMSE tout aussi faible
relativement aux autres, sous-estime la charge globale réelle avec une erreur de 7,7%.
Le phénomène inverse est observé sur le réseau à trois neurones. Il peut s’avérer ainsi
difficile d’obtenir un réseau qui fait l’unanimité suivant les trois critères.
L’erreur relative associée au modèle à 8 neurones est bien en concordance avec les valeurs
du RMSE et du MAE : ce modèle affiche pour les trois critères, les plus faibles valeurs.
Ainsi, le réseau à une couche cachée constituée de 8 neurones est conservé pour cette
approche de la modélisation. Ce réseau reste globalement satisfaisant au vu des trois
critères.
Modélisation à deux couches cachées
Pour tenter d’accroître le pouvoir prédictif par profil de risque de ce modèle, la mo-
délisation avec des réseaux à deux couches cachées est envisagée. La recherche d’un
"meilleur" modèle conduit à obtenir des structures de plus en plus complexes et de moins
en moins interprétables.
Pour cette approche, la recherche d’un modèle est effectuée dans l’espace cartésien ~2; 5
x ~2; 5 de nombre de neurones. Chaque couche cachée pourra être au maximum compo-
sée de 5 neurones. Il est toujours possible de modéliser avec autant de couches cachées
que souhaitées, mais cette pratique est particulièrement conseillée pour des données à
structures identifiées comme complexes a priori. Par ailleurs, pour une raison de temps
d’exécution important, les réseaux ne sont pas étendus à plus de deux couches cachées.
Les indicateurs RMSE et MAE sont représentés sur le graphique 7.6.
Les différents couples de réseaux présentent des indicateurs proches les uns des
autres, avec tout de même le couple (4,3) qui fait une exception. Il présente le RMSE
le plus élevé et le MAE le plus élevé. Ce réseau ne peut être utilisé pour modéliser les
montants de règlements.
Le réseau (5,4) présente le plus faible RMSE (513) et le réseau (2,5) le plus faible MAE
(319).
Parallèlement, l’erreur relative est analysée (table 7.2) pour chaque réseau.
L’erreur relative des réseaux à deux couches est globalement plus élevée que celle des
réseaux à une couche. Les réseaux à deux couches semblent être moins adaptés à la
structure de notre base de données. Le réseau associé au couple (3,2) prédit avec l’erreur
relative la plus faible 3 . Il présente tout de même un MAE plus important que celui de 62%
des modèles prédits. Le réseau avec le plus petit RMSE, prédit avec une erreur relative de
1,3%.
Le réseau lié au couple (4,3) qui présente le RMSE et le MAE les plus élevés a aussi l’erreur
relative la plus élevée (9,9%).
3. L’analyse ne reste valable que sur les modèles testés.
91
Figure 7.6 – Evolution des indicateurs en fonction des couples de neurones
Couple de neurones Erreur relative (%)

(2,2) 7, 7
(2,3) 1, 1
(2,4) 0, 2
(2,5) 6, 7
(3,2) 0, 02
(3,3) 2, 8
(3,4) 0, 7
(3,5) 0, 06
(4,2) 0, 3
(4,3) 9, 9
(4,4) 1, 5
(4,5) 3, 8
(5,2) 1, 1
(5,3) 1, 9
(5,4) 1, 3
(5,5) 5, 5
Table 7.2 – Erreur relative en fonction du nombre de neurones
Une tendance opposée se dessine entre la valeur du MAE et celle de l’erreur relative : par
exemple, le réseau associé au couple (2,5) prédit avec une erreur relative de 6,7% tout en
présentant un MAE de 319 (le plus faible de la famille à deux neurones sur la première
couche). La remarque s’étend aussi aux couples (3,3) et (5,2).
Parmi les modèles à deux couches, le réseau associé au couple (4,2) fait partie de ceux
présentant le plus faible RMSE, avec une erreur relative relativement faible tout en conser-
vant une erreur relative moins élevée (0,3%). Nous décidons de garder ce modèle lorsque
92
la modélisation porte sur la famille des réseaux à deux couches.
En résumé
Pour une modélisation au travers d’une couche cachée, le réseau à 8 neurones est
conservé.
Lorsque la modélisation porte sur deux couches cachées, le réseau associé au couple (4,2)
est conservé.
L’hypothèse d’homogénéité doit être à la fois testée pour le modèle à une couche cachée
et pour le modèle à deux couches cachées.
Modèle à une couche cachée
Nous rappelons que le modèle dont nous testons l’homogénéité est le réseau à 8 neu-
rones.
Le graphique 7.7 confronte les règlements connus et les règlements prédits par période
de développement. Il permet de constater que le modèle parvient à parfaitement lisser
les montants de règlements par période de déclaration au sein d’une même période de
développement.
Ce constat est intrinsèque à la construction du réseau à savoir la normalisation des

montants (la normalisation de la variable à expliquer). Cependant cette normalisation
n’est pas faite par période de développement mais sur l’ensemble du portefeuille, d’où la
nécessité de tout de même vérifier l’hypothèse.
Il n’aurait pas été nécessaire de tester l’hypothèse si la normalisation avait été réali-
sée par période de développement.
Nous analysons aussi les intervalles de prédiction gaussiens avec une confiance de 95%
(graphique 7.7). Outre la stabilité de la moyenne des règlements entre les années de dé-
claration, le graphique révèle aussi une stabilité des écarts-types.
La superposition des deux graphiques nous conduit à ne pas refuter l’hypothèse que
les montants de règlements sont homogènes par période de développement.
Modèle à deux couches cachées
Le modèle à deux couches cachées est le réseau associé au couple (4,2).

Nous obtenons les mêmes conclusions que celles du réseau à 8 neurones.
Les différents graphiques sont présentés en annexe.
93
réels (en rouge)
94
L’étape de vérification de l’hypothèse de stationnarité reste similaire à celle des deux

autres méthodes.
Nous ne présentons ici que les résultats (table 7.3) associés au réseau à 8 neurones.

A priori 1,0394 1,0278 1,0166 1,0055
7.2.5 Comparaison des résultats
Par similarité à la modélisation CART et RF, nous confrontons les résultats fournis
par les réseaux de neurones, la charge réelle et les estimations des gestionnaires. Ces
résultats correspondent au réseau à une couche cachée.
Le graphique 7.9 permet de rendre compte du niveau de sous-estimation ou de sur-

estimation du modèle neuronal. Comme dans la modélisation RF, environ 70% des si-
nistres sont sur-estimés. Cependant, 92% de ces sinistres correspondent à des sinistres
clos à 0.
L’analyse de l’écart entre la charge réelle et l’estimation par profil révèle que 67% des
sinistres présentent un écart absolu inférieur à 500 et cette proportion est portée à 94%
lorsque le seuil est de 1000, et à 34% pour un seuil de 250.
Figure 7.9 – Charge réelle vs charge estimée (RN) sur la base de test (sinistres clos)
95

6 440 624
5 940 875 6 435 141 12 355 281
6 429 663
Table 7.4 – Comparaison des charges (RN)
A titre informatif, la charge estimée a priori est aussi présentée. Nous aboutissons
toujours à la même conclusion, c’est-à-dire une sur-estimation de la charge globale réelle.

6 549 249
5 940 875 6 544 730 12 355 281
6 540 213
Table 7.5 – Comparaison des charges (RN)
96
Comparaison des différentes méthodes
Comparaison des différentes méthodes
CART vs RF vs RN
Dans ce chapitre, il est question de s’imposer un modèle définitif parmi les modèles
CART, RF et RN pour ce qui concerne la prédiction de la charge ultime. Pour rappel,
dans la modélisation CART, un seul modèle est construit ;

dans la modélisation RF, la forêt à 180 arbres, chaque arbre ayant une profondeur
maximale de 10 et dont le nombre de variables à échantillonner est de 4 est retenue ;
dans la modélisation RN à une couche cachée, le réseau à 8 neurones est retenu ;

dans la modélisation RN à deux couches cachées, le réseau associé au couple (4,2)
est retenu.
Sur la base des indicateurs statistiques, une comparaison des quatre modèles est
apportée (table 7.6). Les valeurs présentées sont calculées suivant le scénario central.
Modèles RMSE MAE Erreur relative (%)

Modèle CART 646 468 -6,2
Modèle RF 623 441 -5,7
Modèle RN (1) 631 438 -8,3
Modèle RN (2) 636 442 -6,0
Table 7.6 – Comparaison statistique des quatre modèles
Sur les trois critères de décision, le modèle RF est le plus probant : il présente à la fois
le plus faible RMSE et MAE et à la fois la plus faible erreur relative (en valeur absolue).
Le modèle avec la plus faible erreur relative caractérise le modèle le plus prudent au
sens du provisionnement. Le modèle neuronal à une couche cachée présente bien cette
caractéristique. Il a cependant un RMSE plus élevé que celui de la forêt aléatoire. Sachant
que l’indicateur RMSE transcrit un bon ou mauvais calibrage par profil de risque, nous
pouvons discuter du choix du modèle neuronal pour la modélisation de la charge ultime.
Cependant sur la base de l’erreur relative, le modèle RN à deux couches cachées est
préféré. Mais le RMSE et le MAE sont parmi les plus élevés.
Parmi les deux modèles neuronaux, nous décidons de conserver le réseau à une couche
cachée : il dispose à la fois du plus petit RMSE et du plus petit MAE.
97
Synthèse
Au regard des indicateurs statistiques, nous relevons les éléments suivants :
le modèle neuronal est décrit comme étant le plus prudent au sens du provisionne-
ment ; il présente l’erreur relative la plus élevée (en valeur absolue). L’erreur relative
négative traduit un sur-provisionnement.
sous l’angle de la performance statistique, le modèle de forêt aléatoire se distingue

des deux autres avec de faibles valeurs de RMSE et de MAE.
l’arbre de régression ne s’illustre pas par la plus faible valeur des indicateurs mais
présente le grand avantage de l’interprétabilité des résultats et de sa simple mise
en application.
Selon les objectifs et stratégies de la compagnie, l’un des modèles sera préféré à un
autre. Les différents modèles pourront être utilisés simultanément à condition d’associer
à cette approche un modèle de crédibilité. Cet aspect n’est pas abordé dans le mémoire
mais pourra certainement faire l’objet de futurs travaux.
Grille d’aide aux gestionnaires
La grille servant à la constitution des provisions D/D d’ouverture repose sur les dif-
férents critères retenus dans la modélisation RF. A l’ouverture d’un dossier sinistre, le
gestionnaire est amené à renseigner les informations listées dans la table 7.7. La grille
complète est une combinaison cartésienne des différentes modalités et valeurs de la table.
Variables
GROUPE_COMPTABLE
POSITION_ASSURE
GARANTIE_ACTIVE
TYPE_POLICE
DISTRIBUTION
CD_PRODUIT
NUM_PRODUIT
MARCHE
SOUS_MARCHE
PART_PROF
TYPE_CLIENT
TYPE_GESTION
TYPE_ENCAISSEMENT
DELAI_DECLARATION
Table 7.7 – Variables de la grille
La question de la gestion des informations manquantes se pose. L’une des faiblesses

des modèles développés est la non prise en compte des données manquantes dans le
déroulement des algorithmes. Il est ainsi important de trouver une solution lorsque le
gestionnaire fait face à une indisponibilité d’information.
La plupart des variables est rattachée au contrat du souscripteur. Pour de très vieux
98
contrats par exemple, il est très peu probable de parvenir à renseigner l’année de créa-
tion de la police, d’autant plus que la compagnie d’assurance a migré vers un nouveau
système de gestion.
Cependant, les variables liées au contexte du sinistre telles que la GARANTIE_ACTIVE et
la POSITION_ASSURE sont connues et peuvent sans aucune difficulté être renseignées.
Une première solution naïve pour la gestion de l’information manquante est d’imputer
par la modalité la plus représentative de la variable (qualitative) ou par la moyenne de
la variable (quantitative). Cette approche conduit souvent à une sous-estimation de la
variable à prédire.
La seconde approche est une imputation par analyse factorielle (AFMD par exemple).
Cette analyse est réalisée sur la base de l’information transmise par les sinistres déjà
survenus.
Dans le cadre de cette étude, nous proposons aux gestionnaires la première approche.
Elle pourra être remplacée ultérieurement par la seconde approche.
99
Conclusion
Conclusion
L’estimation des provisions dossier/dossier à l’ouverture d’un nouveau sinistre sup-

pose d’exploiter l’expérience passée des sinistres déjà survenus pour extrapoler le déve-
loppement futur de ce sinistre.
Nous avons tenté dans ce mémoire d’estimer ces provisions d’ouverture en utilisant des
méthodes de machine learning. Cette approche s’est révélée très rapidement efficace, com-
parativement à l’estimation proposée par les gestionnaires. Partant de l’histoire des règle-
ments des différents sinistres d’une base de données, la modélisation permet d’expliquer
et prédire une charge ultime. La charge ultime n’est connue qu’a posteriori de la clôture
d’un sinistre. Dans un monde idéal, elle correspond à la meilleure estimation a priori des
provisions dossier/dossier d’ouverture.
Suite à la modélisation de la charge ultime avec les méthodes d’arbre de régression,

de forêt aléatoire et de réseau de neurones, les résultats obtenus sont confrontés avec
les estimations faites par les gestionnaires de sinistres : la méthode employée par les
gestionnaires sur-provisionne en grande majorité tandis que les méthodes utilisées pro-
posent des provisions en moyenne proches (analyse des indicateurs statistiques et de
l’erreur relative) de la charge ultime.
La principale motivation de l’étude menée fût de proposer une grille d’estimation des
provisions dossier/dossier aux gestionnaires : il est proposé de fournir à terme une base
des combinaisons possibles des modalités et les estimations correspondantes. La consti-
tution des provisions d’un nouveau sinistre passera par une requête vers cette grille. Se
pose la question de la mise en place et de la maintenance des modèles dans un cadre
opérationnel.
Bien qu’obtenant des résultats globalement probants, des limites de modélisation sont
à pointer, indépendamment de la méthode d’estimation d’employée.
Limites de la modélisation et perspectives
La modélisation de la charge ultime reste imparfaite pour différentes raisons :
Les sinistres clos sans aucun règlement sont pris en compte directement dans
l’étude. En effet, ces sinistres ont tendance en moyenne à faire baisser la charge
estimée, ce qui pourrait être souhaitable. Mais nous estimons qu’un traitement
spécial des sinistres clos à 0 pourrait améliorer de manière non négligeable les
modèles. Ils représentent une part importante de la base d’étude, conduisant à une
énorme perte de volumétrie si toutefois leur exclusion était faite. Un modèle à deux
étages ou un modèle zero-inflated peut être envisagé.
A disposition d’une base plus volumineuse, une solution de modélisation serait la
suivante :
100
— modéliser la probabilité qu’un sinistre soit clos sans suite en fonction de ces
caractéristiques ;
— pour l’explication de la charge ultime, exclure les sinistres clos sans suite de
la base ;
— pour un nouveau sinistre survenu, estimer la provision D/D d’ouverture tout

en la pondérant par la probabilité qu’il soit clos sans suite.
Les sinistres dits graves ont été écrêtés de la base. Inversement aux sinistres clos
sans suite, ils ont tendance à faire augmenter la charge estimée. La détection des
graves et leur analyse séparée pourrait être une extension de cette étude. Il s’avère
que les sinistres de la base ont une charge ultime relativement faible, mais la com-
pagnie d’assurance n’est pas à l’abri de la survenance d’un sinistre à coût très élevé.
L’approche par le retraitement des sinistres graves serait la suivante :
— par la théorie des valeurs extrêmes, détecter le seuil des graves (démarche déjà
réalisée) ;
— retraiter la base d’étude de ces sinistres graves ;
— expliquer la charge ultime ;
— établir un coût forfaitaire pour les sinistres graves. Souvent par manque de vo-
lumétrie, le coût forfaitaire est préféré à la prise en compte de caractéristiques
des sinistres.
— pour un nouveau sinistre, estimer la provision D/D en sommant la charge

ultime expliquée par le modèle pondérée et le coût forfaitaire pondéré.
Les plages définies pour les études de sensibilité des paramètres sont arbitraires
et peuvent paraitre restreintes. Une extension serait d’élargir le spectre des para-
mètres. Il faut toutefois considérer les performances des machines à disposition.
Les modèles RF et réseaux de neurones ont nécessité l’utilisation de machines dis-
posant d’une mémoire ram d’au minimum 10Go. les temps d’exécution sont aussi à
prendre en compte lorsque nous envisageons un spectre des paramètres beaucoup
plus large.
Les règlements de toutes les périodes de développement ont été intégrés dans une
même base de modélisation. Ce qui s’apparente à une approche univariée. Il se-
rait sans doute intéressant de proposer une approche multivariée qui modéliserait
séparément les règlements par période de développement en tenant tout de même
compte des interactions.
101
Abréviations
Abréviations
D/D dossier/dossier
CART Classification And Regression Tree
RF Random Forest
RN Réseau Neuronal
PMC Perception MultiCouche
ACP Analyse en Composantes Principales
ACM Analyse des Correspondances Multiples
AFMD Analyse Factorielle Multiple Duale
RMSE Root Mean Square Error
MAE Mean Absolute Error
GEV Generalized Extreme Value
GPD Generalized Pareto Distribution
POT Peaks-Over-Threshold
102
Table des figures
Table des figures
1.1 Développement d’un sinistre (Source Internet) . . . . . . . . . . . . . . . . 7
3.1 Catégorisation des sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 Dynamique de la variable PRODUIT . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Dynamique de la variable GARANTIE . . . . . . . . . . . . . . . . . . . . . 20
3.4 Matrice de corrélation des variables qualitatives . . . . . . . . . . . . . . . 21
3.5 Courbe de survie des sinistres par année de déclaration . . . . . . . . . . . 24
3.6 Courbe d’inflation sur 2002-2015 . . . . . . . . . . . . . . . . . . . . . . . 25
3.7 Log-règlements par période de développement . . . . . . . . . . . . . . . . 27
3.8 Exemple d’un sinistre dupliqué . . . . . . . . . . . . . . . . . . . . . . . . 28
3.9 Bases de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.10 Les différentes bases d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Distribution des montants de règlements . . . . . . . . . . . . . . . . . . . 38

4.2 QQ-plot exponentiel des montants de règlements . . . . . . . . . . . . . . 44
4.3 QQ-plot généralisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 La fonction des excès moyens . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Evolution de la pente de l’espérance résiduelle en fonction du seuil . . . . 46
4.6 Estimateur de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7 Estimateur de Hill : à gauche, les ordres 1-2000 et à droite, les ordres
1500-9000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.8 Estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9 L’estimateur de Gertensgarbe . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.10 La distribution des excès vs la distribution GPD théorique . . . . . . . . . 50
5.1 Arbre de régression (non élagué) sur les données Hitters . . . . . . . . . . 52

5.2 Erreur relative par période de développement avec les différents poids . . . 57
5.3 RMSE et MAE par année de développement avec les différents poids . . . . 58
5.4 Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.5 Intervalles gaussiens sur les règlements prédits . . . . . . . . . . . . . . . 60
5.6 Importance des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.7 Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos) . 64
5.8 Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires . . 64
5.9 Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires . . 65
5.10 Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos) . 66
6.1 Erreur relative avec les différents poids . . . . . . . . . . . . . . . . . . . . 71

6.3 Evolution des indicateurs statistiques en fonction du nombre d’arbres . . . 73
6.4 Evolution des indicateurs statistiques en fonction de la profondeur (180
arbres) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
103
6.5 Evolution des indicateurs statistiques en fonction du nombre de variables
échantillonnées (180 arbres, profondeur 10) . . . . . . . . . . . . . . . . . 75
6.6 Significativité des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.9 Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos) . . . 79
6.10 Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires . . . . 80
6.11 Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires . . . . 80
6.12 Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos) . . . 81
7.1 Un neurone biologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.2 Un neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3 Un réseau de neurones avec une couche cachée (à trois neurones) . . . . . 84
7.5 Evolution des indicateurs en fonction du nombre de neurones . . . . . . . 90
7.6 Evolution des indicateurs en fonction des couples de neurones . . . . . . . 92
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.9 Charge réelle vs charge estimée (RN) sur la base de test (sinistres clos) . . 95
E.1 Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
E.2 Intervalles gaussiens sur les règlements prédits . . . . . . . . . . . . . . . 113
Liste des tableaux
Liste des tableaux
3.1 Variables de la base d’étude transmise par la compagnie . . . . . . . . . . 16

3.2 Variables de la base d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Statistiques sur des variables qualitatives . . . . . . . . . . . . . . . . . . 19
3.4 Statistiques sur le nombre de sinistres de la base des contrats individuels 22
3.5 Moyenne de règlements (en ¿) des sinistres par (année de déclaration, pé-
riode de développement) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Variables du portefeuille final . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Exemples de lois dans les domaines d’attraction . . . . . . . . . . . . . . . 40

4.2 Différents seuils de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Différents seuils de Gertensgarbe . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Ecarts inter-quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.5 Seuils des différentes méthodes . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1 Poids pour l’algorithme d’arbre de régression . . . . . . . . . . . . . . . . . 56

5.2 Coefficients de revalorisation . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3 Comparaison des charges . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4 Comparaison des charges . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.1 Erreur relative en fonction du nombre de variables échantillonnées (180

arbres, profondeur de 10) . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.3 Comparaison des charges (RF) . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.4 Comparaison des charges (RF) . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1 Erreur relative en fonction du nombre de neurones . . . . . . . . . . . . . 90

7.2 Erreur relative en fonction du nombre de neurones . . . . . . . . . . . . . 92
7.4 Comparaison des charges (RN) . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.5 Comparaison des charges (RN) . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.6 Comparaison statistique des quatre modèles . . . . . . . . . . . . . . . . . 97
7.7 Variables de la grille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
105
Bibliographie
Bibliographie
[1] B.RAGGAD. Fondements de la théorie des valeurs extrêmes, ses principales appli-
cations et son apport à la gestion des risques du marché pétrolier. pages 29–63,
October 2009.
[2] L. BREIMAN. Random forests. in : Machine learning 45 5 :32. January 2001.
[3] C.BILLORE. Application de l’apprentissage automatique au provisionnement ligne à

ligne en assurance non-vie. Master’s thesis, 2016.
[4] C.ROBERT. Théorie des valeurs extrêmes. 2016.
[5] E.ARJAS. The claims reserving problem in non-life insurance : some structural ideas.
Astin Bulletin, Vol.19,No.2, 1989.
[6] E.DEPREY et A.GODZINSKI. Problématique du seuil dans la modélisation de la

sinistralité réassurance non vie. Master’s thesis, 2007.
[7] James G. et al. Tree-based methods. In : An Introduction to Statistical Learning : with

applications in R, volume 103. Springer, New York, NY, 2013.
[8] A.GUILLOU et A.YOU. Introduction à la théorie des valeurs extrêmes : Applications

en actuariat. 2011.
[9] S.SAVARRE et B.PAYRE. Charge ultime nette de réassurance en rc corporelle : deux

modèles stochastiques pour les flottes automobiles. Master’s thesis, 2012.
[10] M.BAUDRY et C.ROBERT. Non-parametric individual claim reserving in insurance.

November 2017.
[11] S.HAASTRUP et E.ARJAS. Claims reserving in a continuous time ; a non parametric

bayesian approach. Astin Bulletin,Vol.26,No.2, pages 139–164, 1996.
[12] S.GEY et E.NEDELEC. Model selection for cart regression trees. October 2008.
[13] K.ANTONIO et R.PLAT. Micro-level stochastic loss reserving for general insurance.
Scandinavian Actuarial journal, 7, November 2014.
[14] M.MERZ et V.WUTHRICH. Stochastic claims reserving methods in insurance, volume

435. John Wiley and Sons, 2008.
[15] F.ROSSI. Réseaux de neurones : évaluation et sélection de modèle. http://apiacoa.

org/publications/teaching/nn/EvaluationSelection.pdf. [En ligne ; Accès le 2018-09-
03].
[16] G.GIBAUD. Revue des provisions dossier/dossier avec des méthodes de machine
learning. Master’s thesis, 2018.
[17] G.PETITJEAN. Introduction aux réseaux de neurones. https://www.lrde.epita.fr/

~sigoure/cours_ReseauxNeurones.pdf. [En ligne ; Accès le 2018-09-03].
[18] ASTIN group. Individual claim development with machine learning. 2017.
[19] M.NIELSEN. Neural Networks and Deep Learning. Determination Press, 2015.
[20] M.WUTHRICH. Machine learning in individual claims reserving. November 2016.
[21] M.WUTHRICH. Neural network applied to chain-ladder reserving. 2018.
106
[22] P.HENIN. Un modèle de provisionnement ligne à ligne en assurance responsabilité
civile. Master’s thesis, 2016.
[23] P.OTTOU. Méthodes d’apprentissage automatique appliquées au provisionnement

ligne à ligne en assurance non-vie. Master’s thesis, October 2017.
[24] R. RAKOTOMALALA. Arbres de décision. 2005.
[25] R.RAKOTOMALALA. Introduction à r arbre de décision. http://eric.univ-lyon2.fr/

~ricco/cours/didacticiels/R/introduction_arbre_de_decision_avec_r.pdf. [En ligne ;
Accès le 2018-09-03].
[26] Xiao Bing et Xian Zhou Zhao. Applying copula models to individual claim loss reser-
ving methods. Insurance : Mathematics and Economics, 46(2) :290–299, 2010.
Annexes
Annexe A: Théorème de Pickands-Balkema-de-Haan (1975) et Propriété
Théorème de Pickands-Balkema-de-Haan (1975) et Propriété de stabilité
de stabilité de la GPD
de la GPD
Théorème de Pickands-Balkema-de-Haan (1975)
La fonction de répartition F appartient au max-domaine d’attraction de Gγ si et seule-

ment si, il existe une fonction positive σ (u ) et un réel γ tels que :
lim sup {|Fu (y) − Gγ,σ (u ) (y)|} = 0

u →xF 0<y<x
F
où Fu (y) est la fonction de répartition conditionnelle des excès pour u élevé, xF est
le point terminal de F , xF = sup{x ∈ R : F (x ) < 1} et Gγ,σ (u ) (y) est la fonction de Pareto
généralisée (GPD).
Propriété de stabilité de la GPD
Soit Y une variable aléatoire distribuée selon une GPD de paramètres (γ, σ ).
La variable aléatoire Yu = [Y − u |Y > u ] est distribuée selon une GPD de paramètres
(γ, σ + γu ). On en déduit que si γ < 1, alors pour tout u < yF = sup{y ∈ R, F (y) < 1},
α + γu
E(Y − u |Y > u ) = , α + γu > 0
1−γ
109
Annexe B: Algorithme pour la construction d’un arbre de régression
Algorithme pour la construction d’un arbre de régression
frenchb 1 – Algorithme standard

Result: Arbre de décision
Initialisation : Profondeur 0 ;
for k allant de 1 à la profondeur maximale do
Lister toutes les segmentations possibles ;
if |H (Ngauche )| ou |H (Ndroit )| > taille minimale feuille then

Segmentation retenue ;
else
Segmentation non conservée ;
end
P
for j allant de 1 à segmentations do
Résoudre ∆max = max H (N ) − H (Ngauche ) − H (Ndroit )
segmentations
end
if ∆max < gain minimum pour splitter then
Stopper l’algorithme pour ce noeud ;
end
end
110
Annexe C: Elagage d’un arbre
Elagage d’un arbre
Un sous-arbre élagué de Tmax est défini comme ayant la même racine que celle de
l’arbre maximal.
Introduisons les notations suivantes :
1. Si T1 est un arbre élagué de T2 , alors T1 T2 .
2. Etant donné un arbre T , T̃ dénote l’ensemble de ses feuilles et |T | le cardinal.
Pour tout arbre T , le critère de coût-complexité est défini par :
|T |
critγ (T ) = Erreur (T ) + γ ∗
n
Où
P|T |
Erreur (T ) = |T1 | i =1 (yi − T (xi ))2
γ > 0 est le paramètre de complexité et définit le coût de chaque feuille
n est le nombre total d’observations. xi fait référence à l’ensemble des variables explica-
tives du modèle, observées pour l’individu i.
Si Tγ satisfait :
Tγ = arg min critγ (T )
T Tmax
alors Tγ est l’arbre optimal associé au paramètre γ.

L’objectif suivant de l’élagage est de faire croître la valeur de γ et de conserver l’arbre
optimal associé à chaque valeur. Il en résulte une suite décroissante de sous-arbres
conformément à cette suite croissante des valeurs du paramètre de complexité. Ainsi,
Tmax T1 ... TK
pour 0 < γ1 < ... < γK

La dernière étape consiste à choisir le "bon" paramètre de complexité, ce qui induira
le choix de l’arbre associé. Breiman et al. proposent une stratégie de resampling (holdout
ou cross-validation) pour calculer la justesse de chacun des sous-arbres.
111
Annexe D: Algorithme de la rétro-propagation de l’erreur
Algorithme de la rétro-propagation de l’erreur
frenchb 1 – Algorithme descente du gradient

Initialisation : Initialiser aléatoirement les poids w et entre [0; 1] ;
while L > errmax ou niter < itermax do
for i allant de 1 à n do
Calculer Li en propageant les entrées vers l’avant (feedforward) ;
L’erreur est rétro-propagée dans les différentes couches (backpropagation) ;
Mettre à jour les poids ;
end
end
112
Annexe E: Vérification de l’hypothèse d’homogénéité - Réseau à deux
Vérification de l’hypothèse d’homogénéité - Réseau à deux couches
couches cachées
cachées
Figure E.1 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
Figure E.2 – Intervalles gaussiens sur les règlements prédits
113

e9ce05fd81f45db42bb459126acf004b (4)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

e9ce05fd81f45db42bb459126acf004b (4)

Transféré par

Droits d'auteur :

Formats disponibles

Remerciements

Je ne saurai soumettre ce mémoire sans adresser mes remerciements à toute l’équipe

Je tiens à exprimer toute ma gratitude à Mme Sandrine SIDOBRE, ma directrice de mé-

La principale motivation de ce mémoire porte sur le calcul de provisions dossier/dossier

Provisions dossier/dossier d’ouverture, protection juridique, arbres de régression, ré-

I Introduction au provisionnement non-vie 5

3 Analyse des données 14

II Estimation des provisions dossier/dossier d’ouverture 32

4 Détection du seuil des graves 37

6 La méthode Random Forest (RF) 67

7 Les réseaux de neurones 82

A Théorème de Pickands-Balkema-de-Haan (1975) et Propriété de stabilité de la

B Algorithme pour la construction d’un arbre de régression 110

C Elagage d’un arbre 111

D Algorithme de la rétro-propagation de l’erreur 112

E Vérification de l’hypothèse d’homogénéité - Réseau à deux couches cachées 113

L’actuariat et la data science ? Il y a environ cinquante ans, les acteurs de l’assurance

Nous proposons dans ce document d’étudier la question du provisionnement à l’ouverture

Introduction au provisionnement non-vie

1.1 Périmètre de l’assurance non-vie

En référence à l’article R321-1 du Code des Assurances, les assurances non-vie

1.2 Provisions techniques

• La provision pour risques croissants correspond à la provision pouvant être exigée

• Les autres provisions sont constituées de la provision pour risques en cours, la

1.3 Evaluation des provisions IBNR

1.3.1 Triangle de liquidation : approche classique des assureurs

Figure 1.1 – Développement d’un sinistre (Source Internet)

• montants de sinistres : paiements de sinistres, charges de sinistres, recours, ...

• primes : émises ou acquises, ...

• nombres de sinistres : déclarés, réglés, tardifs, ...

De nombreuses études abordent parallèlement une toute autre approche : celle du

1.3.2 Le provisionnement ligne à ligne

L’estimation des provisions ou de la fréquence de sinistres par cette approche n’est

1.3.3 Le calcul des provisions

Chargest = R èglementst + Provisions dossier/dossiert

2.1 Le périmètre d’étude

Le paragraphe suivant fournit des informations sur la protection juridique et sont

L’assurance de protection juridique prend en charge des frais de procédures ou four-

 de défendre ou représenter l’assuré, avant ou pendant une procédure ;

La garantie défense pénale et recours après un accident

La protection juridique couvrant un domaine d’intervention

La protection juridique générale

Ci-dessous quelques exemples d’application de la garantie protection juridique 3 :

1. un litige lié à la construction d’une maison : le maître d’ouvrage et le constructeur

4. un litige suite à un vol de carte bancaire.

2.2 Un sinistre de protection juridique

Qu’est-ce qu’un sinistre de protection juridique ?

 elles sont sur-estimées (l’assureur est en sur-provisionnement) si elles sont supé-

 sinon, elles sont sous-estimées (sous-provisionnement).

2.3 L’apport de ce mémoire

Qu’est-ce que le machine learning ?

Le machine learning ou apprentissage automatisé "concerne la conception, l’analyse,

 L’apprentissage supervisé : les algorithmes utilisés dans cette catégorie permettent

 L’apprentissage non supervisé 5 : cette catégorie d’apprentissage consiste à inférer

D’autres catégories d’apprentissage existent telles que l’apprentissage semi-supervisé,

3.1 Périmètre d’étude

La compagnie d’assurance pour laquelle l’étude a été réalisée commercialise des

L’entreprise a connu en 2012 une refonte de son système de gestion et la migration

Le graphique 3.1 illustre la catégorisation des sinistres.

Figure 3.1 – Catégorisation des sinistres

La base de la compagnie résulte de la fusion de trois bases primaires distinctes :

 la base sinistres : elle contient les informations contextuelles au sinistre (date de

 la base clients : elle contient des informations liées au client.

3.2 Description des variables

de défendre ou représenter l’assuré, avant ou pendant une procédure ;

elles sont sur-estimées (l’assureur est en sur-provisionnement) si elles sont supé-

sinon, elles sont sous-estimées (sous-provisionnement).

L’apprentissage supervisé : les algorithmes utilisés dans cette catégorie permettent

L’apprentissage non supervisé 5 : cette catégorie d’apprentissage consiste à inférer

la base sinistres : elle contient les informations contextuelles au sinistre (date de

la base clients : elle contient des informations liées au client.

les dates de survenance et de déclaration

Pour chaque année de déclaration entre 2013 et 2017, la proportion de sinistres

Toute année de déclaration confondue, la proportion de clos sans règlement est

la population 1 : ce sont les sinistres associés aux années de déclaration

la population 2 : ce sont les sinistres rattachés aux années de déclaration

la population 3 : ce sont les sinistres rattachés aux années de déclaration

la population 4 : ce sont les sinistres associés aux années de déclaration

t0 correspond à la date d’ouverture du sinistre ;