Académique Documents
Professionnel Documents
Culture Documents
Remerciements
Je remercie également Mr Michael CASALINUOVO pour m’avoir éclairé sur les problé-
matiques se rapportant à la data science.
Je porte une attention particulière à mon tuteur universitaire, Mr Jean BERARD, qui
a su me guider dans la construction technique de mon sujet en m’apportant des pistes
de recherche.
1
Résumé
Résumé
Pour faire face à leurs engagements futurs, les organismes d’assurance sont tenus
de constituer des provisions dès la déclaration d’un sinistre. Ces provisions dites provi-
sions dossier/dossier d’ouverture sont évaluées différemment d’un assureur à un autre,
conduisant à considérer plusieurs approches.
Les assureurs envisagent de plus en plus l’approche visant à l’utilisation ligne à ligne
de leur base de sinistres. Plusieurs travaux ont notamment été menés sur le provision-
nement ligne à ligne tout en se déclinant comme une alternative aux méthodes classiques.
Pour mener à bien ces travaux, nous nous appuyons sur des méthodes de machine
learning et notamment celles basées sur les arbres de régression et sur les réseaux de
neurones. Une comparaison des trois méthodes est présentée pour un choix ultime d’un
modèle d’implémentation.
Mots clés
2
Abstract
Abstract
To fulfill their future liabilities, insurance companies are required to book reserves
as soon as a claim occures. These reserves known as the case estimates are assessed
differently from one insurer to another, leading to consider several approaches.
However, insurers are increasingly considering the approach linked to the direct use
of the individual claims. Several studies have been carried out on individual claims reser-
ving and, fro the most, on the calculation of technical reserves.
The main motivation of this thesis is to compute opening case estimates reserves at
the date of reporting. Thus, reagrding a new claim, we seek to evaluate the case estimates
conditionally established to the knowledge of initial characteristics ; as for the pre-existing
claims in the database, we want to challenge the opening reserves of the managers and
those estimated by the models.
A second motivation has an operational goal : provide to the claims managers an eva-
luation grid of the case estimates. This grid is intrinsically linked to the line of business
considered, which is legal expenses.
To carry out this work, we rely on machine learning methods and especially those ba-
sed on regression trees and neural networks.
Keywords :
Opening case estimates, legal expenses, regression trees, neural networks.
1
Table des matières
Table des matières
Remerciements 1
Résumé 2
Introduction 4
1 Généralités 6
1.1 Périmètre de l’assurance non-vie . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Provisions techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Evaluation des provisions IBNR . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Problématique du mémoire 10
2.1 Le périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Un sinistre de protection juridique . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 L’apport de ce mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 La méthode CART 51
5.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Illustration sur les données et analyse des résultats . . . . . . . . . . . . . 56
2
TABLE DES MATIÈRES
Conclusion 100
Abréviations 102
Bibliographie 107
Annexes 108
3
Introduction
Introduction
Sous le même volet, ce mémoire tend à répondre à une problématique liée au niveau
de provision à constituer lors de la déclaration d’un nouveau sinistre. Cette provision
est appelée provision dossier/dossier. Elle a pour objectif de couvrir tous les coûts fu-
turs associés au nouveau sinistre. La modélisation de la série des règlements futurs liés
à ce sinistre constitue un point de départ dans l’estimation des provisions d’ouverture.
La qualité de la modélisation est un facteur déterminant dans la recherche de la "juste"
estimation. L’exposition à un sous-provisionnement ou à un sur-provisionnement reste
inhérent à tout modèle ; mais celle-ci peut être considérablement réduite en utilisant des
méthodes adaptées à la problématique.
4
I
Sommaire
1.1 Périmètre de l’assurance non-vie . . . . . . . . . . . . . . . . . . . . . 6
1.2 Provisions techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Evaluation des provisions IBNR . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Triangle de liquidation : approche classique des assureurs . . . . . 7
1.3.2 Le provisionnement ligne à ligne . . . . . . . . . . . . . . . . . . . 8
1.3.3 Le calcul des provisions . . . . . . . . . . . . . . . . . . . . . . . . 9
Dans le secteur assurantiel, le cycle de production est inversé : le règlement des montants
de sinistres s’effectue après que les primes soient versées. Ainsi, les assureurs dans une
complète ignorance des coûts de sinistres futurs, sont tenus de constituer des provisions
pour faire face à leurs engagements.
L’article R331-6 du Code des Assurances fait état de différentes provisions à consti-
tuer :
• La provision pour primes non acquises (PPNA) est destinée à constater la part des
primes émises et des primes restant à émettre se rapportant à la période comprise
entre la date d’inventaire et la date de la prochaine échéance de prime ou, à défaut,
du terme du contrat.
• La provision pour sinistres à payer (PSAP) qui est la valeur estimative des dé-
penses en principal et en frais, tant internes qu’externes, nécessaires au règlement
de tous les sinistres survenus et non réglés.
Ces provisions sont perçues comme les provisions dossier/dossier (D/D) (case esti-
mates en anglais), estimées par un expert ou un gestionnaire de sinistres. Cepen-
dant, un décalage inhérent aux sinistres survenus mais non encore déclarés (dits
6
1.3 Evaluation des provisions IBNR
sinistres tardifs), doit être pris en compte. Les montants de provisions rattachés à
ces sinistres sont les IBNR (Incurred But Not Reported). Les IBNR peuvent être dé-
composées en IBNeR (Incurred But Not enough Reported) qui sont des montants de
provisions associées aux sinistres déclarés mais dont la charge ultime tend à être
sous-estimée ; et en IBNyR (Incurred But Not yet Reported), qui elles sont associées
aux sinistres non encore déclarés.
L’article R331-15 spécifie que la PSAP est calculée exercice par exercice, pour son
montant brut, sans tenir compte des recours à exercer. Les recours sont évalués
séparément ; et la PSAP nette de recours est transcrite au passif du bilan.
Les assureurs disposent de bases de données contenant les vues des sinistres associés
aux différents contrats. La difficulté de l’étude des sinistres repose sur le fait que certains
ont une durée de vie de plusieurs années.
Le schéma suivant permet de suivre la vie d’un sinistre depuis sa survenance jusqu’à sa
clôture définitive.
7
1.3 Evaluation des provisions IBNR
Pour chaque contrat, les quantités analysables sont de nature très variée :
L’approche la plus usuellement mise en oeuvre par les assureurs pour analyser leurs
sinistres, est celle par agrégation des données en triangles.
Les quantités sont rapportées à des périodes d’échelle annuelle, semestrielle ou trimes-
trielle.
Les périodes infra-annuelles sont particulièrement pertinentes pour les grands orga-
nismes qui portent une attention au suivi de leurs provisions en cours d’année.
Chaque sinistre est rattaché à une période d’origine qui peut être l’année de survenance
(accident year), l’année de souscription (underwritting year) ou l’année de déclaration
(reporting year). En général, l’étude des triangles de liquidation se fait sous l’angle "année
de survenance".
Une fois le sinistre déclaré, il évolue sur une période dite de développement.
8
1.3 Evaluation des provisions IBNR
Pour une date t (par exemple la date d’inventaire), l’assureur s’intéresse à la charge
ultime des sinistres déjà survenus. Cette charge ultime correspond à la somme des règle-
ments effectués au cours de la vie du sinistre.
A cette date t, l’assureur dispose de l’information sur les montants déjà réglés et sur
les provisions D/D constituées. En effet, les provisions D/D sont régulièrement réévaluées
au cours de la vie du sinistre aux vues des nouvelles informations parvenant à l’assureur.
Une relation lie les montants réglés, les provisions D/D et la charge :
La charge connue en t est ainsi projetée pour obtenir une estimation de la charge
ultime. Cette estimation peut être faite en utilisant des méthodes classiques de provision-
nement telles que l’approche chain ladder ou encore l’approche Bornhuetter Fergusson.
Les IBNRs au titre de la période d’origine considérée se calculent en effectuant la diffé-
rence entre la charge ultime projetée et la charge connue à date. Les montants IBNRs sont
ainsi constitués d’une estimation des règlements restants à effectuer et d’une estimation
des provisions D/D futures.
A la clôture du sinistre, la charge ultime est égale à la somme des règlements. Cependant,
en général, la projection séparée d’un triangle de charges et d’un triangle de règlements
ne conduit pas aux mêmes ultimes. Il existe alors dans ce cas précis, une méthode pour
les faire converger, à savoir la méthode Munich Chain Ladder.
Il est fait mention dans cette section de méthodes classiques de provisionnement ; tou-
tefois, une comparaison avec les approches d’apprentissage automatique ne sera pas
réalisée dans ce mémoire.
9
Chapitre 2: Problématique du mémoire
Problématique du mémoire
Sommaire
2.1 Le périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Un sinistre de protection juridique . . . . . . . . . . . . . . . . . . . . 12
2.3 L’apport de ce mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Depuis plusieurs années, de nombreux domaines scientifiques ont tiré parti de l’ac-
croissement de la puissance calculatoire des ordinateurs pour développer des modèles
d’une prédictivité robuste. L’actuariat est l’un des domaines à encore utiliser des mé-
thodes anciennes pour la modélisation de l’activité d’assurance : c’est le cas notamment
du provisionnement non-vie. Ces méthodes anciennes ont tout de même le mérite d’être
robustes, aisément interprétables et faciles à mettre en oeuvre.
Un engouement pour l’application des méthodes de machine learning dans le calcul de
provisions techniques ou encore de provisions dossier/dossier émerge. Dans plusieurs cas
d’étude (notamment en tarification), ces méthodes apparaissent de plus en plus comme
des alternatives aux méthodes standards.
De récents travaux de l’ASTIN (2017) se penchent sur l’estimation des provisions suivant
le même processus que la méthode chain ladder mais en utilisant les réseaux de neurones
(ou multi-perceptrons). Baudry & Robert (2017) adoptent pratiquement la même approche
mais en faisant appel à l’algorithme Extra-Tree. Wuthrich (2017) s’intéresse quant à lui à
l’estimation du nombre de paiements futurs d’un sinistre non clos.
L’étude porte sur la branche protection juridique (branche 17). La garantie protec-
tion juridique permet à un assuré d’être représenté et défendu par son assureur dans
une procédure judiciaire qui l’oppose à un tiers 1 .
10
2.1 Le périmètre d’étude
Notons la différence notable entre une garantie responsabilité civile et une garantie
protection juridique : au titre de la garantie responsabilité civile, l’assureur prend en
charge la réparation des dommages que son assuré cause à un tiers. L’assureur de la
protection juridique, lui, n’indemnise aucun tiers.
D’une façon générale, l’assurance de protection juridique se décline sous trois formes :
Cette garantie, largement répandue dans les assurances multirisques habitation et au-
tomobile, concerne exclusivement les litiges liés aux événements garantis dans le contrat
(accident, dégât des eaux, incendie).
L’objet de ce type de garantie est de couvrir les événements, conflits ou litiges se rap-
portant à un domaine précis et dénommé. Il existe de nombreux domaines d’intervention :
santé, accidents corporels, habitation, automobile, consommation.
Il s’agit de la garantie la plus large proposée par l’assureur qui définit précisément son
étendue, soit positivement en indiquant la liste des domaines couverts, soit négativement
en indiquant la liste des exclusions. Dans ce dernier cas, tous les domaines sont par
principe couverts à l’exception de ceux mentionnés dans les exclusions. Cette garantie
couvre la grande majorité des litiges de la vie quotidienne. Elle peut également comprendre
la garantie défense pénale et recours suite à un accident.
2. un litige lié à un achat sur internet : un juriste spécialisé en droit du commerce est
mandaté pour défendre l’assuré.
3. un litige lié à la non-restitution d’un dépôt de garantie dans le cadre d’un contrat
de location.
Pour cette étude, nous avons sollicité une compagnie d’assurance spécialisée dans la
commercialisation de contrats de protection juridique pour l’obtention des données. Cet
3. https://www.allianz.fr/protection-juridique/exemples-d-intervention/
11
2.2 Un sinistre de protection juridique
assureur se positionne sur les risques professionnels (ou d’entreprises), particuliers (et
propriétaires), immobiliers.
L’élément important pour l’assureur lors de la déclaration d’un sinistre, est la consti-
tution de provisions dites provisions dossier/dossier (D/D), nécessaires à la couverture
de tous les coûts liés au sinistre. Estimer au "plus juste" ces provisions est un défi pour
les assureurs notamment pour les branches à déroulé moyen ou long. Très souvent, à
l’ouverture du sinistre, peu d’informations sont disponibles pour estimer finement les
provisions D/D. L’apport ultérieur d’informations permet de les affiner.
L’appréciation des provisions D/D d’ouverture est faite a posteriori avec l’information
obtenue sur la charge ultime :
les provisions D/D sont "parfaitement" estimées si elles sont égales à la charge
ultime du sinistre, c’est-à-dire égales au coût total à la clôture du sinistre. Nous
sommes dans un monde parfait.
Une estimation des provisions D/D nécessite de passer par des approches d’évaluation
qui diffèrent d’un assureur à un autre de par leurs caractéristiques (pertinence, fiabilité,
robustesse). Elles restent propres à chaque assureur, et sont de ce fait confidentielles.
L’idée de ce mémoire est de proposer à l’assureur de nouvelles méthodes d’estimation des
provisions D/D à l’ouverture ; l’approche actuelle adoptée par la compagnie d’assurance
n’est pas jugée suffisamment efficiente.
Le principal constat exposé par la compagnie est le suivant : elle fait face, à un sur-
provisionnement important des montants de sinistres.
L’objectif de l’étude est donc de proposer un modèle d’estimation des provisions D/D
par profil de risque. Ce modèle est voué à apporter un nouveau regard sur l’estimation
actuellement faite par les gestionnaires.
12
2.3 L’apport de ce mémoire
Pour l’estimation des provisions D/D à l’ouverture, les méthodes CART, random forest
(RF) et réseaux neuronaux sont mises en application.
Les méthodes évoquées ci-dessus rentrent dans la catégorie des techniques de machine
learning.
4. https ://www.wikiwand.com/fr/Apprentissage_automatique
5. http ://www.vincentlemaire-labs.fr/cours/2.2-ApprentissageNonSupervise.pdf
13
Chapitre 3: Analyse des données
Analyse des données
Sommaire
3.1 Périmètre d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Description des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Statistiques descriptives des variables . . . . . . . . . . . . . . . . . . 19
3.3.1 Statistiques élémentaires . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.2 Détection des corrélations . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Statistiques sur le nombre de sinistres . . . . . . . . . . . . . . . . 22
3.3.4 Statistiques sur la durée de vie des sinistres . . . . . . . . . . . . . 23
3.3.5 La prise en compte de l’inflation passée . . . . . . . . . . . . . . . . 25
3.3.6 Statistiques sur les montants de règlements . . . . . . . . . . . . . 26
3.4 Gestion de l’effet de troncature des données . . . . . . . . . . . . . . . 27
3.4.1 Implications de l’effet de troncature . . . . . . . . . . . . . . . . . . 27
3.4.2 Approche envisagée . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5 Portefeuille final pour la modélisation . . . . . . . . . . . . . . . . . . 30
pour un sinistre déclaré à partir de la fin de l’année 2013 (début 2014), nous avons
accès à son développement complet : les règlements effectués année après année
sont connus. Nous associons ces sinistres à la catégorie 1 ;
pour tout sinistre déclaré antérieurement à la fin de l’année 2013, et dont le dévelop-
pement se poursuit après le début de l’année 2014, nous observons une troncature
à gauche des règlements : tous les règlements effectués avant la fin de l’année 2013
sont absents de la base de données. Ce sont les sinistres de catégorie 2 ;
pour tout sinistre déclaré et clos avant la fin de l’année 2013, l’information complète
sur les règlements n’est pas disponible. Cependant, les années de déclaration et de
clôture sont connues. Nous associons ces sinistres à la catégorie 3.
La fenêtre d’observation exhaustive des règlements est donc la plage "début 2014 - fin
2017".
14
3.2 Description des variables
la base polices : toute information relative au contrat d’assurance est recensée dans
cette base. Il est nécessaire de noter que seules les polices sinistrées sont conservées
pour l’étude.
Une volumétrie relativement importante est nécessaire pour pouvoir appliquer des
méthodes de machine learning. La base contient 235 760 sinistres déclarés entre 1988 et
fin 2017. Plusieurs retraitements ont été effectués sur cette base et les impacts associés
seront évoqués ultérieurement.
Variables et signification
15
3.2 Description des variables
Nombre de
Variables Qualitative Quantitative
modalités
GROUPE_COMPTABLE X 66
STRATEGIE X 4
POSITION_ASSURE X 2
GARANTIE_ACTIVE X 106
MOTIF_CLOTURE X 14
DATE_INVENTAIRE
STATUT_DOSSIER X 5
PHASE_SINISTRE X 3
CD_JURIDICTION X 36
PROVISION_DEPENSE_CUMUL X
PROVISION_RECOURS_CUMUL X
ENCAISSEMENT_DEPOT_CUMUL X
ENCAISSEMENT_RECOURS_CUMUL X
ENCAISSEMENT_FRANCHISE_CUMUL X
ENCAISSEMENT_DEPENSE_REGLEE_CUMUL X
REGLEMENT_DEPOT_REVERSE_CUMUL X
REGLEMENT_RECOURS_REVERSE_CUMUL X
REGLEMENT_DEPENSE_CUMUL X
REGLEMENT_FRANCHISE_ENCAISSEE_CUMUL X
REGLEMENT_FRANCHISE_REVERSEE_CUMUL X
TYPE_POLICE X 4
DISTRIBUTION X 14
PRODUIT X 341
TYPE_PRODUIT X 3
MARCHE X 6
SOUS_MARCHE X 17
PART_PROF X 2
TYPE_CLIENT X 2
INTERMEDIAIRE X 3 744
TYPE_GESTION X 2
TYPE_ENCAISSEMENT X 2
Variables calendaires
DATE_SURVENANCE
DATE_DECLARATION
DATE_CREATION
DATE_CLOTURE
DATE_REOUVERTURE
DATE_CREATION_POLICE
Les polices du portefeuille sinistré peuvent couvrir jusqu’à 106 garanties (variable GA-
RANTIE_ACTIVE) dont par exemple la garantie honoraires d’expert, l’assistance au contrôle
fiscal, l’assistance e-reputation, la protection patrimoniale ou encore la garantie des
charges impayées.
Un sinistre pourra être clos sous le motif d’une cause gagnée judiciairement ou à l’amiable ;
ou inversement pour cause perdue judiciairement (variable MOTIF_CLOTURE).
16
3.2 Description des variables
La garantie couverte par une police peut être accordée ou refusée (variable STRATEGIE),
mais il arrive que la compagnie octroie des gestes commerciaux. Si toutefois la garantie
est refusée, le sinistre est systématiquement clos.
La gestion des sinistres est effectuée par des gestionnaires identifiés par un groupe comp-
table associé à une zone géographique. Par ailleurs, un client peut demander la gestion
d’un dossier sinistre par un groupe situé dans une zone autre que celle de la survenance
du sinistre : ceci correspond à une gestion locale ou centrale (variable TYPE_GESTION).
Pour l’estimation des provisions D/D d’ouverture, seules les variables connues à l’ou-
verture d’un sinistre sont retenues pour la modélisation.
la durée de vie du sinistre qui est la différence (en nombre de jours) entre la date
de clôture et la date de déclaration. Cette variable est créée pour présenter ses
statistiques mais ne sert pas dans la modélisation de la charge ultime ;
le délai de déclaration qui est la différence (en nombre de jours) entre la date de
déclaration et la date de survenance ;
la variable développement qui résulte d’un choix de modélisation explicité plus loin.
La durée de vie de sinistre n’est connue que pour les sinistres clos. Elle est censurée
à droite pour les sinistres non clos.
17
3.2 Description des variables
Opérations de retraitement
deux suppressions :
— 263 sinistres doublons ont été supprimés. (Ils avaient tous été créés par er-
reur) ;
et deux modifications :
— tout sinistre clos dont le code de juridiction n’est pas renseigné s’est vu assigner
la modalité "AMIABLE". Il est ainsi supposé que tout sinistre dont la procédure
n’a abouti auprès d’aucune juridiction s’est clos à l’amiable ;
— la variable STRATEGIE à "NULL" pour les sinistres clos correspond à une clô-
ture sans suite. Une modalité a été affectée à ce type de sinistre, ce qui évite
leur suppression.
En résumé
L’estimation des provisions dossier/dossier ne portera que sur les contrats indivi-
duels (modalité "IND" de la variable "TYPE_PRODUIT"). Le filtre sur cette variable conduit
à ne plus la considérer dans la suite de l’étude. Une extension de l’étude consisterait à
modéliser la charge ultime des sinistres associés aux contrats groupes, mais il faudrait
avoir à disposition plus de données que celles présentes actuellement dans la base.
Nous nous restreignons par ailleurs aux sinistres déclarés entre 2002 et 2017 car très
peu de sinistres (278) sont connus avant 2002.
Les sinistres liés aux contrats individuels et déclarés entre 2002 et 2017 sont au nombre
de 135 579 (soit 57,57% de la base post-retraitement). Pour la suite, cette base à 135 579
sinistres est identifiée comme la base de sinistres des contrats individuels.
Dans la section suivante, nous présentons quelques statistiques sur les nombres de
sinistres, leur durée de vie et leur coût.
18
3.3 Statistiques descriptives des variables
Les statistiques descriptives ont été réalisées avec les informations connues en date du
31-12-2017 et contenues dans la base de sinistres des contrats individuels. Elles portent
à la fois sur les sinistres clos et sur les sinistres non clos.
Il a été notamment constaté que plusieurs des variables possèdent un grand nombre
de modalités. Ces variables en question sont identifiables dans la table 3.1 de la section
précédente.
Le tableau 3.3 expose pour chaque variable qualitative, la modalité la plus représentée et
le nombre de sinistres associé.
Sur un nombre restreint de variables, leur dynamique dans le temps est analysée :
est-ce que les sinistres déclarés en 2005 ont par exemple une caractéristique similaire à
celle des sinistres déclarés en 2016 ? Les graphiques 3.2 et 3.3 aident à répondre cette
question. Chacun de ces graphiques présente le nombre de sinistres par modalité, et ce
pour toutes les années de déclaration entre 2002 et 2017. Sont pris en compte dans la
représentation graphique, les sinistres de catégorie 1, 2 et 3.
Sur le graphique 3.2, environ 16% des sinistres déclarés entre 2002 et 2006 sont rat-
tachés au produit de type VPV. De 2007 à 2009, le produit le plus représenté est le COP.
Les contrats associés au produit DEC sont les plus sinistrés sur les années 2011-2017.
Sur le graphique 3.3, de 2014 à 2017, plus de 20% des litiges se rapportent à la ga-
19
3.3 Statistiques descriptives des variables
rantie HONORAIRE D’EXPERT. Cette garantie n’apparait dans les dossiers sinistrés qu’à
partir de 2010. Antérieurement à 2011, la garantie contractuelle est la plus sollicitée dans
l’indemnisation des litiges, représentant plus de 30% du total des dossiers. La garantie
CONTRACTUEL connait une certaine stabilité de 2004 à 2010.
Il est légitime de se poser la question du niveau de dépendance entre toutes ces variables.
Nous analysons ainsi les corrélations entre elles.
20
3.3 Statistiques descriptives des variables
Plus la statistique du V de Cramer est proche de 0, moins les variables étudiées sont
dépendantes. Il vaudra 1 lorsque les deux variables sont complètement dépendantes : la
liaison entre les deux variables est ainsi forte.
Le test du V de Cramer a été utilisé 2 pour détecter les dépendances entre différentes
variables qualitatives de notre base d’étude. La variable "INTERMEDIAIRE" n’a volontai-
rement pas été prise en compte dans le calcul des corrélations car elle possède un grand
nombre de modalités.
21
3.3 Statistiques descriptives des variables
Le tableau 3.4 synthétise l’information sur le nombre de sinistres clos, qui comprend
les sinistres clos à 0 et les sinistres clos avec règlement, et le nombre de sinistres non clos.
Un sinistre est dit clos à 0, lorsqu’aucun règlement n’a été enregistré lors de sa période
de développement.
NOMBRE DE SINISTRES
Année Clos Clos à 0 Clos avec règlement Non clos Total
256 1 257
2002 Troncature Troncature
99,6% 0,4% 100%
703 3 706
2003 Troncature Troncature
99,6% 0,4% 100%
1 365 6 1 371
2004 Troncature Troncature
99,5% 0,5% 100%
2 440 38 2 478
2005 Troncature Troncature
98,5% 1,5% 100%
2 859 40 2 899
2006 Troncature Troncature
98,6% 1,4% 100%
3 305 63 3 368
2007 Troncature Troncature
98,1% 1,9% 100%
4 390 92 4 482
2008 Troncature Troncature
97,9% 2,1% 100%
6 423 120 6 543
2009 Troncature Troncature
98,1% 1,9% 100%
7 532 206 7 738
2010 Troncature Troncature
97,3% 2,7% 100%
Table 3.4 – Statistiques sur le nombre de sinistres de la base des contrats individuels
Les années 2014, 2015 et 2016 représentent à elles seules 38% de la base.
Une tendance se dessine quant à l’évolution croissante du nombre de sinistres dans
le temps, à la fois pour les clos et au global.
22
3.3 Statistiques descriptives des variables
cette proportion est constatée entre 2011 et 2014 mais repart à la hausse à partir
de 2015.
La proportion de sinistres non clos se répartit majoritairement sur les trois der-
nières années. La sinistralité actuelle du portefeuille est axée principalement sur
les années de déclaration les plus récentes (2015-2017).
Nous présentons dans la partie suivante quelques statistiques sur la durée de vie des
sinistres.
Un sinistre développé sur une longue période a une forte probabilité d’avoir un cumul
de règlements élevé. Les statistiques sur la durée de vie des sinistres ont pour objectif
d’isoler ou de détecter des populations de sinistres homogènes. La question est de savoir
si un sinistre déclaré par exemple en 2002 a une durée de vie relativement similaire à
celle d’un sinistre déclaré en 2012.
Nous tentons de repérer une certaine stabilité des statistiques dans le temps. Une ap-
proche pour mesurer cette dynamique est l’analyse des courbes de survie 3 des sinistres.
Le graphique 3.5 illustre la courbe de survie des sinistres par année de déclaration. Cha-
cune de ces courbes intègre l’information sur la durée de vie des sinistres clos et non clos,
mais aussi des sinistres de catégorie 1, 2 et 3. Pour rappel, la durée de vie des sinistres
non clos est censurée à droite.
23
3.3 Statistiques descriptives des variables
La durée de vie des sinistres conditionne leur durée de développement. Environ 99,5%
des sinistres se sont développés sur au plus 8 ans et 99,95% sur au plus 10 ans ; la
moyenne étant de 2 ans.
Outre, les conclusions que nous pouvons tirer de l’analyse de la survie des sinistres,
l’étude parallèle des montants de règlements permet sans doute de détecter aussi des
profils de sinistres.
Avant de présenter différentes statistiques sur les sinistres, nous traitons tout d’abord
la question de la revalorisation des montants, en tenant compte de l’inflation.
24
3.3 Statistiques descriptives des variables
Les incréments de règlements sur la période 2014-2017, sont connus pour tous les
sinistres de la catégorie 1 et 2. Il n’est pas possible d’appliquer l’inflation sur les règle-
ments des sinistres de la catégorie 3.
Pour appliquer de l’inflation, nous proposons d’utiliser une courbe d’inflation pour porter
les montants de règlements à une même année de référence. Les règlements effectués
en protection juridique sont liés majoritairement aux frais de consultation d’experts ou
d’avocats. A défaut de trouver un indice particulièrement associé au domaine juridique,
nous nous basons sur le salaire net annuel moyen des cadres et professions intellectuelles
supérieures (entre 2002 et 2015) 4 pour déduire une courbe d’inflation entre 2002 et 2015.
Cet indice est représenté par le graphe 3.6. Pour les années 2016 et 2017, nous émettons
l’hypothèse que le taux d’inflation de 2015 reste constant sur 2016 et 2017. La tendance à
la hausse des salaires est tout de même conservée (le facteur d’inflation est supérieur à 1).
2017
Y
Inflat é
R èglementt = R èglementt ∗ (1 + tauxs ) ∗ (1 + tauxt )1/2
s =t +1
25
3.3 Statistiques descriptives des variables
A défaut d’une modélisation de la courbe par une méthode comme celle de Wilkie, nous
utilisons un proxy qui est la moyenne des taux connus de l’année 2002 à l’année 2015.
Ce proxy définit le scénario central. Nous lui appliquons un choc à la hausse de 5% pour
définir le scénario up (facteur à 1,013061) et un choc à la baisse de 5% pour définir le
scénario down (facteur à 1,011817).
Sur les trois scénarios, l’hypothèse de conservation des salaires à la hausse est respectée.
Les statistiques exposées précédemment se basent uniquement sur l’axe temporel lié
aux années de déclaration. Nous explorons un second axe, croisé au premier, à savoir
la durée de développement des sinistres. La motivation est de parvenir, sous l’hypothèse
de stationnarité, à isoler des profils de sinistres qui se distinguent remarquablement des
autres.
Nous nous intéressons dans un premier temps à la moyenne des règlements (incréments)
des sinistres suivant l’année de déclaration et l’année de développement. La table 3.5
présente pour une année de déclaration et une période de développement données, la
moyenne des règlements 5 des sinistres.
Année de déclaration 0 1 2 3 4 5 6
2007 0 0 0 0 0 0 50
2008 0 0 0 0 0 68 216
2009 0 0 0 0 38 169 219
2010 0 0 0 53 203 251 196
2011 0 0 45 218 205 166 171
2012 0 54 261 260 221 229
2013 55 301 254 243 248
2014 210 298 237 220
2015 206 302 244
2016 184 284
2017 175
Table 3.5 – Moyenne de règlements (en ¿) des sinistres par (année de déclaration, période
de développement)
De manière inattendue, un sinistre déclaré en 2013 et ayant été développé sur une
année a un règlement moyen équivalent à un sinistre déclaré en 2012 et ayant été déve-
loppé sur deux années. Les montants de règlements effectués en 2013 sont très faibles
en comparaison de ceux des autres années, pour une même période de développement.
L’explication de ce constat est la présence de cette troncature à gauche des données avant
la fin de l’année 2013 exposée antérieurement.
Face à cette non-exhaustivité des montants renseignés en 2013, ils ne sont pas pris
en compte dans la modélisation de la charge ultime.
26
3.4 Gestion de l’effet de troncature des données
Nous précisons que la stabilité de la distribution des règlements d’une période de dé-
veloppement à une autre n’est pas une hypothèse requise : nous ne nous attendons pas
à observer une stabilité des règlements au cours du développement d’un sinistre.
Nous avons fait état d’une troncature à gauche des données, et donc d’une absence
de l’information de la charge ultime pour un grand nombre des sinistres clos. Il est de ce
fait inapproprié de modéliser directement la charge ultime (c’est-à-dire l’utiliser comme
variable à expliquer) en considérant l’intégralité de la base de sinistres des contrats indi-
viduels.
Une première approche de modélisation consisterait à ne prendre en compte que les
sinistres déclarés dans la fenêtre d’observation fin 2013-fin 2017. Cependant, des in-
formations liées aux sinistres de la catégorie 2 seraient perdues. La modélisation de la
charge ultime n’est envisageable qu’en présence d’une base de donnés complète.
27
3.4 Gestion de l’effet de troncature des données
Nous adoptons dans ce mémoire une autre approche qui se penche sur la modélisation
des incréments de règlements par période de développement. Cette approche conduit à
re-structurer la base de sinistres des contrats individuels et à proposer deux nouveaux
types de bases :
Pour chaque ligne de la base de sinistres des contrats individuels, l’information sur
les caractéristiques initiales et le déroulé des règlements sur la fenêtre d’observation est
connue. Pour constituer la base des incréments de règlements par période de développe-
ment, chaque sinistre est dupliqué suivant la période de développement et le montant de
règlement associé. Elle intègre la connaissance du déroulé des sinistres clos (hors caté-
gorie 3) et non clos.
28
3.4 Gestion de l’effet de troncature des données
Comment procéder ?
A partir de la base de sinistres de contrats individuels, huit bases distinctes sont extraites.
Chacune d’elles est utilisée pour estimer la probabilité de passage d’une période de dé-
veloppement à une autre. La base associée au passage d’une période de développement t
à la suivante comprend les caractéristiques initiales de tous les sinistres ayant au moins
été développé sur t périodes et une variable binaire indiquant si le sinistre est développé
ou non à t + 1.
Exemple : Considérons un premier sinistre déclaré en 2012 et clos en 2015 ; il s’est dé-
veloppé sur 4 périodes. Considérons un second déclaré en 2012 et clos en 2013 ; il s’est
développé sur 2 périodes. Un dernier sinistre développé sur une période en 2012. Pour
comprendre comment ils interviennent dans la construction des bases de transition, nous
nous référons à la figure 3.9.
La variable binaire "Passage" détermine pour chaque sinistre s’il est observé en période
de développement t + 1 sachant qu’il a été développé sur t périodes.
29
3.5 Portefeuille final pour la modélisation
Nous récapitulons la construction des différentes bases (figure 3.10) évoquées dans
les sections précédentes.
La base des incréments de règlements (149 199 lignes) et les bases de probabilités
de passage sont celles utilisées pour la modélisation de la charge ultime. Elles intègrent
l’information sur les sinistres clos et sur les sinistres non clos.
Ayant à disposition une base solide, nous pouvons appliquer les méthodes proposées
30
3.5 Portefeuille final pour la modélisation
— nous déterminons le seuil d’écrêtement des graves pour la séparation des sinistres
attritionnels et des sinistres graves.
— les méthodes d’apprentissage sont appliquées sur les sinistres attritionnels. Les
sinistres graves sont réintégrés via une autre modélisation.
31
II
Formalisme général
La modélisation directe de la charge ultime ne peut être envisagée étant donné l’effet
de troncature constaté dans la base de sinistres des contrats individuels. L’approche qui
consiste à modéliser en amont les incréments de règlements conduit à formuler la relation
ci-dessous.
Elle permet de comprendre la modélisation statistique des provisions D/D. La provision
D/D constituée à l’ouverture d’un sinistre correspond à l’espérance du cumul des règle-
ments revalorisés associés à ce sinistre.
T
X
Provision D/Dt0 = E[ R èglementsrevalorisé |Ft0 ]
s =0
T
X Coef d 0 inflations
= E[ R èglements ∗ |Ft0 ]
s =0
Coef d 0 actualisations
X Coef d 0 inflations
= P(T ≥ s) ∗ E[R èglements ∗ |T ≥ s; Ft0 ]
s=0,1,...
Coef d 0 actualisations
Où
Les coefficients d’inflation et d’actualisation font des intervenir des taux futurs et sont
définis par :
s
Y
Coef d 0 inflations = (1 + tauxhinflation ) ∗ (1 + tauxtinflation
0
)1/2
h =t 0 +1
et
33
s
Y
Coef d 0 actualisations = (1 + tauxhactualisation ) ∗ (1 + tauxtactualisation
0
)1/2
h =t 0 +1
Remarque : Pour la modélisation, les règlements de la base des incréments sont re-
valorisés de l’inflation passée (Se référer au chapitre précédent). Ils sont modélisés bruts
de recours et bruts de réassurance.
Le coefficient de revalorisation ne sera porté que par le coefficient d’inflation. Nous sup-
posons un taux d’actualisation nul, ce qui nous place ainsi dans une vision prudente et
non une vision best-estimate.
Soit,
— s la période de développement : s = 0, . . . , 8
l’hypothèse de stationnarité
34
sont stationnaires.
Le coefficient de revalorisation Coef de revalorisationt +s→R permet de ramener un
montant en date t + s à la date R. Il est indépendant de la date de déclaration.
Pour ce qui concerne les deux dernières étapes, un estimateur de la charge ultime
(sous le scénario central) pour un sinistre donné peut être défini comme suit :
S
X
Charge
[ ultime sc énario central = R èglement
[revalorisé +
0
[revalorisé
pˆs ∗ R èglements
s =1
= R èglement
[ 0 ∗ Coef d 0 inflation 1/2
sc énario central
+
S
[ s ∗ Coef d 0 inflation s+1/2
X
pˆs ∗ R èglement sc énario central
s =1
Où
s
Y
pˆs = ph[
−1→h
h =1
35
Interprétation
Considérons un sinistre identifié par ses caractéristiques initiales. Les règlements par
période de développement sont estimés en changeant itérativement la valeur prise par
la variable catégorielle "période de développement". Une série de règlements est ainsi
obtenue : le règlement de la période 0 est pris tel quel et les règlements suivants sont
pondérés par le produit des probabilités de passage du sinistre d’une période à la suivante.
36
Chapitre 4: Détection du seuil des graves
Détection du seuil des graves
Sommaire
4.1 La théorie des valeurs extrêmes (TVE) . . . . . . . . . . . . . . . . . . 37
4.1.1 La loi asymptotique du maximum . . . . . . . . . . . . . . . . . . . 38
4.1.2 La loi des excès au-delà d’un seuil . . . . . . . . . . . . . . . . . . 40
4.1.3 Estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Détermination du seuil des graves . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Représentations QQ-plot . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2 La fonction des excès moyens . . . . . . . . . . . . . . . . . . . . . 45
4.2.3 L’estimateur de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.4 L’estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.5 L’estimateur de Gertensgarbe . . . . . . . . . . . . . . . . . . . . . 48
4.2.6 La méthode des écarts inter-quantiles . . . . . . . . . . . . . . . . 49
4.2.7 Choix du seuil des graves . . . . . . . . . . . . . . . . . . . . . . . 49
Ce chapitre s’inspire des travaux de Sabrina Savarre et de Benoît Payre pour la déter-
mination d’un seuil séparant les sinistres attritionnels des sinistres graves 1 .
Nous analysons le graphique 4.1. Il permet de se rendre compte d’une importante asymé-
trie à droite de la distribution des règlements par période de développement. Cependant,
nous ne serons pas amenés à définir un seuil par période de développement, mais un
seul seuil pour toute la base des règlements.
Un montant de règlement associé à un coût élevé peut être effectué avec une faible pro-
babilité, mais non nulle. Les sinistres de faible coût ont un comportement statistique
différent de celui des sinistres à coût élevé. Une question se pose quant au seuil au delà
duquel un règlement est considéré comme grave, c’est-à-dire associé à un coût élevé.
Nous rappelons dans cette section les principaux théorèmes et résultats de la théorie
des valeurs extrêmes. Nous pourrons nous référer à :
37
4.1 La théorie des valeurs extrêmes (TVE)
L’étude des valeurs extrêmes passe par l’analyse de deux approches : l’approche GEV
(Generalized Extreme Value) et l’approche GPD (Generalized Pareto Distribution). Ces deux
approches sont présentées dans les sections suivantes.
La TVE a pour objectif d’étudier la loi asymptotique du maximum d’une suite de va-
riables aléatoires réelles.
Considérons (X1 , X2 , ..., Xn ), une suite de n variables aléatoires indépendantes et identi-
quement distribuées (i.i.d) de fonction de répartition commune F .
Pour l’étude du comportement extrême des événements, la variable Mn = max {X1 , ..., Xn }
est introduite. Elle correspond au maximum des n variables définies ci-dessus.
Un des résultats fondamentaux de la TVE est le théorème établi en 1928 par Fisher
et Tippet. Ce théorème définit la loi asymptotique de la variable maximum Mn .
2. https://www.institutdesactuaires.com/global/gene/link.php?doc_id=657&fg=1
38
4.1 La théorie des valeurs extrêmes (TVE)
Théorème de Fisher-Tippet
Mn − an
→H
bn
Alors H est l’une des trois lois limites suivantes, données par leur fonction de répartition :
i) la distribution de Gumbel
Ce théorème stipule que celle que soit la loi F , la limite des extrêmes a toujours la
même forme. Bien que le comportement de ces lois soit complètement différent, elles
peuvent être combinées en une seule paramétrisation contenant un unique paramètre γ
qui contrôle l’épaisseur de la queue de distribution. Ce paramètre est l’indice des valeurs
extrêmes.
La forme commune est la suivante :
exp −(1 + γx )−1/γ , γ , 0, 1 + γx > 0
Hγ (x ) =
exp − exp(−x ) , γ = 0, −∞ ≤ x ≤ ∞
où H est une fonction de répartition non dégénérée. Cette loi est appelée la loi des valeurs
extrêmes généralisée, notée GEV (Generalized Extreme Value).
39
4.1 La théorie des valeurs extrêmes (TVE)
L’approche basée sur la GEV est critiquée dans la mesure où l’utilisation d’un seul
maxima conduit à une perte d’information contenue dans les autres grandes valeurs de
l’échantillon 3 .
La méthode des excès au-delà d’un seuil (ou Peaks-Over-Threshold (POT)) proposée par
Pickands (1975) permet de résoudre ce problème.
La méthode POT analyse le comportement des observations au delà d’un seuil donné.
Plutôt que de considérer le maximum Mn , nous nous intéressons aux valeurs qui excèdent
un certain seuil élevé.
Cette méthode initialement proposée par Pickands (1975), a été étudiée aussi par d’autres
auteurs 4 .
y −1/γ
1 − 1 + γ σ (u )
,γ , 0
Gγ,σ (u ) (y) =
1 − exp − y , γ = 0
σ (u )
3. Bechir Raggad, Fondements de la théorie des valeurs extrêmes, ses principales applications et son
apport à la gestion du marché pétrolier (2009)
4. Smith(1987), Davison et Smith(1990), Reiss et Thomas (2001)
40
4.1 La théorie des valeurs extrêmes (TVE)
Les approches GEV et GPD ont en commun la question de l’estimation de l’indice des
valeurs extrêmes.
Diverses méthodes ont été proposées pour estimer les paramètres des lois GEV et
GPD. Nous trouvons par exemple :
Les paramètres de la loi GEV sont estimés à l’aide d’un échantillon de maxima de n
variables aléatoires i.i.d. Pour obtenir un tel échantillon, il faut utiliser la méthode dite
des "maxima par blocs". Une valeur k ∈ 1, . . . , n (assez grande) est choisie et l’échantillon
X1 , . . . , Xn est divisé en m sous-échantillons de taille k. Nous récupérons ainsi m maxima
M1 , . . . , Mm utilisés pour l’estimation des paramètres de la loi GEV.
Pour l’estimation, nous pouvons par exemple utiliser la méthode du maximum de vraisem-
blance en considérant que la loi commune des maxima est une loi des valeurs extrêmes.
La méthode des maxima par blocs requiert un grand nombre d’observations et une diffi-
culté liée à la constitution des blocs vient aussi se greffer.
Nous n’utiliserons pas cette méthode par la suite pour la détermination du seuil des
graves.
Ces estimateurs sont basés sur les statistiques d’ordre X1,n , . . . , Xn,k .
k
1X
Hill
γ̂k,n = log(Xn −i +1,n ) − log(Xn −k,n )
k i =1
41
4.2 Détermination du seuil des graves
!
1 Xn −k,n − Xn −2k,n
Pickands
γ̂k,n = log
log2 Xn −2k,n − Xn −4k,n
Remarque : Cet estimateur est valable quelque soit la distribution des extrêmes.
Pour ces estimateurs, le choix de k (le nombre d’observations retenu) est crucial. Pour
k trop grand, l’approximation par une GPD sera mauvaise et l’estimateur aura un biais
important. A l’inverse pour un k petit, le calcul de l’estimateur engendre une variance
importante, conduisant à une perte de sa stabilité. Le choix de k relève d’un compromis
biais/variance.
Estimation de Gertensgarbe
La méthode est issue des travaux de Gertensgarbe et Werner de 1989. Elle permet
de déterminer le point de départ de la région extrême et fournir une estimation du seuil
optimal. Elle fait intervenir la version séquentielle du test de Mann-Kendall avec à l’idée,
qu’à partir de la zone des extrêmes une modification du comportement des écarts se fera
remarquer.
i (i −1)
Ui∗ − E(Ui∗ ) Ui∗ − 4
Ui = p = q , i = 1, . . . , n − 1
Var (Ui∗ ) i (i −1)(2i +5)
72
Une autre série pour la décroissance des différences ∆n , . . . , ∆2 est calculée. Le point
d’intersection de ces deux séries signe l’entrée dans la zone des extrêmes.
A partir des estimateurs de l’indice des valeurs extrêmes, il est proposé dans la section
suivante de détecter le seuil des graves.
Nous proposons dans un premier temps, à travers des QQ-plot, de tester l’adéquation
des observations à une certaine loi de probabilité.
Des représentations graphiques permettront d’aborder la question de la détermination
du seuil des graves : la fonction des excès moyens, l’estimateur de Hill, l’estimateur
de Pickands, la méthode de Gertensgarbe. Une valeur u sera identifié comme un seuil,
42
4.2 Détermination du seuil des graves
pour ce qui concerne les trois premières méthodes, lorsque l’évolution de l’estimateur
en fonction du seuil se stabilise. Ces approches graphiques ne visent pas à fournir une
valeur précise du seuil, mais conduisent à définir un intervalle d’appartenance du seuil.
Une dernière approche, la méthode des écarts relatifs inter-quantiles, est proposée pour
la détection du seuil u.
Le QQ-plot est un graphique qui représente les quantiles d’un échantillon d’observa-
tions (xi )i =1,...,n contre les quantiles d’une distribution théorique. Il permet ainsi d’analyser
graphiquement l’adéquation d’un échantillon à une distribution.
Si l’échantillon est issu de cette distribution théorique, le QQ-plot est linéaire.
Le QQ-plot exponentiel
i
−log 1 − ; xi,n , i = 1, . . . , n
n+1
Il permet de tirer une conclusion quant à la queue de la distribution :
si les observations sont issues d’une loi exponentielle, les points du graphique sont
alignés. La queue de la distribution est dite très légère ;
Le QQ-plot généralisé
Les points log( n +i 1 ); log(Hk,n ) sont ensuite représentés. Le signe de l’indice des extrêmes
est déduit de l’allure de la courbe :
43
4.2 Détermination du seuil des graves
Le graphique a une allure croissante, ce qui laisse suggérer que l’indice des valeurs
extrêmes est positif. La distribution des règlements est dans le domaine d’attraction de
44
4.2 Détermination du seuil des graves
Fréchet. Ainsi, l’estimateur de Hill pourra être calculé sur les observations.
Dans le cas particulier où la distribution X est une GPD, alors la fonction des excès
moyens est linéaire.
L’approche par la fonction des excès moyens consiste à tracer le mean excess plot, c’est-
à-dire l’ensemble de points (u ; ên (u )), puis à choisir le seuil u à partir duquel ên (u ) est
approximativement linéaire en u 5 .
Nous identifions trois seuils correspondant chacun à une entrée dans une zone de
stabilité à savoir 700, 5 500 et 7 220.
Le seuil à 700 est inférieur à la moyenne des règlements (hors les 0) : il est étrange qu’un
seuil des graves soit inférieur à la moyenne de la distribution ; nous considérons ainsi
que ce seuil est trop faible pour représenter un seuil de graves.
0,5% des observations sont supérieures au seuil 5 500 et correspondent à 4% du coût
global. 0,1% des observations sont supérieures au seuil 7 220 et correspondent à 1,6%
du coût global.
5. Nous nous référons à la propriété de stabilité de la GPD (en annexe) pour argumenter ce critère.
45
4.2 Détermination du seuil des graves
Nous obtenons des seuils équivalents aux seuils définis précédemment qui nous
semblent élevés.
46
4.2 Détermination du seuil des graves
Figure 4.7 – Estimateur de Hill : à gauche, les ordres 1-2000 et à droite, les ordres 1500-
9000
47
4.2 Détermination du seuil des graves
48
4.2 Détermination du seuil des graves
A l’issue des quatre itérations, quatre seuils sont identifiés et les proportions en
nombre de sinistres et en coût global pour les montants supérieurs au seuil sont analy-
sées. La table 4.3 récapitule ce point.
Cette méthode permet, à partir de l’analyse des écarts relatifs entre différents quan-
tiles, de détecter les pics de variations. Elle indique potentiellement une plage d’apparte-
nance du seuil des graves.
Etant donné l’impossibilité de définir tous les quantiles, nous faisons le choix d’étudier
les écarts des quantiles correspondant aux niveaux compris entre 95% et 100% par pas
de 0,5%.
La table 4.4 présente les quantiles aux niveaux explicités ci-dessus
Le passage du quantile à 97,5% au quantile à 98% dénote une variation de 9,5% qui
est environ 3 points au-dessus des précédents écarts. Le même constant est observable
pour le passage du quantile à 98,5% au quantile à 99%.
Il est ainsi considéré que le seuil des graves par cette méthode est compris entre 3 168 et
3 889.
Les seuils identifiés dans les différentes méthodes sont repris dans le tableau 4.5.
49
4.2 Détermination du seuil des graves
sinistres attritionnels et sinistres graves. 1,8% des observations ont un montant de règle-
ment supérieur à ce seuil, et correspondent à 9,7% du coût global.
Nous testons a posteriori l’adéquation des règlements supérieurs au seuil à une dis-
tribution GPD.
Le graphique 4.10 présente la distribution des excès contre la distribution GPD :
Nous constatons que la figure de droite propose une meilleure adéquation à une
distribution GPD que celle de gauche. Ce chapitre prend tout ce sens avec ce graphique,
quant à l’utilité de définir un seuil de séparation.
A partir du seuil choisi, un écrêtement est réalisé sur la base des règlements : tous
les montants supérieurs au seuil prennent la valeur du seuil. Une base dite attritionnelle
est ainsi obtenue.
Les modèles de machine learning sont applliqués sur la base attritionnelle.
Les montants "graves" font l’objet d’un calcul particulier : les surplus des montants au
dessus du seuil sont résumés par leur moyenne. Le forfait des graves est calculé à partir
de cette moyenne et de la proportion constatée de sinistres dits graves.
Ce forfait est ensuite intégré dans l’estimation des montants attritionnels.
50
Chapitre 5: La méthode CART
La méthode CART
Sommaire
5.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 La construction d’un arbre de régression . . . . . . . . . . . . . . . 51
5.1.2 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.3 Robustesse des modèles : indicateurs statistiques . . . . . . . . . . 54
5.2 Illustration sur les données et analyse des résultats . . . . . . . . . . 56
5.2.1 Gestion de l’effet "nombre de sinistres" par des poids . . . . . . . . 56
5.2.2 Vérification de l’hypothèse d’homogénéité statistique . . . . . . . . 59
5.2.3 Vérification de l’hypothèse de stationnarité . . . . . . . . . . . . . . 60
5.2.4 Mesure de l’importance des variables . . . . . . . . . . . . . . . . . 61
5.2.5 Modélisation des probabilités de passage . . . . . . . . . . . . . . . 61
5.2.6 Modèle de la charge ultime . . . . . . . . . . . . . . . . . . . . . . . 62
5.1 Théorie
Cette section est en majeure partie inspirée du livre An Introduction to Statistical Lear-
ning : with applications in R écrit par G. James et al.
Les méthodes dites de partitionnement récursif ont été intégrées dans les classes de
modèles par Breiman, Freidman, Olshen et Stone en 1984, sous la dénomination CART :
Classification And Regression Tree. Les méthodes CART (aussi appelées les méthodes
d’arbre de décision), traitent à la fois des problèmes de régression et des problèmes de
classification.
Cette méthode vient s’ajouter à une liste de méthodes statistiques déjà existantes : la
régression multilinéaire, les modèles linéaires généralisés, l’analyse discriminante. La
méthode CART reste simple d’utilisation et facile d’interprétation.
Nous ne nous focalisons dans cette section que sur les arbres de régression.
Un arbre de régression est construit par partitionnement récursif d’un ensemble d’ob-
servations suivant différentes caractéristiques. Le résultat fourni regroupe par classes
homogènes l’ensemble des observations au regard de la variable à prédire (variable quan-
titative).
Nous reprenons l’exemple exposé dans le livre de G. James et al., qui se base sur le
jeu de données Hitters 1 du package ISLR de R. L’exemple tend à prédire le salaire d’un
joueur de baseball sur la base de son ancienneté et du nombre de hits réalisés l’année
précédente. La variable à prédire est le logarithme du salaire et les deux caractéristiques
51
5.1 Théorie
Figure 5.1 – Arbre de régression (non élagué) sur les données Hitters
mentionnées ci-dessus sont les variables explicatives. Le salaire renseigné dans le jeu de
données est en milliers de dollars.
La figure 5.1 présente l’arbre de décision associé à cette régression. Il consiste en une
succession de règles de décision commençant depuis la racine de l’arbre.
Comment interpréter l’arbre ? :
Le premier noeud est situé au sommet de l’arbre (c’est la racine). Il fournit comme
information 2 la moyenne et la variance des valeurs prises par la variable à prédire.
L’arbre de régression 5.1 traduit de manière simple la relation entre la variable Salary
et les caractéristiques Years et Hits : plus un joueur aura une ancienneté élevée et aura
fait preuve d’adresse la saison précédente, plus son salaire aura tendance à être élevé.
52
5.1 Théorie
5.1.2 Formalisme
Cadre
Le gain minimum pour splitter : la fonction de gain est calculée pour chaque seg-
mentation admissible et l’algorithme ne retient que les segmentations dont le gain
est supérieur à la valeur renseignée.
Le nombre d’observations minimal sur une feuille : l’algorithme écarte tous les
noeuds fils présentant une taille inférieure à cette valeur.
C’est sur la base du choix de ces paramètres, qu’il sera éventuellement possible de
construire des modèles différents les uns des autres. Il est donc important de choisir les
paramètres qui s’ajustent le mieux aux données. Des packages, par exemple h2o sur R
ou sklearn sur Pyhton, proposent le calcul d’ hyperparamètres déterminés à partir de
l’optimisation d’un critère d’évaluation ou de comparaison.
53
5.1 Théorie
Nous nous référons à la publication Model selection for CART regression Trees de Ser-
vane Grey et Elodie Nedelec (2008) [12] pour la compréhension du processus d’élagage
d’un arbre. Une version synthétique est aussi présentée dans l’annexe B.
Une feuille résulte de l’interaction entre les modalités de différentes variables. A chaque
feuille, correspond une valeur prédictive de la variable à expliquer. Elle est égale à la
moyenne empirique des observations sur cette feuille.
Connaissant les modalités prises par une observation, une branche de l’arbre lui est
associée, et ainsi la feuille terminale fournit la valeur prédictive.
Avant d’appliquer un modèle de régression sur une base de données, il est important
de la séparer en trois sous-bases : la base d’apprentissage, la base de test et la base de
validation. Dans de nombreuses situations, la base de test et la base de validation se
confondent.
Ce choix est fait pour notamment tester la robustesse des modèles (pouvoir de prédiction)
construits.
Les modèles sont construits sur la base d’apprentissage et appliqués sur la base de test
(et de validation) pour fournir des prédictions. Le processus classique de modélisation
conduit à réaliser un grand nombre de modèles mais un seul est retenu. Plusieurs in-
dicateurs statistiques aident au choix du meilleur modèle. Les indicateurs suivants sont
les plus usuellement utilisés en apprentissage supervisé.
n
1X
MSE = (yi − ŷi )2
n i =1
54
5.1 Théorie
Où
n est le nombre d’observations de la base de test (ou de validation)
yi est la valeur de la variable à expliquer prise par l’observation i
ŷi est la valeur estimée de la variable à expliquer par le modèle pour l’observation i.
√
RMSE = MSE
n
1X
MAE = |yi − ŷi |
n i =1
n
1 X |yi − ŷi |
MAPE =
n i =1 yi
L’erreur relative
Pn Pn
i =1 yi − i =1 ŷi
Erreur relative = Pn
i =1 yi
L’erreur relative négative est interprétée comme une sur-estimation.
Le modèle présentant la plus faible valeur sur ces indicateurs pourrait être jugé plus
pertinent, mais seulement au regard des modèles construits.
55
5.2 Illustration sur les données et analyse des résultats
Avec le constat que ces poids sont élevés, nous proposons des poids intermédiaires entre
ceux égaux à 1 et ceux proportionnels (définis ci-dessus) : ce sont les poids égaux à la
racine carrée des poids proportionnels.
Année de développement 0 1 2 3 4 5 6 7 8
Poids proportionnels 1 1,7 3,8 7,5 14,8 29,1 56,9 112,4 208,2
Poids en racine carrée 1 1,3 1,9 2,7 3,8 5,4 7,5 10,6 14,4
Pour tenir compte des poids dans l’estimation des règlements, l’algorithme classique
d’arbre de régression est légèrement adapté. L’approche développée par l’algorithme rpart 3
de R pour l’intégration des poids de l’arbre est celle qui impacte directement la fonction de
coût. Nous reprenons les notations de la partie théorique. La fonction de coût est redéfinie
par :
n
X
L= wi (yi − ȳ)2
i =1
3. https://github.com/cran/rpart/blob/master/src/anova.c
56
5.2 Illustration sur les données et analyse des résultats
Où
n
1 X
ȳ = Pn wi ∗ y i
i =1 w i i =1
Avec les poids définis dans la table 5.1, un premier modèle d’arbre de régression est
appliqué sur la base d’apprentissage constituée de 75% de la base des incréments de
règlements. Les résultats qui seront exposés, sont produits à partir de la base de
test.
Figure 5.2 – Erreur relative par période de développement avec les différents poids
57
5.2 Illustration sur les données et analyse des résultats
dégage lorsque le modèle est construit avec les poids en racine carrée.
Ces poids sont considérés comme intermédiaires entre les poids unitaires et les poids
proportionnels.
Nous analysons parallèlement le RMSE pondéré et le MAE pondéré par période de déve-
loppement au travers du graphique 5.3. Le RMSE du modèle avec les poids proportionnels
est systématiquement plus élevé que celui des autres modèles, excepté pour la dernière
période de développement.
Le RMSE des modèles avec des poids unitaires et en racine carrée sont sensiblement
proches. Nous pourrions sur la base de ce critère modéliser avec l’un ou l’autre de ces
poids sans grand impact.
L’analyse du MAE conduit à écarter les poids proportionnels pour la modélisation.
Figure 5.3 – RMSE et MAE par année de développement avec les différents poids
En résumé
Pour considérer un minimum l’effet nombre de sinistres, nous conservons les poids
en racine pour la suite de la modélisation.
58
5.2 Illustration sur les données et analyse des résultats
Nous observons dans un premier temps, la moyenne des règlements estimés contre la
moyenne des règlements réels par période de développement et par année de déclaration
avec le graphique 5.4.
Figure 5.4 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
Nous comparons par suite la moyenne des règlements connus à la moyenne des rè-
glements prédits, afin de s’apercevoir si cette distorsion est maintenue ou non lors de la
modélisation.
Le modèle parvient à lisser la moyenne des règlements sur les différentes années de
déclaration par période de développement.
59
5.2 Illustration sur les données et analyse des résultats
Nous analysons dans un dernier temps l’écart-type des règlements estimés contre ceux
observés à travers des intervalles de prédiction gaussiens (avec une confiance de 95%)
par année de déclaration et par période de développement.
Le graphique 5.5 laisse entrevoir des intervalles d’amplitude relativement équivalente jus-
qu’à la période de développement 5. A partir de la sixième période de développement, il
existe toujours une année de déclaration qui brise l’homogénéité au sein d’une même
période. C’est par exemple le cas de l’année 2009 de la période 7.
Les montants de règlements sont revalorisés avec une courbe d’inflation définie a
priori (se référer au chapitre 3). Nous estimons que l’hypothèse de stabilité des sinistres
peut être vérifiée en ajustant les coefficients de revalorisation de manière itérative.
60
5.2 Illustration sur les données et analyse des résultats
La mise en place de cette technique itérative passe par la définition d’un critère d’ar-
rêt : si l’écart absolu entre les facteurs d’inflation de l’itération i et ceux de l’itération
i − 1 est inférieure à 5% ou si le nombre d’itérations est supérieur à 10, alors l’algorithme
décrit ci-dessus s’arrête. Lorsque le nombre d’itérations excède 10, nous supposons que
l’algorithme n’a pas convergé. Le critère porté sur la variation des facteurs ne garantit
pas une meilleure performance de la régression mais assure néanmoins que les montants
sont stationnaires quelque soit l’année de déclaration.
Le tableau 5.2 résume les facteurs de revalorisation a priori et les facteurs de revalo-
risation après 5 itérations.
La variable ’DEVELOPPEMENT’ a été introduite après avoir choisi une approche qui
consistait à modéliser les règlements par période de développement dans un même en-
semble. Nous mesurons a posteriori l’importance accordée à cette variable (figure 5.6).
Nous constatons très rapidement que le modèle n’accorde pas d’importance à la va-
riable explicative ’DEVELOPPEMENT’.
61
5.2 Illustration sur les données et analyse des résultats
prendre en considération la probabilité qu’ayant été développé sur une période donnée,
un sinistre le soit la période suivante. Ce qui peut se traduire aussi par l’estimation de la
durée de vie du sinistre.
Dans le chapitre sur la présentation des données, sont construites les bases pour la
modélisation des probabilités. La variable à expliquer est binaire, et prend la valeur 1
lorsqu’un sinistre ayant été développé jusqu’à la période t, poursuit son développement à
la période t + 1 ; sinon cette variable prend la valeur 0.
Comme nous ne nous intéressons qu’à la probabilité, un simple arbre de régression peut
être appliqué au jeu de données. Si l’objectif relevait de la classification, il aurait fallu
appliquer un arbre de classification.
A partir des huit bases distinctes, les probabilités de passage pt →t +1 , t compris entre
1 et 8 sont estimées. Par ailleurs, un sinistre une fois déclaré, se développe au moins sur
la période 0.
Sur la base d’un modèle de probabilité et d’un modèle de règlements, un modèle de charge
ultime peut être proposé.
La robustesse du modèle de la charge ultime est challengée sur la base de test constituée
de 25% de la base des incréments de règlements. Deux situations se présentent :
62
5.2 Illustration sur les données et analyse des résultats
i) lorsque dans la base de test, le sinistre est identifié comme clos et appartient à la
catégorie 1 4 , alors l’estimation fournie par le modèle peut être directement com-
parée aux règlements cumulés connus dans la base. Pour un sinistre clos, nous
connaissons avec certitude le nombre de périodes développées.
ii) lorsque le sinistre est identifié comme non clos et appartient à la catégorie 1, alors il
est envisagé d’estimer la charge ultime revalorisée de l’inflation future et de vérifier
qu’elle est a minima supérieure aux règlements cumulés connus à fin 2017.
Remarque : Les sinistres de la catégorie 2 et 3 ont servi pour l’estimation des règle-
ments et des probabilités de passage mais sont moins utiles pour la phase de test du
modèle de la charge ultime. Pour rappel, nous n’avons pas à disposition les règlements
cumulés depuis l’ouverture de ces sinistres.
Nous abordons uniquement la première situation à savoir le cas des sinistres clos.
Il est force de constater que les sinistres clos constituent un sous-portefeuille de tous
les sinistres ayant permis la modélisation. L’application brute de la formule d’estimation
abordée dans le chapitre introductif introduit ainsi un biais dans les résultats.
h −2
(h )
X
Charge
[ ultime = R èglement
[revalorisé +
0
[revalorisé +
pˆs ∗ R èglements
s =1
Charge
[ ultime
(2)
= R èglement [revalorisé pˆ1
[revalorisé + R èglement
0 1
1 − pˆ2
63
5.2 Illustration sur les données et analyse des résultats
Figure 5.7 – Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos)
Sur la base de test utilisée, nous pouvons comparer la charge réelle, la charge estimée
et les provisions des gestionnaires en considérant certaines variables. Les graphiques 5.8
et 5.9 illustrent pour quatre variables, les estimations faites par les gestionnaires, les
estimations faites par le modèle CART et les charges réelles.
Figure 5.8 – Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires
64
5.2 Illustration sur les données et analyse des résultats
Figure 5.9 – Charge réelle vs charge estimée (CART) vs Provisions des gestionnaires
Les provisions d’ouverture estimées par les gestionnaires sont a posteriori systéma-
tiquement supérieures à la charge ultime. Sur certaines caractéristiques, l’estimation
faite par les gestionnaires est supérieure au double de la charge ultime. C’est le cas par
exemple de la modalité PJMO de la variable SOUS_MARCHE ou encore de la modalité
CTU.
C’est pour tenter de réduire cette grande différence que l’étude a été menée.
Nous présentons le tableau 5.3 qui synthétise la charge réelle au global (base de
test), la charge estimée a priori et l’estimation des gestionnaires. Les montants en gris
correspondent aux scénarios down et up.
Les estimations fournies par le modèle CART restent très proches de la charge ultime :
le modèle sur-estime la charge globale 5 avec une erreur relative de 2,6%.
5. Pour rappel, les comparaisons sont faites sur la base de test constituée des sinistres clos.
65
5.2 Illustration sur les données et analyse des résultats
La comparaison avec les estimations des gestionnaires fait tout aussi état de résultats
relativement meilleurs. Tandis que les gestionnaires sur-estiment de 108%, le modèle
sur-estime quant à lui de 2%. L’amélioration des estimations est ainsi non négligeable.
Figure 5.10 – Charge réelle vs charge estimée (CART) sur la base de test (sinistres clos)
66
Chapitre 6: La méthode Random Forest (RF)
La méthode Random Forest (RF)
Sommaire
6.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1.1 La méthode RF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1.2 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.3 Importance des variables . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Illustration sur les données et analyse des résultats . . . . . . . . . . 70
6.2.1 Gestion de l’effet "nombre de sinistres" par des poids . . . . . . . . 70
6.2.2 Etude de la sensibilité des résultats aux paramètres . . . . . . . . 72
6.2.3 Mesure de l’importance des variables . . . . . . . . . . . . . . . . . 76
6.2.4 Vérification de l’hypothèse d’homogénéité statistique . . . . . . . . 76
6.2.5 Vérification de l’hypothèse de stationnarité . . . . . . . . . . . . . . 77
6.2.6 Modélisation de la charge ultime . . . . . . . . . . . . . . . . . . . 78
6.1 Théorie
La classe des méthodes dites d’agrégation regroupe entre autres le bagging (Breiman,
1996), le random forest (Breiman, 2001), le gradient boosting. Le socle de ces modèles est la
méthode CART. Les modèles d’agrégation se veulent être une amélioration de la méthode
CART, en exploitant ses faiblesses pour construire des modèles adaptatifs. L’instabilité
bien connue des arbres de décision peut être corrigée par la technique d’agrégation de
modèles : ils participent à la réduction de variance des arbres.
6.1.1 La méthode RF
67
6.1 Théorie
6.1.2 Formalisme
Cadre
Ŷj = Tj (X̃j )
La relation ci-dessus n’est rien d’autre que la prédiction fournie par un arbre sur la
base des variables explicatives ayant servi au modèle.
B B
1X 1X
Ŷ (RF )
= Ŷj = Tj (X̃j )
B j =1 B j =1
La stratégie d’élagage d’un arbre de la forêt peut ne pas être adoptée. En effet, chaque
arbre ajuste les données avec un faible biais (sur-apprentissage) mais une variance impor-
tante. Cependant, l’agrégation de tous les arbres participe à une réduction de la variance
totale du modèle.
Description de l’algorithme
68
6.1 Théorie
L’erreur OOB est une mesure de l’erreur de prédiction des méthodes d’agrégation
utilisant le bootstrapping pour ré-échantillonner les données d’apprentissage.
Pour chaque observation de la base d’apprentissage initiale, seuls les modèles estimés sur
un échantillon bootstrappé ne contenant pas cette observation sont pris en considération.
L’erreur OOB est l’erreur moyenne de prédiction de toutes ces observations.
La modélisation par les GLMs suppose le passage par une phase de sélection des va-
riables à inclure dans le modèle final. Cette sélection se base sur des méthodologies telles
que les algorithmes backward, forward ou stepwise ; mais aussi sur des tests statistiques
comme le test de Fisher qui juge de la significativité des variables.
En comparaison, dans la modélisation d’une forêt de régression, toutes les variables sont
prises en compte et leur importance est mesurée a posteriori.
L’importance d’une variable se définit par l’apport de cette variable dans la construction
de l’arbre. Plus concrètement, c’est la part de gain apporté par cette variable dans le mo-
dèle, relativement aux autres variables.
L’apport est calculé comme suit pour chaque variable de chaque arbre :
les noeuds segmentés selon cette variable sont détectés en parcourant l’arbre
l’importance est définie comme la somme des gains de ces noeuds divisée par la
somme totale de gains
69
6.2 Illustration sur les données et analyse des résultats
Les variables ayant une importance élevée, relativement aux autres, sont les plus
représentatives du modèle. Notons que les variables possédant de nombreuses modali-
tés ont tendance à être sur-représentées dans les modèles et possèdent de ce fait une
importance élevée.
Cette section reprend les mêmes étapes de modélisation que celles évoquées dans
le chapitre relatif à la méthode CART ; à la différence près qu’une étude de sensibilité
des résultats aux paramètres de la forêt aléatoire est menée. Les paramètres importants
choisis sont le nombre d’arbres, la profondeur des arbres et le nombre de variables à
échantillonner à chaque split.
Les poids présentés dans le chapitre de la modélisation CART (se référer à la table 5.1)
sont repris dans la modélisation par forêt aléatoire.
Une question se pose quant à la prise en compte des poids dans l’algorithme de
construction des arbres. La majorité des packages servant à développer des modèles RF
propose d’associer des poids aux observations : lors du processus de ré-échantillonnage
de la base d’apprentissage, les observations avec un poids élevé sont sélectionnées le plus
souvent. Les poids augmentent ainsi la probabilité de sélection d’une observation.
Les observations liées aux dernières périodes de développement sont le plus souvent ré-
échantillonnées pour rétablir l’équilibre avec le grand nombre d’observations des périodes
récentes.
Un premier modèle RF est construit et permet de rendre compte de l’impact des poids
dans les estimations. Il est constitué de 100 arbres avec une profondeur de 10 pour cha-
cun des arbres et le nombre de variables ré-échantillonnées à chaque split est de 5.
Le graphique 6.1 présente pour chaque période de développement l’erreur relative d’un
modèle avec les poids définis dans la table 5.1 et l’erreur relative avec les poids tous égaux
à 1.
70
6.2 Illustration sur les données et analyse des résultats
En analysant le modèle avec les poids proportionnels, nous constatons que sur les pé-
riodes de développement où les trois modèles sous-estiment, il présente la plus forte
sous-estimation.
Nous pouvons mener le même raisonnement sur les périodes à sur-estimation pour
conclure que le modèle avec les poids proportionnels a tendance à sous-estimer les règle-
ments en comparaison aux autres modèles.
Nous analysons parallèlement le RMSE pondéré et le MAE pondéré par période de dé-
veloppement au travers du graphique 6.2.
Sur la base de ces critères, les trois modèles se distinguent principalement sur les der-
nières périodes de développement. De manière générale et grossière,
RMSE (poids proportionnels) < RMSE (poids en racine ) < RMSE (poids unitaires)
En résumé
71
6.2 Illustration sur les données et analyse des résultats
Figure 6.2 – RMSE et MAE par année de développement avec les différents poids
Les forêts sont construites avec l’objectif d’une étude de sensibilité du RMSE et du
MAE au regard de trois paramètres : le nombre d’arbres, la profondeur des arbres et le
nombre de variables à échantillonner à chaque split.
La modélisation se fait sur la base d’apprentissage et la prédiction sur la base de test. Les
indicateurs calculés par la suite sont pondérés en utilisant les poids en racine carrée.
Nombre d’arbres ?
72
6.2 Illustration sur les données et analyse des résultats
Le graphique 6.3 semble indiquer que la forêt aléatoire à 180 arbres présente le plus
petit RMSE et la forêt à 110 arbres le plus faible MAE. Les différentes forêts ont un RMSE
et un MAE du même ordre de grandeur (un écart maximal d’une unité pour le RMSE et
le MAE). Le choix du nombre d’arbres n’impacte pas considérablement les résultats. Par
ailleurs, il n’existe pas de relation linéaire entre le nombre d’arbres et les indicateurs. Une
tendance dans l’évolution des indicateurs ne s’impose pas. Mais étant donnés les écarts
très faibles des indicateurs entre les modèles, l’erreur de décision est minime. La forêt à
180 arbres est conservée pour la suite de la modélisation.
Le graphique 6.4 semble indiquer que la forêt à 180 arbres avec une profondeur de
10 possède le plus petit RMSE et celle à 180 arbres avec une profondeur de 14 possède
le plus petit MAE 1 . Comme c’est le cas sur ce graphique, il peut arriver que le RMSE
et le MAE n’adopte pas la même tendance (croissance ou décroissance). Contrairement
1. L’analyse n’est valable que sur la liste des niveaux de profondeur définis plus haut.
73
6.2 Illustration sur les données et analyse des résultats
à ce que nous pourrions interpréter, le RMSE n’a pas nécessairement une tendance à
la hausse lorsque le modèle devient volatile (présentant une variance élevée). Le RMSE
accorde plus de poids aux écarts les plus importants 2 .
Figure 6.4 – Evolution des indicateurs statistiques en fonction de la profondeur (180 arbres)
Nous prenons le parti de poursuivre la modélisation avec une forêt aléatoire de 180
arbres, chacun ayant une profondeur de 10.
Le dernier paramètre dont la sensibilité est étudiée, est le nombre de variables échan-
tillonnées parmi la liste disponible à chaque split. Pour un modèle de régression, la valeur
par défaut couramment employée dans les différents packages est la quantité p/3, p étant
le nombre de variables explicatives disponibles dans la base des incréments de règlements
soit 15 variables. Sur la base d’une plage de ~2; 7 variables à échantillonner, l’évolution
du RMSE et du MAE est analysée.
Le graphique 6.5 semble indiquer qu’échantillonner 4 variables à chaque split conduirait
à obtenir le plus petit RMSE.
Nous proposons d’analyser l’erreur relative entre les montants de règlements connus
et ceux prédits avec la table 6.1. L’erreur relative prend la plus petite valeur sur le modèle
à 180 arbres, profondeur 10 avec 3 variables à échantillonnées à chaque split.
En résumé
Le modèle RF finalement retenu pour expliquer les montants de règlements est une
forêt à 180 arbres, une profondeur de 10 pour chaque arbre et un nombre de variables
2. https :medium.com/human-in-a-machine-world/mae-and-rmse-which-metric-is-better-
e60ac3bde13d
74
6.2 Illustration sur les données et analyse des résultats
Table 6.1 – Erreur relative en fonction du nombre de variables échantillonnées (180 arbres,
profondeur de 10)
échantillonnées égal à 4.
Le processus de construction des forêts effectué dans ce mémoire reste très heuristique.
L’exploration de tous les modèles dans l’espace ~50; 200 arbres x ~2; 30 de profondeur
x ~2; 7 variables à échantillonner à chaque split (soit 26 274 modèles) aurait été souhai-
table. Adopter cette approche est très coûteuse en temps d’exécution (environ 7 heures 3 ),
sans compter les problématiques de mémoire et de performance des machines. Il s’est
avéré que dans notre situation, le RMSE et le MAE sont très peu sensibles à la variation
de ces différents paramètres : les valeurs sont relativement proches d’un modèle à l’autre.
Il n’est donc pas crucial de lancer plusieurs milliers de modèles.
75
6.2 Illustration sur les données et analyse des résultats
L’importance des variables de ce modèle est représentée sur le graphique 6.6. Celles
les plus significatives sont la "GARANTIE_ACTIVE", le "GROUPE_COMPTABLE", le "DE-
VELOPPEMENT",et le "CODE_PRODUIT". Trois de ces quatre variables sont intrinsèques
à la police client.
Il est tout à fait normal que le montant de règlement du sinistre soit dépendant de la ga-
rantie accordée et du produit ; pour cause, les primes payées pour acquérir les produits
d’assurance sont différentes. Le mode de gestion des sinistres semble tout aussi impacter
la distribution des règlements.
Nous considérons la forêt à 180 arbres, une profondeur de 10 pour chaque arbre et
un nombre de variables échantillonnées égal à 4. Puis nous analysons la moyenne des
règlements estimés contre la moyenne des règlements réels par période de développement
à l’aide du graphique 6.7.
Le constat évoqué dans la modélisation CART sur les règlements réels reste le même
dans cette partie étant donné que la base de test utilisée est identique dans les deux
situations.
Le modèle RF parvient à corriger la distorsion présente entre les règlements réels par an-
née de déclaration des périodes de développement 6, 7 ou 8 par exemple. Les montants de
règlements prédits par année de déclaration sont homogènes à la vue de leurs moyennes.
Nous analysons parallèlement les écarts-types associés à travers des intervalles de pré-
diction gaussiens avec une confiance de 95% (figure 6.8). L’hypothèse d’homogénéité par
76
6.2 Illustration sur les données et analyse des résultats
Figure 6.7 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
période de développement est portée à la fois sur la moyenne et l’écart-type des règlements.
Sous cette hypothèse, et par période de développement, les intervalles de prédiction entre
les différentes années de déclaration doivent être stables.
Le faible nombre de sinistres sur les dernières périodes laisse supposer que la non-
homogénéité observée est attribuée à du bruit sur la modélisation.
Nous admettons que l’hypothèse d’homogénéité avec la modélisation RF est vérifiée.
Nous suivons la même procédure que celle de la modélisation CART pour vérifier l’hy-
pothèse de stationnarité.
L’algorithme dans ce cas-ci s’arrête au bout de deux itérations, donc traduit une conver-
gence relativement rapide. Nous supposons ainsi qu’il existe de coefficients de revalorisa-
tion permettant de mener les montants de règlements à différentes dates de déclaration
vers une date de référence. Ces coefficients correspondent à ceux obtenus après les deux
itérations de l’algorithme et sont présentés dans le tableau 6.2.
77
6.2 Illustration sur les données et analyse des résultats
Tout comme dans la modélisation CART, la robustesse du modèle est testée à l’aide des
caractéristiques des sinistres de la base de test, tout en distinguant le cas des sinistres
clos.
Nous abordons la comparaison entre l’estimation a posteriori et la charge réelle et la
comparaison entre l’estimation a priori et la charge réelle.
Le graphique 6.9 confronte la charge ultime réelle des sinistres clos et la charge esti-
mée. Nous nous intéressons aux écarts entre ces deux charges. Environ 68% des sinistres
de la base de test présentent un écart inférieur à 500, dont 74% correspondent à des si-
78
6.2 Illustration sur les données et analyse des résultats
La sur-estimation globale observée est portée majoritairement par les sinistres clos sans
règlement. Le calibrage sur les charges élevées se révèle très insuffisant.
Figure 6.9 – Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos)
La forêt aléatoire étant une agrégation d’arbres de régression, le biais et la variance sont
réduits en effectuant une modélisation par forêt aléatoire. La charge ainsi estimée par
le modèle RF est statistiquement proche de la charge réelle que la charge estimée par le
modèle CART.
Les résultats présentés par modalités de variables font état d’un calibrage plutôt sa-
tisfaisant du modèle sur la charge réelle au global.
79
6.2 Illustration sur les données et analyse des résultats
Figure 6.10 – Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires
Figure 6.11 – Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires
Le graphique 6.12 confronte la charge ultime réelle des sinistres clos et la charge
estimée.
Environ 72% des sinistres clos dans la base de test (dont 90% sont clos sans aucun
règlement) ont une charge sur-estimée par rapport à la charge réelle. En comparant les
valeurs réelles, les valeurs estimées et les provisions des gestionnaires (table 6.4), nous
80
6.2 Illustration sur les données et analyse des résultats
Figure 6.12 – Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos)
81
Chapitre 7: Les réseaux de neurones
Les réseaux de neurones
Sommaire
7.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1.1 Comprendre les réseaux de neurones . . . . . . . . . . . . . . . . . 82
7.1.2 Cadre mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.1.3 Apprentissage d’un réseau neuronal . . . . . . . . . . . . . . . . . 85
7.2 Illustration sur les données et analyse des résultats . . . . . . . . . . 88
7.2.1 Gestion de l’effet ’nombre de sinistres’ par des poids . . . . . . . . . 88
7.2.2 Etude de la sensibilité au nombre de neurones . . . . . . . . . . . 90
7.2.3 Vérification de l’hypothèse d’homogénéité statistique . . . . . . . . 93
7.2.4 Vérification de l’hypothèse de stationnarité . . . . . . . . . . . . . . 95
7.2.5 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . . 95
7.1 Théorie
Les réseaux de neurones (artificiels) s’inscrivent dans la catégorie des méthodes d’ap-
prentissage profond (deep learning). Ils tendent à détecter ou reconnaître des structures
au sein d’une base de données. La modélisation des réseaux de neurones s’appuie sur
le fonctionnement des neurones du cerveau humain. La terminologie neurone formel re-
viendra très souvent : c’est la représentation mathématique et informatique d’un neurone
biologique. Il calque les caractéristiques biologiques (dendrites, axone et synapses) au
moyen de fonctions et de variables numériques.
2. l’axone : c’est le long de l’axone que les signaux partent du neurone. Il transporte
l’influx nerveux. L’axone se connecte aux dendrites des autres neurones.
3. les synapses : c’est une jonction entre deux neurones, et généralement entre l’axone
d’un neurone et une dendrite d’un autre neurone.
Un neurone formel (figure 7.2) est conçu comme un automate doté d’une fonction
d’activation qui transforme ses entrées en sortie selon des règles précises 1 . Le neurone
formel (ou artificiel) copie le neurone biologique :
1. https://www.wikiwand.com/fr/R%C3%A9seau_de_neurones_artificiels
82
7.1 Théorie
Les signaux provenant d’autres sources sont captés par le neurone au travers des
dendrites, la force d’un signal étant mesurée par un synapse. Les signaux entrants sont
traités et retranscrits en un signal de sortie, qui alimentera l’entrée d’un autre neurone.
Un réseau de neurones
83
7.1 Théorie
Figure 7.3 – Un réseau de neurones avec une couche cachée (à trois neurones)
beaucoup plus complexe consiste à intégrer différentes couches cachées, chaque couche
cachée étant elle-même constituée de plusieurs neurones. Il est important de remarquer
que les neurones au sein d’une même couche n’ont pas de connexions entre eux.
Les réseaux de neurones peuvent être à la fois utilisés pour la classification et pour
la régression. Ce mémoire ne se focalise que sur la régression. Par souci de lisibilité, les
formules ne sont présentées que pour un perceptron à une couche cachée notée PMC(1) .
Considérons l’espace des variables {Y, X1 , ..., Xp }, p variables explicatives et Y une va-
riable quantitative à expliquer. Un réseau neuronal (PMC(1) ) est défini par :
où
84
7.1 Théorie
défini par :
p
X
T
wm ·x= wj,m ∗ xj
j =1
ŷ = f ( 0 + T
· z)
où
T
— { 0, } est le vecteur poids associé à l’activation du neurone de sortie.
— z = {z1 , ..., zm } l’ensemble des outputs des neurones "cachés". Ce sont des ré-
sultats intermédiaires dont leur combinaison linéaire est transformée à travers
la fonction d’estimation.
Remarque : w0 et 0 sont des "biais" : l’analogie peut être faite avec la notion d’intercept
dans les modèles linéaires.
Un modèle neuronal est donc entièrement déterminé par la donnée des variables expli-
catives et à expliquer, des fonctions d’activation et d’estimation, et des poids. Les fonctions
sont choisies a priori du modèle. Les poids sont estimés au cours de l’apprentissage.
Fonction d’activation
Les différents types de neurones se distinguent par la nature de leur fonction d’acti-
vation :
En pratique, la même fonction d’activation est utilisée pour tous les neurones d’une
même couche cachée. Les modèles avec des fonctions linéaires et sigmoïdales sont les plus
utilisés car ces fonctions sont différentiables. Imposer que la fonction soit différentiable
est une propriété importante dès lors que l’optimisation des paramètres est effectuée avec
un algorithme de descente de gradient.
A la construction d’un modèle neuronal, les variables et fonctions d’activation (et d’es-
timation) sont connues. L’apprentissage du réseau se résume à l’estimation des poids
85
7.1 Théorie
w et du modèle. L’estimation des paramètres dans un modèle linéaire est basée sur
la méthode des moindres carrés. Le critère à optimiser dans un réseau neuronal est la
fonction de perte quadratique.
p
Considérons {yi ; x = {xi1 , ..., xi }}i =1,...,n un échantillon de l’espace des variables défini pré-
cédemment.
La fonction de perte quadratique est définie par :
n
X n
X
L (y, x, w, ) = Li = (yi − f (x, w, ))2
i =1 i =1
La rétro-propagation du gradient
La technique consiste à corriger les erreurs sur l’estimation des poids synaptiques.
L’algorithme du gradient a pour but de converger de manière itérative vers une configu-
ration optimisée des poids synaptiques.
Il s’agira d’évaluer les dérivées partielles de la fonction L en une observation et par rapport
aux différents poids.
n
X n
X M
X
Li = (yi − f ( 0 + m ∗ zm,i ))2
i =1 i =1 m =1
∂Li
= −2 ∗ (yi − f ( 0 + T
· zi )) ∗ zm,i ∗ f 0 ( 0 + T
· zi )
∂ m
n
X n
X p
X
j
Li = (yi − f ( 0 + T
σ ( w0 + wj ∗ xi )))2
i =1 i =1 j =1
∂Li
= − 2 ∗ ( yi − f ( 0 + T
· zi )) ∗ f 0 ( 0 + T
· zi )) ∗ xij ∗ T
∗ σ 0 ( w0 + w T · x i )
∂wm,j
∂Li
∂ m
et
∂Li
∂wm,j
, ∀j = 1, ..., p ∀m = 1, ..., M sont les gradients de la fonction de perte L.
Les paramètres optimaux du modèle sont tels que L est minimale. Il est question de
résoudre le système d’équations à dérivées partielles :
=0
∂Li
∂ m
∂Li
=0
∂wm,j
86
7.1 Théorie
Les solutions de ce système sont obtenus numériquement avec des méthodes qui
reposent sur l’idée de la descente locale : les valeurs des paramètres sont modifiées ité-
rativement jusqu’à obtenir un optimum local (et peut-être global). L’algorithme itératif
réajuste les poids à chaque itération de sorte à converger. A l’itération ν + 1,
n
(ν +1) (ν )
X ∂Li
m = m −γ ∀m = 1, ..., M
i =1
∂ m
n
(ν +1) (ν )
X ∂Li
wm,j = wm,j −γ ∀j = 1, ..., p
i =1
∂wm,j
Le paramètre γ est appelé le pas du gradient (learning rate). Il peut être fixé, ou peut
varier en cours d’exécution de l’algorithme (il est adaptatif).
L’algorithme permettant l’estimation des poids par rétro-propagation de l’erreur est pré-
senté en annexe. La descente de gradient décrite ci-dessus se décline aussi sous sa version
stochastique, mais que nous n’aborderons pas dans le cadre de ce mémoire.
Avant de lancer les modèles, les variables devront subir un traitement au préalable.
Cette technique est inspirée de l’approche ACM (Analyse des Correspondances Mul-
tiples).
ii les variables quantitatives sont normalisées. La bijection suivante est opérée pour
chaque variable quantitative :
xj − moyenne (x)
xj → xjnorm =
ecartType (x)
Sur une même base de données, un réseau de neurones se distingue d’un autre par
le nombre de couches cachées, le nombre de neurones par couche cachée et la fonction
d’activation. Les décisions prises sur ces trois facteurs conditionneront la qualité du mo-
dèle, à savoir son pouvoir de prédiction ou sa robustesse.
le nombre d’itérations
un terme de régularisation
le choix de la valeur γ
87
7.2 Illustration sur les données et analyse des résultats
Des études de sensibilité peuvent être à effectuer sur chacun des trois premiers para-
mètres pour isoler leur impact dans le modèle.
Les modèles neuronaux sont souvent décrits comme étant beaucoup moins acces-
sibles que les autres méthodes de machine learning décrites antérieurement. Mais ils ont
fait preuve d’une importante efficacité dans bien de nombreux problèmes de modélisation,
conduisant à des résultats plus probants que ceux des autres méthodes.
La modélisation par le réseau neuronal (RN) s’appuie sur les mêmes bases d’apprentis-
sage et de test que les modèles CART et RF. Cependant, un pré-traitement est effectué (se
référer à la section technique) sur les variables tant quantitatives que qualitatives, avant
application des modèles.
Comme dans la modélisation CART ou RF, sont définies des étapes à suivre pour la
mise en ouvre des modèles RN. Leur description n’est pas reprise dans cette section car
similaire à celle de la méthode RF.
Les poids présentés dans le chapitre de la modélisation CART (se référer à la table 5.1)
sont repris dans la modélisation par forêt aléatoire.
Remarque : Les poids associés aux neurones (se référer à la partie théorique) sont diffé-
rents des poids associés aux observations. Dans cette section, ce sont les poids associés
aux observations qui sont traités.
88
7.2 Illustration sur les données et analyse des résultats
Pour l’étude de la sensibilité des résultats aux poids définis, nous débutons avec un
réseau à une couche cachée et trois neurones. Le graphique 7.4 présente pour chaque
période de développement les indicateurs RMSE et MAE des modèles avec les différents
poids. Par période de développement, le RMSE des trois modèles est sensiblement iden-
tique avec une exception pour la période 7. Les valeurs du RMSE ne semble pas être
impactées par l’introduction des poids.
La même analyse n’est plus complètement valable lorsque nous nous intéressons au
MAE. L’introduction de poids proportionnels réduit le MAE des premières périodes de
développement ; mais les poids en racine carrée fournissent de meilleurs résultats avec
des valeurs plus faibles. La tendance s’inverse à partir de la période 5 ; sous un aspect
plus global, le modèle avec les poids en racine propose un MAE relativement faible.
En résumé
Nous nous basons sur l’indicateur MAE pour décider des poids en racine pour la suite
de la modélisation par réseau neuronal.
Figure 7.4 – RMSE et MAE par année de développement avec les différents poids
2. Le théorème d’approximation universelle indique qu’un réseau à propagation avant d’une seule couche
cachée contenant un nombre fini de neurones (c’est-à-dire, un perceptron monocouche) peut approximer des
fonctions continues sur des sous-ensembles compacts.
89
7.2 Illustration sur les données et analyse des résultats
Sur la base d’une plage de ~2; 10 neurones sur la couche cachée, l’évolution du RMSE
et du MAE est analysée. Le choix du nombre de neurones maximal (10) est arbitraire et
devrait être étendu car les variations des indicateurs statistiques semblent importantes
(écart maximal constaté de 4 unités pour le RMSE et de 10 unités pour le MAE).
Le graphique 7.5 révèle que le réseau à 8 neurones possède à la fois le plus faible MAE
(331) et le plus faible RMSE (536). Les deux indicateurs semblent indiquer les mêmes
tendances : le réseau avec le RMSE le plus élevé possède aussi le MAE le plus élevé.
Par ailleurs, il s’avère particulièrement intéressant d’analyser l’erreur relative entre les
règlements connus et les règlements estimés (table 7.1).
90
7.2 Illustration sur les données et analyse des résultats
ment élevé et parallèlement estimer avec une erreur relative faible ou tout simplement
l’inverse. C’est le cas notamment du réseau à deux neurones construit sur notre base
d’apprentissage.
Ce réseau qui présente l’un des MAE les moins élevés avec un RMSE tout aussi faible
relativement aux autres, sous-estime la charge globale réelle avec une erreur de 7,7%.
Le phénomène inverse est observé sur le réseau à trois neurones. Il peut s’avérer ainsi
difficile d’obtenir un réseau qui fait l’unanimité suivant les trois critères.
L’erreur relative associée au modèle à 8 neurones est bien en concordance avec les valeurs
du RMSE et du MAE : ce modèle affiche pour les trois critères, les plus faibles valeurs.
Ainsi, le réseau à une couche cachée constituée de 8 neurones est conservé pour cette
approche de la modélisation. Ce réseau reste globalement satisfaisant au vu des trois
critères.
Pour tenter d’accroître le pouvoir prédictif par profil de risque de ce modèle, la mo-
délisation avec des réseaux à deux couches cachées est envisagée. La recherche d’un
"meilleur" modèle conduit à obtenir des structures de plus en plus complexes et de moins
en moins interprétables.
Pour cette approche, la recherche d’un modèle est effectuée dans l’espace cartésien ~2; 5
x ~2; 5 de nombre de neurones. Chaque couche cachée pourra être au maximum compo-
sée de 5 neurones. Il est toujours possible de modéliser avec autant de couches cachées
que souhaitées, mais cette pratique est particulièrement conseillée pour des données à
structures identifiées comme complexes a priori. Par ailleurs, pour une raison de temps
d’exécution important, les réseaux ne sont pas étendus à plus de deux couches cachées.
Les indicateurs RMSE et MAE sont représentés sur le graphique 7.6.
Les différents couples de réseaux présentent des indicateurs proches les uns des
autres, avec tout de même le couple (4,3) qui fait une exception. Il présente le RMSE
le plus élevé et le MAE le plus élevé. Ce réseau ne peut être utilisé pour modéliser les
montants de règlements.
Le réseau (5,4) présente le plus faible RMSE (513) et le réseau (2,5) le plus faible MAE
(319).
Parallèlement, l’erreur relative est analysée (table 7.2) pour chaque réseau.
L’erreur relative des réseaux à deux couches est globalement plus élevée que celle des
réseaux à une couche. Les réseaux à deux couches semblent être moins adaptés à la
structure de notre base de données. Le réseau associé au couple (3,2) prédit avec l’erreur
relative la plus faible 3 . Il présente tout de même un MAE plus important que celui de 62%
des modèles prédits. Le réseau avec le plus petit RMSE, prédit avec une erreur relative de
1,3%.
Le réseau lié au couple (4,3) qui présente le RMSE et le MAE les plus élevés a aussi l’erreur
relative la plus élevée (9,9%).
91
7.2 Illustration sur les données et analyse des résultats
Une tendance opposée se dessine entre la valeur du MAE et celle de l’erreur relative : par
exemple, le réseau associé au couple (2,5) prédit avec une erreur relative de 6,7% tout en
présentant un MAE de 319 (le plus faible de la famille à deux neurones sur la première
couche). La remarque s’étend aussi aux couples (3,3) et (5,2).
Parmi les modèles à deux couches, le réseau associé au couple (4,2) fait partie de ceux
présentant le plus faible RMSE, avec une erreur relative relativement faible tout en conser-
vant une erreur relative moins élevée (0,3%). Nous décidons de garder ce modèle lorsque
92
7.2 Illustration sur les données et analyse des résultats
En résumé
Pour une modélisation au travers d’une couche cachée, le réseau à 8 neurones est
conservé.
Lorsque la modélisation porte sur deux couches cachées, le réseau associé au couple (4,2)
est conservé.
L’hypothèse d’homogénéité doit être à la fois testée pour le modèle à une couche cachée
et pour le modèle à deux couches cachées.
Nous rappelons que le modèle dont nous testons l’homogénéité est le réseau à 8 neu-
rones.
Le graphique 7.7 confronte les règlements connus et les règlements prédits par période
de développement. Il permet de constater que le modèle parvient à parfaitement lisser
les montants de règlements par période de déclaration au sein d’une même période de
développement.
Il n’aurait pas été nécessaire de tester l’hypothèse si la normalisation avait été réali-
sée par période de développement.
Nous analysons aussi les intervalles de prédiction gaussiens avec une confiance de 95%
(graphique 7.7). Outre la stabilité de la moyenne des règlements entre les années de dé-
claration, le graphique révèle aussi une stabilité des écarts-types.
La superposition des deux graphiques nous conduit à ne pas refuter l’hypothèse que
les montants de règlements sont homogènes par période de développement.
93
7.2 Illustration sur les données et analyse des résultats
Figure 7.7 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
94
7.2 Illustration sur les données et analyse des résultats
Par similarité à la modélisation CART et RF, nous confrontons les résultats fournis
par les réseaux de neurones, la charge réelle et les estimations des gestionnaires. Ces
résultats correspondent au réseau à une couche cachée.
Figure 7.9 – Charge réelle vs charge estimée (RN) sur la base de test (sinistres clos)
95
7.2 Illustration sur les données et analyse des résultats
A titre informatif, la charge estimée a priori est aussi présentée. Nous aboutissons
toujours à la même conclusion, c’est-à-dire une sur-estimation de la charge globale réelle.
96
Comparaison des différentes méthodes
Comparaison des différentes méthodes
CART vs RF vs RN
Dans ce chapitre, il est question de s’imposer un modèle définitif parmi les modèles
CART, RF et RN pour ce qui concerne la prédiction de la charge ultime. Pour rappel,
Sur la base des indicateurs statistiques, une comparaison des quatre modèles est
apportée (table 7.6). Les valeurs présentées sont calculées suivant le scénario central.
Sur les trois critères de décision, le modèle RF est le plus probant : il présente à la fois
le plus faible RMSE et MAE et à la fois la plus faible erreur relative (en valeur absolue).
Le modèle avec la plus faible erreur relative caractérise le modèle le plus prudent au
sens du provisionnement. Le modèle neuronal à une couche cachée présente bien cette
caractéristique. Il a cependant un RMSE plus élevé que celui de la forêt aléatoire. Sachant
que l’indicateur RMSE transcrit un bon ou mauvais calibrage par profil de risque, nous
pouvons discuter du choix du modèle neuronal pour la modélisation de la charge ultime.
Cependant sur la base de l’erreur relative, le modèle RN à deux couches cachées est
préféré. Mais le RMSE et le MAE sont parmi les plus élevés.
Parmi les deux modèles neuronaux, nous décidons de conserver le réseau à une couche
cachée : il dispose à la fois du plus petit RMSE et du plus petit MAE.
97
7.2 Illustration sur les données et analyse des résultats
Synthèse
le modèle neuronal est décrit comme étant le plus prudent au sens du provisionne-
ment ; il présente l’erreur relative la plus élevée (en valeur absolue). L’erreur relative
négative traduit un sur-provisionnement.
l’arbre de régression ne s’illustre pas par la plus faible valeur des indicateurs mais
présente le grand avantage de l’interprétabilité des résultats et de sa simple mise
en application.
Selon les objectifs et stratégies de la compagnie, l’un des modèles sera préféré à un
autre. Les différents modèles pourront être utilisés simultanément à condition d’associer
à cette approche un modèle de crédibilité. Cet aspect n’est pas abordé dans le mémoire
mais pourra certainement faire l’objet de futurs travaux.
La grille servant à la constitution des provisions D/D d’ouverture repose sur les dif-
férents critères retenus dans la modélisation RF. A l’ouverture d’un dossier sinistre, le
gestionnaire est amené à renseigner les informations listées dans la table 7.7. La grille
complète est une combinaison cartésienne des différentes modalités et valeurs de la table.
Variables
GROUPE_COMPTABLE
POSITION_ASSURE
GARANTIE_ACTIVE
TYPE_POLICE
DISTRIBUTION
CD_PRODUIT
NUM_PRODUIT
MARCHE
SOUS_MARCHE
PART_PROF
TYPE_CLIENT
TYPE_GESTION
TYPE_ENCAISSEMENT
DELAI_DECLARATION
98
7.2 Illustration sur les données et analyse des résultats
contrats par exemple, il est très peu probable de parvenir à renseigner l’année de créa-
tion de la police, d’autant plus que la compagnie d’assurance a migré vers un nouveau
système de gestion.
Cependant, les variables liées au contexte du sinistre telles que la GARANTIE_ACTIVE et
la POSITION_ASSURE sont connues et peuvent sans aucune difficulté être renseignées.
Une première solution naïve pour la gestion de l’information manquante est d’imputer
par la modalité la plus représentative de la variable (qualitative) ou par la moyenne de
la variable (quantitative). Cette approche conduit souvent à une sous-estimation de la
variable à prédire.
La seconde approche est une imputation par analyse factorielle (AFMD par exemple).
Cette analyse est réalisée sur la base de l’information transmise par les sinistres déjà
survenus.
Dans le cadre de cette étude, nous proposons aux gestionnaires la première approche.
Elle pourra être remplacée ultérieurement par la seconde approche.
99
Conclusion
Conclusion
La principale motivation de l’étude menée fût de proposer une grille d’estimation des
provisions dossier/dossier aux gestionnaires : il est proposé de fournir à terme une base
des combinaisons possibles des modalités et les estimations correspondantes. La consti-
tution des provisions d’un nouveau sinistre passera par une requête vers cette grille. Se
pose la question de la mise en place et de la maintenance des modèles dans un cadre
opérationnel.
Bien qu’obtenant des résultats globalement probants, des limites de modélisation sont
à pointer, indépendamment de la méthode d’estimation d’employée.
Les sinistres clos sans aucun règlement sont pris en compte directement dans
l’étude. En effet, ces sinistres ont tendance en moyenne à faire baisser la charge
estimée, ce qui pourrait être souhaitable. Mais nous estimons qu’un traitement
spécial des sinistres clos à 0 pourrait améliorer de manière non négligeable les
modèles. Ils représentent une part importante de la base d’étude, conduisant à une
énorme perte de volumétrie si toutefois leur exclusion était faite. Un modèle à deux
étages ou un modèle zero-inflated peut être envisagé.
A disposition d’une base plus volumineuse, une solution de modélisation serait la
suivante :
100
7.2 Illustration sur les données et analyse des résultats
— modéliser la probabilité qu’un sinistre soit clos sans suite en fonction de ces
caractéristiques ;
— pour l’explication de la charge ultime, exclure les sinistres clos sans suite de
la base ;
Les sinistres dits graves ont été écrêtés de la base. Inversement aux sinistres clos
sans suite, ils ont tendance à faire augmenter la charge estimée. La détection des
graves et leur analyse séparée pourrait être une extension de cette étude. Il s’avère
que les sinistres de la base ont une charge ultime relativement faible, mais la com-
pagnie d’assurance n’est pas à l’abri de la survenance d’un sinistre à coût très élevé.
L’approche par le retraitement des sinistres graves serait la suivante :
— par la théorie des valeurs extrêmes, détecter le seuil des graves (démarche déjà
réalisée) ;
— établir un coût forfaitaire pour les sinistres graves. Souvent par manque de vo-
lumétrie, le coût forfaitaire est préféré à la prise en compte de caractéristiques
des sinistres.
Les plages définies pour les études de sensibilité des paramètres sont arbitraires
et peuvent paraitre restreintes. Une extension serait d’élargir le spectre des para-
mètres. Il faut toutefois considérer les performances des machines à disposition.
Les modèles RF et réseaux de neurones ont nécessité l’utilisation de machines dis-
posant d’une mémoire ram d’au minimum 10Go. les temps d’exécution sont aussi à
prendre en compte lorsque nous envisageons un spectre des paramètres beaucoup
plus large.
Les règlements de toutes les périodes de développement ont été intégrés dans une
même base de modélisation. Ce qui s’apparente à une approche univariée. Il se-
rait sans doute intéressant de proposer une approche multivariée qui modéliserait
séparément les règlements par période de développement en tenant tout de même
compte des interactions.
101
Abréviations
Abréviations
D/D dossier/dossier
CART Classification And Regression Tree
RF Random Forest
RN Réseau Neuronal
PMC Perception MultiCouche
ACP Analyse en Composantes Principales
ACM Analyse des Correspondances Multiples
AFMD Analyse Factorielle Multiple Duale
RMSE Root Mean Square Error
MAE Mean Absolute Error
GEV Generalized Extreme Value
GPD Generalized Pareto Distribution
POT Peaks-Over-Threshold
102
Table des figures
Table des figures
103
6.5 Evolution des indicateurs statistiques en fonction du nombre de variables
échantillonnées (180 arbres, profondeur 10) . . . . . . . . . . . . . . . . . 75
6.6 Significativité des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.7 Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.8 Intervalles gaussiens sur les règlements prédits . . . . . . . . . . . . . . . 78
6.9 Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos) . . . 79
6.10 Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires . . . . 80
6.11 Charge réelle vs charge estimée (RF) vs Provisions des gestionnaires . . . . 80
6.12 Charge réelle vs charge estimée (RF) sur la base de test (sinistres clos) . . . 81
E.1 Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
E.2 Intervalles gaussiens sur les règlements prédits . . . . . . . . . . . . . . . 113
Liste des tableaux
Liste des tableaux
105
Bibliographie
Bibliographie
[1] B.RAGGAD. Fondements de la théorie des valeurs extrêmes, ses principales appli-
cations et son apport à la gestion des risques du marché pétrolier. pages 29–63,
October 2009.
[5] E.ARJAS. The claims reserving problem in non-life insurance : some structural ideas.
Astin Bulletin, Vol.19,No.2, 1989.
[12] S.GEY et E.NEDELEC. Model selection for cart regression trees. October 2008.
[13] K.ANTONIO et R.PLAT. Micro-level stochastic loss reserving for general insurance.
Scandinavian Actuarial journal, 7, November 2014.
[16] G.GIBAUD. Revue des provisions dossier/dossier avec des méthodes de machine
learning. Master’s thesis, 2018.
[18] ASTIN group. Individual claim development with machine learning. 2017.
[19] M.NIELSEN. Neural Networks and Deep Learning. Determination Press, 2015.
106
[22] P.HENIN. Un modèle de provisionnement ligne à ligne en assurance responsabilité
civile. Master’s thesis, 2016.
[26] Xiao Bing et Xian Zhou Zhao. Applying copula models to individual claim loss reser-
ving methods. Insurance : Mathematics and Economics, 46(2) :290–299, 2010.
Annexes
Annexe A: Théorème de Pickands-Balkema-de-Haan (1975) et Propriété
Théorème de Pickands-Balkema-de-Haan (1975) et Propriété de stabilité
de stabilité de la GPD
de la GPD
où Fu (y) est la fonction de répartition conditionnelle des excès pour u élevé, xF est
le point terminal de F , xF = sup{x ∈ R : F (x ) < 1} et Gγ,σ (u ) (y) est la fonction de Pareto
généralisée (GPD).
Soit Y une variable aléatoire distribuée selon une GPD de paramètres (γ, σ ).
La variable aléatoire Yu = [Y − u |Y > u ] est distribuée selon une GPD de paramètres
(γ, σ + γu ). On en déduit que si γ < 1, alors pour tout u < yF = sup{y ∈ R, F (y) < 1},
α + γu
E(Y − u |Y > u ) = , α + γu > 0
1−γ
109
Annexe B: Algorithme pour la construction d’un arbre de régression
Algorithme pour la construction d’un arbre de régression
110
Annexe C: Elagage d’un arbre
Elagage d’un arbre
Un sous-arbre élagué de Tmax est défini comme ayant la même racine que celle de
l’arbre maximal.
Introduisons les notations suivantes :
|T |
critγ (T ) = Erreur (T ) + γ ∗
n
Où
P|T |
Erreur (T ) = |T1 | i =1 (yi − T (xi ))2
γ > 0 est le paramètre de complexité et définit le coût de chaque feuille
n est le nombre total d’observations. xi fait référence à l’ensemble des variables explica-
tives du modèle, observées pour l’individu i.
Si Tγ satisfait :
Tγ = arg min critγ (T )
T Tmax
Tmax T1 ... TK
111
Annexe D: Algorithme de la rétro-propagation de l’erreur
Algorithme de la rétro-propagation de l’erreur
112
Annexe E: Vérification de l’hypothèse d’homogénéité - Réseau à deux
Vérification de l’hypothèse d’homogénéité - Réseau à deux couches
couches cachées
cachées
Figure E.1 – Moyenne de règlements prédits (en bleu) contre la moyenne des règlements
réels (en rouge)
113