Vous êtes sur la page 1sur 91

Mémoire d’Actuariat

présenté et soutenu publiquement par

Diane Li
Jean-Baptiste Debard
le 30 septembre 2019

Application de Méthodes d’Apprentissage à la Tarification


Non-Vie et Considérations sur l’Interprétabilité

Directrice de mémoire : Catherine Mazars

Société Générale
Audit Interne - Risques de Modèles
17 cours Valmy, 92800 Puteaux, France
ii
Résumé

Les méthodes récemment développées de machine learning sont en passe de transformer


l’industrie de banque-assurance et ce, bien au delà des champs d’application déjà connus du
secteur (octroi de crédit, tarification de garanties, mesures de risque, ciblage des clients). Ces
méthodes s’imposent car elle présentent d’indéniables gains de performance par rapport aux
méthodes classiques pour de nombreuses applications et permettent d’explorer de nouvelles
possibilités. Elles introduisent néanmoins une nouvelle complexité dans leur contrôle avec un
risque de modèle accru.

En effet, les banques et compagnies d’assurance exercent leur activité dans un cadre ju-
ridique contraint et doivent, entre autres, avoir mis en place un dispositif de contrôle et de
validation afin de mesurer et mitiger le risque associé aux modèles qu’elles utilisent. Aujour-
d’hui, pour la majorité des établissements bancaires, ce dispositif suit la réglementation US
au travers de la lettre SR 11-7 et l’ACPR avance dans cette direction également dans sa
supervision des compagnies d’assurance. Si cette gouvernance pose de bonnes bases, elle est
en revanche insuffisante au regard des sources de risques associées à cette nouvelle famille de
modèles. En particulier, parmi les risques nouvellement introduits, l’interprétabilité de ces
modèles black-box et le contrôle de leurs biais constituent les plus grands défis.

L’objectif de ce mémoire est donc double. Dans un premier temps, nous cherchons à éva-
luer l’apport des méthodes de machine learning dans la tarification d’une garantie d’assurance
Multi-risque Habitation. Nous présentons donc trois méthodes d’apprentissage avancées très
populaires (Forêt Aléatoire, Gradient Boosting et perceptron multicouche via Tensorflow) et
les comparons avec l’approche classique en GLM. Dans un second temps, nous menons une
réflexion sur notre capacité à interpréter et par la même à contrôler ces modèles, notamment
à l’aide des méthodes d’interprétation locales développées tout dernièrement LIME et SHAP.

Sans anticiper sur les conclusions, les résultats obtenus ne remettent pas en cause l’ap-
proche classique. C’est un constat déjà formulé par d’autres : les approches avancées semblent
avoir de bon résultats pour les garanties automobile, mais n’ont, jusqu’ici, apporté aucun bé-
néfice sur les garanties Multi-risque Habitation type dégât des eaux. En revanche, cette étude
nous permettra de nous plonger dans le détail de ces méthodes, d’en comprendre les avan-
tages, les biais et les limites d’un point de vue conceptuel. Elle nous permettra également
de nous poser les bonnes questions sur l’objectif d’un modèle de tarification et comment le
mesurer. Enfin, elle nous permettra d’initier une réflexion sur l’interprétation de ces modèles,
notamment deux dont les comportements nous sont apparus pathologiques, dans le but de
nous assurer qu’un processus de contrôle de leurs risques peut être déployé à l’occasion de
leur développement.

iii
iv
Abstract

Machine learning models are about to deeply transform the industry of banking and
insurance, far beyond already known applications (loan granting, pricing of garanties, risk
measures or client targeting). These approaches become predominant as they show unde-
niable performence gains with regard to conventional approaches for many applications and
allows one to explore new usages. They however generate a new complexity in their control
and increase model risk.

Indeed, banks and insurance companies operate within a strict legal framework and need
to set up control and validation processes in order to measure and mitigate the risks on mo-
dels they use. Currently, a majority of banks follow the US regulation whose guidelines are
detailed in the letter SR 11-7 and the french regulator is pushing toward this direction as well
in its supervision of insurance companies. If this governance set sound basis, it is however
insufficient to adress the new sources of model risks induced by this family of models. In
particular, among risks newly introduced by machine learning approaches, the interpretabi-
lity of these black-box models and the control of their potential biases are the main challenges.

With these issue in background, the objective of our thesis is twofold. In a first part, we
try to evaluate the gains brought by machine learning models in pricing a guarantee of the
housing insurance. We present 3 very popular challengers, a Random Forest, XGBoost (a
derivative of gradient boosting) and a Tensorflow Multilayer Perceptron and compare them
with the commonly-used GLM approach. In a second part, we develop our capacity for analy-
sing such machine learning black box models, through local interpretation approaches LIME
and SHAP, with, the perspective of assessing whether an appropriate control framework can
be set up when such models are developped.

Without anticipating to much on conclusions, the results we obtained do not put into
question the classical GLM approach. This finding is not new, others noticed it before : If
machine learning models seem to have added value on the ratemaking of auto insurance,
they perform poorly on the ratemaking of guarantees such as claims due to water leakages.
However, our study is the opportunity of a sane deep dive into these models, their advantages,
drawbacks and bias, especially in the context of ratemaking for insurance policies. As such,
we present what are the objectives of ratemaking and from it, derive metrics to measure
model performances especially fitted for ratemaking. Finally, we initiate a reflexion on the
interpretation of these black-box models through two of them whose behaviors were shown
to be inacceptable from a ratemaking point of view.

v
vi
Table des matières

Table des matières vii

Liste des figures ix

Liste des tableaux xi

1 Introduction 1
1.1 Objectif et Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Préparation et Exploration des Données . . . . . . . . . . . . . . . . . . . . . 8
1.3 Evaluation des Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Modèle Linéaire Généralisé (GLM) 17


2.1 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Application sur la construction d’un modèle de tarification MRH . . . . . . . 22
2.3 Limites du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Forêts aléatoires et Gradient boosting 33


3.1 Les Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Stochastic Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 Approche par Réseau de Neurones 47


4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 L’apprentissage supervisé via fonction de perte et backpropagation . . . . . . 49
4.3 Mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4 Résultats, performances et limitations . . . . . . . . . . . . . . . . . . . . . . 56
4.5 Synthèse des performances de tous nos modèles . . . . . . . . . . . . . . . . . 63
4.6 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Interprétabilité des méthodes avancées 69


5.1 Méthodes d’interprétation locale . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Approche adoptées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

vii
TABLE DES MATIÈRES

viii
Liste des figures

1.1 Nouvelles sources de risque introduites par les modèles de machine learning . 2
1.2 Analyse de la fréquence moyenne (à gauche) et du coût moyen (à droite) . . . 10
1.3 Fréquence moyenne par nombre de pièces avant et après regroupement de
modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Coût moyen par nombre de pièces avant et après regroupement de modalités 11
1.5 V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1 Algorithme pour le modèle GLM de fréquence sous Python . . . . . . . . . . 24


2.2 Coefficients de régression dans le modèle GLM de fréquence . . . . . . . . . . 25
2.3 Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
STATUTxETAGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
ZONE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
NB_PIECES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6 Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
ANNEE DE CONSTRUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7 Moyenne prédite vs réelle du modèle de coût moyen par modalité de variable,
sur le jeu d’entraînement (à gauche) et de test (à droit) . . . . . . . . . . . . 29
2.8 Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’en-
traînement (à gauche) et de test (à droit) . . . . . . . . . . . . . . . . . . . . 30

3.1 Exemple élémentaire d’un arbre de décision pour prédire le défaut d’un client 34
3.2 Forêt aléatoire sous Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 MSE en fonction du nombre d’arbres et du nombre de variables considérées
sur jeu de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’en-
traînement (à gauche) et de test (à droite) . . . . . . . . . . . . . . . . . . . . 41
3.5 Moyenne prédite vs réelle du modèle direct par modalités de la variable STATUTxETAGE 44
3.6 Moyenne prédite vs réelle du modèle direct par modalités de la variable NB_-
PIECES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Moyenne prédite vs réelle du modèle direct par modalités de la variable ZONE 44

4.1 Réseau de neurones à 3 couches . . . . . . . . . . . . . . . . . . . . . . . . . . 48


4.2 fonctions d’activation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Comparaison de la vitesse d’apprentissage - 350 epochs pour une descente
de gradient classique (bleu) vs 10 pour l’algorithme Adam (orange) sur le
problème prédiction de l’intensité de sinistre, pour le même réseau de neurones 51
4.4 Exemple de graphe de différentiation algorithmique par Tensorflow z = cos(x+y) 55
4.5 Keras : définition d’un modèle de régression 3 couches denses (64, 64, 1), opti-
misation via l’algorithme d’Adam 3 sur la fonction d’erreur MSE, entraînement
sur 600 epochs de minibatchs de 2048 observations pondérées, sortie sur Ten-
sorboard pour la visualisation de l’apprentissage . . . . . . . . . . . . . . . . 55

ix
LISTE DES FIGURES

4.6 Vitesse d’entraînement des réseaux de neurones pour la prédiction de l’intensité


de sinistres sur 200 epochs (1. orange, 2. bleu, 3. rouge) . . . . . . . . . . . . 57
4.7 Distributions prédites vs réelle pour les modèles 1 et 3 de prédiction d’intensité
(tronquée à 5000) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.8 Vitesse d’entraînement des réseaux de neurones pour la prédiction de la fré-
quence de sinistres sur 100 epochs . . . . . . . . . . . . . . . . . . . . . . . . 59
4.9 Distributions prédite vs réelle pour le modèles 4 de prédiction de la fréquence
annuelle de sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.10 Moyennes prédites vs réelles du modèle combiné par modalités de la variable
STATUTxETAGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.11 Moyennes prédites vs réelles du modèle combiné par modalités de la variable
NB_PIECES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.12 Moyennes prédites vs réelles du modèle combiné par modalités de la variable
ZONE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.13 Moyennes prédites vs réelles du modèle direct par modalités de la variable
STATUTxETAGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.14 Moyennes prédites vs réelles du modèle direct par modalités de la variable
NB_PIECES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.15 Moyennes prédites vs réelles du modèle direct par modalités de la variable ZONE 62
4.16 Détail de la mesure Equity2 sur les différents modèles (sur jeu de test) . . . . 63
4.17 Distribution du coût annuel de sinistres prédit par les 4 modèles sur le jeu
d’entraînement (tronquée à 3000) . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.18 Distribution du coût annuel de sinistres prédit par le modèle RF sur le jeu
d’entraînement (non tronquée) . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.19 QQ plot des prédictions des 3 modèles challenger contre le modèle GLM . . . 65
4.20 Performances du modèle RF one-hot-encoding en fonction de la profondeur
maximum autorisée pour les arbres . . . . . . . . . . . . . . . . . . . . . . . . 66
4.21 Performances du modèle RF mean-target-encoding en fonction de la profondeur
maximum autorisée pour les arbres . . . . . . . . . . . . . . . . . . . . . . . . 67
4.22 Distribution de la prédiction du coût annuel de sinistre pour le modèle XG-
Boost avec vitesse d’apprentissage de 0.08 (y_pred_bg) et 0.04 (y_pred_gb2) 67

5.1 Balance entre explicabilité et performances . . . . . . . . . . . . . . . . . . . 70


5.2 Influence moyenne globale des variables pour un ensemble représentatif de
prédictions du coût annuel par le modèle en réseau de neurones . . . . . . . . 74
5.3 Influence moyenne globale des variables pour un ensemble représentatif de
prédictions du coût annuel par le modèle random forest . . . . . . . . . . . . 74
5.4 Représentation des SHAP values pour un ensemble de prédictions par le modèle
Random Forest du coût total selectionnées aléatoirement dans les déciles 9 et
10 puis max . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Représentation des SHAP values pour un ensemble de prédictions par le modèle
en réseau de neurones du coût total (min puis une observation par décile, puis
max) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.6 Influence moyenne globale des variables sur l’ensemble des prédictions de coût
annuel supérieures à 3000 pour le modèle RF . . . . . . . . . . . . . . . . . . 77

x
Liste des tableaux

2.1 Liste des variables explicatives disponibles . . . . . . . . . . . . . . . . . . . . 23


2.2 Variables retenues dans le modèle de fréquence . . . . . . . . . . . . . . . . . 24
2.3 Statistiques du Modèle de fréquence . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Liste des variables retenues dans le modèle de coût moyen . . . . . . . . . . . 28
2.5 Statistiques du Modèle de coût moyen . . . . . . . . . . . . . . . . . . . . . . 28

4.1 Définition des NN pour la modélisation de l’intensité de sinistres . . . . . . . 57


4.2 Performances des modèles challengers pour la prédiction de l’intensité de sinistre 57
4.3 Définition des NN pour la modélisation de la fréquence de sinistres . . . . . . 58
4.4 Performances des modèles challengers pour la prédiction de l’intensité de sinistre 58
4.5 Performances des modèles challengers pour la prédiction du coût annuel de
sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.6 Synthèse des performances des différents modèles sur jeu de test . . . . . . . 63
4.7 Percentiles de la prédiction du modèle RF sur le jeu de test . . . . . . . . . . 65
4.8 Comparaison des performances du modèle XGBoost avec une vitesse d’appren-
tissage à 0.08 et à 0.04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

xi
LISTE DES TABLEAUX

xii
Chapitre 1

Introduction

Sommaire
1.1 Objectif et Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Contexte - Le Risque de Modèle . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Objectif de l’étude et Organisation du Mémoire . . . . . . . . . . . . 3
1.1.3 Tarification d’un contrat Multi-Risque Habitation . . . . . . . . . . 3
1.1.4 Structure d’une prime . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.5 Définition de la prime pure . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.6 Assurance Multirisque Habitation . . . . . . . . . . . . . . . . . . . 6
1.2 Préparation et Exploration des Données . . . . . . . . . . . . . . 8
1.2.1 Présentation des Données Utilisées . . . . . . . . . . . . . . . . . . . 8
1.2.2 Bruitage de la base de données . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Analyses de Données . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Regroupement, Croisement et Encodage des Variables . . . . . . . . 12
1.3 Evaluation des Performances . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Echantillonage en un jeu d’entraînement et un jeu de test . . . . . . 13
1.3.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1
CHAPITRE 1. INTRODUCTION

1.1 Objectif et Contexte


1.1.1 Contexte - Le Risque de Modèle
Les méthodes récemment développées de machine learning sont en passe de transformer
l’industrie de banque-assurance et ce, bien au delà des champs d’application déjà connus du
secteur (octroi de crédit, tarification de garanties, mesures de risque, ciblage des clients). Ces
méthodes s’imposent car elle présentent d’indéniables gains de performances par rapport aux
méthodes classique pour de nombreuses applications (précision, capacité à calibrer sur des
phénomènes fortement non-linéaires) et permettent d’explorer de nouvelles possibilités (ca-
pacité à traiter de gros volumes d’information sur données éventuellement non-structurées).
Elles introduisent néanmoins une nouvelle complexité dans leur contrôle avec un risque de
modèle accru.

En effet, les banques et compagnies d’assurance exercent leur activité dans un cadre ju-
ridique contraint et doivent, entre autres, avoir mis en place un dispositif de contrôle et de
validation afin de mesurer et mitiger le risque associé aux modèles qu’elles utilisent. Aujour-
d’hui, pour la majorité des établissements bancaires, ce dispositif suit la réglementation US
au travers de la lettre SR 11-7 US-Federal-Reserve [2011] et l’ACPR avance dans cette
direction également dans sa supervision des compagnies d’assurance. Si cette gouvernance
pose de bonnes bases, elle est en revanche insuffisante au regard des sources de risques asso-
ciées à cette nouvelle famille de modèles (figure 1.1 - source McKinsey et collab. [2019]). En
particulier, parmi les risques nouvellement introduits, l’interprétabilité de ces modèles black-
box et le contrôle de leurs biais et de leurs feature engineering 1 constituent les plus grand défi.

Figure 1.1 – Nouvelles sources de risque introduites par les modèles de machine learning

Consciente de cette tendance de fond, l’équipe responsable de l’audit interne sur le risque
de modèle, dont nous faisons partie, cherche à se doter des outils adéquats et à structurer
son approche pour faire face à ces nouveaux risques. C’est dans ce cadre que s’inscrit notre
mémoire.
1. feature engineering : procédé de transformation des données en entrée, comme l’encodage d’un variable
catégorique en variables binaires pour en donner l’exemple le plus simple, mais aussi la transformation d’un
texte ou d’une image en tenseurs. . .

2
CHAPITRE 1. INTRODUCTION

1.1.2 Objectif de l’étude et Organisation du Mémoire


Au travers de la tarification de la prime pure d’une garantie Multi-risque Habitation
(dégât des eaux), l’objectif de ce mémoire est double :
(i) nous cherchons à évaluer l’apport des méthodes de machine learning dans la tarifica-
tion d’une garantie d’assurance Multi-risque Habitation. Nous présentons donc trois
méthodes d’apprentissage avancées très populaires (Forêt Aléatoire, XGBoost et per-
ceptron multicouche via Tensorflow) et les comparons avec l’approche classique avec le
Modèle Linéaire Généralisé (GLM).
(ii) Dans un second temps, nous menons une réflexion sur notre capacité à interpréter et
par la même à contrôler ces modèles, notamment à l’aide des méthodes d’interprétation
locales développées dernièrement LIME et SHAP, afin d’assurer la nécessaire maîtrise
du processus tarifaire et sa surveillance.
Cette exploration nous permettra d’aborder quelque thèmes centraux tels que la définition
des bonnes métriques pour évaluer nos modèles et les biais des modèles machine learning,
notamment ceux liés au feature engineering. Cette étude nous permettra également d’initier
une réflexion sur l’interprétation de ces modèles, dans le but de nous assurer qu’un processus
de contrôle de leurs risques peut être déployé à l’occasion de leur développement.
Ce mémoire est organisé en 5 chapitres. Le Chapitre 1 présente le contexte de la tarification
d’une garantie Multi-risque habitation, décrit les données utilisées et leur retraitement et,
enfin, définit les objectifs et les métriques sur lesquelles nos modèles seront évalués. Le chapitre
2 présente notre implémentation du modèle GLM et ses résultats, le chapitre 3 est dédié à
nos modèles de Forêt Aléatoires et Gradient Boosting. Le chapitre 4 couvre notre approche
par réseaux de neurones et fait une synthèse de l’ensemble des résultats obtenus. Enfin, le
chapitre 5 fait un état de l’art des méthodes d’interprétation et présente l’application que
l’on en fait afin d’identifier certains biais de nos modèles.

1.1.3 Tarification d’un contrat Multi-Risque Habitation


Le cadre d’étude que nous avons choisi est la tarification d’un contrat Multi-risque Habi-
tation ( MRH par la suite). En effet, l’assurance Habitation est un des principaux produits
commercialisés en assurance non-vie et constitue souvent un produit d’appel pour un ban-
cassureur.
Dans un environnement de forte concurrence, le bancassureur doit relever plusieurs défis :
• Une exigence accrue des clients : l’expansion des sites de comparateur en ligne et les
devis en ligne permettant aux assurés de comparer la qualité des garanties proposées,
évaluer la compétitivité de son contrat et éventuellement négocier le montant de la
prime.
• Une concurrence favorisée par l’environnement réglementaire : jusqu’en 2014, les contrats
d’assurance non-vie étaient le plus souvent renouvelés automatiquement chaque année.
L’assuré ne pouvait alors résilier son assurance que dans les deux mois qui précédaient
l’anniversaire de son contrat. Depuis le 1er janvier 2015, un contrat peut être résilié au
bout d’un an, sans pénalité.
• L’apparition de nouveaux acteurs sur le marché : les assureurs 100% mobile proposent
des contrats très compétitifs, notamment grâce à leur faible coût de fonctionnement.

La concurrence est également stimulée par le développement des technologies analytiques


et de l’exploitation des données à grande échelle (Big Data). Aujourd’hui, de nombreux
foyers sont équipés d’objets connectés qui génèrent un volume important de données. Cette
technologie, appelée domotique, constitue une source précieuse d’informations sur le degré de
risque à couvrir. Savoir explorer ces données et capter les informations permettent de mieux
comprendre le risque et le comportement de l’assuré. De plus, l’utilisation d’objets connectés

3
CHAPITRE 1. INTRODUCTION

est un comportement de prévention favorisant la maîtrise de la sinistralité. Par exemple, les


objets connectés permettent :
• d’alerter en cas de tentative d’intrusion, de fuite d’eau et de détection de fumée.
• de règler à distance les stores ou déclencher les éclairages intérieurs et extérieurs de la
maison en cas de détection de mouvement, dissuader les éventuels cambrioleurs
• d’alerter en cas de court-circuit..etc
Ainsi, une méthode de construction tarifaire adaptée permet à l’assureur de se différencier
de la concurrence en proposant des contrats dédiés aux logements intelligents avec un montant
de prime ou une franchise plus faible.
Dans ce mémoire, nous nous intéressons à des méthodes d’apprentissage (Machine Lear-
ning) qui permettent à priori de s’affranchir de certaines limites imposées par une mé-
thode statistique standard (et permettent également de mieux explorer des données à grande
échelle).

1.1.4 Structure d’une prime


Prime commerciale
Une prime commerciale est le montant payé par l’assuré au titre de son contrat d’assu-
rance. Elle est composée des éléments suivants :
• Prime pure pour couvrir le risque assuré
• Chargements pour couvrir les frais de fonctionnement payés par l’assureur qui sont
principalement :
• Frais d’acquisition : il s’agit de frais liés à l’acquisition d’un contrat : commissions
versées aux réseaux commerciaux, frais d’ouverture de dossiers, frais de publicité
ou frais administratifs liés à la souscription. . . etc
• Frais de gestion : ce sont des frais occasionnés par le traitement des dossiers si-
nistres et comprend également des frais de contentieux et de recours
• Frais d’administration : ce sont des frais liés à la gestion des contrats en por-
tefeuille : frais d’encaissement des primes, d’administration du portefeuille, de
gestion de réassurance..etc
• Chargement de sécurité
• Taxe
Toutes les composantes de la prime commerciale jouent un rôle clé pour réaliser une
tarification pertinente. Dans ce mémoire, nous nous concentrons sur le calcul de la prime
pure. En effet, l’estimation de la prime pure nécessite des méthodes statistiques et actuarielles
précises. Il s’agit d’une tarification a priori qui présente une difficulté majeure : l’asymétrie
de l’information.

Asymétrie d’information
L’asymétrie de l’information décrit une relation d’échange dans laquelle les agents éco-
nomiques ne disposent pas de la même information. C’est le cas de la plupart des marchés.
L’une des première analyse sur l’asymétrie d’information en Assurance a été présentée par
le Prix Nobel K.J. Arrow ( Arrow [1963]) soulignant notamment que l’une des limites de
l’assurance est l’impossibilité de séparer l’évènement assuré de l’individu qui en a le contrôle.
En assurance dommages, l’asymétrie d’information entre l’assureur et l’assuré se manifeste
par l’anti-sélection et l’aléa moral.
L’anti-sélection est un phénomène qui se déclare à la souscription d’un contrat. L’assuré
dispose plus d’informations que l’assureur sur la probabilité de survenance d’un sinistre.

4
CHAPITRE 1. INTRODUCTION

L’assureur n’est pas capable de distinguer les différents degrés de risque et doit proposer une
prime moyenne unique à des individus hétérogènes. Par conséquent, les bon risques, c’est-à-
dire les assurés avec un faible degré de risque subventionnent les mauvais risques et trouveront
la prime moyenne trop élevée par rapport au risque individuel encouru. Ils sont plus incités
à aller vers un assureur dont la prime moyenne est plus faible (avec plus de bon risques dans
son portefeuille).
Ce phénomène souligne ainsi l’importance d’une bonne segmentation en tarification per-
mettant de maintenir un cercle vertueux dans lequel chaque type d’assurés paie une prime
adaptée à leur risque encouru. Un autre moyen dont l’assureur dispose pour inciter les assu-
rés à révéler leur degré de risque est la franchise. L’assureur propose souvent 2 niveaux de
contrats, un avec une prime plus faible et une franchise plus élevée, un autre avec une prime
plus élevée et une franchise plus faible. Naturellement, les bon risques ont plus tendance à
choisir une prime faible et les mauvais risques préfèrent une franchise plus faible.
L’aléa moral ou comportement caché se manifeste après la souscription et décrit l’influence
du contrat d’assurance sur le comportement de l’assuré. En effet, lorsqu’une personne est
assurée, son comportement de prévention et de prudence est influencé par la couverture
d’assurance, qui a pour effet d’accroître l’exposition au risque. En assurance multirisque
habitation par exemple, un individu ayant souscrit à une garantie Vol aura moins tendance
à investir sur un système d’alarme ou une porte blindée.

1.1.5 Définition de la prime pure


La prime pure représente le coût moyen annuel de sinistre que l’assureur s’engage à couvrir
sur une garantie donnée. Son calcul repose sur 2 hypothèses centrales qui sont :
• Les risques assurés sont de même nature, identiques et indépendants. En particulier,
les montants de sinistres ne varient pas avec l’effet du temps (stationnarité).
• Il y a indépendance entre la fréquence et le coût des sinistres.
Soit un portefeuille de n contrats identiques dont la prime pure est notée P P . Soit N le
nombre de sinistres survenus dans l’année. Soit S1 , .., SN les variables aléatoires représentant
les coûts des sinistres. Sous les hypothèses mentionnées précédemment, la prime pure s’écrit :
 
N
PP = E  Sj  = E [N ] E [S]
X

j=1

Ce modèle, appelé modèle collectif, montre bien que la prime pure est le produit entre la
fréquence moyenne E[N ] et le coût moyen de sinistre E[S].
Nous pouvons remarquer que les hypothèses centrales sur lesquelles est construit le modèle
collectif sont à priori très fortes. En effet :
• L’indépendance entre les coûts de sinistres n’est pas toujours vérifiée dans la réalité : les
évolutions réglementaires, juridiques ou technologiques peuvent conduire à une tendance
globale sur le coût de sinistre. En assurance automobile par exemple, une limitation de
vitesse plus stricte peut conduire à une réduction globale du coût de sinistre.
• De même, l’hypothèse de stationnarité n’est pas vérifiée si la période de temps considé-
rée est longue. En effet, les coûts de sinistres observés varient en raison de l’inflation,
ou encore de la généralisation du High-Tech (ordinateurs portables, smartphone, ta-
blette. . . ). Dans la pratique, un taux d’actualisation peut être appliqué pour réduire
l’effet du temps, notamment lorsque des observations plus anciennes sont utilisées.
• L’indépendance entre les coûts de sinistres et la fréquence est vérifiée uniquement s’il
s’agit d’un portefeuille totalement homogène. En réalité, l’assureur découpe son porte-
feuille pour former des sous-groupes aussi homogènes que possible à travers la segmen-
tation tarifaire.

5
CHAPITRE 1. INTRODUCTION

1.1.6 Assurance Multirisque Habitation


Présentation des garanties
Plusieurs formules sont proposées par la Société Générale en Assurance Multirisque Ha-
bitation, avec des garanties obligatoires et optionnelles. A titre d’exemple, les principales
garanties incluses dans la formule Standard sont :
• Responsabilité civile
• Dégâts des eaux
• Incendie
• Tempête, grêle, neige
• Attentats
• Catastrophes naturelles et technologiques
• Vol (y compris sur le lieu de vacances) et Détériorations suite à vol
• Bris de glaces
• Défense pénale et recours
• Assistance au quotidien
Les garanties en option pour cette formule sont dommages électriques et valeur à neuf
pour les appareils informatiques et électroménagers de moins de 2 ans.

Segmentation du risque
La tarification d’un produit repose sur la segmentation du risque à partir des critères
objectifs. Ces critères sont construits à partir des informations dont l’assureur dispose pour
estimer le niveau de risque à couvrir. Certains critères sont relatifs aux caractéristiques du
bien à assurer, tels que :
• Type de bien : maison, appartement. Ici nous excluons tout local à usage commer-
cial ou professionnel, qui sont généralement couvert par un autre type d’assurance :
multirisque professionnel
• Surface du bien et le nombre de pièces : l’assurer définit souvent des règles précises
pour compter le nombre de pièces : lorsqu’une pièce dépasse un seuil en surface, elle
est comptée pour 2 pièces. Ce seuil est fixé par l’assureur et unique pour tout type de
contrat Habitation, il est souvent de 30m2 , 40m2 , ou 50m2 .
• Etage : s’il s’agit d’un appartement, l’étage dans lequel se situe le bien est une infor-
mation importante. En effet, un logement au rez-de-chaussée est plus exposé au risque
de vol.
• Nombre de jours où le logement n’est pas habité : moins le logement est occupé,
plus il est exposé au risque de vol. Généralement, une règle est précisée pour le comptage
du nombre de jours d’absence : par exemple, seules les absences de plus de 4 jours
consécutifs sont comptées, ce qui permet d’exclure les absences usuelles en week-end.
• Zone géographique : l’adresse exacte du logement est généralement convertie en zone
géographique permettant de segmenter le risque.
• Type de chauffage : éléctrique, au gaz, chauffage collectif...etc
• Présence de cheminée à foyer fermé, un insert ou un poêle : en cas de présence
de ces éléments, le risque d’incendie est plus élevé.
• Année et matériaux de construction : le coût d’un sinistre, de types incendie ou
de catastrophe naturelle, peut être différent en fonction l’année de construction et les
matériaux utilisés (classique, écologique ou en bois)

6
CHAPITRE 1. INTRODUCTION

• Surface de dépendance : Une dépendance est un bâtiment qui n’a pas de commu-
nication directe avec le bâtiment principal, et qui n’est pas utilisé comme habitation.
Par exemple : un garage.
• Présence d’alarme reliée à un système de télésurveillance, de porte blindée, ou de
serrure 3 points : ces éléments permettant de réduire le risque de vol
• Présence de piscine, spa ou jacuzzi : des garanties spécifiques peuvent être proposées
pour couvrir ces risques.

D’autres informations portent sur les personnes à assurer :


• Statut de l’assuré : propriétaire occupant, propriétaire non occupant, locataire, lo-
cataire en logement meublé, occupant à titre gratuit
• Catégorie socioprofessionnelle : agriculteurs exploitants, artisans et commerçants,
chefs d’entreprise, cadres, employés...etc
• Situation familiale : marié, célibataire...etc
• Nombre d’enfants vivants dans le logement
• historique de sinistralité : par exemple, le nombre de sinistres dans les trois dernières
années avec l’assureur précédent
Enfin, des informations sur les biens détenus par l’assuré et le niveau de garantie sont
collectées :
• Montant de patrimoine mobilier ou d’objets usuels : le montant est souvent
proposé par tranche, en fonction de la surface du logement et du nombre de pièces. Le
montant minimum de généralement de 10 000€
• Montant des objets de valeur : les objets de valeur désignent des objects dépassant
une valeur minimale d’échat fixée par l’assureur. il s’agit par exemple de l’occurrence
de bijoux, métaux précieux, tableaux de peintre célèbre...etc
• Niveau de franchise souhaité : comme présenté précedemment, ce choix peut être
révélateur du degré de risque.

Mathématiquement, ces critères sont transformés en variables dites explicatives, avant


d’être intégrés dans un modèle de tarification. Les variables sont de 2 types :
• Variables qualitatives nominales : ce sont des variables qui ont un nombre limité de
valeurs possibles (par exemple, le statut de l’assuré ou le type du bien). Chaque valeur
possible représente une modalité dans un modèle. En fonction du nombre de modalités, il
est parfois nécessaire de regrouper certaines modalités ensemble pour laisser un nombre
raisonnable de modalités 2 . Certaines variables qualitatives sont ordinales, c’est-à-dire
qu’elles prennent des valeurs discrètes et sont naturellement ordonnées. C’est le cas de
la variable nombre de pièces
• Variables quantitatives continues : On a pris l’habitude de les découper, afin de s’affran-
chir des problèmes de sur-représentation des extrêmes dans nos modèles ; l’idée étant,
dans un premier temps, de découper par quantiles en un grand nombre de modalités,
puis, dans un second temps, de les regrouper par k-mean clustering en cherchant un op-
timum entre la dégradation d’un indicateur (type valeur de l’information ou estimateur
du χ2 entre la variable explicative et la variable à prédire) et le nombre de modalités à
conserver.
Le découpage de variables et le regroupement de modalités nécessite une analyse de données
pertinente (analyse descriptive, analyse univariée..etc) et repose souvent également sur l’avis
expert de l’actuaire qui réalise ces travaux.
2. En risque de crédit bancaire on utilise comme principe heuristique 10 observations de défaut minimum
pour une variable binaire (soit une modalité)

7
CHAPITRE 1. INTRODUCTION

Remarque : il est important de noter que si chaque assureur collecte sensiblement les
mêmes informations lors de la souscription d’un contrat, tous les critères présentés précédem-
ment ne sont pas retenus dans la base de données pour la modélisation. De plus, certains
critères sont spécifiques à une garantie en particulier. Par exemple, il n’est pas utile de re-
tenir le type de chauffage d’un logement en tant que critère de segmentation pour le risque
Dégât des eaux. Nous reviendrons sur la disponibilité des critères dans la partie suivante sur
l’exploration de données.

1.2 Préparation et Exploration des Données


1.2.1 Présentation des Données Utilisées
Bases de Données et Périmètre de l’Etude
Les bases de données utilisées pour la construction des modèles présentés dans ce mémoire
proviennent de l’historique des contrats et de sinistres de l’entité d’assurance du Groupe
Société Générale. Pour la construction de modèles dans ce mémoire, nous avons choisi une
période d’observations de 4 ans, entre janvier 2012 et décembre 2015. En effet, ce choix permet
d’inclure un volume d’observations suffisamment important pour la robustesse des modèles,
tout en tenant compte du temps de calcul et des contraintes informatiques.
La base des contrats contient 1,1 million de lignes, chaque ligne représente un avenant
d’un contrat multirisque habitation dont la période d’effet est comprise entre janvier 2012 et
décembre 2015. Elle contient environ 480 000 contrats distincts.
La base des sinistres contient 44 000 lignes, chaque ligne représente un sinistre Dégât des
eaux dont la date de survenance est comprise dans la période d’observation.

Variables Explicatives et Regroupement


Les bases de données que nous utilisons dans ce mémoire disposent de 9 variables expli-
catives applicables sur le risque dégât des eaux. Il s’agit d’une base où toutes les variables
continues ont été catégorisées pour former des groupes homogènes de risque (par quantiles
puis regroupement des classes cf. 1.2.4). Les regroupements et transformations réalisés sont :
• L’étage du logement est traduit en 4 modalités : Rez-de-chaussée, étage intermédiaire,
dernière étage, et sans objet (pour les maisons)
• L’année de construction est découpée par période : avant 1945, entre 1945 et 1979, entre
1980 et 1999, après 2000
• Le nombre d’enfants est transformé en un indicateur sur la présence d’enfants : avec ou
sans enfants. En effet, cette variable est, a priori, significative mais l’information n’est
pas renseignée de manière systématique dans la base de données. Pour pouvoir utiliser
cette information sans ajouter de biais supplémentaire, la variable a été transformée en
variable binaire (oui ou non).
Les variables d’intérêt sélectionnées pour nos modèles ont été simplifiées.

Remarques sur la zone géographique


La zone géographique est un critère important en tarification MRH. Chaque assureur dis-
pose de sa méthode pour segmenter la zone géographique en groupes homogènes de risques,
appelés zonier. La construction de zoniers représente un modèle en soi, avec en entrée des
données, entre autres, socio-démographiques et météorologiques. Dans ce mémoire, nous utili-
sons la tarification d’une garantie Dégât des eaux en MRH comme support pour l’application
numérique, et à ce titre, nous considérons le zonier comme une variable explicative en entrée,
sans détailler sa méthode de construction. Les méthodes d’apprentissage que nous présentons

8
CHAPITRE 1. INTRODUCTION

dans ce mémoire sont également applicables dans le cadre de la construction de zonier. Dans
la base de données utilisées, la variable zonier se décline en 23 modalités.

1.2.2 Bruitage de la base de données


Cette section présente les déformations et bruitages des données réalisées afin de rendre
impossible :
(i) la reconstitution des distributions réelles de fréquence et d’intensité de sinistres enre-
gistrées ;
(ii) la lecture de la précision de la variable de zonier, puisqu’elle est une variable clef,
elle-même issue d’une pré-modélisation.
Le tout sous la contrainte de ne pas rendre les données trop aléatoires pour que leur exploi-
tation ait du sens dans le cadre du mémoire.

Bruitage de la fréquence de sinistralité


La fréquence de sinistralité a été déformée en appliquant un bootstrap (avec remise) des
polices sinistrées de x% de la taille de l’échantillon total des polices sinistrées, qui a été ajouté
au jeu de données.

Déformation de la Distribution d’intensité de Sinistre


La distribution de l’intensité moyenne de sinistre par police a été déformée en appliquant
une translation de la moyenne d’un facteur α et une homothétie autour de la moyenne d’un
facteur β.

Bruitage de la Variable de Zonier


La variable ZONE, elle même issue d’une pré-modélisation, a été randomisée à hauteur de
y% :
(i) y% des polices ont été sélectionnées aléatoirement ;
(ii) Pour ces polices, la variable ZONE a été tirée aléatoirement parmi les 23 catégories
possibles.

1.2.3 Analyses de Données


Avant tous travaux de modélisation, il est nécessaire d’évaluer la qualité des données et de
réaliser des traitements adéquats. En effet, des données tronquées, incomplètes ou erronées
peuvent engendrer des biais dans les modèles et détériorer la qualité de la prédiction.
Les analyses réalisées consistent à :
• Retraiter les données tronquées
• Identifier et traiter des anomalies telles que les valeurs manquantes ou aberrantes ;
• Analyser la répartition du portefeuille par variable ;
• Tester les relations entre les variables.

Retraitement des Données Tronquées


Les contrats d’assurance sont valables pendant 1 an puis renouvelés automatiquement. De
fait, nos observations n’ont pas toutes la même valeur et un contrat non-sinistré présent dans
notre échantillon sur une période de un mois ne devrait pas avoir le même poids d’information
qu’un contrat non-sinistré présent dans notre base pendant 3 ans. Pour le retraitement de nos
données tronquées, nous avons donc fait le choix de regrouper tous les avenants d’une même

9
CHAPITRE 1. INTRODUCTION

police d’assurance en une seule ligne et de pondérer ces polices par leur "Année Risque", c’est
à dire leur durée (en année, base réel/365) dans notre échantillon d’observations.
Ainsi, quelque soit le mode d’entraînement choisi pour nos modèles (pondéré ou non-pondéré),
toutes nos mesures de performances sont faites, in fine, sur des mesures pondérées en Année
Risque (AR), en ce qui concerne (i) les modèles de fréquence et (ii) les modèles de prédiction
directe du coût annuel. Nos mesures pour les modèles de coût moyen de sinistre sont, quant
à elles, pondérées par la fréquence observée de sinistre pour une police donnée.

Retraitement des Anomalies


Valeurs manquantes Les valeurs manquantes identifiées concernent les variables Etage
et Année de construction. Ces valeurs manquantes représentent moins de 0, 2% des données.
Compte tenu du volume négligeable de cas concernés, nous avons classé ces cas dans la mo-
dalité la plus exposée de la variable. Ce choix n’a pas d’impact sur la qualité de modélisation.

Valeurs aberrantes A l’aide des analyses univariées sur la sinistralité, nous observons
le comportement de la fréquence et du coût moyen par modalité, pour toutes les variables
explicatives de la base de données. A titre d’exemple, nous présentons, figure 1.2, la fréquence
moyenne et le coût moyen sur la variable ANNEE_CONSTR.

Figure 1.2 – Analyse de la fréquence moyenne (à gauche) et du coût moyen (à droite)

Le sens des modalités sur cette variables est :


• 01 : avant 1945
• 02 : entre 1945 et 1979
• 03 : entre 1980 et 1999
• 04 : depuis 2000
Nous observons que la modalité la plus exposée sur la variable Année de construction
est "entre 1945 et 1979". La modalité la moins risquée en termes de fréquence et de coût
moyen correspond à la période de construction après 2000. Le comportement de cette variable
parait logique : plus le logement est récent, plus les matériaux utilisés sont résistants (cuivre,
PVC..etc), moins il est exposé au risque de fuite.
S’agissant de la variable Nombre de pièces, la représentativité des modalités au delà de
10 pièces est faible, avec quelques valeurs extremes (5 sinistres ont un coût moyen de sinistre
plus de 20 000 euros) qui peuvent être des valeurs erronées. Nous ne rejetons aucun sinistre
à ce stade de l’analyse. Les contrats avec un grand nombre de sinistres ou un montant très
élevé d’indemnisation au titre de dégât des eaux sont conservés dans la base, compte tenu de
leur faible matérialité (moins de 0, 1% des contrats). Cependant, nous décidons de regrouper
les modalités au delà de 10 pièces en une modalité(Cf. 1.3 et 1.4), permettant d’améliorer la
segmentation du risque.

10
CHAPITRE 1. INTRODUCTION

(a) Avant regroupement (b) Après regroupement

Figure 1.3 – Fréquence moyenne par nombre de pièces avant et après regroupement de modalités

(a) Avant regroupement (b) Après regroupement

Figure 1.4 – Coût moyen par nombre de pièces avant et après regroupement de modalités

11
CHAPITRE 1. INTRODUCTION

Nous observons également que la base des sinistres présente les caractéristiques suivantes :
• Montant moyen de sinistres : 1045 EUR
• Montant de sinistre au 95ème centile : 2451 EUR
• Nombre moyen de sinistre par contrat : 1,2 sinistres
Hormis quelques valeurs extrêmes mentionnées ci-dessus, le coût de sinistre en dégât des
eaux est relativement faible. Dans ce mémoire, nous nous concentrons donc sur la modélisation
des sinistres attritionnels et ne traitons pas la modélisation des sinistres graves.

Indépendance entre les variables Pour étudier le lien entre 2 variables qualitatives,
nous utilisons le V de Cramer 3 qui est basé sur le test de χ2 mais contrairement à ce dernier,
ne dépend pas de la taille de l’échantillon et du degré de liberté. Le V de Cramer "corrigé"
(cf. figure 1.5 ) permet d’analyser l’intensité de lien entre 2 variables et s’écrit de la manière
suivante : s s
χ2 χ2
V = =
N ∗ DDL N (k − 1)(l − 1)
Où N est la taille de l’échantillon, et k, l les nombres de modalités des 2 variables considérées

Figure 1.5 – V de Cramer

1.2.4 Regroupement, Croisement et Encodage des Variables


Regroupements
Les variables d’intérêt sélectionnées pour nos modèles ont été simplifiées par regroupe-
ments tout en gardant le maximum d’information par rapport à la variable à expliquer, afin
de rendre les modèles plus simples et l’entraînement plus efficace. Ces regroupements ont
été réalisés manuellement et à l’aide d’un algorithme de regroupement de type clustering
maximisant la statistique du χ2 entre la variable à regrouper et la variable à expliquer.
Nous partons d’une base où toutes les variables continues ont été catégorisées, mais si
tel n’avait pas été le cas, ces variables auraient été catégorisées en groupements homogènes
(par quantiles) avant de subir un regroupement. L’idée étant d’éviter les problèmes potentiels
d’outliers qui viendraient polluer l’apprentissage.
3. Nous utilisons plus exactement une version dé-biaisée du V de cramer proposée par Bergsma [2013]

12
CHAPITRE 1. INTRODUCTION

Croisement
Certaines variables, très corrélées entre elles pour des raisons évidentes, ont été croisées
au sein d’une unique variable. C’est notamment le cas des variables de statut et d’étage de
l’habitation.

Encodage
Toutes ces variables catégorielles ont été encodées en binaire avant d’être données en
entrée des modèles qui le nécessitent, une variable à k modalités donnant lieu à k −1 variables
binaires afin d’éviter d’introduire des variables dépendantes. Le choix de la modalité à exclure
a été fait arbitrairement puisque, a priori, il n’aura aucune influence sur les performances des
modèles.

1.3 Evaluation des Performances


1.3.1 Echantillonage en un jeu d’entraînement et un jeu de test
Rappelons que les performances d’un modèle se mesurent sur le jeu de test. Les métriques
d’erreur utilisées sur le jeu d’entraînement ne mesurent tout au mieux que la capacité du
modèle à apprendre (voir à sur-apprendre) du jeu d’entraînement, mais en aucun cas ne
mesurent la performance du modèle. Les méthodes de validation sont diverses, mais pour notre
étude et afin de mesurer les performances de tous nos modèles dans les mêmes conditions, nous
avons choisi de créer un jeu d’entraînement et un jeu de test, tous deux utilisés respectivement
pour la calibration et la validation de tous nos modèles. Pour se faire et étant donné le
faible taux des contrats sinistrés, nous avons réalisé un échantillonnage aléatoire stratifié afin
d’obtenir à peu près la même proportion de contrats sinistrés dans un jeu comme dans l’autre.
Il existe d’autres méthodes de validation suivant l’abondance des données et la facilité
d’entraînement du modèle : en particulier, lorsque le nombre d’observations est faible et le
modèle facile à entraîner, une méthode de type cross-validation peut être utilisée, qui consiste
à itérativement échantillonner aléatoirement les données en un jeu d’entraînement et un jeu
de test, d’entraîner le modèle sur le jeu d’entraînement et mesurer ses performances sur le jeu
de test afin d’obtenir une distribution des performances plutôt qu’une unique valeur (une va-
riante étant la k-folds cross validation, qui consiste à diviser l’échantillon en n sous-ensembles,
d’itérativement entraîner le modèle sur n − 1 sous-ensembles et de le tester sur l’ensemble
restant). Dans cette méthode, le modèle final pourra également être calibré en prenant comme
vecteur de poids w la moyenne des vecteurs de poids sur toutes les itérations, cela afin de
rendre le modèle final plus robuste. Cela peut être fait si le modèle le permet, c’est à dire
si le modèle moyen peut être obtenu en faisant la moyenne des poids. Sinon, une alternative
sera de prendre comme sortie, la moyenne des sortie des n modèles obtenus (ce qui est un
peu le principe des forêts aléatoires et des méthodes de bagging). Pour les réseaux de neu-
rones, la méthode de cross-validation est coûteuse étant donné le temps de calcul nécessaire
à l’algorithme d’apprentissage. En revanche, la méthode de régularisation d’un réseau de
neurones qui s’approche le plus de la méthode cross-validation est la régularisation dropout
(cf. 4.2.4). Enfin, il est maintenant commun de diviser l’échantillon en trois ensembles : un
jeu de calibration, un jeu de validation et un jeu de test. Cela est nécessaire lorsque la mé-
thode d’apprentissage employée s’appuie sur le jeu de validation pour déterminer le degré
d’apprentissage optimal du modèle où il n’a ni sur- ni sous-appris du jeu de calibration.
Nous n’utilisons pas cette dernière approche dans ce mémoire, car la calibration du mo-
dèle GLM a été réalisée selon les méthodes classiques de statistique 4 . En revanche la cali-
4. intuition a priori que la distribution de la variable à expliquer suit une loi paramétrique de paramètres
inconnus, estimation des paramètre par maximum de vraisemblance et tests a posteriori pour valider les
hypothèses. . .

13
CHAPITRE 1. INTRODUCTION

bration des autres modèles a fait intervenir des méthodes de régularisation pour éviter le
sur-apprentissage et pour être plus rigoureux, il conviendrait d’isoler un jeu de validation
pour déterminer un critère de régularisation optimal.

1.3.2 Métriques de performance


Les métriques de performance doivent être définies en cohérence avec notre objectif de
modélisation. Nous cherchons à prédire le coût du risque en minimisant l’erreur globale et
de manière équitable par sous-segment : Un modèle équitable est un modèle dans lequel les
primes des contrats d’un segment quelconque de population ne sont pas systématiquement
sous ou sur-évaluées (cf. Dugas et collab. [2003]).
Nos métriques doivent être adaptées à notre objectif qui est de produire une prime pure
répondant du mieux possible aux critère d’équité : les primes des contrats d’un segment
quelconque de population ne doivent pas être systématiquement sous ou sur-évaluées.
Dans la pratique, nous avons décliné ce critère en 4 mesures :
• une mesure de précision (ou d’erreur) M SE,
• une mesure de biais M BE
• une mesure d’équité sur un ensemble bien choisi de segmentation de la population de
contrats,
• une mesure d’équité sur un découpage en quantiles de la réponse du modèle.

Métriques d’Erreur
Sur un problème de régression comme le notre, les métriques usuelles d’estimation des
performances sont diverses suivant la nature et l’objectif du problème. Les plus employées
sont en revanche l’Erreur Moyenne Absolu (M AE), l’Erreur Carrée Moyenne (M SE) et la
Racine de l’Erreur Carrée Moyenne :
n
1
M AE(y, ŷ, w) = Pn
X
wj |yj − ŷj |
j=1 wj j=1

n
1
M SE(y, ŷ, w) = Pn wj (yj − ŷj )2
X

j=1 wj j=1
q
RM SE(y, ŷ, w) = M SE(y, ŷ, w)
M AE et RM SE ont l’avantage d’être comparables entre elles et avec la variable d’intérêt,
alors que MSE ne l’est pas. Elles prennent toutes leur valeurs dans [0, ∞) et sont indifférentes
au signe de l’erreur. La différence fondamentale entre ces mesures est que MSE et RMSE sur-
pondèrent les grosses erreurs par rapport à MAE. MSE et RMSE seront donc utilisées plus
particulièrement lorsque les grandes erreurs sont indésirables. Pour un échantillon équipon-
déré, on remarquera l’encadrement :

M AE ≤ RM SE ≤ nM AE

Où la première inégalité est donnée par Cauchy-Schwarz et la seconde en se plaçant à M AE


fixé dans la situation de plus grande différence entre M AE et RM SE. C’est la situation où

toute l’erreur provient d’une unique observation et dans ce cas RM SE = nM AE. Cette
dernière inégalité montre que la différence entre RMSE et MAE a tendance à augmenter
avec la taille de l’échantillon. Enfin, lorsque l’on manipule un modèle de régression, une
mesure qui vient naturellement à l’esprit est le R2 (et ses variantes). C’est une mesure qui
n’est pas adaptée à notre problème. En effet, le dégât des eaux est un sinistre comportant
une grande part d’aléa non explicable par l’information acquise sur les contrats. La part de

14
CHAPITRE 1. INTRODUCTION

variance totale expliquée par les données est inévitablement très faible, mais un R2 petit
ne signifie pas nécessairement un mauvais modèle. Par la suite, nous utiliserons la mesure
d’erreur RM SE, qui présente des caractéristiques intéressantes :
• Elle est minimale pour Ŷ = E[Y |X] où X est le vecteur aléatoire des variable explica-
tives.
• Un algorithme qui cherche à minimiser M
SE va hchercher simultanément à réduire
h i i2 
le biais E Ŷ − E[Y |X] et la variance E Ŷ − E Ŷ de l’estimateur (cf. Dugas
et collab. [2003]).

Mesures d’Equité

Une mesure d’erreur seule n’est pas suffisante pour s’assurer des performances d’un modèle
de régression. En outre la mesure RM SE ne répond pas entièrement au critère d’équité. Nous
utilisons également comme mesure synthétique du critère d’équité la variance pondérée des
erreurs entre moyenne prédite et réalisée, (i) par modalité d’une liste prédéfinie de variables
explicatives et (ii) d’un découpage en k quantiles de la prédiction du modèle. Ces mesures
sont inspirées de celle proposée par Dugas et collab. [2003].

v
|L|
u
u
1 2
wj y¯j − ˆ¯yj

EquityL (y, ŷ, w, L) = t P|L| (1.1)
u X

j=1 wj j=1

avec, L l’ensemble des modalités d’une liste prédéfinie de variables explicatives pour
Equity1 et L l’ensemble des découpages en k quantiles de la prédiction du modèle pour
Equity2 .

On peut montrer que, en prenant L l’ensemble des sous échantillons, la mesure EquityL
est équivalente à la mesure M SE au sens où E[Y |X] est l’unique solution minimisant les
deux mesures. En revanche, les deux mesures ne sont pas équivalentes pour un ensemble
limité de sous-échantillons et la mesure Equity1 nous sera très importante pour évaluer si
nos modèles sont équitables selon une segmentation bien choisie dans un sens commercial
et Equity2 également, pour évaluer si nos modèles sont bien discriminants ; là où RM SE et
M AE seront quasi-inefficaces, comme nous le verrons par la suite (cf 4.5).

Autres Mesures

Nous nous appuyons également sur MBE comme mesure du biais global de nos modèles :
n
1
M BE(y, ŷ, w) = Pn wj (yj − ŷj )
X

j=1 wj j=1

Enfin, nous nous appuyons ponctuellement sur des mesures graphiques, qui nous per-
mettent de capter des détails sur la distribution prédite, les biais et les résidus.
(i) Distribution des résidus {abscisse : y, ordonnée : (y − ŷ)} ;
(ii) Distribution prédite vs distribution réelle {abscisse : a, ordonnée : P(ŷ < a) ∧ P(y < a)} ;
(iii) Moyenne et distribution prédite vs réelle par modalité de variable explicative. Cette
mesure est appelée Partial Dependence Plot et est une technique largement utilisée
pour l’interprétation des modèles de prédiction cf. chapitre 5.

15
CHAPITRE 1. INTRODUCTION

1.4 Références
Arrow, K. J. 1963, «Uncertainty and the welfare economics of medical care», The American
Economic Review, vol. 53. 4

Bergsma, W. 2013, «A bias-correction for cramer’s v and tschuprow’s t», . 12

Dugas, C., Y. Bengio, N. Chapados, P. Vincent, G. Denoncourt et C. Fournier.


2003, «Statistical learning algorithms applied to automobile insurance ratemaking», . 14,
15

McKinsey, B. Babel, K. Buehler, A. Pivonka, B. Richardson et D. Waldron. 2019,


«Derisking machine learning and artificial intelligence», . 2

US-Federal-Reserve. 2011, «Supervision and regulation letter 11-7 : Guidance on model


risk management», . 2

16
Chapitre 2

Modèle Linéaire Généralisé (GLM)

Sommaire
2.1 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Composante aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Fonction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4 Estimation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.5 Mesure de la qualité du modèle et tests d’adéquation . . . . . . . . . 21
2.1.6 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Application sur la construction d’un modèle de tarification MRH 22
2.2.1 Construction du modèle de fréquence . . . . . . . . . . . . . . . . . . 22
2.2.2 Construction du modèle de coût moyen . . . . . . . . . . . . . . . . 26
2.2.3 Estimation de la prime pure . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Limites du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.2 Qualité de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.3 Capacité d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

17
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

2.1 Cadre théorique


Le modèle linéaire généralisé, plus connu sous son nom en anglais Generalised Linear
Model (GLM) a été présenté pour la première fois par Nelder et Wedderburn en 1972.
Aujourd’hui, le modèle linéaire généralisé est appliqué dans de divers domaines. En fi-
nance, le modèle est utilisé pour prédire la probabilité de défaut lors de l’octroi de crédit
bancaire. Le modèle linéaire généralisé est également largement utilisé par les assureurs et
bancassureurs dans la tarification des contrats non-vie.
Dans cette section, nous allons présenter le cadre théorique du modèle, que l’on appellera
GLM par la suite, avant de l’appliquer dans le cadre d’étude de ce mémoire : construction de
prime pure d’un contrat multirisque habitation.

2.1.1 Notation
Un modèle GLM est composé de 3 éléments :
• Une variable de réponse notée Y , composante aléatoire associée à une loi de probabilité,
il s’agit de la variable à prédire ;
• Une combinaison linéaire d’un p-uplet X = (X1 , ..., Xp ) de variables explicatives, appe-
lée prédicteur linéaire ou composante déterministe ;
• Une fonction de lien g, qui décrit la relation entre la composante déterministe et la
variable à prédire Y .

2.1.2 Composante aléatoire


Dans un modèle GLM, la loi de probabilité de Y doit appartenir à la famille des lois expo-
nentielles(Planchet et Miseray [2017]). Notons Y = (Y1 , . . . , Yn ) un n-uplet de variables
aléatoires indépendantes et non identiquement distribuées. Pour i = 1, ..., n, la densité de Yi
peut s’écrire sous la forme :
yi θi − b(θi )
 
f (yi ) = exp + c(yi , φ)
a(φ)
où : θi est appelé paramètre canonique et φ le paramètre de dispersion, ces 2 paramètres
sont inconnus. ai , b et c sont des fonctions déterministes, spécifiées en fonction du type de loi
exponentielle.
L’espérance et la variance de Y s’écrivent alors :
µ = E(Yi ) = b0 (θi )

V ar(Yi ) = b00 (θi ) ∗ a(φ)


où b0 et b00 désignent les dérivés premières et secondes par rapport à θ.
A titre d’exemple, nous présentons dans la suite quelques lois de la famille exponentielle
les plus couramment utilisées en tarification non-vie (Denuit et Charpentier [2014])et
expliciter les fonctions a, b et c ainsi que les paramètres θ et φ correspondants.

Loi normale
la loi normale N (µ, σ 2 ) a une densité de probabilité :
1 (y − µ)2 yµ − µ2 /2 1
" # " !#
y2
f (y|µ, σ) = √ exp − = exp − ∗ + ln(2πσ 2 )
σ 2π 2σ 2 σ2 2 σ2
Elle peut donc se mettre sous la forme décrite précédemment avec :
a(φ) = φ = σ 2

18
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

b(θ) = θ2 /2 et θ = µ

1
!
y2
c(y, σ) = ∗ + ln(2πσ 2 )
2 σ2

Loi de Poisson
Pour une loi de Poisson de paramètre λ, sa densité est :

λy
f (y|λ) = exp(−λ) = exp(y ∗ ln(λ) − λ − ln(λ!))
y!

Elle peut donc se mettre sous la forme décrite précédemment avec :

a(φ) = φ = 1

b(θ) = λ , avec b(.) = exp(.) et θ = ln(λ)

c(y, φ) = −ln(λ!)

Le paramètre λ représente l’espérance et la variance associée : E[Y ] = V ar[Y ] = λ.

Loi Gamma
La densité d’une loi Gamma de moyenne µ et de variance r−1 s’écrit sous la forme :
 r
f (y|µ, r) = 1
Γ(r)
r
µ y r−1 exp(− µr y), y ∈ R+

avec Γ(r) = 0∞ e−u ur−1 du, appelé la fonction Gamma d’Euler


R

La loi Gamma est donc une loi de la famille exponentielle avec :

a(φ) = φ = r−1

b(θ) = −ln(−θ), avec θ = − µ1

c(y, r) = (r − 1)ln(y) + rln(r) − ln (Γ(r))

2.1.3 Fonction de lien


Nous avons donc vu précédemment que la première étape de construction d’un modèle
GLM consiste à choisir une loi de distribution pour la variable de réponse. En fonction de ce
choix, la deuxième étape consiste à définir la fonction de lien permettant de lier l’espérance
de la variable de réponse avec la composante déterministe.
Une fonction de lien g : R → R est une fonction monotone différentiable telle que :
p
g(E[Y ]) = η = β0 +
X
βi Xi
i=1

avec β = (β1 , ..., βp ), on a µ = E[Y ] = g −1 (η).


A chaque loi de probabilité de la réponse Y est associée une fonction de lien canonique qui
relie l’espérance de Y avec le paramètre canonique : g(µ) = θ. En reprenant les lois usuelles
présentées précédemment, les fonctions de lien canoniques associées sont :
• Loi normale : l’identité
• Loi de Poisson et loi Gamma : fonction logarithmique

19
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Dans la pratique, ce choix dépend également de la structure du modèle souhaitée(Addactis-


Worldwide [Novembre 2013]). En effet, dans le cas d’un modèle additif, il convient de
prendre une fonction de lien identité, puisque E[Y ] s’écrit dans le cas :
p
E[Y ] = β0 +
X
βi Xi
i=1

Dans le cas d’un modèle multiplicatif, la fonction de lien logarithmique est adéquate. On
a: p ! p
E[Y ] = exp β0 + =
X Y
βi Xi γi
i=1 i=1

avec γ0 = exp(β0 ) et γi = exp(βi Xi ) pour i = 1, ..., p

2.1.4 Estimation de paramètres


Après avoir choisi la loi de probabilité de Y et la fonction de lien associée, nous cherchons
maintenant à déterminer les paramètres β1 , ..., βp , ce qui permet ensuite de déduire l’espérance
puis la variance de Y. Dans un modèle GLM, l’estimation des paramètres β se fait par la
méthode de maximum de vraisemblance dont nous rappelons la méthode dans cette partie.
Par définition, une fonction log-vraisemblance est le logarithme d’un produit de fonctions
de densité.
Soit Y = (Y1 , ..Yn ) n variables aléatoires indépendantes dont la loi de probabilité appar-
tient à la famille exponentielle, de paramètre δi et de densité f et (y1 , ..., yn ), n observations.
La fonction log-vraisemblance s’écrit :
n n
yi θi − b(θi )
!
ln(L(y, θ, φ)) = ln f (yi , θi , φ) = + c(yi , φ)
Y X

i=1 i=1
a(φ)

En notant li (yi , θi , φ) la contribution de la ième observation à la log-vraisemblance :

yi θi − b(θi )
li (yi , θi , φ) = + c(yi , φ)
a(φ)

Nous cherchons les paramètres β = (β1 , .., βp ) qui correspondent au maximum de la log-
vraisemblance, c’est-à-dire :
n
β̂ = arg max ln(L(y, θ, φ)) = arg max li (yi , θi , φ)
X
β β i=1

Ceci revient à déterminer les paramètres tels que la dérivée première de la log-vraisemblance
soit nulle et la dérivée seconde négative.
En utilisant la régularité de la fonction exponentielle et la décomposition de la dérivée :
∂l ∂l ∂θi ∂µi ∂ηi
= , pour j ∈ {1, ..., p}
∂βj ∂θi ∂µi ∂ηi ∂βj

Nous avons l’équation de la log-vraisemblance suivante :


n
yi − µi ∂µi
xi,j = 0, pour j ∈ 1, ..., p
X

i=1
V ar[Yi ] ∂ηi
On remarque ici que µi est inconnue et dépend du paramètre à estimer β. En effet, l’équa-
tion n’admet pas de solution explicite. Dans la pratique, les logiciels usuels de modélisation
(R, SAS, Python) utilisent une méthode itérative telle que l’algorithme de Newton-Raphson

20
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

pour résoudre les équations non linéaires. L’algorithme de Newton Raphson permet de trou-
ver une approximation de la variable x qui réalise f (x) = 0, avec f : R → R. La solution
itérative s’écrit :
f (xk )
xk+1 = xk − 0
f (xk )

D’autres méthodes itératives communément utilisées pour résoudre les systèmes d’équa-
tions non linéaires sont les algorithmes de Ficher Scoring (appelé aussi Iteratively Reweighted
Least Squares) et de Brent (communément utilisé en finance de marché pour calibrer les mo-
dèles de pricing). Selon la littérature, l’algorithme du Ficher Scoring est plus robuste que
Newton-Raphson, et arrive parfois à converger quand Newton Raphson échoue. Dans le cas
d’une loi de Poisson avec lien logarithmique, les deux algorithmes Newton et Ficher sont
identiques.

2.1.5 Mesure de la qualité du modèle et tests d’adéquation


Déviance

Un des critères possibles pour mesurer la qualité d’ajustement d’un modèle GLM est la
déviance. Cette mesure consiste à comparer le modèle considéré avec un modèle dit saturé.
Un modèle saturé ajuste exactement toutes les valeurs de Y . Il a donc autant de paramètres
que d’observations. La déviance est définie par :

Lsat
 
D = 2φ (ln(Lsat ) − ln(L)) = 2φln
L

Où :
• Lsat est la vraisemblance du modèle saturé
• L est la vraisemblance du modèle auquel on s’intéresse
• φ le paramètre de dispersion

On peut également utiliser la déviance standardisée ou réduite, définie par :

Lsat
D∗ = D/φ = 2ln( )
L

L’objectif de la calibration d’un modèle GLM étant de maximiser la vraisemblance, une


bonne qualité d’ajustement du modèle se traduit par une faible valeur de D (cf. Tufféry
[2007]).
La qualité d’ajustement d’un modèle peut être mesurée à l’aide des tests (i) de Déviance
et (ii) de Wald.

Test de déviance

Nous posons les hypothèses suivantes :


• H0 : le modèle à p variables explicatives est adéquat (Le modèle prédit bien la variable
cible)
• H1 : le modèle à p variables explicatives n’est pas adéquat
Dans la pratique, le test de déviance permet de savoir si la qualité d’ajustement d’un
modèle existant peut être améliorée en ajoutant k dégrés de liberté supplémentaires. En effet,
sous H0 , la différence de déviance (entre les 2 modèles comparés ) suit une loi de khi-deux
avec k degrés de liberté (cf. Tufféry [2007]).

21
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Test de Wald
Le test de Wald permet de tester la significativité des coefficients β. Nous posons les
hypothèses suivantes :
• H0 : βj = 0
• H1 : βj 6= 0
βˆ
Sous H0 , Z = σˆjj suit approximativement une loi normale N(0, 1)
C’est le test qui est utilisé dans le modèle GLM de la librairie statsmodel que nous avons
utilisée sous Python.

2.1.6 Choix du modèle


Parmi les modèles qui correspondent à la qualité d’ajustement attendu, d’autres critères
peuvent être utilisés pour choisir le modèle le plus pertinent. Nous présentons ici les deux
critères les plus couramment utilisés pour des modèles estimés par une méthode du maximum
de vraisemblance : critère AIC et BIC
Le critère AIC (Akaike Informative Criterion) pour un modèle à p paramètres est défini
par :
AIC = −2ln(L) + 2p
L est la vraisemblance maximisée.
L’AIC pénalise la déviance par 2 fois le nombre de paramètres estimés et représente ainsi
un compromis entre :
• La qualité de l’ajustement représentée par la vraisemblance maximisée
• La complexité du modèle : un modèle complexe aura un nombre p élevé, donc toute
chose égale par ailleurs, il aura un AIC plus élevé.
Ainsi, entre 2 modèles, nous choisissons le modèle avec le plus faible AIC. On peut voir cette
approche comme une forme de régularisation, afin d’éviter que le modèle sur-apprenne du jeu
d’entraînement.
Un autre critère de choix de modèle est le BIC (Bayesian Informative Criterion). Pour un
modèle à p paramètres estimés sur n observations, il est défini par :

BIC = −2ln(L) + p ∗ ln(n)

Ce critère choisira un modèle plus parcimonieux que le critère AIC puisqu’il pénalise plus
le nombre de paramètres présents dans le modèle. De même qu’AIC, entre 2 modèles, nous
choisissons le modèle avec le plus faible BIC.

2.2 Application sur la construction d’un modèle de tarifica-


tion MRH
Dans cette section, nous présentons les méthodes et les résultats obtenus dans le cadre de
la construction d’un modèle GLM pour la tarification MRH.
Dans un premier temps, nous avons cherché à construire un modèle de fréquence d’une
part, un modèle de coût moyen d’autre part, afin de mieux capter les variables explicatives
sur chacune des composantes de la prime pure.

2.2.1 Construction du modèle de fréquence


Nous implémentons dans cette partie un modèle de fréquence, qui est le rapport entre le
nombre de sinistres par contrat et la période d’exposition (Année-Risque) du contrat.

22
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Choix de la loi
La fréquence du sinistre est généralement modélisée par une loi de Poisson ou par une loi
Binomiale Négative (Denuit et Charpentier [2014]) :
• La loi de Poisson est adaptée si l’espérance empirique de Y est proche de la variance.
C’est la loi choisie dans la plupart des modèles de fréquence pour la tarification MRH.
• La loi Binomiale Négative est adaptée aux données sur-dispersées par rapport à la loi
de Poisson, c’est-à-dire si la variance empirique de Y est supérieure à l’espérance.

En ce qui concerne nos bases de données, l’espérance et la variance empirique sont :


• E[F réquence] = 0, 06
• V ar[F réquence] = 0, 31
Nous retenons donc la loi binomiale négative qui semble adaptée à nos observations, avec
une fonction de lien logarithmique, soit ln(E[Y ]) = β ∗ X

Construction
Compte tenu du nombre relativement faible de variables disponibles dans la base de
données utilisée, nous avons choisi de construire un premier modèle complet avec l’ensemble
des variables utilisables. La sélection des variables significatives se fera dans un deuxième
temps, en appliquant une procédure de type Backward. Cette méthode est similaire à l’analyse
du Type 3 sous SAS ou au test Backward sous R, qui consiste à tester la significativité des
variables en comparant le modèle complet avec le modèle contenant toutes les variables sauf
celle testée.
Tableau 2.1 – Liste des variables explicatives disponibles

Variables disponibles Nombre de modalités


Type de résidence 2
Nombre de pièces 10
Année de construction 3
Présence d’enfants 2
Formule 5
Montant d’objets usuels 3
Montant d’objets de valeurs 4
Statut x Etage 8
Zonier 23
Nombre total de modalités 60

Nous fixons pour chaque variable la modalité la plus exposée comme modalité de référence.
Cette modalité de référence aura donc un coefficient nul.
L’analyse de données présentée dans la section précédente a permis de montrer que cer-
taines variables sont fortement corrélées entre elles, c’est le cas des variables Statut et Etage.
Nous choisissons de de regrouper ces 2 variables en 1 seule : d’où la variable StatutxEtage.
C’est ce choix qui est retenu pour tous les modèles présentés dans ce mémoire.
L’estimation des coefficients est réalisée à l’aide de la fonction glm dans le package
statsmodels.formula.api sous Python. Le code utilisé est présenté figure 2.1 :
Ce premier modèle nous a permis d’identifier des variables a priori non significative : la
variable indiquant le montant d’objets usuels.
A partir de ce modèle et des statistiques obtenues, nous avons cherché à construire des
modèles avec moins de paramètres en commençant par la variable la moins significative
(dans ce modèle, il s’agit de la variable indiquant le montant des objets de valeurs).

23
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Figure 2.1 – Algorithme pour le modèle GLM de fréquence sous Python

Le modèle de fréquence finalement retenu contient les variables présentées en tableau 2.2.
La sortie du GLM est présentée figure 2.2.

Tableau 2.2 – Variables retenues dans le modèle de fréquence

Variables retenues Nombre de modalités


Type de résidence 2
Nombre de pièces 10
Année de construction 3
Présence d’enfants 2
Formule 5
Statut x Etage 8
Zonier (avec regroupement 19
Nombre total de modalités 49

Résultats et Validation du modèle


Nous vérifions la cohérence des coefficients de régression. Pour chaque variable :
• un coefficient négatif signifie que la modalité correspondante présente un risque plus
faible que la modalité de référence (dont le coefficient est 0 et non affiché)
• un coefficient positif signifie que la modalité correspondante présente un risque plus
élevé.
Par exemple, pour la variable nombre de pièces dont la modalité de référence est 3 pièces,
nous observons une tendance globale croissante du coefficient en fonction du nombre de pièces,
ce qui est cohérent avec une estimation intuitive de la fréquence du sinistre : un logement de
5 pièces est plus exposé au risque de dégât des eaux qu’un logement à 1 pièce.
Dans un deuxième temps, nous vérifions les statistiques du modèle GLM obtenu, tableau
2.3.
Tableau 2.3 – Statistiques du Modèle de fréquence

Mesure Nombre de modalités


AIC 163706
BIC - 4812666
Déviance 101944
Nombre d’observations 382379

Le modèle construit est à 49 paramètres et 382 379 observations. En comparant la déviance


standardisée (ici, φ = 1) avec le degré de liberté, le ratio est de 0,27, bien inférieur à 1, ce
qui permet de confirmer la qualité d’ajustement du modèle.
Nous testons maintenant le pouvoir prédictif du modèle retenu sur les données de test qui
contient 95595 observations.

24
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Figure 2.2 – Coefficients de régression dans le modèle GLM de fréquence

25
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Pour mieux comprendre le comportement de la prédiction de fréquence et analyser sa


performance, nous proposons de comparer la fréquence moyenne observée par modalité à la
fréquence estimée pour chacune des variables explicatives (retenues ou non dans le modèle).
La comparaison est réalisée sur le jeu d’entraînement du modèle et sur le jeu de test. A titre
d’illustration, nous présentons ici les 4 variables les plus significatives (cf. figures 2.3 à 2.6 ).

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 2.3 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
STATUTxETAGE

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 2.4 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable ZONE

Le modèle GLM de fréquence permet de bien prédire le comportement de la fréquence


observée. Comme ce qui est attendu, la prédiction est moins efficace sur le jeu de test que
sur le jeu d’entraînement à partir duquel le modèle a été construit.

2.2.2 Construction du modèle de coût moyen

Nous implémentons dans cette partie un modèle de coût moyen par sinistre.
Le coût moyen d’un sinistre est généralement modélisé par une loi Gamma, avec une
fonction de lien logarithmique. Le modèle de coût moyen est construit sur la base de données
des polices avec un coût de sinistre non nul. La procédure de construction est similaire à celle
du modèle de fréquence présenté précédemment.

26
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 2.5 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable NB_PIECES

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 2.6 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable ANNEE
DE CONSTRUCTION

27
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Modèle retenu
Les variables retenues sont présentées dans le tableau 2.4.

Tableau 2.4 – Liste des variables retenues dans le modèle de coût moyen

Variables retenues Nombre de modalités


Type de résidence 2
Nombre de pièces 10
Année de construction 3
Montant d’objets usuels 3
Statut x Etage 8
Zonier (avec regroupement) 19
Nombre total de modalités 45

Nous vérifions la qualité d’ajustement du modèle de coût moyen sur le tableau 2.5.

Tableau 2.5 – Statistiques du Modèle de coût moyen

Mesure Nombre de modalités


AIC 502621
BIC - 280002
Déviance 24247
Paramètre de dispertion 4277
Déviance standard 5669
Degrés de liberté 29555

Pour le modèle de coût moyen, le paramètre de dispersion φ est estimé à 4,3. En comparant
la déviance standardisée avec le degré de liberté, le ratio est de 0,19, bien inférieur à 1, ce
qui permet de confirmer la qualité d’ajustement du modèle.
En terme de test statistique, nous constatons que certains paramètres sont rejetés. Une des
solutions possibles est de continuer le regroupement de modalités jusqu’à ce que l’ensemble
des variables conservées conduise à rejeter l’hypothèse H0 : βi = 0 avec une probabilité
inférieure à un seuil. Cependant, nous avons choisi de nous arrêter au modèle qui contient
l’ensemble des modalités sans regroupement pour les variables ZONE, STATUT x ETAGE et
Nombre de pièces, traduisant la volonté de différentiation tarifaire selon certaines variables
d’un point de vue commercial.
Nous comparons maintenant le coût moyen observé par modalité au coût moyen estimé
(cf. figure 2.7).

2.2.3 Estimation de la prime pure


La prime pure s’obtient par le produit de la fréquence et du coût moyen estimés par les
modèles respectifs.
Nous comparons l’estimation de la prime pure obtenue avec le coût annuel, correspondant
à la charge totale de sinistre par année-risque (2.8).
Au global, la prédiction du coût annuel est cohérente avec les observations sur le jeu
d’entraînement et sur le jeu de test.
Les métriques de performance obtenues sont :
• RM SE = 774
• M AE = 101
• M BE = 3
• Equity1 = 14%

28
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Figure 2.7 – Moyenne prédite vs réelle du modèle de coût moyen par modalité de variable, sur le jeu
d’entraînement (à gauche) et de test (à droit)
29
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Figure 2.8 – Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’entraînement
(à gauche) et de test (à droit)

30
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

• Equity2 = 0.13
Remarque : il est également possible de construire un modèle global de prime pure direc-
tement sans passer par la fréquence et le coût moyen, à l’aide de la loi Tweedie qui peut être
vue comme un modèle Poisson composé. (Denuit et Charpentier [2014]).

2.3 Limites du modèle


2.3.1 Hypothèses
Les modèles GLM ont l’avantage de disposer des propriétés intéressantes et des tests
statistiques pour évaluer la qualité du modèle, cependant son utilisation repose sur des hy-
pothèses fortes : le modèle GLM est une méthode paramétrique, c’est-à-dire qu’il impose une
hypothèse préalable sur la loi de distribution des données utilisées, et cette loi doit appartenir
à la famille exponentielle. Cette hypothèse peut être fausse dans la réalité.

2.3.2 Qualité de données


La qualité de construction d’un modèle GLM est liée à la qualité des données en entrée, à
savoir des données de contrats et de sinistres collectées par l’assureur. La plupart du temps,
ces informations sont saisies de façon manuelle dans des outils de gestion, ce qui peut engen-
drer naturellement des erreurs. De plus, ayant conscience que certaines informations n’ont pas
d’impact sur le tarif, en tout cas dans le modèle actuel en production, les chargés clientèles
peuvent être moins attentifs dans le remplissage de certains champs. Lorsque le modélisateur
considère une évolution du modèle de tarification, les possibilités d’analyse et de développe-
ment sont limitées par le nombre de variables complètes et fiables dans la base de données.
Dans notre base de données, la variable ’nombre d’enfants’ n’a pas été utilisée par manque
de données fiables. Seule la présence d’enfants au foyer a été retenue dans l’analyse.

2.3.3 Capacité d’analyse


Le modèle GLM exige un traitement de données conséquent qui nécessite des analyses sta-
tistiques rigoureuses au préalable, afin de bien identifier l’ensemble des caractéristiques statis-
tiques des données, et en particulier les interactions entre les variables(Paglia et Phelippe-
Guinvarc’h [2011]). Compte tenu du nombre important d’interactions possible entre chaque
modalité de variables, la capacité d’analyse du modélisateur atteint rapidement sa limite
pour analyser l’ensemble des combinaisons possibles. Ainsi, certains traitements de données
relèvent souvent de l’avis d’expert. Un modèle GLM fonctionne donc bien sur des échantillons
relativement petits et ne permet pas de résoudre les problématiques liées au big data.

2.4 Références
Addactis-Worldwide. Novembre 2013, Addactis Pricing Documentation Technique, Ad-
dactis Pricing. 20

Denuit, M. et A. Charpentier. 2014, Mathématiques de l’assurance non-vie - Volume II,


Tarification et provisionnement, Economica. 18, 23, 31

Paglia, A. et M. V. Phelippe-Guinvarc’h. 2011, «Tarification des risques en assurance


non-vie, une approche par modèle d’apprentissage statistique», Bulletin Français d’Actua-
riat, vol. 11. 31

Planchet, F. et A. Miseray. 2017, «Tarification iard introduction aux techniques avan-


cées», . 18

31
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)

Tufféry, S. 2007, Data mining et statistique décisionnelle : l’intelligence des données,


Éditions Technip, ISBN 9782710808886. URL https://books.google.fr/books?id=lX_
YjoyxZA0C. 21

32
Chapitre 3

Forêts aléatoires et Gradient


boosting

Sommaire
3.1 Les Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.1 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.2 Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.3 Implémentation et résultats . . . . . . . . . . . . . . . . . . . . . . 38
3.1.4 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1.5 Code et Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Stochastic Gradient Boosting . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Implémentation et Résultats . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

33
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

L’idée sous-jacente au machine learning est de prédire sur la base de l’expérience tirée
sur des données fournies. Il s’agit d’une approche non-paramétrique, qui ne nécessite pas
d’hypothèse sur la distribution des données à expliquer. L’unique hypothèse imposée est le fait
que les données à prédire sont générées de façon identique et indépendante par un processus
P à partir des variables explicatives (Paglia et Phelippe-Guinvarc’h [2011]). Il existe une
multitude de modèles permettant de répondre aux différents objectifs de modélisation. Dans
ce mémoire, nous allons nous intéresser aux trois méthodes qui ont eu le plus de succès parmi
les méthodes d’apprentissage, et qui sont, a priori, adaptées à la tarification en assurance :
• Random Forest
• Gradient Boosting
• Réseau de neurones (dans le chapitre suivant)

3.1 Les Forêts Aléatoires


3.1.1 Arbre de décision
Présentation générale
Avant de parler de "forêt", commençons par l’élément de base : un arbre. Un arbre de
décision est une série de questions/réponses sur un jeu de données permettant d’aboutir à
une classe (pour un problème de classification ) ou à une valeur continue estimée (dans le
cas d’une regression). Il s’agit d’un algorithme totalement interprétable : le résultat prédictif
d’un arbre de décision est l’aboutissement d’une suite de règles logiques, et le cheminement
peut être facilement représenté par des graphes.
L’idée générale d’un arbre, souvent binaire, est de diviser un ensemble en deux sous-
ensembles de manière récursive et le plus efficacement possible, pour obtenir des sous-ensembles
de plus en plus homogènes en terme de classe. La division s’arrête lorsqu’un critère d’arrêt
(à définir) est vérifié.
Voici un exemple simple de classification binaire des clients (sains ou en défaut)dans une
banque :

(a) Données (b) Arbre de décision

Figure 3.1 – Exemple élémentaire d’un arbre de décision pour prédire le défaut d’un client

Dans cet arbre de décision :


• Le premier noeud s’appele le noeud initial, il représente l’ensemble de l’échantillon.
Nous constatons qu’il y a 6 observations, dont 2 Oui indiquant que le client est en
defaut, et 4 Non indiquant que le client est sain.
• Le premier noeud se divise en 2 sous-ensembles appelés branches. La première variable
utilisée est Revenu, il s’agit d’une variable continue puis découpée en 2 modalités cor-
respondant aux deux noeuds après division.

34
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

• La division s’arrête lorsque le noeud est pur d’un point de vue de la variable à prédire :
c’est-à-dire toutes les observations sont en défaut ou saine, il n’y a plus de contre-
exemple à prédire. Chaque extremité de l’arbre est alors appelée noeud terminal ou
feuille.
A travers cet exemple élémentaire, nous constatons qu’un arbre de décision nécessite 3
composantes (?) :
• un critère de séparation permettant de sélectionner la meilleure division parmi toutes
les possibilités pour les différentes variables ;
• une règle d’arrêt pour décider si un nœud est terminal
• une règle pour affecter chaque feuille à une classe ou une valeur de la variable à expliquer
Suite aux premiers travaux de construction d’arbres qui ont commencé en 1963 sur des
problèmes de régression par Morgan et Sonquist, de nombreux algorithmes de construction
ont vu le jour. Nous pouvons citer parmi les plus réputés la méthode CHAID (Kass [1980])
qui permet de construire des arbres de décision non binaires et qui est particulièrement
adaptée à l’analyse de données volumnineuses, la méthode ID3 (Iterative Dichotomiser 3)
et ses successeurs C4.5(1993) et C5.0(1998) développés par Quinlan, ainsi que la méthode
que nous allons présenter dans ce mémoire : la méthode CART (Classification and regresssion
Tree) introduite par Breiman et collab. [1984], puisqu’elle est la méthode sous-jacente utilisée
pour construire les Forêts Aléatoires. Le lecteur pourra se référer à Singh et Gupta [July
2014] et Berk [2006] pour plus de détails sur les différentes méthodes.
L’algorithme CART consiste à construire un arbre optimal en 2 étapes (cf. ?) :
(i) construction d’un arbre maximal à partir d’une base d’apprentissage
(ii) élagage : simplification de l’arbre afin de supprimer les noeuds sans signification statis-
tique

Construction d’un arbre maximal


l’algorithme CART consiste à chercher le meilleur découpage possible parmi toutes les
variables explicatives, le critère de division étant la réduction du niveau d’hétérogénéité oc-
casionnée par la division du nœud (Besse [2006]). Dans un problème de régression (notre cas
puisque la variable cible Y correspondant au coût annuel est quantitative), l’hétérogénéité
du nœud N est définie par la variance :
1 X
DN = (yi − yN )2
|N | i∈N
où N est un nœud qui se divise en 2 nœuds fils N1 et N2 , et |N | l’effectif du nœud N .
L’algorithme cherche donc à trouver le couple (variable, règle de division) qui génère la plus
forte décroissante du niveau d’hétérogénéité entre le nœud N et les nœuds fils N1 et N2 .
Dans un problème de classification, l’hétérogénéité est souvent mesurée par l’indice de
Gini : m X 
DN = pk N (1 − pk N )
k=1

où N est la proportion des éléments de classe k dans le noeud N. où m est le nombre de


pk
modalités de la variable cible.
La phase de construction s’arrête lorsque chaque nœud contient un seul élément, où tous
les éléments de ce nœud appartiennent à la même classe. La valeur affectée à chaque feuille est
alors la classe des éléments qu’elle contient (pour une classification ) ou la moyenne empirique
des valeurs qu’elle contient (pour une régression).
L’arbre maximal ainsi construit dispose souvent d’un nombre excessif de feuilles et peut
conduire à un modèle très dépendant du jeu d’entraînement sur lequel sa construction est

35
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

réalisée. Il s’agit alors d’un modèle très instable avec une variance élevée. C’est pour cette
raison qu’une phase d’élagage est nécessaire (il s’agit d’une forme de régularisation).

Élagage
La phase d’élagage, consiste à construire une suite emboîtée de sous-arbres de l’arbre
maximal et choisir parmi cette suite l’arbre optimal(Besse [2006]).
Soit Tmax , l’arbre maximal. En notant l’erreur d’ajustement R̂(T ) d’un sous-arbre T
élagué de Tm ax, on définit un critère qui pénalise l’erreur d’ajustement par la complexité de
l’arbre, et un paramètre de régularisation α :

critα (T ) = R̂(T ) + α|K|

Pour α = 0, c’est Tmax qui minimise critα (T ). En faisant croître α, un des sous-arbres Tj
devient superflu puisque sa division ne permet pas de réduire suffisamment l’erreur d’ajuste-
ment : Tj devient alors Tj−1 . On obtient ainsi une suite T1 ... ∈ TK−1 ∈ TK = Tmax d’arbres
emboîtés en remplaçant au fur et à mesure certains noeuds intermédiaires par des feuilles.
L’arbre optimal est ensuite déterminé à l’aide d’un jeu de validation (souvent une base de
modélisation se divise en un jeu d’entraînement, de validation et de test correspondant res-
pectivement à 70%, 20%, 10% des données ). L’arbre optimal est celui qui minimise l’erreur
d’ajustement sur le jeu de validation.

3.1.2 Forêts Aléatoires


Présentées par Breiman [2001], les Forêts Aléatoires font partie des méthodes d’appren-
tissage supervisées et montrent de très bonnes performances pour traiter de problèmes de
classification et de régression.
Comme son nom l’indique, la méthode "fait grandir" des arbres de décision tout en intro-
duisant un caractère aléatoire. Il s’agit d’une extension de la méthode bagging (qui signifie
bootstrap aggregating, Breiman [1996]) dont nous rappelons ici les principes méthodologiques.

Bagging
Bagging consiste à construire une multitude d’arbres par la méthode CART et obtenir un
arbre "final" correspondant à la moyenne des arbres. Concrètement, la méthode bagging qui
peut se résumer par l’algorithme suivant : soit une base d’apprentissage avec n observations
et une variable de réponse :
(i) faire un tirage aléatoire de taille n avec remise à partir de la base d’apprentissage
(bootstrap)
(ii) constuire un arbre CART de taille maximale (sans élagage)
(iii) répéter les étapes 1 et 2 un grand nombre de fois pour former ainsi B arbres de taille
maximale, que l’on note (fˆ1 , ..., fˆB )
(iv) pour chaque profil :
• si la variable de réponse est discrète ou qualitative : compter le nombre de fois où
l’individu a été classé dans le profil parmi les B arbres, et déterminier le profil de
l’individu par vote à la majorité fˆbag = vote à la majorité[ ni=1 fˆk ]
P

• si la variable de réponse est continue : faire la moyenne des estimations données


ˆ
par les B arbres fbag = 1 Pn ˆ
B i=1 fk
Les arbres construits sont identiquement distribués de même espérance µ. L’espérance de
l’arbre final s’écrit :
B B
1 1 X
" #
E[fˆbag ] = E fˆk = E(fˆk ) = µ
X
B k=1 B k=1

36
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

L’un des avantages du bagging, par rapport à CART (donc un seul arbre) est le fait qu’en
agrégeant un grand nombre d’arbres, la méthode permet de réduire la variance de l’estimation.
En effet, la variance de l’estimation s’écrit :

B B
1 X 1
" # " #
V ar[fˆbag ] = V ar fˆk = 2 V ar fˆk
X
B k=1 B k=1

En notant σ 2 leur variance et ρ le coefficient de corrélation entre 2 arbres fk et fl , :

" B  
B X
B B n
#
fˆk = Cov(fˆk , fˆl ) = σ 2 + ρσ 2  = Bσ 2 (1 + (B − 1)ρ)
X X X X
V ar
k=1 k=1 l=1 k=1 k=1, k6=l

d’où :
1−ρ
V ar[fˆbag ] = σ 2 (ρ + ), avec 0 < ρ < 1
B
Cette démonstration illustre à la fois le principal avantage et la limitation de bagging. En
effet, plus B est grand, plus 1−ρB est petit, l’agrégation permet en effet de réduire la variance
de l’estimation, par rapport à un arbre unique de type CART. Pour un B grand, la variance
tend vers σ 2 ρ. la réduction de variance est limitée si les arbres sont très corrélés ( ρ est grand).
C’est exactement le principe d’une forêt aléatoire, qui permet de s’affranchir de cette limite
dans la réduction de variance, en diminuant la correlation entre les arbres, sans augmenter
significativement leur variance.

Forêt Aléatoire

L’algorithme des Forêts Aléatoires est construit sur la base de la méthode bagging, en
introduisant de l’aléa dans la construction des arbres. Plusieurs sources d’aléa ont été testées
mais la méthode de Breiman (RF-RI) s’est imposée comme la méthode RF (Random Forest)
par excellence.
L’algorithme des forêts aléatoires peut s’écrire de la manière suivante : Soit une base
d’apprentissage avec n observations et une variable de réponse :
(i) Tirer B échantillons Bootstrap de taille n (de la même manière que Bagging )
(ii) Pour chaque échantillon, construire une variante de CART et qui consiste à :
• sélectionner aléatoirement, avant chaque division de noeud, un petit nombre m de
variables parmi les p variables disponibles
• choisir la variable la plus adéquate parmi les m "candidates" pour la division

On obtient ainsi B arbres de taille maximale, que l’on note (fˆ1∗ , ..., fˆB∗ ). Pour chaque
profil :
• si la variable de réponse est discrète ou qualitative : compter le nombre de fois où
l’individu a été classé dans le profil parmi les B arbres, et déterminer le profil de
l’individu par vote à la majorité
• si la variable de réponse est continue : faire la moyenne des estimations données par les
B arbres

Dans la pratique, il est préconisé de commencer par une valeur de m égale à p pour un
problème de classification, ou de p/3 pour une régression.

37
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

Erreur Out-of-bag
L’algorithme des forêts aléatoires propose une estimation de l’écart de prédiction appelé
Taux d’erreur Out-of-bag. En effet, dans chaque échantillon construit par bootstrap, certaines
observations sont tirées plusieurs fois, d’autres sont laissées de côté. Ce sont ces observations
en dehors du boostraps qui sont utilisées pour estimer l’erreur, d’où la notion Out-of-bag
pour Out of bagging. Nous présentons cet estimateur dans le cadre des Forêts aléatoires, mais
l’estimateur Out of Bag est valable pour tout algorithme de type bagging. Soit (X, Y ) un
vecteur aléatoire où X est à valeurs dans Rp et Y dans R. On note Dn = (X1 , Y1 ), ..., (Xn , Yn )
l’échantillon d’entraînement, les (Xi , Yi ) sont indépendants et identiquement distribués.
Soit une observation (Xi , Yi ), on désigne par Ib l’ensemble des boostraps qui n’utilisent
pas cette observation. La prévision de Yi en fonction de Xi est calculée en agrégeant sur Ib :

1 X ˆ∗
Ŷi = f (Xi )
|Ib | k∈I k
b

L’erreur Out-of-Bag est définie par :


• en régression : OOB = n1 n i=1 (Ŷi − Yi )
2
P

• en classification : OOB = n1 n
P
i=1 1Yˆi 6=Yi

Remarque : il s’agit d’une évaluation d’erreur sur un échantillon non utilisé pour l’ap-
prentissage de la forêt, de manière similaire à un échantillon de test.

3.1.3 Implémentation et résultats


Dans cette partie, nous implémentons un modèle de prime pure se basant sur les Forêts
Aléatoires. Il s’agit d’un problème de régression. Le modèle est construit à l’aide de la fonction
RandomForestRegressor dans la librairie scikit-learning sous Python. Les données utilisées
sont identiques à celles pour les modèles GLM, avec les mêmes jeux d’entraînement ( 80% de
la base) et de test (20% de la base).

3.1.4 Feature Engineering


Les forêts aléatoires nous donnent l’occasion d’avoir un aperçu du risque Feature Enginee-
ring mentionné dans l’introduction. Ces modèles peuvent être sensibles à la stratégie d’enco-
dage des variables et nous avons testé différentes méthodes afin d’évaluer l’effet du Feature
Engineering sur nos modèles. Les forêt aléatoires telles qu’implémentées dans scikit-learn
ne supportent, pour l’instant, que des modalités de variable de type numérique. Cela nous
impose de faire des choix d’encodage qui ne sont pas sans conséquences :
(i) Label encoding : Les modalités sont mappées sur des nombres entiers. Avec cette mé-
thode, nous imposons arbitrairement un ordre à nos modalités et courons le risque de
faire des découpages (split) non-optimaux, si cet ordre est différent de l’ordre donné
par la variable cible.
(ii) One-hot encoding : Les k modalités d’une variable sont mappées sur k − 1 variables
binaires. Avec cette méthode, nous sur-pondérons les variables avec de nombreuses mo-
dalités dans l’ensemble des variables et courons le risque de faire augmenter la variance
de l’estimation, puisque les B arbres de notre forêt vont sur-représenter la variable
en question par rapport aux autres variable dans le tirage aléatoire des m variables
candidates pour sa construction.
(iii) Mean-target encoding : Les modalités d’une variable sont mappées sur la moyenne de
la variable cible conditionnellement à l’appartenance à la modalité en question. Cette
méthode est une réponse aux deux problèmes exposés ci-dessus.

38
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

Dans la pratique, nous avons testé toutes ces méthodes et avec un grand nombre d’arbres,
sur notre jeu de données, les résultats sont similaires. Pour la présentation des résultats, nous
avons donc retenu la méthode one-hot-encoding, car elle nous a permis de comparer plus
aisément les interprétations des modèles Random Forest, XGBoost et Neural Network à
l’aide de SHAP en chapitre 5.

3.1.5 Code et Résultats


Nous construisons dans un premier temps une forêt aléatoire en utilisant les paramètres
par défaut de RandomForestRegressor (3.2) avec 200 arbres.

Figure 3.2 – Forêt aléatoire sous Python

Les métriques de performance obtenues sur jeu de test sont :


• RM SE = 797
• M AE = 102
• M BE = 2
• Equity1 = 11%
• Equity2 = 21.3
Nous nous intéressons maintenant au choix d’hyper-paramètres dans l’algorithme des fo-
rêts aléatoires. En reprenant les notations présentées précédemment, les paramètres à étudier
sont :
• Nombre d’arbres B : augmenter le nombre d’arbres permettrait de réduire le risque de
sur-apprentissage .
• Nombre de variables considérées m : par défaut (dans ce premier modèle), m est égal
au nombre de variables.
Remarque : Par défaut, les arbres sont de taille maximale. Cependant il est également possible
de régler la profondeur des arbres dans RandomForestRegressor afin de limiter la taille des
arbres, notamment lorsque l’échantillon d’entraînement est très grand.
Nous analysons le niveau de MSE en fonction de ces deux paramètres dans 3.3.
Nous constatons que l’augmentation du nombre d’arbres permet d’améliorer la qualité de
la forêt en terme de MSE. Toutefois, le niveau de MSE se stabilise à partir de 50 arbres. De
plus, pour un nombre donné d’arbre (et supérieur à 50), le niveau de MSE est minimal lorsque
le nombre de variables considérées est égal à 2, et maximal lorsque le modèle considère toutes
les variables lors de la division d’un nœud. Sur nos données, augmenter le nombre de variables
considérées ne permet pas d’améliorer la performance du modèle en terme de MSE. Nous
comprenons ce résultat par le fait qu’un grand nombre de variables considérées fait diminuer
la probabilité que les variables les plus discriminantes soient sélectionnées dans chaque nœud.
Sélectionner des variables peu discriminantes fait augmenter l’erreur de prédiction de l’arbre.
Nous vérifions maintenant la qualité de la prédiction, comme pour les GLM, en comparant
le coût annuel moyen observé par modalité avec la prime pure estimée sur le jeu d’entraîne-
ment et de test. A titre d’illustation, nous présentons ici uniquement les variables présentées
précédemment pour les modèles GLM (cf. figure 3.4). Sur ces graphes partial dependence
plot, on remarque que le modèle colle très bien aux observations sur le jeu d’entraînement et
généralise de manière assez satisfaisante sur le jeu de test.

39
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

Figure 3.3 – MSE en fonction du nombre d’arbres et du nombre de variables considérées sur jeu de
test

40
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

Figure 3.4 – Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’entraînement
(à gauche) et de test (à droite) 41
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

3.2 Stochastic Gradient Boosting


La méthode gradient boosting est générique, elle consiste en l’apprentissage successif de
modèles simples qui s’empilent et viennent corriger l’erreur de prédiction du modèle précédent.
Dans le cadre de ce mémoire, nous nous intéressons uniquement à la méthode appliquée aux
arbres de décision, qui correspond à la méthode la plus couramment employée actuellement,
notamment via la librairie XGBoost développée par Chen et Guestrin [2016].

3.2.1 Cadre théorique


La méthode gradient boosting initiale a été affinée pour les arbres de régression par Fried-
man [2000]. Il s’agit de la méthode présentée ci-après. Comme pour les forêts aléatoires (cf.
section 3.1), le modèle gradient boosting est basé sur un ensemble d’arbre de régression CART :
Étant donné un ensemble de n observations et m variables D = {(xi , yi )}, (|D| = n, xi ∈ Rm ,
yi ∈ R) ; le modèle, composé d’un ensemble de K arbres prédit :
K
ŷi = Φ(xi ) = fk (xi ), (3.1)
X
fk ∈ F
k=1

Où F est l’ensemble des arbres de régression CART, et chaque fk représente un arbre de


nombre de feuilles T , de poids de feuilles w. La prédiction d’un arbre fk est obtenue par :
fk (x) = wj 1x∈Rj
X
k
Rkj ∈{Régions de fk }

L’approche gradient boosting vise à résoudre le problème d’optimisation :


Φ∗ = arg min E [L(Y, Φ(X))] + Ω(Φ) (3.2)
Φ

Avec L une fonction d’erreur et Ω une fonction de pénalisation du type :


1
Ω(Φ) = γT (k) + λkw(k) k2
X

k
2

Par la suite on nommera L̃ = L + Ω la fonction d’erreur pénalisée.


Comme l’espace pour Φ est de dimension infinie, l’équation 3.2 est impossible à résoudre
en l’état. Cette forêt Φ∗ est approximée par incréments successifs selon une descente de
gradient et en restreignant l’espace des fonction admissibles à un ensemble prédéfini de weak
learners (hyper-paramètre, on pourra par exemple choisir l’ensemble des arbres CART à T
feuilles, T fixé) . L’algorithme du gradient boosting (algorithme 1) démarre avec le modèle le
plus simple (l’arbre à une feuille retournant la moyenne globale) et cherche itérativement à
minimiser l’erreur par l’ajout d’un arbre simple (weak learner) bien choisi, dans l’ensemble
prédéfini F des arbres weak learner :

Algorithm 1 Gradient Boosting


Φ0 (x) ← arg minρ ni=1 L̃(yi , ρ)
P
1:
2: for k = 1 to K do
∂ L̃(y ,Φk−1 (xi ))
3: ỹi ← − ∂Φi k−1 (xi ) , i ∈ [|1, n|]
fk ← arg min i=1 L̃ (ỹi , f (xi ))
Pn
4:
f ∈F
(j)
ρk ← arg min L̃ (yi , Φk−1 (xi ) + ρfk (xi )), Rkj ∈ {Régions de fk }
P
5:
ρ xi ∈Rkj
(j)
Φk ← Φk−1 +
P
6: ρk fk
Rkj ∈{Régions de fk }
return ΦK

42
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

A ce stade, les hyper-paramètres du modèle sont donc K, F, L, Ω.

3.2.2 Implémentation et Résultats


Spécificités Introduites par XGBoost
XGBoost Chen et Guestrin [2016] est un algorithme de gradient boosting d’arbres de
régression développé et optimisé dans plusieurs langages (il fait notamment partie de la li-
brairie scikit-learn de Python que nous avons utilisée). Au delà de ces optimisations de code
(paralélisation, out-of-core processing etc) qui lui permettent de gérer de grandes bases d’ap-
prentissage, il introduit certaines spécificités par rapport au gradient boosting classique sur
arbres de régressions sur le plan théorique. En particulier, l’algorithme XGBoost fait une ap-
proximation de second ordre de la fonction de perte pour résoudre le problème d’optimisation
plus rapidement, puis propose une méthode d’approximation afin de trouver le meilleur arbre
fk ∈ F. De plus, XGBoost propose non-seulement la pénalisation Ω déjà évoquée (équation
3.2), mais offre également la possibilité d’autres méthodes de régularisation, shrinkage qui
réduit l’influence des arbres fk d’un facteur ν k , gamma qui fixe un seuil minimal de réduc-
tion de l’erreur lors d’un split 1 et le sous-échantillonnage des variables, similaire à ce qui
est fait pour les forêts aléatoires et qui permet non-seulement de régulariser le modèle, mais
également de l’entraîner plus rapidement.

Résultats
Travaillant avec des forêts, nous sommes dans la même problématique qu’à la section pré-
cédente, concernant le feature engineering. Quelle que soit la méthode employée, nos résultats
sont malgré tout similaires.
Nous avons testé plusieurs configurations d’hyper-paramètres à l’aide d’une routine heu-
ristique. Au final, nous avons retenu la suivante :
• L = M SE
• Ω = régularisation L2 (pénalisation de l’erreur)
• K = 200 (nombre total d’arbres)
• ν = 0.08 (vitesse d’apprentissage)
• gamma = 1 (seuil minimal de réduction de l’erreur)
• subsample = 0.75 (taille des sous-échantillons d’observations pour chaque nouvelle
construction d’arbre)
• col_sample = 0.3 (taille des sous-échantillons de variables considérées pour chaque
nouvelle construction d’arbre)
• max_depth = 15 profondeur maximale des arbres construits
Les métriques de performance obtenues sur jeu de test sont données ci-dessous. Elle sont
très similaires aux résultats sur Forêt Aléatoire, en particulier, la mesure Equity2 est anor-
malement élevée. Nous verrons section 4.5 que notre forêt aléatoire et notre modèle XGBoost
sur-estiment significativement le coût annuel des mauvais risques.
• RM SE = 779
• M AE = 103
• M BE = 2
• Equity1 = 13%
• Equity2 = 5.6
En revanche, selon le découpage en modalités des variable explicatives, le modèle XGBoost
donne de bon résultats (figure 4.13 à 4.15).
1. split - operation de partage d’une région en deux

43
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 3.5 – Moyenne prédite vs réelle du modèle direct par modalités de la variable STATUTxETAGE

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 3.6 – Moyenne prédite vs réelle du modèle direct par modalités de la variable NB_PIECES

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 3.7 – Moyenne prédite vs réelle du modèle direct par modalités de la variable ZONE

44
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

3.3 Références
Berk, R. A. 2006, «An introduction to ensemble methods for data analysis», Sociological
Methods Research, vol. 34. 35

Besse, P. 2006, «Apprentissage statistique et data mining», . 35, 36

Breiman, L. 1996, «Bagging predictors», dans Machine Learning, p. 123–140. 36

Breiman, L. 2001, Random Forests. 36

Breiman, L., J. Friedman, C. J. Stone et R. A. Olshen. 1984, Classification and Re-


gression Trees, Chapman and Hall/CRC. 35

Chen, T. et C. Guestrin. 2016, «Xgboost : A scalable tree boosting system», CoRR, vol.
abs/1603.02754. URL http://arxiv.org/abs/1603.02754. 42, 43

Friedman, J. H. 2000, «Greedy function approximation : A gradient boosting machine»,


Annals of Statistics, vol. 29, p. 1189–1232. 42

Kass, G. V. 1980, An Exploratory Technique for Investigating Large Quantities of Catego-


rical Data, Royal Statistical Society, 119-127 p.. 35

Paglia, A. et M. V. Phelippe-Guinvarc’h. 2011, «Tarification des risques en assurance


non-vie, une approche par modèle d’apprentissage statistique», Bulletin Français d’Actua-
riat, vol. 11. 34

Singh, S. et P. Gupta. July 2014, «Comparative study id3, cart and c4.5 decision tree algo-
rithm : a survey», International Journal of Advanced Information Science and Technology,
vol. 27. 35

45
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING

46
Chapitre 4

Approche par Réseau de Neurones

Sommaire
4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 L’apprentissage supervisé via fonction de perte et backpropagation 49
4.2.1 Sensibilité de l’erreur aux paramètres des couches cachées . . . . . . 49
4.2.2 Algorithme d’entrainement . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 Heuristiques pour améliorer l’apprentissage . . . . . . . . . . . . . . 51
4.2.4 Régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Avantages de la librairie TensorFlow . . . . . . . . . . . . . . . . . . 53
4.4 Résultats, performances et limitations . . . . . . . . . . . . . . . . 56
4.4.1 Modélisation séparée de la fréquence et de la perte . . . . . . . . . . 56
4.4.2 Modèle Combiné vs Modélisation Directe du Coût Annuel du Risque 60
4.5 Synthèse des performances de tous nos modèles . . . . . . . . . . 63
4.5.1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.5.2 Analyse des biais des modèles XGBoost et Random Forest . . . . . . 64
4.6 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

47
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

4.1 Definition
Les réseaux de neurones que nous présentons ici sont des structures de graphes orientés,
organisées en couches successives et pour lesquelles les liaisons se font toujours de la couche
précédente vers la couche suivante (pas de liaison en sens inverse, ni de liaison au sein d’une
même couche ni de liaison entre deux couches non successives). Les couches de neurones
entre la couche d’entrée et la couche de sortie sont appelées couches cachées. Nous nous
restreindrons aux réseaux perceptrons multicouches dans lesquels tous les nœuds de la couche
j sont reliés avec tous les nœuds de la couche j + 1 (dans le vocabulaire de la librairie Keras
4.3.1 on parlera de modèle sequential et de couches denses).

Figure 4.1 – Réseau de neurones à 3 couches

Comme représenté en figure 4.1, chaque vertex j de ce graphe est un neurone qui reçoit en
entrée un certain nombre de signaux xi retourne en sortie yj = f (netj ) où netj = di=1 xi wji +
P

wj0 = wjt x et où f est la fonction d’activation (cf. figure 4.2).

(a) ReLu f (x) = max(x, 0) (b) sigmoïde f (x) = 1 e2x −1


1+e−x (c) tanh f (x) = e2x +1

Figure 4.2 – fonctions d’activation classiques

Les réseaux de neurones ainsi définis peuvent en principe fournir la solution optimale de
n’importe quel problème de classification ou de régression. Plus spécifiquement, Kolmogorov
(cf. Kurkova [1992]) a démontré que n’importe quelle fonction continue g(x) définie sur
l’hypercube [0, 1]n peut être représenté sous la forme
2n+1 d
!
g(x) = ψij (xi )
X X
θj
j=1 i=1

48
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

pour des fonctions θj et ψij proprement choisies (et potentiellement différentes des fonctions
d’activation présentées figure 4.2). Cette équation peut être exprimée dans la terminologie
d’un réseau de neurones à 3 couches (une seule couche cachée) sous la forme suivante : Chacun
des 2n + 1 neurones de la couche cachée reçoit en entrée la somme de d fonctions non-linéaires
(une pour chaque entrée xi ). Chaque neurone j de la couche cachée émet alors une fonction
non-linéaire θj de ce qu’il reçoit. La sortie est alors la somme des contributions des neurones
de la couche cachée. Ce théorème souligne la puissance théorique des réseaux de neurones,
mais ne fournit pas de solution pratique aux problème de classification ou de régression. En
revanche, ces réseaux admettent des algorithmes d’apprentissage relativement simples qui en
font des modèles très puissants en pratique, sur un large spectre d’applications.

4.2 L’apprentissage supervisé via fonction de perte et back-


propagation
Les réseaux de neurones ici présentés ont deux modes de fonctionnement : (i) Le fonction-
nement feedforward qui consiste à présenter un motif en entrée du réseau et à faire passer les
signaux au travers du réseau afin d’en dériver un signal de sortie via la couche de sortie. (ii)
L’apprentissage supervisé qui consiste à présenter un motif en entrée du réseau et à modifier
les paramètres de ce dernier afin d’obtenir la sortie la plus proche de la sortie désirée. La
différence entre la sortie du réseau et la sortie désirée (valeur cible) est l’erreur. Cette erreur
est estimée ici via la fonction de perte qui est, par exemple, de type moindres carrés (MSE :
mean squared error)
c
1X
J(w) = (tk − zk )2 = kt − zk2 (4.1)
2 k=1

Où t et z sont respectivement les sorties cibles et et les sorties du réseau et w représente les
paramètres du réseau (Le facteur 12 est inclus par pure commodité lorsque la fonction d’erreur
devra être différenciée par la suite et sans influence aucune sur le résultat). Il existe d’autre
fonctions de perte possibles, dont on nommera deux alternatives : (i) les fonctions de type
cross entropy qui mesurent une distance entre deux distributions de probabilité. Il semblerait
que ces fonctions permettent un apprentissage plus performant car font apparaître moins de
plateaux que la fonction de coût quadratique classique (cf. Glorot et Bengio [2010]). (ii)
les fonctions erreur de type Minkowski error, qui permettent dans certains cas de réduire
l’influence des queues de distribution et ainsi d’ajuster le caractère "local" d’un classificateur
(cf. Duda et collab. [2000]).

4.2.1 Sensibilité de l’erreur aux paramètres des couches cachées


Il existe un lien direct entre les paramètres de la couche de sortie et l’erreur, mais aucun
lien explicite entre cette erreur et les paramètres des couches cachées. C’est la formule en
chaine de backpropagation des erreurs qui permet de calculer (propager) une erreur à chaque
neurone des couches cachées et d’exprimer ainsi une règle d’apprentissage pour les paramètres
de ces couches. La règle d’apprentissage backpropagation classique est basée sur la descente
de gradient. Les paramètres (ou poids) des neurones sont initialisés de manière aléatoire
(avec certaines réserves cf. 4.2.3) et sont ensuite changés, progressivement, dans toutes les
directions qui vont permettre de réduire l’erreur jusqu’à remplir un critère de convergence :
∂J
∆w = −η
∂w
Ou bien, sous forme décomposée :
∂J
∆wpq = −η (4.2)
∂wpq

49
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Où η est le taux d’apprentissage.


On s’attache à présent à évaluer (4.2) en notant que wkj est le poids en entrée du neurone
de sortie yk du signal provenant du neurone de la couche précédente yjinf (yjinf = xj s’il s’agit
de la couche d’entrée).

∂J ∂J ∂yk ∂netk
= , (Chain F ormula) (4.3)
∂wkj ∂yk ∂netk ∂wkj
avec :
n
!
∂netk ∂
= wki yi∗ = yjinf (4.4)
X
∂wkj ∂wkj i=1

∂yk
= f 0 (netk ) (4.5)
∂netk
L’équation 4.5 souligne l’importance d’utiliser des fonction d’activation très rapidement
différentiables comme celles exposées figure 4.2.
Finalement ∂y∂J
k
est évaluée de manière récursive, en supposant que les dérivées des neu-
∂yksup
rones des couches supérieures ∂J
∂yksup
et ∂wik sont connues :

∂J ∂yisup
!
∂J
= (4.6)
X
wik
∂yk i∈L
∂yisup ∂neti

4.2.2 Algorithme d’entrainement


Sur la base de la formule 4.3, nous pouvons proposer différents algorithmes d’entrainement.
Les deux algorithmes proposés ici sont inspirés de Duda et collab. [2000] et adaptés à des
réseaux multicouches de taille quelconque.

Algorithm 2 Stochastic Backpropagation


1: initialize w
2: m ← 0
3: while k∇J(w)k > θ do
4: m←m+1
5: xm ← randomy chosen pattern
6: for n starting from last layer backward do
7: for k ∈ U nits(n) do
∂ykn n 0
∂netn ← (fk ) (netk )
8: n
k  
∂J ∂J ∂yin+1

P
9: ∂ykn n+1
∂yi ∂netn+1
wik
i∈U nits(n+1) i

10: for j ∈ inputs of unit(k) of layer n do


∂y n ∂J n−1
11: wkj ← wkj − η ∂netkn ∂y n yj
k k
return w

Dans l’algorithme (2) ci-dessus , le jeu d’entraînement est utilisé observation par obser-
vation et chacune des observation est tirée du jeu de manière aléatoire avec remise. Dans
l’algorithme (3), le jeu d’entraînement est traité en batch et toutes les observations sont utili-
sées une et une seule fois par epoch afin de mettre à jour les paramètre wkj . Le critère d’arrêt
est tel que l’algorithme s’arrête lorsque le changement sur la fonction de coût J(w) est in-
férieur à une valeur θ prédéfinie. Si ce critère est simple, il n’est pas le meilleur et d’autres
seront vus ultérieurement qui donnent de meilleures performances.

50
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Algorithm 3 Batch Backpropagation


1: initialize w
2: r ← 0
3: while k∇J(w)k > θ do
4: r ← r + 1 (increment epoch)
5: for pattern xm ∈ training set do
6: for n starting from last layer backward do
7: for k ∈ U nits(n) do
∂ykn n 0
∂netn ← (fk ) (netk )
8: n
k  
∂J ∂J ∂yin+1

P
9: ∂ykn n+1
∂yi ∂netn+1
wik
i∈U nits(n+1) i

10: for j ∈ inputs of unit(k) of layer n do


∂y n ∂J n−1
11: ∆wkj ← ∆wkj − η ∂netkn ∂y n yj
k k

12: w ← w + ∆w
return w

Dans la pratique, pour les réseaux profonds dont les données d’entrée peuvent être de très
grande taille, l’algorithme utilisé est un hybride issu des deux algorithmes présentés où la
méthode stochastic backpropagation est appliquée sur des mini-batch. D’autres améliorations
ont été apportées sur la base de cette algorithme. On citera en particulier l’algorithme Adam
(Kingma et Ba [2014]), dans lequel les moyennes glissantes du gradient de la fonction de perte
∇J et de son carré (∇J)2 sont utilisées afin d’adapter la vitesse d’apprentissage de chaque
paramètre en particulier selon le principe que plus la variance glissante (approximée par la
moyenne glissante des (∇J)2 ) est grande, plus petite doit être la vitesse d’apprentissage.

Figure 4.3 – Comparaison de la vitesse d’apprentissage - 350 epochs pour une descente de gradient
classique (bleu) vs 10 pour l’algorithme Adam (orange) sur le problème prédiction de l’intensité de
sinistre, pour le même réseau de neurones

4.2.3 Heuristiques pour améliorer l’apprentissage

Sur le plan théorique, il n’existe aucun résultat garantissant à l’algorithme de backpro-


pagation de converger vers un minimum global. Dans la pratique, un certain nombre d’heu-
ristiques permettent d’améliorer les performances et de circonvenir cet inconvénient. Il s’agit
entre autres (i) de redimensionner les signaux d’entrée, (ii) d’initialiser proprement les pa-
ramètres et, (iii) de choisir des fonctions d’activation qui limitent l’effet d’atténuation ou
d’explosion du gradient.

51
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Redimensionnement des signaux d’entrée


Si les signaux d’entrée sont d’ordres de grandeur très différents, l’erreur propagée par la
fonction de coût dépendra majoritairement des signaux de grandes valeurs et durant l’entrai-
nement, le réseau ajustera les paramètres liés aux grandes valeurs beaucoup plus vite que
ceux liés aux petites valeurs. Afin d’éviter que le modèle ne fasse de préférence arbitraire
de cette forme, les signaux d’entrée doivent être normalisés. En principe, ceci est réalisé de
sorte que les signaux d’entrée soient centrés et de même variance. Naturellement, le même
traitement devra être réalisé pour les données d’entrée du modèle en usage.

Initialisation des paramètres


Comme exprimé par l’equation 4.3, les paramètres ne peuvent pas être initialisés à zero ,
sinon, l’apprentissage ne peut pas s’effectuer. L’initialisation doit permettre un apprentissage
rapide et uniforme sur tout le réseau. Le choix de la méthode d’initialisation des paramètres
du réseau a une influence significative sur sa capacité d’apprentissage.
A ce titre, nous pouvons citer l’heuristique proposée par Glorot  et Bengio [2010], qui
√ √
consiste à initialiser les paramètres par couche selon une loi uniforme − √ 6
, √ 6
,
nj +nj+1 nj +nj+1
pour la couche j + 1 où nj est le nombre d’unités de la couche j dont les sorties sont multi-
pliées par les poids en entrée de la couche j + 1. C’est la méthode par défaut proposée dans
la librairie Keras de TensorFlow.

Choix de la fonction d’activation


Les fonctions d’activation doivent exhiber certaines propriétés dont (i) celle d’être non-
linéaire pour que le réseau de neurones ait un intérêt et (ii) de pouvoir se dériver très rapide-
ment pour que les formules de backpropagation se calculent rapidement. D’autres propriétés
sont recherchées, comme le fait que la fonction d’activation sature, ceci afin de garder les
poids et les sorties du réseau bornés et limiter le temps d’entrainement. En revanche, cette
dernière propriété n’est pas toujours désirée, en particulier lorsque le réseau est utilisé pour
un problème de régression. Une fonction d’activation qui sature, c’est également une dérivée
qui s’annule et peut entrainer un effet de disparition du gradient (gradient vanishing) qui peut
rendre très inefficace l’algorithme d’apprentissage (en particulier sur les réseaux profonds ou
récursifs).

4.2.4 Régularisation
Les petit réseaux de neurones ont une tendance à sous-apprendre alors que les gros ré-
seaux ont tendance à sur-apprendre sur l’échantillon d’apprentissage. En pratique nous ne
savons pas a priori quelles devraient être la taille et la structure du réseau pour un problème
donné. Une solution partielle au problème consiste à choisir un réseau relativement complexe
au regard du problème à résoudre afin qu’il soit performant sur l’échantillon d’apprentissage,
puis d’appliquer des stratégies de régularisation afin d’éviter le sur-apprentissage. La régu-
larisation vise ainsi à améliorer la généralisation d’un réseaux de neurones, autrement dit à
améliorer ses performances sur l’échantillon de test, potentiellement au prix d’une dégrada-
tion de ses performance sur l’échantillon d’entraînement. Nous présenterons ici trois stratégies
les plus classiques de régularisation. Pour d’avantage de détails, le lecteur pourra se référer à
Goodfellow et collab. [2016] qui fait une description très détaillée des différentes méthodes
de régularisation et leur fondements théoriques.

Régularisation L2
Les stratégies de régularisation les plus classiques consistent en l’ajout d’un facteur de
pénalisation à la fonction de coût afin de limiter certains développements du réseau non dé-

52
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

sirés durant l’apprentissage.


En lien avec les considérations précédentes sur le choix des fonctions d’activation et le pro-
blème du gradient vanishing, il est désirable que les poids du réseau restent limités. C’est
tout l’enjeu de la régularisation L2 qui ajoute un facteur de pénalisation Ω(w) = 12 kwk22 à la
fonction de coût.
˜
J(w) = J(w) + αΩ(w)

˜
∇J(w) = ∇J(w) + αw

Dans la phase d’apprentissage, cette pénalisation amène les poids du réseau à diminuer (weight
decay) selon les axes qui ont le moins d’influence sur la fonction de coût non-régularisée.

Régularisation L1

La régularisation L1 permet de simplifier le réseau en faisant disparaître des liaisons


(certain poids, devenus inutiles dans l’apprentissage, sont mis à zéro). Elle est obtenue en
ajoutant Ω(w) = kwk1 = |wi | à la fonction de coût.
P

˜
J(w) = J(w) + αΩ(w)

˜
∇J(w) = ∇J(w) + αsign(w)

Régularisation Dropout

Enfin, la régularisation Dropout fait en sorte que le modèle ne s’appuie pas trop fortement
sur une sous-partie du réseau et tend à rendre le modèle robuste. C’est une stratégie de
régularisation très différente des précédentes, proche du bagging et qui consiste à aléatoirement
et itérativement désactiver une sous-partie du réseau pendant l’entrainement. Cette technique
force ainsi le réseau à apprendre plusieurs représentations des données de manière redondante
et en à en extraire des schémas plus généraux et robustes.

4.3 Mise en œuvre


Les modèles de prédiction de la fréquence et de l’intensité de sinistre et des deux combinés
ont été développés à l’aide de Tensorflow sous Python. Nous en expliquons les raisons avant
de présenter nos résultats.

4.3.1 Avantages de la librairie TensorFlow


TensorFlow Abadi et collab. [2015] est l’une des librairies de deep learning les plus utilisées
actuellement. Elle permet en particulier d’implémenter des réseaux de neurones de manière
très efficace, en particulier en raison des spécificités suivantes.

Optimisation hardware

L’apprentissage des réseaux de neurones est extrêmement gourmand en calcul et Ten-


sorFlow est nativement développé pour tourner sur des GPUs ou des grappes de GPUs qui
sont particulièrement adaptés à ce type de calculs 1 . La couche d’abstraction apportée par
TensorFlow facilite énormément la mise en pratique des réseaux de neurones de ce point de
vue.
1. Les GPU sont spécialisés pour le calcul matriciel ou tensoriel

53
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Concepts au cœur de TensorFlow


Deux concepts sont au cœur de TensorFlow, les tenseurs et les graphes de calcul. Les ten-
seurs sont des objets qui généralisent les scalaires (tenseurs de rang 0), les vecteurs (tenseurs
de rang 1), les matrices (tenseurs de rang 2), les cubes de données (tenseurs de rang 3), etc.
Tensorflow propose toute une librairie de fonctions de calcul optimisées pour ces objets et
ils constituent l’objet de base manipulé par toutes les structures et fonctions de Tensorflow.
Tout flux (entrées, sorties) de Tensorflow est pensé en terme de tenseurs et toute structure est
exprimée sous forme de graphes orientés, spécifiquement adaptés à la construction de réseau
de neurones, mais pas seulement. Cette structure par graphes facilite en outre grandement les
calculs de gradient via la chain rule (cf. équation 4.3) et permet d’optimiser les algorithmes
d’apprentissage.

Optimisation des algorithmes d’apprentissage


Les algorithmes d’apprentissage des réseaux de neurones sont tous des variantes autour
de la descente du gradient. L’opération fondamentale de ces algorithmes est donc le calcul du
gradient et elle doit être réalisée le plus rapidement possible puisqu’elle constitue le goulet
d’étranglement des algorithmes d’apprentissage. Pour calculer un gradient, trois classes de
méthodes peuvent être employées, (i) la différentiation numérique (bump and recompute),
(ii) la différentiation symbolique, ou (iii) les méthodes de différentiation dites automatiques
(AAD : Adjoint Algorithmic Differentiation). C’est cette dernière méthode qui est employée
par Tensorflow. Elle consiste à :
(i) enregistrer une fonction de gradient pour chaque opération élémentaire de Tensorflow ;
(ii) stocker la structure de dépendance entre les différentes fonctions d’un algorithme, ce
qui est fait via la structure par graphe exposée précédemment
Ainsi, quelque soit le gradient ou la dérivée partielle demandés, ils seront calculés très rapide-
ment grâce à cette structure de données et à la chain formula equation 4.3. Une illustration
de l’AAD implémentée dans TensorFlow est donnée en figure 4.4).

Keras
Keras Chollet et collab. [2015] est une couche d’abstraction supplémentaire permettant
de construire des réseaux de neurones sous forme de graphes TensorFlow et de les entraîner
très facilement. Un modèle de réseau de neurones avec un monitoring de l’apprentissage via
Tensorboard peut ainsi être défini et calibré en 23 lignes de code Python (cf. figure 4.5)

54
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Figure 4.4 – Exemple de graphe de différentiation algorithmique par Tensorflow z = cos(x + y)

Figure 4.5 – Keras : définition d’un modèle de régression 3 couches denses (64, 64, 1), optimisation
via l’algorithme d’Adam 3 sur la fonction d’erreur MSE, entraînement sur 600 epochs de minibatchs
de 2048 observations pondérées, sortie sur Tensorboard pour la visualisation de l’apprentissage

55
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

4.4 Résultats, performances et limitations


Avant de présenter les résultats, nous souhaitons mettre en garde le lecteur : La théorie
sur les réseaux de neurones peut laisser penser qu’ils sont la panacée des modèles de machine
learning. La pratique n’est pourtant pas aussi évidente. En particulier, la définition d’un
réseau de neurones comporte de très nombreux hyper-paramètres (type de réseau, nombre de
couches, nombre d’unité par couche, structure des couches, fonctions d’activations, mode de
régularisation, fonction d’erreur, algorithme de calibration etc). Trouver la bonne structure
et le bon degré de complexité pour un problème donné relève de l’expérience plus que d’une
méthode systématique jusqu’ici. Avant d’obtenir les résultats présentés ci-après, nous avons
tenté de nombreuses expériences infructueuses. En particulier, nous avons pensé naïvement
qu’un réseau pourrait toujours calibrer correctement quelque soit le nombre de variables
passées en entrée et malgré le fait qu’elles puissent être corrélées ; qu’avec un nombre suffisant
d’essais et d’epoch et une bonne régularisation, un réseau complexe arriverait toujours à
calibrer avec un degré de précision sur le jeu de test meilleur que toute autre méthode. Il
n’en est rien ; nos premiers réseaux ne calibraient pas bien et restaient manifestement coincés
sur des minima locaux très sous-optimaux. Au final, les réseaux les plus performants ont été
ceux pour lesquels les variables ont été proprement sélectionnées, un minimum regroupées et
les variables STATUT et ETAGE croisées.
Pour la modélisation de la prime pure par réseau de neurones, nous avons utilisé deux ap-
proches : dans un premier temps, nous avons modélisé indépendamment la fréquence E [N |X]
et l’intensité de sinistre E [S|X] en fonction des variables explicatives X, pour obtenir le mo-
dèle combiné :  
N
Sj |X  = E [N |X] E [S|X]
X
E
j=1
hP i
Dans un second temps, nous avons modélisé directement le coût annuel E N
j=1 Sj |X pour
comparer.
La modélisation des deux variables séparément revient en quelque sorte à augmenter la
taille du vecteur de poids w. Elle peut se comprendre dans le cas d’un modèle GLM puisque
chaque variable Xi n’est associée qu’à un seul poids et que la fréquence et l’intensité ont, en
principe, des comportements différents. En revanche, cela fait a priori moins de sens pour
une approche en réseaux de neurones, puisque l’on peut choisir la complexité de notre modèle
indépendamment du nombre de variables. De plus, l’approche combinée repose des hypothèses
fortes qui ne sont pas toujours respectée dans la pratique. Nous verrons par la suite que les
modèles direct et combinés donnent des résultats équivalents.

4.4.1 Modélisation séparée de la fréquence et de la perte


Modélisation de l’intensité de sinistres
Le modèle cherche à prédire l’intensité moyenne d’un sinistre par contrat. L’échantillon
est réduit à l’ensemble des contrats ayant subi au moins un sinistre et pondéré par le nombre
de sinistres subits par contrat. Nous avons testé deux approches : Une modélisation par
régression, ou par classification sur un découpage de l’intensité de sinistre. Cette dernière ap-
proche fait sens étant donné la distribution de l’intensité de sinistre par contrat, extrêmement
asymétrique, concentrée sur les petites valeurs et avec des valeurs extrêmes (cf. figure 4.7).
C’est, en outre, une méthode couramment employée en finance afin de segmenter le risque
de crédit (la distribution des défauts étant elle aussi très asymétrique) et évaluer les provi-
sions et capitaux propres d’une banque. Notre tentative selon cette approche a cependant
conduit à exacerber les tendances, rendant la prédiction de prime pure inéquitable (les bons
risques ayant une prédiction de leur risque en dessous de la réalité constatée et les mauvais
au dessus). Nous l’avons donc rejetée au profit de l’approche par régression.

56
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Modèles challengers Dans un but pédagogique, nous présentons ici 3 modèles challengers
pour la prédiction de l’intensité de sinistres, dont les définitions sont données en tableau 4.1.
La vitesse d’apprentissage des ces trois modèles est présentée en figure 4.6. Les graphiques
d’apprentissage nous apprennent que, globalement, les modèles apprennent très rapidement
(en environ une vingtaine d’epochs), l’optimisation étant faite à l’aide de l’algorithme Adam.
On constate que le modèle 1 optimise l’erreur M AE, il ne sera pas retenu car il ne fait quasi-
ment pas de différentiation entre bons et mauvais risques. Le modèle 2 tend à sur-apprendre,
la régularisation dropout sur le modèle 3 (courbe rouge) vient corriger cette tendance. C’est
le modèle 3 qui sera retenu.

Tableau 4.1 – Définition des NN pour la modélisation de l’intensité de sinistres

Modèles Couches F. Perte Optimisation Régularisation


1 2, dense (60, 10), Relu M AE Adam aucune
2 2, dense (60, 10), Relu M SE Adam aucune
3 2, dense (60, 10), Relu M SE Adam Dropout 20%

(a) M AE sur le jeu d’entrainement (b) M SE sur le jeu d’entrainement

(c) M AE sur le jeu de test (d) M SE sur le jeu de test

Figure 4.6 – Vitesse d’entraînement des réseaux de neurones pour la prédiction de l’intensité de
sinistres sur 200 epochs (1. orange, 2. bleu, 3. rouge)

Quelques résultats Le tableau de performances 4.2 ne montre pas de différence significa-


tive entre les modèles 1 et 3 hormis sur le biais. En revanche, les distributions prédites par
ces modèles (figure 4.7) montrent que le modèle 3 est sensiblement plus discriminant.

Tableau 4.2 – Performances des modèles challengers pour la prédiction de l’intensité de sinistre

Modèles RM SE M AE M BE
1 4345 641 -287
3 4330 695 -22

Modélisation de la fréquence de sinistres


Comme précédemment, nous avons opté pour une approche en régression pour la prédic-
tion de la fréquence annualisée des contrats. L’échantillon est, ici, pondéré par l’année risque

57
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(a) prédiction modèle 1 (b) prédiction modèle 3

Figure 4.7 – Distributions prédites vs réelle pour les modèles 1 et 3 de prédiction d’intensité (tronquée
à 5000)

(AR) de chaque contrat.

Modèles challengers Dans un but pédagogique, nous présentons ici 5 modèles challengers
pour la prédiction de la fréquence de sinistres, dont les définitions sont données en tableau 4.3.
La vitesse d’apprentissage des ces cinq modèles est présentée en figure 4.8. On remarquera,
sans surprise, que plus le modèle est complexe plus il a tendance à sur-apprendre (modèle 2
courbe bleu foncé, 3 courbe rouge). Le modèle 5 illustre la différence de vitesse de convergence
entre la descente de gradient classique et l’algorithme Adam. Enfin, les modèles apprenant
sur l’algorithme Adam calibrent très vite (dès le premier epoch) et, au delà, ou bien stagnent
ou bien sur-apprennent.

Tableau 4.3 – Définition des NN pour la modélisation de la fréquence de sinistres

Modèles Couches F. Perte Optimisation Régularisation


1 2, dense (60, 10), Relu M AE Adam aucune
2 2, dense (60, 10), Relu M SE Adam aucune
3 2, dense (60, 60), Relu M SE Adam aucune
4 2, dense (60, 10), Relu M SE Adam Dropout 20%
5 2, dense (60, 10), Relu M SE SGD Dropout 20%

Quelques résultats De nouveau, le tableau de performances 4.4 ne montre pas de diffé-


rence significative entre les modèles 1 et 4 hormis sur le biais. En revanche, la calibration
du modèle 1 a convergé vers un minimum pour le critère M AE où la sortie du modèle est
constante. Le modèle 4, quant à lui, est discriminant (figure 4.9).

Tableau 4.4 – Performances des modèles challengers pour la prédiction de l’intensité de sinistre

Modèles RM SE M AE M BE
1 0.2258 0.0651 -0.0651
3 0.2133 0.1046 0.0013

58
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(a) M AE sur le jeu d’entraînement (b) M SE sur le jeu d’entraînement

(c) M AE sur le jeu de test (d) M SE sur le jeu de test

Figure 4.8 – Vitesse d’entraînement des réseaux de neurones pour la prédiction de la fréquence de
sinistres sur 100 epochs

Figure 4.9 – Distributions prédite vs réelle pour le modèles 4 de prédiction de la fréquence annuelle
de sinistres

59
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

4.4.2 Modèle Combiné vs Modélisation Directe du Coût Annuel du Risque


Le modèle final cherche à prédire le coût annuel moyen du risque pour un contrat donné.
Le modèle combiné est obtenu par produit des modèles de fréquence et de perte, le modèle
direct, par régression directe sur le coût annuel moyen par contrat pondéré par l’AR. Les
deux modèles ont des performances équivalentes (tableau 4.5).

Tableau 4.5 – Performances des modèles challengers pour la prédiction du coût annuel de sinistres

Modèles RM SE M AE M BE
combiné 774 105 7
direct 773 101 1

Résultats du Modèle Combiné


Pour comprendre les tendances du modèle dans le détail et identifier où il peut être biaisé
ou inéquitable, nous traçons les graphiques des moyennes prédites et réelles par modalité
pour chacune des variables explicatives (et également d’autres n’entrant pas dans le modèle,
comme l’ancienneté du contrat). Quelques sorties sont représentées sur les figures 4.10, 4.11,
4.11. Au global, le modèle ne fait pas apparaître de grosses inéquités au vue des graphiques,
mais il est biaisé avec une prédiction du risque supérieure au réalisé, en accord avec la mesure
M BE 4.5.

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 4.10 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable
STATUTxETAGE

Résultats du Modèle Direct


Les mêmes sorties que pour le modèle combiné sont représentées sur les figures 4.13, 4.14,
4.14. Au global, le modèle ne fait pas apparaître d’in-équités majeures au vue des graphiques
et il est nettement moins biaisé que le modèle combiné, en accord avec la mesure M BE 4.5.

60
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(a) sur le jeu d’entraînement (b) sur le jeu de test (c) zoom sur le jeu de test

Figure 4.11 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable NB_PIECES

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 4.12 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable ZONE

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 4.13 – Moyennes prédites vs réelles du modèle direct par modalités de la variable
STATUTxETAGE

61
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(a) sur le jeu d’entraînement (b) sur le jeu de test (c) zoom sur le jeu de test

Figure 4.14 – Moyennes prédites vs réelles du modèle direct par modalités de la variable NB_PIECES

(a) sur le jeu d’entraînement (b) sur le jeu de test

Figure 4.15 – Moyennes prédites vs réelles du modèle direct par modalités de la variable ZONE

62
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

4.5 Synthèse des performances de tous nos modèles


4.5.1 Synthèse
Le tableau de synthèse des performances 4.6 montre que le GLM reste le modèle le plus
performant, malgré tous nos efforts. En effet, à RM SE, M BE et mesure Equity1 équivalent
à nos meilleurs challengers, il les sur-performe sur la mesure Equity2 . On remarque également
que XGBoost et Random Forest sont très peu équitables selon la mesure Equity2 , on peut
voir le détail figure 4.16, les deux modèles sont particulièrement inéquitables avec ce qu’ils
estiment être les mauvais risques.

Tableau 4.6 – Synthèse des performances des différents modèles sur jeu de test

RM SE M AE M BE Equity1 Equity2
GLM 774 101 3 14% 0.13
RF 797 102 2 11% 21.3
XGBoost 779 103 2 13% 5.6
NN 773 101 1 19% 0.28

(a) GLM (b) Random Forest

(c) XGBoost (d) Neural Network

Figure 4.16 – Détail de la mesure Equity2 sur les différents modèles (sur jeu de test)

On remarquera également figure 4.17 que la distribution de prédiction de XGBoost prévoit


des coûts négatifs et que celle de Random Forest est sensiblement différente des autres avec

63
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

des valeurs prédites pouvant être extrêmes (figure 4.18).

Figure 4.17 – Distribution du coût annuel de sinistres prédit par les 4 modèles sur le jeu d’entraîne-
ment (tronquée à 3000)

Figure 4.18 – Distribution du coût annuel de sinistres prédit par le modèle RF sur le jeu d’entraîne-
ment (non tronquée)

Enfin, pour compléter cette synthèse, la figure 4.19 illustre les écarts des 3 modèles chal-
lenger par rapport au modèle GLM de référence.

4.5.2 Analyse des biais des modèles XGBoost et Random Forest

Les modèles XGBoost et RF ont donc manifestement sur-appris localement et nous ten-
tons maintenant d’en déterminer la cause.

64
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(a) GLM vs RF (b) GLM vs XGBoost (c) GLM vs NN

Figure 4.19 – QQ plot des prédictions des 3 modèles challenger contre le modèle GLM

Random Forest
Au regard de la figure 4.16 et de la distribution des prédictions de RF sur le jeu de test
tableau 4.7, RF est très sensible aux valeurs extrêmes et a sur-appris dessus. En entraînant un
modèle RF sur données excluant les valeurs extrêmes (coût annuel > 10000), l’arbre obtenu
est cependant aussi peu équitable sur la mesure Equity2 , l’élimination des valeurs extrêmes
du jeu d’entraînement n’est donc pas une solution pour corriger le biais de ce modèle.

Tableau 4.7 – Percentiles de la prédiction du modèle RF sur le jeu de test

PERCENTILE VALUE
0 0
0.05 0
0.1 0
0.15 1.9
0.2 5.2
0.25 8.7
0.3 12.3
0.35 15.7
0.4 19.6
0.45 24.0
0.5 27.2
0.55 32.7
0.6 37.4
0.65 43.6
0.7 50.5
0.75 59.4
0.8 73.2
0.85 91.2
0.9 119.5
0.95 192.4
1 29228

Il est particulièrement étonnant que le modèle RF ait sur-appris, puisqu’il est un modèle
issu de la moyenne des contributions de 200 arbres. On peut en déduire que, localement,
ces 200 arbres sont fortement corrélés sur les grandes valeurs. Nous formulons 2 hypothèses
pouvant expliquer que les arbres sur-apprennent de manière corrélée :
(i) la longueur des arbres n’est pas limitée (arbres maximaux) et pourrait mener systéma-
tiquement les arbres à segmenter de manière trop granulaire sur les valeur extrêmes ;

65
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

(ii) nous sommes éventuellement tombé dans le piège de l’encodage binaire (one-hot enco-
ding) sans l’avoir détecté préalablement (cf. 3.1.4).
Nous avons testé ces deux hypothèses en observant les mesures de performances en fonc-
tion de la profondeur des arbres, (i) sur variables one-hot encoded (figure 4.20) et (ii) sur
variables mean-target encoded (figure 4.21). La première hypothèse se vérifie effectivement
sur nos graphiques. Il est plus difficile de conclure pour la seconde au vu des graphiques et
nous verrons au chapitre suivant comment le modèle d’interprétation SHAP nous permet
d’invalider cette hypothèse.

Figure 4.20 – Performances du modèle RF one-hot-encoding en fonction de la profondeur maximum


autorisée pour les arbres

Au final, pour corriger ce biais, nous avons contraint la profondeur maximale des arbres
et dans ce cas, nos performances pour le modèle RF tombent au niveau de celles du réseau
de neurones. Le modèle RF ne nous paraît donc pas un modèle adapté à la tarification de
cette garantie, car il semble très mal s’accommoder de queues de distribution épaisses de la
distribution de la variable à prédire conditionnellement aux variables explicatives.

XGBoost
Nous avons une hypothèse expliquant pourquoi XGBoost prédit des valeurs de coût annuel
négatives : Les arbres au delà du premier ne calibrent pas sur les valeurs du coût annuel de
sinistre observé, mais sur l’erreur du modèle de l’itération précédente, avec l’erreur estimée
comme un gradient de la fonction de perte. Étant donné que le premier arbre est l’arbre à
une feuille renvoyant la moyenne (qui est très faible), si la vitesse d’apprentissage est trop
importante, la descente de gradient peut "envoyer" l’algorithme en territoire négatif.
Pour vérifier cette hypothèse nous divisons la vitesse d’apprentissage par 2, les résultats
en termes de performances sont exposés en tableau 4.8 et l’impact sur la distribution prédite
est présenté figure 4.22. Diminuer la vitesse d’apprentissage vient bien corriger le problème,
mais pour totalement éliminer ce biais, les performances du modèles XGBoost retombent au
niveau de celles du réseau de neurones.

66
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Figure 4.21 – Performances du modèle RF mean-target-encoding en fonction de la profondeur maxi-


mum autorisée pour les arbres

Figure 4.22 – Distribution de la prédiction du coût annuel de sinistre pour le modèle XGBoost avec
vitesse d’apprentissage de 0.08 (y_pred_bg) et 0.04 (y_pred_gb2)

67
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES

Tableau 4.8 – Comparaison des performances du modèle XGBoost avec une vitesse d’apprentissage
à 0.08 et à 0.04

Modèle RM SE M AE M BE Equity1 Equity2


XGB0.08 778.6 102.6 2.1 0.13 5.63
XGB0.04 775.5 101.3 1.9 0.13 0.29

4.6 Références
Abadi, M., A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado,
A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving,
M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mané,
R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner,
I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viégas,
O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu et X. Zheng. 2015,
«TensorFlow : Large-scale machine learning on heterogeneous systems», URL https://
www.tensorflow.org/, software available from tensorflow.org. 53

Chollet, F. et collab.. 2015, «Keras», https://github.com/fchollet/keras. 54

Duda, R. O., P. E. Hart et D. G. Stork. 2000, Pattern Classification (2Nd Edition),


Wiley-Interscience, New York, NY, USA, ISBN 0471056693. 49, 50

Glorot, X. et Y. Bengio. 2010, «Understanding the difficulty of training deep feedforward


neural networks», dans In Proceedings of the International Conference on Artificial Intel-
ligence and Statistics (AISTATS’10). Society for Artificial Intelligence and Statistics. 49,
52

Goodfellow, I., Y. Bengio et A. Courville. 2016, Deep Learning, MIT Press. http:
//www.deeplearningbook.org. 52

Kingma, D. P. et J. Ba. 2014, «Adam : A method for stochastic optimization», CoRR, vol.
abs/1412.6980. URL http://arxiv.org/abs/1412.6980. 51

Kurkova, V. 1992, «Kolmogorov’s theorem and multilayer neural networks», NeuralNet-


works, vol. 5. 48

68
Chapitre 5

Interprétabilité des méthodes


avancées

Sommaire
5.1 Méthodes d’interprétation locale . . . . . . . . . . . . . . . . . . . 71
5.1.1 LIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.2 SHAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Approche adoptées . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.1 Interprétation Globale en Moyenne sur un Sous-Échantillon Repré-
sentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.2 Interprétation Locale Détaillée sur un Sous-Échantillon . . . . . . . 75
5.2.3 Étude du comportement du modèle RF sur les valeurs extrêmes . . . 75
5.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

69
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

Pour de nombreux problèmes, les méthodes d’apprentissage présentées aux chapitres pré-
cédents apportent de véritables gains de performances par rapport aux méthodes classiques
issues de la statistique inférentielle. En revanche, ces gains se font au détriment de la transpa-
rence des méthodes employées (cf. figure 5.1). A titre d’exemple, les forêts aléatoires que nous
avons utilisées sont composées d’environ 200 arbres de profondeur entre 20 et 30, soit, poten-
tiellement, environ 3 millions de nœuds 1 . Nos réseaux de neurones sont composés d’entre 50
et 60 unités sur la première couche cachée, 10 à la seconde, avec 50 à 60 variables en entrée,
soit entre 3000 et 4000 paramètres. Ces modèles ne sont pas interprétables directement par
un humain.

Figure 5.1 – Balance entre explicabilité et performances

Pour autant, les contraintes en banque-assurance exigent non seulement que les modèles
soient performants, mais également interprétables et ceci à plusieurs titres :
• Pour des contraintes réglementaires, nous devons être capables de prouver que le modèle
ne s’appuie pas sur certaines données sensibles interdites (sexe, appartenance religieuse
ou ethnique). Il pourrait nous être demandé que le modèle soit neutre selon ces axes
également (sans se servir de la variable sexe, un modèle peut très bien contourner le
problème et discriminer selon d’autres critères très liés à cette variable).
• Pour des contraintes de validation de la conception, afin de s’assurer que le modèle
ne génère pas un risque inacceptable lorsqu’il est utilisé sur des données de nature
légèrement différentes. C’est l’idée derrière la question « what makes a cat a cat » :
Imaginons, à cause de la base de construction, que le modèle prédit un chat car l’image
représente un objet posé sur un canapé avec un fond blanc en arrière plan. Alors, il
existe un vrai risque d’erreur lorsque les données réelles représenterons d’autres réalités.
Nous devons être en mesure de comprendre et être en accord avec les caractéristiques
principales utilisées pour la prédiction (le fait d’avoir 4 pattes, une queue, des oreilles
pointues, des canines et des moustaches de félin et de mesurer entre 40 et 80cm, par
exemple)
• Pour d’autres objectifs importants, mais difficiles à modéliser et pour lesquels les opé-
rateurs humains auront besoin de comprendre la décision prise par le modèle pour être
en capacité de l’accepter ou de la forcer (en banque, les analystes crédit sont confrontés
à ce type de situation dans le cadre des octrois de prêts).
Cette interprétabilité peut être obtenue de deux façons (cf. Lipton [2016]) :
• Par transparence - le modèle, par essence et par construction est interprétable. C’est le
cas des modèles classiques (GLM, arbres de décision simples). Il existe également des
réseaux de neurones structurellement explicables (cf. Vaughan et collab. [2018]).

1. sauvegarder nos forêts aléatoires a requis en moyenne plus de 700Mo par modèle (en passant par la
librairie pickle

70
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

• Par interprétation post hoc - en exploitant des méthodes d’interprétation sans chercher
à expliquer exactement comment le modèle fonctionne. C’est cette dernière approche
qui retiendra notre attention dans la suite de ce mémoire, et plus particulièrement les
méthodes agnostiques n’ayant aucun a priori sur le modèle à interpréter.
L’interprétabilité peut être envisagée selon deux angles, (i) l’interprétation globale et (ii)
l’interprétation locale. Pour qu’un modèle soit compréhensible pour un humain, il doit être
particulièrement simple (de type arbre ou régression classique avec moins de 20 paramètres).
Le dilemme de l’interprétation globale est donc d’arriver à construire un modèle surrogate
suffisamment simple pour être compris, mais suffisamment complexe pour approximer le
modèle initial avec un degré de précision acceptable. C’est un dilemme impossible à concilier
dès lors que l’objectif à prédire devient complexe et nécessite une méthode avancée de machine
learning. Les méthodes les plus utilisées actuellement sont donc moins ambitieuses et visent
à faire une interprétation locale d’une seule prédiction ou d’un groupe de prédictions.

5.1 Méthodes d’interprétation locale


Le sujet est particulièrement étudié et plusieurs méthodes ont émergé dernièrement, de
la simple approche Partial Dependent Plot que nous avons déjà utilisé dans nos graphiques
précédemment (cf. figure 4.10), aux méthodes très spécifiques, liées à des modèles particu-
liers comme TreeInterpreter pour interpréter des forêts aléatoires Saabas [2015] ou DeepLift
pour interpréter des réseaux de neurones Shrikumar et collab. [2017]. Les méthodes qui
retiennent notre attention ici sont les méthodes agnostiques LIME Ribeiro et collab. [2016]
et SHAP Lundberg et Lee [2017]. Elles correspondent au dernières avancées dans le do-
maine, elle sont agnostiques, ne dépendent pas du type de modèle à expliquer (encore qu’elle
puissent être optimisées pour certain types de modèles), vérifient des résultats théoriques très
intéressants et disposent de librairies populaires sous Python et R. Il s’agit de méthodes dites
additive feature attribution, elles proposent d’expliquer localement un modèle f autour d’une
prédiction f (x) par un modèle linéaire g sur un jeu simplifié de variables f (hx (z 0 )) ≈ g(z0 )
(hx fonction de mapping telle que hx (x0 ) = x et décrivant comment les variables initiales du
modèle sont simplifiées autour de x).
m
g(z0 ) = Φ0 + Φj zj0 (5.1)
X

j=1

Où z0 ∈ {0, 1}m , m le nombre de variables dans le jeu de variables simplifiées.

5.1.1 LIME
LIME (pour Local Interpretable Model-Agnostic Explanation (Ribeiro et collab. [2016])
est une méthode d’interprétation dont l’objectif est d’approximer le modèle à expliquer loca-
lement autour d’une instance x par un modèle simple (en l’occurrence une régression linéaire
sur un faible nombre de variables simplifiées). Pour ce faire, LIME passe au préalable par une
représentation simplifiée et interprétable des variables en entrée du modèle afin de mapper
des variables non-interprétables sur un ensemble restreint de caractéristiques interprétables,
à l’aide d’une fonction de mapping hx telle que hx (x0 ) = x (comme décrit plus haut). Par la
suite, LIME résout le problème d’optimisation 5.2.

ξ = arg min L(f, g, πx0 ) + Ω(g) (5.2)


g∈G

Où G est l’ensemble des modèles explicatifs admissibles, L une fonction de perte (en
pratique de type quadratique, sur l’échantillon d’observations considéré Z cf. 5.3), πx0 une
mesure de proximité pour définir la localité autour de x et Ω une pénalisation afin de forcer

71
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

le modèle retenu à être le moins complexe possible (en pratique une pénalisation L1 des poids
des paramètres de g).

2
L(f, g, πx0 ) = πx0 (z) f (z) − g(z 0 ) (5.3)
X

z∈Z

LIME présente l’avantage d’être très rapide à calculer, de produire une interprétation
sélective (grâce à la pénalisation) et un modèle surrogate du modèle à expliquer qui permet,
au premier ordre, d’expliquer les sensibilités du modèle à expliquer. En revanche, la méthode
souffre de quelques inconvénients majeurs : En premier lieu, LIME est très sensible à la mesure
de proximité πx0 définie et pour deux mesures très proches, le modèle explicatif produit peut
être radicalement différent comme illustré par Molnar [2019]. En second lieu, LIME ne
garantit pas les propriétés de précision (équation 5.6) et de cohérence (équation 5.7) qui sont
essentielles à une mesure d’importance des variables d’un modèle.

5.1.2 SHAP
SHAP Lundberg et Lee [2017] propose une mesure d’importance des variables explica-
tives qui unifie un ensemble de mesures précédemment développées (dont LIME) et vérifie
certaines propriétés qui la rende plus désirables que les autres méthodes pour l’interprétation.
Cette méthode est toutefois plus gourmande que LIME en calcul et ne peut pas être mise en
œuvre dans un temps raisonnable sans quelques approximations.

Shapley Values
Définition La mesure aux fondement de SHAP est la Shapley Value d’une variable expli-
cative {j}. Elle correspond à la moyenne de la contribution marginale de cette variable au
sein de toutes les configurations (ou coalitions) possibles de modalités du jeu de variables
considéré dans le modèle. La Shapley value Φj (f (x)) de la prédiction f (x) (sur la réalisation
x = (x1 , ..., xp )) se définie mathématiquement comme suit (Molnar [2019]) :

|S|!(p − |S| − 1)!


Φj (f (x)) = (valx (S ∪ {xj }) − valx (S)) (5.4)
X

S⊆{x1 ,...,xp }\{xj }


p!

avec
Z
valx (S) = f (x1 , ..., xp )dPx∈S
/ − E [f (X)]

Ce qui, dans le cadre des méthodes dites additive feature attribution (équation 5.1), se
traduit en
|z 0 |!(m − |z 0 | − 1)!
Φj (f (x)) = fx (z 0 ) − fx (z 0 \j) (5.5)
X 
m!
z 0 ⊆{z 0 |x0i =0⇒zi0 =0}

où fx (z 0 ) = f (hx (z 0 )) = E[f (z)|zS ] (où zS est le vecteur z avec des valeurs manquantes pour
toutes les variables qui ne sont pas dans S) et z 0 \i est le vecteur z 0 dont la composante zi0 a
été mise à zéro.

Propriétés Les Shapley values proviennent initialement de la théorie des jeux et ont été
conçues comme mesure de partage des gains entre joueurs dans un jeu coopératif Shapley
[1953]. A ce titre, cette mesure (5.5) est la seule parmi les méthodes dites additive feature
attribution (5.1) à vérifier les propriétés suivantes (cf. Lundberg et Lee [2017]) :

72
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

• Précision : La somme des Shapley Value est égale à la différence entre la prédiction et
la moyenne des prédictions.
p
Φj = f (x) − E [f (X)] (5.6)
X

j=1

• Symétrie : Deux variables dont la contribution marginale est la même (valx (S ∪ {xj }) = valx (S ∪ {xk }
quelle que soit la coalition S ⊆ {x1 , ..., xp }\{xj , xk } ont la même Shapley value.
• joueur nul : Si valx (S ∪ {xj }) = valx (S) quelle que soit la coalition S, alors sa Shapley
value est nulle Φj = 0.
• Cohérence : Si pour deux modèles f et fˆ on a

ˆ ˆ
valxf (S ∪ {xj }) − valxf (S) ≤ valxf (S ∪ {xj }) − valxf (S) (5.7)

alors
Φj (f (x)) ≤ Φj fˆ(x)
 

Les Shapley values sont, jusqu’ici, la seule méthode d’interprétation appuyée par une
théorie robuste (Molnar [2019]). En particulier, la propriété de précision assurant une ex-
plication totale et non-biaisée d’une prédiction n’est pas garantie par les autres méthodes
telles que LIME ou Treeinterpreter et peuvent être même allègrement violées sur des cas
concrets simples comme démontré par Lundberg [2017].

Calcul D’après l’équation 5.4, pour calculer exactement la Shapley value Φj , il est nécessaire
de calculer la prédiction du modèle avec et en l’absence de la variable xj pour toutes les
coalitions S possibles. La complexité est alors en 2p du temps de calcul de f , ce qui est
rédhibitoire très rapidement lorsque le nombre de variables augmente.

La puissance de SHAP réside dans le lien établi entre LIME et les Shapley values au
travers du théorème Shapley kernel (cf. Lundberg et Lee [2017]) et qui permet de calculer
les Shapley values à l’aide de l’équation (5.2), pour une fonction de perte L et un noyau
local πx0 bien choisis. Avec cette approche, le calcul des Shapley values revient, comme pour
LIME, à un problème d’optimisation avec une pénalisation Ω(g). Cette pénalisation est une
régularisation L1 par défaut dans la librairie SHAP, ce qui permet d’obtenir une interprétation
basée sur un sous-ensemble des variables (puisque les Shapley values des variables à faible
contribution sont mises à zéro par la régularisation L1 ).

Inconvénients SHAP souffre d’un inconvénient en particulier : Pour simuler qu’une va-
riable est absente d’une coalition S, il est nécessaire de calculer
Z
E[f (z)|zS ] = f (z1 , ..., zp )dPx∈S
/

En pratique cette espérance est estimée sur la distribution marginale des variables n’appar-
tenant pas à la coalition S, ce qui suppose, pour être juste, l’indépendance entre les variables
inclues et celle exclues de la coalition (pour être exacte cette espérance devrait être calculée
sur la distribution des variables n’appartenant pas à la coalition S conditionnelle à celles
inclues dans la coalition). Pour estimer cette espérance, le noyau SHAP fait également appel
à une représentation synthétique (par k-means clustering du jeu d’observations initial si ce
dernier est trop volumineux). Ces deux approximations peuvent conduire à un biais dans
l’interprétation dont il faut être conscient et auquel il faut être vigilant.

73
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

5.2 Approche adoptées


L’interprétation locale a ses limites et notre objectif est de tenter d’avoir un aperçu global
des choix que font nos modèles à expliquer. Par la suite, puisque le noyau SHAP est l’unique
choix d’hyper-paramètre LIME vérifiant les propriétés 5.6 et 5.7, nous nous concentrons sur
les résultats fournis par SHAP uniquement.
Les résultats d’interprétation ont été obtenus sur des observations du jeu d’entraînement
puisque l’objectif ici n’est pas de mesurer les performances, mais de comprendre quelles sont
les variables d’influence des modèles. Nous avons pour cela calculé les SHAP values à partir de
la méthode SHAP kernel, avec un background de la forme k-means clustering sur 10 clusters.

5.2.1 Interprétation Globale en Moyenne sur un Sous-Échantillon Repré-


sentatif
Pour chaque modèle, nous avons calculé les SHAP values sur un sous-échantillon du jeu
d’entraînement de 600 observations stratifiées sur la prédiction du modèle découpée en 10
quantiles, afin de couvrir la distribution des prédictions et ainsi tenter d’obtenir une moyenne
des SHAP values sur l’échantillon aussi proche que possible de la moyenne sur tout le jeu
d’entraînement (ce dernier est trop long à calculer).
Les variables des modèles réseau de neurones (NN) et forêt aléatoire (RF) sont binaires
et, puisque les SHAP values sont additives (propriété 5.6), nous les avons regroupées par va-
riables initiales pour produire les interprétations globales. Les résultats sont présentés figures
5.2 et 5.3.

(a) summary plot (b) violin plot

Figure 5.2 – Influence moyenne globale des variables pour un ensemble représentatif de prédictions
du coût annuel par le modèle en réseau de neurones

(a) summary plot (b) violin plot

Figure 5.3 – Influence moyenne globale des variables pour un ensemble représentatif de prédictions
du coût annuel par le modèle random forest

74
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

5.2.2 Interprétation Locale Détaillée sur un Sous-Échantillon


Dans un second temps, nous cherchons à comprendre plus en détail sur quelles modalités
précisément les modèles s’appuient pour leur prédictions. La figure 5.4 présente en particulier
des prédictions sur les valeur extrêmes du modèle Random Forest, puisque nous avons vu
section 4.5 que ce modèle était particulièrement inéquitable sur le décile des polices qu’il
estime les plus risquées. La figure 5.5 fournit l’interprétation détaillée sur un sous-ensemble
de polices d’assurance de la prédiction du coût annuel de sinistres par le réseau de neurones.
Ces représentations ne nous apportent pas beaucoup d’éclairage sur le comportement de nos
modèles étant donné leur caractère trop local.

Figure 5.4 – Représentation des SHAP values pour un ensemble de prédictions par le modèle Random
Forest du coût total selectionnées aléatoirement dans les déciles 9 et 10 puis max

5.2.3 Étude du comportement du modèle RF sur les valeurs extrêmes


En fin de chapitre précédent (4.5.2), nous avions émis une hypothèse quant à l’origine du
biais du modèle RF : nous pensons être peut-être tombé dans le piège de l’encodage binaire
(cf. section 3.1.4), sans l’avoir détecté préalablement et qui pourrait expliquer pourquoi nos
arbres semblent aussi corrélés (et donc peu robustes) dans leur prédiction des très grandes
valeurs de coût annuel.
Le modèle d’interprétation SHAP peut nous aider à confirmer cette hypothèse. En effet, si
elle se vérifie, alors les variables à grand nombre de modalités devraient être sur-représentées
dans l’interprétation par SHAP values, pour le sous-ensemble des observations sur lesquelles
les prédictions sont extrêmes. La figure 5.6 donne le résumé des impacts par variable sur
l’ensemble des observations dont la prédiction de coût annuel est supérieure à 3000 et ne
montre aucune sur-représentation des variables NB_PIECES (10 modalités) et ZONE_NOISY (23
modalités). C’est une hypothèse que nous pouvons donc rejeter. Le biais du modèle RF ne
semble donc provenir que de la profondeur des arbres du modèle.

75
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

Figure 5.5 – Représentation des SHAP values pour un ensemble de prédictions par le modèle en
réseau de neurones du coût total (min puis une observation par décile, puis max)

76
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

(a) summary plot (b) violin plot

Figure 5.6 – Influence moyenne globale des variables sur l’ensemble des prédictions de coût annuel
supérieures à 3000 pour le modèle RF

5.3 Références
Lipton, Z. C. 2016, «The Mythos of Model Interpretability», ICML Workshop on Human
Interpretability in Machine Learning. URL https://arxiv.org/abs/1606.03490. 70

Lundberg, S. 2017, «a story about the danger of interpreting your ma-


chine learning model incorrectly», URL https://towardsdatascience.com/
interpretable-machine-learning-with-xgboost-9ec80d148d27. 73

Lundberg, S. et S. Lee. 2017, «A unified approach to interpreting model predictions»,


CoRR, vol. abs/1705.07874. URL http://arxiv.org/abs/1705.07874. 71, 72, 73

Molnar, C. 2019, Interpretable Machine Learning, https ://christophm.github.io/interpretable-


ml-book/. https://christophm.github.io/interpretable-ml-book/. 72, 73

Ribeiro, M. T., S. Singh et C. Guestrin. 2016, «"why should I trust you ?" : Explaining
the predictions of any classifier», dans Proceedings of the 22nd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August
13-17, 2016, p. 1135–1144. 71

Saabas, A. 2015, «Treeinterpreter», URL https://github.com/andosa/treeinterpreter.


71

Shapley, L. S. 1953, «A value for n-person games», dans Contributions to the Theory of
Games II, édité par H. W. Kuhn et A. W. Tucker, Princeton University Press, Princeton,
p. 307–317. 72

Shrikumar, A., P. Greenside et A. Kundaje. 2017, «Learning important features


through propagating activation differences», CoRR, vol. abs/1704.02685. URL http:
//arxiv.org/abs/1704.02685. 71

Vaughan, J., A. Sudjianto, E. Brahimi, J. Chen et V. N. Nair. 2018, «Explainable


Neural Networks based on Additive Index Models», URL https://arxiv.org/abs/1806.
01933. 70

77
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES

78
Conclusion

Dans ce mémoire , nous avons présenté la problématique de la tarification d’une garantie


de l’assurance multi-risque habitation, la garantie dégât des eaux. Nous avons explicité quel
devait être l’objectif d’un modèle de tarification selon 4 mesures : deux mesures classiques en
machine learning RM SE et M BE et deux mesures Equity1 et Equity2 propres à l’objectif
en tarification d’être équitable et sélectif. Sur cette base, nous avons construit le modèle
paramétrique classique de GLM selon les règles de l’art et nous avons développé 3 modèles
agnostiques challengers, une forêt aléatoire, un modèle XGBoost (dérivé des méthodes de
gradient boosting) et un modèle en réseau de neurones. Le développement de ces méthodes,
très en vogue dernièrement, nous a permis, pour chacun d’eux, de mener une réflexion poussée
sur la difficulté à les hyper-paramétrer et sur leur biais potentiels ou avérés.
Nous montrons que, finalement, le modèle GLM non seulement obtient de meilleurs ré-
sultats globalement, mais se montre également très robuste et moins sensible à un jeu de
données très asymétrique comparé à nos méthodes. En outre, nous exhibons deux comporte-
ments pathologiques qui disqualifient totalement nos modèles forêt aléatoire et XGBoost : En
effet, notre forêt aléatoire n’est pas équitable sur ses prédictions de mauvais risques (prédit
un coût annuel de sinistre beaucoup plus élevé que le réalisé). Elle sur-apprend localement
sur les observations extrêmes et seule une contrainte forte de régularisation sur la profondeur
maximale des arbres de la forêt vient corriger ce biais, ce, au prix de performances dégra-
dées sur les autres mesures. Notre modèle XGBoost quant à lui est moins inéquitable que
notre modèle de forêt aléatoire, mais prévoit des coûts de sinistre négatif avec une probabilité
strictement positive. Cela est inhérent à la méthode de descente du gradient et seule une
importante diminution de la vitesse d’apprentissage vient corriger le biais, ce, également au
prix de performances dégradées.

Au final, cette conclusion a déjà été partagée par d’autres : Les méthodes de machine
learning ne semblent apporter aucun bénéfice sur la tarification de la garantie dégât des
eaux (hormis probablement sur la modélisation du zonier, qui ne fait pas partie du cadre
de ce mémoire). De notre point de vue, l’introduction de ces méthodes génère également un
risque de modèle additionnel non négligeable : Là où l’évaluation d’un modèle classique peut
se faire globalement, selon un nombre restreint et bien connu de statistiques, l’évaluation
des modèles machine learning est beaucoup plus délicate. Comme nous l’avons identifié,
ces modèles peuvent sembler bons partout selon un ensemble d’indicateurs globaux, mais,
dans des régions très spécifiques, faire des prédictions totalement inacceptables au regard
de l’usage du modèle. De plus, l’identification de tels comportements est rendue d’autant
plus difficile que ces modèles sont de trop grande complexité pour qu’un humain puisse
les comprendre globalement. A ce titre, nous terminons notre mémoire en introduisant la
méthode d’interprétation locale SHAP et montrons comment elle nous sert à rejeter l’une de
nos hypothèses quant à la cause sous-jacente du biais dans notre modèle de forêt aléatoire.

79

Vous aimerez peut-être aussi