Académique Documents
Professionnel Documents
Culture Documents
Diane Li
Jean-Baptiste Debard
le 30 septembre 2019
Société Générale
Audit Interne - Risques de Modèles
17 cours Valmy, 92800 Puteaux, France
ii
Résumé
En effet, les banques et compagnies d’assurance exercent leur activité dans un cadre ju-
ridique contraint et doivent, entre autres, avoir mis en place un dispositif de contrôle et de
validation afin de mesurer et mitiger le risque associé aux modèles qu’elles utilisent. Aujour-
d’hui, pour la majorité des établissements bancaires, ce dispositif suit la réglementation US
au travers de la lettre SR 11-7 et l’ACPR avance dans cette direction également dans sa
supervision des compagnies d’assurance. Si cette gouvernance pose de bonnes bases, elle est
en revanche insuffisante au regard des sources de risques associées à cette nouvelle famille de
modèles. En particulier, parmi les risques nouvellement introduits, l’interprétabilité de ces
modèles black-box et le contrôle de leurs biais constituent les plus grands défis.
L’objectif de ce mémoire est donc double. Dans un premier temps, nous cherchons à éva-
luer l’apport des méthodes de machine learning dans la tarification d’une garantie d’assurance
Multi-risque Habitation. Nous présentons donc trois méthodes d’apprentissage avancées très
populaires (Forêt Aléatoire, Gradient Boosting et perceptron multicouche via Tensorflow) et
les comparons avec l’approche classique en GLM. Dans un second temps, nous menons une
réflexion sur notre capacité à interpréter et par la même à contrôler ces modèles, notamment
à l’aide des méthodes d’interprétation locales développées tout dernièrement LIME et SHAP.
Sans anticiper sur les conclusions, les résultats obtenus ne remettent pas en cause l’ap-
proche classique. C’est un constat déjà formulé par d’autres : les approches avancées semblent
avoir de bon résultats pour les garanties automobile, mais n’ont, jusqu’ici, apporté aucun bé-
néfice sur les garanties Multi-risque Habitation type dégât des eaux. En revanche, cette étude
nous permettra de nous plonger dans le détail de ces méthodes, d’en comprendre les avan-
tages, les biais et les limites d’un point de vue conceptuel. Elle nous permettra également
de nous poser les bonnes questions sur l’objectif d’un modèle de tarification et comment le
mesurer. Enfin, elle nous permettra d’initier une réflexion sur l’interprétation de ces modèles,
notamment deux dont les comportements nous sont apparus pathologiques, dans le but de
nous assurer qu’un processus de contrôle de leurs risques peut être déployé à l’occasion de
leur développement.
iii
iv
Abstract
Machine learning models are about to deeply transform the industry of banking and
insurance, far beyond already known applications (loan granting, pricing of garanties, risk
measures or client targeting). These approaches become predominant as they show unde-
niable performence gains with regard to conventional approaches for many applications and
allows one to explore new usages. They however generate a new complexity in their control
and increase model risk.
Indeed, banks and insurance companies operate within a strict legal framework and need
to set up control and validation processes in order to measure and mitigate the risks on mo-
dels they use. Currently, a majority of banks follow the US regulation whose guidelines are
detailed in the letter SR 11-7 and the french regulator is pushing toward this direction as well
in its supervision of insurance companies. If this governance set sound basis, it is however
insufficient to adress the new sources of model risks induced by this family of models. In
particular, among risks newly introduced by machine learning approaches, the interpretabi-
lity of these black-box models and the control of their potential biases are the main challenges.
With these issue in background, the objective of our thesis is twofold. In a first part, we
try to evaluate the gains brought by machine learning models in pricing a guarantee of the
housing insurance. We present 3 very popular challengers, a Random Forest, XGBoost (a
derivative of gradient boosting) and a Tensorflow Multilayer Perceptron and compare them
with the commonly-used GLM approach. In a second part, we develop our capacity for analy-
sing such machine learning black box models, through local interpretation approaches LIME
and SHAP, with, the perspective of assessing whether an appropriate control framework can
be set up when such models are developped.
Without anticipating to much on conclusions, the results we obtained do not put into
question the classical GLM approach. This finding is not new, others noticed it before : If
machine learning models seem to have added value on the ratemaking of auto insurance,
they perform poorly on the ratemaking of guarantees such as claims due to water leakages.
However, our study is the opportunity of a sane deep dive into these models, their advantages,
drawbacks and bias, especially in the context of ratemaking for insurance policies. As such,
we present what are the objectives of ratemaking and from it, derive metrics to measure
model performances especially fitted for ratemaking. Finally, we initiate a reflexion on the
interpretation of these black-box models through two of them whose behaviors were shown
to be inacceptable from a ratemaking point of view.
v
vi
Table des matières
1 Introduction 1
1.1 Objectif et Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Préparation et Exploration des Données . . . . . . . . . . . . . . . . . . . . . 8
1.3 Evaluation des Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
vii
TABLE DES MATIÈRES
viii
Liste des figures
1.1 Nouvelles sources de risque introduites par les modèles de machine learning . 2
1.2 Analyse de la fréquence moyenne (à gauche) et du coût moyen (à droite) . . . 10
1.3 Fréquence moyenne par nombre de pièces avant et après regroupement de
modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Coût moyen par nombre de pièces avant et après regroupement de modalités 11
1.5 V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Exemple élémentaire d’un arbre de décision pour prédire le défaut d’un client 34
3.2 Forêt aléatoire sous Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 MSE en fonction du nombre d’arbres et du nombre de variables considérées
sur jeu de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’en-
traînement (à gauche) et de test (à droite) . . . . . . . . . . . . . . . . . . . . 41
3.5 Moyenne prédite vs réelle du modèle direct par modalités de la variable STATUTxETAGE 44
3.6 Moyenne prédite vs réelle du modèle direct par modalités de la variable NB_-
PIECES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Moyenne prédite vs réelle du modèle direct par modalités de la variable ZONE 44
ix
LISTE DES FIGURES
x
Liste des tableaux
xi
LISTE DES TABLEAUX
xii
Chapitre 1
Introduction
Sommaire
1.1 Objectif et Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Contexte - Le Risque de Modèle . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Objectif de l’étude et Organisation du Mémoire . . . . . . . . . . . . 3
1.1.3 Tarification d’un contrat Multi-Risque Habitation . . . . . . . . . . 3
1.1.4 Structure d’une prime . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.5 Définition de la prime pure . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.6 Assurance Multirisque Habitation . . . . . . . . . . . . . . . . . . . 6
1.2 Préparation et Exploration des Données . . . . . . . . . . . . . . 8
1.2.1 Présentation des Données Utilisées . . . . . . . . . . . . . . . . . . . 8
1.2.2 Bruitage de la base de données . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Analyses de Données . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Regroupement, Croisement et Encodage des Variables . . . . . . . . 12
1.3 Evaluation des Performances . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Echantillonage en un jeu d’entraînement et un jeu de test . . . . . . 13
1.3.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1
CHAPITRE 1. INTRODUCTION
En effet, les banques et compagnies d’assurance exercent leur activité dans un cadre ju-
ridique contraint et doivent, entre autres, avoir mis en place un dispositif de contrôle et de
validation afin de mesurer et mitiger le risque associé aux modèles qu’elles utilisent. Aujour-
d’hui, pour la majorité des établissements bancaires, ce dispositif suit la réglementation US
au travers de la lettre SR 11-7 US-Federal-Reserve [2011] et l’ACPR avance dans cette
direction également dans sa supervision des compagnies d’assurance. Si cette gouvernance
pose de bonnes bases, elle est en revanche insuffisante au regard des sources de risques asso-
ciées à cette nouvelle famille de modèles (figure 1.1 - source McKinsey et collab. [2019]). En
particulier, parmi les risques nouvellement introduits, l’interprétabilité de ces modèles black-
box et le contrôle de leurs biais et de leurs feature engineering 1 constituent les plus grand défi.
Figure 1.1 – Nouvelles sources de risque introduites par les modèles de machine learning
Consciente de cette tendance de fond, l’équipe responsable de l’audit interne sur le risque
de modèle, dont nous faisons partie, cherche à se doter des outils adéquats et à structurer
son approche pour faire face à ces nouveaux risques. C’est dans ce cadre que s’inscrit notre
mémoire.
1. feature engineering : procédé de transformation des données en entrée, comme l’encodage d’un variable
catégorique en variables binaires pour en donner l’exemple le plus simple, mais aussi la transformation d’un
texte ou d’une image en tenseurs. . .
2
CHAPITRE 1. INTRODUCTION
3
CHAPITRE 1. INTRODUCTION
Asymétrie d’information
L’asymétrie de l’information décrit une relation d’échange dans laquelle les agents éco-
nomiques ne disposent pas de la même information. C’est le cas de la plupart des marchés.
L’une des première analyse sur l’asymétrie d’information en Assurance a été présentée par
le Prix Nobel K.J. Arrow ( Arrow [1963]) soulignant notamment que l’une des limites de
l’assurance est l’impossibilité de séparer l’évènement assuré de l’individu qui en a le contrôle.
En assurance dommages, l’asymétrie d’information entre l’assureur et l’assuré se manifeste
par l’anti-sélection et l’aléa moral.
L’anti-sélection est un phénomène qui se déclare à la souscription d’un contrat. L’assuré
dispose plus d’informations que l’assureur sur la probabilité de survenance d’un sinistre.
4
CHAPITRE 1. INTRODUCTION
L’assureur n’est pas capable de distinguer les différents degrés de risque et doit proposer une
prime moyenne unique à des individus hétérogènes. Par conséquent, les bon risques, c’est-à-
dire les assurés avec un faible degré de risque subventionnent les mauvais risques et trouveront
la prime moyenne trop élevée par rapport au risque individuel encouru. Ils sont plus incités
à aller vers un assureur dont la prime moyenne est plus faible (avec plus de bon risques dans
son portefeuille).
Ce phénomène souligne ainsi l’importance d’une bonne segmentation en tarification per-
mettant de maintenir un cercle vertueux dans lequel chaque type d’assurés paie une prime
adaptée à leur risque encouru. Un autre moyen dont l’assureur dispose pour inciter les assu-
rés à révéler leur degré de risque est la franchise. L’assureur propose souvent 2 niveaux de
contrats, un avec une prime plus faible et une franchise plus élevée, un autre avec une prime
plus élevée et une franchise plus faible. Naturellement, les bon risques ont plus tendance à
choisir une prime faible et les mauvais risques préfèrent une franchise plus faible.
L’aléa moral ou comportement caché se manifeste après la souscription et décrit l’influence
du contrat d’assurance sur le comportement de l’assuré. En effet, lorsqu’une personne est
assurée, son comportement de prévention et de prudence est influencé par la couverture
d’assurance, qui a pour effet d’accroître l’exposition au risque. En assurance multirisque
habitation par exemple, un individu ayant souscrit à une garantie Vol aura moins tendance
à investir sur un système d’alarme ou une porte blindée.
j=1
Ce modèle, appelé modèle collectif, montre bien que la prime pure est le produit entre la
fréquence moyenne E[N ] et le coût moyen de sinistre E[S].
Nous pouvons remarquer que les hypothèses centrales sur lesquelles est construit le modèle
collectif sont à priori très fortes. En effet :
• L’indépendance entre les coûts de sinistres n’est pas toujours vérifiée dans la réalité : les
évolutions réglementaires, juridiques ou technologiques peuvent conduire à une tendance
globale sur le coût de sinistre. En assurance automobile par exemple, une limitation de
vitesse plus stricte peut conduire à une réduction globale du coût de sinistre.
• De même, l’hypothèse de stationnarité n’est pas vérifiée si la période de temps considé-
rée est longue. En effet, les coûts de sinistres observés varient en raison de l’inflation,
ou encore de la généralisation du High-Tech (ordinateurs portables, smartphone, ta-
blette. . . ). Dans la pratique, un taux d’actualisation peut être appliqué pour réduire
l’effet du temps, notamment lorsque des observations plus anciennes sont utilisées.
• L’indépendance entre les coûts de sinistres et la fréquence est vérifiée uniquement s’il
s’agit d’un portefeuille totalement homogène. En réalité, l’assureur découpe son porte-
feuille pour former des sous-groupes aussi homogènes que possible à travers la segmen-
tation tarifaire.
5
CHAPITRE 1. INTRODUCTION
Segmentation du risque
La tarification d’un produit repose sur la segmentation du risque à partir des critères
objectifs. Ces critères sont construits à partir des informations dont l’assureur dispose pour
estimer le niveau de risque à couvrir. Certains critères sont relatifs aux caractéristiques du
bien à assurer, tels que :
• Type de bien : maison, appartement. Ici nous excluons tout local à usage commer-
cial ou professionnel, qui sont généralement couvert par un autre type d’assurance :
multirisque professionnel
• Surface du bien et le nombre de pièces : l’assurer définit souvent des règles précises
pour compter le nombre de pièces : lorsqu’une pièce dépasse un seuil en surface, elle
est comptée pour 2 pièces. Ce seuil est fixé par l’assureur et unique pour tout type de
contrat Habitation, il est souvent de 30m2 , 40m2 , ou 50m2 .
• Etage : s’il s’agit d’un appartement, l’étage dans lequel se situe le bien est une infor-
mation importante. En effet, un logement au rez-de-chaussée est plus exposé au risque
de vol.
• Nombre de jours où le logement n’est pas habité : moins le logement est occupé,
plus il est exposé au risque de vol. Généralement, une règle est précisée pour le comptage
du nombre de jours d’absence : par exemple, seules les absences de plus de 4 jours
consécutifs sont comptées, ce qui permet d’exclure les absences usuelles en week-end.
• Zone géographique : l’adresse exacte du logement est généralement convertie en zone
géographique permettant de segmenter le risque.
• Type de chauffage : éléctrique, au gaz, chauffage collectif...etc
• Présence de cheminée à foyer fermé, un insert ou un poêle : en cas de présence
de ces éléments, le risque d’incendie est plus élevé.
• Année et matériaux de construction : le coût d’un sinistre, de types incendie ou
de catastrophe naturelle, peut être différent en fonction l’année de construction et les
matériaux utilisés (classique, écologique ou en bois)
6
CHAPITRE 1. INTRODUCTION
• Surface de dépendance : Une dépendance est un bâtiment qui n’a pas de commu-
nication directe avec le bâtiment principal, et qui n’est pas utilisé comme habitation.
Par exemple : un garage.
• Présence d’alarme reliée à un système de télésurveillance, de porte blindée, ou de
serrure 3 points : ces éléments permettant de réduire le risque de vol
• Présence de piscine, spa ou jacuzzi : des garanties spécifiques peuvent être proposées
pour couvrir ces risques.
7
CHAPITRE 1. INTRODUCTION
Remarque : il est important de noter que si chaque assureur collecte sensiblement les
mêmes informations lors de la souscription d’un contrat, tous les critères présentés précédem-
ment ne sont pas retenus dans la base de données pour la modélisation. De plus, certains
critères sont spécifiques à une garantie en particulier. Par exemple, il n’est pas utile de re-
tenir le type de chauffage d’un logement en tant que critère de segmentation pour le risque
Dégât des eaux. Nous reviendrons sur la disponibilité des critères dans la partie suivante sur
l’exploration de données.
8
CHAPITRE 1. INTRODUCTION
dans ce mémoire sont également applicables dans le cadre de la construction de zonier. Dans
la base de données utilisées, la variable zonier se décline en 23 modalités.
9
CHAPITRE 1. INTRODUCTION
police d’assurance en une seule ligne et de pondérer ces polices par leur "Année Risque", c’est
à dire leur durée (en année, base réel/365) dans notre échantillon d’observations.
Ainsi, quelque soit le mode d’entraînement choisi pour nos modèles (pondéré ou non-pondéré),
toutes nos mesures de performances sont faites, in fine, sur des mesures pondérées en Année
Risque (AR), en ce qui concerne (i) les modèles de fréquence et (ii) les modèles de prédiction
directe du coût annuel. Nos mesures pour les modèles de coût moyen de sinistre sont, quant
à elles, pondérées par la fréquence observée de sinistre pour une police donnée.
Valeurs aberrantes A l’aide des analyses univariées sur la sinistralité, nous observons
le comportement de la fréquence et du coût moyen par modalité, pour toutes les variables
explicatives de la base de données. A titre d’exemple, nous présentons, figure 1.2, la fréquence
moyenne et le coût moyen sur la variable ANNEE_CONSTR.
10
CHAPITRE 1. INTRODUCTION
Figure 1.3 – Fréquence moyenne par nombre de pièces avant et après regroupement de modalités
Figure 1.4 – Coût moyen par nombre de pièces avant et après regroupement de modalités
11
CHAPITRE 1. INTRODUCTION
Nous observons également que la base des sinistres présente les caractéristiques suivantes :
• Montant moyen de sinistres : 1045 EUR
• Montant de sinistre au 95ème centile : 2451 EUR
• Nombre moyen de sinistre par contrat : 1,2 sinistres
Hormis quelques valeurs extrêmes mentionnées ci-dessus, le coût de sinistre en dégât des
eaux est relativement faible. Dans ce mémoire, nous nous concentrons donc sur la modélisation
des sinistres attritionnels et ne traitons pas la modélisation des sinistres graves.
Indépendance entre les variables Pour étudier le lien entre 2 variables qualitatives,
nous utilisons le V de Cramer 3 qui est basé sur le test de χ2 mais contrairement à ce dernier,
ne dépend pas de la taille de l’échantillon et du degré de liberté. Le V de Cramer "corrigé"
(cf. figure 1.5 ) permet d’analyser l’intensité de lien entre 2 variables et s’écrit de la manière
suivante : s s
χ2 χ2
V = =
N ∗ DDL N (k − 1)(l − 1)
Où N est la taille de l’échantillon, et k, l les nombres de modalités des 2 variables considérées
12
CHAPITRE 1. INTRODUCTION
Croisement
Certaines variables, très corrélées entre elles pour des raisons évidentes, ont été croisées
au sein d’une unique variable. C’est notamment le cas des variables de statut et d’étage de
l’habitation.
Encodage
Toutes ces variables catégorielles ont été encodées en binaire avant d’être données en
entrée des modèles qui le nécessitent, une variable à k modalités donnant lieu à k −1 variables
binaires afin d’éviter d’introduire des variables dépendantes. Le choix de la modalité à exclure
a été fait arbitrairement puisque, a priori, il n’aura aucune influence sur les performances des
modèles.
13
CHAPITRE 1. INTRODUCTION
bration des autres modèles a fait intervenir des méthodes de régularisation pour éviter le
sur-apprentissage et pour être plus rigoureux, il conviendrait d’isoler un jeu de validation
pour déterminer un critère de régularisation optimal.
Métriques d’Erreur
Sur un problème de régression comme le notre, les métriques usuelles d’estimation des
performances sont diverses suivant la nature et l’objectif du problème. Les plus employées
sont en revanche l’Erreur Moyenne Absolu (M AE), l’Erreur Carrée Moyenne (M SE) et la
Racine de l’Erreur Carrée Moyenne :
n
1
M AE(y, ŷ, w) = Pn
X
wj |yj − ŷj |
j=1 wj j=1
n
1
M SE(y, ŷ, w) = Pn wj (yj − ŷj )2
X
j=1 wj j=1
q
RM SE(y, ŷ, w) = M SE(y, ŷ, w)
M AE et RM SE ont l’avantage d’être comparables entre elles et avec la variable d’intérêt,
alors que MSE ne l’est pas. Elles prennent toutes leur valeurs dans [0, ∞) et sont indifférentes
au signe de l’erreur. La différence fondamentale entre ces mesures est que MSE et RMSE sur-
pondèrent les grosses erreurs par rapport à MAE. MSE et RMSE seront donc utilisées plus
particulièrement lorsque les grandes erreurs sont indésirables. Pour un échantillon équipon-
déré, on remarquera l’encadrement :
√
M AE ≤ RM SE ≤ nM AE
14
CHAPITRE 1. INTRODUCTION
variance totale expliquée par les données est inévitablement très faible, mais un R2 petit
ne signifie pas nécessairement un mauvais modèle. Par la suite, nous utiliserons la mesure
d’erreur RM SE, qui présente des caractéristiques intéressantes :
• Elle est minimale pour Ŷ = E[Y |X] où X est le vecteur aléatoire des variable explica-
tives.
• Un algorithme qui cherche à minimiser M
SE va hchercher simultanément à réduire
h i i2
le biais E Ŷ − E[Y |X] et la variance E Ŷ − E Ŷ de l’estimateur (cf. Dugas
et collab. [2003]).
Mesures d’Equité
Une mesure d’erreur seule n’est pas suffisante pour s’assurer des performances d’un modèle
de régression. En outre la mesure RM SE ne répond pas entièrement au critère d’équité. Nous
utilisons également comme mesure synthétique du critère d’équité la variance pondérée des
erreurs entre moyenne prédite et réalisée, (i) par modalité d’une liste prédéfinie de variables
explicatives et (ii) d’un découpage en k quantiles de la prédiction du modèle. Ces mesures
sont inspirées de celle proposée par Dugas et collab. [2003].
v
|L|
u
u
1 2
wj y¯j − ˆ¯yj
EquityL (y, ŷ, w, L) = t P|L| (1.1)
u X
j=1 wj j=1
avec, L l’ensemble des modalités d’une liste prédéfinie de variables explicatives pour
Equity1 et L l’ensemble des découpages en k quantiles de la prédiction du modèle pour
Equity2 .
On peut montrer que, en prenant L l’ensemble des sous échantillons, la mesure EquityL
est équivalente à la mesure M SE au sens où E[Y |X] est l’unique solution minimisant les
deux mesures. En revanche, les deux mesures ne sont pas équivalentes pour un ensemble
limité de sous-échantillons et la mesure Equity1 nous sera très importante pour évaluer si
nos modèles sont équitables selon une segmentation bien choisie dans un sens commercial
et Equity2 également, pour évaluer si nos modèles sont bien discriminants ; là où RM SE et
M AE seront quasi-inefficaces, comme nous le verrons par la suite (cf 4.5).
Autres Mesures
Nous nous appuyons également sur MBE comme mesure du biais global de nos modèles :
n
1
M BE(y, ŷ, w) = Pn wj (yj − ŷj )
X
j=1 wj j=1
Enfin, nous nous appuyons ponctuellement sur des mesures graphiques, qui nous per-
mettent de capter des détails sur la distribution prédite, les biais et les résidus.
(i) Distribution des résidus {abscisse : y, ordonnée : (y − ŷ)} ;
(ii) Distribution prédite vs distribution réelle {abscisse : a, ordonnée : P(ŷ < a) ∧ P(y < a)} ;
(iii) Moyenne et distribution prédite vs réelle par modalité de variable explicative. Cette
mesure est appelée Partial Dependence Plot et est une technique largement utilisée
pour l’interprétation des modèles de prédiction cf. chapitre 5.
15
CHAPITRE 1. INTRODUCTION
1.4 Références
Arrow, K. J. 1963, «Uncertainty and the welfare economics of medical care», The American
Economic Review, vol. 53. 4
16
Chapitre 2
Sommaire
2.1 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Composante aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Fonction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4 Estimation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.5 Mesure de la qualité du modèle et tests d’adéquation . . . . . . . . . 21
2.1.6 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Application sur la construction d’un modèle de tarification MRH 22
2.2.1 Construction du modèle de fréquence . . . . . . . . . . . . . . . . . . 22
2.2.2 Construction du modèle de coût moyen . . . . . . . . . . . . . . . . 26
2.2.3 Estimation de la prime pure . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Limites du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.2 Qualité de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.3 Capacité d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
17
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
2.1.1 Notation
Un modèle GLM est composé de 3 éléments :
• Une variable de réponse notée Y , composante aléatoire associée à une loi de probabilité,
il s’agit de la variable à prédire ;
• Une combinaison linéaire d’un p-uplet X = (X1 , ..., Xp ) de variables explicatives, appe-
lée prédicteur linéaire ou composante déterministe ;
• Une fonction de lien g, qui décrit la relation entre la composante déterministe et la
variable à prédire Y .
Loi normale
la loi normale N (µ, σ 2 ) a une densité de probabilité :
1 (y − µ)2 yµ − µ2 /2 1
" # " !#
y2
f (y|µ, σ) = √ exp − = exp − ∗ + ln(2πσ 2 )
σ 2π 2σ 2 σ2 2 σ2
Elle peut donc se mettre sous la forme décrite précédemment avec :
a(φ) = φ = σ 2
18
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
b(θ) = θ2 /2 et θ = µ
1
!
y2
c(y, σ) = ∗ + ln(2πσ 2 )
2 σ2
Loi de Poisson
Pour une loi de Poisson de paramètre λ, sa densité est :
λy
f (y|λ) = exp(−λ) = exp(y ∗ ln(λ) − λ − ln(λ!))
y!
a(φ) = φ = 1
c(y, φ) = −ln(λ!)
Loi Gamma
La densité d’une loi Gamma de moyenne µ et de variance r−1 s’écrit sous la forme :
r
f (y|µ, r) = 1
Γ(r)
r
µ y r−1 exp(− µr y), y ∈ R+
a(φ) = φ = r−1
19
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Dans le cas d’un modèle multiplicatif, la fonction de lien logarithmique est adéquate. On
a: p ! p
E[Y ] = exp β0 + =
X Y
βi Xi γi
i=1 i=1
i=1 i=1
a(φ)
yi θi − b(θi )
li (yi , θi , φ) = + c(yi , φ)
a(φ)
Nous cherchons les paramètres β = (β1 , .., βp ) qui correspondent au maximum de la log-
vraisemblance, c’est-à-dire :
n
β̂ = arg max ln(L(y, θ, φ)) = arg max li (yi , θi , φ)
X
β β i=1
Ceci revient à déterminer les paramètres tels que la dérivée première de la log-vraisemblance
soit nulle et la dérivée seconde négative.
En utilisant la régularité de la fonction exponentielle et la décomposition de la dérivée :
∂l ∂l ∂θi ∂µi ∂ηi
= , pour j ∈ {1, ..., p}
∂βj ∂θi ∂µi ∂ηi ∂βj
i=1
V ar[Yi ] ∂ηi
On remarque ici que µi est inconnue et dépend du paramètre à estimer β. En effet, l’équa-
tion n’admet pas de solution explicite. Dans la pratique, les logiciels usuels de modélisation
(R, SAS, Python) utilisent une méthode itérative telle que l’algorithme de Newton-Raphson
20
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
pour résoudre les équations non linéaires. L’algorithme de Newton Raphson permet de trou-
ver une approximation de la variable x qui réalise f (x) = 0, avec f : R → R. La solution
itérative s’écrit :
f (xk )
xk+1 = xk − 0
f (xk )
D’autres méthodes itératives communément utilisées pour résoudre les systèmes d’équa-
tions non linéaires sont les algorithmes de Ficher Scoring (appelé aussi Iteratively Reweighted
Least Squares) et de Brent (communément utilisé en finance de marché pour calibrer les mo-
dèles de pricing). Selon la littérature, l’algorithme du Ficher Scoring est plus robuste que
Newton-Raphson, et arrive parfois à converger quand Newton Raphson échoue. Dans le cas
d’une loi de Poisson avec lien logarithmique, les deux algorithmes Newton et Ficher sont
identiques.
Un des critères possibles pour mesurer la qualité d’ajustement d’un modèle GLM est la
déviance. Cette mesure consiste à comparer le modèle considéré avec un modèle dit saturé.
Un modèle saturé ajuste exactement toutes les valeurs de Y . Il a donc autant de paramètres
que d’observations. La déviance est définie par :
Lsat
D = 2φ (ln(Lsat ) − ln(L)) = 2φln
L
Où :
• Lsat est la vraisemblance du modèle saturé
• L est la vraisemblance du modèle auquel on s’intéresse
• φ le paramètre de dispersion
Lsat
D∗ = D/φ = 2ln( )
L
Test de déviance
21
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Test de Wald
Le test de Wald permet de tester la significativité des coefficients β. Nous posons les
hypothèses suivantes :
• H0 : βj = 0
• H1 : βj 6= 0
βˆ
Sous H0 , Z = σˆjj suit approximativement une loi normale N(0, 1)
C’est le test qui est utilisé dans le modèle GLM de la librairie statsmodel que nous avons
utilisée sous Python.
Ce critère choisira un modèle plus parcimonieux que le critère AIC puisqu’il pénalise plus
le nombre de paramètres présents dans le modèle. De même qu’AIC, entre 2 modèles, nous
choisissons le modèle avec le plus faible BIC.
22
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Choix de la loi
La fréquence du sinistre est généralement modélisée par une loi de Poisson ou par une loi
Binomiale Négative (Denuit et Charpentier [2014]) :
• La loi de Poisson est adaptée si l’espérance empirique de Y est proche de la variance.
C’est la loi choisie dans la plupart des modèles de fréquence pour la tarification MRH.
• La loi Binomiale Négative est adaptée aux données sur-dispersées par rapport à la loi
de Poisson, c’est-à-dire si la variance empirique de Y est supérieure à l’espérance.
Construction
Compte tenu du nombre relativement faible de variables disponibles dans la base de
données utilisée, nous avons choisi de construire un premier modèle complet avec l’ensemble
des variables utilisables. La sélection des variables significatives se fera dans un deuxième
temps, en appliquant une procédure de type Backward. Cette méthode est similaire à l’analyse
du Type 3 sous SAS ou au test Backward sous R, qui consiste à tester la significativité des
variables en comparant le modèle complet avec le modèle contenant toutes les variables sauf
celle testée.
Tableau 2.1 – Liste des variables explicatives disponibles
Nous fixons pour chaque variable la modalité la plus exposée comme modalité de référence.
Cette modalité de référence aura donc un coefficient nul.
L’analyse de données présentée dans la section précédente a permis de montrer que cer-
taines variables sont fortement corrélées entre elles, c’est le cas des variables Statut et Etage.
Nous choisissons de de regrouper ces 2 variables en 1 seule : d’où la variable StatutxEtage.
C’est ce choix qui est retenu pour tous les modèles présentés dans ce mémoire.
L’estimation des coefficients est réalisée à l’aide de la fonction glm dans le package
statsmodels.formula.api sous Python. Le code utilisé est présenté figure 2.1 :
Ce premier modèle nous a permis d’identifier des variables a priori non significative : la
variable indiquant le montant d’objets usuels.
A partir de ce modèle et des statistiques obtenues, nous avons cherché à construire des
modèles avec moins de paramètres en commençant par la variable la moins significative
(dans ce modèle, il s’agit de la variable indiquant le montant des objets de valeurs).
23
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Le modèle de fréquence finalement retenu contient les variables présentées en tableau 2.2.
La sortie du GLM est présentée figure 2.2.
24
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
25
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Figure 2.3 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable
STATUTxETAGE
Figure 2.4 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable ZONE
Nous implémentons dans cette partie un modèle de coût moyen par sinistre.
Le coût moyen d’un sinistre est généralement modélisé par une loi Gamma, avec une
fonction de lien logarithmique. Le modèle de coût moyen est construit sur la base de données
des polices avec un coût de sinistre non nul. La procédure de construction est similaire à celle
du modèle de fréquence présenté précédemment.
26
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Figure 2.5 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable NB_PIECES
Figure 2.6 – Moyenne prédite vs réelle du modèle de fréquence par modalités de la variable ANNEE
DE CONSTRUCTION
27
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Modèle retenu
Les variables retenues sont présentées dans le tableau 2.4.
Tableau 2.4 – Liste des variables retenues dans le modèle de coût moyen
Nous vérifions la qualité d’ajustement du modèle de coût moyen sur le tableau 2.5.
Pour le modèle de coût moyen, le paramètre de dispersion φ est estimé à 4,3. En comparant
la déviance standardisée avec le degré de liberté, le ratio est de 0,19, bien inférieur à 1, ce
qui permet de confirmer la qualité d’ajustement du modèle.
En terme de test statistique, nous constatons que certains paramètres sont rejetés. Une des
solutions possibles est de continuer le regroupement de modalités jusqu’à ce que l’ensemble
des variables conservées conduise à rejeter l’hypothèse H0 : βi = 0 avec une probabilité
inférieure à un seuil. Cependant, nous avons choisi de nous arrêter au modèle qui contient
l’ensemble des modalités sans regroupement pour les variables ZONE, STATUT x ETAGE et
Nombre de pièces, traduisant la volonté de différentiation tarifaire selon certaines variables
d’un point de vue commercial.
Nous comparons maintenant le coût moyen observé par modalité au coût moyen estimé
(cf. figure 2.7).
28
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Figure 2.7 – Moyenne prédite vs réelle du modèle de coût moyen par modalité de variable, sur le jeu
d’entraînement (à gauche) et de test (à droit)
29
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
Figure 2.8 – Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’entraînement
(à gauche) et de test (à droit)
30
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
• Equity2 = 0.13
Remarque : il est également possible de construire un modèle global de prime pure direc-
tement sans passer par la fréquence et le coût moyen, à l’aide de la loi Tweedie qui peut être
vue comme un modèle Poisson composé. (Denuit et Charpentier [2014]).
2.4 Références
Addactis-Worldwide. Novembre 2013, Addactis Pricing Documentation Technique, Ad-
dactis Pricing. 20
31
CHAPITRE 2. MODÈLE LINÉAIRE GÉNÉRALISÉ (GLM)
32
Chapitre 3
Sommaire
3.1 Les Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.1 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.2 Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.3 Implémentation et résultats . . . . . . . . . . . . . . . . . . . . . . 38
3.1.4 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1.5 Code et Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Stochastic Gradient Boosting . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Implémentation et Résultats . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
33
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
L’idée sous-jacente au machine learning est de prédire sur la base de l’expérience tirée
sur des données fournies. Il s’agit d’une approche non-paramétrique, qui ne nécessite pas
d’hypothèse sur la distribution des données à expliquer. L’unique hypothèse imposée est le fait
que les données à prédire sont générées de façon identique et indépendante par un processus
P à partir des variables explicatives (Paglia et Phelippe-Guinvarc’h [2011]). Il existe une
multitude de modèles permettant de répondre aux différents objectifs de modélisation. Dans
ce mémoire, nous allons nous intéresser aux trois méthodes qui ont eu le plus de succès parmi
les méthodes d’apprentissage, et qui sont, a priori, adaptées à la tarification en assurance :
• Random Forest
• Gradient Boosting
• Réseau de neurones (dans le chapitre suivant)
Figure 3.1 – Exemple élémentaire d’un arbre de décision pour prédire le défaut d’un client
34
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
• La division s’arrête lorsque le noeud est pur d’un point de vue de la variable à prédire :
c’est-à-dire toutes les observations sont en défaut ou saine, il n’y a plus de contre-
exemple à prédire. Chaque extremité de l’arbre est alors appelée noeud terminal ou
feuille.
A travers cet exemple élémentaire, nous constatons qu’un arbre de décision nécessite 3
composantes (?) :
• un critère de séparation permettant de sélectionner la meilleure division parmi toutes
les possibilités pour les différentes variables ;
• une règle d’arrêt pour décider si un nœud est terminal
• une règle pour affecter chaque feuille à une classe ou une valeur de la variable à expliquer
Suite aux premiers travaux de construction d’arbres qui ont commencé en 1963 sur des
problèmes de régression par Morgan et Sonquist, de nombreux algorithmes de construction
ont vu le jour. Nous pouvons citer parmi les plus réputés la méthode CHAID (Kass [1980])
qui permet de construire des arbres de décision non binaires et qui est particulièrement
adaptée à l’analyse de données volumnineuses, la méthode ID3 (Iterative Dichotomiser 3)
et ses successeurs C4.5(1993) et C5.0(1998) développés par Quinlan, ainsi que la méthode
que nous allons présenter dans ce mémoire : la méthode CART (Classification and regresssion
Tree) introduite par Breiman et collab. [1984], puisqu’elle est la méthode sous-jacente utilisée
pour construire les Forêts Aléatoires. Le lecteur pourra se référer à Singh et Gupta [July
2014] et Berk [2006] pour plus de détails sur les différentes méthodes.
L’algorithme CART consiste à construire un arbre optimal en 2 étapes (cf. ?) :
(i) construction d’un arbre maximal à partir d’une base d’apprentissage
(ii) élagage : simplification de l’arbre afin de supprimer les noeuds sans signification statis-
tique
35
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
réalisée. Il s’agit alors d’un modèle très instable avec une variance élevée. C’est pour cette
raison qu’une phase d’élagage est nécessaire (il s’agit d’une forme de régularisation).
Élagage
La phase d’élagage, consiste à construire une suite emboîtée de sous-arbres de l’arbre
maximal et choisir parmi cette suite l’arbre optimal(Besse [2006]).
Soit Tmax , l’arbre maximal. En notant l’erreur d’ajustement R̂(T ) d’un sous-arbre T
élagué de Tm ax, on définit un critère qui pénalise l’erreur d’ajustement par la complexité de
l’arbre, et un paramètre de régularisation α :
Pour α = 0, c’est Tmax qui minimise critα (T ). En faisant croître α, un des sous-arbres Tj
devient superflu puisque sa division ne permet pas de réduire suffisamment l’erreur d’ajuste-
ment : Tj devient alors Tj−1 . On obtient ainsi une suite T1 ... ∈ TK−1 ∈ TK = Tmax d’arbres
emboîtés en remplaçant au fur et à mesure certains noeuds intermédiaires par des feuilles.
L’arbre optimal est ensuite déterminé à l’aide d’un jeu de validation (souvent une base de
modélisation se divise en un jeu d’entraînement, de validation et de test correspondant res-
pectivement à 70%, 20%, 10% des données ). L’arbre optimal est celui qui minimise l’erreur
d’ajustement sur le jeu de validation.
Bagging
Bagging consiste à construire une multitude d’arbres par la méthode CART et obtenir un
arbre "final" correspondant à la moyenne des arbres. Concrètement, la méthode bagging qui
peut se résumer par l’algorithme suivant : soit une base d’apprentissage avec n observations
et une variable de réponse :
(i) faire un tirage aléatoire de taille n avec remise à partir de la base d’apprentissage
(bootstrap)
(ii) constuire un arbre CART de taille maximale (sans élagage)
(iii) répéter les étapes 1 et 2 un grand nombre de fois pour former ainsi B arbres de taille
maximale, que l’on note (fˆ1 , ..., fˆB )
(iv) pour chaque profil :
• si la variable de réponse est discrète ou qualitative : compter le nombre de fois où
l’individu a été classé dans le profil parmi les B arbres, et déterminier le profil de
l’individu par vote à la majorité fˆbag = vote à la majorité[ ni=1 fˆk ]
P
36
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
L’un des avantages du bagging, par rapport à CART (donc un seul arbre) est le fait qu’en
agrégeant un grand nombre d’arbres, la méthode permet de réduire la variance de l’estimation.
En effet, la variance de l’estimation s’écrit :
B B
1 X 1
" # " #
V ar[fˆbag ] = V ar fˆk = 2 V ar fˆk
X
B k=1 B k=1
" B
B X
B B n
#
fˆk = Cov(fˆk , fˆl ) = σ 2 + ρσ 2 = Bσ 2 (1 + (B − 1)ρ)
X X X X
V ar
k=1 k=1 l=1 k=1 k=1, k6=l
d’où :
1−ρ
V ar[fˆbag ] = σ 2 (ρ + ), avec 0 < ρ < 1
B
Cette démonstration illustre à la fois le principal avantage et la limitation de bagging. En
effet, plus B est grand, plus 1−ρB est petit, l’agrégation permet en effet de réduire la variance
de l’estimation, par rapport à un arbre unique de type CART. Pour un B grand, la variance
tend vers σ 2 ρ. la réduction de variance est limitée si les arbres sont très corrélés ( ρ est grand).
C’est exactement le principe d’une forêt aléatoire, qui permet de s’affranchir de cette limite
dans la réduction de variance, en diminuant la correlation entre les arbres, sans augmenter
significativement leur variance.
Forêt Aléatoire
L’algorithme des Forêts Aléatoires est construit sur la base de la méthode bagging, en
introduisant de l’aléa dans la construction des arbres. Plusieurs sources d’aléa ont été testées
mais la méthode de Breiman (RF-RI) s’est imposée comme la méthode RF (Random Forest)
par excellence.
L’algorithme des forêts aléatoires peut s’écrire de la manière suivante : Soit une base
d’apprentissage avec n observations et une variable de réponse :
(i) Tirer B échantillons Bootstrap de taille n (de la même manière que Bagging )
(ii) Pour chaque échantillon, construire une variante de CART et qui consiste à :
• sélectionner aléatoirement, avant chaque division de noeud, un petit nombre m de
variables parmi les p variables disponibles
• choisir la variable la plus adéquate parmi les m "candidates" pour la division
On obtient ainsi B arbres de taille maximale, que l’on note (fˆ1∗ , ..., fˆB∗ ). Pour chaque
profil :
• si la variable de réponse est discrète ou qualitative : compter le nombre de fois où
l’individu a été classé dans le profil parmi les B arbres, et déterminer le profil de
l’individu par vote à la majorité
• si la variable de réponse est continue : faire la moyenne des estimations données par les
B arbres
√
Dans la pratique, il est préconisé de commencer par une valeur de m égale à p pour un
problème de classification, ou de p/3 pour une régression.
37
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Erreur Out-of-bag
L’algorithme des forêts aléatoires propose une estimation de l’écart de prédiction appelé
Taux d’erreur Out-of-bag. En effet, dans chaque échantillon construit par bootstrap, certaines
observations sont tirées plusieurs fois, d’autres sont laissées de côté. Ce sont ces observations
en dehors du boostraps qui sont utilisées pour estimer l’erreur, d’où la notion Out-of-bag
pour Out of bagging. Nous présentons cet estimateur dans le cadre des Forêts aléatoires, mais
l’estimateur Out of Bag est valable pour tout algorithme de type bagging. Soit (X, Y ) un
vecteur aléatoire où X est à valeurs dans Rp et Y dans R. On note Dn = (X1 , Y1 ), ..., (Xn , Yn )
l’échantillon d’entraînement, les (Xi , Yi ) sont indépendants et identiquement distribués.
Soit une observation (Xi , Yi ), on désigne par Ib l’ensemble des boostraps qui n’utilisent
pas cette observation. La prévision de Yi en fonction de Xi est calculée en agrégeant sur Ib :
1 X ˆ∗
Ŷi = f (Xi )
|Ib | k∈I k
b
• en classification : OOB = n1 n
P
i=1 1Yˆi 6=Yi
Remarque : il s’agit d’une évaluation d’erreur sur un échantillon non utilisé pour l’ap-
prentissage de la forêt, de manière similaire à un échantillon de test.
38
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Dans la pratique, nous avons testé toutes ces méthodes et avec un grand nombre d’arbres,
sur notre jeu de données, les résultats sont similaires. Pour la présentation des résultats, nous
avons donc retenu la méthode one-hot-encoding, car elle nous a permis de comparer plus
aisément les interprétations des modèles Random Forest, XGBoost et Neural Network à
l’aide de SHAP en chapitre 5.
39
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Figure 3.3 – MSE en fonction du nombre d’arbres et du nombre de variables considérées sur jeu de
test
40
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Figure 3.4 – Coût annuel vs prime pure estimée par modalité de variable, sur le jeu d’entraînement
(à gauche) et de test (à droite) 41
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
k
2
42
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Résultats
Travaillant avec des forêts, nous sommes dans la même problématique qu’à la section pré-
cédente, concernant le feature engineering. Quelle que soit la méthode employée, nos résultats
sont malgré tout similaires.
Nous avons testé plusieurs configurations d’hyper-paramètres à l’aide d’une routine heu-
ristique. Au final, nous avons retenu la suivante :
• L = M SE
• Ω = régularisation L2 (pénalisation de l’erreur)
• K = 200 (nombre total d’arbres)
• ν = 0.08 (vitesse d’apprentissage)
• gamma = 1 (seuil minimal de réduction de l’erreur)
• subsample = 0.75 (taille des sous-échantillons d’observations pour chaque nouvelle
construction d’arbre)
• col_sample = 0.3 (taille des sous-échantillons de variables considérées pour chaque
nouvelle construction d’arbre)
• max_depth = 15 profondeur maximale des arbres construits
Les métriques de performance obtenues sur jeu de test sont données ci-dessous. Elle sont
très similaires aux résultats sur Forêt Aléatoire, en particulier, la mesure Equity2 est anor-
malement élevée. Nous verrons section 4.5 que notre forêt aléatoire et notre modèle XGBoost
sur-estiment significativement le coût annuel des mauvais risques.
• RM SE = 779
• M AE = 103
• M BE = 2
• Equity1 = 13%
• Equity2 = 5.6
En revanche, selon le découpage en modalités des variable explicatives, le modèle XGBoost
donne de bon résultats (figure 4.13 à 4.15).
1. split - operation de partage d’une région en deux
43
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
Figure 3.5 – Moyenne prédite vs réelle du modèle direct par modalités de la variable STATUTxETAGE
Figure 3.6 – Moyenne prédite vs réelle du modèle direct par modalités de la variable NB_PIECES
Figure 3.7 – Moyenne prédite vs réelle du modèle direct par modalités de la variable ZONE
44
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
3.3 Références
Berk, R. A. 2006, «An introduction to ensemble methods for data analysis», Sociological
Methods Research, vol. 34. 35
Chen, T. et C. Guestrin. 2016, «Xgboost : A scalable tree boosting system», CoRR, vol.
abs/1603.02754. URL http://arxiv.org/abs/1603.02754. 42, 43
Singh, S. et P. Gupta. July 2014, «Comparative study id3, cart and c4.5 decision tree algo-
rithm : a survey», International Journal of Advanced Information Science and Technology,
vol. 27. 35
45
CHAPITRE 3. FORÊTS ALÉATOIRES ET GRADIENT BOOSTING
46
Chapitre 4
Sommaire
4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 L’apprentissage supervisé via fonction de perte et backpropagation 49
4.2.1 Sensibilité de l’erreur aux paramètres des couches cachées . . . . . . 49
4.2.2 Algorithme d’entrainement . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3 Heuristiques pour améliorer l’apprentissage . . . . . . . . . . . . . . 51
4.2.4 Régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Avantages de la librairie TensorFlow . . . . . . . . . . . . . . . . . . 53
4.4 Résultats, performances et limitations . . . . . . . . . . . . . . . . 56
4.4.1 Modélisation séparée de la fréquence et de la perte . . . . . . . . . . 56
4.4.2 Modèle Combiné vs Modélisation Directe du Coût Annuel du Risque 60
4.5 Synthèse des performances de tous nos modèles . . . . . . . . . . 63
4.5.1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.5.2 Analyse des biais des modèles XGBoost et Random Forest . . . . . . 64
4.6 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
47
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
4.1 Definition
Les réseaux de neurones que nous présentons ici sont des structures de graphes orientés,
organisées en couches successives et pour lesquelles les liaisons se font toujours de la couche
précédente vers la couche suivante (pas de liaison en sens inverse, ni de liaison au sein d’une
même couche ni de liaison entre deux couches non successives). Les couches de neurones
entre la couche d’entrée et la couche de sortie sont appelées couches cachées. Nous nous
restreindrons aux réseaux perceptrons multicouches dans lesquels tous les nœuds de la couche
j sont reliés avec tous les nœuds de la couche j + 1 (dans le vocabulaire de la librairie Keras
4.3.1 on parlera de modèle sequential et de couches denses).
Comme représenté en figure 4.1, chaque vertex j de ce graphe est un neurone qui reçoit en
entrée un certain nombre de signaux xi retourne en sortie yj = f (netj ) où netj = di=1 xi wji +
P
Les réseaux de neurones ainsi définis peuvent en principe fournir la solution optimale de
n’importe quel problème de classification ou de régression. Plus spécifiquement, Kolmogorov
(cf. Kurkova [1992]) a démontré que n’importe quelle fonction continue g(x) définie sur
l’hypercube [0, 1]n peut être représenté sous la forme
2n+1 d
!
g(x) = ψij (xi )
X X
θj
j=1 i=1
48
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
pour des fonctions θj et ψij proprement choisies (et potentiellement différentes des fonctions
d’activation présentées figure 4.2). Cette équation peut être exprimée dans la terminologie
d’un réseau de neurones à 3 couches (une seule couche cachée) sous la forme suivante : Chacun
des 2n + 1 neurones de la couche cachée reçoit en entrée la somme de d fonctions non-linéaires
(une pour chaque entrée xi ). Chaque neurone j de la couche cachée émet alors une fonction
non-linéaire θj de ce qu’il reçoit. La sortie est alors la somme des contributions des neurones
de la couche cachée. Ce théorème souligne la puissance théorique des réseaux de neurones,
mais ne fournit pas de solution pratique aux problème de classification ou de régression. En
revanche, ces réseaux admettent des algorithmes d’apprentissage relativement simples qui en
font des modèles très puissants en pratique, sur un large spectre d’applications.
Où t et z sont respectivement les sorties cibles et et les sorties du réseau et w représente les
paramètres du réseau (Le facteur 12 est inclus par pure commodité lorsque la fonction d’erreur
devra être différenciée par la suite et sans influence aucune sur le résultat). Il existe d’autre
fonctions de perte possibles, dont on nommera deux alternatives : (i) les fonctions de type
cross entropy qui mesurent une distance entre deux distributions de probabilité. Il semblerait
que ces fonctions permettent un apprentissage plus performant car font apparaître moins de
plateaux que la fonction de coût quadratique classique (cf. Glorot et Bengio [2010]). (ii)
les fonctions erreur de type Minkowski error, qui permettent dans certains cas de réduire
l’influence des queues de distribution et ainsi d’ajuster le caractère "local" d’un classificateur
(cf. Duda et collab. [2000]).
49
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
∂J ∂J ∂yk ∂netk
= , (Chain F ormula) (4.3)
∂wkj ∂yk ∂netk ∂wkj
avec :
n
!
∂netk ∂
= wki yi∗ = yjinf (4.4)
X
∂wkj ∂wkj i=1
∂yk
= f 0 (netk ) (4.5)
∂netk
L’équation 4.5 souligne l’importance d’utiliser des fonction d’activation très rapidement
différentiables comme celles exposées figure 4.2.
Finalement ∂y∂J
k
est évaluée de manière récursive, en supposant que les dérivées des neu-
∂yksup
rones des couches supérieures ∂J
∂yksup
et ∂wik sont connues :
∂J ∂yisup
!
∂J
= (4.6)
X
wik
∂yk i∈L
∂yisup ∂neti
Dans l’algorithme (2) ci-dessus , le jeu d’entraînement est utilisé observation par obser-
vation et chacune des observation est tirée du jeu de manière aléatoire avec remise. Dans
l’algorithme (3), le jeu d’entraînement est traité en batch et toutes les observations sont utili-
sées une et une seule fois par epoch afin de mettre à jour les paramètre wkj . Le critère d’arrêt
est tel que l’algorithme s’arrête lorsque le changement sur la fonction de coût J(w) est in-
férieur à une valeur θ prédéfinie. Si ce critère est simple, il n’est pas le meilleur et d’autres
seront vus ultérieurement qui donnent de meilleures performances.
50
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
12: w ← w + ∆w
return w
Dans la pratique, pour les réseaux profonds dont les données d’entrée peuvent être de très
grande taille, l’algorithme utilisé est un hybride issu des deux algorithmes présentés où la
méthode stochastic backpropagation est appliquée sur des mini-batch. D’autres améliorations
ont été apportées sur la base de cette algorithme. On citera en particulier l’algorithme Adam
(Kingma et Ba [2014]), dans lequel les moyennes glissantes du gradient de la fonction de perte
∇J et de son carré (∇J)2 sont utilisées afin d’adapter la vitesse d’apprentissage de chaque
paramètre en particulier selon le principe que plus la variance glissante (approximée par la
moyenne glissante des (∇J)2 ) est grande, plus petite doit être la vitesse d’apprentissage.
Figure 4.3 – Comparaison de la vitesse d’apprentissage - 350 epochs pour une descente de gradient
classique (bleu) vs 10 pour l’algorithme Adam (orange) sur le problème prédiction de l’intensité de
sinistre, pour le même réseau de neurones
51
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
4.2.4 Régularisation
Les petit réseaux de neurones ont une tendance à sous-apprendre alors que les gros ré-
seaux ont tendance à sur-apprendre sur l’échantillon d’apprentissage. En pratique nous ne
savons pas a priori quelles devraient être la taille et la structure du réseau pour un problème
donné. Une solution partielle au problème consiste à choisir un réseau relativement complexe
au regard du problème à résoudre afin qu’il soit performant sur l’échantillon d’apprentissage,
puis d’appliquer des stratégies de régularisation afin d’éviter le sur-apprentissage. La régu-
larisation vise ainsi à améliorer la généralisation d’un réseaux de neurones, autrement dit à
améliorer ses performances sur l’échantillon de test, potentiellement au prix d’une dégrada-
tion de ses performance sur l’échantillon d’entraînement. Nous présenterons ici trois stratégies
les plus classiques de régularisation. Pour d’avantage de détails, le lecteur pourra se référer à
Goodfellow et collab. [2016] qui fait une description très détaillée des différentes méthodes
de régularisation et leur fondements théoriques.
Régularisation L2
Les stratégies de régularisation les plus classiques consistent en l’ajout d’un facteur de
pénalisation à la fonction de coût afin de limiter certains développements du réseau non dé-
52
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
˜
∇J(w) = ∇J(w) + αw
Dans la phase d’apprentissage, cette pénalisation amène les poids du réseau à diminuer (weight
decay) selon les axes qui ont le moins d’influence sur la fonction de coût non-régularisée.
Régularisation L1
˜
J(w) = J(w) + αΩ(w)
˜
∇J(w) = ∇J(w) + αsign(w)
Régularisation Dropout
Enfin, la régularisation Dropout fait en sorte que le modèle ne s’appuie pas trop fortement
sur une sous-partie du réseau et tend à rendre le modèle robuste. C’est une stratégie de
régularisation très différente des précédentes, proche du bagging et qui consiste à aléatoirement
et itérativement désactiver une sous-partie du réseau pendant l’entrainement. Cette technique
force ainsi le réseau à apprendre plusieurs représentations des données de manière redondante
et en à en extraire des schémas plus généraux et robustes.
Optimisation hardware
53
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Keras
Keras Chollet et collab. [2015] est une couche d’abstraction supplémentaire permettant
de construire des réseaux de neurones sous forme de graphes TensorFlow et de les entraîner
très facilement. Un modèle de réseau de neurones avec un monitoring de l’apprentissage via
Tensorboard peut ainsi être défini et calibré en 23 lignes de code Python (cf. figure 4.5)
54
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.5 – Keras : définition d’un modèle de régression 3 couches denses (64, 64, 1), optimisation
via l’algorithme d’Adam 3 sur la fonction d’erreur MSE, entraînement sur 600 epochs de minibatchs
de 2048 observations pondérées, sortie sur Tensorboard pour la visualisation de l’apprentissage
55
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
56
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Modèles challengers Dans un but pédagogique, nous présentons ici 3 modèles challengers
pour la prédiction de l’intensité de sinistres, dont les définitions sont données en tableau 4.1.
La vitesse d’apprentissage des ces trois modèles est présentée en figure 4.6. Les graphiques
d’apprentissage nous apprennent que, globalement, les modèles apprennent très rapidement
(en environ une vingtaine d’epochs), l’optimisation étant faite à l’aide de l’algorithme Adam.
On constate que le modèle 1 optimise l’erreur M AE, il ne sera pas retenu car il ne fait quasi-
ment pas de différentiation entre bons et mauvais risques. Le modèle 2 tend à sur-apprendre,
la régularisation dropout sur le modèle 3 (courbe rouge) vient corriger cette tendance. C’est
le modèle 3 qui sera retenu.
Figure 4.6 – Vitesse d’entraînement des réseaux de neurones pour la prédiction de l’intensité de
sinistres sur 200 epochs (1. orange, 2. bleu, 3. rouge)
Tableau 4.2 – Performances des modèles challengers pour la prédiction de l’intensité de sinistre
Modèles RM SE M AE M BE
1 4345 641 -287
3 4330 695 -22
57
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.7 – Distributions prédites vs réelle pour les modèles 1 et 3 de prédiction d’intensité (tronquée
à 5000)
Modèles challengers Dans un but pédagogique, nous présentons ici 5 modèles challengers
pour la prédiction de la fréquence de sinistres, dont les définitions sont données en tableau 4.3.
La vitesse d’apprentissage des ces cinq modèles est présentée en figure 4.8. On remarquera,
sans surprise, que plus le modèle est complexe plus il a tendance à sur-apprendre (modèle 2
courbe bleu foncé, 3 courbe rouge). Le modèle 5 illustre la différence de vitesse de convergence
entre la descente de gradient classique et l’algorithme Adam. Enfin, les modèles apprenant
sur l’algorithme Adam calibrent très vite (dès le premier epoch) et, au delà, ou bien stagnent
ou bien sur-apprennent.
Tableau 4.4 – Performances des modèles challengers pour la prédiction de l’intensité de sinistre
Modèles RM SE M AE M BE
1 0.2258 0.0651 -0.0651
3 0.2133 0.1046 0.0013
58
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.8 – Vitesse d’entraînement des réseaux de neurones pour la prédiction de la fréquence de
sinistres sur 100 epochs
Figure 4.9 – Distributions prédite vs réelle pour le modèles 4 de prédiction de la fréquence annuelle
de sinistres
59
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Tableau 4.5 – Performances des modèles challengers pour la prédiction du coût annuel de sinistres
Modèles RM SE M AE M BE
combiné 774 105 7
direct 773 101 1
Figure 4.10 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable
STATUTxETAGE
60
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
(a) sur le jeu d’entraînement (b) sur le jeu de test (c) zoom sur le jeu de test
Figure 4.11 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable NB_PIECES
Figure 4.12 – Moyennes prédites vs réelles du modèle combiné par modalités de la variable ZONE
Figure 4.13 – Moyennes prédites vs réelles du modèle direct par modalités de la variable
STATUTxETAGE
61
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
(a) sur le jeu d’entraînement (b) sur le jeu de test (c) zoom sur le jeu de test
Figure 4.14 – Moyennes prédites vs réelles du modèle direct par modalités de la variable NB_PIECES
Figure 4.15 – Moyennes prédites vs réelles du modèle direct par modalités de la variable ZONE
62
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Tableau 4.6 – Synthèse des performances des différents modèles sur jeu de test
RM SE M AE M BE Equity1 Equity2
GLM 774 101 3 14% 0.13
RF 797 102 2 11% 21.3
XGBoost 779 103 2 13% 5.6
NN 773 101 1 19% 0.28
Figure 4.16 – Détail de la mesure Equity2 sur les différents modèles (sur jeu de test)
63
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.17 – Distribution du coût annuel de sinistres prédit par les 4 modèles sur le jeu d’entraîne-
ment (tronquée à 3000)
Figure 4.18 – Distribution du coût annuel de sinistres prédit par le modèle RF sur le jeu d’entraîne-
ment (non tronquée)
Enfin, pour compléter cette synthèse, la figure 4.19 illustre les écarts des 3 modèles chal-
lenger par rapport au modèle GLM de référence.
Les modèles XGBoost et RF ont donc manifestement sur-appris localement et nous ten-
tons maintenant d’en déterminer la cause.
64
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.19 – QQ plot des prédictions des 3 modèles challenger contre le modèle GLM
Random Forest
Au regard de la figure 4.16 et de la distribution des prédictions de RF sur le jeu de test
tableau 4.7, RF est très sensible aux valeurs extrêmes et a sur-appris dessus. En entraînant un
modèle RF sur données excluant les valeurs extrêmes (coût annuel > 10000), l’arbre obtenu
est cependant aussi peu équitable sur la mesure Equity2 , l’élimination des valeurs extrêmes
du jeu d’entraînement n’est donc pas une solution pour corriger le biais de ce modèle.
PERCENTILE VALUE
0 0
0.05 0
0.1 0
0.15 1.9
0.2 5.2
0.25 8.7
0.3 12.3
0.35 15.7
0.4 19.6
0.45 24.0
0.5 27.2
0.55 32.7
0.6 37.4
0.65 43.6
0.7 50.5
0.75 59.4
0.8 73.2
0.85 91.2
0.9 119.5
0.95 192.4
1 29228
Il est particulièrement étonnant que le modèle RF ait sur-appris, puisqu’il est un modèle
issu de la moyenne des contributions de 200 arbres. On peut en déduire que, localement,
ces 200 arbres sont fortement corrélés sur les grandes valeurs. Nous formulons 2 hypothèses
pouvant expliquer que les arbres sur-apprennent de manière corrélée :
(i) la longueur des arbres n’est pas limitée (arbres maximaux) et pourrait mener systéma-
tiquement les arbres à segmenter de manière trop granulaire sur les valeur extrêmes ;
65
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
(ii) nous sommes éventuellement tombé dans le piège de l’encodage binaire (one-hot enco-
ding) sans l’avoir détecté préalablement (cf. 3.1.4).
Nous avons testé ces deux hypothèses en observant les mesures de performances en fonc-
tion de la profondeur des arbres, (i) sur variables one-hot encoded (figure 4.20) et (ii) sur
variables mean-target encoded (figure 4.21). La première hypothèse se vérifie effectivement
sur nos graphiques. Il est plus difficile de conclure pour la seconde au vu des graphiques et
nous verrons au chapitre suivant comment le modèle d’interprétation SHAP nous permet
d’invalider cette hypothèse.
Au final, pour corriger ce biais, nous avons contraint la profondeur maximale des arbres
et dans ce cas, nos performances pour le modèle RF tombent au niveau de celles du réseau
de neurones. Le modèle RF ne nous paraît donc pas un modèle adapté à la tarification de
cette garantie, car il semble très mal s’accommoder de queues de distribution épaisses de la
distribution de la variable à prédire conditionnellement aux variables explicatives.
XGBoost
Nous avons une hypothèse expliquant pourquoi XGBoost prédit des valeurs de coût annuel
négatives : Les arbres au delà du premier ne calibrent pas sur les valeurs du coût annuel de
sinistre observé, mais sur l’erreur du modèle de l’itération précédente, avec l’erreur estimée
comme un gradient de la fonction de perte. Étant donné que le premier arbre est l’arbre à
une feuille renvoyant la moyenne (qui est très faible), si la vitesse d’apprentissage est trop
importante, la descente de gradient peut "envoyer" l’algorithme en territoire négatif.
Pour vérifier cette hypothèse nous divisons la vitesse d’apprentissage par 2, les résultats
en termes de performances sont exposés en tableau 4.8 et l’impact sur la distribution prédite
est présenté figure 4.22. Diminuer la vitesse d’apprentissage vient bien corriger le problème,
mais pour totalement éliminer ce biais, les performances du modèles XGBoost retombent au
niveau de celles du réseau de neurones.
66
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Figure 4.22 – Distribution de la prédiction du coût annuel de sinistre pour le modèle XGBoost avec
vitesse d’apprentissage de 0.08 (y_pred_bg) et 0.04 (y_pred_gb2)
67
CHAPITRE 4. APPROCHE PAR RÉSEAU DE NEURONES
Tableau 4.8 – Comparaison des performances du modèle XGBoost avec une vitesse d’apprentissage
à 0.08 et à 0.04
4.6 Références
Abadi, M., A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado,
A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving,
M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mané,
R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner,
I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viégas,
O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu et X. Zheng. 2015,
«TensorFlow : Large-scale machine learning on heterogeneous systems», URL https://
www.tensorflow.org/, software available from tensorflow.org. 53
Goodfellow, I., Y. Bengio et A. Courville. 2016, Deep Learning, MIT Press. http:
//www.deeplearningbook.org. 52
Kingma, D. P. et J. Ba. 2014, «Adam : A method for stochastic optimization», CoRR, vol.
abs/1412.6980. URL http://arxiv.org/abs/1412.6980. 51
68
Chapitre 5
Sommaire
5.1 Méthodes d’interprétation locale . . . . . . . . . . . . . . . . . . . 71
5.1.1 LIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.2 SHAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Approche adoptées . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.1 Interprétation Globale en Moyenne sur un Sous-Échantillon Repré-
sentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.2 Interprétation Locale Détaillée sur un Sous-Échantillon . . . . . . . 75
5.2.3 Étude du comportement du modèle RF sur les valeurs extrêmes . . . 75
5.3 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
69
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
Pour de nombreux problèmes, les méthodes d’apprentissage présentées aux chapitres pré-
cédents apportent de véritables gains de performances par rapport aux méthodes classiques
issues de la statistique inférentielle. En revanche, ces gains se font au détriment de la transpa-
rence des méthodes employées (cf. figure 5.1). A titre d’exemple, les forêts aléatoires que nous
avons utilisées sont composées d’environ 200 arbres de profondeur entre 20 et 30, soit, poten-
tiellement, environ 3 millions de nœuds 1 . Nos réseaux de neurones sont composés d’entre 50
et 60 unités sur la première couche cachée, 10 à la seconde, avec 50 à 60 variables en entrée,
soit entre 3000 et 4000 paramètres. Ces modèles ne sont pas interprétables directement par
un humain.
Pour autant, les contraintes en banque-assurance exigent non seulement que les modèles
soient performants, mais également interprétables et ceci à plusieurs titres :
• Pour des contraintes réglementaires, nous devons être capables de prouver que le modèle
ne s’appuie pas sur certaines données sensibles interdites (sexe, appartenance religieuse
ou ethnique). Il pourrait nous être demandé que le modèle soit neutre selon ces axes
également (sans se servir de la variable sexe, un modèle peut très bien contourner le
problème et discriminer selon d’autres critères très liés à cette variable).
• Pour des contraintes de validation de la conception, afin de s’assurer que le modèle
ne génère pas un risque inacceptable lorsqu’il est utilisé sur des données de nature
légèrement différentes. C’est l’idée derrière la question « what makes a cat a cat » :
Imaginons, à cause de la base de construction, que le modèle prédit un chat car l’image
représente un objet posé sur un canapé avec un fond blanc en arrière plan. Alors, il
existe un vrai risque d’erreur lorsque les données réelles représenterons d’autres réalités.
Nous devons être en mesure de comprendre et être en accord avec les caractéristiques
principales utilisées pour la prédiction (le fait d’avoir 4 pattes, une queue, des oreilles
pointues, des canines et des moustaches de félin et de mesurer entre 40 et 80cm, par
exemple)
• Pour d’autres objectifs importants, mais difficiles à modéliser et pour lesquels les opé-
rateurs humains auront besoin de comprendre la décision prise par le modèle pour être
en capacité de l’accepter ou de la forcer (en banque, les analystes crédit sont confrontés
à ce type de situation dans le cadre des octrois de prêts).
Cette interprétabilité peut être obtenue de deux façons (cf. Lipton [2016]) :
• Par transparence - le modèle, par essence et par construction est interprétable. C’est le
cas des modèles classiques (GLM, arbres de décision simples). Il existe également des
réseaux de neurones structurellement explicables (cf. Vaughan et collab. [2018]).
1. sauvegarder nos forêts aléatoires a requis en moyenne plus de 700Mo par modèle (en passant par la
librairie pickle
70
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
• Par interprétation post hoc - en exploitant des méthodes d’interprétation sans chercher
à expliquer exactement comment le modèle fonctionne. C’est cette dernière approche
qui retiendra notre attention dans la suite de ce mémoire, et plus particulièrement les
méthodes agnostiques n’ayant aucun a priori sur le modèle à interpréter.
L’interprétabilité peut être envisagée selon deux angles, (i) l’interprétation globale et (ii)
l’interprétation locale. Pour qu’un modèle soit compréhensible pour un humain, il doit être
particulièrement simple (de type arbre ou régression classique avec moins de 20 paramètres).
Le dilemme de l’interprétation globale est donc d’arriver à construire un modèle surrogate
suffisamment simple pour être compris, mais suffisamment complexe pour approximer le
modèle initial avec un degré de précision acceptable. C’est un dilemme impossible à concilier
dès lors que l’objectif à prédire devient complexe et nécessite une méthode avancée de machine
learning. Les méthodes les plus utilisées actuellement sont donc moins ambitieuses et visent
à faire une interprétation locale d’une seule prédiction ou d’un groupe de prédictions.
j=1
5.1.1 LIME
LIME (pour Local Interpretable Model-Agnostic Explanation (Ribeiro et collab. [2016])
est une méthode d’interprétation dont l’objectif est d’approximer le modèle à expliquer loca-
lement autour d’une instance x par un modèle simple (en l’occurrence une régression linéaire
sur un faible nombre de variables simplifiées). Pour ce faire, LIME passe au préalable par une
représentation simplifiée et interprétable des variables en entrée du modèle afin de mapper
des variables non-interprétables sur un ensemble restreint de caractéristiques interprétables,
à l’aide d’une fonction de mapping hx telle que hx (x0 ) = x (comme décrit plus haut). Par la
suite, LIME résout le problème d’optimisation 5.2.
Où G est l’ensemble des modèles explicatifs admissibles, L une fonction de perte (en
pratique de type quadratique, sur l’échantillon d’observations considéré Z cf. 5.3), πx0 une
mesure de proximité pour définir la localité autour de x et Ω une pénalisation afin de forcer
71
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
le modèle retenu à être le moins complexe possible (en pratique une pénalisation L1 des poids
des paramètres de g).
2
L(f, g, πx0 ) = πx0 (z) f (z) − g(z 0 ) (5.3)
X
z∈Z
LIME présente l’avantage d’être très rapide à calculer, de produire une interprétation
sélective (grâce à la pénalisation) et un modèle surrogate du modèle à expliquer qui permet,
au premier ordre, d’expliquer les sensibilités du modèle à expliquer. En revanche, la méthode
souffre de quelques inconvénients majeurs : En premier lieu, LIME est très sensible à la mesure
de proximité πx0 définie et pour deux mesures très proches, le modèle explicatif produit peut
être radicalement différent comme illustré par Molnar [2019]. En second lieu, LIME ne
garantit pas les propriétés de précision (équation 5.6) et de cohérence (équation 5.7) qui sont
essentielles à une mesure d’importance des variables d’un modèle.
5.1.2 SHAP
SHAP Lundberg et Lee [2017] propose une mesure d’importance des variables explica-
tives qui unifie un ensemble de mesures précédemment développées (dont LIME) et vérifie
certaines propriétés qui la rende plus désirables que les autres méthodes pour l’interprétation.
Cette méthode est toutefois plus gourmande que LIME en calcul et ne peut pas être mise en
œuvre dans un temps raisonnable sans quelques approximations.
Shapley Values
Définition La mesure aux fondement de SHAP est la Shapley Value d’une variable expli-
cative {j}. Elle correspond à la moyenne de la contribution marginale de cette variable au
sein de toutes les configurations (ou coalitions) possibles de modalités du jeu de variables
considéré dans le modèle. La Shapley value Φj (f (x)) de la prédiction f (x) (sur la réalisation
x = (x1 , ..., xp )) se définie mathématiquement comme suit (Molnar [2019]) :
avec
Z
valx (S) = f (x1 , ..., xp )dPx∈S
/ − E [f (X)]
Ce qui, dans le cadre des méthodes dites additive feature attribution (équation 5.1), se
traduit en
|z 0 |!(m − |z 0 | − 1)!
Φj (f (x)) = fx (z 0 ) − fx (z 0 \j) (5.5)
X
m!
z 0 ⊆{z 0 |x0i =0⇒zi0 =0}
où fx (z 0 ) = f (hx (z 0 )) = E[f (z)|zS ] (où zS est le vecteur z avec des valeurs manquantes pour
toutes les variables qui ne sont pas dans S) et z 0 \i est le vecteur z 0 dont la composante zi0 a
été mise à zéro.
Propriétés Les Shapley values proviennent initialement de la théorie des jeux et ont été
conçues comme mesure de partage des gains entre joueurs dans un jeu coopératif Shapley
[1953]. A ce titre, cette mesure (5.5) est la seule parmi les méthodes dites additive feature
attribution (5.1) à vérifier les propriétés suivantes (cf. Lundberg et Lee [2017]) :
72
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
• Précision : La somme des Shapley Value est égale à la différence entre la prédiction et
la moyenne des prédictions.
p
Φj = f (x) − E [f (X)] (5.6)
X
j=1
• Symétrie : Deux variables dont la contribution marginale est la même (valx (S ∪ {xj }) = valx (S ∪ {xk }
quelle que soit la coalition S ⊆ {x1 , ..., xp }\{xj , xk } ont la même Shapley value.
• joueur nul : Si valx (S ∪ {xj }) = valx (S) quelle que soit la coalition S, alors sa Shapley
value est nulle Φj = 0.
• Cohérence : Si pour deux modèles f et fˆ on a
ˆ ˆ
valxf (S ∪ {xj }) − valxf (S) ≤ valxf (S ∪ {xj }) − valxf (S) (5.7)
alors
Φj (f (x)) ≤ Φj fˆ(x)
Les Shapley values sont, jusqu’ici, la seule méthode d’interprétation appuyée par une
théorie robuste (Molnar [2019]). En particulier, la propriété de précision assurant une ex-
plication totale et non-biaisée d’une prédiction n’est pas garantie par les autres méthodes
telles que LIME ou Treeinterpreter et peuvent être même allègrement violées sur des cas
concrets simples comme démontré par Lundberg [2017].
Calcul D’après l’équation 5.4, pour calculer exactement la Shapley value Φj , il est nécessaire
de calculer la prédiction du modèle avec et en l’absence de la variable xj pour toutes les
coalitions S possibles. La complexité est alors en 2p du temps de calcul de f , ce qui est
rédhibitoire très rapidement lorsque le nombre de variables augmente.
La puissance de SHAP réside dans le lien établi entre LIME et les Shapley values au
travers du théorème Shapley kernel (cf. Lundberg et Lee [2017]) et qui permet de calculer
les Shapley values à l’aide de l’équation (5.2), pour une fonction de perte L et un noyau
local πx0 bien choisis. Avec cette approche, le calcul des Shapley values revient, comme pour
LIME, à un problème d’optimisation avec une pénalisation Ω(g). Cette pénalisation est une
régularisation L1 par défaut dans la librairie SHAP, ce qui permet d’obtenir une interprétation
basée sur un sous-ensemble des variables (puisque les Shapley values des variables à faible
contribution sont mises à zéro par la régularisation L1 ).
Inconvénients SHAP souffre d’un inconvénient en particulier : Pour simuler qu’une va-
riable est absente d’une coalition S, il est nécessaire de calculer
Z
E[f (z)|zS ] = f (z1 , ..., zp )dPx∈S
/
En pratique cette espérance est estimée sur la distribution marginale des variables n’appar-
tenant pas à la coalition S, ce qui suppose, pour être juste, l’indépendance entre les variables
inclues et celle exclues de la coalition (pour être exacte cette espérance devrait être calculée
sur la distribution des variables n’appartenant pas à la coalition S conditionnelle à celles
inclues dans la coalition). Pour estimer cette espérance, le noyau SHAP fait également appel
à une représentation synthétique (par k-means clustering du jeu d’observations initial si ce
dernier est trop volumineux). Ces deux approximations peuvent conduire à un biais dans
l’interprétation dont il faut être conscient et auquel il faut être vigilant.
73
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
Figure 5.2 – Influence moyenne globale des variables pour un ensemble représentatif de prédictions
du coût annuel par le modèle en réseau de neurones
Figure 5.3 – Influence moyenne globale des variables pour un ensemble représentatif de prédictions
du coût annuel par le modèle random forest
74
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
Figure 5.4 – Représentation des SHAP values pour un ensemble de prédictions par le modèle Random
Forest du coût total selectionnées aléatoirement dans les déciles 9 et 10 puis max
75
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
Figure 5.5 – Représentation des SHAP values pour un ensemble de prédictions par le modèle en
réseau de neurones du coût total (min puis une observation par décile, puis max)
76
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
Figure 5.6 – Influence moyenne globale des variables sur l’ensemble des prédictions de coût annuel
supérieures à 3000 pour le modèle RF
5.3 Références
Lipton, Z. C. 2016, «The Mythos of Model Interpretability», ICML Workshop on Human
Interpretability in Machine Learning. URL https://arxiv.org/abs/1606.03490. 70
Ribeiro, M. T., S. Singh et C. Guestrin. 2016, «"why should I trust you ?" : Explaining
the predictions of any classifier», dans Proceedings of the 22nd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August
13-17, 2016, p. 1135–1144. 71
Shapley, L. S. 1953, «A value for n-person games», dans Contributions to the Theory of
Games II, édité par H. W. Kuhn et A. W. Tucker, Princeton University Press, Princeton,
p. 307–317. 72
77
CHAPITRE 5. INTERPRÉTABILITÉ DES MÉTHODES AVANCÉES
78
Conclusion
Au final, cette conclusion a déjà été partagée par d’autres : Les méthodes de machine
learning ne semblent apporter aucun bénéfice sur la tarification de la garantie dégât des
eaux (hormis probablement sur la modélisation du zonier, qui ne fait pas partie du cadre
de ce mémoire). De notre point de vue, l’introduction de ces méthodes génère également un
risque de modèle additionnel non négligeable : Là où l’évaluation d’un modèle classique peut
se faire globalement, selon un nombre restreint et bien connu de statistiques, l’évaluation
des modèles machine learning est beaucoup plus délicate. Comme nous l’avons identifié,
ces modèles peuvent sembler bons partout selon un ensemble d’indicateurs globaux, mais,
dans des régions très spécifiques, faire des prédictions totalement inacceptables au regard
de l’usage du modèle. De plus, l’identification de tels comportements est rendue d’autant
plus difficile que ces modèles sont de trop grande complexité pour qu’un humain puisse
les comprendre globalement. A ce titre, nous terminons notre mémoire en introduisant la
méthode d’interprétation locale SHAP et montrons comment elle nous sert à rejeter l’une de
nos hypothèses quant à la cause sous-jacente du biais dans notre modèle de forêt aléatoire.
79