Académique Documents
Professionnel Documents
Culture Documents
Signature du candidat
Page 1 De 1
Résumé
3
Abstract
The object of this paper is the description of the pricing process of an insurance
product for motor vehicles. After a brief description of the motor insurance market in
Switzerland, we will describe the data we used during the pricing process. Afterwards,
we will present the technical tariff establishment. The first step is the determination of the
pure premium per risk profile. We will explain why we choose to use a frequency-severity
generalized linear model as a first option. The explanatory variables selection, which is
based on bidirectional elimination, will then be detailed. From the frequency-severity model
obtained, we will show how to estimate the expected claims amount per insured profile.
Then, we will test a few alternative modelling technics based on regression trees. Afterwards,
we will determine the technical tariff, combining the pure premium and the other components
of the technical premium. Finally, we will examine the impact of the latest technological
evolutions on motor insurance pricing models.
4
Table des Matières
1 Introduction 9
5
3.4 Traitement des sinistres graves . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5 Découpage du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Modélisation du coût annuel des sinistres avec les modèles linéaires généralisés 33
4.1 Cadre théorique des modèles linéaires généralisés . . . . . . . . . . . . . . . . 33
4.1.1 Ecriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Intégration d’une variable offset . . . . . . . . . . . . . . . . . . . . . 34
4.1.3 Hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.4 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Indicateurs utilisés dans le cadre de la sélection des variables explicatives . . . 37
4.2.1 Objectif du processus de sélection . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Transformation des variables . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.3 Test du khi-deux d’indépendance . . . . . . . . . . . . . . . . . . . . 37
4.2.4 Le critère d’Akaike (AIC) . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.5 La déviance du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Méthodes de sélection et d’élimination des variables explicatives candidates . . 41
4.4 Etude des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Processus global de sélection des variables explicatives du modèle par sélection
ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Modélisation indépendante du nombre et de la sévérité des sinistres avec les GLM 43
4.6.1 Modélisation du nombre de sinistres . . . . . . . . . . . . . . . . . . . 44
4.6.2 Modélisation du coût moyen d’un sinistre avec une distribution de Gamma 47
4.6.3 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7 Qualité prédictive du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.8 Modélisation directe du coût moyen annuel des sinistres . . . . . . . . . . . . 49
4.9 Synthèse des distributions envisagées pour les GLM . . . . . . . . . . . . . . . 50
4.10 Limites des GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6
6.1.4 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Résultats de modélisation avec les arbres de régression . . . . . . . . . . . . . 74
6.2.1 Résultats avec les forêts d’arbres décisionnels . . . . . . . . . . . . . . 74
6.2.2 Résultats avec les gradient boosting . . . . . . . . . . . . . . . . . . . 76
6.3 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9 Conclusion 99
Bibliographie 101
7
Chapitre 1
Introduction
La prime technique d’une police d’assurance est un estimateur des coûts annuels liés à la police
et d’un chargement lié à la rentabilité attendue. Elle dépend du produit proposé et du profil
de risque assuré. Les coûts sont composés des sinistres, des frais de gestion de la compagnie
d’assurance et du coût du capital mis en réserve pour garantir la solvabilité de la compagnie. La
rentabilité attendue impact la prime technique via un taux de chargement qui permet à l’assureur
de générer du profit. Sur la base du tarif technique, il n’y a à priori pas d’inter-financement entre
les différents risques: le même ratio combiné est espéré pour chaque police.
L’utilisation première du tarif technique s’inscrit dans le cadre de la vente des produits
d’assurance. C’est un indicateur utilisé par la souscription auquel de multiples taux d’ajustement
sont appliqués. Parmi ces derniers, il convient de distinguer les rabais purement commerciaux,
qui ne sont pas justifiés par une analyse statistique du risque sous-jacent, des rabais techniques
justifiés, par exemple, par l’historique sinistre de l’assuré. Le bonus-malus en assurance des
véhicules à moteur en est un exemple. Son équivalent pour l’assurance de flottes de véhicules à
moteur est l’ajustement de la tarification à priori du risque avec un modèle de crédibilité.
Le tarif technique permet par ailleurs de calculer des indicateurs utiles au pilotage du
portefeuille. En particulier, le ratio entre la prime commerciale effectivement payée par le client
et la prime technique, qui permet d’analyser le risque d’anti-sélection. Supposons par exemple
que pour un segment d’assurés, la prime commerciale soit significativement inférieure à la prime
technique. Si l’on augmente la prime commerciale, on diminue les probables pertes futures sur
ce segment, à priori pas rentable. A l’inverse, si l’on diminue modérément la prime commerciale
pour un segment d’assurés sur-tarifés, on augmente le potentiel de croissance de la compagnie
sur ce dernier qui, à priori, restera rentable. D’autres indicateurs prédictifs spécifiques peuvent
être calculés, comme par exemple la rentabilité attendue des affaires conclues par mois et par
canal de vente. Ces indicateurs permettent d’améliorer la gestion du portefeuille d’assurances.
En général, il n’y pas de structure tarifaire telle que la prime commerciale soit systématique-
ment égale à la prime technique. Ceci est parfois dû aux contraintes du marché. Un exemple récent
9
est l’interdiction de la discrimination fondée sur le sexe en assurance dans l’Union Européenne,
alors que les hommes devraient payer plus que les femmes sur le segment des 18-25 ans pour leurs
assurances responsabilité civile des véhicules à moteur. Mais cet écart entre la prime commerciale
et la prime technique est aussi parfois lié à des choix stratégiques, qui peuvent se révéler plus ou
moins bénéfiques pour l’assureur. Il est donc primordial que les actuaires mettent en place un
tarif technique qui reflète à priori de manière adéquate le risque assuré afin d’optimiser la qualité
du processus de souscription, l’analyse financière et le pilotage de la compagnie d’assurance.
Nous prenons ici comme exemple le processus de tarification sur le segment des motocycles pour
la garantie responsabilité civile mis en place chez Generali Suisse. Dans le chapitre suivant, nous
nous proposons de décrire la part de marché que ce produit représente, ses caractéristiques et les
données utilisées.
10
Chapitre 2
Contexte de développement du
tarif
11
2.2 Panorama de l’assurance véhicules à moteur en Suisse
Figure 2.1 Volume des primes directes émises par région en 2016
En 2016, la Suisse fait partie des plus importants marchés d’assurance en volume de prime
directes. En Europe, avec un volume de primes de 61,3 milliards USD (CHF 58.6 milliards) en
2015, la Suisse se classe en septième position:
Les dépenses d’assurance moyennes par tête dans les marchés avancés sont de 3505 USD
(3352 CHF) en 2016, dont 1954 USD (1869 CHF) en assurance vie contre 1550 USD (1482 CHF)
en assurance non vie. En Suisse, ces dépenses atteignent près de 7000 USD (6694 CHF) par tête,
dont environ 3200 USD (3060 CHF) en assurance vie et 3800 USD (3634 CHF) en assurance
non-vie. La pénétration du marché de l’assurance dans l’économie Suisse est supérieure au
12
coefficient moyen des pays avancés. Elle est quantifiée dans le graphe suivant avec le ratio:
Primes d’assurance directes
Coefficient de pénétration =
PIB du pays
Figure 2.3 Densité et pénétration de l’assurance dans les marchés avancés en 2016
En Suisse, l’assurance des véhicules à moteur était en 2015 le deuxième produit d’assurance
non vie en volume de prime derrière l’assurance maladie. Le montant de primes brutes sur le
périmètre des véhicules à moteur représentait CHF 5,9 milliards, soit 34% des primes brutes
d’assurance non vie, contre CHF 9,9 milliards pour l’assurance maladie.
13
Assurances Primes brute en milliers de CHF
Maladie 9’867’968
Assurances sur les véhicules terrestres 9’112’898
dont casco véhicules terrestres 5’925’338
dont responsabilité civile véhicules terrestres 3’ 187’560
Incendie, dommages matériels 2’737’778
Accident 4’017’375
Responsabilité 2’918’571
civile 2’007’264
Protection juridique 549’012
Bateau, aviation, transport 392’736
Pertes pécuniaires 346’845
Crédit, caution 303’137
Assistance tourisme 208’550
Total 26’536’796
14
• les Side-car, motocyclettes pourvues d’une troisième roue latérale (à droite ou à gauche),
permettant d’ajouter un « panier » généralement destiné à héberger un ou plusieurs passa-
gers
• les trikes, engin hybride à trois roues, plus ou moins mi motocyclette/mi automobile
• et enfin les quads, qui sont des motocycles non couverts, tout-terrain, monoplace ou biplace,
à trois ou quatre roues
L’assurance casco
L’assurance casco couvre les dommages de carrosserie du motocycle. Contrairement à l’assurance
responsabilité civile, la conclusion d’une assurance casco est facultative et offre une protection
financière supplémentaire. Dans l’assurance casco, on distingue la casco partielle et la casco
intégrale. Avec l’assurance casco partielle sont assurés les dommages causés par l’incendie, le
vol, le bris de glaces, les dommages causés par les martres (petits quadrupèdes carnassiers au
pelage fin, appartenant à la famille des mustélidés) et par les actes de vandalisme ainsi que les
événements naturels comme les glissements de terrain, les avalanches, la pression de la neige, les
tempêtes, la grêle, les hautes eaux, les éboulements de rochers et les inondations. L’assurance
casco intégrale couvre en plus les dommages de collision comme par exemple le choc, la collision,
la chute ou l’enlisement du véhicule.
15
L’assurance protection accidents
Elle offre une couverture d’assurance en cas d’accidents pour le conducteur et son passager.
La protection accident fournit des prestations en cas d’invalidité et de décès et prend en
charge les frais de traitement. L’indemnité journalière d’hospitalisation en cas de séjour
hospitalier et l’indemnité journalière en cas d’incapacité de travail apportent un soutien financier
supplémentaire.
Pour chacune des quatre garanties disponibles, un modèle tarifaire distinct est développé, car
la nature du risque sous-jacent est significativement différente. Les variables explicatives sont
donc notoirement différentes.
Le tarif technique est défini à partir d’un modèle statistique qui quantifie le risque sous-
jacent assuré, ajusté des frais liés au fonctionnement de la compagnie d’assurance et d’un
chargement lié au profit attendu. La prime pure est l’estimateur du coût des sinistres hors frais
annexes. Elle est estimée en utilisant les potentielles variables explicatives décrites dans la section
2.6 Description des potentielles variables explicatives, afin d’estimer le montant qui devrait être
demandé en fonction du profil de l’assuré.
16
2.4.2 Objectifs du tarif technique
Chaque fois qu’un concurrent utilise un facteur supplémentaire pertinent afin d’évaluer la prime
de risque, l’actuaire doit affiner son tarif afin qu’il reste compétitif pour les clients dont le
nouveau facteur diminue la prime pure, et pour que le ratio combiné espéré reste au niveau
attendu pour les clients dont le nouveau facteur augmente la prime pure. La forte concurrence
entre assureurs explique pourquoi de nombreux facteurs tarifaires sont utilisés par les compagnies
d’assurance.
Deux méthodes de tarification sont couramment utilisées par les assureurs. La première, qui
sera l’objet de ce mémoire, est la tarification a priori: l’assureur essaie de prévoir, dès l’entrée
d’un nouvel assuré, sa sinistralité future. La seconde méthode est la tarification a posteriori: le
tarif initial de l’assuré est adapté en fonction de sa sinistralité individuelle. La tarification à
priori vise à segmenter le portefeuille en classes de risques homogènes afin d’éviter le risque
d’anti-sélection. La segmentation ne doit pas être trop fine afin d’éviter un sur-ajustement du
tarif.
Il est utile de ne pas prendre en considération les contraintes légales dans le tarif technique,
afin de mieux représenter le risque sous-jacent du portefeuille. Les indicateurs calculés avec le
tarif technique tels que le ratio combiné prédictif sont ainsi plus précis. Ces contraintes sont
prises en compte dans le tarif commercial.
L’horizon temporel choisi doit permettre d’assurer à la fois la cohérence de l’analyse (la
nature du risque ne doit pas changer de façon significative sur la période étudiée) et la robustesse
des indicateurs statistiques calculés. Sa sélection se base sur:
• la fréquence des sinistres: plus elle sera élevée, plus l’horizon temporel choisi sera court
• la volatilité de leur sévérité: plus elle sera élevée, plus l’horizon temporel choisi sera long
Par exemple, la période d’observation pour évaluer le montant annuel moyen des dommages
causés par des inondations ou des tremblements de terre doit être suffisamment longue afin de
compenser la très faible fréquence des sinistres et la forte volatilité des coûts de ces derniers.
A l’inverse, pour les produits d’assurances de véhicules à moteur standards dont la fréquence
17
des sinistres associée est élevée et les coûts moyen par sinistre relativement stables, une période
d’observation plus courte sera suffisante. Ce choix permet par ailleurs de se prémunir contre le
risque de ne pas prendre suffisamment en compte l’évolution de la nature du risque sur la branche
véhicules à moteur, qui est notamment modifiée par l’intégration de solutions télématiques et
l’évolution des comportements liés à des changements de lois concernant la sécurité routière.
Dans notre cas, on se limitera à un horizon temporel de 4 ans.
18
regroupement jeune: âge inférieur ou égal à 25 ans, ou non jeune: âge supérieur à 25 ans.
Inversement, il peut être utile de transformer une variable catégorielle en une variable
continue. Par exemple, les adresses de domicile peuvent être transformées en un vecteur
bidimensionnel à valeur réelle [longitude, latitude]. Cela permet d’utiliser une variable de
géolocalisation dans le modèle tarifaire, qui prend implicitement en compte des indicateurs
socio-économiques.
• quantitatives: toutes les variables telles que la puissance du véhicule ou l’âge du contrat
sont des variables quantitatives, car elles prennent des valeurs numériques. Cependant, les
variables numériques dont les valeurs n’ont pas de signification numérique intrinsèque ne
sont pas quantitatives. C’est le cas par exemple du code postal du lieu de domicile
• les données au niveau contrat, comme la date d’effet de la police, le mode et la fréquence
de paiement de la prime, la présence d’un conducteur principal etc.
• les données concernant l’assuré, comme par exemple son âge, le code postal de son
domicile, le nombre d’enfants qu’il a et leur âge
• les données liées à la nature du bien assuré, dans notre cas le motocycle avec, par exemple,
l’âge du véhicule, la marque, le modèle, le nombre de sièges, la puissance et le poids du
véhicule, le type de boîte de vitesse etc.
• les données au niveau garantie, avec notamment les indicateurs concernant les garanties
souscrites et les montants de franchise associés, le degré de bonus-malus etc.
19
• la densité de population liée au code postal du conducteur principal, et la densité de
population pour les codes postaux adjacents. A priori, plus la densité de population est
élevée, plus le trafic sera dense. Le risque sous-jacent à l’assurance du véhicule sera donc
plus élevé
20
2.6.5 Liste des potentielles variables tarifaires du modèle
La liste non exhaustive des variables utilisées dans le cadre du développement du modèle tarifaire
est la suivante:
21
2.7 Desciption des données liées à la sinistralité
En assurance dommage, les règlements relatifs aux sinistres sont effectués plus ou moins
rapidement après leur survenance, selon la branche et la nature du sinistre considéré. Par exemple
en RC, à la suite d’un accident de la route, les indemnisations sont parfois fixées par une décision
de justice qui n’aboutit qu’après de nombreuses années. Les payements peuvent par ailleurs
être effectués sous forme de rente. Les montants payés l’année de survenance du sinistre ne
représentent alors qu’une fraction du montant total des sinistres. Les prestations à payer par une
compagnie d’assurance pour une année de survenance sont donc étalées sur plusieurs années de
développement.
Les coûts directement liés aux sinistres sont donc constituée des payements déjà effectués
relatifs aux sinistres survenus et reportés, et des Provisions pour Sinistres A Payer (PSAP). Les
PSAP peuvent être scindées selon 3 composantes:
• les provisions dossier-dossier qui correspondent à la provision estimée pour chaque sinistre
déclaré non clos. L’assureur estime le montant probable du décaissement correspondant.
Cette estimation est le plus souvent effectuée par des gestionnaires de sinistres
• les sinistres survenus mais non encore déclarés dits IBNyR pour Incurred But Not yet
Reported
Les données concernant les sinistres survenus et reportés sont jointes aux données liées à la
police d’assurance. La jointure se fait par date de survenance du sinistre plutôt que par date
d’enregistrement. Cela permet aux modèles tarifaires de refléter au mieux le risque d’accident en
fonction du profil de risque.
22
Figure 2.5 Processus de tarification
23
cohérence des données. Pour ce, des analyses univariées pour chaque facteur de la table sont
menées. Cela permet aux actuaires de connaître la répartition des profils, son évolution au
cours des années, d’examiner les valeurs manquante ou aberrantes, et d’envisager des premiers
groupements de valeurs de variables caractérisées par une faible exposition et une homogénéité
par rapport au risque sous-jacent. Cette analyse préalable importante à la mise en place du modèle
tarifaire est décrite dans le chapitre suivant.
24
Chapitre 3
• considérer les sinistres reportés à la date d’évaluation la plus proche possible de la date
d’extraction des données
• considérer les sinistres reportés à la même date pour chaque année inclue dans le processus
de modélisation de la prime technique. Typiquement, la date du 31 décembre de chaque
année est choisie
La première méthode est préférée pour sa plus grande précision, en particulier sur les
branches à développement long comme la responsabilité civile, car elle permet de préserver le
développement précis des sinistres sur une plus longue période. Les provisions dossier-dossier
sont directement ajoutés aux payements afin de modéliser avec plus de précision la sévérité.
La granularité des données relatives aux sinistres reportés doit être au moins aussi fine que
celle des modèles tarifaires développés. Dans notre cas, on a choisi de développer un tarif
pour chaque garantie. La garantie impactée par le sinistre doit donc être renseignée. Si un
évènement impacte plusieurs garanties, un numéro de sinistre distinct sera créé pour chaque
25
garantie impactée. Par ailleurs, les données concernant les sinistres doivent contenir au minimum
le numéro de la police, le véhicule impactés et la date de survenance du sinistre afin qu’elles
puissent être jointes aux données au niveau police.
Triangles de règlement
Il est important pour la compagnie de conserver un historique des flux de payements des sinistres,
présentés dans un triangle de règlement des sinistres ou triangle de liquidation. On applique sur
ce triangle l’une des nombreuses méthodes de provisionnement qui ont été développées pour
estimer le montant ultime des payements par année de survenance. L’influence des IBNR sur la
charge ultime est importante en responsabilité civile, car le processus de déclaration du sinistre
est en général plus complexe donc plus lent, et les montants initiaux de provisions sont soumis à
d’importantes fluctuations.
Afin d’estimer les IBNR, les montants ou le nombre de sinistres sont compilés dans un
triangle de liquidation, qui se présente de la façon suivante:
• Xi, j représente l’information relative aux règlements effectués pour l’année de survenance
i, lors de la jème année. Ces règlements sont bruts (cumulés) ou nets des règlements des
années précédentes selon la convention retenue
• J est le nombre d’années maximal pendant laquelle les provisions pour sinistres à payer
fluctuent de manière significative. Ce nombre est défini par un spécialiste de la branche
étudiée
• on note f j les facteurs de développement du triangle, définis pour j ∈ [1, J − 1], et fˆj leurs
estimateurs
26
Figure 3.1 Triangle de liquidation
Méthode de Chain-Ladder
La méthode d’estimation du développement des sinistres de Chain-Ladder est certainement la plus
couramment utilisée en assurance non-vie. Elle est par ailleurs à la base des autres techniques
classiques de provisionnement. L’hypothèse forte sur laquelle se fonde cette méthode est la
suivante:
Hypothèse 1: Pour j allant de 1 à J-1, les facteurs de développement fi, j sont indépendants de
l’année de survenance i.
En utilisant des montants de sinistres cumulés représentés par la variable X, les coefficients
de passage d’une année à l’autre ( j à j + 1), égaux pour toute année de survenance, sont donnés
par l’estimateur suivant: ∀ j ∈ [1, J − 1],
∑ J− j
Xi, j+1
fˆj = ∑i=1
J− j
i=1 Xi, j
• Les charges ultimes par exercice de survenance X̂i, J = Xi, J−i × fˆj ;
∏ J−1
j=J−i
Avec la méthode de Chain-Ladder, la charge ultime estimée dépend de la dernière position connue.
Si elle est nulle, la charge ultime est nulle. L’alternative la plus courante à ce modèle est la
méthode de Bornhuetter-Fergusson qui introduit une donnée exogène pour palier à ce problème.
Ce modèle est souvent utilisé pour les triangles dits instables. Dans notre cas, on considère que la
masse des données sinistres du portefeuille d’assurance motocycles est suffisante pour s’en tenir
à l’utilisation de la méthode de Chain-Ladder.
27
3.3.2 Intégration des IBNR dans le modèle tarifaire
Les IBNR peuvent être intégrés aux modèles tarifaires antérieurement à la mise en place des
modèles, qui sont alors directement ajustés sur les montants et les nombres de sinistres ultimes
espérés. Les IBNR peuvent également être intégrés postérieurement à la modélisation des
risques assurés. C’est cette seconde méthode que nous avons choisi d’utiliser. La variable
année d’observation doit donc impérativement être utilisée comme variable offset des modèles
développés, afin de ne pas créer un biais lié aux IBNR: la fréquence et la sévérité des sinistres
sont à priori plus faibles pour les années récentes.
28
La représentation graphique obtenue de la fonction moyenne des excès en responsabilité
civile est la suivante:
Figure 3.2 Fonction moyenne des excès des sinistres en responsabilité civile
Les deux sinistres les plus élevés ont été enlevés pour améliorer la lisibilité du graphe.
L’interprétation du graphe de la fonction moyenne des excès est la suivante:
• si la fonction moyenne des excès est croissante au niveau de la queue de distribution, alors
la distribution est à queue lourde. Si par ailleurs la tendance est affine, la distribution
converge vers une loi de Pareto généralisée
Dans notre cas, on observe plutôt une tendance affine légèrement croissante à partir de 50’000
CHF, signe d’une distribution qui converge vers une loi de Pareto généralisée au-delà de ce
seuil. On préfère écrêter ces sinistres dans le cadre de la sélection des variables explicatives
et de l’estimation des coefficients de régressions. Les sinistres graves peuvent être modélisés
séparément avec une loi de Pareto. Leur coût peut également être estimé avec une simple moyenne
empirique. L’ajout d’une constante à la prime pure estimée permet de prendre en compte le coût
de ces sinistres graves:
∑∞
s =50k si
constante de prime pure pour les sinistres graves = ∑ i
exposition
29
3.5 Découpage du jeu de données
La grande difficulté dans la modélisation et la construction de modèles prédictifs est de réussir à
distinguer le signal, qui devrait pouvoir être expliqué par une variable explicative, et le bruit issu
du caractère aléatoire du phénomène observé. La réponse statistique est la notion de significativité
des variables explicatives candidates. Afin de valider la sélection des variables explicatives, on
divise l’échantillon des données de taille n en trois sous échantillons:
• Le second est l’échantillon de validation ( 20%), qui permet de tester la qualité prédictive
de la variable explicative ajoutée
• L’échantillon de test ( 10%) est utilisé à la fin pour tester l’adéquation du modèle optimal.
Il n’a donc pas été utilisé pour l’apprentissage, et le modèle a été construit totalement
indépendamment de cet échantillon. L’idée sous-jacente est de simuler la réception de
nouvelles données afin tester le modèle. Cet échantillon permet d’évaluer objectivement
l’erreur réelle
Le problème lié à la méthode de validation croisée simple est que le découpage de la base de
données dans sa globalité en sous échantillons d’apprentissage et de validation induit une perte
d’un certain volume de données pour calculer les estimateurs des coefficients de régression.
Par ailleurs, la probabilité qu’un autre découpage de l’échantillon initial amène à construire un
modèle de régression significativement différent est non négligeable.
30
Puis on sélectionne un autre échantillon de validation parmi les (k − 1) échantillons qui n’ont
pas encore été sélectionnés pour la validation du modèle. L’opération se répète ainsi k fois
pour qu’à la fin, chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de
validation. La moyenne des k déviances est enfin calculée pour mesurer la qualité prédictive du
modèle. Les k prédictions des différents modèles peuvent ensuite être moyennées pour produire
une seule estimation de la variable à expliquer. Le modèle final est constitué de la moyenne des
k estimateurs de β. Une partie des données peut également être mise de côté pour être utilisée
comme échantillon test.
En pratique, nous avons utilisé la première méthode de validation croisée sur deux sous-
échantillons afin de respecter les contraintes de temps imposées pour développer l’outil de
tarification. Afin de s’assurer que le nombre de sinistres dans la base de données d’entraînement
soit le même que dans la base de données de validation, on impose une contrainte: le nombre de
sinistres par unité d’exposition doit être le même dans chacune des deux bases.
31
Chapitre 4
• xk, i k ∈ [1, p], i ∈ [1, n], la valeur prise par la kème variable explicative pour la ième
observation
• ϵ le vecteur d’erreurs entre les valeurs observées de Y et les valeurs prédites, de dimension
n
yi × θi − b(θi )
( )
f (yi ; θi , ϕ, ωi) = exp + c(yi , ϕ)
ai (ϕ)
33
avec:
La seconde composante des GLM est le prédicteur linéaire η, qui s’écrit comme une combi-
naison linéaire des p variables explicatives:
p
∑
ηi = βxi = β0 + βk × xk, i
k=1
La troisième composante est la fonction lien g, qui décrit la relation fonctionnelle entre la
combinaison linéaire des variables X1 , ..., X p et l’espérance de la variable de réponse Y. La
relation linéaire entre les p variables explicatives et l’espérance conditionnelle de la variable à
expliquer est la suivante:
p
∑
g[E(Y|x1, i , ..., x p i )] = βk × xk i
k=1
En introduisant, pour la ième observation, la notation µi = E(Yi |x1, i , ..., x p i ) le modèle peut
également s’écrire:
∑p
g(µi ) = βk × xk, i
k=1
34
avec expi l’exposition associée à la modalité i. Le modèle peut alors s’écrire:
( p
∑ )
E(Yi |xi , expi ) = exp ln expi + βk × xk, i
k=1
On peut assimiler la variable offset à une variable explicative additionnelle qui prends les valeurs
ln expi , et pour laquelle le coefficient de régression est connu égal à 1.
On définit la valeur prédite ou ajustée Ŷ = X β̂ et le résidu comme la différence entre la valeur
observée et la valeur prédite: e = Y − Ŷ.
Une fois la forme du modèle définie, l’objectif est d’estimer un prédicteur linéaire efficace
en cherchant par maximum de vraissemblance un estimateur β̂ de β. Cette recherche se fonde
sur les valeurs observées yi , i ∈ [1, n] de Y en fonction des valeurs prises par les p variables
explicatives Xi, j , i ∈ [1, n], j ∈ [1, p]. La résolution de ce problème est décrite en annexe.
Afin de détecter les multi-colinéarités et identifier les variables incriminées, on peut effectuer
une régression linéaire sur chaque variable explicative envisagée en fonction des autres variables.
On calcule alors le coefficient de tolérance de la variable Xi , défini par T Xi = 1 − R2i avec R2i
le coefficient de détermination de la régression de la ième variable explicative par les autres
variables explicatives. En-dessous d’un certain seuil, on considérera qu’il y a un problème
de multi-colinéarité. Par ailleurs, un déterminant de la matrice XX t nul révèle une colinéarité
parfaite entre des variables explicatives. Le nombre de valeurs propres nulles de la matrice est
égal au nombre de relations de colinéarité parfaite. Lorsque la valeur du déterminant tend vers 0,
le risque de multi-colinéarité est important.
35
• effectuer une analyse en composante principales (ACP) sur les variables explicatives et
utiliser les premières composantes principales comme seules variables testées
Cette hypothèse n’est pas vérifiée lorsque la variable à expliquer est un processus temporel, pour
lequel les erreurs sont souvent auto-corrélées, et les régressions linéaires ne sont pas appropriées.
Dans notre cas, la période d’observation n’influe pas de manière périodique sur la fréquence ou
la sévérité des sinistres. L’indépendance des erreurs est donc vérifiée.
Autrement dit, les variables explicatives ne doivent pas être corrélées au terme d’erreur, soit
∀i, E(ei |Xi = xi ) = 0
∑n
i=1 êi
s =
2
n− p
H = X(X T X)−1 X T
hi,i le ième terme de la matrice Hi, i
êi
ri = √
s 1 − hi,i
On souhaite par ailleurs analyser les résidus ei = yi − ŷi sans prendre en compte l’influence de la
ième observation. On studentise les résidus, en posant:
êi
ti = √
s(−i) 1 − hi,i
Ces résidus standardisés studentisés devraient vérifier l’hypothèse d’homoscédasticité s’il n’y
pas d’erreur de modèle. Ils permettent par ailleurs de détecter les potentielles valeurs aberrantes
utilisées par le modèle de régression, là où les résidus sont élevés.
36
4.2 Indicateurs utilisés dans le cadre de la sélection des
variables explicatives
4.2.1 Objectif du processus de sélection
Parmi les variables explicatives testées, on souhaite sélectionner uniquement celles qui ont un
impact significatif sur la variable à expliquer. Notre sélection des variables explicatives de notre
modèle se base sur trois indicateurs:
• la p-value associée à chaque variable explicative candidate, calculée sur le jeu de données
d’entraînement
Pour les variables explicatives quantitatives, le coefficient calculé rend compte de la pente
de la distribution de la variable endogène. Une régression linéaire n’est pas adaptée lorsque la
relation entre Y et la variable testée n’est pas linéaire. Certaines variables explicatives sont donc
sélectionnées sous forme de polynôme. Prenons l’exemple de la variation de la fréquence des
sinistres en responsabilité civile en fonction de l’expérience du conducteur, mesurée en nombres
d’années depuis l’obtention du permis de conduire.
On remarque que l’effet de l’expérience de conduite sur la diminution de la fréquence des
sinistres est très élevé les premières années, mais que l’effet marginal de l’expérience diminue
d’année en année. La vitesse d’amélioration de la conduite diminue au fil des années: la fonction
est décroissante convexe. Dans cette configuration, une régression polynômiale semble être
mieux adaptée qu’une régression linéaire. Une fois les variables explicatives transformées dans
la configuration qui semble la plus appropriée, des tests statistiques sont lancés afin de choisir
les variables explicatives les plus adaptées. Plusieurs configurations pour une même variable
explicative peuvent être testées, afin de construire le meilleur modèle parmi ceux testés.
37
Figure 4.1 Régression polynômiale de la fréquence des sinistres RC par l’expérience du conducteur
On teste l’hypothèse:
H0 = les deux variables X et Y sont indépendantes, contre:
H1 = les deux variables sont dépendantes.
Un premier tri au sein des variables explicatives candidates peut être opéré au moyen du test du
khi-deux d’interdépendance, afin de diminuer le temps de recherche des variables effectivement
explicatives des variations de Y. Dans le cadre de ce test, X et Y sont censées prendre un nombre
fini de valeurs. Si une variable est continue, les valeurs possibles sont découpées en intervalles.
On note:
• O., j =
∑I
i=1 Oi, j le nombre d’observation de X pour lesquelles Y prend la valeur j
• Oi, . =
∑J
j=1 Oi, j le nombre d’observation de Y pour lesquelles X prend la valeur i
38
On calcule la distance entre les valeurs observées Oi, j et les valeurs attendues théoriquement, s’il
y avait indépendance sur l’ensemble de l’échantillon, au moyen de la formule:
∑ (Oi, j − T i, j )2
D=
i, j
T i, j
Intuitivement, on peut penser que plus D est élevée, plus la dépendence des variables X et Y
est probable car il y a à priori certaines combinaisons i, j pour lesquelles Oi, j est très élevé
par rapport à T i, j . Or si H0 est vraie, c’est à dire si X et Y sont indépendantes, alors D suit
asymptotiquement une loi du χ2 à (I − 1) × (J − 1) degrés de liberté. Pour conclure quant à
l’indépendance entre X et Y, on utilise le coefficient α défini par:
39
Issue du test Ho vraie H1 vraie
Le risque d’erreur de type 1 correspond au cas où T suit bel et bien une loi du χ2 à (I−1)×(J−1)
degrés de liberté (H0 étant vérifiée), mais où la distance D calculée avec les valeurs de l’échantillon
appartient à la queue de distribution de cette loi. Pour chacune des variables explicatives, on
évalue la statistique du khi-deux et on donne la p-value (le seuil α) du test associé. Si la p-value
associée est élevée, alors on peut retirer en amont la variable de l’étude, car il n’y a à priori pas
de relation de dépendance avec Y. En éliminant cette variable, on risque cependant d’omettre
des variables explicatives importantes modulo un facteur d’interaction avec une autre variable
du modèle. En général, on préfère commencer à éliminer des variables candidates après deux
itérations de l’algorithme permettant la sélection des variables explicatives pour diminuer ce
risque.
40
4.2.4 Le critère d’Akaike (AIC)
Afin de pénaliser un modèle jugé trop complexe, on introduit le critère d’Akaike, en anglais
Akaike In f ormation Criteria (AIC). Ce critère intègre dans son calcul un multiple du nombre
de paramètres utilisés. Soit p le nombre de paramètres, ordonnée à l’origine incluse, utilisés dans
le modèle testé. La formule de l’AIC s’écrit:
Le modèle à sélectionner selon ce critère est celui qui a la valeur AIC minimale. Ce critère
favorise les modèles donc la log-vraisemblance est élevée relativement au nombre de variables
explicatives utilisées. Cela permet d’éviter la sélection d’un modèle surajusté, car l’augmentation
du nombre de paramètres dans le modèle améliore presque toujours la qualité de l’ajustement.
soit, en développant:
n
∑ yi (θ̄i − θ̂i ) − bi (θ̄i ) + bi (θ̂i )
D=2
i=1
ai (ϕ)
avec:
lµ̂, ϕ (y) = log-vraisemblance du modèle calculée avec l’estimateur β̂ : µ̂i = g−1 (xi β̂)
Si la déviance ne diminue pas ou très peu en ajoutant une nouvelle variable explicative, alors elle
sera exclue même si la p-value associée est inférieure au seuil critique. Cela permet de diminuer
le risque de sur-ajustement. L’objectif, lors de l’ajustement d’un GLM, sera de minimiser la
déviance sur l’échantillon de validation.
• La sélection ascendante, qui teste l’amélioration du modèle dans le cas on l’on inclurait une
variable explicative supplémentaire. A chaque étape, l’ensemble des variables explicatives
41
candidates est testé. La variable explicative la plus significative statistiquement est ajoutée
au modèle. Le processus de sélection des variables explicatives se termine lorsqu’aucune
variable additionnelle ne peut significativement améliorer le modèle de régression construit
selon les critères définis précédemment
• L’élimination bidirectionnelle, qui est une combinaison des deux méthodes précédentes.
On part d’un modèle simple ne contenant que les variables offset. On teste à chaque étape
la variable dont l’ajout améliore le plus significativement la qualité prédictive du modèle, et
l’on supprime certaines variables identifiées comme indépendantes de la variable Y. Cela
permet de diminuer la longueur des tests effectués à chaque étape, car potentiellement,
plusieurs variables candidates sont éliminées. C’est cette méthode, la moins chronophage,
qui a été utilisée.
En théorie, les facteurs d’interactions devraient être étudiés à chaque étape du processus de
sélection des variables explicatives, car l’ajout d’un de ces facteurs pourrait modifier le jeu de
variables retenues. Cependant, le processus serait très lourd à mettre en place. On se restreint
donc à l’étude des termes d’interaction parmi les variables retenues uniquement, et ce, seulement
à la fin du processus de sélection des variables simples.
1. Initialisation du modèle
42
• on sépare l’échantillon en trois sous-échantillons: un échantillon d’entraînement, un
échantillon de validation et un échantillon test, afin de mettre en place une validation
croisée
• on fait un choix sur la distribution de Y, en fonction de la nature de la variable à
expliquer et de l’observation de la répartition des valeurs prises par celle-ci
• on spécifie les variables offset du modèle
• on définit le modèle de référence comme étant le modèle linéaire généralisé qui
prend en compte les variables offset pour seules variables explicatives. Le modèle de
référence est ajusté sur l’échantillon d’entraînement
• on effectue une régression avec chacune des variables explicatives candidates. Pour
les variables explicatives quantitatives, des régressions polynômiales sont testées si
l’observation de la répartition des valeurs de Y par rapport à la variable candidate
suggère qu’une relation linéaire d’ordre 1 n’est pas suffisante
• si aucune variable additionnelle n’est jugée comme significative d’après les indica-
teurs décrits précédemment, le processus de recherche d’une variable explicative
supplémentaire est stoppé. Le dernier modèle de référence est le modèle final
• sinon, on retient le modèle pour lequel la variable explicative fait le plus diminuer la
déviance sur les données de validation. Le nouveau modèle de référence, par rapport
auquel la significativité de l’ajout d’une nouvelle variable explicative est testée, est
alors modifié. On ajoute au modèle de référence la dernière variable explicative
sélectionnée. Puis on réitère l’étape 2
4. Test du modèle
43
pour modéliser le nombre de sinistres d’une part et la sévérité des sinistres d’autre part. Le coût
annuel des sinistre S est décomposé sous la forme suivante:
N
∑
S = Si
i=1
E(N|X = x) = λ(x)
On a vu dans le chapitre précédent que le modèle linéaire généralisé s’écrit sous la forme:
g(E(N|X = x) = xT β
g(λ(x)) = xT β
Pour g : id, le modèle est linéaire en β, et peut conduire, pour certaines valeurs de x, à des valeurs
négatives de µ(x). Ce serait absurde dans le cadre de la modélisation d’un nombre de sinistre,
qui ne peut être que positif ou nul. On cherche donc une fonction lien telle que g−1 soit positive,
parmi lesquelles on privilégie la fonction exponentielle. Le modèle s’écrit alors:
Tβ
λ(x) = e x
Par extension, en intégrant E une mesure d’exposition au risque, définie dans notre cas en nombre
d’années véhicules pendant lequel le risque est assuré, le modèle devient:
ex β
T
λ(x) =
E(x)
44
Figure 4.3 Fonctions de masse de la loi de Poisson
L’exposition est une variable offset de ce modèle. On l’utilise avec une granularité définie par
catégorie tarifaire du portefeuille. Autrement dit, pour chaque ensemble de valeurs prises par les
variables explicatives du modèle, une exposition Ei est calculée. Le modèle pour la ième catégorie
tarifaire s’écrit donc sous la forme:
Ni ∼ P(λi )
avec:
e xi β
T
λi =
Ei
L’estimation de β de fait en appliquant l’algorithme de Newton-Raphson aux équations de
vraisemblance (en annexe).
45
Détection de la sur-dispersion
Si notre modèle est correct, la déviance résiduelle estimée par maximum de vraisemblance (qui
peut être vue comme l’équivalent des carrés résiduels dans un modèle estimé par les moindres
carrés résiduels) suit une distribution du χ2 à n − p − 1 degrés de liberté. L’implication de ce
résultat est que la déviance résiduelle doit être égale au nombre de degrés de liberté résiduels s’il
n’y a pas de sur-dispersion. La sur-dispersion peut être mesurée avec le paramètre ϕ, donné par:
déviance résiduelle
ϕ=
degrés de liberté résiduels
• ϕ = 1 indique que la dispersion est conforme à ce qui est attendu avec une loi de Poisson
L’inconvénient de ce calcul est qu’il est établi postérieurement à l’établissement du modèle, une
fois la déviance résiduelle et le nombre de paramètres du modèle testé choisi. En choisissant
un modèle de Poisson, on suppose implicitement que ϕ = 1. Un test lié à ϕ peut être établi une
fois le modèle construit, afin de tester le choix d’un GLM avec une distribution de Poisson pour
modéliser la variable endogène.
Si la p-value associée au test est supérieure au seuil défini, H0 est acceptée. On accepte alors
le choix d’un GLM avec une distribution de Poisson dans le cadre de la modélisation de N.
46
la sur-dispersion ne biaise pas l’estimation des paramètres β mais sous-estime les écarts types
associées. Le biais inverse se produira en présence de sous-dispersion. Une des solutions à ce
problème est l’utilisation de modèles de régression Poisson-mélange. Cette erreur de modèle peut
être corrigée avec les distributions quasi-Poisson.
47
Figure 4.4 Densité de la loi Gamma
48
On calcule l’erreur quadratique moyenne sur l’échantillon de validation pour évaluer la qualité du
modèle. On peut également calculer la MS E sur l’échantillon test, qui est totalement décorrélé
de la construction de notre modèle. Si l’erreur quadratique sur cet échantillon est sensiblement
plus élevée que l’erreur quadratique moyenne par rapport à l’échantillon de validation, on peut
supposer que le modèle n’est pas suffisamment fiable.
Puisque la somme de lois de Gamma indépendantes et identiquement distribuées est une loi
de Gamma, S n = y1 + . . . + yn suit une loi Gamma de paramètres [nα, β]. La densité de la
distribution de Tweedie est alors donnée par:
∞
∑ λn βnα nα−1 −yβ
fS (y) = e−λ y e
n=1
n! γ(nα)
49
Figure 4.5 Distributions de Tweedie
Le choix d’une distribution de Tweedie permet donc de prendre en compte l’impact global
d’une variable explicative sur le coût des sinistres, sans différenciation de la fréquence et de la
sévérité. Par ailleurs, en faisant ce choix, on divise par deux le nombre de GLM à mettre en
place. Cependant, les modèles fréquence-coût permettent de comprendre avec plus de précision
pourquoi certains facteurs influencent la sinistralité. Par ailleurs, le paramètre p du modèle de
Tweedie doit être estimé. Ce paramètre est lié à la variabilité de la sinistralité. Il y a plusieurs
méthodes pour estimer ce paramètre, mais il est courant de fixer ce paramètre à 1,5 (voir l’article
The Tweedie Index Parameter and Its Estimator. An Introduction with Applications to Actuarial
Ratemaking de TEMPLE S. S.), en considérant que ce paramètre n’a que peu d’influence sur les
résultats du processus de modélisation.
Les distributions usuellement choisies en fonction de la nature de la variable à expliquer sont les
suivantes:
50
Paramétrisation du modèle Nombre de Fréquence des Modélisation
Sévérité
Variable modélisée sinistres sinistres directe de la prime pure
Fonction lien g ln ln ln ln
Moyenne λ λ kθ a × µp
Variance λ λ kθ2 a × µp
avec les fonctions fk qui peuvent être sous forme paramétrique pour certains indices, et
non-paramétrique pour d’autres. Cette flexibilité concernant la relation entre la variable réponse
et les variables explicatives permet potentiellement d’améliorer la qualité d’ajustement des
modèles aux données. Cependant, le modèle construit sera plus difficilement interprétable.
Par ailleurs, avec les modèles linéaires généralisés, la régression par rapport à une variable
quantitative ne permet qu’une variation monotone de la variable endogène. Ce problème peut
être corrigé manuellement en «coupant» la variable quantitative en plusieurs sous-variables, mais
ce processus reste fastidieux et peut impliquer un sur-ajustement du modèle.
51
Enfin, la modélisation des interactions entre les variables, bien que possible, relève souvent
de l’avis d’expert, au même titre que leur sélection en amont. Une variable éliminée lors du
processus de sélection des variables explicatives aurait pû se révéler intéressante si couplée à
une autre variable. Mais on ne peut pas tester à chaque étape de modélisation l’ensemble des
interactions possibles. La mise en place du modèle serait trop fastidieuse. C’est pourquoi nous
proposons de comparer les résultats des GLM à ceux obtenus en utilisant d’autres techniques de
modélisation. Leur cadre théorique est brièvement introduit dans le chapitre suivant.
52
Chapitre 5
Modèles alternatifs de
modélisation des sinistres
53
Le fonctionnement de l’arbre est le suivant:
• une des variables d’entrée est sélectionnée comme variable explicative à chaque nœud
intérieur, c’est à dire à un nœud qui n’est pas terminal de l’arbre, selon une méthode qui
dépend de l’algorithme choisi et qui sera discutée plus loin
• chaque arête vers un nœud-fils correspond à un ensemble de valeurs d’une variable d’entrée,
de manière à ce que l’ensemble des arêtes vers les nœuds-fils couvrent toutes les valeurs
possibles de la variable d’entrée
• chaque feuille (ou nœud terminal de l’arbre) donne la valeur prédite de la variable modélisée.
La valeur prédite est celle des profils dont les variables d’entrée prennent les valeurs prises
par le chemin qui va de la racine de l’arbre jusqu’à la feuille
L’arbre est construit par séparation de l’ensemble des données en sous-ensembles, scindés
en fonction de la valeur d’une des variables explicatives. Ce processus de séparation est
répété successivement sur chaque sous-ensemble obtenu. Il s’agit donc d’un partitionnement
récursif. Le processus récursif est achevé à un nœud lorsque tout nouveau partitionnement en
sous-ensembles n’améliorerait plus suffisamment la qualité prédictive du modèle. Ce processus
est dit à induction descendante. C’est un algorithme lourd et souvent macrophage, puisque l’on
recherche à chaque nœud de l’arbre le partitionnement optimal sur l’ensemble de l’arbre de
décision. C’est la méthodologie la plus commune pour entraîner son arbre.
La réduction d’hétérogénéité apportée par les deux nouveaux nœuds est donnée par:
n
∑ (∑ ∑ )2
δ̂ = (yi − y(n p ))2 − (yi − y(nG )) + (yi − y(nD ))
i=1 i∈nG i∈nD
On répète cette opération jusqu’à ce que chaque profil mène à une feuille (une extrémité de
l’arbre).
54
prédiction de la variable-cible. Dans le cas d’une variable à expliquer quantitative, on peut
utiliser un test d’analyse de la variance (dit Anova).
S S E p −S S E F
d f p −d fF
F= S EE F
d fF
avec:
On a alors d f p = n − k et d fF = n − k − 2.
L’application du test de Fisher pour conditionner la création d’un nouveau nœud conduit à
des arbres plus parcimonieux et donc plus robustes. Cependant, cela peut aussi conduire à des
arbres non optimaux. En effet, en imposant une réduction minimale de l’hétérogénéité lors de la
division d’un nœud, on peut empêcher la division d’un nœud qui ne va lui-même pas conduire à
une forte réduction de l’hétérogénéité mais qui aurait conduit à des futurs nœuds performants.
Pour pallier à ce problème, on choisit de réduire l’arbre en partant d’un modèle saturé, que l’on
remonte en partant des feuilles et en supprimant les nœuds qui n’améliorent pas significativement
le pouvoir prédictif de l’arbre sur l’échantillon de validation.
55
5.1.3 Recherche d’un arbre optimal
Construction d’un arbre quasi saturé
On commence par produire un arbre presque saturé modélisant la fréquence des sinistres. On
impose seulement un nombre minimum peu restrictif de données pour qu’un nouveau nœud
puisse être créé. L’arbre obtenu est le suivant:
Cet arbre est très développé, et le risque de sur-ajustement est très élevé. On souhaite donc
l’élaguer.
56
On préfère analyser une suite de sous arbres emboîtés. Pour un arbre T donné, on note FT
le nombre de feuilles ou nœuds terminaux. FT est une mesure de la complexité de T . Avec nt
l’effectif du nœud t, la qualité d’ajustement d’un arbre T est mesurée par:
∑ 1 ∑
err(T ) = (yi − yt )2
t f euille de T
nt y ∈t
i
Le fonction est analogue au critère d’information d’Akaike. La fonction err mesure l’erreur
d’ajustement du modèle T aux données. C’est une fonction décroissante en fonction du nombre
de feuilles, autrement dit décroissante lorsque la complexité de l’arbre augmente. A l’inverse, FT
augmente lorsque le nombre de nœuds augmente. Le paramètre α définit le niveau de pénalisation
de la complexité de l’arbre: plus α est grand, plus les modèles complexes sont pénalisés. Ainsi,
pour α = 0, l’arbre saturé minimise C. En faisant augmenter α, les nœuds qui engendrent une
diminution de de l’erreur inférieures à αFT deviennent superflus. Ces nœuds sont donc élagués.
Suite à la première itération de la recherche de l’arbre optimal en fonction de la valeur de α
choisie, T FT devient T FT −1 . En augmentant progressivement la valeur de α, on obtient donc une
suite d’arbres:
T sat = T FT ⊂ T FT −1 ⊂ T FT −2 ⊂ ... ⊂ T 1
T 1 est l’arbre réduit au nœud racine. On peut alors tracer la variation du critère des moindres
carrés pénalisés C en fonction de la valeur de α définie:
57
Figure 5.3 Erreur de prédiction en fonction de la taille de l’arbre
58
Figure 5.4 Arbre de régression optimal selon le critère choisi
59
5.2 Amélioration des performances
5.2.1 Bagging
L’algorithme génère aléatoirement e sous-ensembles d’entraînement Di , ..., De , chacun de taille
n, par échantillonnage avec remplacement sur la base de données. Des arbres sont construits
sur chacun de ces échantillons. Puis on effectue une moyenne des résultats obtenus pour les
modèles associés à chaque échantillon afin d’obtenir la valeur prédite de la variable modélisée.
Le bagging permet de corriger l’instabilité du modèle construit, car de petites modifications dans
l’ensemble d’apprentissage peuvent mener à des arbres significativement différents. Cependant,
cette méthode mène à une perte de lisibilité de l’arbre: on ne peut plus visualiser le modèle défini
sous forme d’un arbre simple.
60
transformées en de multiples variables binaires. Un ou plusieurs regroupements optimaux
peuvent être définis au niveau de différents nœuds
• le problème de l’expression des variables quantitatives sous forme de polynômes est traité
par l’algorithme. La difficulté est contournée en utilisant la variable explicative plusieurs
fois dans l’arbre, en la scindant en de multiples intervalles, et en attribuant un coefficient
de régression distinct pour chaque intervalle créé
• la lecture du modèle et sa forme sont simples pour les arbres de régression unitaires
• l’information conditionnelle est utilisée efficacement car les nœuds sont construits selon un
algorithme récursif qui optimise la sélection successive des variables utilisées pour estimer
Y
• les valeurs aberrantes sont traitées de façon efficace, en permettant à l’arbre de définir un
coefficient de régression spécifique à une très petite catégorie de l’échantillon
61
Chapitre 6
Résultats de modélisation de la
prime de risque
La fréquence moyenne de la sinistralité en responsabilité civile est de 7.8% sur notre jeu de
données. Graphiquement, la distribution semble être compatible avec une distribution de Poisson
de moyenne la moyenne empirique:
63
Figure 6.2 Exposition par nombre de sinistres et par année comparée à la loi de Poisson
Les valeurs affichées dans les sections suivantes ont été rééchelonnées par rapport à l’année
2015 et légèrement modifiées pour respecter des impératifs de confidentialité. On examine la
dispersion des données par rapport à leur moyenne afin de valider l’hypothèse d’égalité de la
variance et de la moyenne sous-jacente à l’utilisation d’une distribution de Poisson. On a:
E(F) = 0.99
V(F) = 1.02
Le faible écart entre la moyenne et la variance laisse penser qu’il n’y a pas de sur-dispersion ou de
sous-dispersion. Afin de le vérifier avec plus de détail, on peut recalculer ces valeurs pour chaque
modalité prise par une variable explicative. La variable année d’assurance est automatiquement
considérée comme la première variable sélectionnée dans nos modèles afin de neutraliser le
biais lié à la période d’observation. On se propose donc de calculer E(F) et V(F) par année
d’observation. Pour que le modèle de Poisson classique puisse être envisagé, il faut que les points
de coordonnées {moyenne, variance} soient proches de la droite y = x :
Figure 6.3 Variance et moyenne de la fréquence RC motocycles par année de survenance des sinistres
64
C’est ici le cas. L’utilisation d’une distribution de Poisson simple semble être valable pour
modéliser le nombre de sinistres avec la variable exposition comme variable offset. Nous
initialisons donc notre modèle.
Nous mettons en place notre GLM en imposant la variable Année de survenance comme
variable offset afin de neutraliser l’influence des IBNR et des évolutions tendancielles de la
fréquence au cours du temps. Elles sont prises dans le cadre de l’estimation de la prime technique.
Le modèle de référence initial superpose les valeurs prédites et observées par année de survenance:
La qualité prédictive du modèle initial ne contenant que les variables offset exposition et
année de survenance sur l’échantillon de validation est mesurée via les indicateurs suivants:
AICc = 201244
Déviance = 233519
65
Ce modèle est sous-ajusté. Nous cherchons à intégrer d’autres variables pour améliorer la qualité
prédictive du modèle.
On observe que la tendance semble être concave décroissante entre 0 et 10 ans. On observe
également une hausse de la fréquence à partir de 47 ans. on effectue donc un deuxième test de
régression avec un polynôme de degré 2 entre 0 et 10 ans, un polynôme de degré 1 entre 10 et 47
ans et un autre polynôme de degré 1 entre 47 et 65 ans et plus:
66
Chaque variable explicative candidate est testée en utilisant les regroupements de modalités
et les polynômes qui semblent être les plus appropriés. Les résultats sont répertoriés dans la table
suivante:
Figure 6.8 Résultats lors de la première itération du processus de sélection des variables explicatives
67
D’autres types de transformations des variables candidates que des mises sous forme polynô-
miale sont établies dans le cadre du processus de sélection des variables explicatives. Prenons
le cas de la variables géographique code postal du conducteur principal. La répartition de la
fréquence des sinistres responsabilité civile en fonction de cette variable est représentée sur la
carte suivante:
Figure 6.9 Fréquence RC des motocycles par code postal du conducteur principal
Afin d’éviter le sur-ajustement de notre modèle, un lissage des coefficients est mis en place.
Nous établissons tout d’abord un lissage faible des coefficients de régression. Les coefficients
de régression sont lissés en fonction des valeurs prises par les coefficients de régression sur les
codes postaux voisins:
68
Figure 6.10 Coefficients de régression par code postal - lissage faible
D’autres lissages, plus forts ou plus faibles, sont testés afin de déterminer la transformation
qui optimise le pouvoir prédictif de la variable candidate. Un lissage relativement fort engendre
par exemple les coefficients de régression suivants:
69
Figure 6.11 Coefficients de régression par code postal - lissage fort
Parmi les différents lissages testés, le lissage faible de la première carte crée la variable
explicative qui minimise la déviance sur l’échantillon de validation. C’est même la meilleure
variable explicative selon ce critère de sélection parmi toutes les variables candidates. Nous
sélectionnons donc le code postal d’habitation du conducteur principal avec un lissage faible
comme deuxième variable explicative de notre modèle.
Puis nous réitérons le processus de sélection des variables explicatives jusqu’à ce qu’aucune
variable candidate n’améliore significativement le modèle. Les résultats obtenus lors de la dixième
itération sont les suivants:
70
Figure 6.12 Résultats lors de la dixième itération du processus de sélection des variables explicatives
Le seul facteur d’interaction qui fait baisser la déviance sur l’échantillon test est la variable
Expérience X Age du contrat. Cependant, cette baisse est marginale. Nous intégrons le terme
d’interaction Expérience X Age du contrat dans le modèle mais nous souhaitons vérifier qu’il n’y
a pas de sur-ajustement suite à cet ajout.
71
6.1.4 Validation du modèle
L’amélioration de la déviance par rapport au modèle de référence sur l’échantillon de validation
en fonction du nombre de variables explicatives inclues dans le modèle est donnée par le graphe
suivant:
Figure 6.14 Déviance sur l’échantillon de validation en fonction du nombre de variables explicatives
72
Figure 6.15 Déviance sur l’échantillon test en fonction du nombre de variable explicatives
Les deux derniers facteurs n’améliorent pas la déviance sur l’échantillon de validation. Nous
choisissons donc de les supprimer. Puis nous remettons en place des tests de significativité sur
les facteurs d’interaction des 9 variables restantes. Aucun terme n’améliore la déviance sur
l’échantillon de validation. Le modèle final choisi est donc celui contenant les 9 premières
variables explicatives sans facteur d’interaction.
Le graphe des résidus standardisés studentisés sous-jacents au modèle final sur l’échantillon
test est ensuite tracé:
73
Figure 6.16 Résidus
Graphiquement, les résidus semblent être normalement distribués et indépendant des valeurs
prédites de F. Le modèle construit est à priori valable. Nous souhaitons maintenant comparer sa
qualité prédictive avec des modèles obtenus par arbres de régression.
74
Figure 6.17 Erreur sur l’échantillon test en fonction du nombre d’arbres construits
Figure 6.18 Erreur quadratique moyenne sur l’échantillon test en fonction des paramètres testés
Le meilleur modèle selon l’erreur quadratique moyenne sur l’échantillon test est celui établi à
partir de 500 arbres, en testant 10 variables explicatives à chaque nœud. Examinons les variables
explicatives inclues dans ce modèle par ordre d’importance. Pour ce faire on mesure la baisse
d’hétérogénéité de la fréquence induite par chaque variable sur la suite d’arbres construits. On
obtient le graphe suivant:
75
Figure 6.19 Résidus
76
Figure 6.20 Résidus
77
Figure 6.21 Erreur en fonction du nombre d’itérations
L’arbre optimale est celui obtenu à la huitième itération du processus de construction, les
arbres suivants engendrent du sur-ajustement. L’erreur quadratique moyenne sur l’échantillon
test est de:
MS Egradient boosting = 0.1376
MS EGLM = 0.1265
C’est inférieur à l’erreur quadratique moyenne obtenue avec les forêt d’arbres décisionnels et
le gradient boosting. Nous préférons donc modéliser la fréquence en responsabilité civile avec
les modèles linéaires généralisés. Afin de rester cohérent, les modèles linéaires généralisés ont
été utilisés pour tous les modèles tarifaires sur le périmètre véhicules à moteur. La sévérité et la
prime de risque des autres garanties ont donc été modélisées avec cette même méthode. Notons
cependant qu’avec une autre mesure d’erreur que l’erreur quadratique moyenne, le classement
des modèles en fonction de leur pouvoir prédictif pourrait être différent. On pourrait par exemple
utiliser la moyenne de l’erreur en valeur absolue comme critère final de sélection. Cependant,
nous souhaitons un modèle dont la variance des termes d’erreur est faible, d’où l’utilisation de
l’erreur quadratique moyenne. Par ailleurs, de l’aléa est induit lors du partitionnement de notre
échantillon en sous échantillons d’entraînement, validation et test. Un autre partitionnement
78
pourrait modifier les résultats au point de changer le classement de nos modèles. Le modèle
linéaire généralisé est donc le meilleur modèle dans un contexte très précis, qui dépend des
critères de sélection utilisés, du partitionnement des données et des modèles testés.
79
Chapitre 7
avec:
• in f le facteur d’inflation annuelle des sinistres attendue, qui peut être positif ou négatif
• f ext le facteur d’ajustement qui prend en compte l’impact de différents facteurs externes.
Cette valeur peut être positive ou négative
• t la différence temporelle entre la date moyenne attendue des payements des sinistres pour
lesquels la nouvelle structure tarifaire s’applique, et la date de moyenne de survenance des
sinistres survenus durant l’année de référence du modèle
81
Les facteurs d’ajustement liés aux IBNR doivent être estimés par apport à l’année de survenance
définie comme année de référence lorsque la variable année a été définie comme variable offset
du modèle.
Le coût projeté des sinistres est une estimation du coût ultime des sinistres pour un risque
assuré pendant une période d’un an. Dans le cadre du monitoring du portefeuille, ce montant est
comparé à la prime commerciale (PC) afin d’estimer le ratio sinistre/prime ultime attendu. Pour
le ième profil tarifaire, on a:
Les variations de la fréquence des sinistres peuvent être dues à des modifications de la
qualité du réseau routier, des caractéristiques des nouveaux véhicules vendus, et à une hausse
82
des fraudes pendant les périodes de crise économique. La modification des caractéristiques des
produits vendus, telles que les franchises, peut également impacter la fréquence attendue. Ces
variations peuvent être estimées par jugement d’expert. La variation liée à des facteurs internes
(respectivement externes) est prise en compte via le facteur v f rq (respectivement f ext).
Les variations de la sévérité des sinistres sont principalement dues à la variation des coûts de
réparation des véhicules, que ce soit des pièces ou de la main d’œuvre, ou à des modifications
de couverture. Pour estimer les variations des coûts de réparation, on peut se référer au Swiss
Wage Index et à des indices des prix à la consommation liés à l’entretien et à la réparation des
véhicules. L’inflation peut également être estimée sur la base de données internes. L’inflation doit
être estimée à partir de la date moyenne de survenance des sinistres durant l’année de référence,
jusqu’à la date de réparation moyenne prévue pour la nouvelle période tarifaire. La variation liée
à des facteurs internes est prise en compte via le facteur in f .
avec:
• c le taux de commission
Les commissions de rémunération du travail des agents ou des courtiers sont en général
calculées en pourcentage de la prime commerciale qu’ils apportent. C’est pourquoi un facteur
d’ajustement c f raisv est intégré dans le calcul du coût économique des sinistres. Les frais
fixes qu’une compagnie d’assurance doit assurer sont également inclus dans l’estimation coût
économique des sinistres via le facteur c f rais f . Parmi ces frais, les plus importants sont:
83
• les ULAE (Unaloccated Loss Adjustment Expenses), qui sont les frais liés au traitement
des sinistres mais qui ne sont pas directement attribuables à un sinistre spécifique
Le schéma suivant montre l’impact de ces différents éléments sur le coût économique des
sinistres:
L’estimation de l’écart entre la prime commerciale et le cout économique des sinistres pour
un risque donné se calcule via l’équation suivante:
avec:
84
• CEi le coût économique des sinistres et PCi la prime commerciale du profil de risque i,
décrits ci-dessus
Le coefficient de prime projetée suffisante représente le taux de variation de la prime commerciale
qui permet d’atteindre le coût économique pour le ième risque.
Les taxes et autres chargements qui augmentent systématiquement les couts liés à l’activité
d’assurance ne sont généralement pas inclus dans le calcul du coût économique, ainsi que dans
le calcul de la prime commerciale. Par exemple, le montant payé pour indemniser les victimes
d’accidents de la route avec délit de fuite n’est pas pris en compte.
85
On détermine ensuite la prime technique pour chaque profil d’assuré:
CEi
T Pi =
1−k
Pour passer directement de la prime pure à la prime technique, on utilise l’expression suivante:
86
• la nouvelle stratégie commerciale définie
• la variation de certains facteurs liés au temps, tels que l’âge du véhicule ou l’âge du
conducteur, etc.
1. extraire du portefeuille les polices en vigueur qui, si elles ne sont pas résiliées, se renouvel-
leront lors de la mise en place du nouveau tarif technique. Puis, calculer la somme de la
prime technique sur l’ensemble de ces polices
3. appliquer les changements de primes attendus liés aux nouvelles stratégies commerciales
de l’entreprise
4. calculer le taux lié à la nouvelle exigence de prime en calculant le ratio entre la prime
technique qui devrait être demandée sur le portefeuille assuré et la prime commerciale
globale du portefeuille après simulation de l’effet bonus/malus
Si l’estimation de l’effet de la nouvelle stratégie tarifaire est assez simple, l’estimation de l’impact
de l’application de l’échelle bonus/malus peut être relativement complexe. Pour l’estimer, on peut
utiliser la probabilité d’occurrence d’un sinistre à partir du modèle prédictif de la fréquence des
sinistres. En partant de l’ancien coefficient bonus/malus, on trouve deux nouveaux coefficients
bonus/malus avec une probabilité associée. Le premier coefficient bonus/malus est celui lié
à une sinistralité nulle, le second à une sinistralité non nulle. Ce calcul permet d’estimer le
ratio combiné attendu sur le portefeuille d’affaires renouvelé en t+1. On introduit les notations
suivantes pour une police:
• Prbonus la probabilité de renouvellement d’une affaire en t+1 sachant que l’assuré n’a pas
eu de sinistre en t
• Pnrbonus la probabilité de non renouvellement d’une affaire en t+1 sachant que l’assuré n’a
pas eu de sinistre en t
• Pnrmalus la probabilité de non renouvellement d’une affaire en t+1 sachant que l’assuré a
eu un malus suite à un sinistre en t
87
• PT la prime technique
Dans le cas général, le ratio combiné pour une police renouvelée est donné par:
(PS t × Prmalus + PNS t × Prbonus ) × PT
CoRattendu ren = × CoRnt
PS t × Prmalus × PC M + PNS t × Prbonus × PC B
Pour une police particulière extraite du portefeuille, on a les données suivantes:
La prime technique du nouveau tarif a été modélisée en intégrant un chargement pour que
l’espérance du ratio combiné soit de 93%. Cette prime technique est de 370 CHF pour la police
16513. On obtient donc:
(9% × 96% + 91% × 91%) × 370
CoRattendu16513 = × 93%
9% × 96% × 447 + 91% × 91% × 350
soit:
CoRattendu16513 = 95, 8%
En appliquant ces analyses sur l’ensemble du portefeuille en vigueur, on peut obtenir le ratio
combiné attendu sur le portefeuille renouvelé. Par ailleurs, nous formulons les hypothèses
suivantes basées sur l’analyse historique du portefeuille:
• Le volume de primes sur les nouvelles affaires sera de 7 millions de CHF l’année suivant
la mise en place du nouveau tarif
• Le volume de primes sur les affaires renouvelées sera de 145 millions de CHF
A partir des calculs menés plus haut et de ces hypothèses, on obtient les paramètres de la table
suivante:
88
Figure 7.5 Rentabilité et volume de primes attendus en t+1
Ce qui nous permet d’estimer le ratio combiné attendu sur l’ensemble du portefeuille:
7 × 93, 0% + 145 × 94, 1%
CoRattendut+1 =
7 + 145
soit
CoRattendut+1 = 94, 0%
Cet indicateur prédictif est important pour la gestion du portefeuille et la communication avec le
siège du groupe Generali car il permet de définir la stratégie de l’entreprise et d’être transparent
avec les actionnaires. Plusieurs mois après la mise en place d’un nouveau tarif, d’autres indicateurs
empiriques sont étudiés afin d’analyser l’impact sur le portefeuille. Des résultats pratiques sont
présentés dans la section suivante.
89
Nous utilisons les sinistres attritionnels afin d’exclure des distorsions qui ne seraient dues qu’à
quelques rares sinistres larges. On obtient les résultats suivants sur le portefeuille de véhicules à
moteur:
Figure 7.6 Variation du ratio sinistres sur primes suite à l’implémentation du nouveau tatif
Figure 7.7 Ratio sinistres sur primes attritionnel par segment de portefeuille et année d’assurance
C’est inférieur au ratio sinistres sur primes de l’année précédant la mise en place du nouveau
tarif et c’est également inférieur au ratio calculé en 2017 sur les affaires renouvelées, sur
lesquelles s’applique l’ancien tarif. Tous les indicateurs montrent donc que le nouveau tarif
augmente la qualité du portefeuille. La prime moyenne par année d’assurance a légèrement
diminué, impactant à la hausse (+0.3%) le ratio sinistres attritionnels sur primes. Mais cette
90
baisse de prime n’est pas aléatoirement distribuée sur le portefeuille, et elle a été attribuée à des
risques dont le potentiel de rentabilité est supérieur au portefeuille en vigueur en 2016.
La mise en place d’un nouveau tarif a pour but d’améliorer la rentabilité du portefeuille,
mais également de générer de la croissance. Idéalement, un nouveau tarif doit créer de la
croissance rentable. Pour analyser l’impact du nouveau tarif sur le chiffre d’affaires, une analyse
de l’évolution des primes annuelles nettes est établie. Sous forme graphique, pour le segment des
motocycles, on obtient:
Figure 7.8 Développement des primes pour motocycles entre Q4 2016 et Q4 2017
On remarque tout d’abord que les annulations sont moins élevées en 2017 (1.8 MCHF) qu’en
2016 (2.0 MCHF). Le montant des primes annuelles nettes pour motocycles était de 14.9 MCHF
fin 2015. On a donc 13.4% de primes annulées courant 2016, contre 12.0% courant 2017. Par
ailleurs, les nouvelles affaires sont en forte augmentation en 2017 (+2.4MCHF) par apport à
2016 (+1.6 MCHF). Ces phénomènes peuvent notamment s’expliquer par la baisse de la prime
moyenne par unité d’exposition, qui permet d’avoir un tarif plus attractif pour les clients. Et
puisque cette baisse de la prime moyenne est combinée à une amélioration de la rentabilité du
portefeuille, l’analyse ad-hoc du nouveau tarif démontre la sur-performance de ce dernier par
rapport à l’ancien tarif. La qualité supérieure du nouveau tarif est donc validée.
91
Chapitre 8
• la distance parcourue
• l’heure de conduite
• le type d’axe sur lequel l’usager se déplace (route de campagne, route de ville, autoroute
etc.)
93
• les conditions de circulation (trafic dense ou fluide)
• la vitesse de conduite
• l’accélération longitudinale
• l’accélération latérale
• libérer le conducteur d’un certain nombre de taches qui pourraient atténuer sa vigilance
Tout système allégeant et facilitant la tâche du conducteur peut être considéré comme une
aide à la conduite automobile. De nombreux dispositifs sont d’ores et déjà disponibles. La liste
suivante décrit de façon non exhaustive ces technologies.
94
Figure 8.1 Evolution attendue du volume de prime d’assurance pour les véhicules à moteur en fonction de
l’impact de la technologie
Le freinage automatique
Cette technologie est conçue pour réduire la gravité des collisions à grande vitesse en cas d’oubli
de la part du conducteur. Bien que certains systèmes de freinage automatique puissent réellement
95
prévenir les collisions, ils ont généralement pour but de ralentir le véhicule afin de causer moins
de dommages et d’accidents mortels.
Le contrôle de descente
Le contrôle de descente est une technologie avancée d’assistance au conducteur qui facilite
la descente des pentes raides. Ces systèmes fonctionnent en activant les freins pour ralentir
96
automatiquement le véhicule. Certains systèmes de contrôle en descente permettent de modifier
la vitesse via le système de régulation de vitesse, et ils peuvent généralement être neutralisés en
appuyant sur le frein ou sur l’accélérateur.
Dans les marchés saturés tels que la Suisse ou plus largement l’Europe occidentale, le nombre
de véhicules en circulation stagne. À long terme, les primes d’assurance individuelle devraient
diminuer, et les primes d’assurance pour les couvertures en responsabilité civile des fabricants
de véhicules devraient augmenter, car les voitures deviennent de plus en plus automatisées. Le
risque devient lié à la fiabilité de la technologie embarquée, plutôt qu’à la conduite du conducteur.
Les assureurs doivent donc développer des capacités d’analyse des technologies embarquées afin
de pouvoir évaluer cette nouvelle forme de risque en assurance pour véhicules à moteur.
97
Chapitre 9
Conclusion
La première étape du processus de tarification dans laquelle l’actuaire est impliqué est la
préparation des données. Il doit mettre en place des analyses univariées approfondies par
rapport aux différentes variables explicatives candidates. Parfois, un nettoyage des données est
nécessaire, et des regroupements de modalités doivent être envisagés afin d’assurer la qualité des
modèles. L’actuaire doit ensuite sélectionner un modèle théorique compatible avec le risque qu’il
souhaite modéliser.
Historiquement, les assureurs ont utilisé des variables liées aux caractéristiques du véhicule
et de ses usagers pour estimer le la prime pure. L’émergence de la télématique va permettre aux
actuaires d’avoir une approche plus précise, avec l’utilisation de variables mesurant la qualité
de conduite de l’assuré. Par exemple, les données collectées avec un accéléromètre peuvent être
utilisées par l’assureur et ainsi, la prime des conducteurs qui ont la conduite la moins risquée
diminue. Surtout, la société au sens large devrait bénéficier de la télématique car les conducteurs
sont incités à améliorer leur comportement au volant. Des conseils de conduite peuvent leur
être transmis afin de favoriser une conduite plus souple réduisant les risques d’accident, et par
la même occasion la pollution en optimisant la consommation de carburant. Mais l’analyse
du comportement au volant des conducteurs pourrait rapidement devenir caduque, du fait de
99
l’émergence de systèmes d’aide à la conduite de plus en plus perfectionnés. Le risque n’est alors
plus vraiment lié au conducteur, mais à la fiabilité de la technologie embarquée.
100
Bibliographie
GENUER R., POGGI J.M. « Arbres CART et Forêts aléatoires, Importance et sé-
lection de variables »
101
KELLY R. [2014]: « Bagging, Random Forests, Boosting »
TEMPLE S. D. [2018] « The Tweedie Index Parameter and Its Estimator. An Introduction
with Applications to Actuarial Ratemaking »
YAN J. [2011] « Loss Cost Modeling vs. Frequency and Severity Modeling »
YBARRA J. [2017] « Happy Anniversary: The First Auto Insurance Policy Was
Sold Over 120 Years Ago This Week To A Massachusetts Man »
102
Table des figures
103
6.8 Résultats lors de la première itération du processus de sélection des variables explica-
tives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.9 Fréquence RC des motocycles par code postal du conducteur principal . . . . . . . 68
6.10 Coefficients de régression par code postal - lissage faible . . . . . . . . . . . . . . 69
6.11 Coefficients de régression par code postal - lissage fort . . . . . . . . . . . . . . . 70
6.12 Résultats lors de la dixième itération du processus de sélection des variables explicatives 71
6.13 Déviance obtenue avec l’ajout d’un terme d’interaction . . . . . . . . . . . . . . . 71
6.14 Déviance sur l’échantillon de validation en fonction du nombre de variables explicatives 72
6.15 Déviance sur l’échantillon test en fonction du nombre de variable explicatives . . . 73
6.16 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.17 Erreur sur l’échantillon test en fonction du nombre d’arbres construits . . . . . . . 75
6.18 Erreur quadratique moyenne sur l’échantillon test en fonction des paramètres testés 75
6.19 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.20 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.21 Erreur en fonction du nombre d’itérations . . . . . . . . . . . . . . . . . . . . . . 78
8.1 Evolution attendue du volume de prime d’assurance pour les véhicules à moteur en
fonction de l’impact de la technologie . . . . . . . . . . . . . . . . . . . . . . . . 95
104
Appendix A
On veut montrer le théorème de la variance totale: si X et Y sont deux variables aléatoires sur un
même espace de probabilité, et si la variance de Y est finie, alors:
Le théorème de la variance totale peut être démontré en utilisant la formule des espérances totales.
Tout d’abord, par définition de la variance:
On a donc:
V(Y) = E(E(Y 2 |X)) − E(E(Y|X))2 (3)
Par ailleurs, en appliquant le développement de (2) à l’équation (3), on a:
On obtient donc:
V(Y) = V(E(Y|X)) + E(E(Y 2 |X)) − E(E(Y|X)2 )
Or on a:
E(V(Y|X)] = E[(E(Y 2 |X)) − (E(Y|X)2 )]
(1) est donc vérifiée.
105
Appendix B
Dans cette annexe, nous démontrons les expressions de l’espérance et de la variance d’une
variable aléatoire Y dont la densité de probabilité fY appartient à la famille exponentielle. On
part de l’égalité: ∫
fY (y; θ, ϕ)dy = 1
y
∂ ∂
∫ ∫
fY (yi ; θi , ϕi )dy = fY (yi ; θi , ϕi )dy
∂θ y y ∂θ i
Soit:
∂
∫
0= fYi (yi ; θi , ϕi )dy
y ∂θ
∂
∫
1
0= fYi (yi ; θi , ϕi ) fYi (yi ; θi , ϕi )dy
y fYi (yi ; θi , ϕi ) ∂θ
∂
∫
0= ln[ fYi yi ; θi , ϕi )] fYi (yi ; θi , ϕi )dy
y ∂θ
yi − b′ (θi )
∫
0= fY (y; θ, ϕ)dy
y ai (ϕ)
1
0= [E(Yi ) − b′ (θi )]
a(ϕ)
On obtient donc:
E(Yi ) = b′ (θi )
107
En dérivant une seconde fois, on obtient:
∂ ∂
∫ 2 ∫
ln[ fYi (yi ; θi , ϕi )] fYi (yi ; θi , ϕi )dy + ln[ fYi (yi ; θi , ϕi )]2 fYi (yi ; θi , ϕi )dy = 0
y ∂ θ y ∂θ
2
Calculons les deux termes à gauche de l’égalité. Le premier terme peut s’écrire:
∂
∫
A= (yi − b′ (θi ) fYi (yi ; θi , ϕi )dy
y ∂θ
∫
1
=− b′′ (θ) fYi (yi ; θi , ϕi )dy
a(ϕ) y
108
Appendix C
On pose:
yi × θi − b(θi )
li; θi , ϕ (yi ) = + c(yi , ϕ)
ai (ϕ)
La log-vraisemblance du modèle linéaire généralisé s’écrit:
n n
∑ yi × θi − bi (θi ) ∑
lθi , ϕ (y) = + c(yi , ϕ) = li; θi , ϕ (yi )
i=1
ai (ϕ) i=1
Par ailleurs, on a: ∫
f (yi ; θi , ϕ)dyi = 1
109
donc
∂
∫
f (yi ; θi , ϕ)dyi = 0
∂θi
Sous des conditions de régularités, on a:
∂
∫
f (yi ; θi , ϕ)dyi = 0
∂θi
soit:
yi − b′ (θi )
∫ ( )
exp yi θi − b(θi )ai (ϕ) + c(yi , ϕ) dyi = 0
ai (ϕ)
d’où:
E(yi ) = b′ (θi )
Et avec b bijective, on a les relations:
⎧
θi = b′−1 (µi ), expression qui permet d’estimer le paramètre naturel
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪ ′
b′−1 (θi ) = b′′ (b′−1
1
⎪
⎪
⎪
⎩ (µ ))
i
110
Le système (1) que l’on cherche à résoudre devient:
n
∑ dηi
∀ j ∈ [1, p], s j (β) = Wi (yi − µi ) xi, j = 0
i=1
dµi
ζi+1 = ζi − Ds−1
j (ζi )s j (ζi )
On a:
n
∂2 l ∂ ∑ (yi − µi ) dµi
= xi, k
∂β j ∂βk ∂βk i=1 Vi dηi
n
∑ ∂ Vi−1 dηi ∂ V −1 dηi
= (yi − µi ) xi, j + (yi − µi ) i xi, j
i=1
∂βk dµi ∂βk dµi
111
et avec:
∂ ∂ dµi dηi dµi
(yi − µi ) = − (µi ) = − =− xi, k
∂βk ∂βk ηi βk ηi
on obtient:
n n
∂2 l ∂
[ ] ∑
−1 dηi dµi
∑
= (yi − µi ) Vi xi, j − Vi−1 xi, k xi, j
∂β j ∂βk i=1
∂βk dµi i=1
dηi
Ces équation sont fortement dépendantes des valeurs individuelles yi de Y. Pour assurer une
meilleure convergence de l’algorithme, on utilise l’espérance de la dérivée seconde, et avec
E( ni=1 yi − µi ) = 0, on trouve:
∑
⎡ n ⎤
∂ l
[ 2 ]
⎢⎢⎢∑ −1 dµi
= −E ⎢⎢⎣ Vi
⎥⎥
E xi, k xi, j ⎥⎥⎥⎦
∂β j ∂βk i=1
dηi
L’algorithme à résoudre est alors l’algorithme de Fisher scoring.
⎡ n ⎤
∂ l
[ 2 ]
⎢⎢⎢∑ −1 dµi
= −E ⎢⎣ Vi
⎥⎥
E xi, k xi, j ⎥⎥⎥⎦
∂β j ∂βk
⎢
i=1
dηi
n
∑
=− Wi xi, k xi, j
i=1
La matrice associée, matrice des covariances nommée matrice d’information de Fisher, s’écrit
donc sous la forme:
∂2 l
[ ]
A(β) = −E = X T WX
∂β j ∂βk j, k∈[1, p]
Soit βr l’estimation de β lors de la rème itération. A partir du développement de Taylor établit
précédemment, l’algorithme itératif d’estimation des coefficients de régression s’écrit:
βr+1 = βr + A−1 (βr )s(βr ) ∈ R p
Il est appliqué jusqu’à ce que l’on considère l’écart |βr+1 − βr | comme suffisamment petit pour
pouvoir prétendre que l’algorithme a convergé et que βr est très proche de β. L’algorithme utilisé
pour estimer β est le suivant:
Initialisation: r = 0
Etape 1: Soit βr l’estimateur actuel de β. On calcule:
Etape 2: Calcule de βr+1 à partir de l’équation:
βr+1 = βr + A−1 (βr )s(βr ) ∈ R p
Puis on retourne à l’étape 1 jusqu’à ce que l’écart |βr+1 − βr | soit considéré comme suffisamment
petit.
112