Vous êtes sur la page 1sur 152

Mmoire prsent devant

lUFR de Mathmatique et dInformatique

pour lobtention du Diplme Universitaire dActuaire de Strasbourg

et ladmission lInstitut des Actuaires

le 02/10/2014

Par : Ozlem KARATEKIN


Titre: Tarification et mesure de lantislection en assurance sant collective

Confidentialit : NON OUI (Dure : 1 an 2 ans)

Les signataires sengagent respecter la confidentialit indique ci-dessus


Membres du jury de lInstitut des Entreprise :
signature
Actuaires
M. MODRY et M. YOU Nom : Assurances du Crdit Mutuel
Signature :
Membres du jury de lUdS : Directeur de mmoire en entreprise :
Nom : Nomie DREYFUS

M. BERARD Signature :
M. EISELE Invit :
M. FRANCHI Nom :
M. NETZER Signature :
Autorisation de publication et de
mise en ligne sur un site de
Invits : diffusion de documents actuariels
M. DUBOIS (aprs expiration de lventuel dlai de
M. FITOUCHI confidentialit)
Mme FOATA
M. GADENNE
M. HESS
Mme KELLE-VIGON Signature du responsable entreprise
Mme MAUMY-BERTRAND
M. VIGON

Secrtariat : Mme Maire-Lantz Signature du candidat

Bibliothque : Mme Christine Disdier


2
Rsum

Mots cls : Assurance sant collective, Tarification, Modle linaire gnralis, Mo-
dle frquence-cot, Risque dantislection.

Le contexte trs concurrentiel du march de lassurance sant collective incite les as-
sureurs tablir des tarifs comptitifs. Ce besoin sest accru suite laccord national
interprofessionnel du 11 janvier 2013. Lobligation pour les entreprises du secteur priv
de souscrire un contrat complmentaire sant pour lensemble de leurs salaris, a pour
consquence une dynamisation du secteur collectif de lassurance sant. Dans ce cadre, ce
mmoire propose de tester une mthode alternative la mthode traditionnelle de tarifi-
cation frquence - cot moyen , base sur les modles linaires gnraliss.

Aprs une analyse prliminaire du portefeuille, les facteurs expliquant le comporte-


ment de consommation de frais de soins de sant ont t slectionns et une classification
des dpartements a t effectue en fonction de la sinistralit observe. La frquence de
consommation et le remboursement moyen ont t modliss sparment pour lensemble
des actes de soins mdicaux tudis. tant donn que le comportement de consommation
est diffrent selon les actes considrs, les rsultats obtenus ont t prsents selon les deux
cas suivants : une consommation frquente telle que les analyses et actes de laboratoire et
une consommation plus rare telle que les prothses dentaires. Ainsi, diffrents GLM ont
t tests pour la modlisation de la frquence de consommation afin de trouver le modle
le plus appropri aux donnes tudies, notamment les modles modifis en zro et
binomial ngatif. Enfin, les rsultats obtenus des diffrents modles ont t confronts
la mthode actuelle de tarification directe de la frquence et du cot moyen.

Cette tarification a permis dtablir la prime pure des contrats sant collectifs ayant
un caractre obligatoire. Par ailleurs, ce mmoire propose galement une analyse et une
mthode descriptive pour la prise en compte du risque dantislection caus par la commer-
cialisation de contrats collectifs facultatifs. Dfini comme limpossibilit pour lassureur de
distinguer les profils de risque, le risque dantislection est un phnomne conomique qui
a t apprhend par une approche statistique. Lcart de frquence de consommation a
t observ entre les contrats collectifs obligatoires et contrats individuels, compte tenu
de donnes insuffisantes relatives aux contrats collectifs facultatifs. Pour finir, une analyse
par poste de garantie et par ge a permis dacqurir une meilleure connaissance de ce
risque.

3
Abstract

Keywords : Group health insurance, Pricing, Generalized linear model, Frequency -


average cost model, Adverse selection risk.

In the extremely competitive environment of the market of group health insurance,


following the French Inter-professional national agreement (Accord National Interprofes-
sionnel) of January 11 in 2013, insurers seek to establish competitive prices. Companies
in the private sector have to purchase a health care insurance policy for their salaries and
this has the effect of stimulating the group health insurance market. In this context, this
report suggests to test an alternative method to the frequency - average cost usually
used, named generalized linear model.

After a primary analysis of the portfolio, the factors which can influence the medi-
cal consumption behaviour were selected and a classification of the geographical location
were done according to the medical consumption. The frequency of consumption and the
average cost were modeled separately for all acts of medical care studied, the results have
been presented according to this two cases : a frequent consumption as laboratory tests
and infrequent as dental prosthesis. Thus, different GLM have been tested to model the
frequency of consumption in order to find the most appropriate model to the data used, as
negative binomial and zero inflated models. Finally, the results of the different models
used, have been compared to the method of pricing directly the frequency and the average
cost.

We used these models in order to estimate the insurance premiums of group health
policies which are compulsory. This report also presents an analysis and a descriptive
method in order to take into account the adverse selection risk, caused by the marketing
of voluntary group policies. Defined as the impossibility for the insurer to distinguish
the risk profiles, the adverse selection risk is an economic phenomenon which we try to
analyse in a statistical approach. The difference of the frequency of consumption has been
observed between the compulsory group policies and the individual policies, because of an
insufficient number of voluntary group policies. Finally, an analysis according to category
of medical acts and age has permitted to have a better knowledge of this risk.

4
Remerciements

Tout dabord, je tiens exprimer toute ma gratitude envers ma maitre de stage No-
mie Dreyfus, responsable du service Actuariat, pour la confiance quelle a su maccorder
et pour son suivi et son aide tout au long de ce stage.

Un grand merci Mario Gugumus pour mavoir fait bnficier de ses pertinentes re-
marques et suggestions. Il a suivi avec beaucoup dintrt les travaux effectus et a su tre
disponible tout au long de ce stage.

Je remercie Patrick Garcia, pour son accueil, ses encouragements et ses prcieuses aides
concernant la rdaction du mmoire en Latex.

Je suis galement reconnaissante envers Mme Muriel Marron et Mme Sabine Klein
de mavoir permis de raliser ce stage de fin dtudes au sein des Assurances du Crdit
Mutuel et je remercie lensemble du service collectif pour leur accueil.

Mes remerciements sadressent galement ma tutrice universitaire, Mme Myriam


Maumy-Bertrand, pour sa relecture du mmoire et ses conseils aviss.

Enfin, je souhaiterais exprimer ma reconnaissance envers les membres de ma famille,


pour leur soutien moral et leur patience durant toute ma formation universitaire.

5
Table des matires

Rsum 3

Abstract 4

Remerciements 5

Introduction gnrale 9

I Lassurance sant 11

1 Le rgime de la Scurit Sociale 12


1.1 Le fonctionnement gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Les principaux rgimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Le principe de remboursement . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Les complmentaires sant 16


2.1 Le remboursement de la complmentaire sant . . . . . . . . . . . . . . . . 16
2.2 Les diffrents types de contrats sant . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Les diffrents types de cotisation . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Le contexte actuel de lassurance sant 19


3.1 Quelques chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Laccord national interprofessionnel . . . . . . . . . . . . . . . . . . . . . . . 20

II Lanalyse prliminaire des donnes 23

1 Le produit tudi 24
1.1 Les contrats collectifs sur mesure . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Les diffrents postes de garanties tudies . . . . . . . . . . . . . . . . . . . 25

2 La composition du portefeuille 26
2.1 La description du portefeuille . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Le traitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Statistiques descriptives et analyse des donnes 29


3.1 Ltude dmographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 La consommation en fonction de lge . . . . . . . . . . . . . . . . . . . . . 31

6
3.3 Lanalyse des nouvelles variables tarifaires . . . . . . . . . . . . . . . . . . . 34
3.4 Lanalyse en composantes principales (ACP) sur le lieu dhabitation . . . . 35
3.5 La classification ascendante hirarchique (CAH) sur le lieu dhabitation . . 41

III La tarification 46

1 La thorie des modles linaires gnraliss (GLM) 49


1.1 La prsentation gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2 Distribution dune famille exponentielle . . . . . . . . . . . . . . . . . . . . 51
1.3 Lestimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2 Les critres de choix de modle 56


2.1 La validation et la comparaison de modles . . . . . . . . . . . . . . . . . . 56
2.2 La slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3 La prise en compte de la dispersion 62


3.1 La prsentation du phnomne . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 Le modle quasi-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Le modle binomial ngatif . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4 Les modles modifis en zro . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4 Lapplication la modlisation de la frquence 67


4.1 Lanalyse de la variable explique . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Application de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Les modles alternatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 La comparaison des modles . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 Lapplication la modlisation du cot moyen 82


5.1 Lanalyse de la variable explique . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Le choix de la loi de probabilit . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3 Lestimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4 Lanalyse des rsidus du modle slectionn . . . . . . . . . . . . . . . . . . 90
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6 La comparaison avec la mthode directe 93


6.1 La cohrence de la prime estime avec le GLM . . . . . . . . . . . . . . . . 93
6.2 La comparaison avec la mthode directe . . . . . . . . . . . . . . . . . . . . 95
6.3 La conclusion et limites du GLM . . . . . . . . . . . . . . . . . . . . . . . . 99

IV Lanalyse et la mesure du risque dantislection 100

1 La prsentation du phnomne dantislection 101


1.1 Dfinition gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
1.2 Lapproche conomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
1.3 Les solutions possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7
2 Lanalyse statistique 107
2.1 La prsentation de la mthode danalyse retenue . . . . . . . . . . . . . . . 107
2.2 Ltude de la dmographie par type de contrat . . . . . . . . . . . . . . . . 111
2.3 La vrification de lexistence du phnomne dantislection . . . . . . . . . . 118
2.4 La mesure de lantislection . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
2.5 La mesure de lantislection par postes de garantie . . . . . . . . . . . . . . 125
2.6 La mesure de lantislection en fonction de lge . . . . . . . . . . . . . . . . 128

Conclusion gnrale 131

Liste des abrviations 133

Table des figures 135

Liste des tableaux 137

Annexes 139

8
Introduction gnrale

Laccord national interprofessionnel du 11 janvier 2013 1 bouleverse le march franais


de lassurance sant. Cet accord, exigeant la mise en place dune complmentaire sant
obligatoire pour tous les salaris du secteur priv dici 2016, devrait entraner un trans-
fert des contrats individuels des salaris vers les contrats collectifs obligatoires. Ce contrat
obligatoire doit respecter les garanties minimales fixs par un projet de dcret trs attendu
par les assureurs. Compte tenu du faible niveau de remboursement fix par ce projet de
dcret, les assureurs prvoient galement une hausse du recours aux contrats collectif fa-
cultatifs par les assurs pour augmenter leur niveau de remboursement et complter leur
panier de soins.

Dans ce contexte trs concurrentiel, les assureurs se doivent de proposer des tarifs com-
ptitifs tout en couvrant leurs engagements dans le remboursement des frais de sant des
assurs et leurs frais de fonctionnement. Cela rend ncessaire le dveloppement de modles
de tarification permettant dapprhender au mieux les risques sous-jacents.

Cest dans ce cadre que sinscrit ce mmoire ayant pour premier objectif la tarification
de contrats collectifs en sant dans le cadre dun modle frquence - cot moyen. Lobjectif
de cette premire tude est de mettre jour le tarificateur actuel et de tester ladquation
dun modle paramtrique aux donnes tudies : le modle linaire gnralis. Ce type
de modle, utilis majoritairement en assurance non vie, est une gnralisation du modle
linaire simple. Il permet notamment de modliser les frquences et cots moyens des actes
en fonction de variables ayant une influence sur ces deux grandeurs.
Le deuxime axe de ce mmoire vise valuer le risque dantislection, ncessaire la
tarification de contrats collectifs facultatifs. Pour ce faire, un ou plusieurs coefficients de
majoration seront appliqus au tarif dun contrat collectif obligatoire. Afin destimer ces
coefficients indpendamment du phnomne dala moral, trs prsent en sant, une m-
thode danalyse de ces coefficients par niveau de garanties du contrat sera prfre.

La premire partie de ce mmoire est consacre la prsentation du secteur de las-


surance sant en France, comprenant notamment une brve description du contexte actuel.

Une deuxime partie est ddie lanalyse des donnes et aux statistiques descrip-
tives. Une analyse plus dtaille est prsente concernant linfluence du lieu dhabitation
de lassur sur sa consommation en frais de soins de sant par lutilisation de techniques
statistiques multivaries.
1. Accord transcrit dans la loi relative la scurisation de lemploi vote le 15 juin 2013 (Loi n2013-
504).

9
Dans la troisime partie, la thorie des modles linaires gnralise est dveloppe
afin de lappliquer la modlisation de la frquence et du cot moyen. Une attention
particulire est accorde la modlisation de la frquence, pour laquelle divers modles
sont tests et compars afin de choisir le meilleur modle ajust aux donnes tudies. Les
rsultats sont ensuite compars la mthode de tarification actuelle.

Enfin, dans la dernire partie de ce mmoire, une analyse la fois micro-conomique et


statistique est prsente pour expliquer et mesurer le risque dantislection. Une vrifica-
tion pralable de la prsence de ce phnomne est effectue avant de proposer une analyse
par poste de garantie et par ge de lassur.

10
Premire partie

Lassurance sant

Dans cette premire partie, il convient de dcrire le secteur de lassurance sant en France.
Tout dabord, les deux acteurs de lassurance sant, cest dire la Scurit sociale et les
complmentaires sant seront prsents afin de comprendre leur fonctionnement et leur
rle dans le remboursement des frais de soins de sant. Et ensuite, une brve prsentation
du contexte actuel sera voque notamment avec lAccord national interprofessionnel dont
limpact sur le march de lassurance sant est majeur.

1 Le rgime de la Scurit Sociale 12


1.1 Le fonctionnement gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Les principaux rgimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Le principe de remboursement . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 La distinction des actes et le conventionnement . . . . . . . . . . . . 13
1.3.2 Le remboursement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Le parcours de soins coordonns et les franchises mdicales . . . . . 15

2 Les complmentaires sant 16


2.1 Le remboursement de la complmentaire sant . . . . . . . . . . . . . . . . 16
2.1.1 Le principe de remboursement . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Les expressions de garanties . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Les diffrents types de contrats sant . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Les diffrents types de cotisation . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Le contexte actuel de lassurance sant 19


3.1 Quelques chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Laccord national interprofessionnel . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Les accords de branche . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Le panier de soins minimum . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3 Le contrat responsable . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Chapitre 1

Le rgime de la Scurit Sociale

1.1 Le fonctionnement gnral


Cre aprs la seconde guerre mondiale, la Scurit sociale a t mise en place pour
protger les individus face aux consquences financires des risques sociaux. Elle est com-
pose actuellement de cinq branches : la maladie, les accidents du travail et les maladies
professionnelles, la retraite, la famille et le recouvrement. Nous nous intresserons la
branche maladie, et plus particulirement au domaine de la sant qui couvre les dpenses
de sant des assurs et les dpenses relatives la maternit. La Scurit sociale rembourse
galement les frais de sant des ayants droit, cest--dire des personnes charge de lassur
et qui ne peuvent bnficier dune protection sociale titre personnel. Les ayant droits
peuvent tre les enfants, le conjoint ou les ascendants charge de lassur.

1.2 Les principaux rgimes


Laffiliation au rgime de la Scurit sociale est obligatoire pour toutes les personnes
qui travaillent et rsident en France. Plusieurs rgimes de Scurit sociale existent en
France, dont les principaux sont :
rgime gnral / rgime local Alsace-Moselle ;
rgime social des indpendants (RSI) ;
rgime agricole ;
rgimes spciaux.

Le rgime gnral couvre environ 85% 2 de la population franaise. Il sagit de la


plupart des salaris, mais galement dautres catgories telles que les tudiants qui, au fil
du temps, ont t rattaches au rgime gnral.

Le rgime local Alsace-Moselle est un rgime particulier 3 qui concerne les salaris
exerant une activit dans les dpartements du Bas-Rhin (67), du Haut-Rhin (68) et de
la Moselle (57).

2. Source : www.ameli.fr, site de lassurance maladie


3. Rgime mis en place depuis 1946 suite lannexion de lAlsace-Moselle en 1871 par lAllemagne

12
Le rgime social des indpendants (non agricole) regroupe les travailleurs non-
salaris tels que les professions librales.

Le rgime agricole permet de couvrir les exploitants et salaris agricoles.

Les rgimes spciaux des salaris concernent notamment les salaris de la SNCF, de
la RATP, dEDF/GDF etc.

Aujourdhui, la Scurit sociale permet de couvrir une trs grande majorit des per-
sonnes rsidant en France 4 grce des dispositifs tels que la Couverture Maladie Univer-
selle (CMU) qui permet ces personnes qui ne sont pas affilies un rgime obligatoire,
laccs aux soins et le remboursement de ces derniers. Dautres dispositifs daides existent
afin de permettre tous les rsidents franais de bnficier dune couverture sant. Ce-
pendant, notre tude vise proposer une couverture complmentaire aux salaris des
entreprises, qui ne sont pas concerns par ce type de dispositifs, que nous ne dveloppons
pas.

1.3 Le principe de remboursement


1.3.1 La distinction des actes et le conventionnement
En assurance sant, les remboursements sont fonction dactes (consultations, soins et
prothses dentaires, optique,etc.) codifis par la Scurit sociale selon diffrentes nomen-
clatures.

La Classification Commune des Actes Mdicaux (CCAM) regroupe les actes techniques
raliss par les mdecins. Pour ce qui concerne les actes cliniques mdicaux, les actes des
chirurgiens-dentistes et des auxiliaires mdicaux, il convient de consulter la Nomenclature
Gnrales des Actes Professionnels (NGAP).

Le remboursement de la Scurit sociale va galement dpendre dun autre paramtre :


le conventionnement du mdecin. Nous distinguons trois types de conventionnement :
Mdecins conventionns du secteur 1 : ces mdecins appliquent le tarif conventionnel
et bnficient, en contrepartie, dune prise en charge partielle des charges sociales
par lEtat.
Mdecins conventionns du secteur 2 : ces mdecins peuvent fixer des tarifs suprieurs
au tarif conventionnel, mais ils sont contraints de payer en totalit leurs charges
sociales.
Mdecins non conventionns : ces mdecins nont pass aucune convention avec la
Scurit sociale et, sont ainsi libres dappliquer le tarif souhait. En contrepartie, la
prise en charge par la Scurit sociale des frais de consultations de leurs patients
sera trs faible.

Un nouveau type de contrat, appel contrat daccs aux soins et destin aux
mdecins conventionnes du secteur 2 et certains mdecins du secteur 1, est entr en
4. Daprs lINSEE, 99.6% des rsidents franais en 2003

13
vigueur depuis le 1er dcembre 2013. Les mdecins signataires de ce contrat sengagent
respecter des tarifs de consultations, et bnficient en contrepartie dun allgement de
leurs cotisations sociales. Lobjectif est de diminuer les frais restant charge de lassur
la suite du remboursement de la Scurit sociale pour les mdecins pratiquant des tarifs
suprieurs au tarif conventionnel.

1.3.2 Le remboursement
La dcomposition des frais mdicaux en sant peut tre illustre par le schma ci-
dessous :

Figure 1 Dcomposition des frais de sant

Les frais rels correspondent au tarif appliqu par le praticien pour tout acte mdical.

Lassurance maladie obligatoire tablit une base de remboursement pour chaque


acte. Il sagit de tarifs tablis par convention ou par arrt ministriel. La base de rem-
boursement correspond au tarif de convention lorsque lacte est effectu par un mdecin
conventionn. Elle correspond au tarif dautorit, montant trs faible, lorsquil sagit dun
mdecin non conventionn.

Le montant rembours par la Scurit sociale, avant lapplication ventuelle de la par-


ticipation forfaitaire, correspond la base de remboursement multipli par un taux de
remboursement. Ce taux dpend du type dacte et du rgime auquel adhre le salari.

La participation forfaitaire, due pour certains actes, correspond un montant de 1 e


la charge du patient afin dallger le dficit de lassurance maladie.

Le schma ci-dessous permet dillustrer le montant la charge de lassurance mala-


die obligatoire dun salari au rgime gnral dans le cas dune consultation de mdecin
gnraliste (nappliquant pas de dpassements).

14
Figure 2 Remboursement de la Scurit Sociale dans le cas dune consultation chez le
gnraliste

1.3.3 Le parcours de soins coordonns et les franchises mdicales


Afin de faire face au dficit financier de lassurance maladie, la rforme Douste-Blazy
a t mise en uvre entre 2004 et 2007. Lobjectif tait de responsabiliser les bnficiaires
de lassurance maladie (assurs et ayants droit) pour ainsi conomiser plusieurs milliards
deuros par an. Cette rforme a notamment instaur un parcours de soins coordonns.

Chaque bnficiaire dune couverture maladie est incit dsigner un mdecin traitant,
qui est le pivot du systme. Ce mdecin traitant pourra ventuellement orienter le patient
vers un mdecin spcialiste. En respectant le parcours de soins coordonns, le bnficiaire
a une meilleure prise en charge des dpenses par la Scurit sociale. Ainsi, le montant pris
en charge par le rgime de la Scurit sociale dpend galement de ce dispositif.

Dautres mesures ont t mises en place partir du 1er janvier 2008 afin de responsa-
biliser les bnficiaires dune couverture maladie, telles que les franchises mdicales.

Les montants de ces franchises sont :


0,5 e par bote de mdicaments ;
0,5 e par acte paramdical ;
2 e pour chaque recours au transport sanitaire.

Ces franchises sont plafonnes annuellement hauteur de 50 e pour lensemble des


actes et prestations concernes. Un plafond journalier est galement appliqu, soit 2 e pour
les actes paramdicaux et 4 e pour les transports sanitaires. Elles ne sont pas dduites
des remboursements de la Scurit sociale pour les personnes ges de moins de 18 ans,
les bnficiaires de la CMU et les femmes enceintes.

15
Chapitre 2

Les complmentaires sant

2.1 Le remboursement de la complmentaire sant


2.1.1 Le principe de remboursement
La complmentaire sant (mutuelle, institution de prvoyance ou socit dassurance)
permet aux bnficiaires dune couverture dassurance maladie, de bnficier dun rem-
boursement complmentaire celui de la Scurit sociale. Elle rembourse tout ou une
partie des frais rels. En effet, aprs le remboursement de la Scurit sociale, il reste gn-
ralement un montant charge de lassur. Il sagit dun montant compos de la participa-
tion forfaitaire, du ticket modrateur et des ventuels dpassements. Le ticket modrateur
correspond la diffrence entre la base de remboursement et ce que rembourse lassurance
maladie obligatoire. En gnral, les frais rels ne sont pas quivalents au ticket modrateur
puisque des dpassements dhonoraires peuvent tre pratiqus par les mdecins conven-
tionns et non conventionns. Il sagit de la partie des honoraires qui excde la base de
remboursement. Ainsi, les bnficiaires dune couverture sant peuvent avoir recours une
complmentaire sant afin de rduire les cots de leur consommation.

Par exemple, dans le cas dune consultation au rgime gnral de mdecin gnraliste
pratiquant des dpassements dhonoraires :
Cot de la consultation : 25 e
Ticket modrateur : 23 e - remboursement thorique de la Scurit sociale (partici-
pation forfaitaire inclus) = 6,90 e
Dpassements : 25 e - 23 e= 2 e

Dans cet exemple, la complmentaire sant pourra rembourser partiellement ou totale-


ment le montant de 8,90 e rsultant du ticket modrateur et des dpassements.

Les organismes dassurance peuvent galement prendre en charge des dpenses qui ne
bnficient daucun remboursement par lassurance maladie obligatoire tels que certains
mdicaments, des lentilles de contact, etc.

16
2.1.2 Les expressions de garanties
Sur le march de lassurance, il existe diffrentes formes dexpressions de rembour-
sement utilises par les complmentaires sant. Il convient de distinguer le pourcentage
exprim, si le remboursement inclut ou non le remboursement de la Scurit sociale, lexis-
tence dun plafond, et la base de calcul.

Par exemple, le remboursement par la complmentaire sant des frais de consultation


dun gnraliste peut tre exprim par les deux expressions ci-dessous :
80% des frais rels ;
100% de la base de remboursement en plus du remboursement de la Scurit sociale

Les diffrentes expressions de garanties sont dcrites ci-dessous :


Remboursement en fonction de la base de remboursement (BR)
Cette expression est souvent utilise dans le cas des actes de soins courants. Le
remboursement en fonction de la base de remboursement peut donner des rsultats
diffrents si nous considrons que le remboursement de la Scurit sociale est inclus
(BR-RSS) ou non (BR en sus) dans le remboursement de la complmentaire sant

Remboursement en fonction du remboursement du rgime obligatoire (RSS)


Il sagit dun pourcentage exprim en fonction du montant rembours par la Scurit
sociale.

Remboursement en fonction dun forfait


Il sagit dun montant en euros. Ce montant peut tre en fonction du plafond mensuel
de la Scurit sociale 5 . Ce forfait peut tre galement accompagn dun rembour-
sement en fonction de la base de remboursement ou dautres expressions dfinies
ci-dessus. Par exemple, pour une prothse auditive, la garantie peut tre un rem-
boursement de 200% de la base de remboursement et un forfait de 150 e.

Remboursement en fonction des frais rels (FR)


Il sagit dun pourcentage des dpenses totales. Autrement dit, la complmentaire
sant remboursera un pourcentage du prix de lacte. Ainsi, ce pourcentage ne pourra
pas dpasser 100%.

Il est noter que cette liste nest pas exhaustive et que les remboursements se font
dans la limite des frais rels restant la charge de lassur suite au remboursement de la
Scurit sociale.

5. Le plafond mensuel (3 129e en 2014) de la Scurit sociale est utilis dans le calcul de certaines
cotisations sociales et de certaines prestations de la Scurit sociale.

17
2.2 Les diffrents types de contrats sant
En sant, les assureurs proposent plusieurs types de rgimes complmentaires. Nous
distinguons les rgimes individuels des rgimes collectifs qui peuvent avoir un caractre
obligatoire ou facultatif selon le type dadhsion. Contrairement aux contrats individuels
o ladhrent souscrit directement chez lassureur, un contrat collectif est conclu entre une
personne morale et lassureur et vise couvrir des adhrents. Une description plus prcise
des diffrents contrats est effectue ci-dessous.

Contrat collectif adhsion obligatoire : Gnralement dans le cadre dune en-


treprise. Le caractre obligatoire impose tous les salaris de lentreprise ou tous les
membres de la catgorie de personnel concerne par le contrat, dadhrer au rgime 6 et
impose galement lassureur daccepter tous les adhrents.
Ce type de contrat sera obligatoire pour toutes les entreprises dans le cadre de lANI.

Contrat collectif adhsion facultative : Les adhrents ne sont pas contraints,


mais ont la possibilit dadhrer au rgime. Lassureur peut alors tre confront des
problmes dantislection, puisque les salaris anticipant de fortes dpenses de sant choi-
siront de souscrire alors que ceux anticipant de plus faibles dpenses ne souhaiteront pas
adhrer au rgime ou se limiteront de faibles garanties (cf. partie 4).

Contrat collectif adhsion obligatoire et facultative : Il sagit dun contrat


adhsion obligatoire tel que dfini prcdemment qui comporte en complment des garan-
ties ou des options facultatives au choix du salari.

2.3 Les diffrents types de cotisation


Gnralement, les assureurs proposent plusieurs types de cotisations lemployeur dans
le cadre de contrats collectifs. La prime finale du contrat dpend du type de cotisation
choisi par lemployeur. A titre dexemple, les Assurances du Crdit Mutuel proposent les
cotisations suivantes :
cotisation de type adulte/enfant : chaque salari est assur en tarif adulte et
peut assurer son conjoint en tarif adulte et son enfant en tarif enfant.
cotisation de type famille : tous les salaris sont assurs en tarif famille ind-
pendamment de la composition familiale (un salari souhaitant affilier conjoint et
enfants paiera ainsi la mme prime quun salari adhrent seul).
cotisation de type isol/famille : si le salari sassure seul, il bnficiera dun tarif
isol, et dans le cas o il ne sassure pas seul, dun tarif famille.
cotisation de type 1 assur / 2 assurs / 3 assurs et plus : chaque salari peut
sassurer seul, ou assurer une autre personne, ou assurer deux autres personnes et
plus.

6. Cette condition nest pas vrifie dans le cas des contrats mis en place par dcision unilatrale
(crit accordant un avantage supplmentaire par rapport aux contrats de travail) pour lesquels les salaris
prsents au moment de la mise en place ont le choix dadhrer ou non.

18
Chapitre 3

Le contexte actuel de lassurance


sant

3.1 Quelques chiffres


Avant dtudier les donnes et de prsenter une mthode de tarification des contrats
complmentaires sant, il peut tre intressant dtudier les enjeux actuels.

La sant fait partie dun des principaux postes de consommation des franais. En 2012, si
nous ajoutons la consommation en sant des mnages, les dpenses de consommation en
sant des administrations publiques en biens et services individualisables, la sant consti-
tue le deuxime poste de consommation en France aprs le logement 7 .

Rpartition de la
Postes de consommation consommation
totale
Logement, chauffage, clairage 19.5 %
Sant 12.6 %
Produits alimentaires et bois- 10.4%
sons non alcoolises
Articles dhabillement et 3.2%
chaussures

Table 1 Les grands postes de consommation des mnages

Daprs les comptes de la sant publis par la Drees, les dpenses courantes de sant
ont augment de 60% 8 entre 2000 et 2012, soit une volution de 151 243 milliards deu-
ros par an. Cependant les dpenses totales de sant regroupent diffrentes catgories de
dpenses telles que les indemnits journalires, la dpendance, la formation, la gestion,
etc. Cest pourquoi, dans le cadre de ce mmoire, il est plus adapt de suivre lvolution
de la CSBM (consommation de soins et biens mdicaux).
7. Source : Insee, Structure des dpenses de consommation des mnages, donnes 2012.
8. Donnes recueillies dans le magazine lactuariel n11, Janvier 2014, page 21.

19
Celle-ci regroupe les catgories suivantes :
les soins hospitaliers ;
les soins courants : mdecins, dentistes et auxiliaires mdicaux ;
les mdicaments et autres bien mdicaux (optique, prothses etc.) ;
le transport de malades.

La CSBM augmente chaque anne et slve en 2012 10,5 9 milliards deuros. Son
taux de croissance en valeur atteint 2,2% par rapport 2011. Le graphique ci-dessous
illustre lvolution de ce taux depuis lanne 2000, un ralentissement est observ aprs
2002, encore plus marqu depuis 2010.

Figure 3 Taux de croissance de la CSBM

Outre laugmentation de la CSBM, la prise en charge de ces dpenses par la Scurit sociale
est en lgre baisse. Ainsi, la part prise en charge par les couvertures complmentaires
saccrot anne aprs anne. Entre 2000 et 2012, daprs la DREES, elle est passe de
12,4% 13,7%. Cette volution sexplique galement par la hausse du cot des dpenses
de sant (notamment lis aux progrs de la mdecine), lallongement de lesprance de vie
et lvolution des pratiques de consommation mdicale.

3.2 Laccord national interprofessionnel


Le secteur de lassurance sant est aujourdhui marqu par des changements impor-
tants. LAccord National Interprofessionnel (ANI) du 11 janvier 2013 oblige les entreprises
souscrire un contrat frais de sant pour lensemble de leurs salaris. tabli entre les syn-
dicats et les organisations patronales, il devra tre appliqu avant le 1er janvier 2016.
9. Source : DREES, Comptes nationaux de la sant, donnes 2012.

20
Laccord concerne toutes les entreprises du secteur priv avec au moins un salari et pr-
voit une participation partielle de lemployeur, a minima hauteur de 50%.

Il sagit ici dun enjeu important pour les assureurs puisquune partie non ngligeable
des salaris ayant une complmentaire sant individuelle va rsilier son contrat. Un trans-
fert des salaris du march de lassurance sant individuelle vers le march de lassurance
sant collective devrait soprer

3.2.1 Les accords de branche


Avant le 1er juillet 2014, cet accord pouvait relever dun accord de branche. En effet, au
sein dune branche professionnelle (exemple : branche automobile, branche coiffure, etc.),
les partenaires sociaux et les syndicaux peuvent ngocier afin de dterminer le contenu du
contrat propos par la branche et le niveau des garanties.

Par ailleurs, ils peuvent galement recommander un ou plusieurs organismes assureurs.


Il est noter quavant le 13 juin 2013, les branches professionnelles avaient la possibilit
de dsigner un organisme assureur pour lensemble des entreprises du secteur. Cette dis-
position inscrite dans le Code de la Scurit sociale a t censure par le Conseil Consti-
tutionnel, car ces clauses de dsignations portaient la libert dentreprendre et la
libert contractuelle une atteinte disproportionne au regard de lobjectif poursuivi de mu-
tualisation des risques 10 .

Aprs le 1er juillet 2014, si les ngociations au niveau des branches professionnelles ont
chou, les syndicats pourront ngocier jusquau 31 dcembre 2015. Aprs cette date, toutes
les entreprises seront contraintes de proposer un contrat sant obligatoire lensemble de
leurs salaris, dont le contenu inclut les garanties minimales prvues par dcret (au stade
de projet lors de la rdaction de ce mmoire).

3.2.2 Le panier de soins minimum


Les entreprises ou les branches professionnelles pourront librement dfinir leurs garan-
ties, condition de respecter les garanties minimales, appeles panier minimum de soins
, fixes par dcret, non encore paru.

Le projet de dcret prvoit le contenu du panier minimum suivant :


le remboursement du ticket modrateur pour la majorit des actes ;
le remboursement total du forfait journalier ;
la prise en charge suprieure au montant du ticket modrateur, soit 125% (BR-RSS),
dans le cadre du remboursement des prothses dentaires et de lorthodontie ;
un forfait optique de 100 euros par an.

10. Dcision n2013-672 DC du 13 juin 2013 du Conseil Constitutionnel, relative la loi sur la scurisation
de lemploi

21
3.2.3 Le contrat responsable
En vigueur depuis le 1er janvier 2006, la notion de contrat responsable de compl-
mentaire sant est utilise lorsque la complmentaire sant respecte des obligations de
remboursement et des interdictions de remboursement prvues par la loi, afin de bnfi-
cier des aides fiscales et sociales.

La notion de contrat responsable est en cours dvolution. Le projet prcise notamment


des plafonds de remboursement en soins courants et en optique.

22
Deuxime partie

Lanalyse prliminaire des donnes

La tarification dun contrat dassurance sant requiert une analyse prliminaire des don-
nes. Pour cela, il est dabord ncessaire de prsenter prcisment le produit tudi et les
donnes disposition. Pour lanalyse statistique des donnes, ltude dmographique et
lanalyse des variables affectant le tarif dun contrat sant seront dveloppes. Une tude
particulire du lieu dhabitation de lassur sera approfondie par lutilisation de deux m-
thodes statistiques : lanalyse en composantes principales et la classification ascendante
hirarchique.

1 Le produit tudi 24
1.1 Les contrats collectifs sur mesure . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Les diffrents postes de garanties tudies . . . . . . . . . . . . . . . . . . . 25

2 La composition du portefeuille 26
2.1 La description du portefeuille . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Le traitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Statistiques descriptives et analyse des donnes 29


3.1 Ltude dmographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 La consommation en fonction de lge . . . . . . . . . . . . . . . . . . . . . 31
3.2.1 Les consultations gnralistes . . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Les prothses dentaires . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Lanalyse des nouvelles variables tarifaires . . . . . . . . . . . . . . . . . . . 34
3.4 Lanalyse en composantes principales (ACP) sur le lieu dhabitation . . . . 35
3.4.1 Le principe de lACP . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.2 Les rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 La classification ascendante hirarchique (CAH) sur le lieu dhabitation . . 41
3.5.1 Le principe de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Les rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Chapitre 1

Le produit tudi

1.1 Les contrats collectifs sur mesure


Dans le cadre de ce mmoire, un tarif sur mesure sera dtermin pour les contrats col-
lectifs, adhsion facultative ou obligatoire. Le caractre facultatif des contrats sera pris
en compte travers un coefficient dantislection analys et dtermin dans la dernire
partie de ce mmoire.

Ces contrats ne font pas partie de la gamme Standard des Assurances du Crdit
Mutuel, avec des garanties prdfinies. Lobjectif est de proposer un tarif pour des ga-
ranties modulables par lentreprise pour chaque poste de garanties, en tenant compte de
lexistence de diffrents types dexpressions de garantie.

Le montant total de la cotisation due par lentreprise doit permettre de faire face aux
engagements de lassureur et tenir compte des frais de fonctionnement. Les engagements
de lassureur sont dtermins en agrgeant les primes pures de chaque assur, cest--dire
le cot de lassurance au niveau de chaque assur. Par consquent, ltude portera sur la
dtermination de la prime pure note P qui peut tre dcompose, en deux lments : le
nombre de sinistres N et le cot du remboursement moyen S, sous lhypothse dindpen-
dance de ces deux grandeurs :

P = E(N ) E(S)

o, E(N ) est le rapport entre le nombre dactes observ durant la priode dobservation
et le nombre dassur (frquence de consommation ou de sinistres), et E(S) se dduit du
rapport entre le cot total observ sur la priode dobservation et le nombre de sinistres.

24
1.2 Les diffrents postes de garanties tudies
Un contrat de complmentaire sant prvoit la couverture de nombreux postes de ga-
ranties. Les garanties et sous-garanties traites dans le cadre de ce mmoire seront tudies
et analyses sous la structure suivante :

Catgories
Sous catgories dactes
dactes
Consultations et visites chez les gnralistes
Consultations et visites chez les spcialistes
Actes de petite chirurgie effectus chez les mdecins
Transports
Soins courants
Auxiliaires mdicaux
Pharmacie
Analyses et actes en laboratoire
Radiologie et imagerie mdicale
Honoraires mdicaux ou chirurgicaux
Forfait hospitalier
Frais de sjour
Hospitalisation Chambre particulire
Maternit
Tlvision
Lit accompagnant
Montures
Optique Verres
Lentilles
Chirurgie rfractive
Consultations et soins dentaires
Prothses dentaires prises en charge par la Scurit so-
Dentaire ciale
Prothses dentaires non prises en charge par la Scurit
sociale
Orthodontie
Orthopdie
Prothses auditives
Autres
Grand appareillage
Cure thermale

Table 2 Les catgories et sous catgories de garantie tudies

25
Chapitre 2

La composition du portefeuille

2.1 La description du portefeuille


Les donnes ont t extraites sur les trois dernires annes de la base de donnes sant
des Assurances du Crdit Mutuel, cest--dire 2011, 2012 et 2013 afin dviter daccorder
de limportance des vnements relatifs une anne particulire. Afin daugmenter le
volume de donnes, les donnes relatives aux contrats collectifs et aux contrats individuels
ont t retenues. Par ailleurs, lutilisation de donnes individuelles permet deffectuer une
tarification par niveaux de garanties. En effet, la majorit des contrats collectifs concerne
des contrats avec des garanties sur-mesure, pour lesquels lexploitation des niveaux de
garanties est complexe.

Deux fichiers de donnes ont t crs laide du logiciel SAS 9.3 11 :


fichier contenant les effectifs :
pour chaque bnficiaire de la couverture complmentaire, le fichier dispose din-
formations relatives au contrat, relatives lassur et aux autres bnficiaires de la
couverture, soit environ 913 000 donnes.

fichier contenant les sinistres :


pour chaque sinistre, le fichier indique le remboursement du rgime obligatoire, le
remboursement des Assurances du Crdit Mutuel, le montant des frais rels, le reste
charge, la catgorie et sous-catgorie du poste de garantie et ainsi que lidentifiant
de lassur. Nous dnombrons au total 70 millions de sinistres pour lensemble des
catgories dactes sinistres.

Un fichier final regroupant les deux fichiers ci-dessus a galement t cr pour disposer
la fois des informations sur les sinistres et des informations sur les bnficiaires. Chaque
ligne de ce fichier correspond lagrgation du nombre de sinistres et du cot des sinistres
par bnficiaire selon la catgorie dacte.

11. Les traitements statistiques et les graphiques de ce mmoire ont t raliss laide du logiciel SAS
version franaise 9.3.

26
2.2 Le traitement des donnes
Avant dentamer le traitement des donnes, il est ncessaire de prendre en compte la
dure de prsence dun assur au sein de la base de donnes, puisquun assur prsent
deux mois a une plus forte probabilit de consommer une faible quantit dactes quun
assur prsent durant toute la priode dobservation. Ainsi, la variable anne risque a
t cre pour tenir compte de la fraction de temps de prsence dans la base de donnes.

Ensuite, en vue dobtenir un tarif prcis et juste, il est important dtudier et danaly-
ser les donnes disposition afin de traiter les donnes aberrantes (valeurs non cohrentes)
et manquantes. Dans un premier temps, les annes risques valeurs ngatives causes par
linversion de la date de dbut et de fin de garantie ont t corriges en slectionnant la
valeur absolue des annes risques. La variable recensant la catgorie socio-professionnelle
des assurs na pas t retenue, par manque de fiabilit. Des valeurs manquantes ont t
observes concernant notamment le sexe des assurs et des bnficiaires, ces contrats nont
pas t supprims pour ne pas perdre de linformation. Dautres vrifications ont t ef-
fectues sur les donnes et aucune valeur aberrante na t observe.

Enfin, afin de constituer les bases finales utiliser pour la tarification, il a t ncessaire
de vrifier les comportements de consommation par anne dobservation (pour visualiser
dventuelles tendances) et par type de contrat.

Pour chaque anne, les frquences de consommation et le cot moyen des diffrents
actes ont t calculs en fonction de lge des bnficiaires. Les reprsentations graphiques
de ces grandeurs en fonction de lge et par anne ont permis de visualiser les carts de
frquence et de cot moyen entre chacune des trois annes tudies. Les courbes tant
pratiquement superposes, le choix de retenir les trois dernires annes pour la tarification
a t confirm.

2.3 Les variables tarifaires


Lide en tarification est la segmentation des risques, cest dire de crer des catgories
de risques dans lesquelles se trouvent les assurs prsentant des caractristiques assez simi-
laires en matire de risque sant. Autrement dit, les assurs disposant dun comportement
de consommation semblable sagissant des dpenses de sant seraient regroups dans une
mme catgorie de risque, permettant lassureur de proposer un tarif adquat ce profil.
Afin de former ces catgories, nous disposons dinformations dcrites dans la partie descrip-
tion du portefeuille. Ainsi parmi ces informations, les variables ci-dessous, qui pourraient
avoir une influence sur les dpenses de sant, ont t pralablement slectionnes :
lge de lassur ;
le sexe de lassur ;
le rgime daffiliation la Scurit sociale (rgime gnral ou rgime local) ;
la rgion et le dpartement ;
le niveau de garantie des contrats, pour les contrats standards (niveaux 1, 2, 3, 4 et
5) ;
le type de bnficiaire (adhrent, conjoint, enfant ou autres) ;
le nombre denfants.

27
Sagissant de la tarification dun contrat collectif, les rgimes dadhsion autres que le
rgime gnral et le rgime Alsace-Moselle ne sont pas concerns par notre tude.

28
Chapitre 3

Statistiques descriptives et analyse


des donnes

Avant dentamer la tarification, des statistiques descriptives et des analyses statistiques


sont effectues afin de dresser un profil des donnes. Les variables tarifaires traditionnel-
lement utilises en assurance sant sont lge, le sexe, le rgime dadhsion et le niveau
de garantie du contrat. Nous proposons dans ce chapitre danalyser linfluence du lieu
dhabitation, du type de bnficiaire et du nombre denfants sur la sinistralit.

29
3.1 Ltude dmographique
Lobjet de cette partie est dtudier la rpartition des assurs en fonction des critres
de segmentation slectionns afin de prendre connaissance du profil de risque du porte-
feuille tudi.

Le graphique ci-dessous illustre la composition du portefeuille en distinguant pour chaque


ge, leffectif en nombre dannes risques des femmes et des hommes. Il comporte gale-
ment une distinction entre les assurs affilis au rgime gnral et ceux assurs au rgime
local.

Figure 4 Rpartition du portefeuille par ge et par rgime dadhsion

Leffectif semble assez bien rparti entre les hommes et les femmes, bien que le nombre
de donnes diminue lorsque lge de lassur augmente. Malgr une proportion faible de
leffectif au rgime Alsace-Moselle, les donnes du rgime Alsace-Moselle semblent tre ex-
ploitables. En effet, le groupe Crdit Mutuel tant bien implant en Alsace-Moselle, nous

30
disposons de suffisamment de donnes pour dcomposer le portefeuille en fonction du r-
gime dadhsion de lassur. Nanmoins, il faut tre vigilant sur le degr de segmentation.

La rpartition des contrats par niveau de garanties a galement t tudie. Le groupe


commercialise des contrats individuels avec cinq niveaux de garantie : 1, 2, 3, 4 et 5. Comme
nous ne disposons pas dinformations suffisantes sur les niveaux de garantie concernant les
contrats collectifs, il a t convenu dutiliser uniquement les contrats individuels dans le
cas dune segmentation par niveau de garantie. La diffrence de consommation entre les
contrats groupes et individuels sera prise en compte travers un coefficient dantislection
dtermin dans la partie 4 du mmoire.

1 2 3 4 5 Total
General 19,78% 37,90% 33,59% 7,81% 0,92% 100%
Local 0,00% 19,44% 44,68% 30,29% 5,59% 100%
Global 16,58% 34,91% 35,38% 11,45% 1,68% 100%

Table 3 Rpartition du portefeuille par niveau de garantie et par rgime dadhsion

Les niveaux de garantie les plus prsents dans le portefeuille sont le deuxime et troisime
niveau. Il faut porter une attention particulire au cinquime niveau de garantie qui est
souscrit par uniquement 1,68% des assurs. La rpartition des niveaux de garantie en
fonction des deux rgimes est diffrente de la rpartition globale. Pour le rgime local,
environ un tiers des assurs ont un niveau de garantie gal 4, alors que les assurs du
rgime gnral ayant souscrit une garantie de niveau 4 reprsentent uniquement 7,81% de
lensemble des assurs du portefeuille. Ainsi, les assurs du rgime local ont tendance
souscrire des garanties plus leves que les assurs du rgime gnral. Cela sexplique par
un reste charge plus faible suite au remboursement de la Scurit sociale pour les assurs
du rgime local, qui induit un plus faible remboursement de la complmentaire sant.

3.2 La consommation en fonction de lge


Lobjectif de cette sous-partie est danalyser leffet de lge sur la frquence de consom-
mation et le cot moyen des actes, ce qui nous permettra de raliser des regroupements
au niveau de la variable tarifaire ge . Ces regroupements seront utiliss dans la ta-
rification des contrats, puisquils permettront daugmenter le volume des donnes pour
chaque catgorie dassur. Les classes dge pourraient tre attribues de faon arbitraire,
par exemple par intervalle de cinq ans. Cependant, en sant, lge de lassur influence
trs significativement sa consommation. Nous observons en gnral une forme en W
avec un pic de consommation la naissance, ladolescence puis une phase de croissance
dont le rythme sacclre avec lge. Cette consommation varie galement selon la famille
dactes considre. Par exemple, en dentaire, les enfants consomment beaucoup plus que
les adultes (d lorthodontie), alors quen pharmacie ce nest pas le cas.

Cest pourquoi, afin dobtenir un tarif plus prcis par la suite, la formation des classes
dge sest effectue en analysant les courbes de consommation en fonction de lge, pour

31
chaque garantie tudie. Il sagit de reprer les ges o le comportement de consommation
est similaire et de les regrouper.

3.2.1 Les consultations gnralistes

Figure 5 Frquence de consommation en actes de consultations gnralistes en fonction


de lge

En ce qui concerne la frquence de consommation pour les consultations gnralistes,


nous observons une influence de lge entre 0 et 9 ans o il convient de crer des classes
plus petites. Pour les ges suprieurs 75 ans, le nombre de donnes tant faibles, il est
ncessaire de crer une seule classe. Par consquent, nous avons convenu de crer les classes
dge suivantes :

entre 0 et 1 an ;
entre 2 et 3 ans ;
entre 4 et 5 ans ;
entre 6 et 7 ans ;
entre 8 et 20 ans ;
entre 21 et 40 ans ;
entre 41 et 60 ans ;
entre 61 et 70 ans ;
entre 71 et 75 ans ;
suprieur ou gal 76 ans.

32
3.2.2 Les prothses dentaires

Figure 6 Frquence de consommation de prothses dentaires en fonction de lge

Pour ce poste de garantie, leffet de lge est diffrent. La consommation de prothses


dentaires commence uniquement partir de lge de 18 ans, augmente et atteint la fr-
quence maximale vers 75 ans. Les classes dges suivantes ont t cres en tenant compte
de la quantit de donnes :

strictement infrieur 20 ans ;


entre 21 et 25 ans ;
entre 26 et 30 ans ;
entre 31 et 35 ans ;
entre 36 et 40 ans ;
entre 41 et 45 ans ;
entre 46 et 50 ans ;
entre 51 et 55 ans ;
entre 56 et 60 ans ;
entre 61 et 65 ans ;
entre 66 et 70 ans ;
entre 71 et 75 ans ;
suprieur ou gal 76 ans.

33
3.3 Lanalyse des nouvelles variables tarifaires
Parmi les variables prsentes dans la base de donnes, certaines telles que lge ou le
sexe influent la consommation de faon vidente, contrairement dautres variables. Dans
cette partie, nous tudierons brivement linfluence de la variable recensant le type de
bnficiaire et de la variable comptant le nombre denfants par adhrent.

Les personnes couvertes par un contrat sant peuvent demander ladhsion de leurs
ayants droits, cest--dire les conjoints ou concubins, enfants et ascendants. La variable
type de bnficiaire permet ainsi de diffrencier ladhrent de ses ayants droits. Afin dexa-
miner leffet de cette variable sur la consommation en sant, la frquence de consommation
et le cot moyen ont t calculs :

Figure 7 Frquence de consommation et cot moyen par type de bnficiaire

La modalit autres contenue dans notre portefeuille correspond un ascendant ou


autre type dayant droit de ladhrent. La frquence de consommation de cette catgorie
nest pas fiable, puisque leffectif est trs faible. Les conjoints et adhrents semblent avoir
des comportements de consommation proches que ce soit pour la frquence ou le cot
moyen, contrairement aux enfants et autres bnficiaires. Toutefois, nous constatons gra-
phiquement que la frquence de consommation des conjoints est plus leve que celle des
adhrents et que le cot moyen des conjoints est plus faible que celui des adhrents. Ainsi,
le type de bnficiaire peut influer la consommation de frais de sant. Il sagit ici dune
analyse globale, tous les postes de garanties confondus. Par consquent, cet effet sera plus
ou moins marqu selon les postes de garanties.

Les mmes analyses ont t effectues pour la variable comptant le nombre denfants
par adhrent.

34
Figure 8 Frquence de consommation et cot moyen en fonction du nombre denfant

Cette variable a peu deffet sur le cot moyen par acte contrairement la frquence
de consommation de lassur. Nanmoins nous choisissons de retenir cette variable pour
la tarification des cots moyens puisquelle peut avoir plus ou moins deffet selon les dif-
frents postes de garanties.

Globalement, la frquence de consommation de lassur diminue en fonction du nombre


de ses enfants. Les diffrences de cot et de frquence pour les dernires modalits (nombre
denfants trs lev) ne sont pas fiables puisquil y a trs peu de donnes. Afin dexploiter
cette variable, il convient de crer une nouvelle modalit regroupant le nombre denfant
suprieur ou gal 3. Ainsi, la variable sera compose des modalits 0, 1, 2 et suprieur
3.

3.4 Lanalyse en composantes principales (ACP) sur le lieu


dhabitation
3.4.1 Le principe de lACP
Lanalyse en composantes principales est une technique de statistique multidimension-
nelle permettant danalyser les liaisons entre plusieurs variables quantitatives simultan-
ment (cf. [6]). Lobjectif est de passer dun espace p dimensions un espace de dimension
infrieur p en perdant le moins possible dinformations du tableau de donnes initial.

Cette technique consiste projeter orthogonalement le nuage des individus sur un


plan factoriel, plan passant au plus prs des individus du nuage. Cela permet de crer
de nouvelles variables artificielles, nommes les axes factoriels . Mathmatiquement,
il sagit de diagonaliser une matrice de variance-covariance o les vecteurs propres (axes

35
factoriels) et les valeurs propres (variances associes aux axes) sont extraits. De la mme
faon, les variables sont projetes orthogonalement sur un plan factoriel sinscrivant dans
un cercle de rayon unitaire appel cercle de corrlation, sur lequel nous pouvons observer
les corrlations entre les diffrentes variables.

Pour cela, nous disposons dun tableau de donnes contenant pour chaque rgion, les
frquences de consommation et le cot moyen de chaque catgorie dacte. Cette analyse
permettra ainsi danalyser leffet du lieu dhabitation de lassur par poste de garantie.
Par soucis de clart et de lisibilit, le choix de lACP sest port sur les rgions plutt que
sur les dpartements.

3.4.2 Les rsultats


LACP fournit plusieurs rsultats 12 , et permet ainsi :
dtablir un bilan des ressemblances entre les rgions ;
de raliser un bilan des corrlations linaires entre les diffrentes variables initiales ;
de mettre en liaison ltude des rgions et des variables pour observer les variables
caractristiques dun groupe dindividus donn.

Slection du nombre daxes

Avant toute interprtation des reprsentations graphiques, il est ncessaire de choisir le


nombre optimal daxes factoriels, afin davoir un rsum prcis de linformation du tableau
de donnes initial. Nous utilisons le critre du coude (cf. [6]) qui consiste reprer gra-
phiquement une cassure suivie dune dcroissance rgulire sur le graphique reprsentant
le pourcentage de variance explique par chacun des axes factoriels.

Le graphique ci-dessous permet de choisir le nombre daxes pour ltude des rgions :
12. LACP a t ralise avec une macro SAS tlcharge sur le site de lINSEE.

36
Figure 9 Choix du nombre daxe factoriel

Dans ce cas, nous observons un dcrochement au niveau du quatrime axe, ce qui


reviendrait slectionner les trois premiers axes. Lensemble des trois axes reprsente
83,22% de la variance, ce qui est suffisant pour lanalyse, et confirme le choix de slection
des trois premiers axes factoriels. Cependant, dans la suite nous interprterons unique-
ment les deux premiers axes factoriels, puisquaprs analyse du troisime axe factoriel,
nous avons constat quil napporte pas assez dinformations complmentaires.

37
Graphique des variables

Linterprtation des reprsentations graphiques doit se faire de faon prudente. Ainsi,


nous interprterons uniquement les variables bien reprsentes, cest dire celles proches
du cercle de corrlation.

Figure 10 Graphique des variables sur le premier plan factoriel

Nous rappelons ci-dessous les pourcentages de variance explique par les deux premiers
axes factoriels :

38
Pourcentage de variance explique
Axe 1 44,34%
Axe 2 22,78%

Dans ce premier plan factoriel compos des axes 1 et 2, lensemble des variables est
bien reprsent, lexception de la frquence pharmacie, de la frquence hospitalisation,
de la frquence optique et du cot moyen de lappareillage.

Ce graphique permet dobserver les corrlations linaires 13 entre les variables initiales.
Nous observons notamment une forte corrlation entre la frquence de consultations chez
un auxiliaire mdical 14 et la frquence de consommation en appareillage.

Suite ltude des contributions des variables pour chacun des axes, nous pouvons en
conclure que les frquences ont contribu la formation du premier axe et que les cots
moyens ont contribu la formation du deuxime axe.

Nous observons galement un effet taille sur le premier axe, avec une augmentation
du cot moyen de gauche droite. Les cots moyens levs (hospitalisation, dentaire et
optique) se trouvant droite du nuage, et les plus faibles (pharmacie, analyses, honoraires,
radiologie, auxiliaire) gauche du nuage.

13. Tableau des corrlations prsent en annexe A.


14. Il sagit de professionnels de sant tels que les infirmiers, les orthoptistes, les masseurs kinsithra-
peutes, etc.

39
Graphique des individus

Figure 11 Graphique des individus sur le premier plan factoriel

Pourcentage de variance explique


Axe 1 44,34%
Axe 2 22,78%

De la mme faon que les variables, les individus doivent tre bien reprsents sur ce
plan factoriel. Pour cela, il est ncessaire que les sommes des cosinus carrs des angles
forms par le vecteur initial et chacun des deux axes soient proche de 1. Cela correspond
la colonne CO2 (qualit de reprsentation) du tableau figurant dans lannexe A.

40
Trois rgions se dtachent de faon trs marque du nuage des individus : lIle de
France, lAlsace et la Lorraine. La rgion Ile de France a les cots moyens les plus forts
pour lensemble des postes de garantie. Ces cots sont dautant plus levs pour les ho-
noraires et la radiologie puisque cette rgion est place dans la mme direction que les
variables dcrivant le cot moyen des honoraires et le cot moyen de la radiologie. Concer-
nant lAlsace et la Lorraine, les cots moyens sont trs faibles pour les soins courants dus
aux plus forts remboursements du rgime local : il est ici vident que ces rgions sont
atypiques. Cependant, pour lAlsace les cots moyens sont plus levs que pour les autres
rgions concernant les catgories dactes optique, dentaire et hospitalisation. Compte tenu
des bases de remboursement trs faible pour ces catgories dactes, la diffrence de taux
de remboursement entre le rgime gnral et local na pas dimpact sur le cot moyen de
lacte. Une quatrime rgion, Rhne-Alpes, sloigne galement des autres rgions, en rai-
son de ses cots moyens levs. Il est noter que daprs une rcente tude de la DREES,
lIle de France, le Rhne-Alpes et lAlsace sont les trois rgions o les mdecins pratiquent
le plus de dpassements dhonoraires (cf. [12]).

Synthse

Cette ACP semble montrer lexistence dun effet sur la consommation en frais de sant
du lieu dhabitation de lassur. Cette variable doit tre ainsi considre dans la tarifica-
tion, bien que le rgime pourrait dj expliquer le comportement des assurs des rgions
Alsace et Lorraine. LACP nous permet galement de voir que leffet de cette variable
dpend des postes de garantie. Par exemple, la rgion Ile de France prend des valeurs plus
fortes que la moyenne pour le cot moyen en honoraires et radiologie, alors que la rgion
Rhne-Alpes prend des valeurs plus fortes que la moyenne pour loptique et lhospitalisa-
tion.

Des ressemblances entre les individus ont pu tre observes sur le nuage des individus.
Le cercle de corrlation a permis de recenser les corrlations linaires entre les variables,
qui ne sont pas toutes videntes interprter. Pour certains postes de garanties comme
loptique ou les auxiliaires mdicaux, des dpendances entre la frquence et le cot moyen
ont t observes (variables anti-corrles). Mme si la frquence en optique nest pas
bien reprsente sur le cercle de corrlation, nous savons quen ralit le comportement de
consommation en monture ou verres dpend fortement du remboursement de la compl-
mentaire sant. Or, tant donn que le calcul de la prime pure repose sur lindpendance
de ces deux grandeurs, ceci peut biaiser le rsultat de la tarification tudi dans la partie
suivante.

3.5 La classification ascendante hirarchique (CAH) sur le


lieu dhabitation
La variable rgion doit ainsi tre prise en compte dans la tarification, mais cette
segmentation en complment de lge, du sexe, du rgime, du niveau de garantie et dautres
variables tarifaires pourrait rduire le nombre de donnes par catgories de risque et ainsi
gnrer des estimations non fiables. Par ailleurs, lutilisation de cette variable compose

41
dun grand nombre de modalits pourrait poser des problmes de lisibilit dans le modle
linaire gnralis. Cest pourquoi, il convient de regrouper les rgions ayant un compor-
tement de consommation proche. Ce regroupement pourrait tre plus prcis en utilisant
les donnes sur les dpartements. Ainsi, une mthode de classification des dpartements a
t retenue : la classification ascendante hirarchique (cf. [6]). Il existe plusieurs mthodes
de classification, lavantage de la CAH rside dans la reprsentation sous forme darbre
permettant de choisir facilement le nombre de classes optimal. En effet, il nest pas n-
cessaire de fixer le nombre de classes au pralable contrairement dautres mthodes de
classification.

3.5.1 Le principe de la CAH


La classification permet dtablir des regroupements dindividus en considrant les
proximits entre individus sur plusieurs dimensions. La CAH est une mthode de classifi-
cation se basant sur lagrgation des individus entre eux de proche en proche, ensuite des
classes dindividus entre elles, pour parvenir une classe recensant lensemble des indivi-
dus. Plusieurs mthodes existent pour agrger les individus entre eux telles que lindice du
lien minimum, lindice du lien maximum, la distance moyenne, la distance entre centres
de gravit et lindice de Ward. Nous utiliserons dans notre cas lindice de Ward qui est
une mthode couramment utilise. Lobjectif de cette mthode est de regrouper les classes
o la perte de variance intra-classe est la plus faible. Cela permet dobtenir les classes les
plus homognes. Par quivalence, elle consiste maximiser la variance inter-classe, pour
obtenir des classes bien spares. La variation de la variance inter-classe entre les classes
C1 et C2 est donne par la formule suivante :
m1 m2
W ARD (C1 , C2 ) = d2 (g1 , g2 )
m1 + m2
o :
m1 et m2 sont les poids respectifs des classes C1 et C2 ;
d(g1 , g2 ) reprsente la distance entre les centres de gravit g1 et g2 des classes res-
pectives C1 et C2 .

3.5.2 Les rsultats


Dendrogramme

La CAH a t ralise 15 sur le mme tableau de donnes et avec les mmes variables
que prcdemment, lexception des rgions qui sont remplaces par les dpartements.
Larbre hirarchique suivant illustre le processus dagrgation des classes :
15. Macro SAS tlcharge sur le site de lINSEE.

42
Figure 12 Dendrogramme des dpartements

43
Le choix du nombre de classes optimal peut tre dtermin grce au graphique du R2
partiel (cf. Annexe B) qui reprsente la dcroissance de la variance inter-groupes en fonc-
tion du nombre de classes. La mthode consiste lire le graphique de droite gauche et de
slectionner le nombre de classe se situant avant un saut. Dans notre cas, nous observons
un premier saut entre six et sept classes. Il convient de retenir sept classes puisque cela
permet de classer dans une classe part les dpartements 54, 57, 67 et 68, dpartements
de la Lorraine et de lAlsace. En effet, les habitants des dpartements 57, 67 et 68 sont af-
filis au rgime local et bnficient ainsi dun remboursement plus lev. La CAH regroupe
galement le dpartement 54 dans cette classe, puisque le portefeuille tudi contient une
grande majorit dassurs affilie au rgime local dans ce dpartement. Cela est li notam-
ment au fait que les salaris exerant une activit en Alsace-Moselle bnficient galement
du rgime local indpendamment de leur lieu de rsidence.

Composition des classes

La sortie SAS ci-dessous fournit la composition des classes :

Figure 13 La composition des classes de dpartements

44
Nous pouvons galement observer la moyenne des valeurs prises par les diffrentes
variables en fonction de la classe cre. Voici les rsultats pour les analyses et pour le
dentaire :

Frquence Statistique 1 2 3 4 5 6 7 Ensemble


Analyses Moyenne 0,83 0,96 0,77 0,69 0,87 1,06 1,09 0,83
Dentaire Moyenne 0,60 0,59 0,52 0,45 0,61 0,81 0,63 0,57

Table 4 Frquence moyenne par classes de dpartement

Cot moyen Stat. 1 2 3 4 5 6 7 Ensemble


Analyses Moy. 29,17 20,94 25,30 26,00 30,23 24,41 22,59 26,71
Dentaire Moy. 62,40 53,44 57,83 53,78 72,76 62,78 64,67 60,48

Table 5 Cot moyen par classes de dpartement

Les frquences de consommation les plus leves concernent les assurs habitant dans
les dpartements de la classe 6 (apparente au rgime local). Cela nous parait cohrent,
puisque la Scurit sociale rembourse des taux plus levs dans ces dpartements et par
consquent les assurs sont incits consommer plus que ceux du rgime gnral.
En ce qui concerne les cots moyens, nous nous attendons avoir des cots levs pour
la catgorie 5 regroupant les dpartements dIle de France et des cots plus faibles pour
la catgorie 6 regroupant les dpartements du rgime local. la lecture des tableaux, les
cots moyens de la classe 5 sont suprieurs aux cots des autres classes. En revanche, la
classe 6 ne contient pas le cot le plus faible. Cette diffrence peut tre lie la rpartition
des assurs au sein des contrats de diffrents niveaux de garanties qui a t tudie prc-
demment. En effet, en moyenne, les assurs du rgime local ont des contrats de niveaux de
garantie plus levs que les assurs du rgime gnral, ce qui entrane des remboursements
plus levs par la complmentaire sant et explique le chiffre obtenu pour la classe n6.
Les diffrentes tudes descriptives ralises sur notre portefeuille ont permis dobtenir une
meilleure connaissance des diffrentes variables tarifaires utilises en assurance sant et de
leurs impacts sur la frquence et le cot moyen.

45
Troisime partie

La tarification

Lobjet de cette partie est de proposer une mthode alternative la mthode de tarifi-
cation directe frquence-cot actuelle a : le modle linaire gnralis. Avant dappliquer
le modle la modlisation de la frquence et du cot moyen, il est ncessaire den
prsenter les aspects thoriques. Pour finir, les rsultats obtenus pourront faire lobjet
dune comparaison avec les rsultats de la mthode directe.

Pour des raisons de lisibilit, nous prsenterons uniquement deux sous-catgories dacte :
les analyses et actes de laboratoire et les prothses dentaires. Ces deux exemples permet-
tront dillustrer ladquation des modles dans le cas o nous observons une forte frquence
de consommation et dans le cas dune faible frquence de consommation.

a. Cette mthode est prsente dans le chapitre 5.

46
1 La thorie des modles linaires gnraliss (GLM) 49
1.1 La prsentation gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.1.1 Le modle linaire gaussien . . . . . . . . . . . . . . . . . . . . . . . 49
1.1.2 Le modle linaire gnralis . . . . . . . . . . . . . . . . . . . . . . 50
1.2 Distribution dune famille exponentielle . . . . . . . . . . . . . . . . . . . . 51
1.3 Lestimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2 Les critres de choix de modle 56


2.1 La validation et la comparaison de modles . . . . . . . . . . . . . . . . . . 56
2.1.1 La dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.1.2 Les critres AIC et BIC . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.1.3 Les rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2 La slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.1 Prsentation des mthodes . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.2 Lapplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3 La prise en compte de la dispersion 62


3.1 La prsentation du phnomne . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 Le modle quasi-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Le modle binomial ngatif . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4 Les modles modifis en zro . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.1 Le modle Zero Inflated Poisson (ZIP) . . . . . . . . . . . . . . . . . 65
3.4.2 Le modle Zero Inflated Negative Binomial (ZINB) . . . . . . . . . . 65

4 Lapplication la modlisation de la frquence 67


4.1 Lanalyse de la variable explique . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Application de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Les modles alternatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 La comparaison des modles . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 Lapplication la modlisation du cot moyen 82


5.1 Lanalyse de la variable explique . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Le choix de la loi de probabilit . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3 Lestimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4 Lanalyse des rsidus du modle slectionn . . . . . . . . . . . . . . . . . . 90
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6 La comparaison avec la mthode directe 93


6.1 La cohrence de la prime estime avec le GLM . . . . . . . . . . . . . . . . 93
6.2 La comparaison avec la mthode directe . . . . . . . . . . . . . . . . . . . . 95
6.2.1 La prsentation de la mthode directe . . . . . . . . . . . . . . . . . 95
6.2.2 Comparaison de la prime pure . . . . . . . . . . . . . . . . . . . . . 96
6.3 La conclusion et limites du GLM . . . . . . . . . . . . . . . . . . . . . . . . 99

48
Chapitre 1

La thorie des modles linaires


gnraliss (GLM)

Les modles linaires gaussiens (cf. [7]) ont longtemps t utiliss pour modliser la
frquence et le cot moyen. Cependant, ils ne sont pas adapts la ralit, puisque la
variable modliser, cest--dire la variable rponse, nest pas ncessairement gaussienne.
Ainsi, le modle linaire gnralis a t cr afin dtendre le modle linaire aux variables
non gaussiennes et plus prcisment aux variables dont la loi fait partie de la famille
exponentielle.

1.1 La prsentation gnrale


Lobjectif du modle linaire gnralis 16 est de modliser la relation existante entre
une variable rponse et une ou plusieurs variables explicatives. Avant dexposer le modle
linaire gnralis, il est primordial de comprendre le modle linaire gaussien.

1.1.1 Le modle linaire gaussien


Nous considrons n observations indpendantes y1 , y2 , . . . , yn correspondant des ra-
lisations de la variable rponse Yi . Lquation scrit sous la forme suivante :
p
Yi = 0 + j Xij + i i = 1, . . . , n
X

j=1

o :
Xi1 , . . . , Xip : variables explicatives associes lindividu i ;
0 , 1 , . . . , p : paramtres inconnus estimer ;
i : terme derreur provenant de la diffrence entre lobservation et lestimation de
la variable rponse. i est suppos de moyenne nulle et de variance constante.

Le modle est qualifi de gaussien ds lors que nous supposons que les erreurs sont
distribues selon une loi normale desprance nulle et de variance constante inconnue 2 .
16. Modle introduit initialement par John Nelder et Robert Wedderburn en 1972, et prsent dune
faon plus dtaille et complte par Mc Cullagh et John Nelder en 1989.

49
Dans ce cas, il sagit de modle linaire gaussien. Lhypothse desprance nulle permet
dcrire la relation suivante :
p
E (Y ) = 0 +
X
j Xj .
j=1

1.1.2 Le modle linaire gnralis


Le modle linaire gnralis se distingue du modle linaire gaussien par les trois
composantes suivantes :
la composante alatoire :
Nous supposons que les observations yi sont indpendantes et associes une loi de
probabilit issue dune structure exponentielle. Cette notion de structure exponen-
tielle sera dtaille dans la section 1.2.

la composante systmatique :
La composante systmatique i , nomme prdicteur linaire, correspond une com-
binaison linaire des variables explicatives. Soit xij les observations de la variable
explicative Xij , nous avons
i = xti
o,
0

..
 
xti = 1 xi1 . . . xip = .
p

la fonction de lien :
La relation entre la composante alatoire et le prdicteur linaire est exprime par
la troisime composante appele fonction de lien g, strictement monotone et diff-
rentiable. Notons i = E(Yi ), alors
 
g (i ) = i ou i = g 1 (i ) = g 1 xti

Ainsi, lesprance de Y correspond une transformation du prdicteur linaire.

Contrairement aux modles linaires simples et multiples, il sagit ici de modliser


une transformation de lesprance de la variable rponse.

Le tableau ci-dessous nous renseigne sur les fonctions de lien classiques :

50
Identit g (x) = x
Log g (x) = log (x) 
Logit g (x) = log 1x x

Inverse g (x) = x1
Probit g (x) = (x) 17

Table 6 Les fonctions de lien classiques

1.2 Distribution dune famille exponentielle


La famille exponentielle contient toutes les lois disposant dune fonction de densit
pouvant scrire sous la forme suivante :

y b ()
f (y, , ) = exp{ + c (y, )}.
a ()

Lesprance et la variance sont donnes par les formules suivantes :

db ()
E (Y ) = b0 () =
d
V ar (Y ) = a () b00 ()

o le paramtre est appel le paramtre de position et le paramtre de dispersion


ou dchelle, les fonctions a(.), b(.) et c(., .) sont des fonctions relles.

Exemple

Afin dillustrer lutilisation de cette formule, nous dtaillerons les tapes permettant de
passer de lexpression gnrale de la fonction de densit dune loi normale de paramtres
et 2 la forme de lexpression dune famille exponentielle. Dans ce cas, nous supposons
que la variable alatoire rponse Y suit une loi normale desprance et de variance 2 .
Sa fonction de densit est donne par :
  1 (y )2
f y; , 2 = exp{ }
2 2 2

La premire tape consiste intgrer tous les termes dans la fonction exponentielle :

    (y )2 )
f y; , 2 = exp{(log 2 }
2 2
17. : fonction de densit dune variable alatoire qui suit une loi N (0, 1)

51
Ensuite, lobjectif est de distinguer les diffrents paramtres de la formule caractrisant
la famille exponentielle :

  2y 2 y2  
f y; , 2 = exp{ log 2 }
2 2 2 2

2 y2
y 2 + log 2 2

 
2
f y; , 2
= exp{ }
2 2

La loi normale de paramtres et appartient ainsi la famille exponentielle avec les


paramtres et les fonctions suivants :

= ;
= 2;
a () = 2 ;
2
b () = ;
2
1
!
y2  
c (y, ) = + log 22 .
2

Ainsi, E (Y ) = = et V ar (Y ) = 1 2 = 2 , confirmant le rsultat obtenu.

Les composantes de la famille exponentielle dautres distributions et de la loi normale


sont donnes dans les tableaux ci-dessous :

52
Distribution Notation Densit    
n(1y) p
Binomiale B (n, p) n  ny
ny p (1 p) log 1p
1
n
Binomiale
BN (r, p) y+r1
(1 p)y pr log (1 p) 1
ngative y

Poisson P () 1 y
y! e   log () 1
 
Gamma GA (, ) 1
()

y
y 1 exp 1 1
 2
Normale N , 2 f (y) = 1 exp (y) 2

2 2 2

Distribution a () b () c (y, )
Binomiale 1 2 log ny

n 2
Binomiale  
1 rlog 1 e log y+r1
ngative y

Poisson 1 e log (y!)


Gamma 1 log () log(y) log (y) log ( ())
2
Normale 2 2 12 y + log 22

2

Table 7 Les composantes de la famille exponentielle

1.3 Lestimation des paramtres


Un des objectifs du GLM est destimer les coefficients de rgression 0 , 1 , . . . , p . La
mthode destimation couramment utilise dans le cadre du GLM est le maximum de vrai-
semblance que nous dtaillerons dans cette section.

Log-vraisemblance

Tout dabord, nous considrons la variable rponse Yi indpendante et issue dune


famille exponentielle. Lexpression de la vraisemblance scrit :

n
yi i b (i )
L (y1 , , yn ; , ) = exp{ + c (yi , )}.
X

i=1
ai ()

Notons L = L(y1 , . . . , yn ; i , ), nous obtenons lexpression de la log-vraisemblance


suivante :
n
yi i b (i )
log (L) = + c (yi , ) .
X

i=1
ai ()

Il faut ainsi maximiser cette dernire expression, ce qui consiste calculer tout dabord
la drive en fonction des paramtres j :

53
n
yi i b (i )
 
log (L) = + c (yi , )
X
j i=1
j ai ()

Exemple

Considrons une variable alatoire rponse Y qui suit une loi de Poisson de paramtre
:
n yi
i i
L=
Y
e
i=1
yi !
n
log (L) = i + yi log (i ) log (yi !)
X

i=1
n
i i
log (L) = {i + yi log (i ) log (yi !)}
X
.
j i=1
i i j

Dans le cas o nous utilisons la fonction de lien log, nous avons g(i ) = i = log(i ).
Sachant que, i = xti , nous obtenons :

n

log (L) = (yi i ) xij .
X
j i=1

Ainsi les quations de vraisemblance sont :

n
(yi i ) xij = 0 j = 1, . . . , p
X

i=1

La rsolution de ces quations requiert une mthode itrative telle que la mthode de
Newton-Raphson que nous ne dvelopperons pas (cf. [1]).

1.4 Synthse
La rgression par modles linaires gnraliss sera ralise par lutilisation du logiciel
SAS 9.3, notamment avec les procdures Genmod et Countreg .

Pour ce faire, il faut auparavant choisir les lments ci-dessous :


la distribution de la variable expliquer, sachant que celle-ci doit faire partie de la
famille exponentielle ;
la fonction de lien ;
le poids de la variable expliquer ;
les variables explicatives pouvant avoir une influence sur la valeur de la variable
rponse.

54
Le tableau suivant indique la fonction de lien associe quelques lois de probabilit
usuelles. Si la fonction de lien est la mme que celle qui lit le paramtre au para-
mtre alors il sagit de fonction de lien canonique. Par exemple, pour la loi de Poisson
= log() (cf. section 1.2 de cette partie), par consquent la fonction de lien canonique
est la fonction log .

Binomiale Logit
Poisson Log
Binomiale ngative Logit
Normale Identit
Gamma Inverse

Table 8 Les fonctions de lien associes aux lois de probabilit usuelles

Pour des raisons pratiques, il est prfrable dutiliser la fonction de lien log pour les lois
binomiale ngative et gamma. En effet, lutilisation de cette fonction de lien permet :
dobtenir des coefficients positifs des paramtres estims ;
davoir un modle multiplicatif qui permet de connatre facilement leffet de chaque
paramtre sur la variable rponse.

55
Chapitre 2

Les critres de choix de modle

Aprs avoir prsent le cadre thorique des GLM, nous proposons dans ce chapitre
dtudier les diffrents critres utiliss dans la slection et la comparaison de modles. Ce
chapitre prsente galement la mthode de slection de variables retenue.

2.1 La validation et la comparaison de modles


2.1.1 La dviance
Afin de vrifier lajustement du modle aux donnes utilises, nous pouvons calculer la
dviance du modle (cf. [1]). Elle consiste comparer le modle tudi un modle satur,
i.e. un modle avec une distribution identique, une mme fonction de lien et o les termes
i sont remplacs par les termes yi , observations de la variable rponse. Autrement dit,
elle permet de comparer un modle o la variable rponse est suppose suivre une certaine
loi un modle avec les valeurs observes de la variable rponse.

Dfinition

La dviance D est dfinie comme deux fois la diffrence entre la log-vraisemblance du


modle satur et la log-vraisemblance du modle tudi multiplie par le paramtre de
dispersion :

D = 2{logL (y, y, ) logL (y, , )}.

Elle peut galement tre dfinie comme la dviance standardise multiplie par le
paramtre de dispersion :

D = D o D = 2{logL (y, y, ) logL (y, , )}.

Le modle avec la dviance la plus faible sera prfr aux autres modles puisque ce
critre indique un cart plus faible entre les log-vraisemblances, et ainsi une distance plus
faible entre les valeurs modlises et les valeurs observes.
Test

56
La dviance standardise D suit asymptotiquement une loi du 2np , o n reprsente
le nombre de paramtres du modle satur (quivalent au nombre dobservations de la
variable rponse) et p celui du modle tudi. Par consquent, nous pouvons construire un
test permettant de rejeter ou daccepter le modle tudi. Ce test sera dtaill et illustr
dans le cas de la slection des variables (cf. section 2.2.2).

2.1.2 Les critres AIC et BIC


Outre la dviance, les critres AIC (Akaike Information Criterion) et BIC (Bayesian
Information Criterion) (cf. [10]) permettent galement de comparer les modles entre
eux. Lutilisation de ces critres semble plus approprie dans la comparaison de modles
construits avec des distributions de variables rponses diffrentes, puisque la dviance per-
met uniquement de comparer les modles emboits.

LAIC est dfini par la formule suivante :

AIC = 2log(L) + 2k

o log(L) constitue la log-vraisemblance maximise et k le nombre de paramtres.


Ainsi, le critre dAkaike permet deffectuer un compromis entre la rduction du biais
(avec laugmentation du nombre de paramtres) et le besoin de modliser les donnes avec
le plus petit nombre de paramtres.

Le critre BIC (galement nomm SBC) doit tre privilgi lorsquil sagit de modles
disposant dun grand nombre dobservations. En effet, dans la littrature (cf. [13]) il est
prcis que le critre AIC a tendance choisir les modles avec de nombreuses variables
explicatives dans le cas de grands chantillons. Afin dcarter ce problme, le nombre de pa-
ramtres dans la formule du BIC est multipli par le logarithme du nombre dobservations
log(n) et permet ainsi dappliquer une pnalit plus svre afin de privilgier lutilisation
de modles avec moins de variables explicatives :

BIC = 2log(L) + klog(n).

2.1.3 Les rsidus


Lanalyse des diffrents critres dajustement prsents ci-dessus nest pas suffisante
pour valider un modle linaire gnralis. Une analyse plus prcise laide des rsidus
permet danalyser individuellement les carts entre les valeurs observes et les valeurs pr-
dites ybi par le modle. Les rsidus de dviance ou de Pearson sont couramment utiliss
dans le cadre de GLM.

Les rsidus de dviance sont dfinis partir dun terme di reprsentant la contribution de
lime observation yi la dviance D,

rDi = signe (yi yi ) di et di = 2{logL(yi , yi , ) logL(yi , yi , )}.


p

57
Les rsidus de Pearson sont dfinis comme le rapport entre la distance entre la valeur
observe et la valeur prdite yi et la racine carre de la variance V
\ (yi ) estime du modle :

(yi yi )
rPi = q .
V (yi )
\

Il est prfrable de les normaliser (rsidus standardiss) :

(yi yi )
rP i = q
\
V (yi )hii

signe (yi yi ) di
rD i
=
hii

o hii correspond aux termes sur la diagonal de la matrice H dfini par


1 1
H = W 2 X(X t W X)1 X t W 2 , W correspondant la matrice diagonale de pondration
(cf. [11]).
La matrice H, telle que y = Hy permet dvaluer la variation des valeurs prdites en
fonction des autres observations.

2.2 La slection des variables


2.2.1 Prsentation des mthodes
Une slection initiale des variables tarifaires a t ralise par une analyse descriptive
dans la partie 2. Cependant, dans le cadre du GLM, nous souhaitons slectionner unique-
ment celles qui ont une relle influence sur la variable rponse. Nous retrouvons plusieurs
types dalgorithme de slection de variables dans la littrature, dont les plus couramment
utiliss sont les mthodes backward, forward et stepwise.

La mthode backward (descendante) consiste intgrer toutes les variables explicatives


dans le modle et liminer chaque tape la variable la moins significative, contraire-
ment la mthode forward (ascendante), qui dbute lalgorithme par la variable la plus
significative et intgre chaque tape la variable qui contribue le plus au modle.

Dans le cadre de ce mmoire, nous nous intresserons la mthode stepwise qui est
un mlange des mthodes forward et backward. Elle est semblable la mthode forward
et diffre par la possibilit dliminer aprs chaque insertion de variable, une variable qui
ne serait plus significative.

Linsertion et llimination des variables se basent sur lanalyse de la dviance. Il sagit de


comparer la valeur de la dviance standardise du modle avant lajout et aprs lajout
dune ou plusieurs variables. Cela revient analyser la diffrence de dviance standardis
qui suit asymptotiquement une statistique du 2 q p degrs de libert, avec

58
p le nombre de variables dans le modle avant lajout dune ou plusieurs variables ;
q le nombre de variables dans le modle suite lajout dune ou plusieurs variables
supplmentaires.

Considrons deux modles simplifis sans le terme derreur :

M1 : Y = 0 + 1 x1 + . . . + p xp

M2 : Y = 0 + 1 x1 + . . . + q xq

avec q > p
et les dviances standardises respectives DM1 et DM2 .

La diffrence de dviances standardises des deux modles est :

D = DM1 DM2 = 2{logLM2 logLM1 }


o LM2 et LM1 correspondent respectivement la vraisemblance du deuxime et du pre-
mier modle.
Sous lhypothse H0 : p+1 = = q = 0, D suit asymptotiquement une loi 2qp .
Ainsi, nous pouvons comparer la statistique de test D au quantile 1 dune loi 2qp .
Lhypothse H0 est rejete si la quantit P (2qp > D) appele p-value, est suprieure
. Or, ce test effectu par rapport lajout de plusieurs variables permet uniquement
dindiquer que le modle M1 peut tre complt par dautres variables, et pas ncessaire-
ment de lensemble des variables considres dans le modle M2 . Ainsi, il est prfrable
deffectuer ce test en considrant lintgration dune seule variable.

2.2.2 Lapplication
Nous dtaillons les tapes de lalgorithme dun exemple ci-dessous, avec un seuil de
significativit fix 5% :
tape 0 : choix de la premire variable intgrer dans le modle

M0 : Y = 0 , avec la dviance standardise D0

M1 : Y = 0 + 1 x1 , avec la dviance standardise D1


Le tableau ci-dessous fournit pour lensemble des variables la valeur de la dviance,

la statistique de test dans la colonne Chi-Square qui correspond D, et la


probabilit P (221 > D) dans la dernire colonne.

59
Variable x1 Dviance D1 Chi-Square Pr > ChiSq
Age 780591 194408 <.0001
Sexe 964860 9688 <.0001
Rgime 950894 24104 <.0001
Dpartement 929929 37006 <.0001
Garantie 848082 126916 <.0001
Bnficiaire 855019 119979 <.0001
Nombre denfants 966825 563 <.0001

Table 9 Exemple : Choix de la premire variable intgrer

La variable qui apporte la plus grande information au modle est lge, puisque la
statistique de test est de 194408, avec une p-value infrieur au seuil .

tape 1 : introduction de la deuxime variable

M1 : Y = 0 + 1 (age) , avec la dviance D1


M2 : Y = 0 + 1 (age) + 2 x2 , avec la dviance D2

Variable x2 Dviance D2 Chi-Square Pr > ChiSq


Sexe 774089 6177 <.0001
Rgime 760584 20006 <.0001
Dpartement 747217 26658 <.0001
Garantie 665380 115211 <.0001
Bnficiaire 776189 4401 <.0001
Nombre denfants 771885 1166 <.0001

Table 10 Exemple : Choix de la seconde variable intgrer

Dans cette tape, il convient de slectionner la variable garantie puisquelle


contribue le plus au modle. Ensuite, conformment la mthode stepwise, il y a
lieu de vrifier que les variables slectionnes dans ltape prcdente ont une p-value
suprieur . Dans notre cas, il suffit de vrifier la p-value de la variable ge. Si elle
est suprieure 5% alors elle sera retire du modle, sinon il sagit de continuer la
slection des variables en appliquant la mme mthodologie que dans cette tape.

Lintroduction des variables peut tre arrte lorsquaucune des p-valeur des va-
riables non slectionnes nest infrieure , ou lorsque lintroduction dune nouvelle
variable apporte peu dinformation au modle (trs faible baisse de la dviance). Nous
reprsentons ci-dessous la diffrence des dviances de toutes les variables introduites
une une avec la mthode stepwise :

60
var.png
Figure 14 Exemple : la contribution des variables au modle

A partir de la variable bnficiaire , nous considrons que la contribution des variables


lexplication de la variable rponse est ngligeable. Ainsi, nous dcidons de retenir les
quatre premires variables reprsentes.

61
Chapitre 3

La prise en compte de la
dispersion

Dans ce chapitre, nous proposons dtudier les diffrents modles permettant de prendre
en compte la sur-dispersion des donnes.

3.1 La prsentation du phnomne


La modlisation dune variable discrte et positive est souvent ralise partir dune loi
de Poisson. Or, en thorie celle-ci est construite sur une hypothse forte qui est lquidis-
persion des donnes, i.e. lesprance est gale la variance. Dans cette partie, il convient
danalyser ce phnomne et de donner les diffrentes solutions possibles pour palier un
ventuel problme de sur-dispersion ou de sous-dispersion de nos donnes.

La variance, dans le cas dune sur-dispersion, est dfinie ci-dessous :

V ar(Y ) = E(Y ), > 1, paramtre de dispersion

La sous-dispersion est plus rare et reprsente le cas o le paramtre de dispersion est


infrieur 1.

Plusieurs causes peuvent tre lorigine de cette sur-dispersion dont la prsence impor-
tante de zro pour la variable rponse et lhtrognit du portefeuille tudi : lunique
paramtre de la loi de Poisson ne serait ainsi pas suffisant expliquer les donnes. Il est
ncessaire dutiliser un autre modle puisque la prsence de sur-dispersion peut affecter
les estimations de la statistique du Khi-deux, qui intervient dans le choix de slection de
variables explicatives.

Nous retrouvons dans la littrature plusieurs alternatives permettant de prendre en


compte ce phnomne de sur-dispersion, dont les principales sont :
le modle quasi-Poisson ;
le modle binomial ngatif ;
les modles modifis en zro ( zero inflated ).

62
3.2 Le modle quasi-Poisson
Afin de rester dans le cadre dun modle de Poisson qui constitue un modle simple,
il convient de corriger la sur-dispersion par un coefficient. Cela consiste multiplier les
carts-types des paramtres estims par un estimateur du coefficient de dispersion :

E(Yi ) = i V ar(Yi ) = i .

Le coefficient de dispersion peut tre estim par le coefficient de Pearson gnralis :

n
2 (yi i )2
= =
X
2
np i=1
V ar(i )

avec :
n : le nombre dobservations ;
p : le nombre de variables ;
V ar(.) : la fonction de variance de la distribution.

Nous constatons que les estimations des termes i sont identique aux estimations du
modle de Poisson. Par consquent, ce modle permet dobtenir les mmes estimations des
paramtres j que le modle de Poisson. La seule diffrence rside dans lexpression de la
variance.

3.3 Le modle binomial ngatif


La loi binomiale ngative est la loi habituellement utilise pour prendre en compte la
sur-dispersion. Nous prcisons que les notations utilises dans cette partie font rfrence
aux notations fournies par la documentation du logiciel SAS (cf. [23]).

Afin de prendre en compte la sur-dispersion, nous pouvons introduire une htrognit


dans lesprance conditionnelle de la loi de Poisson travers un terme i :

E(Yi |Xi , i ) = exp{xti + i } = i i .

Ainsi, la fonction de densit correspondante est dfinie par :

(i i )yi
f (yi |xi , i ) = exp{i i } .
yi !

Ce terme i est suppos suivre une loi gamma desprance 1 et de variance 1/. Cela
nous permet de calculer la densit de la variable Yi conditionnellement Xi :

63
(yi + ) i yi
f (yi |xi ) = ( ) ( ) , yi N
(yi + 1)() + i + i

o lesprance et la variance conditionnelle sont dfinies par :

E(Yi |Xi ) = i V ar(Yi |Xi ) = i (1 + )

o = 1/ correspond au paramtre estimer.

Lexpression de lesprance et de la variance de la loi binomiale ngative prouve que


leffet de sur-dispersion peut tre pris en compte travers ce modle puisque i (1+) > i .
Nous remarquons ici que nous sommes dans le cas de la loi quasi-Poisson o la variance
dune distribution de Poisson est multiplie par un paramtre estim. Cameron et Trivedi
(1986) ont propos des modles binomiaux ngatifs o lexpression de la variance serait
de la forme i + pi . En pratique, les modles classiques utilisent p = 1 (cas prsent
ci-dessus) ou p = 2. Par exemple, la loi binomiale ngative par dfaut de la procdure
Countreg sur SAS, correspond au cas o p est gal 2.

3.4 Les modles modifis en zro


Lorsque les modles quasi-Poisson et binomial ngatif ne permettent pas de prendre en
compte la sur-dispersion, cela peut tre li un excs de zros prise par la variable rponse.
Cet excs de zros existe lorsque le nombre de zros observ par la variable rponse est
suprieur au nombre de zros estim par un ajustement avec la loi de Poisson. En sant,
ce phnomne est prsent dans le cas dactes utilisation rare tels que la consommation
en prothses dentaires. Les modles modifis en zro 18 , ou zero-inflated ont t dvelopps
afin de prendre en compte cet excs de zros. Dans la littrature, nous retrouvons deux mo-
dles modifis en zro : les modles zero inflated Poisson et zero inflated binomial negative.

Dans le cadre de la modlisation de la frquence, lide de ces modles est de distinguer

la prsence ou non de sinistres, cest dire le fait quun assur consomme ou ne


consomme pas lacte considr ;
la quantit dactes mdicaux consomms.

Ainsi un modle modifi en zro consiste considrer deux processus. Lutilisation


dune loi de Bernoulli permet de connatre la probabilit attribue chaque processus. Le
premier processus permet de dterminer la probabilit i de non sinistralit fournie par
une loi de Bernoulli et le deuxime processus gnre les valeurs estimes par une loi dfinie
(Poisson ou binomiale ngative).

18. Modles dvelopps initialement par Lambert (1992) et Greene (1994)

64
Soit Yi une variable de comptage positive, le modle modifi en zro est dfinie ci-
dessous :
(
i + (1 i )f (0) si yi = 0
(1 i )f (yi ) si yi > 0

o :

Yi 0 avec la probabilit i
Yi f (yi ) avec la probabilit 1 i
o la fonction f (.) suit une loi de Poisson ou une loi binomiale ngative.

3.4.1 Le modle Zero Inflated Poisson (ZIP)


Le modle ZIP (cf. [25]) constitue un mlange entre une loi de Poisson de paramtre
i et une masse de Dirac en 0.

Le modle scrit sous la forme suivante :

i + (1 i )exp{i } si yi = 0
(
P (Yi = yi ) = i
y
(1 i )exp{i } yii ! si yi > 0

Lesprance et la variance du modle sont donnes par :

E(Yi ) = (1 i )i
V ar(Yi ) = (1 i )(i + i 2i ) = E(Yi )(1 + i i ).

Nous retrouvons ici un modle de Poisson lorsque la probabilit davoir la valeur 0 est
nulle. Nous constatons galement que la variance est strictement suprieure la valeur de
lesprance et par consquent le modle permet de prendre en compte la sur-dispersion.

3.4.2 Le modle Zero Inflated Negative Binomial (ZINB)


Similairement au modle ZIP, le modle ZINB (cf. [25]) correspond un mlange entre
une loi binomiale ngative (de paramtres i et ) et une masse de Dirac en 0.

Nous considrons le modle suivant :

i + (1 i )(1 + i ) / si yi = 0
1
(
P (Yi = yi ) = 1
i + / )
1/
(1 i ) (y(y ( 1/ + ) / ( 1/+ )yi si yi > 0
1 i
1
i +1)( / ) i i

Lesprance et la variance du modle sont donnes par :

65
E(Yi ) = (1 i )i
V ar(Yi ) = (1 i )(i + (i + )2i ) = E(Yi )(1 + (i + )i ).

66
Chapitre 4

Lapplication la modlisation de
la frquence

Lobjet de cette sous-partie est de modliser le nombre dactes consomms (nombre de


sinistres) par an par individu. Il sagit ainsi dune variable de comptage qui ncessite une
modlisation par une loi discrte.

Dans la littrature, la modlisation dun vnement de comptage est souvent ralise


par une loi de Poisson supposant une quidispersion des donnes. Nous montrerons que
cette loi de probabilit est inadapte au portefeuille tudi et nous proposerons dautres
modles.

4.1 Lanalyse de la variable explique


Avant dentamer la modlisation, il convient danalyser la variable comptant le nombre
de sinistres pour les deux actes slectionns.

Les analyses et actes de laboratoire

Le tableau ci-dessous contient les frquences empiriques pour la variable comptant le


nombre de sinistre (uniquement de 0 15) sur la priode observe.

67
Nombre de sinistres Y Frquence empirique Pourcentage (%)
0 573413 66,53
1 31231 3,62
2 59476 6,9
3 40948 4,75
4 28787 3,34
5 18249 2,11
6 19796 2,29
7 11327 1,31
8 11092 1,28
9 9139 1,06
10 7546 0,87
11 6044 0,7
12 5772 0,66
13 4370 0,5
14 4044 0,46
15 3546 0,41

Table 11 Nombre de sinistres pour les analyses et actes de laboratoire

Moyenne Ecart-type Valeur max de Y


2,24 5,73 269

Table 12 Statistiques descriptives du nombre de sinistres (les analyses et actes de


laboratoire)

La frquence de consommation moyenne en analyses et actes de laboratoire est de


lordre de deux actes avec un cart-type denviron 5,73. Il sagit ici dune variable dcri-
vant des valeurs trs disperses, puisque lcart-type est important et le nombre maximum
dacte par personne sur la priode observe atteint le nombre de 269 actes.

Les prothses dentaires

Nous analysons galement la distribution du nombre de sinistres (uniquement de 0


15) dans le cas des prothses dentaires prises en charge par la Scurit sociale.

68
Nombre de sinistres Y Frquence empirique Pourcentage (%)
0 845113 92,56
1 17554 1,92
2 20104 2,2
3 8781 0,96
4 6505 0,71
5 3524 0,38
6 3356 0,36
7 1849 0,2
8 1575 0,17
9 1110 0,12
10 821 0,08
11 554 0,06
12 561 0,06
13 326 0,03
14 275 0,03
15 195 0,02

Table 13 Nombre de sinistres pour les prothses dentaires

Moyenne Ecart-type Valeur max deY


0,25 1,23 29

Table 14 Statistiques descriptives du nombre de sinistres (prothses dentaires)

Dans le cas des prothses dentaires, ltendue du nombre dacte consomm est plus
faible. La non-sinistralit correspond 92% des valeurs prises par cette variable. Par
consquent, la frquence de consommation moyenne est faible et les donnes sont moins
disperses que dans le cas des analyses et actes de laboratoire, ce qui est cohrent.

4.2 Application de la loi de Poisson


Afin de modliser des donnes discrtes telles que le nombre de sinistres, nous utilisons
une loi de Poisson. La rgression de Poisson sera effectue en intgrant un terme offset
prenant en compte le nombre dannes de prsence de lassur sur la priode 2011-2013.

E(Y /X
 
log = 0 + 1 x1 + . . . + p xp
annes risques

ce qui est quivalent :

E(Y |X) = exp{0 + 1 x1 + + p xp + log(annes risques)}.

69
Dans SAS, la modlisation sera ralise laide de la procdure GENMOD , pro-
cdure spcifique aux modles linaires gnraliss, laquelle sera applique une mthode
de slection pas pas des variables.

Les analyses et actes de laboratoire

Les sorties SAS permettent danalyser lajustement de la loi de Poisson aux donnes
utilises. Le tableau ci-dessous fournit la valeur du coefficient de dispersion qui est
denviron 8,98 pour les deux critres. Par consquent, le modle de Poisson ne sajuste pas
nos donnes, tant donn la prsence dune forte sur-dispersion.

Criterion DF Value Value/DF


Pearson Chi-Square 8,50E+05 7604233.1850 8.9798
Scaled Pearson X2 8,50E+05 7604233.1850 8.9798

Table 15 Critres dajustement une loi de Poisson (analyses et actes de laboratoire)

Le mauvais ajustement de la loi de Poisson est confirm par le graphique ci-dessous,


permettant de comparer la probabilit moyenne davoir yi sinistres avec la loi de Pois-
son et la probabilit dobserver la valeur yi sur nos donnes. Il sagit ici dune mthode
permettant danalyser lajustement du modle discret aux donnes tudies. La probabi-
lit moyenne prdite par le modle peut tre compare la probabilit observe, i.e. la
frquence empirique.

Figure 15 Ajustement des donnes une loi de Poisson (analyses et actes de laboratoire)

70
La loi de Poisson sous-estime fortement la probabilit davoir aucun sinistre, et sures-
time les autres valeurs.

Les prothses dentaires

De faon similaire, nous analysons lajustement dune loi de Poisson la frquence des
sinistres pour les prothses dentaires.

Criterion DF Value Value/DF


Pearson Chi-Square 4,40E+05 2174081.7507 4.9255
Scaled Pearson X2 4,40E+05 2174081.7507 4.9255

Table 16 Critres dajustement une loi de Poisson (prothses dentaires)

Figure 16 Ajustement des donnes une loi de Poisson (prothses dentaires)

Nous constatons nouveau une sur-dispersion des donnes utilises. Daprs le gra-
phique, nous pouvons en dduire que la loi de Poisson sajuste mal pour un nombre de
sinistres infrieur trois. Au contraire, lestimation du nombre de sinistres suprieur ou
gal quatre semble tre plutt bonne.

71
4.3 Les modles alternatifs
La modlisation de la frquence des sinistres ne peut pas tre ralise en appliquant
une rgression de Poisson puisque les donnes utilises sont sur-disperses. La prise en
compte de cette sur-dispersion peut tre effectue en appliquant dautres modles prsen-
ts prcdemment.

Dans le cadre des prothses dentaires, nous dvelopperons prcisment lutilisation


dun modle ZINB compte tenu du nombre important de "zro" observ, que nous pour-
rons comparer au modle de Poisson, au modle ZIP et binomial ngatif. Comme il a t
prcis prcdemment, le modle ZINB fait rfrence deux lois : la loi de Bernoulli et la
loi binomiale ngative. Dans ce type de modle, la slection de variables est plus complexe
puisque les variables ayant un impact sur le fait de consommer ou de ne pas consommer
ne sont pas ncessairement les mmes variables qui influent le nombre dactes consomms.
Ainsi, il convient de slectionner deux groupes de variables pour chacune des distribu-
tions : les variables pour la modlisation avec une loi de Bernoulli (rgression logistique)
et les variables pour la modlisation avec une loi binomiale ngative.

Une premire slection des variables avec la mthode stepwise a t effectue laide
dun modle linaire gnralis utilisant la loi binomiale ngative. Cette rgression est
presque semblable au modle de Poisson, puisque nous utilisons le mme terme offset et
la mme fonction de lien :

E(Y |X) = exp{0 + 1 x1 + . . . + p xp + log(annes risques)}


Y |X BN.

Les variables slectionnes sont les suivantes (cf. Annexe C) :

Age
Garantie

La rgression par un modle ZINB a t ralise avec la procdure Countreg du


logiciel SAS. Nous avons tout dabord dfini les deux groupes de variables intgrer
dans les deux parties du modle. Pour la partie modlise par une loi binomiale ngative,
les variables slectionnes ci-dessus dans le cadre dun modle binomiale ngative simple
ont t intgres. Pour la partie zro , toutes les variables ont t dichotomises et
introduites une une en fonction des critres de significativit des variables avec un seuil
identique pour la partie binomiale ngative de 5%. Les variables finales retenues sont les
suivantes :

72
Partie BN de ZINB Partie zro de ZINB
Age Age
Garantie Garantie
Sexe

Table 17 Variables slectionnes pour le modle ZINB

Les variables expliquant les deux parties du modle sont identiques lexception de la
variable sexe qui ninflue pas le nombre de sinistres. Elle explique uniquement la partie
modlisant la prsence ou non de sinistralit. Lintgration des variables dans la partie
zro a requis un regroupement des modalits de la variable ge, qui ntaient plus toutes
significatives. Les classes de la variable ge retenues pour les deux parties du modle ZINB
sont dfinies ci-dessous :

Partie BN de ZINB Partie zro de ZINB


[0,20[ [0,20[
[20,25[ [20,25[
[25,30[ [25,30[
[30,35[ [30,35[
[35,40[ [35,40[
[40,45[ [40,45[
[45,50[ [45,50[
[50,75[ 50 et plus
[75,80[
80 et plus

Table 18 Classes dge slectionnes pour le modle ZINB

Nous constatons que la modlisation par la loi de Bernoulli permettant de modliser


la prsence ou non de consommation par lassur ne requiert pas une explication plus
prcise de la variable ge pour les ges suprieurs 50 ans. Les individus ayant un ge
suprieur 50 ans ont la mme probabilit de consommer. Dans la partie BN, qui mo-
dlise le nombre de sinistres suprieur ou gal 0, la variable ge peut tre dcompose
en intervalles plus petits pour les individus gs de plus de 50 ans. Cela parat cohrent
avec la ralit, puisque pour les jeunes assurs la consommation en prothses dentaires
est rare. De ce fait, une modlisation analysant le fait de consommer ou non est adapte
pour ces classes dges. Cependant pour les grands ges, la consommation en prothses
dentaires est moins rare, il nest plus question de consommer ou de ne pas consommer,
mais de la quantit dactes qui a t consomm. Ainsi, la modlisation dune probabilit
de sinistralit/non sinistralit nest pas adapte pour ces classes dge.

Cette application permet de comprendre lintrt dun modle modifi en zro. En


effet, dans le comptage du nombre de sinistres deux effets peuvent tre distingus : le
fait de consommer ou ne pas consommer et le fait de consommer 0, 1 ou plusieurs actes.
En distinguant les variables et les modalits des variables pour ces deux processus, nous
pouvons obtenir un tarif plus prcis.

73
Le tableau en annexe (cf. Annexe D) contient les estimations des coefficients et des
cart-types des paramtres j pour les deux parties du modle ZINB. Nous nous intressons
ici au calcul des valeurs prdites puisque le modle fournit simultanment les estimations
des paramtres en distinguant les deux modles. La partie Bernoulli du modle tant
ralise partir dune fonction de lien logit, nous estimons la probabilit :

exp{0 + 1 z1 + + q zq }
= .
1 + exp{0 + 1 z1 + + q zq }

Or, nous avons prcdemment fourni lexpression de lesprance de la variable rponse


dans le cas dun modle ZINB :

\
E(Y /X) = (1 ) o = exp{0 + 1 x1 + . . . + p xp + log(annes risques)}.

En remplaant les termes et par leurs expressions respectives, nous obtenons :

exp{0 + 1 x1 + + p xp + log(annesrisques)}
\
E(Y |X, Z) = .
1 + exp{0 + 1 z1 + + q zq }

Les variables Xi et Zj peuvent tre identiques.

Le logiciel SAS nous fournit les probabilits moyennes suivantes de la variable explique,
que nous comparons avec les frquences empiriques :

74
Nombre de sinistres ZINB Observ
0 92,57% 92,48%
1 1,92% 3,06%
2 2,20% 1,44%
3 0,96% 0,85%
4 0,71% 0,55%
5 0,39% 0,38%
6 0,37% 0,27%
7 0,20% 0,20%
8 0,17% 0,15%
9 0,12% 0,12%
10 0,09% 0,09%
11 0,06% 0,07%
12 0,06% 0,06%
13 0,04% 0,05%
14 0,03% 0,04%
15 0,02% 0,03%
16 0,02% 0,03%
17 0,01% 0,02%
18 0,01% 0,02%
19 0,01% 0,02%
20 0,01% 0,01%
21 0,01% 0,01%
22 0,00% 0,01%
23 0,00% 0,01%
24 0,00% 0,01%
25 0,00% 0,01%
26 0,00% 0,01%
27 0,00% 0,00%
28 0,00% 0,00%
29 0,00% 0,00%

Table 19 Probabilits moyennes observes et prdites par le modle ZINB

Globalement, ce modle fournit une meilleure adquation aux donnes que le modle
de Poisson. Il estime mieux la probabilit davoir 0 et 1 sinistre malgr une probabilit plus
leve davoir 0 sinistre dans le cas dun modle ZINB. Toutefois, il convient de comparer
ce modle avec dautres modles avant de valider notre choix.

4.4 La comparaison des modles


Les rsultats obtenus en appliquant un modle ZINB sont globalement satisfaisants.
Cependant, le modle ZINB est un modle complexe mettre en place, il serait inutile de
choisir ce type de modle alors quun modle binomial ngatif permettrait aussi bien de
prendre en compte la sur-dispersion. Nous avons ralis quatre procdures countreg
avec les modles Poisson, binomiale ngative, ZIP et ZINB. La rgression avec le modle

75
ZIP a t ralise de faon similaire au modle ZINB.

Pour chaque modle, nous avons calcul les probabilits moyennes afin de les comparer
entre elles et avec la frquence empirique. Le graphique ci-dessous permet de comparer les
probabilits estimes pour les 10 premiers sinistres.

Figure 17 Probabilits moyennes observes et prdites (modles Poisson, binomial n-


gatif, ZIP et ZINB)

Nous constatons ici que les trois modles, le modle binomial ngatif, ZIP et ZINB
permettent de prendre en compte lexcs de zros observ sur le portefeuille. La compa-
raison peut seffectuer partir du premier sinistre, o les modles binomial ngatif et
ZINB surestiment la probabilit, contrairement au modle ZIP qui parait proposer une
meilleure estimation. La probabilit davoir deux sinistres est quant elle mal ajuste par
lensemble des modles. Au-del de deux sinistres, les modles binomial ngatif et ZINB
semblent donner des rsultats trs proches. Analysons plus prcisment les diffrences
entre les probabilits observes sur les donnes et les diffrents modles tudis laide du
graphique et du tableau suivant :

76
Figure 18 Diffrence entre la probabilit observe et prdites (modles Poisson, binomial
ngatif, ZIP et ZINB)

77
Nombre de sinistres Poisson Binomiale ngative ZIP ZINB Observ

0 82,40% 92,46% 92,46% 92,48% 92,57%


1 12,34% 3,49% 2,08% 3,06% 1,92%
2 3,61% 1,36% 1,71% 1,44% 2,20%
3 1,11% 0,74% 1,29% 0,85% 0,96%
4 0,36% 0,47% 0,92% 0,55% 0,71%
5 0,12% 0,32% 0,63% 0,38% 0,39%
6 0,04% 0,23% 0,40% 0,27% 0,37%
7 0,02% 0,17% 0,24% 0,20% 0,20%
8 0,01% 0,13% 0,13% 0,15% 0,17%
9 0,00% 0,10% 0,07% 0,12% 0,12%
10 0,00% 0,08% 0,04% 0,09% 0,09%
11 0,00% 0,07% 0,02% 0,07% 0,06%
12 0,00% 0,05% 0,01% 0,06% 0,06%
13 0,00% 0,04% 0,01% 0,05% 0,04%
14 0,00% 0,04% 0,00% 0,04% 0,03%
15 0,00% 0,03% 0,00% 0,03% 0,02%
16 0,00% 0,03% 0,00% 0,03% 0,02%
17 0,00% 0,02% 0,00% 0,02% 0,01%
18 0,00% 0,02% 0,00% 0,02% 0,01%
19 0,00% 0,02% 0,00% 0,02% 0,01%
20 0,00% 0,02% 0,00% 0,01% 0,01%
21 0,00% 0,01% 0,00% 0,01% 0,01%
22 0,00% 0,01% 0,00% 0,01% 0,00%
23 0,00% 0,01% 0,00% 0,01% 0,00%
24 0,00% 0,01% 0,00% 0,01% 0,00%
25 0,00% 0,01% 0,00% 0,01% 0,00%
26 0,00% 0,01% 0,00% 0,01% 0,00%
27 0,00% 0,01% 0,00% 0,00% 0,00%
28 0,00% 0,01% 0,00% 0,00% 0,00%
29 0,00% 0,01% 0,00% 0,00% 0,00%

Table 20 Probabilits moyennes observes et prdites (modles Poisson, binomial n-


gatif, ZIP et ZINB)

Globalement les modles ZINB et ZIP fournissent des rsultats proches de la frquence
observe sur le portefeuille. Cette analyse permet galement de mettre en vidence le mau-
vais ajustement du modle ZIP pour un nombre de sinistres suprieur huit puisque la
probabilit estime reste infrieure la probabilit observe.

Lanalyse des probabilits nest pas suffisante pour comparer des modles entre eux, il
convient danalyser les critres AIC et BIC :

78
Modle AIC BIC
Poisson 1096820 1097078
Binomial ngatif 659563 659739
ZIP 713511 713921
ZINB 647352 647727

Table 21 Critres AIC et BIC des diffrents modles

Les critres AIC et BIC fournis par les sorties SAS des procdures countreg et
genmod permettent de confirmer le choix du modle ZINB. En effet, la ZINB dispose
de la plus faible valeur dAIC et de BIC parmi les quatre modles tudis.

Il est galement possible dutiliser le test de Vuong afin de choisir, entre le modle
binomial ngatif et le modle ZINB, celui qui propose le meilleur ajustement aux donnes
observes. Ce test peut aussi sappliquer dans le cas du modle de Poisson et du modle
ZIP.

Le test de Vuong met en place les hypothses suivantes :

H0 : les deux modles s0 ajustent aux donnes

H1 : un des deux modles est plus adapt aux donnes.

Si le test est significatif, alors lhypothse H0 est rejete par consquent lhypothse
H1 est accepte et nous ralisons un risque de premier espce . Le choix entre le premier
et le deuxime modle est dtermin en fonction du signe et de la valeur de la statistique
de ce test.

Nous dfinissons la statistique de test ci-dessous, o f1 et f2 correspondent aux fonctions


de densit des deux distributions testes :

nm
V = 2
m

f1 (yi )
mi = log
f2 (yi )

o m et m2 sont la moyenne et la variance du rapport de vraisemblance des deux

distributions testes.

Sous lhypothse H0 , nous supposons que la statistique de Vuong peut tre approxime
par une loi normale centre rduite. Ainsi, pour un niveau de significativit de 5%, nous
avons :
V < 1, 96 : choix du deuxime modle ;
V [1, 96; 1, 96] : choix des deux modles ;
V > 1, 96 : choix du premier modle.

79
Il est prfrable dutiliser les ajustements dAkaike et de Schwarz dans le cas o les
deux modles nont pas le mme nombre de coefficients. Une macro fournie par le logiciel
SAS permet de raliser ce test. Nous souhaitons ainsi connatre le meilleur modle entre
le modle binomial ngatif et le modle modifi en zro qui lui est associ.

Vuong Statistic Z Pr>|Z| Preferred Model


Unadjusted 65.6582 <.0001 Zinb
Akaike Adjusted 65.5606 <.0001 Zinb
Schwarz Adjusted 65.0232 <.0001 Zinb

Table 22 Test de Vuong : modle binomial ngatif - ZINB

La statistique de test est trs largement suprieure 1,96 avec une probabilit trs
significative pour les trois types de statistique de test. Ainsi, le test confirme nouveau le
choix de retenir le modle binomial ngatif modifi en zro.
Ce test peut galement tre utilis pour dautres distributions. Le tableau ci-dessous fournit
les rsultats du test pour le modle de Poisson et ZIP :

Vuong Statistic Z Pr>|Z| Preferred Model


Unadjusted 148.2018 <.0001 Zip
Akaike Adjusted 148.1879 <.0001 Zip
Schwarz Adjusted 148.1065 <.0001 Zip

Table 23 Test de Vuong : modle Poisson - ZIP

Concernant les actes et analyses de laboratoire, tant donn la forte sur-dispersion des
donnes, nous avons galement eu recours des modles modifis en zro. Pour des raisons
de lisibilit, les rsultats obtenus pour les analyses et actes de laboratoire sont prsents
en annexe (Annexe E).

4.5 Conclusion
Les lois classiques utilises pour modliser une variable de comptage ne sont pas adap-
tes nos donnes. La surdispersion observe peut avoir plusieurs causes conjointes :
non prise en compte de variables importantes pour lexplication de la consommation
en frais de soins de sant, car elles ne sont pas disponibles dans notre portefeuille ;
non fiabilit des donnes tudies ;
structure de la loi de Poisson inadapte la modlisation de la frquence de consom-
mation ;
la prsence dune importante masse en zro.

Concernant nos donnes, il sagit principalement de la prsence dune importante masse


en zro pour les postes de garantie o le nombre dactes consomms constitue un vne-
ment rare. Cependant, la sur-dispersion a galement t observe parmi les postes de

80
garantie o le nombre dactes consomm est frquent (masse en zro plus faible), cela peut
tre li plusieurs raisons cites ci-dessus. Par consquent, nous avons ajust un modle
binomial ngatif modifie en zro pour les postes de garanties o la non sinistralit est
trs reprsentative et un modle binomial ngatif pour les autres postes de garanties tels
que la pharmacie ou les consultations de gnralistes.

81
Chapitre 5

Lapplication la modlisation du
cot moyen

5.1 Lanalyse de la variable explique


Lobjet de cette partie est de modliser le remboursement moyen dun acte par la
complmentaire sant. Pour cela, nous disposons pour chaque assur du cot total de len-
semble de sa consommation sur la priode tudie quil convient de diviser par le nombre
dactes consomms.

Les analyses et actes de laboratoire

Le graphique ci-dessous illustre la distribution empirique du cot moyen pour les ana-
lyses et les actes de laboratoire :

Figure 19 Distribution du cot moyen pour les analyses et les actes de laboratoire

82
Moyenne Ecart-type 19 Cot maximum
7,96 5,99 40,63

Table 24 Statistiques descriptives pour le cot moyen (analyses et actes de laboratoire)

Le remboursement en analyses et en actes de laboratoire repose sur des montants


faibles. Nous observons une grande concentration des donnes sur lintervalle [0-10 e], et
une baisse progressive du nombre de donnes lorsque le cot augmente pour atteindre un
cot maximum de 40,63 e.

Les prothses dentaires

Le graphique ci-dessous illustre la distribution du cot moyen empirique pour les pro-
thses dentaires :

Figure 20 Distribution du cot moyen (prothses dentaires)

Moyenne cart-type 20 Cot maximum


142,46 87,88 603,07

Table 25 Statistiques descriptives du cot moyen(prothses dentaires)

Compte tenu du cot des prothses dentaires, il est vident que le remboursement
moyen (142,46 e) est plus lev que dans le cas des analyses et actes de laboratoire. Les
q Pn
1
19. Lcart-type fourni par SAS est de la forme : n1 i=1
(xi x)2 .

83
valeurs tant plus tendues avec la prsence de valeurs trs faibles et de valeurs trs leves,
lcart-type est gal 87,88.

5.2 Le choix de la loi de probabilit


Nous appliquons dans cette partie les modles linaires gnraliss la modlisation
du cot moyen dun acte. Cette variable tant continue et positive, un modle suivant une
distribution classique telle que la loi normale nest pas trs appropri. Les distributions
les plus utilises dans ce cas sont les lois exponentielles, gamma et log-normale. Il sagit
ainsi de choisir le modle proposant le meilleur ajustement aux donnes tudies.

Les analyses et actes de laboratoire

La procdure Univariate permet de comparer la distribution empirique avec la


fonction de densit des trois lois : exponentielle, gamma et log-normale. Les paramtres
des diffrentes distributions sont estims par maximum de vraisemblance et indiqus sous
le graphique ci-dessous :

Figure 21 Ajustement du cot moyen (les analyses et actes de laboratoire)

La forme de la distribution empirique correspond globalement la forme de la loi


gamma et de la loi log-normale. Nanmoins, la loi gamma semble mieux sajuster, puisque
la loi log-normale accorde un poids important aux valeurs proches de 5. La loi exponen-
tielle peut tre carte puisquelle ne permet pas de prendre en compte la forme en cloche
de la distribution des donnes.

Lanalyse graphique des histogrammes nest pas suffisante pour choisir un modle per-
mettant le meilleur ajustement aux donnes. Elle permet uniquement davoir un avis sur

84
le type de distribution qui pourrait tre utilis. Cette analyse doit tre complte par une
analyse graphique des Q-Q plot.

Le Q-Q plot (diagramme quantile-quantile) est une technique graphique employe pour
vrifier la pertinence de lajustement dune loi des donnes empiriques. Le principe est
de vrifier que les quantiles de la loi thorique correspondent aux quantiles des donnes
tudies. Le graphique reprsente en abscisses les quantiles de la loi thorique et en or-
donnes les quantiles observs. Ainsi les points reprsents sur le graphique doivent tre
aligns sur une droite.

Les graphiques ci-dessous reprsentent le Q-Q plot de la distribution des cots moyens
en analyse et actes de laboratoire par rapport aux lois gamma et log-normale :

Figure 22 Q-Q plot de la distribution du cot moyen (analyses et actes de laboratoire)

Le mauvais ajustement de la loi log-normale observ sur lhistogramme prcdent est


confirm avec lanalyse des Q-Q plot. Les points sont aligns pour les premiers quantiles
et se dtachent progressivement de la bissectrice. Concernant la loi gamma, malgr un
mauvais ajustement pour les quantiles extrmes, nous observons que les points sont globa-
lement aligns. Par ailleurs, le graphique ci-dessous, fourni par la procdure Capability
sous SAS, conforte le choix dutiliser la loi gamma. La fonction de rpartition de la loi
gamma est superpose la fonction de rpartition de nos donnes.

85
Figure 23 Distribution cumule du cot moyen (les analyses et actes de laboratoire)

Les prothses dentaires

Similairement au poste de garantie analyses et actes de laboratoire , il est ncessaire


de choisir le modle adquat aux donnes tudies pour les prothses dentaires. Nous
analysons ici directement les Q-Q plot de la distribution empirique par rapport aux lois
gamma et log-normale :

Figure 24 Q-Q plot de la distribution du cot moyen (prothses dentaires)

Dans le cas de la loi gamma, les points sont aligns sur la droite. Le Q-Q plot permet de
valider lhypothse dune meilleure adquation de la loi gamma avec les donnes tudies.
Le Q-Q plot de la loi log-normale permet de rejeter lhypothse dun ajustement pertinent
des donnes au modle thorique.

86
Nous confirmons notre choix avec ltude de la fonction de rpartition des donnes
thoriques et de la loi gamma. Mme si les deux courbes ne sont pas parfaitement super-
poses, le choix de valider lajustement dune loi gamma est maintenu puisque les distances
entre les points des deux courbes paraissent ngligeables.

Figure 25 Distribution cumule du cot moyen (les prothses dentaires)

5.3 Lestimation des paramtres


La rgression en utilisant les modles linaires gnraliss du cot moyen sest effectue
soit par une loi gamma soit par une loi log-normale avec la procdure Genmod . En
effet, pour chaque poste de garantie, la mme analyse que ci-dessus a t effectue et la
loi la plus adquate nos donnes parmi ces deux distributions a t retenue.

Comme la loi log-normale ne fait pas partie de la famille exponentielle, lide est de modli-
ser le logarithme du cot moyen par une loi normale et une fonction de lien identit, puisque
la loi normale appartient la famille exponentielle. tant donn que la loi thorique s-
lectionne pour les deux familles dactes est identique, nous prsenterons uniquement les
rsultats des prothses dentaires.

Les prothses dentaires

Pour ce poste de garantie, les variables slectionnes avec la mthode stepwise sont
uniquement le niveau de garantie du contrat (niveau 1 et 2 regroup), lge et le rgime
dadhsion. Les valeurs estimes des paramtres sont donnes ci-dessous :

87
Variable Modalit Valeur estime
Intercept 5,322
garantie 2 -0,930
garantie 3 -0,603
garantie 4 -0,210
garantie 5 0,000
age 0-20 0,091
age 21-30 0,107
age 31-50 0,106
age 51-60 0,057
age 61-70 0,036
age 71et plus 0,000
regime General 0,0680
regime Local 0,000

Table 26 Paramtres estims pour les prothses dentaires

Les graphiques ci-dessous fournissent les valeurs prdites pour chaque modalit, ce qui
correspond lexponentielle des valeurs estimes du tableau ci-dessus :

Figure 26 Coefficients du GLM relatifs lge

88
Figure 27 Coefficients du GLM relatifs au niveau de garantie

Figure 28 Coefficients du GLM relatifs au rgime dadhsion

Les diffrents coefficients reprsents sur ces graphiques semblent tre cohrents. En
effet, le remboursement moyen des frais de soins de sant augmente en fonction du niveau
de garantie du contrat, et est plus lev au rgime gnral quau rgime local. Concernant
lge, il est plus difficile dinterprter les coefficients. Il semblerait que les personnes ges
ont recours des soins ayant un reste charge plus faible suite au remboursement de la
Scurit sociale.

89
5.4 Lanalyse des rsidus du modle slectionn
Afin de valider la rgression effectue, il est ncessaire danalyser les rsidus du modle.
Pour cela, nous vrifierons :
la rpartition des rsidus en fonction des valeurs prdites pour dtecter dventuels
points aberrants ;
la rpartition des rsidus autour de la valeur zro de faon symtrique pour valider
lhypothse dhomoscdasticit et desprance nulle ;

Nous reprsentons les rsidus pour les prothses dentaires :

Figure 29 Rsidus de dviance standardiss en fonction des valeurs prdites

La rpartition des rsidus pour chaque valeur prdite ne permet pas de dtecter de
valeurs aberrantes ou de tendance particulire. Les rsidus semblent tre plus ou moins
centrs en zro, ce qui vrifie lhypothse desprance nulle. Cependant, lhypothse de va-
riance constante des erreurs ne semble pas vrifie, puisque les rsidus ne sont pas rpartis
de faon symtrique. Nous pouvons observer des variances plus leves pour les valeurs
prdites comprises entre 80 eet 135 e, contrairement aux valeurs prdites comprises entre
165 eet 250 e.

Analysons prsent les rsidus en fonction des variables explicatives slectionnes par
le modle :

90
Figure 30 Rsidus de dviance standardiss en fonction des variables explicatives

Les rsidus reprsents en fonction de la garantie et du rgime semblent tre globale-


ment de variance constante. Contrairement lge, o la variance de la premire classe
dge semble tre significativement infrieure celle des autres classes dge.

5.5 Conclusion
Nous avons effectu un GLM sur les cots moyens pour pratiquement chaque sous-poste
de garanties. Les sous-postes de garantie tels que le remboursement du forfait tlvision ou
du lit daccompagnant nont pas t modlis, compte tenu du faible nombre de donnes
et du faible impact de ces garanties sur la prime.

La loi de probabilit adapte pour chaque modlisation a t slectionne en fonction


des Q-Q plot. Dans lensemble, il semblerait que la loi gamma soit plus adapte que la loi
log normale, hormis pour trois sous-postes de garantie modliss par une loi log normale :
les honoraires en hospitalisation, la maternit et le transport.

Similairement aux prothses dentaires, nous avons analys la cohrence des coefficients
estims par le GLM. Nous navons dtect aucune incohrence pour chacun des postes de
garanties.

91
Enfin, afin de vrifier les hypothses du GLM, une analyse graphique des rsidus de
chaque modle a t effectue. Globalement, nous avons obtenu les mmes rsultats que
les rsidus des prothses dentaires prises en charge par la Scurit sociale. Lhypothse
desprance nulle semblerait tre vrifie contrairement lhypothse dhomognit des
variances. Ces rsultats ne nous permettent pas de valider les GLM du cot moyen.

92
Chapitre 6

La comparaison avec la mthode


directe

Dans ce chapitre, nous proposons dans un premier temps une analyse de cohrence des
coefficients estims avec le GLM, et ensuite une comparaison de la prime estime avec le
GLM et la mthode directe.

6.1 La cohrence de la prime estime avec le GLM


Dans le cadre des prothses dentaires, les variables retenues pour les GLM relatifs la
frquence et au cot moyen sont lge, le niveau de garantie et le sexe. Ainsi, analysons
lvolution de la prime pure en fonction de lge pour chaque niveau de garantie, sachant
que la frquence a t estime par un modle ZINB.

Figure 31 Prime pure en fonction du niveau de garantie

Les coefficients estims avec le GLM paraissent cohrents, puisque la prime augmente
en fonction de lge. Par ailleurs, il est galement vident que nous observons une trans-
lation vers le haut des courbes de consommation par niveaux de garantie, puisque dune
part la frquence de consommation augmente avec le niveau de garantie et dautre part le

93
remboursement dun acte dpend du niveau de la garantie. Cependant, nous remarquons
que lcart de prime entre deux niveaux de garantie augmente en fonction du niveau de
garantie.

Il est noter que la forme des courbes est due la tarification par classes dge tablie
dans le cadre du GLM.

Analysons prsent lvolution de la prime par sexe :

Figure 32 Prime pure en fonction du sexe et du rgime dadhsion (prothses dentaires

Les primes sont nouveau cohrentes puisque la prime est lgrement plus leve pour
les femmes, considres comme ayant une frquence de consommation plus leve.

Dans le cadre des analyses et actes de laboratoire :

94
Figure 33 Prime pure en fonction du sexe et du rgime dadhsion (analyses en actes
de laboratoire)

Figure 34 Prime pure en fonction du dpartement

6.2 La comparaison avec la mthode directe


6.2.1 La prsentation de la mthode directe
La tarification actuelle utilise afin destimer la prime pure pour un contrat collectif
sant sur-mesure est base majoritairement sur une mthode de dtermination directe de
la frquence et du cot moyen. Le tarif tient compte de diffrentes variables qui ont t
utilises dans le cadre du modle linaire gnralis lexception du lieu dhabitation, du
type de bnficiaire et du nombre denfants. Il est noter que la variable ge nest
pas regroupe sous forme de classes dge. Les frquences et cots moyens sont dans un

95
second temps lisss par la mthode la plus adapte chaque poste de garantie (ajustement
paramtrique, lissage Whittaker-Henderson,etc.).

Pour chaque ensemble dactes (garantie lentilles, consultations gnralistes, etc.), un


tarif annuel est dtermin en fonction des variables impactant significativement la fr-
quence et le cot moyen. Lagrgation des primes des diffrents postes de garantie fournit
la prime finale propose lentreprise avant la prise en compte des diffrents frais et taxes.

Cette mthode de tarification, base sur les donnes 2009 2011, a t actualise avec
les donnes 2011 2013.

6.2.2 Comparaison de la prime pure


Lanalyse des rsidus du GLM appliqu aux cots moyens ne nous conduit pas valider
lutilisation dun GLM pour lestimation de la prime. Toutefois, nous souhaitons comparer
les rsultats de la mthode directe avec ceux du GLM. Il serait galement intressant ici de
comparer les modles ZINB, ZIP et binomial ngatif avec la frquence dtermine avec la
mthode directe afin danalyser le modle sen rapprochant le plus (pour un mme modle
de cot gamma). Nous nous intressons nouveau la tarification des prothses dentaires
acceptes par la Scurit sociale et la tarification des actes et des analyses de laboratoire,
par soucis de lisibilit.

La mthode directe est compare trois modles de GLM :

Loi de probabilit pour la frquence Loi de probabilit pour le cot moyen


Modle 1 Binomiale ngative Gamma
Modle 2 ZIP Gamma
Modle 3 ZINB Gamma

Table 27 Les diffrents modles de GLM

Pour commencer, analysons lvolution de la prime pure moyenne en fonction de lge


pour les prothses dentaires :

96
Figure 35 Comparaison de la prime pure (prothses dentaires)

Age Mthode directe Modle 1 Modle 2 Modle 3


14-20 8,65 2,00 1,78 2,91
21-25 34,45 32,40 27,39 27,88
26-30 45,24 56,18 47,66 39,94
31-35 54,53 78,39 62,56 50,24
36-40 62,34 96,23 71,41 55,33
41-45 68,65 114,69 81,50 61,12
46-50 73,48 134,96 90,34 65,40
51-60 77,73 163,21 110,53 77,04
61-70 78,44 159,82 108,24 75,44
71-75 75,24 153,54 104,10 83,57

Table 28 Prime pure par ge et par type de modle (prothses dentaires)

Les diffrences par rapport au modle directe :

Age Modle 1 Modle 2 Modle 3


14-25 -76,84% -79,47% -66,35%
26-30 24,18% 5,35% -11,72%
31-35 43,75% 14,72% -7,87%
36-40 54,37% 14,56% -11,25%
41-45 67,06% 18,72% -10,97%
46-50 83,67% 22,95% -11,00%
51-60 109,97% 42,20% -0,88%
61-70 103,75% 37,99% -3,82%
71-75 104,87% 38,75% 11,38%

Table 29 Diffrence entre la prime pure calcule par la mthode directe et par les
diffrents modles GLM (prothses dentaires)

97
Le graphique prcdent montre bien que le modle binomial ngatif surestime forte-
ment la frquence et ainsi la prime pure, qui est d au mauvais ajustement de ce modle
nos donnes. Le modle ZINB, quant lui, se rapproche beaucoup de la mthode directe.
Le tarif estim est globalement lgrement infrieur la mthode directe.

Analysons de faon similaire lvolution de la prime pure moyenne en fonction de lge


pour les analyses et actes de laboratoire :

Figure 36 Comparaison de la prime pure (analyses et actes de laboratoire)

Age Mthode directe Modle 1 Modle 2 Modle 3


14-20 4,34 3,31 2,95 3,35
21-25 7,23 6,79 6,53 6,86
26-30 8,61 8,4 8,18 8,49
31-50 8,46 8,28 7,77 8,37
51-60 10,21 9,91 8,94 10,02
61-63 12,09 12,87 11,48 12,99
64-66 13,25 14,1 12,9 14,62
67-75 15,68 14,96 13,19 14,62

Table 30 Prime pure par ge et par type de modle (prothses dentaires)

Les diffrences par rapport au modle directe :

98
Age Modle 1 Modle 2 Modle 3
14-20 -23,74% -32,04% -22,91%
21-25 -6,16% -9,73% -5,12%
26-30 -2,43% -5,01% -1,38%
31-50 -2,04% -8,12% -0,96%
51-60 -2,98% -12,44% -1,92%
61-63 6,42% -5,05% 7,45%
64-66 6,41% -2,67% 10,29%
67-75 -4,58% -15,83% -6,75%

Table 31 Diffrence entre la prime pure calcule par la mthode directe et par les
diffrents modles GLM (prothses dentaires)

6.3 La conclusion et limites du GLM


Dans le cadre de la modlisation de la frquence, lapplication du GLM aux donnes
tudies a mis en vidence un problme de dispersion des donnes qui na pas pu tre tota-
lement pris en compte par un modle binomial ngatif. Ainsi, des modles plus complexes
ont d tre utiliss. Lutilisation de ces modles peut tre contraignante puisquil sagit de
slectionner simultanment des variables explicatives pour deux processus distincts, solli-
citant beaucoup de temps. Par ailleurs, contrairement aux coefficients estims avec la loi
de Poisson, ceux qui sont estims par ces modles ne sont pas faciles interprter comme
dans le cas de la loi de Poisson.

Dans le cadre du cot moyen, lanalyse des rsidus na pas permis de valider le modle
GLM malgr le choix pralable de la loi la plus adapte aux donnes tudies. Le rejet du
modle par lanalyse des rsidus a t observ sur la majorit des postes et sous postes de
garanties tudies.
Par consquent, nous avons dcid de ne pas retenir le GLM.

Dans la deuxime partie du mmoire, lanalyse des rsultats de lACP a permis de


mettre en vidence la prsence dune certaine corrlation linaire entre la frquence de
consommation et le cot moyen notamment pour les actes de consultations et de visites
chez les auxiliaires. En gnral, ce phnomne est trs prsent dans le cadre de loptique,
mme si elle na pas pu tre confirme par lACP (mauvaise reprsentation des variables
sur les axes factoriels). La valeur de la prime peut tre ainsi biaise, puisquelle repose
sur lhypothse dindpendance entre la frquence et le cot moyen. Une solution serait
destimer directement la prime sans distinguer la frquence et le cot moyen. Mais, ce choix
ne permettrait pas de raliser un tarif prcis, puisque les variables influant la frquence de
consommation ne sont pas forcment les mmes que les variables ayant une influence sur
le cot moyen.

99
Quatrime partie

Lanalyse et la mesure du risque


dantislection

La commercialisation de contrats collectifs facultatifs en assurance sant suscite des inter-


rogations sur la prise en compte du risque dantislection. Lobjet de cette partie est de
dfinir ce phnomne, de lanalyser dans une optique micro-conomique et statistique et
de proposer un ou plusieurs coefficients de majoration retenir pour la tarification de tels
contrats.

1 La prsentation du phnomne dantislection 101


1.1 Dfinition gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
1.2 Lapproche conomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
1.2.1 Le cadre gnral du modle . . . . . . . . . . . . . . . . . . . . . . . 102
1.2.2 Lquilibre en information parfaite . . . . . . . . . . . . . . . . . . . 103
1.2.3 Le problme en prsence dantislection . . . . . . . . . . . . . . . . 104
1.3 Les solutions possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

2 Lanalyse statistique 107


2.1 La prsentation de la mthode danalyse retenue . . . . . . . . . . . . . . . 107
2.1.1 La prsentation des contrats facultatifs . . . . . . . . . . . . . . . . . 107
2.1.2 La description de la mthodologie . . . . . . . . . . . . . . . . . . . 108
2.1.3 Le traitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2 Ltude de la dmographie par type de contrat . . . . . . . . . . . . . . . . 111
2.2.1 LACP sur la dmographie . . . . . . . . . . . . . . . . . . . . . . . 111
2.2.2 Lanalyse univarie plus prcise sur lge . . . . . . . . . . . . . . . . 116
2.3 La vrification de lexistence du phnomne dantislection . . . . . . . . . . 118
2.3.1 La prsentation du modle ANOVA . . . . . . . . . . . . . . . . . . 118
2.3.2 Lapplication ltude de lantislection . . . . . . . . . . . . . . . . 120
2.4 La mesure de lantislection . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
2.4.1 La normalisation des donnes . . . . . . . . . . . . . . . . . . . . . . 122
2.4.2 Les rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
2.5 La mesure de lantislection par postes de garantie . . . . . . . . . . . . . . 125
2.6 La mesure de lantislection en fonction de lge . . . . . . . . . . . . . . . . 128
Chapitre 1

La prsentation du phnomne
dantislection

1.1 Dfinition gnrale


Avant de dfinir la notion dantislection, prdfinissons de faon plus gnrale la no-
tion dasymtrie dinformation. En effet, lasymtrie dinformation peut tre dfinie comme
le fait que linformation nest pas partage ou connue par tous.

Par exemple :
dans le domaine de lassurance, lorsque lassureur na pas la mme connaissance du
risque de lassur que lassur lui-mme ;
au niveau dune socit quelconque, lorsque les dirigeants et les investisseurs ne
disposent pas des mmes renseignements concernant la socit.

Deux phnomnes peuvent tre distingus en prsence dasymtrie dinformation :


lala moral (ou risque moral) et lantislection (ou slection adverse).

Dans le cas dun contrat dassurance, lala moral peut tre dfini comme ci-dessous
selon lconomtre franais P. A. Chiappori :
Lon parle dala moral lorsquune spcificit du contrat induit chez las-
sur un comportement non observable par lassureur contraire lintrt com-
mun.
Ainsi ce sont les caractristiques du contrat qui auront une influence sur la consommation
ou le nombre de sinistres de lassur. Dans le cas de lassurance sant, est-ce que lassur
consommera plus ou moins dactes mdicaux en fonction des garanties de son contrat ?

Lantislection se distingue de lala moral car elle ne porte pas sur les actions des in-
dividus. Il est question dantislection, dans le cadre dun contrat dassurance, lorsque les
assurs ayant la possibilit ou non de souscrire le contrat, dtiennent une information sur
leur risque non connue par lassureur. Dans ce cas, les personnes ayant une forte probabi-
lit davoir un sinistre seront plus intresses par le contrat dassurance que les personnes
ayant une faible probabilit. La notion dantislection est lie lincapacit de lassureur
de distinguer les bons risques des mauvais risques.

101
Les consquences de la prsence dala moral et dantislection sont significatives pour
un assureur. Nous montrerons dans une analyse micro-conomique quelle constitue une
limite au bon fonctionnement des marchs dassurance.

1.2 Lapproche conomique


Lantislection est considre comme un phnomne conomique que nous proposons
dapprhender de manire statistique. Avant de prsenter une approche statistique dans
le chapitre suivant, il semble lgitime ici de dvelopper une approche conomique dans le
domaine de lassurance.

Trois principaux auteurs analysant le phnomne de slection adverse peuvent tre cits :
Arrow, Rothschild et Stiglitz. Dans le cas de lantislection, nous prsenterons le modle
et brivement les rsultats de larticle de Rothschild et Stiglitz (1976), Equilibrium in
Complete Insurance Markets : an Essay on the Economics of Imperfect Information .
Il est noter que lintention nest pas dexposer la thorie conomique relative lanti-
slection, mais uniquement de mettre en vidence la problmatique par le biais doutils
conomiques.

1.2.1 Le cadre gnral du modle


Les auteurs considrent un march dassurance de concurrence parfaite o ils dis-
tinguent deux types dassurs :
les assurs avec un niveau de risque lev (les hauts risques) dune proportion
(connue par lassureur) disposant dune probabilit de sinistre pH ;
les assurs avec un niveau de risque faible (les bas risques) dune proportion 1
disposant dune probabilit de sinistre pL .

Do la probabilit moyenne de survenance dun sinistre p dans la population :

p = pH + (1 )pL

o pH > pL .

Les auteurs considrent deux tats de la nature, W1 et W2 reprsentant respective-


ment la richesse de lassur lorsque lassur ne subit pas de sinistres et lorsquil subit un
sinistre. Les assurs ont tous la mme richesse initiale indpendamment du type de risque.
Les prfrences V (.) 21 des deux types dassurs sont caractrises par la mme fonction
dutilit U (.) o U est strictement croissante et concave 22 :

VH (pH , W1 , W2 ) = (1 pH )U (W1 ) + pH U (W2 )


21. Les choix des assurs sont caractriss par la fonction V (.) reprsentant une fonction de lutilit
espre
22. Une fonction dutilit concave indique laversion au risque des assurs.

102
VL (pL , W1 , W2 ) = (1 pL )U (W1 ) + pL U (W2 )

Nous caractrisons le contrat dassurance par = (, Q) o reprsente le profit de


lassureur pour une couverture dassurance Q (quantit). Si Q est gale au montant du
sinistre, il sagit dune couverture complte et si Q est infrieure au montant du sinistre,
il sagit ainsi dune couverture partielle ou dun contrat avec franchise.

Lquilibre selon Rothschild et Stiglitz a t dfini par les deux conditions suivantes :
le contrat ralise un profit non ngatif ;
il nexiste pas dautres contrats qui, sil tait propos, raliserait un profit positif.

Par ailleurs, lhypothse de concurrence parfaite suppose que le profit espr doit tre
nul lquilibre.

1.2.2 Lquilibre en information parfaite


Afin de dterminer lquilibre en information parfaite, nous procdons par une analyse
graphique 23 .

Figure 37 quilibre en information parfaite

Le graphique ci-dessus permet de visualiser lquilibre lorsque lassureur connait par-


faitement le type de risque de lassur.

Dfinissons prsent les diffrents lments du graphique :

23. Graphiques inspirs de larticle de Rothschild et Stiglitz, Equilibrium in Complete Insurance Mar-
kets : an Essay on the Economics of Imperfect Information

103
La droite de 45 degrs reprsente toutes les situations qui permettent davoir un
mme niveau de richesse, indpendamment de la prsence ou non de sinistres (cou-
verture totale). Ainsi, tout contrat situ sur cette droite assure un niveau de couver-
ture complet et tous points en-dessous de cette courbe reprsentent un contrat avec
franchise ;
Les prfrences des deux types dindividus sont reprsentes par les courbes dindif-
frence des fonctions dutilit VH et VL , cest--dire toutes les situations de richesse
(W 1,W 2) qui conduisent lassur au mme niveau de bien-tre. Le niveau de bien-
tre de lindividu augmente lorsque la courbe dindiffrence sloigne de lorigine.
Les contrats situs sur les droites (EH) et (EL) sont au prix actuariel (droites
actuarielles). En effet, tous contrats situs sur (EH) et souscrit par les hauts risques
assurent un niveau de profit espr nul. De la mme faon pour (EL), puisque
lassureur obtient un profit espr nul uniquement si le contrat est souscrit par un
bas risque.

Dans ce cas, lquilibre est atteint en maximisant les fonctions dutilit des assurs de
chaque type avec la contrainte de profit espr nul pour lassureur. Le contrat doit donc se
situer sur la courbe dindiffrence respective la plus leve tangente la droite actuarielle
respective. Par consquent, la solution est un niveau de couverture complet pour chaque
type dassur en change dune prime dassurance actuarielle.

1.2.3 Le problme en prsence dantislection


En cas de prsence dantislection, lassureur est inform de la prsence de deux types
de risque, connat la proportion de personnes prsentes pour chaque type de risque, mais
na pas connaissance du profil de risque de chaque assur observ individuellement.
Analysons le graphique suivant :

Figure 38 quilibre en information imparfaite

104
Lassureur connait uniquement le risque moyen p, il propose ainsi une prime actuarielle
moyenne situe sur la droite (EF ), note = pQ.

Or, nous savons que :


pH > p et pL < p

Ainsi, la prime que les bas risques sont prts payer est infrieure la prime moyenne :
pL Q < pQ. La prime propose par lassureur est trop leve pour ces assurs. Par ailleurs,
si le contrat propos par lassureur est et quun autre assureur propose le contrat , le
niveau de bien tre des bas risques augmenterait en choisissant le contrat .

Concernant les hauts risques, la prime quils sont prts payer est suprieure la
prime moyenne : pH Q > pQ. Le contrat propos par lassureur est intressant pour ces
assurs, contrairement au contrat qui rduirait leur niveau de satisfaction.

Par consquent, un contrat tarif la prime moyenne aurait pour consquence dattirer
uniquement les mauvais risques.

Rothschild et Stiglitz propose un quilibre sparateur, cest--dire un contrat pour


chaque type de risque de faon ce que les assurs se diffrencient deux-mmes. Un
contrat dquilibre incitant les hauts risques ne pas choisir le contrat appropri aux bas
risques. La solution serait un contrat avec un niveau de couverture complet pour les hauts
risques et un contrat avec un niveau de couverture partiel pour les bas risques, tous deux
gnrant un profit moyen nul pour lassureur.

Nous ne dvelopperons pas ici les explications aux solutions proposes par les deux
auteurs, puisque cela ne constitue pas lobjet du mmoire (pour plus dinformations, cf.
[17]).

1.3 Les solutions possibles


Le modle lmentaire dantislection de Rothschild et Stiglitz nous a permis de com-
prendre limportance de la prise en compte de ce risque dans la tarification de contrats
dassurance. A prsent, il convient dnumrer les principales solutions proposes dans la
littrature :
Augmenter le niveau de discrimination dans la tarification
La prsence dantislection est majoritairement lie limpossibilit dobtenir cer-
taines informations sur lassur permettant de distinguer son profil de risque. Par
exemple, lassureur ne dispose daucune information sur ltat de sant des salaris
souhaitant un contrat facultatif. Par ailleurs, les informations sont trs limites dans
le cadre dun contrat collectif contrairement la sant individuelle. En tout tat de
cause, la prise en compte dun grand nombre de variables explicatives dans le modle
de tarification pourrait poser des problmes de robustesse de donnes, gnrant des
tarifs non fiables.
Diffrencier les niveaux de garantie des contrats
Nous avons vu dans le modle de Rothschild et Stiglitz quen cas de prsence danti-

105
slection, une solution serait de proposer des contrats diffrencis pour chaque type
de profil. Lindividu pourrait rvler son risque indirectement dans le choix de son
type de contrat. Nous avons indiqu que dans le cas de prsence de deux types de
risques, un individu avec un risque lev serait intress rationnellement par un ni-
veau de couverture total dassurance contrairement un individu avec un risque
faible, qui opterait plutt pour un contrat avec une couverture partielle. Il sagit,
ainsi de lautoslection, puisque les individus choisiront chacun les contrats qui leur
sont rserv.

106
Chapitre 2

Lanalyse statistique

Aprs avoir analys par une approche conomique le problme de lantislection et


voqu limportance de la mise en place dune solution, nous proposons dans cette partie
une solution pour prendre en compte ce phnomne dans le cadre de notre tarification.

2.1 La prsentation de la mthode danalyse retenue


2.1.1 La prsentation des contrats facultatifs
Dans le cadre de la commercialisation de contrats collectifs sant, les Assurances du
Crdit Mutuel proposent la fois des contrats obligatoires et facultatifs. Le caractre
facultatif de loffre se retrouve deux niveaux :
tant donn que, dici 2016, chaque entreprise est contrainte de souscrire un contrat
obligatoire sant respectant le panier de soins minimum impos par le futur dcret
suite lANI, la souscription doptions peut tre propose aux assurs. En effet, les
assurs peuvent augmenter leur niveau de garantie de faon facultative en souscrivant
une option suprieure. Lexemple fictif suivant illustre les contrats options :

Contrat socle obligatoire Option 1 Option 2


Soins courants 100% BR-RSS 200% BR-RSS 300% BR-RSS
Optique 100 epar an 300 epar an 500 epar an
Prothses dentaires 125% BR-RSS 150% BR-RSS 300% BR-RSS
Soins dentaires 125% BR-RSS 150% BR-RSS 300% BR-RSS
Forfait hospitalier 100% BR-RSS 100% BR-RSS 100% BR-RSS
Hospitalisation honoraire 100% BR-RSS 150% BR-RSS 200% BR-RSS

Table 32 Exemple de contrats options

Des contrats collectifs facultatifs peuvent galement tre proposs sans que len-
treprise ne doive souscrire au pralable un contrat obligatoire. Il sagit notamment
de contrats destination des membres dassociations, non concerns par lANI. Par
ailleurs, certains salaris disposant uniquement du panier de soins prvu par le dcret
(socle minimal) auprs dun autre assureur vont vouloir amliorer leur couverture
ou bnficier de nouveaux services en ayant recours une surcomplmentaire.

107
2.1.2 La description de la mthodologie
Afin de prendre en compte lantislection pour les contrats facultatifs, lobjectif est
dappliquer un ou plusieurs coefficient(s) de majoration la tarification tablie pour les
contrats obligatoires. Ce(s) coefficient(s) de majoration permettra ainsi de prendre en
compte le profil de risque des individus ayant opt pour un contrat facultatif.

La mesure de lantislection est une tche complexe, tant donn quil sagit de mo-
dliser le comportement dindividus et de le diffrencier de lala moral. tant donn
que la quantit de donnes relative aux contrats obligatoires facultatifs est trs faible et
compte tenu de la difficult de leur diffrenciation dans nos donnes, nous avons opt
pour une autre solution. Nous avons choisi dvaluer les carts de consommation entre
un contrat collectif obligatoire et un contrat individuel. En effet, le salari ne choisit pas
volontairement dadhrer un contrat collectif obligatoire mis en place par son entreprise,
contrairement aux contrats de complmentaire sant individuels o lindividu effectue la
dmarche dadhrer. Pour cela, nous disposons de donnes relatives aux contrats obliga-
toires et de donnes relatives aux contrats individuels. Lvaluation des carts se ralise
sur les frquences de consommation.

Cependant, cette tude ne permet pas de mettre lcart la prsence dala moral qui
se manifeste par un changement de comportement de lassur en fonction du niveau des
garanties de son contrat. Le fait davoir un contrat avec de meilleures garanties incitera
lassur consommer davantage dactes mdicaux, contrairement lantislection qui se
manifeste avant la souscription du contrat, lorsque lindividu choisit de souscrire volon-
tairement. Par ailleurs, la prsence dantislection peut tre plus ou moins marque en
fonction des niveaux de garanties des contrats. Enfin, lobservation dun cart de consom-
mation entre contrats collectifs et individuels peut tre biaise, compte tenu des diffrents
niveaux de garanties. Par consquent, il est plus prudent destimer un coefficient de ma-
joration dpendant galement du niveau de garantie.

Cette tude a t ainsi ralise sur un type de produit collectif dtenant cinq niveaux
de garantie. Ces niveaux de garanties sont galement prsents pour un type de produit
propos par lassurance sant individuelle.

Les schmas ci-dessous permettent dillustrer la distinction de lantislection et de


lala moral avec la mthode que nous avons slectionn. Nous avons fait les hypothses
suivantes :
la frquence augmente en fonction du niveau de garantie ;
pour un niveau de garantie donn, la frquence de consommation dun contrat col-
lectif obligatoire sera plus faible que la frquence de consommation dun contrat
individuel.

Ainsi, la longueur des diffrentes flches a t choisie de faon arbitraire.

108
Figure 39 Frquence de consommation des contrats individuels

Ce schma permet de montrer la difficult de diffrencier lantislection de lala moral.


En considrant uniquement les contrats individuels, il nest pas possible de connatre les
raisons du choix de consommation de lassur.
Est-ce que lassur consomme car il considre que son niveau de garantie est avantageux
ou est-ce quil sagit uniquement dun comportement prvu lors de la signature du contrat
dassurance ? Ces phnomnes sont prsents uniquement partir dune frquence minimale
qui correspond la frquence de consommation pour un individu nayant pas de contrat
de couverture sant.

Le schma ci-dessous illustre le cas des contrats collectifs :

Figure 40 Frquence de consommation des contrats collectifs

109
Dans le cas des contrats collectifs, lcart de consommation entre un individu nayant
pas de couverture sant et un individu ayant un contrat collectif obligatoire est considr
uniquement comme de lala moral. En effet, puisque les salaris nont pas le choix entre
souscrire ou non, il ne peut pas y avoir de lantislection. Analysons prsent le dernier
schma :

Figure 41 Frquence de consommation des contrats individuels et collectifs

Le contrat collectif obligatoire permet ainsi de diffrencier lala moral de lantis-


lection, qui sera mesure dans notre tude comme la diffrence entre la frquence de
consommation pour un contrat collectif obligatoire et un contrat individuel.

2.1.3 Le traitement des donnes


La comparaison entre un contrat collectif obligatoire et un contrat individuel doit sef-
fectuer avec vigilance. Il sagit de deux populations diffrentes en termes de dmographie.

Dans un premier temps, il convient de vrifier la quantit de nos donnes. En effet, les
donnes ont t rduites suite au choix dun unique type de contrat, proposant des niveaux
de garanties (1 5) identiques en collectif et en individuel. Concernant les donnes collec-
tives, la quantit de contrat de niveau de garantie 1 est trs faible. Ainsi, nous dcidons de
ne pas tenir compte des contrats collectifs de niveau de garantie 1. Par consquent, il est
galement ncessaire de supprimer les donnes individuelles de niveau de garantie 1. Pour
les autres niveaux de garanties, il semblerait que nous disposons de donnes suffisantes,
hormis le niveau de garantie 2 en collectif pour lequel il faut tre prudent dans linterpr-

110
tation des rsultats.

Dans un deuxime temps, il est ncessaire de tenir compte de la rpartition par ge au


sein des contrats collectifs et individuels. En effet, pour les contrats collectifs o les assurs
sont des salaris, nous disposons de donnes jusqu environ 70 ans, contrairement aux
donnes individuelles, o nous observons des assurs excdant lge de 100 ans. Dans les
parties prcdentes, nous avons observ une forte hausse de la frquence de consommation
sur les grands ges. Ainsi, la prsence de ces grands ges expliquerait partiellement
le niveau de frquence lev en individuel, et biaiserait fortement le coefficient dantislec-
tion. Par consquent, il est ncessaire de slectionner uniquement les assurs ayant un ge
infrieur 70 ans.

2.2 Ltude de la dmographie par type de contrat


Lobjectif tant de dterminer un coefficient dantislection par niveau de garantie,
il est primordial deffectuer au pralable une analyse statistique sur la rpartition des
donnes en fonction des diffrentes variables explicatives dont nous disposons.

2.2.1 LACP sur la dmographie


Dans les parties prcdentes, une prsentation des diffrentes variables disponibles
pour analyser le risque de consommation de frais de sant a t effectue. Nous avons vu,
par lintermdiaire du modle linaire gnralis que ces variables peuvent impacter trs
significativement la frquence de consommation. Or, si la rpartition des contrats nest
pas proportionnelle pour les contrats individuels et collectifs par rapport aux diffrentes
variables, cela peut biaiser la valeur de la frquence.

Par consquent pour analyser la composition des contrats collectifs et individuels avec
diffrents niveaux de garantie, une analyse en composantes principales peut tre intres-
sante.

LACP a t ralise sur huit individus qui reprsentent la nature du contrat associ
son niveau de garantie :
contrat individuel de niveau de garantie 2 ;
contrat individuel de niveau de garantie 3 ;
contrat individuel de niveau de garantie 4 ;
contrat individuel de niveau de garantie 5 ;
contrat collectif obligatoire de niveau de garantie 2;
contrat collectif obligatoire de niveau de garantie 3;
contrat collectif obligatoire de niveau de garantie 4;
contrat collectif obligatoire de niveau de garantie 5.

Nous utiliserons par la suite, la notion de "type de contrat" qui regroupe la nature du
contrat et son niveau de garantie.

Les variables et modalits considres dans ltude sont les suivantes :


proportion dhommes et de femmes ;

111
proportion dadhrent au rgime gnral (not gen) et local (not loc) ;
proportion de personnes avec un ge compris entre 0 et 10, 11 et 20, etc (not age10,
age20, etc.) ;
proportion de personnes habitant dans les classes de dpartements cres dans la
deuxime partie du mmoire (not dpt1, dpt2, etc.).

Lobjectif recherch avec cette ACP est ainsi de distinguer les variables et modalits
reprsentatives des diffrents types de contrat.

Le choix du nombre daxes

Figure 42 Choix du nombre daxes factoriels

Ce graphique reprsente le pourcentage de variance explique en fonction du nombre


daxes. Le nombre daxes optimal correspond au nombre avant la cassure . Dans ce cas,
il convient ainsi de retenir deux axes, qui reprsentent une grande partie de linformation
(76,57%).

112
Le graphique des individus et des variables

Figure 43 Graphique des individus et des variables

113
Lanalyse du graphique des individus et des variables permet de fournir les rsultats
suivants :
un individu du graphique prend des valeurs plus leves que la moyenne pour les
variables allant dans sa direction ;
un individu du graphique prend des valeurs moins leves que la moyenne pour les
variables allant en direction oppose.

Or, pour pouvoir utiliser cette rgle de lecture, les variables doivent tre bien repr-
sentes sur le graphique, cest--dire proche des bords du cercle de corrlation (figure 43).
Les variables qui ne pourront pas tre interprtes sont : le dpartement n7, n2, et les
personnes dont lge est compris entre 10 et 20 ans et 50 et 60 ans.

Les rsultats suivants ont t relevs du graphique :


les hommes sont en proportion plus leve parmi les diffrents contrats obligatoires
que les femmes et les femmes sont plus prsentes que les hommes en individuel.
les adhrents du rgime local sont plus reprsentatifs des contrats individuel ayant
un haut niveau de garantie. Ce constat avait dj t fait dans lanalyse de la dmo-
graphie (partie 2).
la variable ge ne semble pas donner des rsultats pertinents. Nous pouvons
uniquement constater que les personnes ges de 60 ans ou plus sont plus prsentes
dans les contrats individuels, ce qui est li aux dparts en retraite des salaris ayant
des contrats collectifs.
les classes de dpartements 3 et 4 sont plus reprsentatives des contrats individuels
de niveau de garantie 2 et 3.

La rpartition des contrats par sexe et par ge ncessite une analyse plus prcise
puisque ces variables ont beaucoup dinfluence sur la frquence de consommation.
Analysons prsent la variable sexe , qui nest clairement pas distribue de faon
similaire, daprs lACP, entre les contrats obligatoires et individuels.

Figure 44 Rpartition des assurs par type de contrat

114
Le graphique de gauche reprsente la rpartition des assurs dun contrat individuel
par niveau de garantie en fonction du sexe. Par exemple, parmi les contrats individuels de
niveau de garantie 2, 53% sont des femmes et 47% sont des hommes.

La rpartition par sexe semble tre semblable entre les diffrents niveaux de garan-
tie dun contrat de mme nature. Cependant, lorsque nous comparons les deux types de
contrat : les femmes sont plus prsentes que les hommes en individuel, et moins prsentes
en obligatoire. Les carts ne semblent toutefois pas tre majeurs.

La rpartition des contrats par classes de dpartement pour chaque type de contrat
est reprsente par les graphiques ci-dessous :

Figure 45 Rpartition des contrats individuels en fonction des classes de dpartement

115
Figure 46 Rpartition des contrats collectifs obligatoire en fonction des classes de
dpartement

Concernant les dpartements, les diffrences sont plus visibles. Nous observons surtout
une diffrence de rpartition entre les contrats individuels et collectifs pour les classes de
dpartement 1, 5 et 6.

2.2.2 Lanalyse univarie plus prcise sur lge


Le facteur le plus influent sur la frquence de consommation en assurance sant est
lge. Ainsi, il est ncessaire danalyser la rpartition par ge des individus des diffrents
contrats. En effet, il faudrait que cette rpartition soit identique pour les diffrents contrats
tudis afin de calculer une frquence par type de contrat non perturbe par la structure
des ges.

116
Figure 47 Rpartition des contrats individuels en fonction de lge

Figure 48 Rpartition des contrats collectifs obligatoire en fonction de lge

Nous dduisons les rsultats suivants des graphiques ci-dessus :


Pour les contrats individuels facultatifs, nous observons globalement une rpartition
plus forte de contrats avec de faibles niveaux de garantie avant lge de 35 ans (40
ans en obligatoire). Aprs cet ge, lordre des courbes est invers, la part de contrats
avec des hauts niveaux de garantie est plus leve que les contrats avec de faibles
niveaux de garantie.
En collectif, la proportion denfants est plus leve quen individuel.
En individuel, la proportion de grands ges est plus leve quen collectif. Sachant
que la frquence de consommation est relativement forte ces ges pour lensemble
des postes de garantie, il est ncessaire de prendre en compte cette diffrence de
rpartition dans lestimation du coefficient dantislection global.

117
2.3 La vrification de lexistence du phnomne dantislec-
tion
Dans cette section, nous souhaitons mettre en vidence la prsence dantislection entre
les contrats facultatifs et obligatoires avec un test danalyse de la variance.

2.3.1 La prsentation du modle ANOVA


La dfinition du modle
Le modle ANOVA (Analysis of variance) permet de tester leffet dune ou plusieurs
variables qualitatives appels facteurs sur une variable quantitative observe appele r-
ponse. Ce test est fond sur la comparaison des moyennes de plusieurs groupes constitus
par les modalits des diffrents facteurs tudis.

Le modle ANOVA o nous considrons un unique facteur j avec Yi j la rponse est


le suivant :
Yi j = + j + ij i = 1, . . . , nj j = 1, . . . , J

o j est lindice du niveau du facteur tudi et nj le nombre de rptitions pour une


modalit j. Le paramtre correspond leffet moyen, j leffet du facteur tudi et ij
reprsente les erreurs du modle.

Lanalyse de variance est fonde sur lquation de dcomposition de la variation totale


des donnes :

V ariation totale = V ariation intergroupe + V ariation intragroupe.

La variation intergroupe traduit leffet du facteur. En effet, elle correspond aux carts
entre les moyennes de chaque groupe et la moyenne gnrale. Les carts entre chaque obser-
vation et la moyenne du groupe est dtenue dans la variation intragroupe, que nous nom-
mons galement variation rsiduelle. Cette dcomposition sera utilise dans la construction
de test pour analyser linfluence du facteur.

Ces variations sont calcules partir de la relation suivante de la somme des carrs
des carts :

SCT = SCE + SCR


(yij y)2 = nj (yj y)2 + (yij yj )2 .
X X X

i,j i i,j

Ainsi, avec la prise en compte des degrs de libert de chaque composante, nous obte-
nons les carrs moyens CM associs suivants :

SCT
CM totale =
n1

118
SCE
CM explique =
J 1
SCR
CM rsiduelle =
nJ
o n = .
PJ
j=1 nj

Le test de Fisher
Lanalyse de la variance repose sur le test de Fisher o nous testons les hypothses
suivantes :
H0 : leffet de tous les niveaux du facteur est identique

1 = 2 = . . . = J = 0

H1 : au moins un niveau de facteur a un effet diffrent des autres

i {1, . . . , nj } o i 6= 0.

La statistique de test est la suivante :

CM explique SCE n J
F = =
CM rsiduelle SCR J 1

Il convient de la comparer au quantile dordre dune loi de Fisher (J 1) et (n J)


degrs de libert. Ainsi, nous rejetons lhypothse H0 ds lors que F > fJ1,nJ
1
ou ds
lors que P (FJ1,nJ > F ) < .

Cependant, lutilisation de ce test requiert au pralable la vrification des conditions


suivantes :
les erreurs ij doivent tre indpendantes ;
ij doit suivre une loi normale. Cette hypothse ne doit pas tre ncessairement
vrifie lorsque la population tudie est assez grande ;
les variances des diffrents erreurs doivent tre gales (hypothse dhomoscdasti-
cit).

Plusieurs tests permettent de vrifier lhypothse dhomoscdasticit tel que les tests
paramtriques de Bartlett, de Hartley ou de Levene. Les tests de Bartlett et Hartley,
contrairement au test de Levene, sont trs sensibles lhypothse de normalit de la va-
riable observe. Ainsi, le test de Levene est plus adapt dans le cas o les donnes ne
seraient pas distribues selon une loi normale.

Les tests dhomognits consistent vrifier lgalit des variances pour chaque niveau
du facteur :

H0 : 12 = 22 = = J2
H1 : k 6= j, j2 6= k2

119
Le rejet de H0 signifie que lhypothse dhomoscdasticit des erreurs nest pas v-
rifie et que le test ANOVA ne serait pas applicable dans ce cas. La solution serait de
recourir une transformation des donnes, un test non paramtrique ou un test pa-
ramtrique htroscdastique. Compte tenu de la puissance des tests paramtriques par
rapport aux tests non paramtriques, nous choisissons de raliser un test paramtrique
htroscdastique.

Le test de Welch
Pour contourner le problme de normalit et dgalit des variances des donnes tu-
dies, nous pouvons utiliser un test ne supposant pas lgalit des variances afin danalyser
leffet dun facteur. Parmi ces tests, nous retrouvons le test de Welch qui est considr
comme une alternative au test de Fisher.

Le test de Welch consiste tester les mmes hypothses que le test de Fisher sur deux
groupes :
H0 : leffet des deux niveaux du facteur est identique ;
H1 : leffet des deux niveaux du facteur est diffrent.

Soit 1 et 2 les moyennes respectives des groupes 1 et 2 constitus par les deux niveaux
du facteur tudi, 1 et 2 leurs variances respectives, et n1 et n2 les tailles respectives.
La statistique de test est la suivante :

1 2
T =r .
12 22
n1 + n2

Sous H0 , T va suivre une loi de Student avec degr de libert :

2 22 2
( n11 + n2 )
= 2 2 2 .
1 22
n21 (n1 1)
+ n22 (n2 1)

2.3.2 Lapplication ltude de lantislection


Dans cette sous-section, nous souhaitons mettre en vidence la prsence dantislection
dans nos donnes. Pour cela, nous dcidons au pralable dappliquer un test ANOVA sur
la frquence de consommation avec comme unique facteur, le type de contrat (cest--dire
individuel de niveau 1, individuel de niveau 2, etc).

Le test ANOVA peut tre utilis sans que lhypothse de normalit soit vrifie si
lchantillon de donnes est suffisamment grand, ce qui est le cas dans nos donnes. Nous
privilgions lutilisation de tests paramtriques tant donn quils sont plus puissants et
plus efficaces.

120
Par ailleurs, nous supposons lhypothse dindpendance vrifie et analysons lhypo-
thse dgalit des variances par le test de Levene fourni par la procdure GLM de SAS.
Rappelons que la statistique de test est identique la statistique de test dune analyse de
la variance classique sur la variable transforme suivante : |yij yj |.

Figure 49 Rsultats du test de Levene

Compte tenu de la significativit du test (p-valeur <5%), nous rejetons lhypothse


H0 dgalit des variances des diffrents modles, et par consquent nous ralisons une
erreur de premier espce. Le modle ANOVA nest donc pas applicable nos donnes. Il
est prfrable dutiliser un test htroscdastique. Ainsi, nous utilisons plusieurs tests de
Welch sous SAS, avec la procdure GLM :
test 1 : fichier de donnes contenant uniquement les contrats de niveau de garantie
2;
test 2 : fichier de donnes contenant uniquement les contrats de niveau de garantie
3;
test 3 : fichier de donnes contenant uniquement les contrats de niveau de garantie
4;
test 4 : fichier de donnes contenant uniquement les contrats de niveau de garantie
5.

Nous obtenons les rsultats suivants :

Welchs ANOVA (garantie 2)


Source DDL Valeur F Pr > F
contrat2 1.0000 60.50 <.0001
Error 311.8

Table 33 Test de Welch : niveau de garantie 2

Welchs ANOVA (garantie 3)


Source DDL Valeur F Pr > F
contrat2 1.0000 108.53 <.0001
Error 1941.3

Table 34 Test de Welch : niveau de garantie 3

121
Welchs ANOVA (garantie 4)
Source DDL Valeur F Pr > F
contrat2 1.0000 155.75 <.0001
Error 2171.9

Table 35 Test de Welch : niveau de garantie 4

Welchs ANOVA (garantie 5)


Source DDL Valeur F Pr > F
contrat2 1.0000 74.20 <.0001
Error 6671.5

Table 36 Test de Welch : niveau de garantie 5

La p-value de ces tests pour chaque niveau de garantie tant infrieure au seuil de
5%, nous pouvons rejeter lhypothse dabsence dantislection indpendamment de lala
moral. Ainsi nous ralisons galement une erreur de premire espce.

2.4 La mesure de lantislection


Nous avons montr dans la section prcdente quindpendamment de lala moral, il
existe un cart de frquence entre les contrats individuels et collectifs, considr comme
de lantislection. Nous proposons prsent, dans cette section, une mesure de ce risque
par poste de garantie et tous postes de garantie confondus.

2.4.1 La normalisation des donnes


Nous souhaitons estimer la frquence de consommation pour chaque niveau de garantie
pour les contrats individuels et collectifs. Or, le calcul de la frquence sur ces populations
peut tre fortement biais en raison de la structure par ge, par sexe et par dpartement de
ces diffrentes populations. En effet, ces frquences pourront tre comparables uniquement
si la structure des chantillons tudis est similaire pour des facteurs ayant une influence
sur la frquence de consommation.

La solution serait destimer la frquence en fonction des diffrents facteurs influen-


ant le comportement de consommation en sant, en calculant par exemple un coefficient
dantislection fix en fonction de lge, du sexe et du dpartement de lassur. Une autre
solution serait de corriger leffet des facteurs sur la frquence de consommation. Il sagit
dune technique de standardisation des donnes. Les mthodes les plus utilises sont : la
standardisation directe et la standardisation indirecte.

Afin de dterminer un coefficient dantislection indpendamment de lge de lassur,


nous appliquons la mthode de standardisation indirecte nos donnes. Il est noter quil
serait ncessaire a priori de corriger galement leffet du sexe et du dpartement, mais cela
poserait un problme de fiabilit du coefficient, suite un manque de donnes.

122
Pour cela, il est dabord ncessaire de calculer la frquence moyenne en fonction du
type de contrat et de lge, que nous notons fij avec i la ime modalit de la variable ge
et j la j ime modalit de la variable type de contrat.

Rappelons que le type de contrat est une variable constitu de la nature du contrat et
du niveau de garantie.

Nous notons :
nij : le nombre dassurs (en annes risques) ayant un ge i et un type de contrat
de j ;
ni : le nombre dassurs (en annes risques) ayant un ge i pour lensemble des
contrats ;
nj : le nombre dassurs (en annes risques) ayant un type de contrat j dans len-
semble de la population ;

Pour appliquer la technique de standardisation indirecte 24 des donnes, calculons


dabord les lments suivants :
La frquence moyenne par ge pondre par le nombre de contrats :

1 X
fi = jnij fij .
ni

La frquence moyenne par type de contrat pondre par le nombre de contrats :

1 X
fj = nij fij .
nj i

La frquence moyenne thorique par type de contrat : calcule partir de la frquence


moyenne par ge :
1 X
fj = nij fi .
nj i

Dans ce cas, au lieu de calculer une frquence moyenne en fonction de la frquence de


chaque case, nous ralisons une moyenne pondre sur une frquence moyenne par ge
calcule sur lensemble des contrats. Cette moyenne pondre prend en compte la structure
par ge du type de contrat j.
A partir des frquences moyennes thoriques et relles, nous calculons un indice par
type de contrat j :
fj
indj = .
f j

24. Mthode reprise de Lemel et Villeneuve Les consommations mdicales des Franais , Les Collec-
tions de lINSEE, 1977.

123
Cet indice permet dapprcier leffet de la frquence dun type de contrat par rapport
la frquence moyenne de la population. Ainsi, un indice de 0,8 signifierait que la frquence
de ce type de contrat reprsente 80% de la frquence moyenne de la population.

2.4.2 Les rsultats


Pour des raisons de confidentialit, les valeurs exactes des coefficients obtenus ne seront
pas fournies.

Aprs avoir corrig les donnes par la structure par ge de la population, nous obtenons
les frquences suivantes pour les contrats obligatoires et individuels :

Figure 50 Variation du niveau dantislection en fonction du niveau de garantie

Ce graphique met en vidence la prsence dantislection, compte tenu de lcart de


frquence de consommation entre les contrats individuels et collectifs. Par ailleurs, le ph-
nomne dala moral peut galement tre observ entre les diffrents niveaux de garantie
des contrats collectifs.

Le coefficient dantislection correspond ainsi :

F rquence moyenne individuelle


= 1
F rquence moyenne collective

Le graphique prcdent permet de montrer que le coefficient dantislection augmente


en fonction du niveau de garantie. Cette augmentation est plus marque entre les niveaux
de garantie 4 et 5. Ces diffrents coefficients semblent toutefois assez proches pour les
niveaux de garantie 2, 3 et 4.
Limpact de la normalisation des donnes est reprsent sur le graphique ci-dessous.

124
Niveaux de garantie 23 34 45
Variation du coefficient de majoration 2% 4% 12%

Table 37 Variation du coefficient de majoration en fonction du niveau de garantie

Figure 51 Impact de la standardisation des donnes

Le graphique ci-dessus montre que la standardisation des donnes par ge rapproche


les deux courbes et rduit ainsi le coefficient dantislection. La structure par ge des
contrats individuels accordant un poids important aux grands ges considrs comme
de grands consommateurs avait pour effet de surestimer les frquences.

2.5 La mesure de lantislection par postes de garantie


Nous nous intressons galement lanalyse de lantislection de certains grands postes
de garantie.

125
Figure 52 Analyse de lantislection pour les soins courants

Le graphique ci-dessus reprsente la frquence de consommation moyenne pour les


contrats individuels et collectifs obligatoires concernant les actes de soins courants hors
actes de pharmacie. Par consquent, nous constatons par analyse graphique que le ph-
nomne dantislection est significativement prsent pour les actes de soins courants. Cet
cart est majoritairement li aux actes de transport et aux visites et consultations de
spcialistes.

Figure 53 Analyse de lantislection pour la pharmacie

Concernant la pharmacie, lanalyse de lantislection est ralise sur la prime pure.


Nous observons lcart entre la prime pure dun contrat collectif obligatoire et un contrat
individuel puisque dans le cas des dpenses de mdicaments, la notion de frquence ne

126
parait pas fiable. En effet, sur une mme ordonnance, plusieurs mdicaments peuvent tre
prescrits, et peuvent tre comptabiliss pour un unique acte ou plusieurs actes.

Le phnomne dantislection semble tre inexistant dans le cas de la pharmacie, puisque


lcart entre les primes est trs faible. Nous constatons cependant, un petit cart pour les
contrats de niveaux de garantie 5.

Figure 54 Analyse de lantislection pour le dentaire

En dentaire, le phnomne dantislection semble tre trs prsent. Cet effet parait co-
hrent puisque cette catgorie dacte est notamment compose des prothses dentaires non
rembourses par la Scurit sociale. Un assur souhaitant consommer ce type dacte sera
trs incit souscrire un contrat. Nous constatons galement que les carts augmentent en
fonction des niveaux de garanties. Compte tenu des garanties trs faibles pour le dentaire
concernant le niveau de garantie 2, la frquence moyenne de consommation des assurs
dun contrat obligatoire collectif est plus leve que celle des assurs dun contrat facul-
tatif. En effet, lassur ne sera pas incit souscrire un contrat de complmentaire sant
individuel uniquement pour le remboursement de ses prothses dentaires puisque le niveau
y est faible.

Lvolution du phnomne dala moral par niveaux de garantie est peu marque dans
le cas du dentaire, puisque la frquence de consommation pour les contrats obligatoires
est presque constante selon les diffrents niveaux de garantie.

127
Figure 55 Analyse de lantislection pour loptique

Loptique semble tre un poste de garantie o le phnomne dantislection est plus


faible que le dentaire et les soins courants. Cependant, contrairement au dentaire, lanti-
slection ne dpend pas du niveau de garantie. Le coefficient semble tre assez stable.

Concernant lala moral, il est significativement prsent en optique, puisque la frquence


de consommation augmente en fonction du niveau de garantie dans le cadre dun contrat
collectif.

2.6 La mesure de lantislection en fonction de lge


Compte tenu de la forte influence de lge sur la frquence de consommation en sant,
nous proposons dans cette partie un coefficient dantislection en fonction de lge, en
plus du type du contrat et du niveau de garantie. Les ges ont t regroups par classes
en fonction de la courbe de consommation globale en sant afin de rendre lanalyse plus
robuste.

128
Figure 56 Variation du comportement antislectif en fonction de lge

Globalement, nous constatons en premier lieu que leffet de lge ne dpend pas du
niveau de garantie. En effet, lcart entre les deux courbes semble tre assez similaire pour
les trois graphiques. Il est vident que pour les nouveau-ns, il ny a pas dantislection.
Nous remarquons que le phnomne dantislection apparat de faon significative vers
lge de 17 ans et augmente en fonction de lge pour atteindre son maximum entre 57 et
70 ans.

129
130
Conclusion gnrale

Une tude pralable du portefeuille nous a permis de slectionner les facteurs impac-
tant la sinistralit en assurance sant : lge, le rgime dadhsion, le sexe, le niveau de
garantie du contrat, le dpartement, le type de bnficiaire et le nombre denfants par
adhrent. Nous avons port une attention particulire limpact du dpartement sur la
sinistralit observe. Compte tenu du nombre important de modalits de cette variable,
nous avons eu recours une CAH qui a permis de regrouper les dpartements en sept
classes selon la consommation observe sur les diffrents postes de garantie.

Ensuite, aprs avoir rappel les fondements thoriques des GLM, nous lavons appliqu
la modlisation de la frquence de consommation et du cot moyen.
La modlisation de la frquence avec le GLM, bas sur la modlisation du nombre dactes
consomm, a ncessit lutilisation de lois de probabilits discrtes. tant donn la pr-
sence dune htrognit non observable parmi nos donnes et la forte prsence dassur
nayant pas consomm pour certaines familles dactes, des modles modifies en zro
ont t utilises en plus des lois usuelles. Pour les deux sous-catgories dactes considres
dans cette tude, le modle binomial ngatif modifi en zro a fourni les meilleurs rsultats.
Concernant les cots moyens, les lois de probabilits classiques modlisant des distribu-
tions continues ont t slectionnes. Globalement, la loi gamma nous a sembl la plus
adapte. Toutefois, lanalyse des rsidus des estimations fournies par le GLM a mis en
vidence un mauvais ajustement du modle aux donnes tudies.
La prime pure issue de ces modles a t compare la mthode de tarification classique
de la frquence et du cot moyen, et nous avons constat que le modle de frquence
binomial ngatif modifi en zro est le plus adapt nos donnes.

Compte tenu de la mauvaise reprsentation des rsidus du cot moyen et de la com-


plexit dutilisation des modles modifis en zro, nous avons choisi de garder le modle
actuel de tarification directe de la frquence et du cot moyen. Cette mthode de tarifica-
tion, mme si nous ne pouvons pas la valider par des tests statistiques, prsente lavantage
dtre plus flexible et dune utilisation plus simple que le GLM.

Enfin, dans la dernire partie du mmoire, nous nous sommes intresss au risque
dantislection dans lobjectif de tarifer les contrats collectifs facultatifs. Une analyse
conomique a permis de montrer que la non prise en compte de ce phnomne a pour
consquence dattirer uniquement les individus avec des niveaux de risques levs. Dans
une approche statistique, compte tenu du faible nombre de contrats collectifs facultatifs
parmi nos donnes, nous avons ainsi choisi dvaluer lcart de frquence de consommation
entre les contrats collectifs obligatoire et les contrats individuels. Le choix danalyse par
niveaux de garantie du contrat a permis de retirer tout comportement relevant du ph-
nomne dala moral. Ainsi, nous avons calcul des coefficients dantislection permettant

131
de prendre en compte lexcs de consommation par rapport un contrat obligatoire. Tous
postes de garanties confondues, ces coefficients sont presque identiques selon les diffrents
niveaux de garantie considrs. Une analyse par postes de garantie, a montr que le phno-
mne dantislection est presque inexistant dans le cas de la pharmacie, contrairement au
poste dentaire o le coefficient atteint son niveau maximal notamment d aux prothses
dentaires non prises en charge par la Scurit sociale. Pour finir, une tude en fonction de
lge de lassur a permis de conclure que le comportement antislectif, inexistant pour les
nouveaux ns, est particulirement marqu partir de lge de 17 ans.

Ltude pralable de la sinistralit a permis galement de constater que lutilisation


dun modle frquence - cot dans le cadre de la sant peut biaiser les rsultats. En effet,
lhypothse dindpendance entre la frquence de consommation et le cot moyen nest pas
vrifie pour certains postes de garantie tels que loptique o le comportement de consom-
mation de lassur dpend du reste charge de lacte. Par ailleurs, la dtermination dune
prime par famille dactes ne permet pas de prendre en compte les interactions existant
entre certaines familles dactes. Un exemple simple est la corrlation entre la consomma-
tion de mdicaments et la visite chez un gnraliste, ou la corrlation entre lachat dune
monture de lunette et lachat de verres. Ainsi, il peut tre intressant de tester des m-
thodes de tarification alternatives au modle frquence - cot afin dapprhender au mieux
le risque sant.
Les modles non paramtriques sont de plus en plus utilises afin de saffranchir des li-
mites dun modle frquence - cot et du GLM. Il sagit des algorithmes dapprentissage
statistique, qui, contrairement au GLM ne ncessite pas de formuler une hypothse sur
la distribution de la variable modlise. Plusieurs types de mthodes peuvent tre cits :
les arbres de dcision, les modles additifs gnralises, les rseaux de neurones, etc. La
tarification en sant avec la mthode des rseaux de neurones a notamment t test dans
le cadre dun mmoire (cf. [5]) et a fourni des meilleurs rsultats que le GLM.

132
Liste des abrviations

ANI : Accord national interprofessionnel

DREES : Direction de la recherche, des tudes, de lvaluation et des statistiques

INSEE : Institut national de la statistique et des tudes conomiques

CCAM : Classification commune des actes mdicaux

NGAP : Nomenclature gnrale des actes mdicaux

CMU : Couverture maladie universelle

BR : Base de remboursement de la Scurit sociale

RSS : Remboursement de la Scurit sociale

FR : Frais rels

CSBM : Consommation de soins et biens mdicaux

ACP : Analyse en composantes principales

CAH : Classification ascendante hirarchique

GLM : Modle linaire gnralis

ZIP : Zero inflated Poisson

ZINB : Zero inflated binomial negative

ANOVA : Analyse de la variance

133
Table des figures

1 Dcomposition des frais de sant . . . . . . . . . . . . . . . . . . . . . . . . 14


2 Remboursement de la Scurit Sociale dans le cas dune consultation chez
le gnraliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Taux de croissance de la CSBM . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Rpartition du portefeuille par ge et par rgime dadhsion . . . . . . . . . 30
5 Frquence de consommation en actes de consultations gnralistes en fonc-
tion de lge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Frquence de consommation de prothses dentaires en fonction de lge . . . 33
7 Frquence de consommation et cot moyen par type de bnficiaire . . . . . 34
8 Frquence de consommation et cot moyen en fonction du nombre denfant 35
9 Choix du nombre daxe factoriel . . . . . . . . . . . . . . . . . . . . . . . . 37
10 Graphique des variables sur le premier plan factoriel . . . . . . . . . . . . . 38
11 Graphique des individus sur le premier plan factoriel . . . . . . . . . . . . . 40
12 Dendrogramme des dpartements . . . . . . . . . . . . . . . . . . . . . . . . 43
13 La composition des classes de dpartements . . . . . . . . . . . . . . . . . . 44
14 Exemple : la contribution des variables au modle . . . . . . . . . . . . . . . 61
15 Ajustement des donnes une loi de Poisson (analyses et actes de laboratoire) 70
16 Ajustement des donnes une loi de Poisson (prothses dentaires) . . . . . 71
17 Probabilits moyennes observes et prdites (modles Poisson, binomial n-
gatif, ZIP et ZINB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
18 Diffrence entre la probabilit observe et prdites (modles Poisson, bino-
mial ngatif, ZIP et ZINB) . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
19 Distribution du cot moyen pour les analyses et les actes de laboratoire . . 82
20 Distribution du cot moyen (prothses dentaires) . . . . . . . . . . . . . . . 83
21 Ajustement du cot moyen (les analyses et actes de laboratoire) . . . . . . 84
22 Q-Q plot de la distribution du cot moyen (analyses et actes de laboratoire) 85
23 Distribution cumule du cot moyen (les analyses et actes de laboratoire) . 86
24 Q-Q plot de la distribution du cot moyen (prothses dentaires) . . . . . . . 86
25 Distribution cumule du cot moyen (les prothses dentaires) . . . . . . . . 87
26 Coefficients du GLM relatifs lge . . . . . . . . . . . . . . . . . . . . . . . 88
27 Coefficients du GLM relatifs au niveau de garantie . . . . . . . . . . . . . . 89
28 Coefficients du GLM relatifs au rgime dadhsion . . . . . . . . . . . . . . 89
29 Rsidus de dviance standardiss en fonction des valeurs prdites . . . . . . 90
30 Rsidus de dviance standardiss en fonction des variables explicatives . . . 91
31 Prime pure en fonction du niveau de garantie . . . . . . . . . . . . . . . . . 93
32 Prime pure en fonction du sexe et du rgime dadhsion (prothses dentaires 94
33 Prime pure en fonction du sexe et du rgime dadhsion (analyses en actes
de laboratoire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
34 Prime pure en fonction du dpartement . . . . . . . . . . . . . . . . . . . . 95

134
35 Comparaison de la prime pure (prothses dentaires) . . . . . . . . . . . . . 97
36 Comparaison de la prime pure (analyses et actes de laboratoire) . . . . . . 98
37 quilibre en information parfaite . . . . . . . . . . . . . . . . . . . . . . . . 103
38 quilibre en information imparfaite . . . . . . . . . . . . . . . . . . . . . . . 104
39 Frquence de consommation des contrats individuels . . . . . . . . . . . . . 109
40 Frquence de consommation des contrats collectifs . . . . . . . . . . . . . . 109
41 Frquence de consommation des contrats individuels et collectifs . . . . . . 110
42 Choix du nombre daxes factoriels . . . . . . . . . . . . . . . . . . . . . . . 112
43 Graphique des individus et des variables . . . . . . . . . . . . . . . . . . . . 113
44 Rpartition des assurs par type de contrat . . . . . . . . . . . . . . . . . . 114
45 Rpartition des contrats individuels en fonction des classes de dpartement 115
46 Rpartition des contrats collectifs obligatoire en fonction des classes de d-
partement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
47 Rpartition des contrats individuels en fonction de lge . . . . . . . . . . . 117
48 Rpartition des contrats collectifs obligatoire en fonction de lge . . . . . . 117
49 Rsultats du test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
50 Variation du niveau dantislection en fonction du niveau de garantie . . . . 124
51 Impact de la standardisation des donnes . . . . . . . . . . . . . . . . . . . 125
52 Analyse de lantislection pour les soins courants . . . . . . . . . . . . . . . 126
53 Analyse de lantislection pour la pharmacie . . . . . . . . . . . . . . . . . . 126
54 Analyse de lantislection pour le dentaire . . . . . . . . . . . . . . . . . . . 127
55 Analyse de lantislection pour loptique . . . . . . . . . . . . . . . . . . . . 128
56 Variation du comportement antislectif en fonction de lge . . . . . . . . . 129
57 ACP sur les dpartements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
58 CAH : slection du nombre de classes optimal . . . . . . . . . . . . . . . . . 143
59 Rsultats du modle binomial ngatif . . . . . . . . . . . . . . . . . . . . . . 144
60 Rsultats du modle ZINB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
61 Probabilits moyenne observes et prdites par les diffrents modles GLM
(analyses et actes de laboratoire) . . . . . . . . . . . . . . . . . . . . . . . . 148
62 Rsultats GLM du cot moyen des prothses dentaires . . . . . . . . . . . . 149
63 Rsultats GLM du cot moyen des analyses et actes de laboratoire . . . . . 150

135
Liste des tableaux

1 Les grands postes de consommation des mnages . . . . . . . . . . . . . . . 19


2 Les catgories et sous catgories de garantie tudies . . . . . . . . . . . . . 25
3 Rpartition du portefeuille par niveau de garantie et par rgime dadhsion 31
4 Frquence moyenne par classes de dpartement . . . . . . . . . . . . . . . . 45
5 Cot moyen par classes de dpartement . . . . . . . . . . . . . . . . . . . . 45
6 Les fonctions de lien classiques . . . . . . . . . . . . . . . . . . . . . . . . . 51
7 Les composantes de la famille exponentielle . . . . . . . . . . . . . . . . . . 53
8 Les fonctions de lien associes aux lois de probabilit usuelles . . . . . . . . 55
9 Exemple : Choix de la premire variable intgrer . . . . . . . . . . . . . . 60
10 Exemple : Choix de la seconde variable intgrer . . . . . . . . . . . . . . . 60
11 Nombre de sinistres pour les analyses et actes de laboratoire . . . . . . . . . 68
12 Statistiques descriptives du nombre de sinistres (les analyses et actes de
laboratoire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
13 Nombre de sinistres pour les prothses dentaires . . . . . . . . . . . . . . . 69
14 Statistiques descriptives du nombre de sinistres (prothses dentaires) . . . . 69
15 Critres dajustement une loi de Poisson (analyses et actes de laboratoire) 70
16 Critres dajustement une loi de Poisson (prothses dentaires) . . . . . . . 71
17 Variables slectionnes pour le modle ZINB . . . . . . . . . . . . . . . . . . 73
18 Classes dge slectionnes pour le modle ZINB . . . . . . . . . . . . . . . 73
19 Probabilits moyennes observes et prdites par le modle ZINB . . . . . . 75
20 Probabilits moyennes observes et prdites (modles Poisson, binomial n-
gatif, ZIP et ZINB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
21 Critres AIC et BIC des diffrents modles . . . . . . . . . . . . . . . . . . 79
22 Test de Vuong : modle binomial ngatif - ZINB . . . . . . . . . . . . . . . 80
23 Test de Vuong : modle Poisson - ZIP . . . . . . . . . . . . . . . . . . . . . 80
24 Statistiques descriptives pour le cot moyen (analyses et actes de laboratoire) 83
25 Statistiques descriptives du cot moyen(prothses dentaires) . . . . . . . . . 83
26 Paramtres estims pour les prothses dentaires . . . . . . . . . . . . . . . . 88
27 Les diffrents modles de GLM . . . . . . . . . . . . . . . . . . . . . . . . . 96
28 Prime pure par ge et par type de modle (prothses dentaires) . . . . . . . 97
29 Diffrence entre la prime pure calcule par la mthode directe et par les
diffrents modles GLM (prothses dentaires) . . . . . . . . . . . . . . . . . 97
30 Prime pure par ge et par type de modle (prothses dentaires) . . . . . . . 98
31 Diffrence entre la prime pure calcule par la mthode directe et par les
diffrents modles GLM (prothses dentaires) . . . . . . . . . . . . . . . . . 99
32 Exemple de contrats options . . . . . . . . . . . . . . . . . . . . . . . . . . 107
33 Test de Welch : niveau de garantie 2 . . . . . . . . . . . . . . . . . . . . . . 121
34 Test de Welch : niveau de garantie 3 . . . . . . . . . . . . . . . . . . . . . . 121
35 Test de Welch : niveau de garantie 4 . . . . . . . . . . . . . . . . . . . . . . 122

136
36 Test de Welch : niveau de garantie 5 . . . . . . . . . . . . . . . . . . . . . . 122
37 Variation du coefficient de majoration en fonction du niveau de garantie . . 125
38 Matrice de corrlation fournie par lACP . . . . . . . . . . . . . . . . . . . . 141
39 Qualit de reprsentation des individus sur les deux premiers axes . . . . . 142
40 Critre AIC et BIC pour les analyses et actes de laboratoire . . . . . . . . . 148

137
Annexes

138
Annexe A : Rsultats de lACP
Cet annexe contient certains rsultats de lACP fourni par SAS.
Les variables sont codifies selon quatre lettres : les deux premires lettres FR et CM
permettent dindiquer la frquence ou le cot moyen et les deux dernires lettres indiquent
le type de famille dactes. Nous considrons les familles dactes suivants :
pharmacie (PH) ;
honoraires (HO) ;
auxiliaire (AU) ;
hospitalisation (HS) ;
dentaire (DE) ;
appareillage (AP) ;
analyses (AN) ;
radiologie (RA) ;
optique (OP) ;

Figure 57 ACP sur les dpartements

Matrice de corrlation :

139
Variable CM PH CM HO CM AU CM DE CM HS CM AP
CM PH 1,00 0,49 0,69 -0,21 -0,58 0,53
CM HO 0,49 1,00 0,82 0,56 0,24 0,70
CM AU 0,69 0,82 1,00 0,32 -0,21 0,59
CM DE -0,21 0,56 0,32 1,00 0,69 0,38
CM HS -0,58 0,24 -0,21 0,69 1,00 0,06
CM AP 0,53 0,70 0,59 0,38 0,06 1,00
CM AN 0,72 0,49 0,74 -0,10 -0,54 0,29
CM RA 0,63 0,96 0,86 0,44 0,05 0,68
CM OP -0,47 0,17 -0,08 0,77 0,81 0,17
FR PH -0,27 -0,30 -0,43 -0,06 0,13 -0,14
FR HO -0,66 -0,41 -0,51 0,30 0,52 -0,31
FR AU -0,37 -0,39 -0,36 0,07 0,27 -0,26
FR DE -0,69 -0,19 -0,37 0,51 0,72 -0,14
FR HS 0,56 0,13 0,36 -0,20 -0,47 0,36
FR AP -0,52 -0,45 -0,59 0,05 0,46 -0,40
FR OP -0,64 0,05 -0,20 0,69 0,82 -0,08
FR AN -0,44 -0,14 -0,39 0,43 0,61 -0,02
FR RA -0,55 0,02 -0,19 0,61 0,74 -0,07

Variable CM AN CM RA CM OP FR PH FR HO FR AU
CM PH 0,72 0,63 -0,47 -0,27 -0,66 -0,37
CM HO 0,49 0,96 0,17 -0,30 -0,41 -0,39
CM AU 0,74 0,86 -0,08 -0,43 -0,51 -0,36
CM DE -0,10 0,44 0,77 -0,06 0,30 0,07
CM HS -0,54 0,05 0,81 0,13 0,52 0,27
CM AP 0,29 0,68 0,17 -0,14 -0,31 -0,26
CM AN 1,00 0,60 -0,55 -0,23 -0,52 -0,32
CM RA 0,60 1,00 0,02 -0,27 -0,52 -0,43
CM OP -0,55 0,02 1,00 0,05 0,55 0,32
FR PH -0,23 -0,27 0,05 1,00 0,34 0,62
FR HO -0,52 -0,52 0,55 0,34 1,00 0,73
FR AU -0,32 -0,43 0,32 0,62 0,73 1,00
FR DE -0,65 -0,39 0,78 0,07 0,85 0,55
FR HS 0,49 0,26 -0,33 0,49 -0,25 0,27
FR AP -0,54 -0,51 0,38 0,67 0,76 0,88
FR OP -0,48 -0,14 0,81 0,02 0,73 0,51
FR AN -0,73 -0,26 0,66 0,33 0,67 0,52
FR RA -0,49 -0,18 0,73 0,07 0,78 0,59

140
Variable FR DE FR HS FR AP FR OP FR AN FR RA
CM PH -0,69 0,56 -0,52 -0,64 -0,44 -0,55
CM HO -0,19 0,13 -0,45 0,05 -0,14 0,02
CM AU -0,37 0,36 -0,59 -0,20 -0,39 -0,19
CM DE 0,51 -0,20 0,05 0,69 0,43 0,61
CM HS 0,72 -0,47 0,46 0,82 0,61 0,74
CM AP -0,14 0,36 -0,40 -0,08 -0,02 -0,07
CM AN -0,65 0,49 -0,54 -0,48 -0,73 -0,49
CM RA -0,39 0,26 -0,51 -0,14 -0,26 -0,18
CM OP 0,78 -0,33 0,38 0,81 0,66 0,73
FR PH 0,07 0,49 0,67 0,02 0,33 0,07
FR HO 0,85 -0,25 0,76 0,73 0,67 0,78
FR AU 0,55 0,27 0,88 0,51 0,52 0,59
FR DE 1,00 -0,43 0,59 0,87 0,78 0,92
FR HS -0,43 1,00 0,04 -0,42 -0,16 -0,35
FR AP 0,59 0,04 1,00 0,51 0,65 0,59
FR OP 0,87 -0,42 0,51 1,00 0,60 0,91
FR AN 0,78 -0,16 0,65 0,60 1,00 0,74
FR RA 0,92 -0,35 0,59 0,91 0,74 1,00

Table 38 Matrice de corrlation fournie par lACP

Qualit de reprsentation des individus sur laxe 1 :

141
COORD axe 1 CO2 axe 1 COORD axe 2 CO2 axe 2
Alsace 9,25 94,4 0,92 0,9
Aquitain -0,36 2,9 1,38 42,5
Auvergne -0,67 14,1 -0,32 3,2
Basse-No -1,7 28,8 -2,17 47,2
Bourgogn 1,14 5,2 -0,48 0,9
Bretagne -0,45 3,4 0,1 0,2
Centre -2,2 41,7 0,67 3,8
Champagn -0,37 6,7 -0,45 9,9
Franche- 0,18 0,4 -0,33 1,3
Haute No -2,21 49,8 0,01 0
Ile de F -1,79 5,6 7,21 91,3
Languedo -0,05 0,1 -0,07 0,1
Limousin -2,39 43,3 -1,81 24,8
Lorraine 6,73 85,1 -1,81 6,1
Midi-Pyr -0,85 11 -0,59 5,2
Nord-Pas -0,57 2,6 -2,23 39,8
PACA -0,62 4,5 1,71 34,1
Pays de -1,59 29,5 -1,82 38,9
Picardie -1,78 38,3 -0,41 2
Poitou-C -1,53 35 -1,63 40,2
Rhone-Al 1,85 12,4 2,13 16,5

Table 39 Qualit de reprsentation des individus sur les deux premiers axes

142
Annexe B : Rsultats de la CAH
Critres de slection du nombre optimal de classes :

Figure 58 CAH : slection du nombre de classes optimal

143
Annexe C : GLM - Modle binomial ngatif (prothses den-
taires)
Les rsultats du modle binomial ngatif (sorties SAS) estimant la frquence relative
aux actes de prothses dentaires sont fournis ci-dessous :

Figure 59 Rsultats du modle binomial ngatif

La variable ge a t codifi de la manire suivante :


20 : ge infrieur 20 ans ;
25 : ge compris entre 21 et 25 ans ;
30 : ge compris entre 26 et 30 ans ;

144
35 : ge compris entre 31 et 35 ans ;
40 : ge compris entre 36 et 40 ans ;
45 : ge compris entre 41 et 45 ans ;
50 : ge compris entre 31 et 50 ans ;
75 : ge compris entre 51 et 75 ans ;
80 : ge compris entre 76 et 80 ans ;
81 : ge suprieur ou gal 81 ans.

145
Annexe D : GLM - Modle ZINB (prothses dentaires)
Les rsultats du modle ZINB (sorties SAS) estimant la frquence relative aux actes
de prothses dentaires sont fournis ci-dessous :

146
Figure 60 Rsultats du modle ZINB

La codification de la variable ge est prsente dans le corps du mmoire.

147
Annexe E : GLM - Comparaison des modles de frquence
(analyses et actes de laboratoire)

Figure 61 Probabilits moyenne observes et prdites par les diffrents modles GLM
(analyses et actes de laboratoire)

Modle AIC BIC


Poisson 4998144 4998388
Binomial ngatif 2507475 2507684
ZIP 3479600 3479950
ZINB 2461370 2461778

Table 40 Critre AIC et BIC pour les analyses et actes de laboratoire

148
Annexe F : GLM - Cot moyen
Prothses dentaires :

Figure 62 Rsultats GLM du cot moyen des prothses dentaires

Le niveau de garantie 1 a t regroup avec le niveau de garantie 2 et la variable ge


a t codifi de la manire suivante :
20 : ge infrieur 20 ans ;
30 : ge compris entre 21 et 30 ans ;
50 : ge compris entre 31 et 50 ans ;
60 : ge compris entre 51 et 60 ans ;
70 : ge compris entre 61 et 70 ans ;
71 : ge suprieur ou gal 71 ans.

149
Analyses et actes de laboratoire :

Figure 63 Rsultats GLM du cot moyen des analyses et actes de laboratoire

150
Bibliographie

Ouvrages
[1] M. DENUIT, A. CHARPENTIER [2005] Mathmatiques de lassurance non-vie,
Tome 2 : tarification et provisionnement, Econometrica, p.70-109.
[2] J. GUIZOUARN, N.MARESCAUX [2004] Assurance sant, segmentation et comp-
titivit, Economica.

Mmoires

[3] F. LAGADEC [2009] Tarification dun contrat de complmentaire sant par un modle
linaire gnralis, EURIA.
[4] M. VAUTRIN [2008/2009] laboration dune mthode de tarification avec indicateurs
de risque pour des contrats complmentaires sant collectifs, ISUP.
[5] J. AOUIZERATE [2010] Alternative neuronale en tarification sant, CNAM.

Cours

[6] E. PERINEL [2013] Analyse de donnes, Universit de Strasbourg.


[7] A. GUILLOU [2012] Statistiques, Universit de Strasbourg.
[8] A. YOU [2013] Tarification non vie, Universit de Strasbourg.
[9] S. SPAETER [2012] conomie et gestion du risque, Universit de Strasbourg.
[10] F. BERTRAND, M. MAUMY-BERTRAND, Choix du modle, notes de cours tl-
chargs sur www.irma.u-strasbg.fr, Universit de Strasbourg.
[11] P. BESSE, Introduction au modle linaire gnral consult sur le site
www.math.univ-toulouse.fr, Universit de Toulouse.

Publications

[12] DREES [2014] Recueil dindicateurs rgionaux : offre de soins et tat de sant.
[13] INRIA [2004] Le critre BIC : fondements thoriques et interprtation.
[14] E. ALLAIN, T. BRENAC [2001] Modles linaires gnraliss appliqus ltude des
nombre daccidents sur des sites routiers : le modle de Poisson et ses extensions.

151
[15] M. PERRONNIN [2013] Effet de lassurance complmentaire sant sur les consom-
mations mdicales : entre risque moral et amlioration de laccs aux soins, thse,
Universit Paris-Dauphine.
[16] S. ETTNER [1995] Adverse selection and the purchase of Medigap insurance by the
elderly, Journal of Health Economics (16) p.543-562.
[17] M ROTHSCHILD, J. STIGLITZ [1976] Equilibrium in competitive insurance mar-
kets : an essay on the economics of imperfect information.
[18] CREDES [2002] La consommation de mdicaments varie-t-elle selon lassurance com-
plmentaire ?.

Sites Internet

[19] Site de lassurance maladie : www.ameli.fr.


[20] Site de lINSEE : www.insee.fr.
[21] Site de la DREES : www.drees.sante.gouv.fr.
[22] Site comportant la loi n2013-504 du 14 juin 2013 relative la scurisation de lemploi :
www.legifrance.gouv.fr.
[23] Site de documentation du logiciel SAS : www.support.sas.com.

Autres

[24] SAS, SAS/STAT 9.3 Users guide, Chapter 39 The GENMOD Procedure p.2607-2801,
Chapter 41 The GLM Procedure p.3154-3333.
[25] SAS, SAS/ETS Users guide, Chapter 11 The COUNTREG Procedure, p.419-443.
[26] Magazine Lactuariel n11, janvier 2014, p.20-24.

152