Vous êtes sur la page 1sur 103

EURIA EURo Institut dActuariat

Mmoire prsent devant le jury de lEURIA en vue de lobtention du


Diplme dActuaire EURIA
et de ladmission lInstitut des Actuaires

le 02 septembre 2014

Par : Jing WANG


Titre : Tarification sant : Mesure des risques associs aux produits modulaires

Confidentialit : Non Les signataires sengagent respecter la confidentialit indique.

Membre prsent du jury de lInstitut Entreprise


des Actuaires
Aymric KAMEGA Signature :
Signature :

Membres prsents du jury de lEURIA Directeur de mmoire en entreprise


Rmi GRABOWSKI Frank BOUKOBZA
Daniel BOIVIN Signature :

Invit

Signature :

Autorisation de publication et de mise en ligne sur un site de diffusion


de documents actuariels
(aprs expiration du dlai de confidentialit)

Signature du responsable entreprise Signature du candidat

Bibliothque : Secrtariat :

EURIA 6, avenue le Gorgeu T +33 (0)2 98 01 66 55


EURo Institut CS 93837 F +33 (0)2 98 01 66 57
dActuariat 29238 Brest Cedex 3 euria@univ-brest.fr
Rsum
Le cabinet de conseil Actuelia a pour ambition de dvelopper une m-
thode de tarification sant des produits modulaires pour une mutuelle. Lob-
jectif de mon mmoire est de rendre cette tarification la plus prcise et la
mieux adapte aux volutions du march.
Certaines mutuelles permettent aux assurs de choisir eux mme le ni-
veau de remboursement voulu pour chaque garantie. Cette libert de choix
va probablement apporter un risque danti-slection : Pour des individus
bas risque , cest--dire dont le cot moyen des sinistres est faible, la
prime demande apparatra particulirement leve par rapport la prime
actuarielle, tandis quelle sera considre comme relativement faible par les
hauts risques 1 . Les mutuelles risquent de subir des pertes cause de ce
phnomne.
Mon tude doit permettre de faire une tarification adapte en prenant en
compte le risque danti-slection afin de modifier la structure du tarif et afin
daboutir une tarification la plus juste, via une mthode frquence * cot
moyen. Pour raliser la modlisation, les modles linaires gnraliss (GLM)
sont les plus adapts et souvent utiliss dans le cadre de lassurance. Ces
modles transforment mathmatiquement la variable expliquer (la rponse)
en tenant compte de la vritable distribution des erreurs via un choix de la
loi de la rponse et de la fonction de lien.
Bas sur ces modles GLM, lajout dune nouvelle variable sera utilis
pour modifier les coefficients des estimateurs du modle afin de dtecter les
effets danti-slection qui ne sont pas capturs par les modles ayant les va-
riables classiques comme Age, Gographique et Situation familiale, etc. Cette
nouvelle variable est dtermine partir des niveaux de garantie choisis.
Dans le contexte de Solvabilit 2, nous avons cherch calculer linter-
valle de confiance pour les coefficients du modle GLM afin de proposer un
nouveau calcul du SCR du risque de tarification au sein du modle interne.
Ce SCR sexprime par lcart entre la prime commerciale estime de la borne
suprieure et la prime commerciale moyenne du scnario central.
Paralllement, dans le cas de la formule standard, lide de lORSA (Own
Risk and Solvency Assessment) du Pilier 2 est utilise pour vrifier le niveau
du risque de tarification et appliquer une nouvelle volatilit de la prime adap-
te la compagnie dassurance par rapport au niveau de lUnion Europenne.
Cette volatilit est calcule laide du ratio Prestation/Cotisation (P/C) en
remplaant la cotisation par la prime commerciale estime par les modles
linaires gnraliss.
Enfin, lanalyse du tarif technique permettra de proposer un tarif com-
mercial, applicable directement, ce qui permettra dans le contexte de concur-
rence actuelle davoir un point de diffrenciation.
1. [15]

3
Mots cls : Tarification, Complmentaire Sant, Produits modulaires, Fr-
quence, Cot Moyen, Modles Linaires Gnraliss, Anti-Slection, Prime
Pure, Test du Khi-Deux dindpendance, Paramtrage des variables, D-
viance, Solvabilit 2.

4
Abstract
The consultancy firm Actuelia develops a method of health pricing for
modular products. The objective of my paper is to make this pricing the
most accurate and best suited to market developments..
Some insurance companies allow insured to choose themselves the level of
reimbursement for each guarantee. This freedom of choice will probably bring
a risk of adverse selection : For individuals at low risk, that is to say that the
average cost of claims is low, the required premium appear particularly higher
compared to the actuarial premium, while it will be considered relatively low
by the individuals at high risk 2 . Insurance companies may suffer losses due
to this phenomenon.
My study should be able to make a suitable pricing by taking into account
the risk of adverse selection to amend the pricing structure and to achieve
a fairer pricing, through a frequency * average cost method. To perform
modeling, generalized linear models (GLM) are the most suitable and often
used in the context of insurance. These models transform mathematically the
variable to be explained (the response), by taking into account the actual
distribution of errors through a choice of law of the response and of the link
function.
Based on the GLM models, the addition of a new variable will be used
to modify the coefficients of the estimators of the model to detect adverse
selection effects that are not captured by models with variables classical like
age, geographic and family situation, etc. This new variable is determined
from the levels of guarantee chosen.
In the context of Solvency 2, we tried to calculate the confidence interval
for the coefficients of the GLM model to propose a new calculation of the
SCR for premium risk in the internal model. The SCR is expressed by the
difference between the estimated market premium of the upper bound and
the average policy premium of central scenario.
Meanwhile, in the case of the standard formula, the method of Own Risk
and Solvency Assessment of Pillar 2 is used to check the level of pricing
risk and apply a new premium volatility suitable for company insurance
compared to the level of the European Union. This volatility is calculated
using the ratio claim/contribution (C/C) by replacing the market premium
estimated by generalized linear models.
Finally, the analysis of the technical pricing will provide a commercial
price, applicable directly, which will allow in the context of current compe-
tition to have a point of differentiation.

Keywords : Pricing, Health insurance, Modular Products, Frequency,


2. [15]

5
Average Cost, Generalized Linear Models, Adverse selection, Pure premium,
Chi-square test, Variable Settings, Deviance, Solvency 2.

6
Synthse
Dans un contexte de forte volution de la lgislation actuelle en ma-
tire dassurance sant sur les contrats existants (aide la complmentaire
sant (ACS), Accord national interprofessionnel (ANI) et les contrats de
complmentaires sant responsable) et de concurrence accrue sur ce march,
il est ncessaire pour lorganisme complmentaire sant de proposer un ta-
rif toujours plus fin et mieux adapt la population cible. Lobjectif dans
ce mmoire est de proposer une mthode de tarification sant des produits
modulaires. Sur le march de la complmentaire sant, de plus en plus de mu-
tuelles proposent des produits modulaires permettant aux assurs de choisir
eux mme le niveau de remboursement voulu pour chaque garantie. Cette
libert de choix va probablement apporter un risque appel risque danti-
slection, ce qui provoque un risque financier pour les mutuelles. Le risque
danti-slection se doit dtre pris en compte pour la tarification technique.
De plus, une rforme rglementaire europenne du monde de lassurance,
la norme Solvabilit 2, vise introduire lhorizon 2016 un nouveau systme
de solvabilit pour le secteur de lassurance. Cette norme a t adopte le
22 mai 2009 par le parlement Europen. Elle permet de mieux adapter les
fonds propres exigs des compagnies dassurances et de rassurance face aux
risques que celles-ci encourent dans leur activit. Dans le contexte de Sol-
vabilit 2, nous nous intressons un sous-risque du SCR Sant : le risque
Sant non similaire vie. Il est exprim principalement par un risque de
tarification et de rserve. Une meilleure tarification permet de limiter la vo-
latilit moyenne du ratio Prestation/Cotisation (not P/C) afin de baisser
le risque de tarification.
Mon tude doit permettre de crer une tarification adapte en prenant
en compte le risque danti-slection, afin de modifier la structure du tarif,
et daboutir une tarification la plus juste, via une mthode frquence *
cot moyen. Pour raliser la modlisation, les modles linaires gnraliss
(GLM) sont les plus adapts et utiliss dans le cadre de lassurance. Ces
modles transforment mathmatiquement la variable expliquer (la rponse)
en tenant compte de la vritable distribution des erreurs via un choix de la
loi de la rponse et de la fonction de lien.
Nous avons dabord tudi la mthode de modlisation avec les variables
classiques : ge, composition familiale, rgion, etc. La modlisation de la si-
nistralit sera ralise pour la frquence et le cot moyen sparment, par des
modles linaires gnraliss afin de concevoir des coefficients dajustement
du tarif en fonction des variables discriminantes. Pour ce faire, nous nous
intressons dans un premier temps aux choix des variables. Les variables
retraites et les variables ajoutes sont considres comme candidates pour
la suite de ltude. Cependant, toutes les variables nont pas ncessairement
un sens significatif sur le remboursement de la mutuelle. Nous avons utilis

7
le test dindpendance du Khi-Deux pour faire un tri dans les variables. Le
test dindpendance du Khi-Deux permet de dmontrer lindpendance entre
deux variables via une exprience.
Nous souhaitons retenir les variables qui ont une influence sur la fr-
quence ou le cot moyen. Nous crons deux nouvelles variables indicatrices :
Frquence (bis) et Cot moyen (bis) comme rfrence, la frquence (cot
moyen) bis est gale 1 si la frquence (cot moyen) est suprieure ou gale
la moyenne de la frquence (cot moyen), sinon elle vaut 0. Nous prf-
rons utiliser une variable indicatrice car la frquence et le cot moyen sont
des variables continues, et en croisant par exemple la frquence et une autre
variable tarifaire, les effectifs attendus seront a priori infrieurs 5. Il nest
donc pas possible dutiliser le test du Khi-Deux pour tester lindpendance.
Daprs le test du Khi-Deux dindpendance, il y a 6 variables qui influencent
la frquence : Sexe, Age, Qualit ayant droit, Situation familiale, Code op-
tion et Rgion. 5 variables sont retenues pour le cot moyen : Sexe, Age,
Qualit ayant droit, Situation familiale et Code option.
A ce stade, nos variables tarifaires deviennent toutes des variables cat-
gorielles. Pour les utiliser dans les modles mathmatiques, nous proposons
dutiliser des indices rsumant les caractristiques dun assur. Nous conve-
nons de coder toute modalit partitionnant la population en k catgories par
les entiers 0,1,...,k-1. Certaines variables peuvent tre ordinales, comme les
classes dge, ou tre purement qualitatives sans induire dordre, comme le
sexe. Une variable catgorielle k modalits est gnralement code par k-1
variables binaires avec un niveau de rfrence. Les valeurs pour la rfrence
sont toutes nulles. En effet, le logiciel R ralise le paramtrage des variables
automatiquement sur les variables catgorielles en posant le premier niveau
de modalit comme rfrence. Nous souhaitons prendre comme rfrence la
population la plus reprsente dans la base de donnes via ce retraitement.
Ensuite, le choix de la loi de probabilit de la fonction de variable rponse
et de la fonction de lien influencent directement la qualit de la tarification.
Ce choix dpend souvent de la nature du problme tudi. En pratique, la
loi Poisson ou la loi binomiale ngative seront souvent proposes pour la
frquence, et la loi Gamma et la loi Log-Normale seront proposes pour le
cot moyen. Une fonction de lien "log" est souvent utilise afin de traiter les
valeurs positives. La loi binomiale ngative et la loi Log-Normale sont rete-
nues respectivement pour la frquence et le cot moyen via les ajustements
des frquences et des cots moyens par une loi choisie.
Aprs avoir excut les modles linaires gnraliss, les coefficients cal-
culs dmontrent que les modalits influencent positivement (ngativement),
plus ou moins, la consommation avec une valeur suprieure (infrieure) 0.
Nous avons amlior les modles avec le test du rapport de vraisemblance
concernant les coefficients du modle. Le test du rapport de vraisemblance
permet de dterminer les variables significatives pour les modles de la fr-
quence et du cot moyen. Une fois que nous avons retenu toutes les va-

8
riables qui influencent les modles, ltape suivante est dtudier linfluence
de chaque modalit pour le modle. Comme notre modle est construit par le
choix de la rfrence, les autres niveaux sont soit moins bons, soit meilleurs
que la rfrence. Une modalit moins significative indique que la diffrence
des importances au sens de la frquence ou cot moyen entre cette modalit
et la rfrence est faible. Nous agrgeons les variables les moins significatives,
pas pas, la rfrence pour adapter le modle.
Enfin, pour valider le modle retenu, la statistique de la dviance est uti-
lise pour juger de ladquation du modle aux donnes. Un meilleur modle
permet de minimiser la dviance. Le choix de la loi de la variable rponse et
de la fonction de lien pour la frquence et le cot moyen est valid par ce
point. Les tests concernant les coefficients du modle et les statistiques de
ladquation du modle indiquent globalement comment le modle sajuste
aux donnes. Ces statistiques sont compltes par une tude des rsidus qui
compare les valeurs observes et les valeurs estimes.
Lors de la finalisation de la tarification avec des variables courantes telle
que Age, Situation familiale, etc, lajout dune nouvelle variable est pro-
pos pour retraiter les modlisations afin de prendre en compte le risque
danti-slection. Ce risque est une caractristique spciale pour les produits
modulaires de complmentaire sant. Nous avons construit la nouvelle va-
riable via une transformation de la combinaison de garanties, cette tape
est donc une tape cl. La variable anti-slection est dfinie par la diffrence
entre la somme des niveaux de garanties et le niveau minimum de la com-
binaison multipli par 4 (nombre de garanties). Les nouveaux modles sont
valids de la mme manire, afin de trouver les coefficients qui permettent
dexprimer la frquence ou le cot moyen en fonction de rgressions linaires
gnralises.
Dans la dernire partie, nous cherchons calculer le SCR du risque de
tarification dans le cadre de Solvabilit 2, via deux mthodes : le cas de la
formule standard et le cas dun modle interne. Dans le cas de la formule
standard, le SCR du risque de tarification et de rserve est calcul comme
tant le triple de la volatilit moyenne, pondr par les carts-types de presta-
tion/cotisation (P/C) et de boni/mali, multipli par une assiette bien dfinie
(volume de primes plus volume de rserves). Avec lhistorique des P/C, cette
volatilit moyenne est de 18%, ce qui est trop leve par rapport 5%, qui
est le niveau demand par lUnion Europenne. Avec notre modlisation, la
volatilit recalcule est de 14%, ce qui reste trs important. Dans le cas du
modle interne, nous avons tudi lintervalle de confiance des coefficients
des modles GLM afin de rechercher un SCR plus adapt la situation de
lorganisme dassurance via notre tarification. Notre proposition consiste
trouver une borne suprieure pour la prime pure avec un niveau de confiance
de 99,5%. Cette prime pure suprieure peut tre considre comme un seuil
maximum supportable pour lorganisme dassurance. La transformation de
la prime pure en prime commerciale est applique par un taux de charges

9
globales de 25%, lcart entre la prime commerciale suprieure et la prime
commerciale du scnario central est considr comme le SCR du risque de
tarification du modle interne. Nous avons obtenu ce SCR au sein du mo-
dle interne sexprime par 60% de la prime commerciale moyenne. Selon la
formule standard, il est expliqu par 320%prime commerciale moyenne.
20% correspond la volatilit moyenne, ce qui est cohrent par rapport la
volatilit historique (18%).
Dans les deux cas (formule standard et modle interne), la volatilit ap-
parait trs leve eu gard au critre de lUnion Europenne. Il est donc
ncessaire de tester dautres pistes de modlisation, par exemple modliser
la frquence et le cot moyen par garantie avec une autre dfinition de la va-
riable anti-slection. Pour la suite de ltude, nous pensons dfinir la variable
anti-slection par lcart entre le niveau de garantie modlise et le niveau
minimum des garanties de la combinaison. Par rapport la modlisation
des 4 garanties toutes ensemble, cette mthode possde lavantage de tenir
compte du risque danti-slection pour chaque garantie.

Mots cls : Tarification, Complmentaire Sant, Produits modulaires, Fr-


quence, Cot Moyen, Modles Linaires Gnraliss, Anti-Slection, Prime
Pure, Test du Khi-Deux dindpendance, Paramtrage des variables, D-
viance, Solvabilit 2.

10
Synthesis
In an evolutionary context of the current health insurance legislation and
increased competition in the market. Today there is a need for complemen-
tary health agency offers a rate still thinner and better suited to the target
population. The objective in this paper is to study a method of health pricing
for modular products. In the market for complementary health, more and
more insurance companies offer modular products who allow policyholders
to choose themselves the level of reimbursement for each desired warranty.
This freedom of choice will probably bring a risk of adverse selection, in-
surance companies may suffer losses due to this phenomenon. The risk of
adverse selection must now be taken into account for rating the art. The risk
of adverse selection must now be taken into account for technique pricing.
Today a European regulatory reform in the insurance industry, Solvency
2, which aims to introduce by 2016 a new solvency regime for the insurance
industry, was adopted on 22 May 2009 the European Parliament. It allows
to better tailor capital requirements of insurance and reinsurance companies
with the risks that they incur in their business. In the context of Solvency
2, we focus on the sub-risk of Health : Health risk is no similar to life. It is
expressed primarily by premium risk and reserve risk. A better pricing limits
the average volatility of the ratio claim/contribution to lower the pricing risk.
My study should enable a suitable pricing by taking into account the risk
of adverse selection to change the pricing structure and to achieve a fairer
pricing, through a method of frequency * average cost. To perform modeling,
generalized linear models (GLM) are the most suitable and often used in the
context of insurance. These models mathematically transform the variable to
explain (the response), taking into account the actual distribution of errors
via a choice of law of the response and the link function.
We first studied the modeling method with classic variables such as age,
family composition, region, etc. Modeling will be conducted to claims fre-
quency and average cost separately by generalized linear models to design
adjustment rate based discriminant variable coefficients. To do this, we fo-
cus initially on the choice of variables. Retirees variables and added variables
are considered as candidates for further study. However, all variables do not
necessarily have a significant meaning on reimbursement. We used the chi-
square test to do a sort of variables. The chi-square test helps demonstrate
independence between two variables via an experience.
We wish to retain the variables that influence the frequency and average
cost. We create two new variables indicative Frequency (bis) and Average
Cost (bis) as a reference, the frequency (average cost) bis is equal to 1 if the
frequency (average cost) is greater than and equal to the average frequency
(average cost ), 0 otherwise. We prefer the indicator variable because the
frequency and average cost are continuous variables, for example crossing

11
frequency and other variable, the expected numbers are possible below 5.
It is therefore not valid for perform a chi-square test. According to the Chi-
square test, there are six variables that influence the frequency : Gender, Age,
entitled Quality, Marital Status, Code option and Region. Five variables are
used for the average cost : Gender, Age, entitled Quality, Marital Status and
Code option.
At this stage, our tariff variables become all categorical variables. For
using in mathematical models, we propose to use indices summarizing the
characteristics of an insured. We agree to encode any term dividing the
population into k classes by the integers 0,1, ..., k-1. Some variables can
be ordinal, such as age classes, or be purely qualitative without inducing
order, like sex. A categorical variable with k terms is generally encoded
by k-1 binary variables with a reference level. Values ? ?for reference are all
zero. Indeed, R software performs automatic parameterization of variables
on categorical variables by asking the first level of modality as a reference.
But we want the reference population is the most represented in the database
via the adjustment.
Then the choice of the probability distribution function of response va-
riable and function link directly influence the quality of pricing. This choice
often depends on the nature of the problem studied. In practice, the Poisson
or negative binomial distribution is often proposed for the frequency, and
the gamma distribution and the log-normal distribution are proposed for
the average cost. A link function "log" is often used to treat the positive va-
lues ? ?. The negative binomial distribution and log-normal distribution are
selected respectively for the frequency and average cost through adjustments
of frequency and average costs by a law chosen.
After performing generalized linear models, the coefficients calculated
show that the methods influence positively (negatively), more or less, consump-
tion with a value greater (less) than 0. We have improved the models with
the likelihood ratio test for the model coefficients. The likelihood ratio test to
determine the significant variables for models of the frequency and average
cost. One way we used all variables that influence the models, the next step
is to study the influence of each modality for the model. The model is built
by the selection of the reference. The other levels are either worse or better
than the reference. A less significant modality indicates that the difference
in magnitudes between the frequency or average cost and the reference is
low. We aggregate the least significant variables, step by step, in reference
to adopt the model.
To finally validate our model selected, statistical deviance is useful to
assess the fit of the model to the data. A better model minimize deviance. The
choice of the law of the response variable and link function to the frequency
and average cost is proved by this point. The tests on the model coefficients
and statistical adequacy of the model show how the overall model fits the
data. These statistics are supplemented by a study of residues that compares

12
the values estimated and observed.
During finalization of pricing with the current variables such as age,
family status, etc. Adding a new variable is proposed to reprocess the models
to take into account the risk of adverse selection. This risk is a special feature
for modular products complementary health. We built the new variable via
a transformation of the combination of guarantees, which is a key step. The
adverse selection variable is defined by the difference between the amount of
guarantee levels and the minimum level of the combination multiplied by 4
(the number of guarantees). The new models are validated in the same way,
to find the coefficients which express the frequency or average cost basis of
generalized linear regressions.
In the last part, we try to calculate the SCR for premium risk under
Solvency 2, using two methods : the case of the standard formula and the
case of the internal model. In the case of the standard formula, the SCR for
premium risk and reserve is calculated as three times the average volatility,
weighted by the standard deviations of claim/contribution and bonus/Mali
multiplied by a well-defined base (volume of premiums plus volume of re-
serves). A historical claim/contribution, the average volatility is 18%, which
is too high compared to 5% to the level of the European Union. With our
model, the volatility recalculated is 14%. In the case of the internal model, we
studied the confidence interval of the coefficients of GLM models to search
for SCR more adapted to the situation of the insurance. We propose to find
an upper bound for the pure premium with a confidence level of 99,5%. This
superior pure premium can be considered as a maximum tolerable threshold
for the insurance company. The transformation of the pure premium to mar-
ket premium is applied by a total expense ratio 25%, the difference between
the upper policy premium and commercial premium of central scenario is
considered the SCR for premium risk of the internal model. The SCR within
the internal model is expressed by 60% of the average policy premium. Using
the standard formula, it is explained by 320% average policy premium.
20% is the average volatility that is consistent with historical volatility 18%.
In both cases (standard formula and internal model), volatility appears
higher than the level criterion of the European Union. It is therefore neces-
sary to test other avenues of modeling, for example modeling the frequency
and average cost per guarantee with another proposal of the adverse selec-
tion variable. For further study, we propose to define the adverse selection
variable by the difference between the coverage level and the minimum level
of guarantees of the combination. Compared to the modeling of 4 guaranteed
together, this method has the advantage of taking into account the risk of
adverse selection for each coverage.

Keywords : Pricing, Health insurance, Modular Products, Frequency,


Average Cost, Generalized Linear Models, Adverse selection, Pure premium,

13
Chi-square test, Variable Settings, Deviance, Solvency 2.

14
Remerciements
Par ces quelques lignes, je souhaite remercier un certain nombre de per-
sonnes qui mont accompagn durant une partie ou la totalit de lcriture
du mmoire.

En premier lieu, je voudrais dire un grand merci Monsieur Frank Bou-


kobza. Sa prsence quotidienne et son aide lors de mes diffrents travaux
mont t dune grande aide. De plus, sa relecture approfondie du mmoire
mas permis de considrablement amliorer la qualit de celui-ci, notamment
grce ses prcieux conseils.

Je remercie galement Monsieur David Fitouchi et Monsieur Romaric Cha-


lendard, qui ont rpondu mes interrogations.

Je remercie grandement Madame Laurence Abiven, la tutrice de lEURIA


qui a suivi toute mes critures de mmoire.

Enfin, je souhaite remercier tous les professeurs de lEURIA pour les conseils
quils mont prodigus tout au long de lanne.

15
Table des matires

Rsum 3

Abstract 5

Synthse 7

Synthesis 11

Remerciements 15

Introduction 19

1 Contexte de ltude 21

1.1Scurit Sociale 21
1.1.1 Prsentation gnrale . . . . . . . . . . . . . . . . . . . . . . . 21
1.1.2 Histoire de lAssurance Maladie . . . . . . . . . . . . . . . . . 21
1.1.3 Les rgimes de lAssurance Maladie . . . . . . . . . . . . . . . 22
1.1.4 Les branches du rgime gnral . . . . . . . . . . . . . . . . . 22
1.1.5 Les sources de financement de la Scurit Sociale . . . . . . . 23
1.1.6 Remboursement de frais de sant . . . . . . . . . . . . . . . . 25

1.2Lassurance sant complmentaire 26


1.2.1 Les notions principales . . . . . . . . . . . . . . . . . . . . . . 26
1.2.2 Le fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.3 La couverture maladie universelle . . . . . . . . . . . . . . . . 30
1.2.4 LAide Complmentaire Sant . . . . . . . . . . . . . . . . . . 30
1.2.5 La prvoyance . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.2.5.1 Dfinition de la prvoyance . . . . . . . . . . . . . . . 31
1.2.5.2 Le fonctionnement . . . . . . . . . . . . . . . . . . . . 32

1.3Le march de lassurance sant complmentaire 34


1.3.1 volution du march . . . . . . . . . . . . . . . . . . . . . . . 34
1.3.2 Les meilleurs assureurs du march . . . . . . . . . . . . . . . 35

2 Tarification 37

16
2.1Mthode frquence * cot moyen 37
2.1.1 Prime Pure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.2 Modle individuel . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.3 Les tapes dune tarification . . . . . . . . . . . . . . . . . . . 38

2.2Construction de la base de donnes 38


2.2.1 Reprsentation des donnes . . . . . . . . . . . . . . . . . . . 38
2.2.1.1 Donnes de cotisations . . . . . . . . . . . . . . . . . . 39
2.2.1.2 Donnes de prestations . . . . . . . . . . . . . . . . . . 40
2.2.2 Prparations des donnes . . . . . . . . . . . . . . . . . . . . 41
2.2.2.1 La cohrence entre cotisations et prestations . . . . . . 41
2.2.2.2 Choix de variables . . . . . . . . . . . . . . . . . . . . 41
2.2.3 Construction de la base de donnes . . . . . . . . . . . . . . . 43

2.3Analyse de donnes 44
2.3.1 Vrification des donnes . . . . . . . . . . . . . . . . . . . . . 44
2.3.2 Analyse dmographique . . . . . . . . . . . . . . . . . . . . . 45
2.3.2.1 La rpartition par la qualit ayant droit . . . . . . . . 45
2.3.2.2 La distribution des assurs par classe dge . . . . . . 46
2.3.2.3 volution du cot moyen et de la frquence . . . . . . 47

2.4Les variables tarifaires 48


2.4.1 Segmentation des variables . . . . . . . . . . . . . . . . . . . . 49
2.4.1.1 Variable Age . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.1.2 Variable Code postal . . . . . . . . . . . . . . . . . . . 50
2.4.2 Le test du Khi-Deux dindpendance . . . . . . . . . . . . . . 51
2.4.3 Paramtrage des variables . . . . . . . . . . . . . . . . . . . . 54

2.5Modles linaires gnraliss 55


2.5.1 Cadre du problme . . . . . . . . . . . . . . . . . . . . . . . . 55
2.5.2 Prsentation gnrale des modles . . . . . . . . . . . . . . . . 56
2.5.2.1 La loi de la variable rponse . . . . . . . . . . . . . . . 56
2.5.2.2 Moyenne et Variance de la variable rponse . . . . . . 57
2.5.2.3 Fonction de lien . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2.4 Estimation des paramtres . . . . . . . . . . . . . . . . 58

2.6Prparation de la modlisation 60
2.6.1 Retraitement des variables . . . . . . . . . . . . . . . . . . . . 60
2.6.2 Choix de la loi de variable rponse et la fonction de lien . . . 62

2.7Modlisation de la frquence 62
2.7.1 La loi de la frquence . . . . . . . . . . . . . . . . . . . . . . . 62
2.7.1.1 Loi Poisson . . . . . . . . . . . . . . . . . . . . . . . . 62
2.7.1.2 Loi Binomiale Ngative . . . . . . . . . . . . . . . . . 65
2.7.2 Amlioration du modle . . . . . . . . . . . . . . . . . . . . . 66

17
2.7.2.1 Test du rapport de vraisemblance . . . . . . . . . . . . 67
2.7.2.2 Dtermination des modalits . . . . . . . . . . . . . . 68
2.7.2.3 Lien entre les variables . . . . . . . . . . . . . . . . . . 70
2.7.3 Adquation du modle . . . . . . . . . . . . . . . . . . . . . . 71
2.7.3.1 Dviance . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.7.4 Rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

2.8Modlisation du cot moyen 74


2.8.1 La loi du cot moyen . . . . . . . . . . . . . . . . . . . . . . . 74
2.8.2 Dviance et rsidus . . . . . . . . . . . . . . . . . . . . . . . . 76
2.8.3 Modle retenu . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3 Rsultats et applications 77

3.1Rsultat 77

3.2Autres pistes de modlisation 80


3.2.1 Modlisation des frais rels . . . . . . . . . . . . . . . . . . . 80
3.2.2 Modlisation du montant de remboursement de la mutuelle
par garantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.3Retraitement du risque danti-slection 82


3.3.1 Choix de combinaisons . . . . . . . . . . . . . . . . . . . . . . 84
3.3.2 Ajustement de la prime pure . . . . . . . . . . . . . . . . . . . 86

3.4Risque de tarification 90
3.4.1 Cas de la formule standard . . . . . . . . . . . . . . . . . . . 90
3.4.2 Cas dun modle interne particulier . . . . . . . . . . . . . . . 92

Conclusion 95

Rfrences 97

Glossaire 98

Annexes 99

18
Introduction
Le risque sant est la somme de plusieurs composantes : consultations
mdicales, hospitalisation, pharmacie, soins dentaires, optique, etc. Les m-
thodologies usuelles de tarification sont distingues entre individuelles et col-
lectives. Ces dernires annes, les assureurs ont commercialis des contrats
modulaires pour laisser les assurs choisir leurs niveaux de garanties en fonc-
tion du niveau de couvertures souhaites. Leurs tarifs se basent sur lobser-
vation de la sinistralit de leur portefeuille sur les 2 4 dernires annes.
La construction du tarif technique, base sur la rentabilit et les cots de
gestion, sarticule en 2 tapes : 1. Modlisation de la sinistralit par des
variables standards. 2. Estimation de la prime Technique avec intgration
dhypothses dajustement et cots de gestion. Il est possible, pour certains
contrats insuffisamment encadrs ou mal tarifs, davoir une forte propension
subir lanti-slection ainsi que lala moral. La prsente tude se concentre
sur la recherche de la mise en place dune tarification adapte ces produits
modulaires pour les contrats individuels.
Dans une premire partie, nous dcrirons le contexte de cette tude afin
de prsenter la protection sociale et lintrt dune telle tude pour le mar-
ch de la complmentaire sant. Nous discuterons des notions principales, du
fonctionnement de lassurance sant complmentaire et nous expliquerons en
particulier le phnomne danti-slection. Lvolution de la tarification indi-
viduelle est rendue ncessaire par les diffrentes volutions de lgislations
actuelles (laide la complmentaire sant (ACS) et lAccord national inter-
professionnel (ANI) et les contrats de complmentaires sant responsable).
Dans une deuxime partie, nous calculerons la prime pure selon une ap-
proche Frquence * Cot moyen . Les facteurs discriminants au rembour-
sement sont galement pris en compte : rgime, nature de lacte et formule
de garantie. Les paramtres dmographiques discriminent galement le ta-
rif : ge, composition familiale, rgion. La modlisation de la sinistralit
sera ralise par des modles linaires gnraliss afin de concevoir des co-
efficients dajustement du tarif en fonction des variables discriminantes. La
prime technique sera estime laide des coefficients dajustement. Les mo-
dles linaires gnraliss serons crs en dfinissant la loi de la variable
expliquer et une fonction de lien associe, grce des tests statistiques.
La troisime partie nous permettra de traiter le risque danti-slection
en tenant compte dune nouvelle variable. Cette variable est dfinie comme
lcart entre la somme des niveaux de garantie et le niveau le plus faible,
multipli par le nombre de garantie total (4 dans notre tude), et est calcule
daprs la combinaison de garanties choisie par lassur. Nous appliquons le
mme processus de modlisation dfini dans la deuxime partie avec lajout
de la variable anti-slection. Une autre ide aurait t de limiter le choix de
la combinaison de garanties, mais dpend de la stratgie commerciale.

19
Enfin dans la dernire partie, nous chercherons calculer le SCR du
risque de tarification dans le cadre de Solvabilit 2, selon deux mthodes : le
cas du modle interne et le cas de la formule standard. Dans le premier cas,
nous tudierons lintervalle de confiance des coefficients des modles GLM.
Et dans le deuxime cas, laide de lhistorique des P/C, nous ajusterons la
volatilit des rsultats.
Pour des raisons de confidentialit, les noms des produits ou les rsultats
ne sont pas cits prcisment.

20
Premire partie
Contexte de ltude
1.1 Scurit Sociale
1.1.1 Prsentation gnrale
La Scurit Sociale dsigne un ensemble de dispositifs et dinstitutions qui
ont pour fonction de protger les individus des consquences dvnements
ou de situations diverses, gnralement qualifis de "risques sociaux". La
Scurit Sociale moderne est organise et fonctionne en France selon un
modle bismarckien et paritaire :
Elle est finance par les cotisations des employeurs et des salaris, soit
un financement reposant essentiellement sur un mcanisme dassurance
paye par les actifs ( la diffrence du modle anglais, o le financement
repose essentiellement sur limpt pay par tous les contribuables).
elle est gre paritairement par lensemble des partenaires sociaux re-
prsents par les syndicats de travailleurs et les organismes patronaux.

1.1.2 Histoire de lAssurance Maladie


LAssurance Maladie sest construite depuis 1945 sur trois principes fon-
damentaux : lgalit daccs aux soins, la qualit des soins et la solidarit.
Elle fait intervenir des organismes paritaires composs pour moiti des re-
prsentants des employeurs et des salaris grant un service public.
Les 4 et 19 octobre 1945 : Le gouvernement a promulgu les ordonnances
qui crent une organisation de la Scurit Sociale.
Lanne 1967 : Une ordonnance promulgue instaure une sparation en
branches autonomes : maladie, famille et vieillesse. Pour des raisons
de lallongement de lesprance de vie, du dveloppement des progrs
mdicaux et de lamlioration des retraites, la Scurit Sociale se trouve
confronte des difficults financires.
Lanne 1996 : Une rforme implique une nouvelle chane de responsabili-
ts entre les acteurs du systme de protection sociale : gouvernement,
Parlement, gestionnaires des systmes de Scurit Sociale, professions
de sant et assurs sociaux.
Le 13 aot 2004 : La loi relative lassurance maladie a eu pour objectif
de rformer en profondeur le systme selon trois orientations :la rorga-
nisation de la gestion de lassurance maladie, une nouvelle organisation
des soins qui vise la matrise des dpenses de sant et une rforme du
financement de lassurance maladie.

21
Lanne 2000 : La cration de la Couverture maladie universelle (CMU)
et la diffusion de la carte Vitale personnelle pour les ayants droit gs
de 16 ans et plus.

1.1.3 Les rgimes de lAssurance Maladie


Il y a trois principaux rgimes pour lAssurance Maladie : le rgime g-
nral, le rgime agricole et le rgime social des indpendants. Il existe aussi
dautres rgimes spciaux et le rgime local dAlsace-Moselle.
Le rgime gnral : Cest le rgime de Scurit Sociale des salaris et des
tudiants. En 2012, le rgime gnral compte 58,8 millions de bnfi-
ciaires, 90% de la population est assure par la CNAMTS 3 qui finance
86% de lensemble des dpenses dassurance maladie.
Le rgime agricole : Il assure la fois les exploitants et les salaris agri-
coles. Il est gr par la Mutualit sociale agricole(MSA). En 2012, il y
a 1,2 million de cotisants la MSA dont 56% de salaris agricoles et
44% dexploitants.
Le rgime social des indpendants : Il couvre les artisans, commerants,
industriels et professions librales. En 2012, il y a 2,7 millions de co-
tisants au RSI dont 41% de commerants, 36% dartisans et 23% de
professionnels libraux.
Les autres rgimes spciaux : Certaines entreprises ont dvelopp leurs
propres caisses dassurance maladie. Elles constituent les rgimes sp-
ciaux : le rgime des marins et inscrits maritimes, le rgime des mines,
de la SNCF, de la RATP, dEDF-GDF, de la Banque de France, de
lAssemble Nationale, du Snat, le rgime des clercs et employs de
notaire, le rgime des ministres du culte, etc.
Le rgime local dAlsace-Moselle : [8] Le rgime local est un rgime
complmentaire et obligatoire en ALSACE MOSELLE, uniquement
financ par les cotisations des salaris et des retraits. Le rgime lo-
cal est gr par un conseil dadministration dont les reprsentants sont
issus des organisations syndicales de salaris depuis 1995. Le taux de
la cotisation sur les rmunrations est fix 1,5% depuis le 1er janvier
2012. En Alsace et Moselle, il y a plus de 2,5 millions de bnficiaires
de ce rgime local.

1.1.4 Les branches du rgime gnral


Avec lordonnance de 1967, Cinq branches autonomes du rgime gnral
sont gres par diffrentes caisses.

3. La Caisse nationale de lassurance maladie des travailleurs salaris

22
1. La branche maladie : Elle recouvre les risques maladie, maternit, in-
validit et dcs. En 2012, 150,1 milliards deuros de prestations nettes
ont t verses, et la part des dpenses de sant reprsente prs de
11,6% du PIB.
2. La branche accidents du travail-maladies professionnelles : La Caisse
nationale de lassurance maladie des travailleurs salaris (CNAMTS)
gre la branche maladie et le branche accidents du travail-maladies pro-
fessionnelles. En 2012, environ 2 millions dtablissements ont cotis
lassurance accidents du travail - maladies professionnelles et emploient
18,3 millions de salaris (soit environ 70% de la population employe).
8,8 milliards deuros de prestations nettes ont t verses.
3. La branche retraite : la Caisse Nationale dAssurance Vieillesse (CNAV)
dfinit les orientations de la branche retraite en matire dassurance
vieillesse et dassurance veuvage. Il y a 13,2 millions de retraits du
rgime gnral et 102 milliards deuros de prestations nettes ont t
verses en 2012 par la CNAV.
4. La branche famille : la Caisse Nationale des Allocations Familiales
(CNAF) gre diffrentes prestations familiales et sociales. Par exemple :
allocations familiales, aides la famille, aides au logement, revenu de
solidarit active, etc. En 2012, il y a 12 millions dallocataires, et 40,3
milliards deuros de prestations nettes finances par la CNAF.
5. La branche recouvrement : lAgence centrale des organismes de Scurit
Sociale (ACOSS) assure la gestion de la trsorerie de la Scurit Sociale.
Le graphique 1 ci-dessous prsente le pourcentage de prestations nettes par
branche sans prendre en compte la branche recouvrement en 2012, les chiffres
sont en milliards deuros.

1.1.5 Les sources de financement de la Scurit Sociale


La Scurit Sociale est finance par quatre sources principales :
1. Les cotisations sociales : pour cette partie, les cotisants sont des per-
sonnes salaries. Une part de ces cotisations est la charge des em-
ployeurs, et lautre, la charge des salaris. Les cotisations sont cal-
cules en fonction de "toutes les sommes verses aux travailleurs en
contrepartie ou loccasion du travail".
2. La contribution sociale gnralise (CSG) : cest un prlvement opr
sur lensemble des revenus (par exemple sur les produits financiers et
les revenus du patrimoine).
3. Les autres impts et taxes : la Scurit Sociale peroit aussi dautres
impts et taxes de toutes natures (par exemple la TVA brute sur les
tabacs, les produits pharmaceutiques, les alcools, les produits de sant).

23
Figure 1 La distribution de prestations nettes par les quatre premires
branches en 2012

Source : Scurit Sociale

4. Les autres sources de financement : ce sont des transferts de ltat afin


de compenser la perte de recettes ou des transferts dautres rgimes de
la Scurit Sociale dans le cadre de compensation dmographique, etc.
La figure 2 reprsente la rpartition en pourcentage des recettes du rgime
gnral de la Scurit Sociale pour les quatre sources de financements en
2012.

Figure 2 Structure des recettes de la Scurit Sociale en 2012

Source : Scurit Sociale

24
1.1.6 Remboursement de frais de sant
Pour le systme de remboursement, la Scurit Sociale dfinit une base
de remboursement et un taux de remboursement. Cette base sert au calcul
du montant des remboursements des frais de sant. Elle sert gnralement de
rfrence pour exprimer les garanties des assurances complmentaire sant.
Ce montant varie selon les actes mdicaux, par exemple 23 euros pour la
consultation dun gnraliste du secteur 1. La Scurit Sociale applique un
taux de remboursement sur cette base. Pour le rgime gnral, ce taux est
gal 70% pour la consultation dun mdecin traitant (90% pour le rgime
local dAlsace Moselle). Depuis 2005, la Scurit Sociale ne prend pas en
charge la participation forfaitaire au sein de la branche maladie, le plafond
journalier est de 4 euros pour certains actes. La base de remboursement est
donc dcompose en trois parties : le remboursement Scurit Sociale, la par-
ticipation forfaitaire puis la partie restant la charge du patient qui sappelle
le ticket modrateur. Lcart entre les frais rels et la base de remboursement
est dnomm dpassement dhonoraire. La somme restant payer par chaque
usager aprs prise en charge de ses soins par la Scurit Sociale est dnom-
me le reste charge (RAC). Ci-dessous (figure 3) un exemple reprsentant le
remboursement dune consultation dun mdecin conventionn secteur 2, au
tarif de 40 euros. Sur ce graphique, nous pouvons bien voir quil reste encore

Figure 3 Systme de remboursement des frais de sant

une partie importante payer par les usagers. Lassurance complmentaire


sant assure une part du reste charge. En pratique, certaines garanties
frais de sant sont relativement peu rembourses par la Scurit Sociale. Par
exemple les frais hospitaliers, prothses dentaires et optiques engendrent des
cots importants. De plus, la Scurit Sociale a tendance diminuer la prise
en charge des dpenses lies aux frais de sant. Lassurance complmentaire
sant joue de ce fait un rle trs important dans le systme de protection

25
sant.

1.2 Lassurance sant complmentaire


1.2.1 Les notions principales
Complmentaire sant est le terme employ pour dcrire les garanties
proposes par un organisme assureur pour complter les prestations verses
par la Scurit Sociale en matire de frais de sant. La protection sociale
complmentaire comporte la prvoyance, la sant et la retraite. Elle peut
tre propose par une institution de prvoyance, une mutuelle ou une socit
dassurance. Pour les personnes ayant de faibles revenus, une couverture ma-
ladie universelle gratuite (CMU) a t mise en place. En 2012, lorganisme
complmentaire a contribu hauteur de 13,7% au financement de la consom-
mation de soins et de biens mdicaux. Les mutuelles ont pris en charge plus
de la moiti des dpenses. La figure 4 ci-dessous montre la rpartition de
financements pour les trois acteurs.

Figure 4 Rpartition de financements complmentaires

Source : DREES, Comptes nationaux de la sant dition 2012, section 4.5,


page 200

Le remboursement de la complmentaire sant peut tre calcul sur la


base de diffrents types de montants : la base de remboursement de la Scu-
rit Sociale, le ticket modrateur ou les frais rels. Les dpassements dho-
noraires ne sont jamais pris en compte par la Scurit Sociale, mais peuvent
ltre par la complmentaire sant. Et les taux de remboursements varient
selon les diffrents actes. Le montant maximal de remboursement de chaque
type dacte mdicale sera prcis dans le contrat.

26
Les contrats responsables de complmentaire sant furent constitus
lors de la rforme de lassurance maladie de 2004, considrant que la com-
plmentaire sant rembourse comme lassurance maladie en fonction de la
situation du patient : dans ou hors parcours de soins coordonns notamment.
Ils bnficient galement dune taxation moindre. A ce jour, les contrats res-
ponsables de complmentaire sant sont en cours dvolution. Les dcrets sur
ces contrats responsables, laide la complmentaire sant (ACS) et lAc-
cord national interprofessionnel (ANI) seront finalement publis en aot et
septembre 2014. Comme le demandaient les diffrentes famille de lassurance
maladie complmentaire, de nouveaux dlais sont accords pour la mise en
oeuvre des nouvelles rglementations [18].
Le parcours de soins coordonns impose chaque assur social qui a
plus de 16 ans de dsigner un mdecin traitant avant de consulter un autre
mdecin spcialiste pour bnficier du remboursement taux plein, sauf dans
les cas spciaux, par exemple, les consultations en ophtalmologie, gyncologie
et odontologie etc.

1.2.2 Le fonctionnement
Il existe deux types de contrats complmentaires sant : contrats indivi-
duels et contrats collectifs. Dans le premier cas, lassur peut souscrire une
complmentaire sant individuelle. Il est couvert jusquau dcs ou jusqu
la rsiliation volontaire. Le contrat collectif peut tre obligatoire pour les sa-
laris dune entreprise. Lemployeur finance alors une partie des cotisations
(par exemple 50%). Pour le salari, le contrat collectif est donc plus avan-
tageux quun contrat individuel avec leffet de la participation dune partie
des cotisations par lemployeur. De plus, les garanties sont plus performantes
pour des cotisations moins leves, et il peut dduire la part de sa cotisation
de son salaire imposable. Le contrat collectif dassurance sant peut faire
partie dun contrat dassurance prvoyance que nous allons dtailler dans la
section suivante.
Les complmentaires sant peuvent tre des produits modulaires. Ils ont en
rgle gnrale 4 familles de garanties : Hospitalisation, Soins courants, Op-
tique / Dentaire / Auditif et Bien-tre. Pour chaque famille de garanties,
lassur a le choix entre diffrents niveaux de remboursement selon son be-
soin. Par exemple la mutuelle dfinit leurs niveaux de garanties comme le
niveau essentiel, le niveau confort et le niveau optimal.
Comme la Scurit Sociale a une tendance rduire le remboursement,
la place, la complmentaire sant a beaucoup dvelopp ses produits pour
les adapter aux besoins des diffrents groupes dassurs. Par exemple un
jeune qui porte des lunettes va choisir un haut niveau de remboursement
en optique mais peut tre moins sur les soins courants. Les pourcentages
de remboursements sont variables sur les quatre garanties principales pour
chaque mutuelle. Il y a des produits similaires entre les mutuelles, mais il

27
existe de petites diffrences sur les paramtres de remboursements. Le tarif
de produits modulaires est une combinaison croisant les diffrentes garanties
et les diffrents niveaux de remboursement.
Nous avons choisi lexemple dun homme clibataire sans enfant n le 1er jan-
vier 1980 qui travaille Paris. Le besoin test est le suivant : 200% sur soins
courants, 200e sur loptique, 200% sur dentaire et 100% sur lhospitalisation.
Les pourcentages sont calculs sur la base de remboursement. En utilisant
un comparateur sur internet, nous avons trouv 15 propositions. Nous pr-
sentons ici les 3 rsultats les plus pertinents : Malakoff Mdric (not M-M
dans le tableau), Cardif et Runica dans le tableau 1 ci-dessous.

Table 1 Comparaison de tarifs complmentaires sant individuelles

Remboursement Tarif
Assureurs
Soins Courants Optique Dentaire Hospitalisation Mensuel
M-M 200% 150e 200e 300% 53,91e
Cardif 200% 300e 200% 200% 60,86e
Runica 250% 200e 250% 250% 78,03e

Dans le tableau 1, nous avons remarqu premirement que les rembourse-


ments de lhospitalisation sont tous suprieurs celui demand. En France,
les frais dhospitalisation sont couteux, il nest gnralement pas possible
davoir un faible remboursement en hospitalisation, avec en mme temps un
bon remboursement pour loptique, le dentaire et les soins courants. Cela
signifie que les contrats mutuelles proposent des niveaux de remboursements
levs sur la plupart des postes ds lors que lon souhaite un bon niveau
pour un acte (par exemple une hospitalisation). Deuximement, pour lop-
tion dentaire, le remboursement de Malakoff Mdric est bas en euros, les
deux autres sont sur le pourcentage de la base de remboursement. Il est n-
cessaire que lassur connaisse bien son propre besoin sur chaque option. Pour
les trois assureurs choisis, Malakoff Mdric rembourse mieux sur lhospitali-
sation, Cardif rembourse mieux loptique, Runica rembourse mieux les soins
courants. Chaque assureur a un point fort sur le remboursement, mais parmi
leur tarifs mensuels, il y a des diffrences importantes, le tarif de Runica
tant beaucoup plus lev que celui des deux autres compagnies.

Il existe galement un risque "danti-slection" pour les assureurs. Cest


un phnomne statistique et conomique, aboutissant des rsultats inverses
de ceux souhaits, provoqus par une asymtrie de linformation 4 . On parle
dasymtrie de linformation quand une des deux parties possde plus dinfor-
mations significatives que la contrepartie. Dans le cas dune vente de contrat,
4. George Akerlof a publi The Market for "Lemons" en 1970, qui met en vidence
une situation dasymtrie dinformation sur un march.

28
lassur possde plus dinformations que lassureur. Par exemple, lassureur
ne connait pas ncessairement les habitudes mdicales du client, ni ses ant-
cdents. Avec ce type dinformations "caches", les assurs connaissent donc
mieux leurs propres risques que les assureurs. Les primes demandes, qui sont
estimes selon le cot moyen des sinistres, peuvent donc tre sous values
pour certains assurs. Ainsi, les assurs avec un bas niveau de risque qui
achterons ce contrat (avec un haut niveau de remboursement) le rsilieront
trs vite. Seul les personnes avec un haut niveau de risque garderont ce type
de contrat. Cela causera donc une perte pour lassureur. Nous avons repris
lexemple prcdent avec les mmes caractristiques personnelles. Nous nous
intresserons la mutuelle Runica. Le tableau (2) de garanties optionnelles
synthtises est prsent ci-dessous. Les garanties sont exprimes en % de la
base de remboursement de la Scurit Sociale, Rgime obligatoire inclu.

Table 2 Formules Sant

Tranquillit Confort
1 2 3 1 2 3
Soins Courants 100% 150% 200% 250% 300% 400%
Optique 50e 100e 150e 200e 250e 300e
Dentaire 100% 150% 200% 250% 300% 400%
Hospitalisation 100% 150% 200% 250% 300% 400%

Un conseiller en assurance veut essayer dacqurir plus dinformations


via diffrentes questions poses. Nous supposons que cet homme choisis les
rponses suivantes :
Pas ou peu de consultation chez le mdecin (niveau 1)
Je veux une couverture optimale en optique (niveau 4)
Pas de besoins particuliers en dentaire (niveau 1)
Pas de besoins particuliers en hospitalisation (niveau 1)
Il existe 4 niveaux de rponses pour chaque garantie, et cet homme a choisi la
combinaison 1411. Idalement il voulais Tranquillit 1 (exprim en T1 pour
les suivants), C3, T1 et T1 pour les 4 garanties dans la formule sant. Si
lassureur accepte cette combinaison, la prime peut tre relativement basse
du fait des 3 faibles niveaux de risques indiqus. La cotisation servira en
grande majorit couvrir les dpenses en frais optique, la part de la cotisa-
tion verse lassureur pour les trois autres garanties ne sera probablement
pas suffisante par manque dinformation, ce qui fera perdre de largent
la mutuelle. De plus, les assureurs nont pas toujours les moyens de vrifier
lhonntet des assurs. Pour mieux viter quune "anti-slection" soit faite
par un client, Runica propose 9 solutions possibles adaptes la situation
demande, par exemple T1T3T3T1 46,53 e par mois, T3T3T3T3 57,06
e ou C1C1C1C1 78,03 e, etc. Les combinaisons sont limites par lassu-
reur, il nest pas possible pour lassur de choisir un contrat contenant une

29
forte diffrence entre le niveau de remboursement des diffrentes garanties
afin de minimiser le risque danti-slection.
Comment les assurs vont-ils choisir la formule dassurance et comment
les assureurs peuvent-ils mutualiser leur portefeuille ? Baisser le risque danti-
slection et sauvegarder lintrt des assurs devient important pour lassu-
reur. Pour cela, donner un tarif adapt sur le produit modulaire sera donc
ncessaire.

1.2.3 La couverture maladie universelle


La couverture maladie universelle (CMU) est une prestation sociale fran-
aise permettant les remboursements mdicaux pour toutes les personnes
franaises ou trangres qui ne sont pas encore couvertes par un autre r-
gime obligatoire dassurance maladie. Deux catgories de la couverture ma-
ladie universelle ont t votes le 27 juillet 1999 : la CMU de base et la CMU
complmentaire (CMU-C).
La CMU de base permet toute personne rsidant en France depuis plus
de trois mois de manire stable et rgulire avoir accs lAssurance Mala-
die. Elle est gratuite pour les assurs ayant un revenu infrieur un plafond
dtermin. Les autres doivent sacquitter dune cotisation de 8% de la part
de leurs revenus fiscaux qui est suprieure au plafond dtermin. Ce plafond
est de 9164 euros du 1er octobre 2011 au 30 septembre 2013, et de 9534 euros
du 1er octobre 2013 au 30 septembre 2014. La CMU fonctionne aussi pour
des personnes sans domicile fixe.
La CMU-C est une complmentaire sant gratuite pour des personnes qui
ont des revenus en-dessous du plafond annuel dtermin. Ce plafond annuel
est fix 7776 euros par an pour une personne (soit 648 euros par mois).
Lassur respectant le parcours de soins coordonnes a le droit au rembour-
sement de 100% de dpenses de sant y compris la partie non rembourse
par la Scurit Sociale.

1.2.4 LAide Complmentaire Sant


Pour des personnes qui ont des revenus suprieurs au plafond de la CMU
complmentaire mais infrieur au 135% de ce plafond, elles ont une Aide
la Complmentaire Sant (ACS). Elle a t mise en place au 1er janvier
2005 pour aider souscrire un contrat complmentaire sant. A partir du
1er janvier 2013, pour avoir lACS, le revenu annuel doit tre entre 7771 et
10771 euros (soit entre 648 et 892 euros mensuel). En France, il y a environ
deux millions de personnes qui satisfont cette condition, mais elle est trs
peu connue, en 2011, il y avait seulement 530000 personnes profiter de
lACS. Le montant par bnficiaire varie entre 100 et 500 euros en fonction
de lge. Le tableau 3 dtaille ces montants par ge en 2012. Ce montant
est vers directement la compagnie dassurance, mutuelle ou institution de

30
prvoyance du demandeur pour rduire le montant du prix du contrat sant
choisi.
Table 3 Montant annuel de lACS en 2012

Age Montant
moins de 16 ans 100e
de 16 ans 49 ans 200e
de 50 ans 59 ans 350e
60 ans et plus 500e

En 2007, les dpenses de sant reprsentent 11% du PIB. Elles se dcom-


posent en quatre parties : la Scurit Sociale qui prend la majeure partie de
la charge, les mnages, la CMU et laide mdicale de ltat et les assureurs
complmentaires. Le graphique 5 reprsente la rpartition des dpenses de
sant en France en 2008. Les organismes assureurs prennent 13,7% de d-
penses dont 7,7% par les mutuelles, 3,5% par les socits dassurances et
2,5% par les institutions de prvoyance.

Figure 5 Rpartition des dpenses de sant en France en 2008

Source : Scurit Sociale

1.2.5 La prvoyance
1.2.5.1 Dfinition de la prvoyance
La prvoyance recouvre tous les risques lis la personne et non aux
biens. Il sagit donc de risques lis :
un dcs
une maladie

31
une maternit
une incapacit
une invalidit
une hospitalisation
Une incapacit se traduit par une impossibilit temporaire physique ou psy-
chique dexercer son activit professionnelle. Une invalid se traduit par une
impossibilit permanente, physique ou psychique, dexercer son activit pro-
fessionnelle. Il est impossible de rester dans la situation dincapacit plus
de trois ans, au bout de trois ans pass en incapacit, lassur est considr
immdiatement comme invalide.
En ralit, la maladie et laccident sont des vnements alatoires, il est im-
possible de connaitre lavenir exactement. Il est ncessaire de soutenir une
famille dans le cas de la disparition du chef de famille. Les prestations ver-
ses par la Scurit Sociale ne sont pas suffisantes pour compenser les pertes
de revenus subies. Le contrat de prvoyance peut rduire les consquences
financires ngatives dans cette situation pour assurer que la famille puisse
continuer normalement.

1.2.5.2 Le fonctionnement
La prvoyance est une part des cotisations sociales obligatoires qui per-
mettent de financer la protection sociale. Elle est assure tout dabord par
la Scurit Sociale, ensuite une complmentaire, appele prvoyance compl-
mentaire, peut complter les prestations de la Scurit Sociale. Cette partie
est alors prise en charge par une socit dassurance, une mutuelle, etc. Ces
dernires sont spcialises pour prendre en charge les risques lis la per-
sonne, elles couvrent plus de 12 millions de salaris en France.
Un contrat de prvoyance collective dans le cadre de lentreprise permet de
rpondre ce besoin de couverture, en fonction des garanties prvues. Pour
certains risques lourds comme le dcs ou linvalidit, ce contrat apporte aux
salaris et leurs familles une scurit indispensable aprs la survenance
des risques. Pour un assur, les risques qui sont couverts par la prvoyance
collective sont :
les risques de dommages corporels rsultant de la maladie ou de lac-
cident. Les structures de prestations sont par exemple : indemnits
journalires en cas darrt de travail, rentes dinvalidit, etc.
des engagements lis la dure de vie. Les structures possibles sont :
capital dcs, rentes de conjoint et dducation, pargne retraite, d-
pendance.
Les avantages de la prvoyance collective :
La prvoyance collective permet de mutualiser les risques entre tous
les salaris et donc de diminuer le cot de cette protection sociale
complmentaire.
Elle garantit les risques spciaux adapts au mtier de salaris avec

32
un prix plus bas. En gnral, lemployeur prend de 50% 60% des
cotisations sa charge.
La garantie de prvoyance est applique sur tous les salaris de len-
treprise. Donc il ny a pas de discrimination de revenu, dge ou dtat
de sant.
Dun point de vue financier, les contrats collectifs permettent davoir
des exonrations sociales et des dductions fiscales des cotisations pour
les salaris et les employeurs sous certaines conditions spciales.
Pour les entreprises, la prvoyance collective est un outil dattractivit,
elle peut apporter motivation et fidlisation aux salaris.
Un contrat de prvoyance individuelle permet de protger la famille en cas
dvnement grave par des versements dindemnits, de rentes, de capitaux.
Cest un contrat permettant de bnficier de prestations complmentaires
celles de la Scurit Sociale. Dans le cadre de la loi Madelin, loi numro
94-126 du 11 fvrier 1994, un travailleur non salari peut bnficier dune
dduction des cotisations prvoyance de son bnficie imposable. Les profes-
sions librales, artisans, commerants peuvent ainsi amliorer leur protection
sociale et leur prvoyance retraite.
Il existe plusieurs types de prvoyance individuelle :
Prvoyance famille : elle permet de maintenir le niveau de vie de la
famille en cas de coup dur et prvoit les versements dun capital ou
dune rente en cas de dcs ; dune rente dducation aux enfants en
cas de dcs ; dindemnits journalires lassur en cas darrt de
travail et dune rente en cas dinvalidit ou de dpendance. Ce contrat
famille peut tre souscrit par un salari, un travailleur non salari, un
entrepreneur ou un retrait.
Prvoyance profession librale : dans le cas de profession librale, ils
exercent leur activits de faon indpendante, lindemnit verse par
la Scurit Sociale est gnralement faible. Cette prvoyance permet
davoir une bonne couverture en cas de coup dur. En plus, il existe des
offres spcifiques adaptes chaque type de profession.
Prvoyance travailleur non salari (TNS) : les personnes dit travailleurs
non salaris sont les professions librales, les artisans, les commerants,
les grants non salaris, les conjoints collaborateurs non salaris. Ils
sont obligatoirement affilis un rgime de Scurit Sociale, les garan-
ties proposes sont souvent insuffisantes pour compenser les pertes. En
plus ils peuvent bnficier dune dduction fiscale sur les cotisations
de prvoyance. En gnral, la dduction est denviron 30% du montant
des cotisations.
Prvoyance auto-entrepreneur : cette prvoyance a un rle important,
car un auto-entrepreneur est oblig de cotiser lassurance maladie et
lassurance retraite, mais il nest soumis aucune prvoyance obliga-
toire. De plus, les prestations sociales du rgime obligatoire sont trs
limites en matire dincapacit, dinvalidit, de dcs et de dpart en

33
retraite. Un auto-entrepreneur peut choisir deux grands types de pr-
voyances : indemnitaire et forfaitaire. Dans le premier cas, il permet
de recevoir une indemnit quivalente au revenu de lauto entrepreneur
avant son accident. Le deuxime cas, lassur reoit un montant for-
faitaire dpendant du montant de cotisations sans prendre en compte
son revenu.

1.3 Le march de lassurance sant complmentaire


1.3.1 volution du march
Pour complter le remboursement de la Scurit Sociale, 94% de la po-
pulation franaise a souscrit une complmentaire sant. Depuis 2008, la crise
conomique a aussi touch le secteur dassurance, mais le march de la com-
plmentaire sant reste toujours stable et relativement rentable. Lvolution
du chiffre daffaires depuis dix ans prouve la croissance de ce march. En
2010, les organismes dassurance maladie complmentaire totalisent 31,4 mil-
liards deuros de chiffre daffaires, prsentant une hausse de 77% par rapport
2001. Ce chiffre daffaires se dcompose de la manire suivante : 56% pour
les mutuelles, 27% pour les socits dassurance et 17% pour les institutions
de prvoyance. La rpartition du chiffre daffaires est cohrent par rapport
celle de financement du graphique 4.
Le march a progress de 3,17% de chiffre daffaires en 2011, de 5,1% en
2012 et 2,3% en 2013 en terme de chiffre daffaire. La complmentaire sant
prsente une des meilleures performances du march de lassurance. Nous re-
gardons plus prcisment les volutions de 2012 et 2013. Le tableau 4 montre
les chiffres daffaires en millier deuros et les croissances en pourcentage pour
les trois types dorganismes en 2012 et 2013. Dans le tableau, IP exprime
lInstitution de Prvoyance.

Table 4 Lvolution du march de complmentaire sant en 2012 et 2013

2012 2013
CA Croissance CA Croissance
Mutuelles 17 578 939 2,20% 17 846 271 1,5%
IP 5 745 579 11,50% 5 806 129 1,10%
Assurance 8 820 048 7,2% 9 226 128 4,60%
Total 32 144 566 5,10% 32 878 528 2,30%
Source : Fonds CMU

En 2012, les Institutions de Prvoyance ont eu une meilleure croissance,


mais un an aprs les socits dassurances ont vu leur chiffre daffaires croitre
plus vite que le chiffre daffaires des institutions de prvoyance. Au total, la

34
croissance a ralenti en 2013 par rapport 2012. Sur ce march nous pouvons
considrer que le nombre dassurs est stable. Pour mieux comprendre ce
ralentissement, lvolution du tarif sera un lment important. En 2011, la
taxe sur les conventions dassurance pour les contrats responsables et soli-
daires est pass de 3,5% 7%. Afin de compenser cette augmentation de
taxe, les assureurs ont augment leur tarifs. La plupart des franais pensent
que leur complmentaire sant est de plus en plus chre. En effet, le prix de
la complmentaire sant a augment en moyenne de 8% par an depuis 2000.
La hausse de tarif et la stabilisation de nombre dassurs amne une forte
concurrence entre les oprateurs dassurance.

1.3.2 Les meilleurs assureurs du march


Entre 2001 et 2011, le nombre dassureurs a diminu de plus de la moiti
pour un total de 700 maintenant. La rduction du nombre dassureurs est
surtout due la baisse du nombre de mutuelle sant, qui ont fusionn entre
elles. Le tableau 5 ci-dessous prsente les 20 oprateurs 5 leaders du march
de la complmentaire sant classs par le type dassurances.
Pour garder les positions dans le march, une bonne tarification est im-
portante pour les assureurs. Nous avons appris que, dans le tableau 1, les
primes dassurance sant complmentaire peuvent beaucoup varier entre dif-
frents assureurs, une meilleure tarification permettrait un assureur davoir
une plus grande confiance en son tarif et de gagner en avantage concurren-
tiel. Dans certaines mutuelles, les variables utilises aujourdhui ne sont pas
assez prcises, trop peu nombreuses et correctement prises en compte. Une
modlisation prenant plus de variables pertinentes devient une ncessit.

5. Les deux oprateurs de la plateforme sant ne sont pas des porteurs de risque.

35
Table 5 Les 20 assureurs leaders du march

Allianz
Axa
Assureurs privs
Groupama
Swiss Life
Eovi Mutuelle
Harmonie Mutuelles
Mutuelles La Mutuelle Gnrale
MGEN
Uno
AG2R Prvoyance
Apicil
Institutions de prvoyance
Malakoff Mdric
Pro BTP
Maaf Sant
Socits dassurances forme mutuelle Macif-Mutualit
MMA
Crdit Mutuel
Bancassureurs
Pacifica (Crdit Agricole)
Carte Blanche Partenaires
Plateformes sant
Santclair
Source : Les Echos tudes

36
Deuxime partie
Tarification
2.1 Mthode frquence * cot moyen
Dans le cadre de la tarification en sant, le risque maladie est une somme
de plusieurs risques mdicaux, comme consultation mdicale, optique, d-
pense en pharmacie... La prime pure reprsente le cot du risque. Cest le
montant de la prime facture lassur qui est ncessaire pour payer son si-
nistre. La prime pure globale est la somme des primes pures de ces diffrents
risques, sous lhypothse dindpendance entre les risques. Chaque risque
est un risque alatoire, nous supposons que les risques sont indpendants et
identiquement distribus (i.i.d). "Identiquement distribu" signifie que les
individus ne sont pas soumis aux mmes risques et de la mme manire.
En ralit, les risques ne sont pas totalement indpendants, mais les deux
hypothses sont ncessaires afin de pouvoir utiliser les grands thormes ma-
thmatiques pour la modlisation.
La prime commerciale est dfinie sous la forme suivante :

Prime commerciale = Prime pure (PP) + Chargement (frais de gestion,


distribution) - Produits financiers
Lassureur est en mesure de dterminer le montant des chargements (frais
de personnel, cot de limmobilier et du mobilier). Une partie des frais de
gestion dpend du chiffre daffaire qui est facile projeter dans le futur, le
chargement est donc considr comme une variable dterministe. Les pro-
duits financiers viennent en diminution de la prime commerciale grce au
placement effectu sur les marchs. Lobjectif principal est donc le calcul de
la prime pure.

2.1.1 Prime Pure


La prime pure de chaque risque sera calcule selon la formule ci-dessous :
Prime Pure = frquence * cot moyen
La frquence et le cot moyen sont dfinis comme :
Frquence = nombre total de sinistres (dans lanne) / exposition totale
(dans lanne)
Cot moyen (CM) = cot total des sinistres / nombre total de sinistres
Lexposition est la dure pendant laquelle lassur a t couvert pendant
lanne. Un assur couvert une anne entire aura 1 pour valeur dexposi-
tion. Par exemple, un individu qui est assur du 01/10 au 31/12 aura pour

37
exposition la valeur 3/12=0,25. La valeur dexposition sera toujours entre 0
et 1, car notre base de donnes est dfinie par anne.
La prime pure peut scrire :

Prime Pure = frquence * cot moyen = cot total / exposition totale

2.1.2 Modle individuel


Le modle individuel se place au niveau de chaque police dassurance
(contrat). Pour un risque donn k, le cot total des sinistres du risque k est :
N
X
Sk = Si (1)
i=1
O,
N est le nombre total de sinistres.
Si est le montant du ime sinistre avec i N. S1 , S2 , . . . , Sn sont i.i.d,
et ne dpendent pas de N.
Le calcul de la prime pure correspond lesprance mathmatique du cot
annuel des sinistres dclars dun risque k lassureur. Cette estimation
empirique se dcompose en produit des esprances, en notant que :

E[Sk ] = E[Si ] E[N ] (2)

O,
E[Si ] est lestimation du cot moyen.
E[N] est lestimation de la frquence.

2.1.3 Les tapes dune tarification


A ce stade, partir des informations disponibles, nous commenons notre
projet technique. Pour une tarification technique, les tapes ncessaires sont
dcrites ci-dessous :
Construction de la base de donnes
Choix et simplification des variables tarifaires
Modlisation du cot moyen et de la frquence
Passage du tarif technique au tarif commercial

2.2 Construction de la base de donnes


2.2.1 Reprsentation des donnes
Notre tude est base sur les donnes dune mutuelle. Nous avons deux
familles de donnes : les cotisations et les prestations de lanne 2012 et
du premier janvier au 31 juillet 2013. La tarification sera ralise sur des
donnes de priode deux ans en appliquant les valeurs de prestations et

38
puis nous comparerons notre rsultats avec les cotisations. La mutuelle pro-
pose deux types de produits avec diffrentes combinaisons sur options choi-
sies, notes D1 et D2. Nous prsentons dabord le produit modulaire. Dans
notre base de donnes, il y a 4 garanties choisies : Hospitalisation, Soins
courants/Appareillage, Dentaire/Optique/Auditif et Bien-tre. Pour chaque
garantie, un assur peut avoir trois niveaux diffrents de garanties. En plus,
chaque garantie sera dtaille en plusieurs actes. Par exemple, deux actes
"frais de chambre particulire" et "frais daccompagnement" sont compris
dans la garantie Hospitalisation ; la dpense en pharmacie et les analyses
mdicales peuvent tre dans la garantie Soins courants/Appareillage ; la troi-
sime garantie peut dj tre dcompose en trois catgories : le dentaire,
loptique et lauditif ; pour le Bien-tre, les actes possibles sont les mdecines
non conventionnelles (Ostopathe, Chiropracteur, Acupuncteur, Ditticien,
Nutritionniste, Psychologue) ou le vaccin anti-grippe, etc. Le tableau 6 repr-
sente la structure du produit modulaire. En total, nous avons huit bases de

Table 6 La structure du produit modulaire

Niveau 1 Niveau 2 Niveau 3


Hospitalisation
Soins courants/Appareillage
Dentaire/Optique/Auditif
Bien-tre

donnes : les cotisations de deux produits en 2012 et 2013 et les prestations


de deux produits en 2012 et 2013.

2.2.1.1 Donnes de cotisations

La base de cotisations contient 12 variables descriptives :


Nom dagence
Code famille : tous les membres dune famille ont un code unique.
Rfrence personne : dans une famille, chaque personne a sa propre
rfrence, le nombre de rfrences est identique au nombre dassurs.
Qualit ayant droit : elle prsente la situation familiale dun assur,
elle a quatre modalits qui sont responsable, conjoint, enfant et autre.
Numro Scurit Sociale bnficiaire
Code combinaison : cette variable dcrit les niveaux de garanties pour
chaque option. Par exemple 2131 montre que lassur a choisi niveau
2 pour Hospitalisation, niveau 1 pour Soins courants/Appareillage, ni-
veau 3 pour Dentaire/Optique/Auditif et niveau 1 pour Bien-tre.
Code option : cest un dtail pour la variable Code combinaison ayant
12 modalits dont chaque garantie a trois codes. Par exemple niveau
2 de lHospitalisation est not comme H2 et niveau 3 de la garantie

39
Dentaire/Optique/Auditif est not comme DOA3. Nous rutilisons le
tableau prcdent pour montrer les 12 modalits.

Table 7 Les modalits de la variable Code option

Niveau 1 Niveau 2 Niveau 3


Hospitalisation H1 H2 H3
Soins courants/Appareillage SC1 SC2 SC3
Dentaire/Optique/Auditif DOA1 DOA2 DOA3
Bien-tre BE1 BE2 BE3

Date deffet option : la date du dbut de la priode pour une option.


Date fin option : la date de fin de la priode pour une option.
Sexe ayant droit : le sexe de lassur.
Code postal ayant droit : nous vrifions quune famille a un seul code
postal.
Naissance du souscripteur
Il y a 3 variables numriques :
Cotisation hors taxe
Montant TCA : la taxe sur les conventions dassurance(TCA), aussi
appele taxe spciale sur les conventions dassurances (TSCA), est un
impt applicable aux contrats complmentaires sant non responsables
avec un taux 3,5% jusquen 2010. Depuis le 1 octobre 2011, cette taxe
sapplique sur tous les contrats complmentaires sant responsables
avec un taux 7%.
Montant CMU : la taxe CMU est au taux 6,27% depuis 2011.
Dans notre tude, nous chercherons dfinir la cotisation hors taxe.

2.2.1.2 Donnes de prestations


Dans la base de prestations, nous avons 8 variables descriptives et 6
variables numriques.
Les variables descriptives sont :
Code famille
Rfrence personne
Code combinaison
Code option
Date de dbut de soins : le moment o lassur a commenc les soins.
Date paiement : le moment o lassur est rembours.
Code acte : La codification de lacte qui a t rembours.
Libell Acte : les descriptions pour la variable Code acte.
Les variables numriques sont :
Dpense : le montant de dpense relle.
Base de remboursement de la Scurit Sociale (BR)

40
Montant RO : le remboursement du rgime obligatoire (RO) vers par
la Scurit Sociale correspond un pourcentage de la BR.
Remboursement mutuelle : le montant de remboursement complmen-
taire par la mutuelle.
Parcours soins : la participation forfaitaire, un euro en gnral.
Quantit : le nombre dactes rembourss par la Scurit Sociale.

2.2.2 Prparations des donnes


2.2.2.1 La cohrence entre cotisations et prestations
Avant de commencer notre tude, nous vrifions la cohrence entre les
donnes de cotisations et celles de prestations. En pratique, le nombre de
familles qui demandent les remboursements doit tre infrieur ou gal celui
des cotisations, puisque des personnes peuvent avoir souscrit le contrat sans
avoir eu besoin de remboursement sur la priode considre. Nous avons
compar le nombre de modalits entre les donnes de cotisations et celles
de prestations en 2012 et 2013 pour les deux produits. Les rsultats sont
prsents dans le tableau 8 ci-dessous. Les rsultats satisfont la condition

Table 8 La comparaison de nombres de modalits de la variable code


famille entre les donnes de cotisations et celles de prestations

D1 D2
Cotisation Prestation Cotisation Prestation
2012 3868 3750 4440 4089
2013 2917 2811 9570 8498

pratique dans les quatre cas. Une fois valide la cohrence des donnes sur
ce point, nous pouvons faire un tri pour analyser les variables.

2.2.2.2 Choix de variables


Nous nous intressons aux caractristiques de chaque variable. Pour les
variables quantitatives, nous regarderons les valeurs minimums et maxi-
mums, la moyenne et lcart type, etc. Pour les variables qualitatives, nous
essayons dindiquer les intituls des modalits et la somme des effectifs de
chaque modalit. Nous expliquons en dtail le choix de variables sur les don-
nes de D1 en 2013, les mmes processus ont t appliqus aux autres parties.
Dans la suite de ltude, nous ne montrerons les analyses ou les mthodes
que sur les donnes de D1 pour simplifier.

Les variables de donnes cotisations :


Nous regardons dabord les nombres de modalits pour certaines variables
intressantes qui se trouvent dans le tableau 9 ci-dessous.

41
Table 9 Les nombres de modalits de variables dans le fichier de cotisations

Variables Nombre de modalits


Code famille 2917
Rfrence personne 4878
Qualit ayant droit 4
Numro Scurit Sociale 3576
Code option 12
Sexe ayant droit 2
Code postal 470
Naissance ayant droit 4474

Les membres dune mme famille ont le mme code famille, nous souhaitons
utiliser les donnes tte par tte, donc le code famille ne sera pas retenu dans
la suite de ltude. La rfrence personne tant unique par individu, la dif-
frence du numro de Scurit Sociale (puisque les enfants nont pas leur
propre numro SS avant 16 ans), nous garderons la variable qualit ayant
droit, car nous souhaitons travailler sparment pour les tarifs adultes et ce-
lui des enfants. Nous avons trouv une modalit notant "Autre" qui contient
un seul assur n en 1956. Nous lavons mis dans la partie adulte. Le code
postal va nous apporter leffet gographique et lge de lassur joue un rle
important sur la frquence et le cot moyen. Et en plus, la date deffet de
loption et la date fin de loption nous permettent de calculer la frquence
plus tard. Dans la partie cotisation, nous avons finalement limin deux va-
riables : code famille et numro Scurit Sociale.

Les variables de donnes prestations :


Il y a certaines variables communes dans les deux fichiers, nous avons choisi
la rfrence personne comme variable cl liant les deux bases de donnes. La
date de dbut de soin nous permet de calculer le nombre de sinistres. Deux
variables similaires "code acte" et "libell acte" ont respectivement 179 et 176
modalits. Les deux chiffres doivent logiquement tre gaux. Aprs compa-
raison nous avons trouv trois couples de codes actes reprsentant le mme
libell acte, nous considrons quil manque trois modalits pour les codes
actes. Donc nous avons retenu la variable code acte finalement.

Enfin nous avons retenu 12 variables :


Rfrence personne
Code option
Date de dbut de soins
Date de paiement
Code acte
Qualit ayant droit

42
Date effet option
Date fin option
Sexe ayant droit
Code postal ayant droit
Naissance du souscripteur
Remboursement mutuelle

2.2.3 Construction de la base de donnes


Une fois les variables choisies, nous commenons construire notre base
de donnes. Avec ces 12 variables, il y a 86780 lignes de donnes, chaque
ligne prsente une demande de remboursement mutuelle par lassur et est
justifie par un acte mdical. Aprs la fusion des deux fichiers, contenant des
variables diffrentes, il y a des erreurs, il est ncessaire de les corriger et de
garder les variables les plus pertinentes.
Suppressions des donnes incompltes ou errones :
Avec les erreurs oprationnelles, certains assurs demandant des rembourse-
ments mutuelles, alors quils ne sont pas dans la liste de cotisations. Il y a
197 lignes qui prsentent des anomalies, pour un total de 70 assurs, ce qui
reprsente 0,21% des remboursements totaux. Cet effet est assez faible, nous
supprimons donc ces lignes en anomalie.
Correction des donnes :
Code postal de layant droit : en France, un code postal contient 5
chiffres. Il existe des modalits de 4 chiffres dans la base. Nous remar-
quons que le premier chiffre est ignor sil est gale 0. Cette anomalie
est du au logiciel Excel qui transforme les donnes numriques, en sup-
primant automatiquement les zros. Nous rajoutons un zro et forons
la case Excel en type "texte".
Date effet option et Date fin option : il existe un nombre important de
donnes manquantes pour ces deux variables. Il nest pas possible de
les supprimer. Nous supposons que la date effet option est 01/01/2013
et que la date fin option est 31/07/2013, car les donnes de 2013 ne
portent que sur 7 mois.
Insrer les nouvelles variables :
Certaines variables utiles ne sont pas assez pertinentes, nous ajoutons de
nouvelles variables via ces variables dorigines.
Age ayant droit : Nous calculons lage des assurs la date 31/07/2013.
Situation famille : Nous nous intresserons ltat familial de lassur.
Cette variable est exprime laide du code famille, de la rfrence
personne et de la qualit ayant droit. Nous considrons 4 modalits
qui sont exprimes dans le tableau 10 suivant :
Exposition : (date fin option - date effet option) / 365
Nombre total de sinistres par lassur : nous comptons le nombre de
diffrentes dates de dbut de soins.

43
Table 10 Les 4 modalits de la variable situation famille

Modalit Nombre dadultes Nombre denfants


SEULE 1 0
MONOPA 1 au moins 1
GROUPE 2 0
FAMILLE 2 au moins 1

Montant total de remboursement par assur


Cot moyen : Montant total de remboursement par assur / Nombre
total de sinistres par lassur
Frquence : Nombre total de sinistres par assur (dans lanne) / Ex-
position (dans lanne)
Nous avons fait le choix de variables, corrig les donnes et insr de nouvelles
variables dans les fichiers de D1 en 2012. Nous avons insr enfin la dernire
variable Anne pour fusionner les donnes de 2012 et 2013. Finalement la
base retenue de D1 est de 13 variables ayant 21357 lignes sans doublons.
Dans la suite de ltude, nous allons modliser sparment le cot moyen et
la frquence.

2.3 Analyse de donnes


Avec la base de donnes traites, nous nous intressons aux caractris-
tiques des donnes avant la modlisation. Est ce quil y a assez dexpositions
pour toutes les tranches de variables ? Est ce quil y a des corrlations entre
les variables ? Etc. Nous rpondrons ces questions selon les analyses.

2.3.1 Vrification des donnes


Nous vrifions dabord la cohrence entre la base de donnes traites et
la base de donnes dorigine. Cela est illustr par la comparaison de montant
total de sinistres dans les deux bases. Au total, le montant trait dans la base
est 99,91% de la somme des montants en 2012 et 2013 dans les bases origi-
nales. Ensuite, nous comparons prcisment le nombre de modalits pour les
variables communes entre la population retenue et la population originale.
Elles sont : Rfrence personne, Qualit ayant droit, Code option et Code
postal ayant droit.
Dans notre base, deux individus sont prsents dans le fichier de prestation
2012 mais pas dans le fichier de cotisations 2012. Cest donc logique de les
liminer. Pour la mme raison, nous avons 6 codes postaux en moins. Parmi
les 3 dernires variables, il ny a que Code option qui est dans le fichier
de prestation. Nous aimerions en plus vrifier la proportion du montant de
remboursement par modalit. Cela nous aidera valider la qualit de la base

44
Table 11 La comparaison de nombres de modalits entre la base retenue
et la base brute

Nombres de modalits
Base retenue Base brute cart
Rfrence personne 6642 6644 2
Qualit ayant droit 4 4 0
Code option 12 12 0
Code postal 528 534 6

retenue.

Table 12 La comparaison de la proportion du montant de remboursement


pour Code option entre la base retenue et la base brute

Proportion du montant de remboursement


Base retenue Base brute cart
BE1 7,542% 7,538% -0,004%
BE2 5,636% 5,633% -0,003%
BE3 4,926% 4,924% -0,002%
H1 6,483% 6,479% -0,004%
H2 5,090% 5,087% -0,003%
H3 2,127% 2,126% -0,001%
DOA1 3,170% 3,173% 0,003%
DOA2 5,434% 5,446% 0,012%
DOA3 12,133% 12,134% 0,001%
SC1 27,940% 27,935% -0,005%
SC2 13,959% 13,964% 0,005%
SC3 5,560% 5,561% 0,001%

Nous pouvons donc continuer ltude sur la base de donnes retenue.

2.3.2 Analyse dmographique


2.3.2.1 La rpartition par la qualit ayant droit
La population des assurs contient 3 types de personnes : Responsable,
Conjoint et Enfant. Les responsables sont les souscripteurs du contrat et
reprsentent plus de la moiti de la population. La rpartition est reprsente
dans le graphique 6 ci-dessous.
Les conjoints sont prsents dans une proportion faible. Si le conjoint de
lassur a sa propre complmentaire sant, il naura pas forcment intrt
avoir une autre mutuelle. En revanche, les enfants sont trs reprsents,

45
Figure 6 Rpartition des assurs par la qualit "ayant droit"

plus que les conjoints. Il est donc possible dattirer les conjoints si le contrat
propose plus davantages pour une famille.

2.3.2.2 La distribution des assurs par classe dge

Nous nous intressons aux expositions par tranche dge. Nous sparons
les donnes entre femme et homme. Nous pouvons voir sur le graphique 7
que la distribution est plutt uniforme entre 1 an et 70 ans, et que la po-
pulation de femmes est plus importante que la population des hommes. Il
sera donc intressant dtudier lcart des volutions du cot moyen et de la
frquence entre femmes et hommes. Nous avons assez dinformations pour
la suite de ltude, et les tendances de la frquence et du cot moyen sont
plutt similaires pour les femmes et les hommes.

Figure 7 Distribution Femmes et Hommes par ge

46
2.3.2.3 volution du cot moyen et de la frquence

Nous nous intressons aussi aux volutions du cot moyen et de la fr-


quence. Pour chaque tranche dge, il existe plusieurs valeurs pour les deux
variables. Nous avons donc pris la moyenne dans le cadre de ltude. La
moyenne maximale de cots moyens est de 933 euros, elle est ralise par un
groupe de femmes de 95 ans. Si nous regardons seulement les donnes des
hommes, la moyenne maximale est de 173 euros pour les hommes ayant 97
ans. Les assurs ayant au moins 90 ans sont des cas extrmes, les rembour-
sements demands peuvent tre beaucoup plus levs que les autres tranches
dge. De mme pour la frquence, qui est plus leve pour cette tranche
dge. Nous avons donc pris en compte seulement les assurs gs entre 1 an
et 90 ans, afin de ne pas biaiser lvolution des donnes.
Dans le graphique 8 ci-dessous, lordonne reprsente la moyenne des cots
moyens.

Figure 8 Distribution de cots moyens Femmes et Hommes par ge, de 1


an 90 ans

Nous pouvons observer que les courbes fminine et masculine ont une
volatilit similaire, dune valeur de 15 pour les femmes et de 17 pour les
hommes. La moyenne des cots mensuels est autour de 60 euros par personne,
elle est relativement stable daprs ce graphique. En prenant comme seuil
la moyenne de 60 euros, nous remarquons que les cots pour les enfants
sont dessous de cette moyenne. Avec ce seuil, il est intressant de modliser
sparment les tarifs adulte et enfant. De plus, les cots moyens de garons
sont presque toujours suprieurs celui des filles. Cet cart nest pas vident
entre les adultes des deux sexes. Nous tudierons galement lvolution de la
frquence (cf le graphique 9), pour mieux connaitre les donnes.

47
Figure 9 Distribution de frquences Femmes et Hommes par lge de 1
an 90 ans

A part ces carts de cot moyen entre les filles et les garons, il existe
un autre effet : les femmes demandent plus souvent un remboursement que
les hommes. La moyenne totale de la frquence est 10. Les deux courbes
ont tendance croitre lgrement. Pour la partie enfants, les frquences sont
dcroissantes jusqu 18 ans. Au contraire du cot moyen, le rle du sexe
nest pas vident pour les enfants. Cela signifie que pour la partie enfant,
lcart normalis entre filles et garons du cot moyen est suprieur celui
de la frquence.

2.4 Les variables tarifaires

En tarification, les variables tarifaires sont gnralement des variables


qualitatives pour des raisons techniques. Les variables continues sont alors
regroupes par classe. Dans la premire section, nous prsenterons la seg-
mentation des variables tarifaires. Ensuite nous nous intresserons lind-
pendance entre la variable rponse et chaque variable explicative. Pour ce
faire, nous introduisons le test du Khi-Deux dindpendance.
Avant de commencer les travaux, nous pensons travailler sur les donnes
adulte et denfant sparment. Mais aprs avoir regroup les donnes, nous
nous rendons compte que la population enfant nest pas assez importante.
Finalement nous choisissons de modliser toutes les donnes ensemble en
prenant en compte la variable qualit ayant droit pour distinguer ladulte de
lenfant.

48
2.4.1 Segmentation des variables
Avant dappliquer le test dindpendance, il est important de regrouper
les variables. Certaines variables comme Age et Code postal ont beaucoup
de modalits. En pratique, cest compliqu de retenir toutes les modalits.
En outre, leffectif pour chaque modalit nest pas toujours en nombre suf-
fisant, le test dindpendance demande une population minimum de 5 pour
fonctionner. Il est donc ncessaire de classifier les variables. Nous nous ba-
sons sur les volutions du cot moyen et de la frquence par variable pour
dterminer les classes.
Avec la mthode frquence * cot moyen, la modlisation sera applique sur
les deux variables rponses respectivement. Nous avons montr dans la sec-
tion 2.3.2.3 que la frquence de la femme est plus leve que celle de lhomme,
mais leffet du sexe nest pas vident sur le cot moyen. Nous pouvons suppo-
ser quune mme variable aura une influence diffrente pour la frquence et
le cot moyen. Il est donc possible davoir une segmentation diffrente pour
la frquence et le cot moyen par variable. La segmentation des variables
doit galement respecter une logique de "bon sens".

2.4.1.1 Variable Age

Nous commenons regrouper par classe dge pour la frquence en se


rfrant au graphique 9. Nous nommerons cette variable Age. Nous consta-
tons une tendance similaire pour les hommes et les femmes, nous proposons
de fractionner de la manire suivante :
A1 de 0 16 ans : Cest la classe enfant. Nous pouvons observer quil y
a plus de frquence pour un bb de moins dun an, ce qui est logique
car cest une priode sensible aprs la naissance.
A2 de 17 30 ans : Nous considrons comme lge des jeunes, dont la
frquence est plutt stable.
A3 de 31 45 ans : Cest la premire classe adulte. Nous pouvons ob-
server quil y a quelques pics sur la frquence de la femme qui peuvent
sexpliquer par la priode de grossesse. Avec cette influence, nous nous
intressons au regroupement de la classe des adultes en deux parties.
Daprs le source de lInsee en 2010, les femmes ont en moyenne leur
premier enfant 28 ans en France mtropolitaine. Lge moyen lors
de laccouchement est de 30 ans. Cependant, lcart dge au premier
enfant par rapport la moyenne nationale dpend de la rgion de r-
sidence de la mre. Par exemple lge moyen au premier enfant en
le-de-France est suprieur la moyenne nationale. Dans notre base
de donnes, les plupart des assurs sont situs dans la rgion ayant un
ge moyen un peu plus lev.
A4 de 46 60 ans : Nous notons A4 comme la deuxime classe des
adultes. Cette classe dge a une frquence stable sur la priode.

49
A5 de 61 80 ans : Les seniors dont dfinis partir de 61 ans. Selon
lanalyse de lInsee en 2012, lesprance de vie des franais est 78,4
ans pour lhomme et 84,8 ans pour la femme. Nous choisissons 80 ans
comme un ge moyen espr.
A6 81 ans et plus : A partir de 81 ans, la frquence est plus volatile
cause de la vieillesse.
Ensuite nous allons vrifier la segmentation base sur la frquence avec
le cot moyen daprs le graphique 8. Un pic entre 12 ans et 18 ans peut tre
expliqu par le traitement dorthodontie. Les traitements dorthodontie sont
rembourss 70% (actes infrieurs 120 euros) ou 100% (actes suprieurs
120 euros) sur la base de remboursement de la scurit sociale, qui est trs
souvent infrieure leur cot rel. En effet le tarif des traitements dortho-
dontie est libre. Une partie ou la totalit du dpassement dhonoraire sera
dont pris en charge par la mutuelle. La courbe du cot moyen ne permet
pas de dfinir une segmentation car il nexiste pas de caractristique vi-
dente sur la courbe. En consquence, nous prenons le mme choix que pour
la frquence.

2.4.1.2 Variable Code postal


Le code postal est toujours demand lors de linscription de lassur. Le
nombre de modalit tant trs important, il est trs compliqu en pratique
dutiliser chaque modalit pour la modlisation. Effectivement nous navons
pas assez deffectifs pour chaque modalit, et en plus lassurance prfre tou-
jours un modle simplifi.
Dans un premire temps, nous regroupons Code postal par rgion. Les as-
surs sont distribus en 22 rgions, plus le dpartement 97. Les assurs sont
concentrs dans seulement deux rgions, les autres rgions ont un nombre
dassur infrieur 100, dont certaines possdent des nombres trs bas au-
tour de 10. En deuxime tape, nous lions les rgions. En prenant en compte
la population des assurs par rgion et sa position, nous proposons la classi-
fication gographique suivante :
Classe A : Basse Normandie, Bretagne, Haute Normandie, La Loire,
Picardie, Nord Pas Calais, Auvergne, Rhne Alpes, Alsace, Bourgogne,
Centre, Champagne Ardenne, Franche Comte, Lorraine et Poitou Cha-
rentes. La rgion Alsace dispose dun rgime local diffrent du reste de
la France, idalement nous aimerions la mettre dans une classe ind-
pendante des autres rgions. Mais avec trs peu dassurs, nous sommes
obligs de la fusionner avec les autres.
Classe B : le de France. Le cot de la vie en le de France est en
moyenne plus lev et donc il est intressant de traiter spcialement
cette rgion.
Classe C : Aquitaine, Languedoc Roussillon et Midi Pyrnes, reprsen-
tant la partie sud-ouest de la France. Effectivement, avec la concentra-

50
tion des effectifs au sud, nous mettons la rgion Provence-Alpes Cote
dAzur dans la classe D afin de prciser la modlisation.
Classe D : Provence-Alpes Cote dAzur, Monaco, Corse et le dparte-
ment 97. Comme pour lAlsace, les effectifs de Monaco, du dparte-
ment 97 et de la Corse sont trop faibles et nous les regroupons avec
Provence-Alpes Cote dAzur.
La nouvelle distribution des assurs par classe est not dans le tableau ci-
dessous :

Table 13 Distribution gographique

Classe Nombre des effectifs


A 405
B 92
C 8153
D 12707
Total 21357

Les regroupements effectus sont logiques dun point de vu gographique,


nous pensons garder ce regroupement pour le cot moyen galement.
Aprs la segmentation, les variables retraites et les autres sont consid-
res comme candidats pour la suite. Cependant, toutes les variables nont
pas ncessairement un sens significatif sur la remboursement mutuelle. Nous
introduisons le test du Khi-Deux dindpendance pour faire un tri des va-
riables.

2.4.2 Le test du Khi-Deux dindpendance


Le test du Khi-Deux dindpendance permet de dmontrer lindpen-
dance entre deux variables via une exprience. On fait lhypothse H0 : Deux
variables A ayant p modalits et B ayant q modalits sont indpendantes.
Les donnes sont structures sous forme dun tableau des effectifs obser-
vs pour les deux variables compares appel table de contingence. Avec :
nij leffectif correspond au nombre dindividus ayant la modalit i de
la variable A et la modalit j de la variable B, avec 1 i p et
1 j q. Pq
ni. la somme des effectifs de la colonne i, ni. =
Pp j=1 nij .
n.j la somme des effectifs de la ligne j, n.j = i=1Pnpij . Pq
N leffectif total de la table de contingence, N = i=1 j=1 nij .
Ensuite, nous calculons des valeurs "thoriques" dans le tableau des ef-
fectifs attendus en se servant des valeurs exprimentales. Sous H0 , leffectif
n n
attendu not tij est calcul comme tij = i. N .j .
La statistique du Khi-Deux observe est dtermine sous la forme suivante :

51
(Ef f ectif s observ eoriques)2
es Ef f ectif s th
2obs = (3)
Ef f ectif s th
eoriques
Soit en forme mathmatique :
p X
q
X (nij tij )2
2obs = (4)
tij
i=1 j=1

2obs sera compar avec la valeur seuil 2seuil pour (p-1)(q-1) degrs de
libert et pour un risque derreur fix. Si 2obs > 2seuil , lhypothse H0
est rejete au risque derreur . Il ny a donc pas dindpendance statistique
entre les deux variables. Sinon on accepte H0 .
A ce stade, nous souhaitons retenir les variables qui ont linfluence sur
la frquence ou le cot moyen. Nous crons une nouvelle variable indicatrice
Frquence (bis) comme rfrence, elle est gale 1 si la frquence est su-
prieure et gale 10, sinon 0, o 10 est la moyenne de la frquence. Nous
prfrons la variable indicatrice car la frquence est une variable continue,
en croisant cette variable et une autre, les effectifs attendus seront possibles
infrieurs 5. Il ne sera donc pas valable pour raliser un test du Khi-Deux
dindpendance. Nous pouvons utiliser la mme faon pour tester lindpen-
dance entre le cot moyen et les variables explicatives.
Nous prenons un exemple de sexe pour la frquence, nous proposons
lhypothse suivante :
H0 : La frquence ne dpend pas du sexe de lassur. Les deux variables
sont indpendantes.
H1 : La frquence dpend du sexe de lassur.
Les deux variables ont chacune deux modalits, la table de contingence
est prsente ci-dessous :

Table 14 La table de contingence entre la frquence et le sexe

Frquence
Sexe Total
<10 10
Femme 8387 4284 12671
Homme 6314 2372 8686
Total 14701 6656 21357

Nous avons ralis le test dindpendance dans le logiciel statistique R.


Ce test est appliqu sur le table de contingence. Dans le rsultat de R, nous
avons :
la valeur dindicateur de 2 est 101,23 ;
le nombre de degrs de libert est 1 ;
la probabilit davoir un indicateur de 2 pour un degr de libert est
infrieure 2, 2 1016 .

52
Nous nous intressons essentiellement la p-value, en gnrale, lhypothse
dindpendance sera accept lorsque la p-value est suprieure 0,05. Notre
p-value est trs faible, nous conclurons que la frquence dpend du sexe. Ce
rsultat est cohrent avec le graphique 9 qui montre que les femmes vont
consulter plus souvent un mdecin que les hommes.
Nous avons appliqu ce test entre toutes les variables et la frquence, et
nous obtenons les rsultats ci-dessous :

Table 15 Les rsultats du test dindpendance pour la frquence

Variable Valeur du 2 Nombre de degrs de libert p-value


Sexe 101,23 1 < 0,0001
Age 443,48 5 < 0,0001
Qualit ayant droit 148,83 2 < 0,0001
Situation famille 197,56 3 < 0,0001
Code option 7757,89 11 < 0,0001
Rgion 13,20 3 0,004215

Nous pouvons observer quil y a 5 p-value qui sont infrieures 0,0001,


les 5 variables ont donc des influences sur la frquence. Elles serons bien
retenues dans ltude suivante. La p-value de Rgion est beaucoup plus leve
que les autres, nous somme prts accepter lindpendance si la p-value est
suprieure 0,05. Mais dans notre cas, la valeur 0,004215 nest pas assez
grande pour accepter lhypothse nulle. Nous ne pouvons pas dire que les
deux variables sont indpendantes, il y a un lien moins fort, cependant nous
prfrons la garder. La variable Qualit ayant droit na pas trop linfluence
pour la frquence au cas o nous ne traitons que les donnes des adultes.
Leffet dtre responsable ou conjoint a moins de sens significatif. Dailleurs,
il sera intressant de garder les deux modalits sparment pour ltape de
la prime commerciale. Les mutuelles peuvent proposer un avantage tarifaire
pour attirer les assurs et leur conjoint.
Ensuite, nous allons galement appliquer ce test sur le cot moyen. Avec
la mme manire que la frquence, nous paramtrons le cot moyen avec la
moyenne comme rfrence : 0 pour les cots moyens infrieurs la moyenne,
sinon 1. Les rsultats dindpendance sont nots dans le tableau 16 :
Nous pouvons observer que le Sexe est indpendant du cot moyen. Ceci
est cohrent avec la partie adulte dans le graphique 8, homme et femme
ont la mme moyenne de remboursement mutuelle avec la logique du tarif
mdecin traitant. Mais comme nous avons modlis la partie adulte et la
partie enfant ensemble, la moyenne du cot moyen que nous avons choisi
pour faire le test de Khi-Deux na pas mis en vidence leffet dtre adulte ou
enfant. Donc nous prfrons garder cette variable pour la suite. Concernant
la position gographique, les assurs se concentrent au sud de la France dans
notre base. Avec un niveau de vie similaire, la distinction gographique ne

53
Table 16 Les rsultats du test dindpendance pour le cot moyen

Variable Valeur du 2 Nombre de degrs de libert p-value


Sexe 1,52 1 0,2181
Age 119,05 5 < 0,0001
Qualit ayant droit 95,57 2 < 0,0001
Situation famille 41,56 3 < 0,0001
Code option 5887,81 11 < 0,0001
Rgion 3,99 3 0,2623

prsente pas dintrt. De mme la classe de lle de France, qui reprsente


moins de 0,5% des effectifs, a une importance trs faible. Pour la suite de la
modlisation du cot moyen, nous excluons cette variable.

2.4.3 Paramtrage des variables


A ce stade, nos variables tarifaires deviennent toutes des variables cat-
gorielles. Pour les utiliser dans les modles mathmatiques, il est ncessaire
de paramtrer ces variables. Pour ce faire, nous pouvons galement utiliser
des indices rsumant les caractristiques dun assur[12]. Nous convenons de
coder toute modalit partitionnant la population en k catgories par les en-
tiers 0,1,...,k-1. Certaines variables peuvent tre ordinales, comme les classes
dge, ou tre purement qualitatif sans induire dordre, comme le sexe. Une
variable catgorielle k modalits est gnralement code par k-1 variables
binaires avec un niveau de rfrence. Les valeurs pour la rfrence sont toutes
nulles.
La plupart du temps, les variables explicatives sont toutes catgorielles
dans un tarif commercial. En prenant nos variables, nous considrons quune
mutuelle segmente les assurs selon le sexe, lge et la gographie. Pour
chaque variable, nous choisissons dabord comme niveau de rfrence la mo-
dalit la plus reprsente dans le portefeuille, toutes les variables binaires
utilises pour la rfrence seront en valeur 0. Les indices des autres modali-
ts sinterprteront donc comme une sur-sinistralit ou sous-sinistralit par
rapport cette classe de rfrence.
Prenant par exemple juste trois variables dans notre base de donnes :
Sexe, Age, Rgion, les femmes ont lge entre 61 et 80 ans habitant en Sud-Est
de la France (Classe D du tableau 13) sont plus reprsentes dans le porte-
feuille. Elles sont donc considres comme rfrence. Un assur quelconque
sera reprsent par un vecteur donnant les indices de 1 et 0 de manire
suivante :
1, si l0 assur
e est un homme,
X1 =
0, si l0 assur
e est une f emme,
0

1, si l assure a moins de 17 ans,
X2 =
0, sinon,

54
si l0 assur

1, e est entre 17 et 30 ans,
X3 =
0, sinon,
si l0 assur

1, e est entre 31 et 45 ans,
X4 =
0, sinon,
si l0 assur

1, e est entre 46 et 60 ans,
X5 =
0, sinon,
si l0 assur

1, e a plus de 80 ans,
X6 =
0, sinon,
si l0 assur

1, e vient de la classe A dans le tableau 13,
X7 =
0, sinon,
si l0 assur

1, e vient de la classe B,
X8 =
0, sinon,
si l0 assur

1, e vient de la classe C,
X9 =
0, sinon,

Leffet du paramtrage a bien augment le nombre de variables tarifaires,


nous aurons 9 variables au lieu de 3. Supposons un assur masculin de 43 ans
habitant Lyon, reprsent par le vecteur (1,0,0,1,0,0,1,0,0). En remplaant
les variables dorigine, les indices serons utiliss dans les modles de tarifica-
tion. Dans la section suivante, nous prsenterons des modles plus utilises
en tarification : Modles Linaires Gnraliss.

2.5 Modles linaires gnraliss


Les modles linaires gnraliss (GLM) [14] sont des modles statistiques
qui gnralisent la rgression linaire en permettant aux modles linaires
dtre relis la variable rponse via une fonction lien et en autorisant lam-
plitude de la variance de chaque observation dtre une fonction de sa valeur
prvue.
Cette famille de modle a t prsente pour la premire fois sous ce
nom par Nelder et Wedderburn [1972], et expose de faon complte par Mc
Cullagh et Nelder [1989].

2.5.1 Cadre du problme


Nous cherchons tudier la liaison entre une variable rponse Y et un
ensemble de variables explicatives X = (X1 , . . . , Xp ). Par exemple, dans
notre tude, nous voulons expliquer le cot moyen de remboursement par les
variables comme lge de lassur, la situation familiale que nous avons dfini
dans la section 2.2.3, etc.
Rappelons quen gnral, dans le modle linaire classique, les variables
X sont considres comme fixes (non-alatoires), et ce modle repose sur
une hypothse forte : le terme derreur suit une loi normale et de mme

55
variance. Nous avons pourtant parfois le besoin dexpliquer des variables
et donc leurs erreurs qui ne suivent pas ce pr-requis. Car la source de la
variabilit constate dans Y provient dune erreur alatoire .
Nous voulons donc tendre le modle linaire classique Y = X +  aux
cas o les erreurs naient pas la mme variance (=htroscdasticit).
Lide des modles linaires gnraliss est dutiliser une transformation ma-
thmatique sur la variable expliquer Y en prenant en compte la vritable
distribution des erreurs. Les paramtres impliqus sont estims par une m-
thode destimation dite du "Maximum de Vraisemblance". La fonction ma-
thmatique utilise pour transformer la variable expliquer est donc appele
"fonction de lien".

2.5.2 Prsentation gnrale des modles


Les modles linaires gnraliss sont forms de trois composantes :
Composante alatoire : Cest la variable expliquer Y = (Y1 , . . . , Yn )
laquelle est associe une loi de probabilit.
Composante dterministe : Ce sont les variables explicatives X =
(X1 , . . . , Xp ), utilises comme prdicteurs dans le modle pour dcrire
chaque yi . Cette composante est exprime sous forme dune combinai-
son linaire 0 + 1 X1 + + p Xp .
Fonction lien : Le lien dcrit la relation fonctionnelle entre la combi-
naison linaire des variables explicatives et lesprance mathmatique
de la variable de rponse.

2.5.2.1 La loi de la variable rponse


La loi de la variable rponse Y appartient la famille exponentielle, elle
peut scrire sous la forme :

y b()
f, (y) = exp( + c(y, )), y S (5)
a()

O
S est un sous-ensemble de N ou de R.
R : Paramtre canonique ou paramtre de la moyenne qui est
inconnu.
R : Paramtre de dispersion suppos connu.
a(.) est une fonction dfinie sur R et non nulle.
b(.) est une fonction dfinie sur R, non nulle et deux fois drivable et
drive premire injective.
c(.) est une fonction dfinie sur R2 .

Dfinition 2.5.2.1 Famille exponentielle gnrale


La loi de probabilit P appartient une famille de loi de type exponentielle

56
gnrale {P }P
Rq , les lois P ont pour densit la fonction : f (y) =
c()h(y)exp{ pj=1 j ()Tj (y)}, y =, avec T1 (.), . . . , Tp (.), 1 (.), . . . , p (.)
fonctions mesurables et = lensemble de dfinition de la densit f (.).

La loi normale, la loi binomiale, la loi de Poisson, la loi Gamma et la loi


de Gauss inverse appartiennent la famille exponentielle.
Nous avons dit que est suppos connu, cependant ce nest pas toujours
le cas, ce paramtre est dit alors paramtre de nuisance. Car pour certaines
valeurs, la densit dfinie par la formule 5 peut ne pas appartenir la famille
exponentielle. Dans ce cas, est estim pralablement et considr ensuite
comme connu.
a() est expliqu en rgle gnrale par la formule :

a() = (6)
i
Avec i un poids connu a priori affect lobservation yi .
i = 1 pour des donnes non groupes.
i = m pour des donnes groupes, par exemple yi prsente la moyenne
empirique de m variables alatoires.
1
i = m si yi est la somme des rponses individuelles.
Dans notre tude, nous supposons que = 1.
Nous prsentons dans le tableau 17 les paramtres de la famille exponen-
tielle pour des lois de probabilit usuelles.

Table 17 Les paramtres de la famille exponentielle

Loi de probabilit () b() a()


2
Normale N (, 2 ) 2 2

Bernoulli B(1, ) log( 1 ) log(1 + e 1
Poisson P() log() e 1
Gamma G(, ) 1 log() 1

Gauss Inverse IG(, 2 ) 21 2 2 2

2.5.2.2 Moyenne et Variance de la variable rponse


Pour une variable alatoire Y dont la densit peut scrire sous forme
exponentielle 5 et avec lhypothse que = 1, ses deux premiers moments
peuvent scrire via les formules :

E[Y ] = b0 () (7)
00
V ar[Y ] = b () a() (8)

57
Dans la formule de la variance, b00 () est appele la fonction variance. Si nous
notons = E[Y ] = b0 (), alors b00 () = V ().
Nous pouvons galement obtenir lesprance et la variance de ces lois
prcdentes, rappelons que le poids est suppos gale 1.

Table 18 Esprance et variance de la famille exponentielle

Loi de probabilit E[Y] Var[Y]


Normale N (, 2 ) 2
e
Bernoulli B(1, ) 1+etheta
(1 )
Poisson P() e
2
Gamma G(, ) 1 2
Gauss Inverse IG(, 2 ) 1 3 2
2

2.5.2.3 Fonction de lien


La troisime composante des modles linaires gnraliss est la fonc-
tion de lien. Cette fonction est dterministe, strictement monotone et aussi
inversible, dfinie sur R tel que

g() = 0 + 1 X1 + + p Xp (9)

Nous simplifions cette quation par une forme vectorielle :


p
X
g() = 0 + i Xi
i=1
= X 0
= [X] (10)

peut tre vue comme une variable "synthtique", un rsum linaire des
variables explicatives ou une direction dans Rp . Chacune des lois de la famille
exponentielle possde une fonction de lien spcifique, appele fonction de lien
canonique, permettant de relier lesprance au paramtre . Ce paramtre
est donc appel paramtre canonique dans lquation 5. Le lien est tel que
g() = . Or = b0 (), nous avons donc g 1 () = b0 (). Le tableau 19 [20] sui-
vant prsente les fonctions de lien adaptes aux diffrents types de donnes :

2.5.2.4 Estimation des paramtres


Dans les modles linaires gnraliss, la mthode du Maximum de vrai-
semblance est souvent utilise pour estimer les paramtres. Considrons

58
Table 19 Fonctions de lien

Distribution Type de donnes Nom du lien Fonction de lien


Normale Lien identit g() =
Poisson Comptage Lien log g() = log()

Binomiale Pourcentage Lien logit g() = log( 1 )
1
Gamma Dure Lien inverse g() =

Y = (Y1 , . . . , Yn ) le vecteur expliquer, X1 , . . . , Xp les vecteurs explica-


tifs et g la fonction de lien. Selon les quations 7 et 9, i peut tre expliqu
par les paramtres i sous la forme :

i = (b0 g)1 (0 + 1 Xi1 + + p Xip ) (11)

Cette quation permet de lier les paramtres estimer la fonction de vrai-


semblance. Une fois que nous russirons estimer les i , nous pourrons
expliquer Y par i .
La densit de chaque observation i scrit sous la forme suivante :
yi i b(i )
fi , (yi ) = exp( + c(yi , )) (12)
a()
En supposant que toutes les observations i soient indpendantes et en te-
nant compte du fait que dpend de , nous pouvons crire la fonction de
vraisemblance sous la formule :
n n
X i (yi i b(i )) X
L((), y, ) = + c(yi , ) (13)

i=1 i=1

Nous souhaitons chercher les valeurs du vecteur qui maximisent la vrai-


semblance de lquation 13. Cela revient chercher les paramtres i tel que :

L((), y, )
= 0, j = 0, . . . , p (14)
j
Elle sexprime comme :
n
X ln(f (yi , , i ))
=0
j
i=1
n
X i (yi i b(i ))
( + c(yi , )) = 0 (15)
j
i=1

Avec leffet dindpendance, pour chaque i nous utilisons la mthode :


ln(f (yi , , i )) ln(f (yi , , i )) i i i
= (16)
j i i i j

59
Nous calculons sparment les 4 composantes de cette quation, nous avons
obtenu :
ln(f (yi , , i )) i (yi b0 (i ))
=
i
i 1
=
i b00 (i )
i 1
= 0
i g (i )
i
= xij
j
Les quations de vraisemblance retenues sont donnes par :
n
L((), y, ) X i (yi b0 (i ))xij
= = 0, j = 0, . . . , p (17)
j b00 (i )g 0 (i )
i=1

En gnral, les quations de la plupart des modles linaires gnraliss


qui dterminent les paramtres au sens du maximum de vraisemblance ne
sont pas linaires, en plus les estimateurs des paramtres nont pas dautres
expressions formulables. il ny a donc pas de solution explicite. Pour trou-
ver les estimateurs i , nous pouvons utiliser des mthodes itratives comme
Newton-Raphson ou mthode du SCORE. Des approximations successives
permettent de sapprocher des estimations au sens du maximum de vraisem-
blance.

2.6 Prparation de la modlisation


2.6.1 Retraitement des variables
A ce stade, nous arrtons le choix des variables pour la frquence et le
cot moyen :
Frquence : Nous avons gard les 6 variables qui sont Sexe, Age, Qualit
ayant droit, Situation familiale, Code option et Classes gographiques.
Cot moyen : Aprs les tests dindpendance, les variables valides sont
Age, Qualit ayant droit, Situation familiale et Code option.
Ltape suivante est la dfinition de la rfrence et le paramtrage des
variables avec la mthode prsente dans la section 2.4.3. En pratique, les
logiciels statistiques peuvent raliser des modles linaires gnraliss avec
les variables catgorielles, ils paramtrent les variables en proposant auto-
matiquement le premier niveau des modalits comme rfrence. Dans ce cas,
les rfrences slectionnes ne sont pas toujours les plus reprsentes dans
la base de donnes. Nous prfrons donc dterminer dabord les rfrences.
Les rfrences des 6 variables et le nombre des modalits sont nots dans le
tableaux 20 :

60
Table 20 Les rfrences des variables

Variable Rfrence Nombre des modalits


Sexe Femme 2
Age A5 (de 61 80 ans) 6
Qualit ayant droit Responsable 3
Situation familiale Seule 4
Code option SC1 (niveau 1 de soin courant) 12
Classes gographiques D (ie.tableau 13) 4

Les nouvelles variables tarifaires sont construites selon les autres moda-
lits. Nous auront finalement 26 variables tarifaires : 26=1+(2-1)+(6-1)+(3-
1)+(4-1)+(12-1)+(4-1). Le premier 1 sexprime par une variable ajoute "In-
tercept" ayant une seule valeur 1. Cet "Intercept" nous permettra dexprimer
les primes pures partir de la prime pure dune classe de rfrence.
Le prdicteur linaire correspondant est de la forme :

25
X
g() = 0 + i Xi (18)
i=1

Le 0 est le paramtre de lIntercept, il est associ la rfrence, pour laquelle


tous les Xi sont gaux 0. Le sens du i indique le niveau de sinistralit par
rapport lassur de rfrence. Si i > 0, les assurs du groupe Xi visitent
plus souvent les mdecins ou demandent des remboursements plus levs en
moyenne que lassur de rfrence. Au contraire, i < 0 indique un niveau
amliorant la sinistralit par rapport lassur de rfrence.
Le prdicteur linaire pour la frquence peut scrire prcisment sous la
forme suivante :
g() = X (19)

0
1

Avec, = ... le vecteur des paramtres ;


24
25

1
et X = ... (X1 ) (X2 ) (X6 ) la matrice des explicatives.

1
Le premier vecteur de X est lIntercept, compos exclusivement de 1, la
matrice X1 reprsente la variable Sexe, les autres sont des matrices des ex-
plicatives pour les 5 autres variables dans lordre du tableau 20.

61
Pour une observation i, nous pouvons dcomposer le prdicteur linaire
de manire suivante :

g(i ) = i
= 0 + 1 x11 + 2 x21 + + 6 x25 + + 25 x63 (20)

Lesprance de la variable alatoire Yi , note i se calcule sous la forme :

i = g 1 (i ) (21)

Dans le cas du cot moyen, il suffit denlever les variables Sexe et Classes
gographiques. La mthodologie reste la mme.

2.6.2 Choix de la loi de variable rponse et la fonction de


lien
Le choix de la loi de probabilit de la fonction de variable rponse dpend
souvent de la nature du problme tudi. Les logiciels proposent plusieurs
fonctions de loi et fonctions de lien. Nous choisissons la fonction de lien
associe la loi de la variable tudie comme dans le tableau 19. Il est
toujours possible dutiliser dautres fonctions de lien. Dans ltude, nous
pouvons essayer diffrentes lois et fonctions de lien, puis retenir celle qui
minimise la dviance qui sera explique dans la section 2.7.3.1 suivante.
En pratique, la loi Poisson ou la loi binomiale ngative sera souvent
propose pour la frquence, et la loi Gamma et la loi Log-Normale sont
proposes pour le cot moyen. Une fonction de lien "log" est souvent utilise
afin de traiter les valeurs positives.

2.7 Modlisation de la frquence


2.7.1 La loi de la frquence
La loi choisie pour la frquence doit tre cohrente avec les observations.
Cest donc important de visualiser les observations graphiquement. Pour
cela, nous passerons le nombre des effectifs par frquence. Les observations
sont prsentes dans le graphique 10 : Cet chantillon donne lesprance et
la variance suivantes :
E[Y]=10,34
Var[Y]=232

2.7.1.1 Loi Poisson


Dans un premier temps, pour la frquence, nous choisissons la loi Poisson
pour la rponse, cette dernire tant un comptage de sinistres, et la fonction
log pour la fonction lien qui ne prend que des valeurs positives.

62
Figure 10 Les observations de la frquence

Nous commenons les travaux par la loi de Poisson. Nous traitons lad-
quation de la loi empirique la loi thorique pour vrifier la qualit du
modle. Les paramtres de la loi thorique sont estims par maximum de
vraisemblance.
Si X suit une loi Poisson de paramtre , il vrifie alors la fonction de
masse sous la forme :
k
p(k) = P (X = k) = e (22)
k!
O,
k est le nombre doccurrences.
exprime le nombre moyen doccurrences, cest un nombre rel stric-
tement positif.
Lesprance et la variance dune loi Poisson ont pour unique valeur . Les-
timateur du maximum de vraisemblance se calcule comme :
Pn
xi
= i=1 (23)
n
tant la moyenne empirique.
et
est la moyenne de chantillons,
Dans le cas de loi Poisson, lestimateur
nous pouvons calculer directement cette moyenne, ou utiliser la fonction
"fitdistr" sous R qui donne les valeurs des paramtres sous la mthode du
maximum de vraisemblance. Nous obtenons donc :
= 10, 34
(24)

Nous comparons dabord la fonction de densit observe et la fonction


simule avec cette estimation du paramtre. Il y a trs peu deffectifs avec
une frquence suprieure 50, nous prenons pour intervalle de frquence
les valeurs de 1 50 comme exemple dans la suite du mmoire pour bien

63
zoomer sur la partie importante. Dans le graphique 11, la fonction observe
est reprsente par la courbe bleu, lautre en rouge. Les deux courbes ne sont
pas cohrentes, la loi de Poisson ne correspond pas notre situation.

Figure 11 La fonction de densit observe et simule par la loi Poisson

Autre ct, nous ralisons galement lajustement des frquences par la


loi de Poisson, reprsent dans le graphique 12.

Figure 12 Ajustement des frquences par la loi de Poisson

Les points rouges reprsentent la loi thorique via les estimateurs du


maximum de vraisemblance. Et les histogrammes expriment les frquences
observes qui sont colles par le sommet la loi thorique. Lcart entre
labscisse et le bas du histogramme montre la qualit dajustement des ob-
servations par la loi thorique. Un cart lev signifie un mauvais ajustement.
Concernant notre situation, la plupart des carts ont un niveau important.
En effet cet ajustement par la loi de Poisson nest pas satisfaisant. Nous nous
intressons donc la loi de Binomiale Ngative.

64
2.7.1.2 Loi Binomiale Ngative
La loi Binomiale ngative dpend de deux paramtres. Une paramtrisa-
tion trs rpandue introduit un entier naturel n non nul et un rel p compris
entre 0 et 1. Il est courant dintroduire la probabilit complmentaire q=1-p.
La loi de probabilit dune variable alatoire distribue selon une binomiale
ngative de paramtres n et p, note NegBin(n, p), prend la forme suivante :
pour k = 0, 1, 2, ...
 
k+n1
P (X = k) = f (k; n, p) = pn q k (25)
k

La loi binomiale ngative est la loi de probabilit de la variable alatoire X


qui comptabilise le nombre dchecs ncessaires avant obtention de n succs.
Dans le cas de lassurance, le succs est davoir le cot de sinistralit nul.
En vrai nous natteindrons quune fois ce succs, n est donc gale 1. En pre-
nant aussi la mthode du maximum de vraisemblance, nous pouvons calculer
lestimateur pour p :
n

p = (26)
n
+k
De la mme manire, les estimateurs calculs par R sont :

n
= 1,
= 10, 34 (27)

est lestimation de lesprance. Le logiciel R demande soit la moyenne soit


la probabilit pour simuler la loi de Binomiale Ngative. Les deux estimations
nous permettent de tracer la loi de Binomiale Ngative, nous la comparons
avec les observations.

Figure 13 La fonction de densit observe et simule par la loi Binomiale


Ngative

Nous observons que la loi Binomiale Ngative correspond dj mieux


aux observations que la loi de Poisson. La probabilit davoir une ou deux
frquences est plus forte que la thorie, les deux courbes ont quand mme
une tendance similaire. Puis nous tudions lajustement des observations.

65
Figure 14 Ajustement des frquences par la loi de Binomiale Ngative

Notre rsultat est aussi vrifi dans le graphique 14, il y a moins dcart
entre la distribution empirique et thorique par rapport la loi de Pois-
son. Entre les deux comparaisons, nous choisissons la loi Binomiale Ngative
comme loi de la variable de rponse. Celle-ci vrifie la caractristique de la loi
Binomiale Ngative : lesprance de lchantillon est infrieure la variance
de lchantillon.

2.7.2 Amlioration du modle


Les variables tarifaires et le modle sont dtermins, nous allons utiliser
le logiciel R pour lappliquer. Comme nous avons dit dans la section 2.5.2.4,
dans le cas o il est impossible davoir la solution explicite, les logiciels
calculent les estimations en utilisant un algorithme itratif pour la rsolution
dquations non linaires.
La mthode "Fisher Scoring" est un algorithme populaire pour atteindre cet
objectif qui est appliqu dans le logiciel R. Dans notre rsultat, le nombre
ditrations de la mthode "Fisher Scoring" est 1.
Une fois le modle construit, nous souhaitons dabord tester si les va-
riables ont un effet significatif. Nous appelons les tests dhypothses concer-
nant les coefficients du modle. Supposons lhypothse linaire gnrale :
0
H0 : L = 0
O L est un vecteur dont la taille est le nombre de modalits de la variable
que nous voulons tester moins un, et est le vecteur des coefficients du
modle. Cette hypothse nulle indique que le vecteur des coefficients dune
variable est gale 0. Autrement dit que cette variable na pas dinfluence
pour la variable rponse. Cette hypothse peut tre teste laide dun test

66
de Wald ou dun test du rapport des vraisemblances.
Pour ce faire, nous utilisons la fonction anova dans le logiciel R. Lobjectif
de cette fonction est de savoir si une variable numrique a des valeurs signifi-
cativement diffrentes selon plusieurs catgories, donc selon les valeurs dun
facteur. Nous prsentons le test du rapport de vraisemblance dans la suite.

2.7.2.1 Test du rapport de vraisemblance


Pour dterminer les variables significatives pour la frquence, nous rali-
sons le test du rapport de vraisemblance. Nous rappelons en bref ce test [10].
Soit (X1 , . . . , Xn ) un chantillon de la loi P. Nous souhaitons tester :

H0 : P = P0 contre H1 : P = P1 .

Soit L0 (X1 , . . . , Xn ) la vraisemblance de lchantillon sous H0 et L1 (X1 , . . . , Xn )


sa vraisemblance sous H1 . Posons :

L1 (X1 , . . . , Xn )
T = (28)
L0 (X1 , . . . , Xn )

Le test du rapport de vraisemblance de seuil , est dfini par la rgle de


dcision :
Rejet de H0 T > Q0 (1 )
O Q0 est la fonction quantile de T sous lhypothse H0 . En pratique, nous
nous contenterons de calculer la p-value.
0
Nous retournons sur notre hypothse H0 : L = 0. Dans notre si-
tuation, ce test propose de travailler sur les valeurs de la log-vraisemblance.
nous supposons que b est lestimation du maximum de vraisemblance de
sous H0 , la vraisemblance est calcule par la formule :

L(b , y) = maxH0 L(, y) (29)

La statistique scrit donc :

L(b , y)
S = 2log
L(b, y)
= 2[log(L(b, y)) log(L(b , y))] (30)

Cette statistique suit approximativement une loi du Khi-Deux r degrs de


libert, o b est lestimation du maximum de vraisemblance de et r est le
rang de L.
Nous slectionnons les hypothses suivantes :
H0 : La variable teste na pas dinfluence dans le modle. Les coeffi-
cients j pour toutes les modalits de cette variable sont nulles.
H1 : La variable teste a une influence dans le modle.

67
La statistique sest exprime par la forme ci-dessous :

La vraisemblance du mod`
ele sans la variable test
ee
S = 2log (31)
La vraisemblance du mod`
ele avec la variable test
ee
Sous H0 , S suit approximativement une loi du Khi-Deux r degrs de li-
bert. r est le nombre des modalits de la variable teste moins un, il est
calcul sous logiciel comme la diffrence entre la dimension des modalits
du modle avec la variable teste et celle du modle dans la variable teste.
Nous ralisons ces tests sous R et obtenons les rsultats :

Table 21 Les rsultats des tests du rapport de vraisemblance

Variable Df Pr(>Chi)
Sexe 1 <0,0001
Age 5 <0,0001
Qualit ayant droit 2 <0,0001
Situation familiale 3 <0,0001
Option 11 <0,0001
Gographique 3 <0,0001

Les rsultats sont plutt satisfaisants, car les p-values sont toutes trs
faibles. Nous pouvons conclure que les 6 variables influent toutes sur le mo-
dle que nous avons construit. Ltape suivante est dtudier linfluence de
chaque modalit pour le modle.

2.7.2.2 Dtermination des modalits


Dans le tableau 22, nous prsentons les valeurs des estimateurs par
variable et la probabilit que le coefficient associ ne se trouve pas dans
lintervalle de confiance. Plus la probabilit est petite, plus la variable sera
significative.
Pour vrifier la cohrence des diffrents coefficients, nous regarderons le
sens des estimateurs. Par exemple pour le Sexe, nous avons choisis femme
comme rfrence, Sexe 1 exprime donc les hommes. La valeur du paramtre
associ est -0,21, ce qui indique que la variable homme amliore de 19% 6 le
niveau de sinistralit de la frquence par rapport femme. Ce point est bien
vrifi dans le graphique 9. Nous prenons comme autre exemple la variable
Age, les estimations pour Age 1 Age 4 reprsentent des assurs de lge
0 60 ans qui ont des valeurs ngatives. La rfrence choisie est lge 61
80 ans, des estimations ngatives sont expliques par lamlioration de la
sinistralit. Au contraire, Age 5 reprsente des effectifs ayant au moins 81

6. 19%=1-exp(-0,21), car la fonction de lien est log.

68
Table 22 Les rsultats pour la frquence

Variable associ Estimation (i ) Pr(>|Z|)


Intercept 3,13 <0,0001
Sexe 1 -0,21 <0,0001
Age 1 -0,17 <0,0001
Age 2 -0,40 <0,0001
Age 3 -0,24 <0,0001
Age 4 -0,16 <0,0001
Age 5 0,28 <0,0001
Qualit ayant droit 1 -0,04 0,0307
Qualit ayant droit 2 -0,23 <0,0001
Situation familiale 1 -0,09 <0,0001
Situation familiale 2 -0,03 0,2023
Situation familiale 3 -0,05 0,0134
Option 1 -1,67 <0,0001
Option 2 -1,31 <0,0001
Option 3 -1,05 <0,0001
Option 4 -1,90 <0,0001
Option 5 -1,88 <0,0001
Option 6 -1,81 <0,0001
Option 7 -1,91 <0,0001
Option 8 -1,81 <0,0001
Option 9 -1,69 <0,0001
Option 10 0,08 <0,0001
Option 11 0,21 <0,0001
Gographique 1 0,0013 0,9757
Gographique 2 -0,43 <0,0001
Gographique 3 -0,03 0,0223

ans, une estimation positive dmontre que les personnes plus ges consultent
plus souvent les mdecins. Cette explication est vrifiable en ralit.
Dans les rsultats, nous pouvons aussi observer quil y a 5 p-values plus
leves que les autres. Par exemple 0,0307 pour le premier niveau de la qua-
lit ayant droit, il y a 96,93% de probabilit que le statistique empirique se
trouve dans lintervalle de confiance. La qualit de cette variable est moins
satisfaisant. Les autres ont leur p-value infrieure 0,001 et sont donc signifi-
catives. Notre objectif est davoir toutes les variables tarifaires significatives.
Notre modle est construit par le choix de la rfrence. Les autres niveaux
sont soit moins bons, soit meilleurs que la rfrence. Une modalit moins si-
gnificative indique que la diffrence des importances au sens de la frquence
entre cette modalit et la rfrence est faible. Nous agrgeons les variables

69
moins significatives, pas pas, la rfrence pour adopter ce modle.
Nous commenons par le premier niveau de la qualit ayant droit, qui
reprsente les conjoints. En vrai, leffet dtre responsable ou conjoint a le
mme niveau dimportance pour la demande de remboursement. Comme
nous lavons tudi tout au dbut sur la partie des donnes adultes, cette
variable na pas de sens dans ltude. Du cot, nous agrgeons la modalit
conjoint la rfrence qui est le responsable. Cette modalit peut tre sup-
prim dans la srie des variables tarifaires qui a actuellement 24 variables
pour la modlisation. Nous notons les nouveaux rsultats pour les quatre
modalits moins significatives restes dans le tableau 23 :

Table 23 Nouveaux rsultats des modalits moins significatives

Variable associ Estimation (i ) Pr(>|Z|)


Situation familiale 2 -0,05 0,00519
Situation familiale 3 -0,06 0,00611
Gographique 1 0,0007 0,98598
Gographique 3 -0,03 0,02129

Aprs llimination de la modalit conjoint dans la variable qualit ayant


droit, les importances des niveaux 2 et 3 de la situation familiale taient
amliores. Parmi les quatre, Gographique 1 a une p-value trs leve, elle
doit donc tre limine. Elle reprsente la classe A dans la section 2.4.1.2
qui est la partie du nord de la France hors Ile de France. En effet cette
modalit est reprsente par 2% de leffectif total. Gographique 3 exprime
par la classe C (Sud-Ouest de la France) possde autant des effectifs que
la rfrence tant la classe D (Sud-Est de la France), il ny a pas trop de
diffrence du niveau de la vie entre les deux endroits. Nous dcidons de
lagrger la rfrence aussi. A la fin, 22 variables tarifaires sont retenues
pour la suite. Les nouveaux rsultats se trouvent dans le tableau 32 dannexe.

2.7.2.3 Lien entre les variables


Avec les variables et les modalits choisies, nous nous intressons tudier
les corrlations entre les variables. Nous ne pouvons pas calculer directement
les corrlations entre les variables qualitatives, car la corrlation mesure la
linarit de la liaison entre deux variables. Gnralement, deux variables
sont positivement corrles quand elles ont tendance tre simultanment
au-dessus ou simultanment au-dessous de leur moyenne respective. Pour
une variable qualitative, "au-dessus" et "en-dessous" nont pas de sens.
Pour mesurer lassociation entre les variables qualitatives, nous proposons
une approche qui calcule la corrlation entre les modalits du modle. Car
aprs le paramtrage des variables, chaque modalit devient une variable

70
pour le modle. Nous sortons la matrice de corrlations via une fonction du
logiciel R. Si la valeur de la corrlation entre deux variables est 1, nous disons
quelles sont parfaitement corrles. A linverse, si la valeur vaut 0, les deux
variables sont totalement indpendantes. Dans notre matrice de corrlations,
plupart de valeurs de corrlations sont infrieure 0,5, donc une corrlation
faible. Mais entre certaines modalits, il y a une corrlation plus forte avec
une valeur plus leve que 0,5. Par exemple la corrlation entre la premire
classe dge (Age 1 : 0 16 ans) et la deuxime classe dge (Age 2 : 17
30 ans) est 0,57. Les deux modalits sont plus corrles que la moyenne. Les
ges sont continus pour les deux classes, il est logique que les comportements
de la tendance pour les deux classes soient similaires. Une autre corrlation
leve est celle entre deux modalits de la variable situation familiale : Famille
(Situation familiale 1) et Mono-parentelle (Situation familiale 3), la valeur
est 0,6. Le point commun entre ces deux classes est quelles ont toutes au
moins un enfant. Elles sont donc logique dtre un peu plus corrles. Nous
avons remarqu que les modalits ayant une corrlation plus leve sont un
peu moins significatives dans le tableau des rsultats (tableau 32) reprsent
dans la partie dannexe. Par exemple Age 2 est trs significative pour le
modle, Age 1 est corrle avec Age 2, elle est moins significative que Age 2.
Cest pareil pour les modalits Situation familiale 1 et 3 : la premire est plus
significative que la deuxime. Donc la corrlation et leffet que la modalit
est significative ou pas jouent presque le mme rle dans le modle.

2.7.3 Adquation du modle


A ce stade, nous nous intressons ladquation du modle pour enfin
valider notre modle retenu. Pour ce faire, deux statistiques sont utiles pour
juger de ladquation du modle aux donnes :
La dviance normalise
La statistique du Khi-Deux de Pearson
Dans la suite de notre tude, nous expliquons le principe de la dviance.

2.7.3.1 Dviance
Pour dterminer la dviance normalise, nous avons besoin dintroduire
un modle satur. Un modle satur est un modle bas sur la mme loi de
probabilit et la mme fonction de lien, mais contenant autant de variables
explicatives indpendantes que de donnes. Ce modle permet de recons-
truire parfaitement les donnes. Autrement dit, la moyenne de la variable
expliquer est dfinie par lobservation elle mme :

E[Yi ] = yi (32)

Rappelons que le modle linaire gnralis est construit par la loi de la


rponse Y et la fonction de lien g reliant lesprance de Y sous la forme

71
dquation 19. Nous notons que b lestimation du maximum de vraisemblance
de et bmax lestimation du vecteur des paramtres pour le modle satur.
Nous appelons la statistique D dviance normalise utilis pour mesurer
ladquation du modle tudi. Elle se calcule par la formule :

L(bmax ; y)
D = 2 log(
L(b; y)
= 2 (log(L(bmax ; y)) log(L(b; y))) (33)

En gnral, D est positif, et plus petite est sa valeur, meilleure est la


qualit du modle. Prcisment, si le modle tudi est exact, la dviance
normalise D suit approximativement une loi du Khi-Deux n-k degrs de
libert. Cette dviance peut scrire aussi D , o D sappelle la dviance et
est le paramtre de dispersion. La statistique du Khi-Deux de Pearson est
dfinie par :
X (yi i )2
2 = (34)
V (
i )
O V ( i ) est la fonction de variance. Le Khi-Deux de Pearson normalis
2
scrit comme . Dans le cas davoir une bonne qualit du modle, la statis-
tique de Pearson normalis sera asymptotiquement quivalente la dviance
normalis.
En pratique, nous avons deux types de dviances : dviance nulle et
dviance rsiduelle.
La dviance nulle se calcule selon le modle satur et le modle nul. Un
modle nul est dfini tel que la moyenne de la variable de rponse soit
constante et estime comme la moyenne empirique qui est la somme
de frquences divise par la somme des effectifs.
La dviance rsiduelle se calcule selon le modle satur et le modle
dont lesprance est estime par le maximum de vraisemblance.
Sous R nous obtenons les valeurs des dviances notes dans le tableau 24 :

Table 24 Les dviances pour la frquence

Type de dviance Valeur de dviance Degrs de libert


Dviance nulle 45786 21356
Dviance rsiduelle 20487 21334

La sur-dispersion
Aprs avoir obtenu la dviance, il est important dintroduire la notion de
sur-dispersion [14]. La sur-dispersion est un phnomne qui concerne la mo-
dlisation de donnes selon une loi Binomiale ou selon une loi de Poisson. Il
y a sur-dispersion lorsque la dviance normalise ou le Khi-Deux de Pearson

72
normalise sont nettement suprieurs 1.
Pour rsoudre ce problme, nous pouvons modifier la fonction de variance
V () de ces lois en la multipliant par un paramtre de sur-dispersion :
loi Binomiale : V () = (1 )
loi de Poisson : V () =
En pratique, la dviance normalise est nettement suprieure 1, cela
sexprime par le rapport de la dviance rsiduelle sur le nombre de degrs
de libert rsiduels qui est suprieur 1. Retournons dans notre calcul, ce
rapport vaut 20487/21334=0,96. Nous pouvons bien garder ce modle, il ny
a pas de sur-dispersion.
Comme parl dans la section 2.6.2, nous pouvons toujours essayer lautre
loi de la rponse pour choisir celle qui minimise la dviance. Ce point est
prouv par la comparaison des dviances entre la loi Poisson et la loi Bino-
miale Ngative. Nous ne notons que la dviance rsiduelle dans le tableau 25 :

Table 25 Les dviances pour loi Poisson et loi Binomiale Ngative

Loi Dviance rsiduelle Degrs de libert


Poisson 149474 21331
Binomiale Ngative 20487 21334

Nous observons bien que la dviance rsiduelle de la loi Binomiale N-


gative est largement infrieure celle de la loi Poisson. Cette remarque est
bien cohrente avec le rsultat de la section 2.7.1.

2.7.4 Rsidus
Les tests concernant les coefficients du modle et les statistiques de lad-
quation du modle indiquent globalement comment le modle sajuste aux
donnes. Ces statistiques sont compltes par une analyse prcise qui com-
pare les valeurs observes et les valeurs estimes, appele rsidus.
Les rsidus indiquent les distances entre les valeurs estimes et observes,
observation par observation. Il y a essentiellement deux types de rsidus : le
rsidu de Pearson et le rsidu de dviance.
Le rsidu de Pearson est un rsidu standardis dfini par lquation ci-
dessous :
yi
i
rPi = p (35)
V (
i )

O V(.) est la fonction de variance.


Le rsidu de dviance scrit sous la formule :
p
rDi = di signe(yi
i ) (36)

73
O di reprsente la contribution de lobservation i la dviance D. La d-
viance peut tre considre comme la somme des contributions par obser-
vation. Supposons quil y a n observations, la dviance peut scrire aussi :
n
X
D= di (37)
i

Nous calculons les rsidus de la dviance pour notre base de donnes, ils
sont reprsents dans le graphique 15 :

Figure 15 Les rsidus de la dviance pour la frquence

Plus les rsidus sont proche de 0, plus le modle est satisfaisant. Dans
notre graphique, les rsidus sont distribus plutt uniformment autour de
laxe des abscisses. Mais nous pouvons observer quil y a certains rsidus
positifs ayant des valeurs entre 2 et 6, et un rsidu maximum de 8. Cette
remarque montre quil existe une sous estimation pour une petite part des
individus. Au final, il ny a pas des points qui sont trs loigns de labscisse.
Le modle est donc acceptable.

2.8 Modlisation du cot moyen


Dans cette section, avec le mme processus, nous prsentons synthtique-
ment la modlisation du cot moyen. Concernant la loi du cot moyen, nous
allons comparer les deux lois : loi Gamma et loi log Normale.

2.8.1 La loi du cot moyen


Nous rappelons simplement dans un premier temps les notions des deux
lois.

74
Loi Gamma
La loi Gamma de paramtres et , sa densit est dfinie par la formule :

1
f (y) = y exp(y), poury 0 (38)
()

Cette loi vrifie que :



E[Y ] = (39)


V ar[Y ] = 2 (40)

Le lien canonique de la loi Gamma est la fonction inverse, mais il est plus
frquent dutiliser un lien log.

Loi log Normale


En statistique, une variable alatoire X est dite suivre une loi log Normale de
paramtres et , si la variable Y=ln(X) suit une loi normale desprance
et de variance 2 .
La densit de la loi log Normale scrit sous la forme :

1 (lnx )2
f (x; , ) = exp( ) (41)
x 2 2 2

Avec x strictement positif.


Lesprance et la variance sont calcules via les formules ci-dessous :
2 /2
E[X] = e+ (42)
2 2+ 2
V ar[X] = (e 1)e (43)

Dans le cas de la frquence de la section 2.7.1, nous avons tudi la fonction


de masse entre les observations et les simulations. Nous pouvons galement
regarder la fonction de rpartition, nous lappliquerons pour le cot moyen.
La distribution des observations et des simulations du cot moyen est pr-
sente dans le graphique 16 : Dans ce graphique, la courbe bleu reprsente
les observations, la courbe rouge est construite par les simulations de la loi
Gamma et la courbe verte est donc lajustement de la loi log Normale. Selon
le point de vu graphique, il semble que la loi log Normale adapte mieux les
observations. Mais la diffrence entre les deux lois nest pas trs vidente.
Nous aimerons faire plus de tests pour comparer les deux hypothses.

75
Figure 16 Les fonctions de rpartition pour le cot moyen

2.8.2 Dviance et rsidus

Dans la section 2.4.2, concernant le test du Khi-Deux dindpendance,


nous dcidons de choisir cinq variables tarifaires pour la modlisation du
cot moyen : Sexe, Age, Qualit ayant droit, Situation familiale et Code
option. Elles sont appliques pour les deux lois et nous notons les rsultats
de dviance dans le tableau suivant :

Table 26 Les dviances pour le cot moyen

Loi Type de dviance Valeur de dviance Degrs de libert


Dviance nulle 37861 21274
Gamma
Dviance rsiduelle 19065 21253
Dviance nulle 29583 21274
Log Normale
Dviance rsiduelle 20513 21253

Pour la dviance nulle, la valeur de loi Gamma est plus leve que celle de
la loi log Normale, et cest linverse pour la dviance rsiduelle. Mais lcart
de la dviance entre les deux lois est plus faible pour la dviance rsiduelle
par rapport la dviance nulle.
Ensuite nous compltons cette comparaison par les rsidus. Deux types
de rsidus : Dviance et Pearson, sont reprsents respectivement dans les
graphiques 17 et 18 :
Les rsidus de la loi log Normale sont autour de labscisse uniformment
et symtrique par rapport laxe des abscisses. Les valeurs des rsidus de
Pearson de loi Gamma sont plus leves que pour la loi log Normale, et en
plus ces rsidus sont pour la plupart positifs qui exprime une sous estimation
pour le cot moyen. Nous choisissons donc la loi log Normale pour le cot
moyen.

76
Figure 17 Les rsidus de la dviance du cot moyen

2.8.3 Modle retenu


Aprs application des tests concernant les coefficients, la variable qualit
ayant droit et la variable situation familiale ne sont pas significatives pour
le modle du cot moyen, nous lexclurons dans le modle. Ensuite il existe
aussi certaines modalits qui ninfluent pas sur le cot moyen non plus. Nous
les agrgeons la rfrence comme dans le cas de la frquence. Les modalits
retenues et leur estimations sont notes dans le tableau 27 :

Troisime partie
Rsultats et applications
3.1 Rsultat
Les modlisations de la frquence et du cot moyen sont dtermines,
ltape suivante est dappliquer la mthode frquence * cot moyen pour
obtenir la prime pure. Nous expliquons par exemple le calcul pour la prime

77
Figure 18 Les rsidus de Pearson du cot moyen

Table 27 Les coefficients du modle pour le cot moyen

Variable associ Estimation (i ) Pr(>|Z|)


Intercept 2,62 <0,0001
Sexe 1 0,04 0,00167
Age 1 -0,22 <0,0001
Age 2 -0,20 <0,0001
Option 1 1,53 <0,0001
Option 2 1,51 <0,0001
Option 3 1,52 <0,0001
Option 4 1,06 <0,0001
Option 5 1,39 <0,0001
Option 6 1,57 <0,0001
Option 7 0,82 <0,0001
Option 8 1,15 <0,0001
Option 9 1,42 <0,0001
Option 10 0,11 <0,0001
Option 11 0,17 <0,0001

78
pure loption Hospitalisation niveau 2, ses coefficients sont -1,88 pour la
frquence et 1,39 pour le cot moyen. Les autres coefficients de la frquence
et du cot moyen seront prsents dans le tableau 28 ci-dessous :

Table 28 Les coefficients des modles

Frquence Cot moyen


Variable
Segmentation Coefficient Segmentation Coefficient
Intercept 3,12 Intercept 2,62
Homme -0,20 Homme 0,04
Sexe
Femme 0 Femme 0
0 16 ans -0,17 0 16 ans -0,22
17 30 ans -0,40 17 30 ans -0,20
31 45 ans -0,24 31 45 ans -0,14
Age
46 60 ans -0,16
61 80 ans 0 46 et plus 0
81 et plus 0,28
Adulte 0
Qualit
Enfant -0,22
famille -0,11
Groupe -0,05
Situation famille
Mono-parentelle -0,06
Seule 0
Ile de France -0,42
Gographique
Hors Ile de France 0

Pour rappeler la mthodologie, les coefficients 0 reprsentent la rfrence


de chaque variable. Les trois dernires variables taient exclues dans le mo-
dle du cot moyen, nous ne les prenons pas compte pour le calcul de lesti-
mation du cot moyen. Prenons un exemple : un homme de 78 ans, habitant
dans le dpartement des Alpes-Maritimes avec sa conjointe. Rappelons le
prdicteur linaire sous la forme :

g(i ) = 0 + 1 x1 + + p xp (44)

La frquence de cet assur est :

g(i ) = 3, 12 0, 2 + 0 + 0 0, 05 + 0 1, 88 = 0, 99
i = exp(0, 99) = 2, 69

Le cot moyen de cet assur se calcule :

g(i ) = 2, 62 + 0, 04 + 0 + 1, 39 = 4, 05
i = exp(4, 05) = 57, 40

79
Pour le calcul de la frquence, nous enlevons 1,88 points qui correspond
au coefficient de loption Hospitalisation du niveau 2, par rapport la r-
frence qui est le soin courant du niveau 1. Pareil pour le cot moyen, un
coefficient de 1,39 est ajout. En comparant avec soin courant, le risque de
rester lhpital est plus faible. Mais ds que lassur a besoin de deman-
der remboursement sur lhospitalisation, le cot devient plus lev. La prime
pure pour cet assur est donc obtenue :

P P = 2, 69 57, 40 = 154, 47

Selon notre modle, la prime pure annuelle de lhospitalisation niveau 2


est 154,47 euros, soit 12,87 euros par mois. Dans notre base de donne, la
cotisation de cet assur pour ce niveau de loption est 10,42 euros. Pour cet
exemple dadulte, notre estimation nest pas trs loin de la vraie cotisation.
Notre estimation ne correspond pas la prime commerciale, mais elle sera
plus leve que la cotisation actuelle. tudions un autre exemple, avec un
enfant. Nous prenons un garon de 11 ans, qui vit tout seul avec un de ses
parents au sud de la France. Avec le mme procd, nous calculons une prime
pure de 11,28 euros par mois pour le premier niveau de soin courant. Cepen-
dant la cotisation mensuelle de cet enfant est de 6,5 euros. Nous remarquons
que en moyenne les carts entre la prime pure et la cotisation pour les en-
fants sont plus levs. Cette remarque peut tre explique par la politique
commerciale. La mutuelle propose des fois des promotions comme la gratuit
pour le deuxime enfant, etc.

3.2 Autres pistes de modlisation


Pendant tout le processus de la modlisation, nous avons loccasion de
rflchir plusieurs chemins pour modliser les donnes. Les deux sens prin-
cipaux sont la modlisations des frais rels et la modlisation du montant de
remboursement de la mutuelle.

3.2.1 Modlisation des frais rels


Dans un premier temps, nous avons pens modliser les frais rels. La
prime pure sera obtenue par la rduite de la partie du remboursement de la
Scurit Sociale. Avec cette mthode, il sera pratique de modifier la prime
pure si la mutuelle propose dautres gammes de produit en changeant le
pourcentage de remboursement sur le frais rel ou la base de remboursement.
Par exemple, un contrat propose 100% de remboursement sur les frais rels,
une fois connue les frais rels moyens estims, la charge moyenne du sinistre,
note CMS, se calcule :

CM S = M ax(0; F rais r es Remboursement SS


eels moyens estim
P articipation f orf aitaire)

80
Ensuite, la charge annuelle note CA, sera obtenu :
CA = CM S F r
equence estim
ee
Si la mutuelle dcide de baisser le pourcentage 80% par exemple, le
charge moyen de sinistre devient donc :
CM S = M ax(0; 80% F rais r
eels moyens estim
es
Remboursement SS P articipation f orf aitaire)
Dans ce cas, la modlisation du montant de remboursement de la mu-
tuelle, a sera compliqu de modifier directement le tarif. Mais nous avons
rencontr une difficult en cas de frais rels tant la dtermination du rem-
boursement Scurit Sociale. Premirement, nous tions oblig de modliser
par acte mdical afin de prendre en compte toutes les diffrentes bases de
remboursements dfinies par la Scurit Sociale. En pratique, il existe beau-
coup des actes mdicaux au sens de la Scurit Sociale. Prenons notre base
de donnes, il y a dj environ deux centaines des actes. Il est compliqu de
modliser deux cents fois en pratique. En plus, la ralisation de la modli-
sation acte par acte apporte une demande sur le nombre des effectifs afin
de mieux modliser. Un problme dinsuffisance des effectifs pour certains
actes taient rendu compte pendant le travaux. Deuximement, le montant
de base de remboursement par acte nest pas vident dans notre tude. Par
exemple dans le cas de loptique, chaque verre a un remboursement diffrent
de la Scurit Sociale en fonction de la correction visuelle. Le remboursement
SS devient donc une variable qui a besoin dtre fix par une hypothse per-
tinente.

3.2.2 Modlisation du montant de remboursement de la mu-


tuelle par garantie
La deuxime possibilit tant la modlisation du montant de rembour-
sement de la mutuelle t applique dans notre tude. La base de donnes
possde 4 diffrents types de garanties et chaque garantie 3 niveaux comme
prsent dans le tableau 7. Nous avons choisis modliser les 4 garanties en-
semble en dfinissant la combinaison de 4 types de garanties et 3 niveaux
par garantie comme une variable tarifaire avec 12 modalits tant expliqu
prcdemment dans la section 2.2.1.1.
Nous pouvons galement essayer de excuter les modlisations par garan-
tie en prenant le niveau de garantie comme une variable tarifaire prsentant
le risque moral. La prime pure totale sera donc la somme des primes pures
par garantie, not ci-dessous :
P rime pure totale = P PHospitalisation + P PSoinscourants/Appareillage
+P PDentaire/Optique/Auditif + P PBienEtre

81
3.3 Retraitement du risque danti-slection
Dans la deuxime partie, nous avons dtaill une mthode de modlisa-
tion de la tarification. Avec notre formule, la mutuelle peut proposer trois
niveaux de primes pour chaque garantie. Avec lexemple de Runica dans la
section 1.2.2, Runica a bien limit la combinaison des garanties pour limiter
le risque danti-slection. Mais dans notre base de donnes, la mutuelle avait
accept toutes les combinaisons possibles des composantes du tableau 7. Par
exemple H1-SC1-DOA3-BE1 est une combinaison ayant un fort risque danti-
slection. Il est certain quun assur souscrivant cette combinaison possde
un problme dentaire, optique ou auditif. Il veut donc bien se couvrir avec
cette option. Effectivement lassureur ne connait pas les informations m-
dicales "caches" de lassur. Il doit tre prt payer un montant lev de
remboursement ds que cette combinaison sera souscrite. Dailleurs, la prime
propose par cette combinaison est considre comme la somme des primes
pures de chaque option, donc P PH1 + P PSC1 + P PDOA3 + P PBE1 . Avec trois
faibles niveaux de couvertures, lassur payera une prime relativement basse,
tout en couvrant sa propre demande. Lassureur a donc un risque financier
avec ce client.
Nous nous intressons maintenant la rpartition des montants de rem-
boursement par combinaison. Nous avons quatre options et chaque option
possde 3 niveaux de garanties, il y a donc au total 34 = 81 possibilits. Il
existe des combinaisons qui nont pas beaucoup attir les clients, donc moins
dassurs produisent moins de demandes de remboursement. Nous avons fu-
sionn les combinaisons ayant des montants de remboursement reprsentant
moins de 5% de lensemble, la plupart des proportions tant de 1% ou 2%.
Le graphique 19 prsente la rpartition de montants de remboursement pour
les combinaisons importantes en 2013 :

Figure 19 La rpartition de montants de remboursement par combinaison

Nous observons quil y a cinq combinaisons ayant des consommations

82
plus importantes. La plupart des assurs ont choisi la couverture la moins
cher 1111, cette combinaison consomme plus de 24% de la prestation. 45%
(=24%+9%+12%) de la prestation est consomm par la population consi-
drant avoir des risques identiques, ou alors les assurs ne connaissent pas
bien leur propres risques potentiels. Ils ont alors souscrit sur les combinai-
son : 1111, 2222 ou 3333. Les deux autres combinaisons importantes (1121 et
1131) montrent que les assurs ayant un risque spcial lev ont bien profit
de ce libre choix de combinaison. En plus, la couverture de la troisime op-
tion Optique / Dentaire / Auditif est un critre particulier pour une partie
des assurs. Il est frquent quun assur porte des lunettes ou a un problme
de dents, et les cots sont levs en France. Du cot la prime contenant une
forte couverture pour cette option a besoin dun retraitement spcial pour
tre mieux tarif. Ces statistiques du montant de remboursement sont co-
hrentes avec celles de la rpartition des effectifs tant reprsentes dans le
graphique 20 :

Figure 20 La rpartition des effectifs par combinaison

Pour les autres combinaisons qui dcomposent une garantie forte et trois
garanties faibles, nots CREAS (Combinaison de risque lev danti-slection),
ses 4 diffrentes formes sont :
H1-SC1-DOA1-BE3
H1-SC1-DOA3-BE1
H1-SC3-DOA1-BE1
H3-SC1-DOA1-BE1
La proportion de la population CREAS par rapport au nombre total
dassurs est de 7,01%. Cette classe dassur reprsente 6,62% du montant
total des remboursements. Cependant, cette population reprsente en tho-
rie 4,94% (i.e. 4/81) de la population totale, ce qui est plus faible que les
proportions pratiques. Cette cart peut produire un risque danti-slection.

83
3.3.1 Choix de combinaisons
Pour minimiser ce risque en mutualisant la prime pure pour chaque op-
tion, nous proposons deux sens de retraitement. Dans un premier temps,
nous proposons de limiter les choix de combinaisons comme dans le cas de
Runica. Pour ce faire, il est ncessaire de connaitre la proportion du montant
de remboursement et du cot moyen par niveau doption, nous les notons
dans le tableau 29 :

Table 29 La proportion du montant de remboursement et du cot moyen

Option % du montant de remboursement % du cot moyen


H1 6% 10%
H2 5% 8%
H3 2% 4%
SC1 28% 8%
SC2 14% 4%
SC3 6% 1%
DOA1 3% 7%
DOA2 5% 12%
DOA3 12% 23%
BE1 8% 13%
BE2 6% 6%
BE3 5% 4%

Au sens du montant de remboursement, SC1, SC2 et DOA3 jouent un


rle important. Nous comprenons que le soin courant est lacte plus courant
pour tous les assurs, mais que le cot moyen est relativement bas. Nous
tudierons donc loption DOA3, qui a cot en moyenne beaucoup plus cher.
Nous prenons DOA3 comme rfrence. Lide est de limiter le nombre des
combinaisons qui ont loption DOA3. Si un assur veut choisir DOA3, la
combinaison par exemple H1-SC1-DOA3-BE1 ne sera pas accepte. Pour
dfinir un seuil afin de choisir les combinaisons acceptables, nous calculons
la somme des niveaux de garantie et lcart entre le niveau le plus fort et
le niveau le plus faible. Prenons le mme exemple H1-SC1-DOA3-BE1, la
somme (S) et lcart (E) sont :

S = 1+1+3+1=6
E = 31=2 (45)

Nous avons test toutes les combinaisons ayant DOA3 ci-dessous, puis
somm et calcul lcart pour chaque combinaison. La moyenne de la somme
est 9, et lcart est 0, 1 ou 2. Idalement, lassureur souhaite recevoir une

84
combinaison avec une somme plus leve et un cart plus faible. Nous pro-
posons dliminer les combinaisons ayant une somme infrieure la moyenne
9. Lcart entre les niveaux fort et faible de ces combinaisons est au maxi-
mum 2, ce qui est dfavorable. Il existe encore un cart de 2 pour certaines
combinaisons, mais nous remarquons quelles ont au moins deux garanties
de niveau 3. Dans un premier temps, nous proposons de garder cette possibi-
lit, car cette dcision dpend aussi la stratgie commerciale de la mutuelle.
Nous avons retrait les combinaisons ayant loption DOA3 dans notre base de
donnes car elle a un montant important de remboursement. Nous pouvons
galement appliquer le mme ajustement sur les autres garanties de niveau
3, selon le souhait de la mutuelle.

Figure 21 Les combinaisons ayant DOA3

En comparant avec le choix de Runica, un fait important nous intresse :


Runica a propos deux catgories avec 6 niveaux de garantie, alors que dans
notre cas, il ny a que 3 niveaux de garantie. Comme nous avons moins de
niveaux, il est possible que la limitation des choix de combinaison apporte un
effet ngatif pour les clients. Puisque les clients peuvent se sentir insatisfait
cause du moindre choix. Il y a donc un risque quils rsilient les contrats ou
ne soient pas attirs par le devis du contrat. Il sera intressant de faire une
enqute commerciale pour tudier le comportement des assurs. Afin dviter
ce problme, la deuxime proposition est de retravailler la prime pure.

85
3.3.2 Ajustement de la prime pure
Dans la premire section, nous avons travaill sur la combinaison. Sup-
posons que la mutuelle prfre conserver toutes les possibilits, la prime pure
doit tre augmente afin de correspondre aux diffrents niveaux de garan-
ties. En reprenant la prestation de 2013, nous comparons dans le tableau 30
le cot moyen (en euros) entre des combinaisons classiques (2222 et 3333)
et des combinaisons qui apportent plus de risque anti-slection pour chaque
garantie.

Table 30 Comparaison du cot moyen par garantie

Combinaison Cot moyen (H) Combinaison Cot moyen (SC)


2111 115 1211 8
2222 113 2222 9
3111 228 1311 8
3333 163 3333 10

Combinaison Cot moyen (DOA) Combinaison Cot moyen (BE)


1121 56 1112 53
2222 65 2222 46
1131 117 1113 44
3333 79 3333 43

Premirement, un assur qui a souscrit la combinaison 3111 a consomm


en moyenne 40% de plus pour le remboursement de Hospitalisation quun
assur de combinaison 3333. Le premier assur a une nette tendance naturelle
lanti-slection. Cest pareil entre 1131 et 3333. Deuximement, pour la
consommation de soins courant et de bien tre, cette diffrence nest pas trs
vident. Si un assur voulait tre couvert par un niveau moyen juste pour
une garantie, par exemple Hospitalisation, la combinaison est donc 2111, le
cot de lhospitalisation nest pas beaucoup plus lev que celui de 2222. Des
fois ce cot peut tre plus faible, comme le cas de dentaire, optique, auditif
ou de soins courant. Donc en gnrale, le risque danti-slection est plus fort
quand lcart entre le niveau maximum et le niveau minimum de garantie
est plus lev (le maximum 2 dans notre cas).
Comme nous avons parl dans la premire section de la notion de somme
des niveaux de garantie et celle dcart entre niveau maximum et minimum,
nous proposons dajouter une nouvelle variable, appele anti-slection, dans
le modle GLM afin de modliser les coefficients de cette variable. Lassu-
reur souhaite que la somme soit la plus leve et lcart soit le plus faible.
Nous dfinissons donc la variable anti-slection par la diffrence entre cette
somme et le niveau minimum de la combinaison multipli par 4 (nombre de

86
garantie). Par exemple la combinaison 1131 a une valeur de 2 (=6-4*1) pour
la variable anti-slection. Nous indiquons cette variable dans la dernire co-
lonne du graphique 22 en reprenant lexemple dans la premire section, les
combinaisons ayant toute loption DOA3.

Figure 22 Les combinaisons ayant DOA3 avec les valeurs de la variable


anti-slection

Comme les combinaisons 3333, 2222 et 1111 ont une valeur nulle. Nous
pouvons constater quun assur souscrivant le contrat 1133 sera considr
avec un mme niveau de risque anti-slection que lassur du contrat 1232. Il
y a donc 7 modalits dans cette variable : 0, 1, 2, 3, 4, 5 et 6. La modalit 0
reprsentant les souscripteurs du contrat 3333, 2222 et 1111, reprsentant la
population la plus importante de la base de donnes. En consquence, nous
la considrons donc comme une rfrence pour cette variable.
Nous retournons sur le graphique 22, nous avons remarqu que la valeur
de la variable anti-slection est la mme pour les combinaisons 1131 et 2233.
Mais en ralit, la combinaison 1131 a un risque anti-slection plus lev
que la combinaison 2233. Un assur qui a souscrit la combinaison 2233 va
payer une prime relativement leve. De plus il ne possde pas de problme
mdical concentr sur une de ces 4 options. Cette dfinition de la variable
anti-slection possde effectivement un point insatisfaisant. Nous ne pouvons
pas bien identifier ce risque pour chaque combinaison possible.
Avant de choisir cette mthode permettant de dterminer la variable anti-
slection, nous avons galement rflchi dautres faons de dfinir cette
variable. Tout dabord, nous avons pens dfinir cette variable comme la dif-

87
frence entre le niveau de garantie le plus lev et le plus faible. Par exemple,
la combinaison 1131 aurait la valeur 2 (=3-1) pour cette variable. Nous re-
prenons les combinaisons qui ont loption DOA3, les valeurs de la variable
anti-slection sont dfinies dans le graphique 23.

Figure 23 Les valeurs de la variable anti-slection : Lcart entre le niveau


plus lev et le niveau plus faible

Nous pouvons remarquer quil ny a que 3 modalits avec cette manire :


0, 1 et 2. Pour les modalits 0 et 1, les rsultats sont plutt intressants, car
les combinaisons possibles pour chacune de ces deux modalits possdent le
mme niveau de risque. A linverse la modalit 2 possde beaucoup plus de
combinaison possibles. Par exemple la combinaison 1131 a la mme valeur
que la combinaison 3331, et il est vident que la combinaison 1131 indique un
risque anti-slection plus lev que la combinaison 3331. Cette diffrence du
risque est importante en pratique. La prime demande sera donc beaucoup
plus chre que pour la combinaison 3331 car nous avons 3 niveaux maximum
alors que la combinaison 1131 nen comporte que 1. Nous ne pouvons donc
pas accepter cette faon pour dfinir la variable anti-slection.
Ensuite, nous avons reprsent dans la section 3.3.1 la somme des niveaux
de garantie et lcart entre le niveau le plus fort et le niveau le plus faible.
Nous proposons de dfinir la variable anti-slection comme la diffrence entre
cette somme et cet cart. Par exemple pour la combinaison 1131, la somme
est de 6, lcart est de 2. La valeur de la variable anti-slection est donc de 4.
Nous nous sommes rendu compte rapidement dune incohrence importante.
Effectivement, pour la combinaison 1111, la valeur danti-slection est de 4

88
galement. En pratique, la combinaison 1111 peut tre considre comme une
combinaison qui ne peut pas avoir par dfinition de risque danti-slection,
alors que la combinaison 1131 possde un risque danti-slection le plus lev
parmi toutes les combinaisons. Suite ce point illogique, nous continuons
chercher la meilleure mthode.
Enfin nous avons dtermin que le risque anti-slection avec la mthode que
nous avons prsent prcdemment possde 7 modalits. Cette mthode est
pertinente. Comme indiqu prcdemment, pour certaines combinaisons, les
valeurs de la variable anti-slection sont cependant insatisfaisantes, et il sera
toujours intressant de chercher et dessayer encore les autres mthodes.
Nous appliquons nouveau le processus dfini dans la deuxime partie.
La variable anti-slection est significative pour la frquence et le cot moyen.
Nous reprenons lexemple de la section 3.1 pour estimer la prime pure de
loption Hospitalisation niveau 2 : un homme de 78 ans, qui habite dans le
dpartement Alpes-Maritimes avec sa conjointe. Dans notre premier calcul,
nous considrons que la prime pure de H2 est identique pour toutes les
combinaisons possibles sans prendre en compte la variable anti-slection.
Maintenant nous ajoutons une autre information importante : cet assur
souscrit sur le contrat de la combinaison 2211. Nous aimerons donc estimer la
prime pure de H2 dans le cadre de la combinaison 2211. Nous obtenons donc
la frquence 2,79 et le cot moyen 42,47. La prime pure de H2 sera alors
118,53 euros soit 9,88 euros par mois en tenant compte du risque danti-
slection, nous voulons donc comparer avec la prime pure annelle de loption
Hospitalisation niveau 2 dans la combinaison 2222 qui vaut donc 109,06
euros. Le risque danti-slection majore le cot de la prime de 9,47 euros par
an pour cet assur.
Comme expliqu dans la section prcdente, loption DOA3 joue un rle
important dans la base de donnes. Il est donc intressant de comparer la
prime pure pour loption DOA3 dans une combinaison 1131 et 3333. En
reprenant un assur avec les mme caractristiques que dans le paragraphe
prcdent, daprs les calculs, nous obtenons les primes pures annelles :

Dans la combinaison 1131 : P P ADOA3 = 138, 34


Dans la combinaison 3333 : P P ADOA3 = 127, 29

Lcart entre les deux primes pures est de 11,05 euros (=138,34-127,29), ce
qui est un peu plus lev que 9,47 euros, nous pouvons dire que le risque
danti-slection est plus fort pour loption DOA3 que pour loption H2.
Par rapport la mthode consistant limiter le choix des combinaisons,
lajout dune nouvelle variable permet daugmenter la prcision et dam-
liorer la qualit du modle mathmatique. Si la mutuelle propose plus de
niveaux de garanties comme Runica, nous pouvons galement penser com-
biner les deux mthodes afin damliorer la tarification.

89
3.4 Risque de tarification
Dans cette partie, nous avons introduit une nouvelle notion : Solvabilit
2. Solvabilit 2 est une rforme rglementaire europenne du monde de las-
surance. La directive Solvabilit 2, qui vise introduire lhorizon 2016 un
nouveau systme de solvabilit pour le secteur de lassurance, a t adopte
le 22 mai 2009 par le parlement Europen.
Solvabilit 2 propose 3 piliers ayant chacun un objectif :
Pilier 1 Exigences quantitatives : Son objectif est de dfinir les normes
quantitatives de calcul des provisions techniques et des fonds propres.
Il sagit de dfinir des provisions techniques et la marge de solvabilit
qui contient MCR (Minimum Capital Requirement) et SCR (Solvency
Capital Requirement). MCR reprsente le niveau minimum de fonds
propres en dessous duquel lintervention de lautorit de contrle sera
automatique. Et SCR reprsente le capital cible ncessaire pour absor-
ber le choc provoqu par un risque majeur. La modlisation des risques
prsents se fait via la formule standard ou le modle interne.
Pilier 2 Exigences qualitatives et supervision : Son objectif est de fixer
des normes qualitatives de suivi des risques en interne aux socits pour
sassurer que la compagnie gre et matrise bien ses propres risques. Le
pilier 2 introduit une application de lORSA (Own Risk and Solvency
Assessment) qui est un processus qui fournit une valuation court et
moyen terme des risques propres la compagnie, ainsi qui indique
le niveau de capital ncessaire pour couvrir ces risques. Un ORSA "
blanc" sera rendre lACPR le 26 septembre 2014.
Pilier 3 Information du public et du superviseur : Son objectif est de
dfinir lensemble des informations dtailles auxquelles le public aura
accs et auxquelles les autorits de contrle pourront avoir accs pour
exercer leur pouvoir de surveillance.
Dans le Pilier 1, le SCR correspond la Value-at-Risk 99,5% sur un
horizon dun an. Le capital de solvabilit est bas sur une architecture mo-
dulaire des risques, qui est reprsente dans le graphique 24 :

3.4.1 Cas de la formule standard


La plupart des mutuelles mettent en place la formule standard pour le
calcul du SCR du Pilier 1 de Solvabilit 2. Lapplication de lORSA nces-
site la modification de certains paramtres de la formule standard afin de
sadapter la propre situation de la compagnie. Nous nous intressons au
sous-risque du SCR Sant : le risque Sant non similaire vie. Il est ex-
prim principalement par un risque de tarification et de rserve. Dans la
formule standard, le SCR du risque de tarification et de rserve est calcul
comme tant le triple de la volatilit moyenne, pondre par les carts-types
de prestation/cotisation (P/C) et de boni/mali, multiplie par une assiette

90
Figure 24 Solvency Capital Requirement

bien dfinie (volume de primes plus volume de rserves) selon la formule


suivante :
SCRprime et reserve = 3 V (46)
O
V est le mesure de volume rsultant de la combinaison des mesures de
volume des risques de primes et de rserves,
est lcart-type combin rsultant de la combinaison des carts-types
des risques de primes et de rserves.
Le calcul de est :
q
2 2
Vprime 2
+ prime Vprime reserve Vreserve + r 2
prime eserve Vr
eserve
=
Vprime + Vreserve
(47)
Dans cette quation, Nous nous intressans au calcul du prime qui est
gal lcart-type du P/C historique de la compagnie. La formule standard
se base sur des cart-types de distributions qui sont des moyennes constates
au niveau de lUnion Europenne. prime de la formule standard est dfini
5%. Avec une tarification plus prcise, lorganisme dassurance pourrait
possder un prime infrieur ou gal 5%. Le risque de la tarification est
donc considr au-dessous du niveau de lUnion Europenne. 5% peut tre
galement considr comme une mesure quantitative de la qualit de la tari-
fication. Dans notre base de donnes, les ratios P/C sur lanne 2012 et 2013
sont :

P/C2012 = 137%
P/C2013 = 112%

91
prime est donc 18%, il est beaucoup trop lev par rapport au niveau
de lUnion Europenne. Comme nous lavons expliqu dans la troisime par-
tie, la compagnie na pas pris en compte le risque danti-slection, cela a
augment le risque de tarification, qui sexplique par une volatilit forte.
Avec notre modlisation, nous recalculons le ratio P/C en remplaant la
cotisation par la prime commerciale estime. A laide danalyses historiques
sur les comptes de rsultats pour les 5 dernires annes, nous prenons comme
hypothse que les charges globales reprsentent 25% du chiffre daffaire brut.
La prime commerciale est donc la prime pure multiplie par 1,25. Nous ob-
tenons une nouvelle volatilit moyenne de 14% pour lanne 2012 et 2013
avec le ratio prestation/prime commerciale estime. La volatilit historique
est lgrement amliore grce notre modlisation. Elle reste encore trop
leve par rapport 5%. Cette volatilit nest base que sur deux ans, ce
qui est trop peu pour tre significatif. Idalement nous aimerions avoir les
donnes des 3 5 dernires annes pour la modlisation. Les modles ont
donc besoin dtre amliors.

3.4.2 Cas dun modle interne particulier


Dans le cas du modle interne, nous souhaitons rechercher un SCR plus
adapt la situation de la mutuelle via notre tarification. Gnralement,
nous mesurons via le modle interne tous les risques de manire diffrente
de la formule standard. Dans notre tude, nous retraitons juste le risque
de tarification, et nous lappelons "cas dun modle interne particulier". La
volatilit de prime dans la formule standard possde une limite en pratique.
Elle est base sur les cart-types du niveau de lUnion Europenne, et en
ce sens, les cart-types sont peut-tre assez diffrents dun pays lautre
de lUnion Europenne, ou dun organisme dassurance un autre. Lintrt
de retraiter le risque tarification est de voir dans quelle mesure ces cart-
types sloignent ou non des valeurs prconises par la formule standard.
Avec une volatilit de la prime qui nest pas adapte la propre situation de
lorganisme dassurance, il est possible de ne pas avoir assez de fonds propres
pour pouvoir faire face la survenance de ces risques. Avec cette limitation
de la formule standard, nous souhaitons chercher une autre mthode pour
dfinir le SCR du risque de tarification.
Notre ide est de trouver une borne suprieure pour la prime pure avec un
niveau de confiance de 99,5%. Cette prime pure suprieure peut tre consi-
dre comme un seuil maximum supportable pour la mutuelle. En suivant
la partie 2 et 3, nous notons la prime pure retenue la prime pure moyenne.
Aprs transformation de la prime pure en prime commerciale, lcart entre la
prime commerciale suprieure et la prime commerciale moyenne correspond
au SCR du risque de tarification du modle interne.
Pour ce faire, nous calculons dabord lintervalle de confiance sur les
coefficients du modle. Il y a deux possibilits pour construire lintervalle de

92
confiance :
lintervalle de confiance de Wald
lintervalle de confiance bas sur le rapport des vraisemblances
Dans la suite de ltude, nous utilisons lintervalle de confiance de Wald,
qui est la plus enseigne dans ce genre dtude.

Lintervalle de confiance de Wald[14]


Notons b lestimation du maximum de vraisemblance de , nous supposons
que b est approximativement distribue selon une loi normale N (, J 1 ), o
J 1 est une matrice inverse de la matrice dinformation J. Lintervalle de
confiance de Wald de j est :

[bj z1 2 sj ; bj + z1 2 sj ]

O z1 2 est le quantile dordre 1 2 dune loi normale rduite et sj est le


jime terme de la diagonale de J 1 .
Nous reprenons les modles avec la variable anti-slection de la partie 3.
A laide de R, nous obtenons les intervalles de confiance pour la frquence
et le cot moyen avec un niveau de confiance gale 99,5%. Nous prenons
toujours lexemple du calcul de la prime pure sur loption Hospitalisation de
niveau 2 et les mme caractristiques de lassur comme dans les sections 3.1
et 3.3.2. Cet assur est reprsent par un homme de 78 ans, habitant dans
le dpartement des Alpes-Maritimes avec sa conjointe et il a souscrit un
contrat avec la combinaison 2211. Nous notons comme exemple lintervalle
de confiance des coefficients pour la frquence dans le tableau 31 :
Nous pouvons calculer lintervalle de confiance de la frquence pour cet
assur, elle est note ci-dessous :

f r ee [2, 00; 3, 89]


equence estim

De la mme manire, lintervalle de confiance du cot moyen est :

ut moyen [30, 56; 59, 03]


co

Donc la prime pure mensuelle pour cet assur est comprise entre :

[5, 10; 19, 14]

Le SCR du risque de tarification sexprime par lcart entre la somme


des primes commerciales du scnario central et la somme des primes com-
merciales de la borne suprieure, cet cart reprsente 60% de la somme des
primes commerciales du scnario central. 60% sexprime dans le sens de la
formule standard par 320%, o 20% est la volatilit moyenne. 20% est effec-
tivement plus lev par rapport 5% le niveau de lUnion Europenne, mais

93
Table 31 Lintervalle de confiance des coefficients de la frquence

Coefficient
Variable Segmentation Borne Scnario Borne
infrieure central suprieure
Intercept 3,13 3,19 3,26
Homme -0,25 -0,21 -0,17
Sexe
Femme 0 0 0
0 16 ans -0,33 -0,20 -0,08
17 30 ans -0,48 -0,41 -0,34
31 45 ans -0,32 -0,25 -0,18
Age
46 60 ans -0,23 -0,17 -0,11
61 80 ans 0 0 0
81 et plus 0,19 0,29 0,39
Adulte 0 0 0
Qualit
Enfant -0,27 -0,15 -0,04
famille -0,19 -0,13 -0,07
Situation Groupe -0,13 -0,07 -0,02
Famille Mono-parentelle -0,14 -0,07 -0,004
Seule 0 0 0
Ile de France -0,65 -0,38 -0,11
Gographique
Hors Ile de France 0 0 0
Valeur 0 0 0 0
Valeur 1 -0,03 0,03 0,09
Valeur 2 -0,06 -0,001 0,06
Anti-slection Valeur 3 -0,08 -0,02 0,04
Valeur 4 -0,03 0,05 0,12
Valeur 5 0,06 0,18 0,30
Valeur 6 0,04 0,20 0,36

ide de lapplication du modle interne est de rendre le calcul du SCR plus


adapt la situation de lorganisme dassurance. Nous remarquons que cette
volatilit 20% est cohrente par rapport la volatilit historique 18% qui
est prsente dans la section prcdente. Cela montre que le risque de tarifi-
cation est trs important pour cette organisme dassurance. Il est ncessaire
damliorer la tarification.

94
Conclusion
Ce mmoire consistait mettre en place la mthode "frquence * cot
moyen", trs utilise, afin de tarifer des produits sant modulaires. Le tarif
technique annuel fut modlis en deux parties : la frquence annuelle par
garantie et le cot moyen annuel par garantie.
Les modles linaires gnraliss (GLM) sont utiliss pour mieux adap-
ter la distribution de consommations en frais de soins afin didentifier les
diffrents niveaux dinfluence de la consommation. Les modlisations sont
indpendantes pour la frquence et le cot moyen. Nous avons retenu res-
pectivement 6 et 3 variables tarifaires.
Une mthodologie de paramtrage des variables, en prenant en compte
une rfrence pour chaque variable, nous permet de mieux traiter les variables
catgorielles. La rfrence choisie est systmatiquement la population la plus
reprsente dans la base de donnes. Cette mthode permet de transformer
les variables qualitatives en un vecteur indiciel qui ne contient que 0 ou 1.
Les autres modalits considres ne peuvent donc quamliorer ou dtriorer
la sinistralit par rapport la rfrence.
Nous avons utilis les modles GLM sur la matrice indicielle avec la loi
Binomiale Ngative pour la frquence et la loi log Normale pour le cot
moyen. Lutilisation de la fonction de lien "log" permet de prendre seule-
ment les valeurs positives qui correspondent effectivement la nature de la
variable rponse. Les coefficients calculs dmontrent que les modalits in-
fluencent positivement (ngativement), plus ou moins, la consommation avec
une valeur suprieure (infrieure) 0.
Nous avons valid les modles avec le test du rapport de vraisemblance
concernant les coefficients du modle et la dviance, la validation est com-
plte galement par une tude des rsidus.
Lors de la finalisation de la tarification avec des variables courantes tel
que Age, Situation familiale, etc, lajout dune nouvelle variable est pro-
pose pour retraiter les modlisations afin de prendre en compte le risque
danti-slection. Ce risque est une caractristique spciale pour les produits
modulaires de complmentaire sant. Nous avons construit la nouvelle va-
riable via une transformation de la combinaison de garanties, qui est donc
une tape cl. Les nouveaux modles sont valids de la mme manire, afin
de trouver les coefficients qui permettent dexprimer la frquence ou le cot
moyen en fonction de rgressions linaires gnralises.
Concernant la partie anti-slection, nous nous sommes rendus compte
que la construction de la variable anti-slection peut tre plus logique dans
le cas de la modlisation du montant de remboursement par garantie (c.f
section 3.2.2). La variable code option na aucun sens dans ce cas, nous
ajoutons une nouvelle variable tarifaire, qui reprsente le niveau de garan-
tie, en remplacement de la variable code option. La variable anti-slection

95
est dfinie par lcart entre le niveau de garantie modlise et le niveau mi-
nimum des garanties de la combinaison. Par exemple, pour la modlisation
dHospitalisation avec la combinaison H2-SC1-DOA3-BE1, la valeur de la va-
riable anti-slection est 1 (=2-min(2 ;1 ;3 ;1)). Par rapport la modlisation
des 4 garanties ensemble, cette mthode possde lavantage de tenir compte
du risque danti-slection pour chaque garantie. Elle sera plus prcise que la
mthode propose dans la section 3.3.2 qui pose une mme modalit pour
plusieurs diffrentes combinaisons.
Pour la suite de ltude, en reprenant la mthode dcrite ci-dessus, nous
aurons calculer le risque de tarification au sein de la Solvabilit 2. Effecti-
vement, la volatilit de la prime calcule dans la partie 4 est 14%, ce qui
apparait trs leve eu gard au critre de la formule standard de Solvabilit
2. Il est donc ncessaire de tester la modlisation par garantie avec cette
variable anti-slection.

96
Rfrences
[1] Comment calculer lassiette de la taxe de solidarit additionnelle.
www.cmu.fr.
[2] Comment est constitu le march des complmentaire sant.
www.radiancehumanis.com.
[3] Lassurance maladie. www.ameli.fr.
[4] Le march franais de lassurance sant complmentaire en 2012.
www.lesechos-etudes.fr.
[5] Prvoyance. prevoyance.comprendrechoisir.com.
[6] Quest-ce que la prvoyance collective. www.ctip.asso.fr.
[7] Quest ce que la taxe sur les conventions dassurance. www.klesia.fr.
[8] Rgime local dassurance maladie dalsace moselle. www.regime-local.fr.
[9] Scurit sociale. www.securite-sociale.fr.
[10] Test du rapport de vraisemblance. mistis.inrialpes.fr.
[11] Sbastien Ballesteros. Le modle linaire gnralis avec r : fonction
glm(). Juin 2008.
[12] Arthur Charpentier and Michel Denuit. Mathmatiques de lassurance
non-vie, Tome 2 : Tarification et provisionnement. Economica, 2005.
[13] Direction de la Scurit sociale. Les chiffres cls de la scurit sociale
2012. 2013.
[14] Jean-Jacques Droesbeke, Michel Lejeune, and Gilbert Saporta. Modles
statistiques pour donnes qualitatives. 2005.
[15] Pierre Picard. Assurance : conomie de lassurance.
[16] Frdric Planchet and Guillaume Serdeczny. Modles frquence - cot :
Quelles perspectives dvolution ?
[17] Matthieu Vautrin. Elaboration dune mthode de tarification avec in-
dicateurs de risque pour des contrats complmentaires sant collectifs.
[18] Laure Viel. Rforme de la complmentaire sant : les dcrets sur les
contrats responsables, lani et lacs enfin prciss.
[19] Laure Viel. Complmentaire sant : En 2013, les socits dassurances
ont surperform. Avril 2014.
[20] Eric Wajnberg. Introduction au modle linaire gnralis. Octobre
2011.

97
Glossaire
Lassurance non-vie : Elle regroupe les assurances de Biens, les assu-
rances de Responsabilit et les assurances Sant. Les assurances non-
vie grent les primes par rpartition.
Complmentaire sant : Elle est le terme employ pour dcrire les ga-
ranties proposes par un organisme assureur pour complter les pres-
tations verses par la scurit sociale en matire de frais de sant.
Modle linaire gnralis : En statistiques, le modle linaire gnra-
lis (GLM) est une gnralisation souple de la rgression linaire. Le
GLM gnralise la rgression linaire en permettant au modle linaire
dtre reli la variable rponse via une fonction lien et en autorisant
lamplitude de la variance de chaque mesure dtre une fonction de sa
valeur prvue.
Lanti-slection : La slection adverse ou anti-slection est un phno-
mne statistique et conomique qui joue un rle important notamment
dans les domaines de lassurance et de la gestion du risque, par lequel
une offre faite sur un march aboutit des rsultats inverses de ceux
souhaits, cause dasymtries dinformation. Cest une forme du pro-
blme principal-agent. Dans une situation principal-agent, le problme
de la slection adverse est essentiellement bas sur lincertitude concer-
nant le type de lagent, contrairement une situation dala moral.
SCR : Solvency Capital Requirement reprsente le capital cible n-
cessaire pour absorber le choc provoqu par un risque majeur (par
exemple : un sinistre exceptionnel, un choc sur les actifs...).
Fonds propres : Les fonds propres sont les capitaux dont dispose len-
treprise. Ils ont t soit apports par les actionnaires, soit acquis par
lactivit conomique.
ORSA : Au coeur de la rforme prudentielle Solvabilit 2, lORSA
(Own Risk and Solvency Assessment ou valuation interne des risques
et de la solvabilit) se dfinit comme un ensemble de processus consti-
tuant un outil danalyse dcisionnelle et stratgique visant valuer,
de manire continue et prospective, le besoin global de solvabilit li
au profil de risque spcifique de chaque organisme assureur concern
par lapplication de cette norme.

98
Annexes
Annexe 1 : Les codes sous R

Le test du Khi-Deux dindpendance


Importer la table de contingence :
tab=read.table("sexe-frequence.txt")
Raliser le test du Khi-Deux :
chisq.test(tab)

Modles linaires gnraliss


Importer les donnes :
base=read.table("frequence.txt",header=TRUE)

Estimation de paramtres dajustement une loi dfinie :


fitdistr(frequence,"poisson")
Ajustement des observations de frquences la loi de Poisson en estimant
les paramtres par le maximum de vraisemblance :
(ajust=goodfit(fre,type="poisson",method="ML"))
Reprsentation graphiquement :
plot(ajust)

En cas de la loi de Poisson et de la fonction de lien log :


model1=glm(frequence.,family=poisson(link="log"),data=base)
En cas de la loi de Binomiale Ngative et de la fonction de lien log : Tl-
charger dabord les Packages.
library(stats4)
library(MASS)
library(grid)
library(vcd)
model2=glm.nb(frequence.,data=base,link=log)
summary(model2)

Les coefficients du modle :


cof=data.frame(coefficients(model2))
p=predict(model2,type="response")
p=data.frame(p)
Exporter les coefficients :
write.csv(cof,file="cof.csv",row.names=TRUE)

99
Regarder comment sont construites les sorties des diffrentes fonctions asso-
cies aux glm :
str(model2)
str(summary(model2))
names(summary(model2))
class(summary(model2))
mode(summary(model2))

Test du rapport de vraisemblance


Nous rduisons le modle :
m=step(model2)
Test du rapport de vraisemblance : si les variables sont significatives ?
anova(m,test="LRT")
Corrlation entre les modalits :
corr=summary(m, cor = TRUE)

Rsidus
r1=residuals(m, type = "deviance")
r2=residuals(m, type = "pearson")
plot(r1)

100
Annexe 2 : Les rsultats

Table 32 Les rsultats retenus pour la frquence (sans la variable anti-


slection)

Variable associ Estimation (i ) Pr(>|Z|)


Intercept 3,12 < 2 e-16
Sexe 1 -0,20 < 2 e-16
Age 1 -0,17 2,73 e-06
Age 2 -0,40 < 2 e-16
Age 3 -0,24 < 2 e-16
Age 4 -0,16 < 2 e-16
Age 5 0,28 < 2 e-16
Qualit ayant droit 2 -0,22 2,19 e-16
Situation familiale 1 -0,11 8,58 e-09
Situation familiale 2 -0,05 0,00377
Situation familiale 3 -0,06 0,00614
Option 1 -1,67 < 2 e-16
Option 2 -1,31 < 2 e-16
Option 3 -1,04 < 2 e-16
Option 4 -1,90 < 2 e-16
Option 5 -1,88 < 2 e-16
Option 6 -1,81 < 2 e-16
Option 7 -1,91 < 2 e-16
Option 8 -1,81 < 2 e-16
Option 9 -1,69 < 2 e-16
Option 10 0,09 1,14 e-07
Option 11 0,22 < 2 e-16
Gographique 2 -0,42 4,06 e-06

101
Annexe 3 :

Liste des tableaux


1 Comparaison de tarifs complmentaires sant individuelles . . 28
2 Formules Sant . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Montant annuel de lACS en 2012 . . . . . . . . . . . . . . . . 31
4 Lvolution du march de complmentaire sant en 2012 et 2013 34
5 Les 20 assureurs leaders du march . . . . . . . . . . . . . . . 36
6 La structure du produit modulaire . . . . . . . . . . . . . . . 39
7 Les modalits de la variable Code option . . . . . . . . . . . . 40
8 La comparaison de nombres de modalits de la variable code
famille entre les donnes de cotisations et celles de prestations 41
9 Les nombres de modalits de variables dans le fichier de coti-
sations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
10 Les 4 modalits de la variable situation famille . . . . . . . . 44
11 La comparaison de nombres de modalits entre la base retenue
et la base brute . . . . . . . . . . . . . . . . . . . . . . . . . . 45
12 La comparaison de la proportion du montant de rembourse-
ment pour Code option entre la base retenue et la base brute 45
13 Distribution gographique . . . . . . . . . . . . . . . . . . . . 51
14 La table de contingence entre la frquence et le sexe . . . . . 52
15 Les rsultats du test dindpendance pour la frquence . . . . 53
16 Les rsultats du test dindpendance pour le cot moyen . . . 54
17 Les paramtres de la famille exponentielle . . . . . . . . . . . 57
18 Esprance et variance de la famille exponentielle . . . . . . . 58
19 Fonctions de lien . . . . . . . . . . . . . . . . . . . . . . . . . 59
20 Les rfrences des variables . . . . . . . . . . . . . . . . . . . 61
21 Les rsultats des tests du rapport de vraisemblance . . . . . . 68
22 Les rsultats pour la frquence . . . . . . . . . . . . . . . . . 69
23 Nouveaux rsultats des modalits moins significatives . . . . . 70
24 Les dviances pour la frquence . . . . . . . . . . . . . . . . . 72
25 Les dviances pour loi Poisson et loi Binomiale Ngative . . . 73
26 Les dviances pour le cot moyen . . . . . . . . . . . . . . . . 76
27 Les coefficients du modle pour le cot moyen . . . . . . . . . 78
28 Les coefficients des modles . . . . . . . . . . . . . . . . . . . 79
29 La proportion du montant de remboursement et du cot moyen 84
30 Comparaison du cot moyen par garantie . . . . . . . . . . . 86
31 Lintervalle de confiance des coefficients de la frquence . . . . 94
32 Les rsultats retenus pour la frquence (sans la variable anti-
slection) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

102
Table des figures
1 La distribution de prestations nettes par les quatre premires
branches en 2012 . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Structure des recettes de la Scurit Sociale en 2012 . . . . . 24
3 Systme de remboursement des frais de sant . . . . . . . . . 25
4 Rpartition de financements complmentaires . . . . . . . . . 26
5 Rpartition des dpenses de sant en France en 2008 . . . . . 31
6 Rpartition des assurs par la qualit "ayant droit" . . . . . . 46
7 Distribution Femmes et Hommes par ge . . . . . . . . . . . . 46
8 Distribution de cots moyens Femmes et Hommes par ge, de
1 an 90 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9 Distribution de frquences Femmes et Hommes par lge de 1
an 90 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10 Les observations de la frquence . . . . . . . . . . . . . . . . . 63
11 La fonction de densit observe et simule par la loi Poisson . 64
12 Ajustement des frquences par la loi de Poisson . . . . . . . . 64
13 La fonction de densit observe et simule par la loi Binomiale
Ngative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
14 Ajustement des frquences par la loi de Binomiale Ngative . 66
15 Les rsidus de la dviance pour la frquence . . . . . . . . . . 74
16 Les fonctions de rpartition pour le cot moyen . . . . . . . . 76
17 Les rsidus de la dviance du cot moyen . . . . . . . . . . . 77
18 Les rsidus de Pearson du cot moyen . . . . . . . . . . . . . 78
19 La rpartition de montants de remboursement par combinaison 82
20 La rpartition des effectifs par combinaison . . . . . . . . . . 83
21 Les combinaisons ayant DOA3 . . . . . . . . . . . . . . . . . 85
22 Les combinaisons ayant DOA3 avec les valeurs de la variable
anti-slection . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
23 Les valeurs de la variable anti-slection : Lcart entre le ni-
veau plus lev et le niveau plus faible . . . . . . . . . . . . . 88
24 Solvency Capital Requirement . . . . . . . . . . . . . . . . . . 91

103