Vous êtes sur la page 1sur 98

EURIA — EURo Institut d’Actuariat

Mémoire présenté devant le jury de l’EURIA en vue de l’obtention du


Diplôme d’Actuaire EURIA
et de l’admission à l’Institut des Actuaires

le 23 novembre 2013

Par : Mathieu MARTINATTO


Titre : Evaluation d’un niveau de garantie en frais de santé

Confidentialité : non.

Membre présent du jury de l’Institut Entreprise


des Actuaires OPTIMIND WINTER
Prénom NOM Signature :
Signature :

Membres présents du jury de l’EURIA Directeur de mémoire en entreprise


Prénom NOM Nicolas LE BERRIGAUD
Prénom NOM Signature :

Invité
Prénom NOM
Signature :

Autorisation de publication et de mise en ligne sur un site de diffusion


de documents actuariels

Signature du responsable entreprise Signature du candidat

Bibliothèque : Secrétariat :

EURIA 6, avenue le Gorgeu T +33 (0)2 98 01 66 55


EURo Institut CS 93837 F +33 (0)2 98 01 66 57
d’Actuariat 29238 Brest Cedex 3 euria@univ-brest.fr
Remerciements
Je remercie tous les collaborateurs d’Optimind Winter pour leur accueil et leur bonne hu-
meur communicative.

Je remercie tout particulièrement mon maître de stage, Nicolas Le Berrigaud, actuaire


consultant sénior et practice leader Santé, pour l’aide précieuse et les conseils qu’il m’a ap-
portés durant toute la réalisation de ce mémoire.

Merci également aux consultants qui m’ont aidé en répondant à certaines de mes interroga-
tions, et en particulier à Fabien Lagadec pour sa disponibilité.

Je souhaite remercier Mr Rainer Buckdahn, enseignant à L’Euria, pour la rapidité de ses


réponses et le temps qu’il a bien voulu m’accorder. Merci aussi à Laurence Abiven, ma tutrice
Euria, pour sa disponibilité et ses conseils.

Merci à ma famille et mes amis pour m’avoir soutenu pendant la durée de ce mémoire.

Enfin, je tiens à remercier l’ensemble des stagiaires d’Optimind Winter pour la bonne am-
biance qui a régné tout au long de mon stage. Merci à Matthieu Lagadec et Vincent Rouxel,
stagiaires Euria, pour leur écoute, leur soutien et les longues discussions que nous avons parta-
gées. Une pensée toute particulière à Aude, Ombline et Eliott, trois stagiaires avec qui j’ai eu
la chance de partager un bureau.
Résumé
Dans un contexte d’évolutions - récentes et à venir - de la législation française concernant le
remboursement des frais de santé, les professionnels de l’assurance complémentaire se trouvent
confrontés à un marché de plus en plus concurrentiel. Sur un même poste de dépenses, les ga-
ranties proposées par les différents organismes complémentaires peuvent être exprimées sur un
large panel d’assiettes de remboursement. Au travers de cette opacité du marché, il est difficile
pour un institutionnel de savoir comment mesurer le niveau de ses garanties, c’est-à-dire la
capacité de ces dernières à rembourser les dépenses de santé à la charge de ses assurés. L’enjeu
est pourtant de taille : pour être compétitif et espérer gagner des parts de marché, l’assureur
doit avant tout être en mesure de s’évaluer par rapport aux concurrents, et ainsi connaître les
forces et les faiblesses de son offre.

L’objectif de ce mémoire est de proposer une méthode permettant d’évaluer les niveaux
de garanties offerts par les contrats d’assurance santé complémentaire pour, in fine, être en
mesure de fournir une métrique à partir de laquelle pourront être hiérarchisées ces garanties. La
méthode développée consiste, dans un premier temps, à créer une base de dépenses sur laquelle
les niveaux des garanties seront évalués, puis à redresser ces résultats pour tenir compte du
phénomène de surconsommation observé sur cette base.
La comparaison des niveaux de garantie étant une problématique résolument nouvelle, elle n’a
jusqu’à présent été que très légèrement abordée dans la littérature. Ce travail se veut donc être
une réponse pratique à un besoin nouveau, et apporter des éléments de réflexion sur les difficultés
rencontrées dans la démarche d’évaluation et de comparaison des garanties en assurance santé
complémentaire.

Mots clés : Assurance santé complémentaire, Niveau de garantie, Taux de couverture,


Rééchantillonnage, Bootstrap, Calage sur marges, Espérance conditionnelle, Vecteur
gaussien, Sélection par quotas croisés.

2
Abstract
In a context of recent and forthcoming evolutions in french legislation about healthcare
costs compensation, supplementary health insurers are facing an increasingly competitive mar-
ket. Considering a spending post, guarantees proposed by professionals are usually expressed on
a large range of repayment basis. Through this market opacity, it’s hard for an insurer to know
how to measure the levels of his guarantees, that is their capacity to compensate healthcare
costs at the expense of the insured parties. However, there are high stakes : in order to be com-
petitive and win market shares, insurer must be able to evaluate his offers and his rivals’ones
to position himself on the market.

The aim of this Master thesis is to set up a methodology allowing to evaluate guarantees
level offered by supplementary health insurance policies. By doing this, it will be possible to
class the different garantees and then have a clear vision of the market. Our method is based
on the creation of a spending base on which the guarantees level will be evaluated. Those
results will also be corrected to integrate the over consumption phenomenon observed on our
base. Guarantees level comparison is a resolutely new issue in health insurance, and has not been
developped much in literature so far. Our work is done to provide an answer to a rising necessity,
and point out the difficulties faced in the guarantees level assessment for supplementary health
insurance.

Key words : Supplementary health insurance, Guarantee level, Coverage rate, Resam-
pling, Bootstrap, Marginal calibration, Conditional expectation, Gaussian vector, Cross
quotas selection.

3
Note de synthèse
Contexte et objectifs
Le marché de l’assurance santé complémentaire est aujourd’hui soumis à une forte concur-
rence. La non-cyclicité de ce marché et la croissance stable connue depuis 2006 ont remobilisé
les assureurs suite à la crise. Afin d’être compétitif, un organisme complémentaire doit être en
mesure de comparer son offre à celles des autres acteurs du marché. L’évaluation des niveaux
de garantie, c’est à dire la performance des remboursements offerts aux bénéficiaires, devient
alors un enjeu important pour les professionnels de la complémentaire santé. Or, la multitude
d’acteurs présents sur le marché et les pratiques liées à chacun rendent délicat le positionnement
des garanties : pour un même poste de dépenses, les garanties proposées sur le marché peuvent
être exprimées sur des assiettes de remboursement différentes. Comment comparer alors une
première garantie exprimée en pourcentage des frais réels et une seconde en pourcentage de la
base de remboursement de la Sécurité Sociale ? La principale difficulté réside dans le fait que
les remboursements de ces garanties peuvent évoluer différemment selon la nature et le montant
des dépenses engagées par les assurés.

L’objectif est ici de présenter une méthodologie permettant d’évaluer, pour un poste de dé-
penses, le niveau des différentes garanties présentes sur le marché. Cette évaluation rendra alors
possible la comparaison et le positionnement des garanties d’assurance santé complémentaire.

Méthodologie
Remarques préliminaires
La méthodologie d’évaluation des niveaux de garanties développée ici repose sur l’utilisation
d’un concept simple : le taux de couverture. Pour une garantie, le taux de couverture est calculé
sur l’ensemble des bénéficiaires comme le rapport entre la somme des remboursements et la
somme des frais réels engagés, le terme remboursement faisant ici référence à la combinaison
des remboursements de la garantie et de la Sécurité Sociale. Le taux de couverture permet ainsi
de juger de la performance des remboursements offerts par une garantie. Cependant, le taux de
couverture est directement fonction des frais réels engagés par les assurés. Ainsi, avant de pou-
voir être comparés, deux taux de couverture doivent être calculés sur la même base de dépenses.

Cette base doit, de plus, être représentative de la structure de dépenses d’une population
couverte par un contrat d’assurance santé, cela dans l’optique de conserver une approche d’éva-
luation neutre et ne pas favoriser certaines garanties. Prenons l’exemple d’une garantie optique
présentant un remboursement avantageux pour les verres et les montures adultes, mais rem-
boursant mal les frais d’optique pour les personnes de moins de 18 ans. Si dans notre portefeuille
la population adulte est sur-représentée, alors cette garantie sera clairement avantagée lors de
l’évaluation de sa performance. Ainsi, la base de dépenses devrait idéalement être représentative
d’une population assurée classique. Cependant, la structure d’une telle population est inconnue,
et nous considèrerons à la place la structure de la population française décrite par les pyramides
des âges de l’Insee.

4
Etapes de la méthode
Pour mettre en oeuvre la méthodologie d’évaluation des niveaux de garanties, nous disposons
d’une base de dépenses relative à un portefeuille d’assurés. La méthode développée se présente
en trois grandes étapes :

– 1. Re-sélectionner, à partir de la base de dépenses initiale, une sous-population représenta-


tive de la population française pour les quotas d’âge et de sexe. Pour ce faire, la technique
de sélection par quotas croisés est utilisée : après segmentation de la population en classes
d’âge et de sexe, nous tirons aléatoirement sans remise un certain nombre d’individus dans
chacune de ces classes pour respecter les quotas de la population française. Les frais réels
engagés par la sous-population, pour le poste considéré, viennent alors constituer la base
de dépenses sur laquelle seront évaluées les garanties. La base de dépenses est alors celle
d’une sous-population représentative de la population française pour les quotas d’âge et
de sexe.

– 2. Simuler, sur l’échantillon de frais réels ainsi créé, les remboursements offerts par la
garantie dont on souhaite évaluer le niveau. Il est alors possible de calculer le taux de cou-
verture de la garantie, mesurant sa capacité à rembourser les dépenses de santé engagées.

– 3. Modifier la valeur du taux de couverture pour tenir compte du fait que la sous-
population étudiée a tendance à engager des frais de santé en moyenne plus coûteux
que ceux de la population française. Cette surconsommation s’interprète comme un effet
lié à la garantie dont bénéficiait initialement la population du portefeuille : se sachant bien
remboursés, certains individus ont tendance à ne pas chercher à limiter leurs dépenses.
Afin de procéder au redressement de la valeur du taux de couverture, deux techniques
sont utilisées. Ces deux techniques visent à fournir une estimation de la valeur du taux
de couverture dans le cas où la moyenne des frais réels aurait été celle de la population
française.

Techniques de redressement
La première technique est basée sur le calcul d’une espérance conditionnelle et l’utilisation
du rééchantillonnage Bootstrap pour l’estimation des paramètres. La seconde technique repose
quand à elle sur le calage sur marges, procédé utilisé en sondages pour la correction des esti-
mations. Les taux de couverture obtenus à l’aide de ces deux techniques seront respectivement
appelés taux de couverture redressé et taux de couverture calé.

Considérons les notations suivantes :


. (xk , yk )k∈[1,n] : les frais réels et les remboursements associés, avec n la taille de l’échantillon.
. x, y : les moyennes empiriques calculées sur l’echantillon.
. µ∗x : la moyenne des frais réels pour la population française.
y
Le taux de couverture avant redressement, noté τ , est donné par τ = .
x

Taux de couverture redressé


Les observations (x1 , y1 ), . . . , (xn , yn ) sont supposées être une réalisation de l’échantillon de
vecteurs aléatoires (X1 , Y1 ), . . . , (Xn , Yn ) supposés i.i.d. Un estimateur du taux de couverture
Y
est donné par T = , avec X et Y les estimateurs sans biais de la moyenne des frais réels et
X

5
des remboursements.
L’idée relative au calcul du taux de couverture redressé est d’estimer la valeur du taux de
couverture dans
h une situation
i où la moyenne des frais réels serait égale à µ∗x . Nous cherchons alors
à calculer E T | X = µ∗x . Cette quantité est notée T C red . Sous les hypothèses d’indépendance
et d’intégrabilité,
  le théorème central limite, dans sa forme multivariée, montre que le vecteur
X, Y est asymptotiquement gaussien. De plus, le théorème de conditionnement d’un vecteur
gaussien montre que la relation liant les composantes d’un tel vecteur est donnée  par la droite
de régression. Ainsi, sous l’hypothèse de gaussienneté du vecteur aléatoire X, Y , on obtient
après développement :
!
red 1 Cov(X, Y )  ∗
h i h i
TC = ∗ E Y + µx − E X
µx V ar(X)

Bien que les quantités apparaissant dans la formule du T C red puissent être estimées direc-
tement sur le sous-échantillon d’après la valeur prise par leurs estimateurs, le choix a été fait
d’utiliser un rééchantillonnage de type Bootstrap, présentant l’avantage de fournir une distri-
bution des couples de moyennes et de pouvoir ainsi apprécier leur structure de dépendance. La
procédure Bootstrap permet également de construire des intervalles de confiance pour le taux
de couverture redressé, fournissant ainsi une mesure de la précision des estimations.

Taux de couverture calé


En considérant H le nombre de classes de la sous-population définies par les modalités de
la variable âge/sexe, et (xh , y h ) les moyennes des frais réels et des remboursements relatifs à la
classe h, le taux de couverture peut s’exprimer comme :
H
X
dh y h
h=1
τ= H
X
dh xh
h=1

nh
avec dh = , nh étant le nombre d’actes engagés par les individus de la classe h. Le calcul du
n
taux de couverture calé utilise la technique du calage sur marge : on cherche les nouveaux poids
(ωh∗ )h∈[1,H] proches des poids initiaux (dh )h∈[1,H] d’après la mesure d’une fonction de distance
H
ωh∗ xh = µ∗x .
X
G, et vérifiant l’équation de calage
h=1
Ainsi, le calcul des nouveaux poids se présente sous la forme d’un problème d’optimisation sous
contrainte, où l’on cherche les (ωh∗ )h∈[1,H] solutions de

H
ωh
X  
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh

sous les contraintes : 


 H
X
= µ∗x




 ωh xh
h=1
 H
X




 ωh = 1
h=1

6
Connaissant les nouveaux poids, le taux de couverture calé T C cal est alors donné par :
H
1 X
T C cal = ω∗ y
µ∗x h=1 h h

Les deux techniques de redressement permettent ainsi de fournir des estimations du taux de
couverture dans une situation où la moyenne des frais réels du sous-échantillon aurait été égale
à µ∗x .

Résultats
L’ensemble de la méthodologie a été mis en oeuvre sur le poste de dépenses Optique. Des
garanties présentant des types d’expressions différents (forfait, base de remboursement de la
Sécurité Sociale (BRSS), frais réels, combinaison forfait et BRSS) ont alors été considérées. Après
simulation des remboursements offerts par ces garanties sur le sous-échantillon de frais réels,
les taux de couverture ont été calculés puis corrigés d’après les deux méthodes de redressement
présentées ci-dessus. Des intervalles de confiance à 95% pour les taux de couverture redressés
T C red ont également été fournis.

Garantie τ (%) T C cal (%) T C red (%) IC Bootstrap 95%


1 72.42 78.08 76.74 [76.07 ; 77.48]
2 69.74 74.00 73.30 [72.51 ; 74.04]
3 73.11 74.48 76.38 [75.69 ; 77.15]
4 55.72 60.93 60.26 [59.70 ; 60.70]
5 55.96 60.50 58.08 [57.60 ; 58.65]
6 74.82 80.00 78.87 [78.13 ; 79.40]

Table 1 – Résultats de l’évaluation des niveaux de garantie

L’analyse des résultats montre que le taux de couverture redressé, intégrant la covariance
entre la moyenne de frais réels et des remboursements, fournit en général des estimations plus
cohérents que le taux de couverture calé. Cependant, les estimations issues des deux méthodes
se révèlent d’autant plus proches que :
– la segmentation de la sous-population en classes d’âge et de sexe, utilisée pour le calcul
du taux de couverture calé, est fine.
– la moyenne des frais réels observée sur le sous échantillon est proche de la moyenne cible
µ∗x .

En rendant possible l’évaluation du niveau des garanties, la méthodologie permet de com-


parer la performance des produits d’assurance santé poste par poste. La création de graphiques
présentant, pour chaque poste, le niveau des garanties estimé par leur taux de couverture re-
dressé, permet ainsi de visualiser les forces et les faiblesses des produits d’assurance santé.
L’exemple présenté ici est basé sur la comparaison de deux produits d’assurance sur quatre
postes de dépenses santé : Consultations/Visite, Optique, Hospitalisation et Prothèse dentaire.

7
Figure 1 – Produits 1 et 2 : Niveaux de garantie par poste

Dans cet exemple, le produit 1 se révèle plus performant sur les postes Consultation/Visite
et Optique, avec une sur-performance marquée pour ce dernier poste. Le produit 2 propose
quand à lui de meilleures garanties pour les postes Hospitalisation et Prothèse dentaire.

Conclusion
La méthodologie développée permet, pour chaque poste de dépenses, de fournir une estima-
tion du niveau des garanties. Il devient alors possible de positionner entre elles les différentes
garanties du marché, qu’elles soient ou non exprimées sur la même assiette de remboursement.
Ce travail a été mené dans l’optique de fournir un procédé utilisable pour les professionnels
de l’assurance santé complémentaire souhaitant évaluer et positionner leurs offres face aux dif-
férents acteurs du marché. Nous espérons ainsi avoir apporté des éléments de réponses aux
problématiques et aux enjeux liés à l’évaluation des niveaux de garantie.

8
Executive summary
Context and objectives
French supplementary health insurance market is today facing a huge competition. Since
2006, non-cycle and strong cost-effectiveness of the market have grabed back insurers after the
economic crisis. In order to be competitive, a supplementary organisation must be able to com-
pare his offers with his rival’s ones, and guarantee level assessment is becoming a high stake
for insurers. Nevertheless, high number of actors on the market and each one’s practice make
difficult the comparison of guarantees : considering a spending post, guarantees proposed by
professionals are usually expressed on a large range of repayment basis. Although comparison
of guarantees expressed on the same basis is easy, it’s delicate to compare two guarantees when
their expression basis are different.

Our aim is to set up a methodology allowing to evaluate, for a given spending post, le-
vel of different guarantees met on the french market. Then, through this assessment capacity,
comparison of supplementary health insurance guarantees will be possible.

Methodology
Preliminary remark
Our guarantee level assessment methodology is found on a basic concept : coverage rate.
considering a guarantee, coverage rate is defined as the sum of repayments on the sum of spen-
dings. Coverage rate gives an estimation of the guarantee performance. However, as coverage
rates are directly function of spendings owed by insured parties, they must be calculated on the
same expenses base.

Moreover, this base has to be representative of the expenses structure of an insured popula-
tion in order to preserve a neutral evaluation approach. For example, if a guarantee is good for
adults but not for children, and if adults population is over represented in our base, then this
guarantee would have a clear advantage being evaluated on the base. So, expenses base should
ideally be representative of a classic french assured population. However, the structure of this
kind of population is unknow, and we use the the structure of the whole french population
discribed from Insee population pyramids.

Method description
We dispose of an expenses base coming from an insurance portfolio. The method developed
here is based on three steps :

– 1. Re-select, from our original base, a representative sample of the french population for
the age and gender quotas. We use the cross selection quotas approach : after segmen-
tation of population in age/gender classes, we draw without replacement individuals in
every classes to respect french population quotas. Expenses from this sub-popolation are
used to create the base on which guarantees will be evaluated.

9
– 2. Simulate repayments of the guarantee we want to estimate the level, and calculate its
coverage rate.

– 3. Correct coverage rate value to offset the phenomenon of over consumtion observed
on our sub-population. This bias is due to the original guarantee covering our portfolio
population : knowing the were well reimburse, some people don’t try to limitate their
health expenses. To set up this correction, two approachs are used in order to get an
estimation of coverage level in the case of an expense average equal to the french population
one.

Redress approachs
Our first approach is based on the calculation of a conditional expectation and the use of
Bootstrap resampling fot parameters estimation. Second one is adapted from a method for cor-
rection of survey results : the marginal calibration. Coverage rates obtained, by using those two
approachs, will be called respectively redressed coverage rate and calibrated coverage rate.

Let’s consider following notations :


. (xk , yk )k∈[1,n] : expenses and associated repayments, with n the subset length.
. x, y : averages calculated on the subset.
. µ∗x : expenses average for french population.
y
Coverage rate, before redress, is noted τ , and given by τ = .
x

Redressed coverage rate


Observations (x1 , y1 ), . . . , (xn , yn ) are supposed to come from the i.i.d sample (X1 , Y1 ), . . . , (Xn , Yn ).
Y
An estimator of the coverage rate is given by T = , with X and Y unbiased estimators of
X
expenses and repayment averages.
h i
We are trying to calculate E T | X = µ∗x . That quantity is noted T C red . Under indepen-
 
dence and integrability hypothesis, Central limit theorem shows that the random vector X, Y
is asymptotically gaussian. Moreover, dependence between such vector components
  is represen-
ted by a regression line. So, under gaussian hypothesis of random vector X, Y , we obtain :
!
red 1 h iCov(X, Y )  ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)

To estimate the different parameters, choice


 has
 been done to use resampling Bootstrap
method, allowing to create a distribution of X, Y and then appreciate the dependance struc-
ture between X and Y . Bootstrap also allows to set up non-parametric confidence intervals for
redress coverage rate.

Calibrated coverage rate


Considering H the number of classes, in the sub-population, defined by the different states
of the âge/sexe variable, and (xh , y h ) expense and repayment averages for the class h, coverage

10
rate can be rewritten as :
H
X
dh y h
h=1
τ= H
X
dh xh
h=1
nh
with dh = , nh representing the number of expenses relatives to the class h. The calculation
n
of the coverage rate uses the marginal calibration approach : we are looking for the new weights
(ωh∗ )h∈[1,H] closed to the original ones (dh )h∈[1,H] for a distance function G, and respecting the
H
ωh∗ xh = µ∗x .
X
calibration equation
h=1
So, new weigths calculation involved constrained optimization, where we are seaching (ωh∗ )h∈[1,H]
solution of
H
ωh
X  
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
under constraints : 
 H
X
= µ∗x




 ωh xh
h=1
 H
X




 ωh = 1
h=1

With those new weigths, calibrated coverage rate T C cal calculated as :


H
1 X
TC cal
= ∗ ω∗ y
µx h=1 h h

The two redress approachs give us an estimation of the coverage rate value in a situation
where expenses average on our sub-population is equal to the global french population one : µ∗x .

Results
The whole methodology has been set up on the expenses post Optic, where guarantees
expressed on different repayment basis have been considered. The table given below shows the
redressed and calibrated coverage rates, and the Bootstrap 95% confidences intervals obtained
for the T C red .
The results analysis shows us that redressed coverage rate, integrating the covariance bet-
ween expenses and repayments averages, gives usually more consistent estimations than the
calibrated coverage rate. Moreover, estimations from the two approachs appear to be very close
when :
– the segmentation of the sub-population used for the marginal calibration is fine.
– the expenses mean observed on our subset is close to the target average µ∗x .
Through the methodology developped, it is also possible to compare the performances of
health insurance products post by post.

11
Garantee τ (%) T C cal (%) T C red (%) Bootstrap 95% C.I
1 72.42 78.08 76.74 [76.07 ; 77.48]
2 69.74 74.00 73.30 [72.51 ; 74.04]
3 73.11 74.48 76.38 [75.69 ; 77.15]
4 55.72 60.93 60.26 [59.70 ; 60.70]
5 55.96 60.50 58.08 [57.60 ; 58.65]
6 74.82 80.00 78.87 [78.13 ; 79.40]

Table 2 – Résults for the guarantees level assessment

Considering two products and four expenses posts (Consultation (CONSU), Optic (OPTI),
Hospitalization (HOSPI), Denture prothese (PROT)), graphs given below show the guarantees
assessment post by post.

Figure 2 – Products 1 and 2 : guarantee level by post

In our example, product 1 appears to be more competitive on the Consultation and Optic
posts, with a strong gap for that last one. Product 2, for its part, offer better guarantees on the
Hospitalization and Denture protheses posts.

Conclusion
The methodology set up allows, for every expenses post, to provide guarantee level assess-
ment estimation. In this way, it is possible to give a position of the different guarantees of the
market, expressed or not on the same repayment basis. Our work has been done to supply a
process usable by supplementary health insurers who want to evaluate and order their offer
against the different actors on the market.

12
Table des matières
Remerciements 1

Résumé 2

Abstract 3

Note de synthèse 4

Executive summary 9

Introduction 15

1 Présentation générale 16
1.1 Marché de l’assurance santé complémentaire . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Un marché développé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Un marché concurrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.3 Un marché segmenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Mécanismes de l’assurance santé complémentaire . . . . . . . . . . . . . . . . . . 20
1.2.1 Mécanisme de remboursement des dépenses de santé . . . . . . . . . . . . 20
1.2.2 Les diverses expressions de garantie . . . . . . . . . . . . . . . . . . . . . 21
1.3 La comparaison des niveaux de garantie . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.1 Les niveaux de garantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.2 Les besoins et les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Les difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Les techniques couramment utilisées . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.1 Panorama des techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.2 Les limites de ces techniques . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Techniques récentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2 Méthode d’évaluation des niveaux de garanties 28


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Etapes de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Création d’une base de dépenses représentative de la population . . . . . 28
2.2.2 Estimation du taux de couverture . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Redressement du taux de couverture . . . . . . . . . . . . . . . . . . . . . 29
2.3 Outils pour la création de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Sélection par quotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.2 Variables significatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Méthodes pour le redressement du taux de couverture . . . . . . . . . . . . . . . 34
2.4.1 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.1.1 Hypothèses et objectif . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.1.2 Etapes de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.1.3 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.2 Estimateur par calage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.1 Principe du calage . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.2 Méthode de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Présentation du Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

13
2.5.1 Fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5.2 Utilisation dans le cadre de la méthode . . . . . . . . . . . . . . . . . . . 44
2.6 Remarques sur les méthodes développées . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.1 Lien entre le taux de couverture redressé et la régression linéaire . . . . . 45
2.6.2 Convergence du Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6.3 Comparaison des taux de couvertures redressé et calé . . . . . . . . . . . 49

3 Mise en oeuvre 50
3.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Focus sur les frais réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Création du sous-échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.2 Mise en oeuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Evaluation du niveau des garanties . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.1 Présentation des garanties . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.2 Simulation des garanties et calcul des taux de couverture . . . . . . . . . 59
3.3.3 Redressement et Calage des taux de couverture . . . . . . . . . . . . . . . 60
3.4 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Dégénérescence du taux de couverture multiple . . . . . . . . . . . . . . . 67
3.4.2 Impact de la segmentation sur le taux de couverture calé . . . . . . . . . 69
3.4.3 Analyse des taux de couverture redressés . . . . . . . . . . . . . . . . . . 70
3.4.4 Intervalles de confiance et volatilité des taux de couverture redressés . . . 74
3.4.5 Evolution du taux de couverture calé . . . . . . . . . . . . . . . . . . . . . 76
3.5 Comparaison de deux complémentaires santé . . . . . . . . . . . . . . . . . . . . 78

Conclusion 82

Bibliographie 84

Listes des tableaux 85

Table des figures 86

A Annexes 87
A.1 Test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.2 Théorème de conditionnement d’un vecteur gaussien . . . . . . . . . . . . . . . . 88
A.3 Convexité du Lagrangien du problème d’optimisation . . . . . . . . . . . . . . . 89
A.4 Limites de la fonction f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A.5 Méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
A.6 Calcul du taux de couverture calé sur deux niveaux d’informations . . . . . . . . 92
A.7 Limites du R2 et du R2 -ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.8 Estimateurs des composantes du T C red . . . . . . . . . . . . . . . . . . . . . . . 96
A.9 Intervalle de confiance Bootstrap : Méthode des percentiles . . . . . . . . . . . . 97

14
Introduction
Le caractère non cyclique et la croissance régulière connue par le marché de la complémen-
taire santé ont remobilisé les assureurs suite à la crise. L’assurance santé est ainsi redevenue,
depuis 2009, un secteur de premier plan pour les assureurs.

L’assurance santé complémentaire est aujourd’hui un marché largement développé en France,


regroupant un grand nombre d’acteurs répartis au sein de trois familles : Mutuelles, Assurances
et Institutions de prévoyance. Organisée autour de segments de marché sur lesquels certains
acteurs se sont spécialisés, l’assurance santé complémentaire est à ce jour un secteur très concur-
rentiel.

La forte compétitivité pousse les acteurs de l’assurance santé à vouloir comparer leurs offres
à celles des concurrents, ceci dans l’optique de déterminer le positionnement de leurs garan-
ties sur le marché. Cependant, les pratiques propres aux différents organismes rendent difficile
la comparaison des garanties santé. En effet, pour un poste de dépenses donné, les garanties
peuvent être exprimées sur des assiettes de remboursement différentes. Ainsi, si il est immédiat
qu’une garantie remboursant 80% des frais réels est meilleure qu’une garantie de 70% des frais
réels, la comparaison d’une première garantie de 80% des frais réels et d’une seconde indemnisant
à hauteur de 200% de la base de remboursement de la Sécurité Sociale se révèle plus compliquée.

L’objectif de ce mémoire est de proposer une méthodologie permettant d’évaluer, pour


chaque poste de dépenses, le niveau des garanties santé. Une telle méthodologie rendra ainsi
possible la comparaison des différentes offres du marché et le positionnement des divers acteurs.
Pour rendre cohérente leur comparaison, les niveaux des garanties doivent être estimés sur une
même base de dépenses. De plus, afin de conserver une approche neutre et ne pas favoriser
certaines garanties, le choix a été fait de se placer dans une situation sensée être représentative
de la réalité de marché, en considérant une sous-population assurée respectant la structure de
la population française pour plusieurs critères.

Ce mémoire présentera, dans un premier temps, les problématiques et les enjeux liés à
l’évaluation du niveau des garanties santé, ainsi que les différentes techniques utilisées jusqu’ici,
leur fonctionnement et leurs limites. La deuxième partie du mémoire s’intéressera à présenter en
détails la méthodologie développée, en se concentrant sur les hypothèses et les outils techniques
utilisés. Ensuite, la méthodologie sera mise en oeuvre sur le poste de dépenses Optique, relatif
aux frais engagés par les assurés pour les verres et les montures. Une attention particulière sera
également accordée à l’analyse des résultats. Enfin, la dernière partie portera sur l’application
de la méthode dans l’optique de comparer deux produits d’assurance santé sur quatre postes de
dépenses, pour ainsi fournir une évaluation de leur performance globale.

15
1 Présentation générale
1.1 Marché de l’assurance santé complémentaire
1.1.1 Un marché développé
En France, la couverture complémentaire santé relève de financements privés (à l’exeption
de la couverture maladie universelle complémentaire). Elle permet, pour un assuré, de couvrir
toute ou partie des dépenses de soins et de biens médicaux non prises en charge par l’Assurance
maladie obligatoire. On parlera, dans la suite de ce mémoire, de reste à charge primaire pour
désigner cette part des frais de santé qui demeure à la charge de l’assuré après le remboursement
de la Sécurité Sociale 1 .

Le marché de la couverture santé complémentaire est aujourd’hui très développé en France.


Les contrats d’assurance santé complémentaire se sont fortement diffusés au cours de ces trente
dernières années. Ainsi, un peu plus de deux personnes sur trois étaient couvertes par ce type de
contrat en 1980, cette proportion est ensuite passée de plus de quatre sur cinq en 1990 à près de
neuf sur dix en 1999. Depuis, la proportion de la population française bénéficiant d’une couver-
ture santé complémentaire n’a cessé d’augmenter pour atteindre un niveau de 94% en 2008. Le
marché de la complémentaire santé arrive aujourd’hui à maturité en englobant la quasi-totalité
de la population française.

Deux facteurs sont à l’origine du développement de l’assurance santé complémentaire en


France : les évolutions de la réglementation concernant le déremboursement des frais de santé
par la Sécurité Sociale, et les dispositions législatives visant à favoriser l’accès à une complé-
mentaire santé au plus grand nombre.
La part des dépenses de santé prise en charge par l’Assurance maladie obligatoire s’est progres-
sivement abaissée à partir de 1980 ou son maximum historique fut atteint : 80% des dépenses
relatives aux frais de santé étaient alors prises en charge par la Sécurité Sociale. Afin de limiter
ses remboursements, une hausse des tickets modérateurs et des forfaits hospitaliers a été amor-
cée, entraînant la baisse de la part de remboursement de l’Assurance maladie obligatoire à 77%
en 1990, ce niveau s’est ensuite stabilisé jusqu’à 2005, pour ensuite diminuer encore et atteindre
75,5% en 2009. En outre, de nouvelles réformes récentes sur les franchises médicales, les parti-
cipations forfaitaires et la diminution du taux de remboursement de certains médicaments ont
contribué à diminuer encore davantage la part de remboursement de l’Assurance santé obliga-
toire, et par conséquent à augmenter le reste à charge primaire des bénéficiaires.
Dans ce contexte, bénéficier d’une complémentaire santé est devenu quasiment indispensable
pour pouvoir accéder à des soins au coût en constante hausse et dont la part remboursée par
l’Assurance santé obligatoire n’a cessé de s’éroder.
Ainsi, pour favoriser l’accès à une complémentaire santé, l’état a mis en place plusieurs mesures,
visant notamment à lutter contre l’exclusion sociale par la santé. Les principales dispositions
législatives ayant contribué à la diffusion des complémentaires santé en France sont, par ordre
chronologique d’apparition :

– 1989, la loi Evin stipule que :


– Dans le cadre d’un contrat collectif à adhésion obligatoire, le contrat doit prévoir avec
un tarif encadré le maintien à titre individuel de la couverture des frais médicaux pour
les salariés quittant l’entreprise.
1. Le terme reste à charge est quand à lui utilisé pour désigner le montant des frais de santé dû par l’assuré
après les remboursements successifs de la Sécurité Sociale et de la complémentaire santé

16
– Dans le cadre d’un contrat collectif facultatif ou individuel, l’assureur ne peut résilier
la couverture des frais médicaux et la hausse du tarif doit être uniforme pour tous les
assurés.

– 2003, la loi Fillon favorise la mise en place de contrats collectifs obligatoires, en restrei-
gnant les avantages fiscaux - pour les entreprises et les salariés - à ces seuls contrats.

– 2005, l’aide à la complémentaire santé (ACS) 2 donne droit, pendant un an, à une aide
financière pour la cotisation d’une complémentaire santé.

– 2013, l’Accord national interprofessionnel (ANI) du 11 janvier 2013 fixe un calendrier de


négociations au niveau des branches professionnelles , dont l’un des objectifs est la générali-
sation de la couverture complémentaire des frais de santé par le biais de contrats collectifs.
L’ANI stipule que "Les branches professionnelles ouvriront des négociations avant le 1er
avril 2013, en vue de permettre aux salariés qui ne bénéficient pas encore d’une couverture
collective à adhésion obligatoire en matière de remboursements complémentaires de frais
de santé au niveau de leur branche ou de leur entreprise, d’accéder à une telle couverture".

Les dispositifs précédents ont permis de favoriser l’accès à une complémentaire santé au plus
grand nombre. L’ANI du 11 janvier 2013 va participer à élargir encore davantage l’accès à une
couverture santé complémentaire, mais va également avoir un impact sur la structure du marché
en favorisant les contrats collectifs au détriment des contrats individuels. L’ANI aura alors pour
effet d’accentuer la concurrence sur le marché de la couverture santé individuelle où certaines
cibles, comme les TNS 3 , vont devenir prioritaires pour les assureurs.

1.1.2 Un marché concurrentiel


L’assurance santé complémentaire est un maché fortement développé, qui occupe une place
majeure dans l’activité des assurances : en 2010, le marché de la complémentaire santé repré-
sentait 25% des primes collectées par les organismes d’assurance. Le caractère non-cyclique et
la forte croissance du marché de la complémentaire santé ont remobilisé les assureurs suite à la
crise. Le chiffre d’affaire de l’assurance santé complémentaire a progressé de 6.5% en moyenne
entre 2002 et 2010 4 , pour atteidre 31.3 milliard d’euros et ainsi constituer un secteur de premier
plan de l’assurance française. Ainsi, depuis 2009, la santé est redevenue un secteur attractif qui
pousse les assureurs à investir pour être compétitifs et développer de nouveaux produits (on
dénombre aujourd’hui environ dix mille produits d’assurance santé complémentaire en France).

Trois catégories d’acteurs se partagent le marché de l’assurance santé complémentaire en


France : les mutuelles, les sociétés d’assurance et les institutions de prévoyance. Pour l’année
2010, 681 organismes complémentaires étaient répertoriés sur le marché français. Les couver-
tures individuelles sont majoritairement assurées par les mutuelles (69.4%), suivent les sociétés
d’assurance (27.3%) et les institutions de prévoyance (3.3%). En ce qui concerne les contrats col-
lectifs, ils sont en majorité proposés par les mutuelles (36.9%) et les institutions de prévoyance
2. L’ACS est réservée aux personnes dont les ressources sont supérieures au plafond d’attribution de la cou-
verture maladie universelle complémentaire.
3. TNS : Travailleurs Non Salariés.
4. Source : Fonds CMU - DREES

17
Figure 3 – Chiffre d’affaire (Mds e ) du marché de la complémentaire santé

(36.9%), les sociétés d’assurance sont quand à elles plus en retrait sur ce secteur (26.2%) 5 . A
noter également qu’en 2010, les contrats collectifs et individuels représentaient respectivement
42% et 58% de l’ensemble des contrats santé. 6

Type d’organisme Nombre Répartition du Chiffre d’Affaire


Mutuelle 559 56%
IP 30 17%
Assurance 92 27%

Table 3 – Nombre d’organismes et répartition du C.A. Source : Fonds CMU - DRESS 2010.

Type d’organisme Contrats Individuels Contrats Collectifs Ensemble


Mutuelle 69.4% 36.9% 55.6%
IP 3.3% 36.9% 17.6%
Assurance 27.3% 26.2% 26.8%
Ensemble 100% 100% 100%

Table 4 – Répartition des assurés par type d’organisme. Source : DRESS 2010.

La rentabilité de l’assurance santé complémentaire, son caractère non cyclique et le nombre


élevé d’acteurs sur le marché sont trois facteurs qui ont fortement accentué la concurrence sur
ce secteur d’activité ces dernières années.
5. Source : DREES (Direction de la Recherche, des Etudes, de l’Evaluation et des Statistiques).
6. Source : Argus de l’assurance.

18
1.1.3 Un marché segmenté
Pour avoir une vue globale du marché français de l’assurance santé complémentaire, il
convient de distinguer les deux catégories de contrats existantes : les contrats à adhésion indivi-
duelle et les contrats collectifs. Un contrat individuel est souscrit par un particulier directement
auprès d’un organisme d’assurance complémentaire, alors qu’un contrat collectif est souscrit par
l’entreprise qui, la plupart du temps, s’engage à prendre en charge une partie des cotisations de
ses salariés. L’adhésion d’un salarié à un contrat collectif peut être à caractère obligatoire ou
facultatif.

Le développement de l’assurance santé complémentaire est fortement lié aux évolutions de


la législation française. En plus d’avoir connu une forte expansion durant les dernières décénies,
l’activité s’est également fortement diversifiée. En effet, l’assurance santé complémentaire est
aujourd’hui largement organisée autour de segments de marché.
Les principaux segments constituant le marché de l’assurance santé complémentaire en France
sont :

– Pour l’assurance individuelle : Etudiants/Jeunes actifs, Familles, Seniors, Frontaliers et


Expatriés.

– Pour l’assurance collective : Grandes entreprises, PME/TPE et Accords de branches.

Comme pour le transfert des frais de santé de la Sécurité Sociale vers les organismes complé-
mentaires, des dispositions réglementaires ont permis de créer de nouveaux segments d’activité,
instaurant de ce fait une compétitivité nouvelle entre les institutionnels de la complémentaire
santé souhaitant se positionner sur ces secteurs émergeants :

– La loi Madelin de 1994, favorisant pour les travailleurs indépendants l’accès à un cou-
verture santé complémentaire grâce à des déductions fiscales. Cette loi a ainsi permis de
développer le secteur de la complémentaire santé pour les travailleurs non salariés.

– Les contrats territoriaux de 2012, créant un nouveau segment d’activité pour la couverture
complémentaire santé des agents territoriaux.

Au final, le marché de l’assurance santé complémentaire est aujourd’hui fortement développé


et concurrentiel, c’est un marché sur lequel le positionnement vis à vis des offres concurrentes
est un enjeu essentiel pour les différents acteurs. La possibilité, pour un institutionnel de la
complémentaire santé, de savoir comment évaluer le niveau de ses garanties devient alors un
avantage certain pour le pilotage de son activité et son positionnement sur le marché.

19
1.2 Mécanismes de l’assurance santé complémentaire
1.2.1 Mécanisme de remboursement des dépenses de santé
Le mécanisme de remboursement des frais de santé s’articule autour de trois niveaux :

– Au niveau de la Sécurité sociale, via l’Assurance santé obligatoire. Pour chaque type d’acte
correspondent :
– Une Base de Remboursement de la Sécurité Sociale (BRSS), déterminant l’assiette à
partir de laquelle le remboursement de la Sécurité Sociale est calculé.
– Un taux de remboursement.
– Un Remboursement de la Sécurité Sociale (RSS), correspondant à l’application du taux
de remboursement à la BRSS.
– Un Ticket Modérateur (TM), égal à la différence entre la BRSS et le RSS. Le TM
représente ainsi la part des dépenses de santé restant à la charge de l’assuré après le
remboursement de l’Assurance Maladie pour un acte au tarif de convention, c’est-à-dire
hors dépassements d’honoraires.

– Au niveau de l’organisme complémentaire santé, on parlera de Remboursement Complé-


mentaire (RC).

– Au niveau de l’assuré, où le Reste à Charge (RAC) correspond à la part des frais de santé
à la charge de l’assuré après les remboursements successifs de la Sécurité Sociale et de
l’organisme complémentaire. Son importance est variable en fonction de la garantie pro-
posée par la complémentaire de chaque assuré.

La figure 4 présente le mécanisme de remboursement des frais engagés par un assuré dans le
cadre d’une consultation médicale.

Figure 4 – Mécanisme de remboursement des dépenses de santé

20
1.2.2 Les diverses expressions de garantie
Un des effets de la concurrence accrue entre les différents acteurs assurant une couverture
santé complémentaire est la multitude de produits proposés, et par conséquent un large panel
d’expressions pour les garanties de ces produits. Pour un poste de dépenses donné (Optique
par exemple) et pour deux assurances complémentaires offrant chacune une garantie pour ledit
poste, il est fréquent que les assiettes sur lesquelles sont exprimées ces garanties soient diffé-
rentes. Cette diversité est une source de difficultés à deux niveaux :

– Pour un particulier, comment voir clair dans l’éventail des offres qui lui sont proposées ? 7
Quelle garantie lui permettra d’être le mieux remboursé lors de ses dépenses de santé ? La
multitude d’expressions de remboursement entretient une forme d’opacité pour les clients.

– Pour les organismes de complémentaire santé, comment comparer leurs garanties à celles
de leurs concurrents ? Leur contrat garantissant un remboursement à hauteur de 90%
des frais réels est-il meilleur que l’offre adverse offrant quant à elle une indemnisation à
hauteur de 300% de la base de remboursement de la Sécurité sociale ? Cette difficulté à
comparer les diverses offres du marché peut constituer un frein à la concurrence.

Un des objectifs de ce mémoire est de répondre à ce besoin d’étalonnage vis à vis de la


concurrence.

Le tableau 5 ci-dessous regroupe différents types d’assiettes sur lesquelles peuvent être ex-
primées les garanties complémentaires santé :

Table 5 – Différents types d’expression des garanties

7. Les organismes complémentaires ont fait un effort de clarté en proposant un glossaire santé dans leur
Conditions Générales et sur leur site internet, mais ces informations restent difficilement compréhensibles pour
la plupart des particuliers.

21
1.3 La comparaison des niveaux de garantie
1.3.1 Les niveaux de garantie
Le niveau d’une garantie correspond à la capacité qu’a cette dernière de rembourser les frais
de santé engagés par un assuré. Autrement dit, il s’agit de la performance de la couverture
offerte par une garantie.

Il convient de bien faire la distinction entre le niveau d’une garantie, comme défini ci-dessus,
et sa rentabilité. La rentabilité, pouvant être mesurée à l’aide de plusieurs indicateurs (dont le PS
(le ratio Sinistres sur Primes) et le ratio combiné), permet à un assureur de savoir si son système
de tarification est adapté à son portefeuille d’assurés. Sa mesure constitue principalement un
outil de contrôle et de pilotage des garanties offertes par l’assureur. Le niveau d’une garantie,
comme on l’entend dans ce mémoire, fait référence à la qualité des remboursements dont les
assurés peuvent bénéficier par le biais de cette garantie. La connaissance de ce niveau doit
permettre de répondre à la question : Sur un poste de dépenses analysé, quelle est la meilleure
couverture ?

1.3.2 Les besoins et les objectifs


La forte concurrence du marché de l’assurance santé complémentaire impose aux différents
organismes d’être capables de mesurer avec précision le niveau de leurs garanties. A l’origine de
ce besoin nouveau, il existe trois objectifs majeurs pour les institutionnels :

– Un objectif marketing : être capable de se positionner vis à vis des garanties concurrentes.
Cela permettra à un assureur de voir si ses garanties santé surperforment (ou sousper-
forment) celles des autres acteurs du marché. Cet objectif constitue la problématique de
ce mémoire.

– Un objectif informatique : La rationalisation des gammes de produits. L’idée étant, pour


un institutionnel, de proposer à des clients présents sur des produits anciens de basculer
vers les formules du nouveau produit proposant les garanties les plus proches.

– Un objectif technique : l’intégration d’un indicateur du niveau de garantie à la tarification


des contrats santé, afin de tenir compte de l’aléa moral présent chez les assurés. L’aléa
moral correspond au comportement de l’assuré qui, se sachant bien remboursé, a tendance
à ne pas chercher à limiter ses dépenses de santé.

Le pilotage des garanties santé devient donc un enjeu essentiel pour les différents orga-
nismes souhaitant acquérir une certaine compétitivité sur le marché, mais également améliorer
le traitement informatique et la tarification de leurs produits.

1.3.3 Les difficultés


La principale difficulté qui se présente lors de la comparaison des niveaux de garantie est
la diversité des assiettes sur lesquelles ces garanties sont exprimées. Si il est immédiat qu’une
garantie offrant un remboursement à hauteur de 90% des frais réels est plus performante qu’une
garantie à 80% des frais réels, comment compararer le niveau d’une première garantie de 70%
des frais réels (FR) à celui d’une seconde garantissant un remboursement forfaitaire à hauteur
de 150e ?

22
La réponse à cette question n’est pas immédiate.
Considérons l’exemple suivant pour le poste Optique :
– Une garantie A rembourse 50% des FR, limité à 300e par an.
– Une garantie B propose un remboursement forfaitaire de 100e.

Un assuré de moins de 18 ans se voit prescrire des verres correcteurs du type "Verre blanc simple
foyer, sphère de -6,25 à -10,00" par son ophtalmologiste. Le montant des FR s’élève à 70e. La
base de remboursement de la Sécurité Sociale (BRSS) pour ce type de verre est de 26,88e, et
le taux de remboursement de 60%. Le remboursement de la Sécurité sociale est donc de :
60% × 26, 88 = 16, 128e. Les remboursements des garanties A et B sont égaux à :

– 50% × 70 − 16, 128 = 18, 872e pour la garantie A.


– min(70, 100) − 16, 128 = 53, 872e pour la garantie B.

La garantie B offre donc un meilleur remboursement dans ce cas particulier. Cependant, comme
la garantie A offre un remboursement proportionnel aux FR (dans la limite des 300e annuels),
et que la garantie B est forfaitaire, il existe un montant de FR à partir duquel la garantie A va
mieux rembourser que la B. Ce montant s’obtient en résolvant :

50% × F R ≥ min(F R, 100) (1)

Il vient donc immédiatement : F R ≥ 200e . Ainsi au-delà d’un montant de FR de 200e la


garantie A devient plus performante que la B.

La figure 5 montre, pour les deux garanties A et B, les montants remboursés en fonction du
niveau des frais réels.

Figure 5 – Remboursements des garanties A et B

23
A la vue de ces résultats, il apparaît délicat de définir laquelle des deux garanties précédentes
est la plus performante. La difficulté réside dans le fait que lorsque des garanties ne sont pas
exprimées en fonction de la même assiette, comme dans l’exemple précédent, elles se comportent
de manières différentes suivant l’évolution des frais réels engagés par l’assuré.

1.4 Les techniques couramment utilisées


1.4.1 Panorama des techniques
Il existe plusieurs techniques permettant d’apprécier le niveau d’une garantie. Pour la plu-
part, ces techniques ne permettent pas d’obtenir une mesure fine des niveaux de garantie, mais
sont cependant utilisées au vu de leur simplicité de mise en oeuvre et de la facilité d’interpré-
tation qu’elles apportent.

Les méthodes qu’il est possible de rencontrer dans la pratique sont les suivantes :

– La valeur de l’expression de garantie : Il est possible de mesurer le niveau d’une garantie


en se référant directement à la valeur appliquée à l’assiette pour le calcul du rembour-
sement complémentaire. Ainsi, si deux garanties sont exprimées en fonction de la même
assiette de référence, la comparaison est immédiate : une garantie de 300% de la BRSS
est supérieure à un garantie de 200% de la BRSS.
Cette technique est la plus triviale. Elle ne nécessite aucun calcul ni aucun traitement
informatique. Il est cependant évident que cette technique est extrêmement limitée et ne
permet pas de comparer des garanties exprimées sur des assiettes différentes.

– Le montant remboursé dans une situation de référence : Cette méthode consiste à com-
parer différentes garanties en les rapportant à une situation de référence, et à regarder
quelle garantie offre le meilleur remboursement. Par exemple, dans le cas d’une prothèse
en céramique d’un montant de 400e installée à deux assurés couverts par des garanties
différentes non obligatoirement exprimées sur la même assiette, il suffit de comparer le
reste à charge pour chacun des assurés.
Cette technique présente l’avantage de reposer sur un concept simple et pratique.

– Le montant maximum : Cet indicateur consiste à relever, pour un contrat donné, le mon-
tant maximal remboursé par la garantie étudiée.

– Le taux de couverture : Pour une garantie donnée, le taux de couverture est calculé comme
le rapport entre la somme des montants remboursés et la somme des montants engagés
pour les frais de santé.
C’est l’indicateur qui est le plus fréquemment utilisé pour mesurer le niveau d’une garantie.

1.4.2 Les limites de ces techniques


Les techniques citées précédemment reposent sur des concepts simples, et permettent d’avoir
une première perception de la qualité d’une garantie santé. Cependant, ces techniques se ré-
vèlent assez mal adaptées à la comparaison de plusieurs niveaux de garantie :

24
La valeur de l’expression de garantie permet uniquement de positionner entre elles des ga-
ranties exprimées sur la même assiette de remboursement.

Le montant remboursé dans une situation de référence ne saurait quant à lui être un in-
dicateur satisfaisant dans la mesure où cette méthode ne se fonde que sur un évènement de
référence. Or, comme il a été vu, deux garanties peuvent se comporter de manières très diffé-
rentes suivant le montant de FR engagé. Un évènement de référence ne peut donc pas fournir
une image complète de la qualité d’une garantie.

Le montant maximum, tout comme la méthode précédente, présente l’inconvénient de n’être


basé que sur la prise en compte d’un unique évènement : celui qui a donné lieu au rembourse-
ment maximal pour les garanties que l’on cherche à comparer. Le second désavantage de cette
méthode est la sensibilité aux valeurs extrêmes qu’elle présente, et une analyse particulièrement
minutieuse de ces valeurs serait à prévoir en vue d’appliquer une telle méthode.

Le taux de couverture semble a priori être la technique la mieux adaptée à la mesure des
niveaux de garantie. Etant basée sur l’ensemble des montants engagés et des remboursements
correspondants, cet indicateur prend en compte un comportement de la garantie plus large que
le montant maximum ou la situation de référence.
Cependant, le taux de couverture présente l’inconvénient majeur de dépendre directement des
frais réels engagés par l’assuré. Ce faisant, il devient très délicat de pouvoir comparer deux ga-
ranties différentes, dans la mesure où les bases de dépenses auxquelles s’appliquent ces garanties
peuvent ne pas être semblables. Ainsi, l’utilisation de cet indicateur pour comparer les niveaux
de plusieurs garanties nécessite des distributions de frais réels homogènes.
L’accès à une base de dépenses communes, regroupant l’ensemble des frais réels engagés par
les assurés pour chacune des garanties, permettrait de corriger le biais de cet indicateur. En
effet, une telle base offrirait la possibilité de calculer les remboursements que seraient suscep-
tibles d’accorder les garanties si elles étaient appliquées aux mêmes dépenses de santé. Hors, en
pratique, cette idée semble difficilement réalisable : les frais de santé constituant des bases de
données très volumineuses pour chaque assureur, le regroupement de ces bases pour constituer
une base commune sur laquelle seraient calculés, pour chaque ligne, les remboursements hypo-
thétiques de toutes les garanties nécessiterait une énorme capacité de traitement informatique.

1.5 Techniques récentes


1.5.1 Présentation
J.M Aouizerate [2] a récemment proposé un indicateur permettant de mesurer le niveau
d’une garantie complémentaire santé. Cet indicateur se propose de corriger le biais dont souffre
le taux de couverture, à savoir sa sensibilité aux montants de frais réels engagés par les assurés.
L’idée, comme présentée ci-dessous, est de simuler les remboursements pour les garanties que
l’on cherche à comparer sur une base de dépenses communes. Pour un poste de dépenses donné,
cette base correspond à l’ensemble du portefeuille de contrats regroupant des garanties relatives
au poste en question.
L’indicateur proposé est défini comme : "Le taux de couverture fictif qu’aurait un contrat si ses
garanties étaient appliquées sur l’ensemble du portefeuille".
La simulation des garanties pour chaque ligne du portefeuille étant très contraignante en terme
de temps de calcul, la méthode retenue consiste à segmenter la distribution de FR du porte-
feuille en plusieurs tranches. Ensuite, pour un produit dont on cherche à mesurer la garantie,
on calcule le taux de couverture pour chacune des tranches de dépenses. Enfin, on somme les

25
taux de couverture, pondérés par les poids des tranches dans le portefeuille.

En considérant les notations suivantes :

– ΓP : ensemble des FR du portefeuille


– F Rk , Rk : respectivement le k ème frais réel du portefeuille et le remboursement corres-
pondant.
– N : nombre de tranches de FR
– τ = { ti , i ∈ [1, N ] } : ensemble des tranches de FR
– ΓC : ensemble des FR relatifs au contrat C

Le poids d’une tranche dans le portefeuille, calculé sur l’ensemble des FR du portefeuille, est
donné par : X
F Rk × 1{F Rk ∈ ti }
k∈ΓP
ωti = X , ti ∈ τ (2)
F Rk
k∈ΓP

Le taux de couverture de la tranche est calculé sur l’ensemble des FR relatifs au contrat C par :
X
Rk × 1{F Rk ∈ ti }
k∈ΓC
T Cti = X , ti ∈ τ (3)
F Rk × 1{F Rk ∈ ti }
k∈ΓC

L’indicateur du niveau de la garantie, pour le contrat C, est alors obtenu en sommant les
taux de couvertures pondérés par le poids des tranches correspondantes :
X
Indic = ωti × T Cti (4)
ti ∈τ

Au final, l’indicateur obtenu constitue une estimation du taux de couverture qu’aurait eu la


garantie si elle avait été appliquée à la totalité des FR du portefeuille.

1.5.2 Avantages et inconvénients


La technique présentée permet de corriger partiellement le biais du taux de couverture. En
pondérant les taux de couverture calculés sur chaque tranche en fonction du poids de ces der-
nières dans le portefeuille, on diminue les disparités existantes entre les distributions de FR pour
les différentes garanties. L’indicateur représente une estimation du taux de couverture moyen
qu’auraient eu les garanties si les proportions des tranches de dépenses auxquelles elles sont
appliquées avaient été identiques.

Cependant, la subdivision des FR repose sur l’hypothèse selon laquelle les distributions de
FR sont, pour toutes les garanties, "homogènes" sur les tranches constituées. Une segmenta-
tion des dépenses en tranches trop épaisses risque de ne pas être suffisante pour corriger les
fortes disparités pouvant exister entre les distributions de FR. A l’opposé, la prise en compte de
chaque montant de FR, par une segmentation unitaire des dépenses, permettrait de totalement
corriger ces différences. Or, une segmentation trop fine des FR aura pour conséquence de voir
des garanties pour lesquelles aucune dépense n’aura été engagée sur certaines tranches, et par
conséquent aucun remboursement. Dès lors se pose le problème d’estimer, pour une garantie, le

26
taux de couverture sur une tranche de dépenses pour laquelle aucun frais n’a été engagé.

Le niveau de segmentation à adopter pour les dépenses constitue donc une problématique
majeure lors de la mise en oeuvre de cette méthode.

27
2 Méthode d’évaluation des niveaux de garanties
2.1 Introduction
L’objectif de ce mémoire est de développer une méthode permettant d’évaluer le niveau des
garanties santé. Cette méthode d’évaluation doit permettre de constituer un benchmark des
différentes garanties santé par poste de dépenses, et ainsi fournir une vision des diverses offres
du marché et de leur performance.

Pour pouvoir comparer plusieurs niveaux de garantie, il est nécessaire de se placer dans une
situation où les dépenses engagées par les assurés sont identiques pour l’ensemble des garanties
considérées. La création d’une base de dépenses commune constitue donc la première étape de
la méthode présentée dans ce mémoire.
A partir de cette base de dépenses, on se propose de calculer les remboursements offerts par
les diverses garanties. Connaissant ces remboursements et les frais engagés par les assurés, il
est alors possible de calculer les taux de couverture relatifs aux différentes garanties. Sachant
que les taux de couverture reflètent les niveaux des garanties, leur calcul sur une même base
de frais réels rend alors possible leur comparaison. Dans un dernier temps, la méthode vise à
redresser les taux de couverture obtenus, pour tenir compte du fait que la base de dépenses sur
laquelle ces derniers sont calculés n’est pas totalement représentative de la population française.

Cette partie présente les étapes de la méthode mise en place et les outils théoriques utilisés
pour y parvenir.

Afin d’alléger les expressions et les formules utilisées dans cette section, les notations sui-
vantes sont utilisées :
– n : le nombre de dépenses engagées par les assurés.
– xk : le k ème frais réel, k ∈ [1, n].
– yk : le k ème remboursement associé. 8
– τ : le taux de couverture de la garantie considérée.

Le taux de couverture étant égal au rapport entre la somme des remboursements et la somme
des frais réels, on a donc :
n
X
yk
k=1
τ= n (5)
X
xk
k=1

2.2 Etapes de la méthode


2.2.1 Création d’une base de dépenses représentative de la population
Nous disposons des données provenant d’un contrat d’assurance santé complémentaire pour
plusieurs postes de dépenses spécifiques. Ces données comprennent l’ensemble des frais de santé
engagés par les assurés pour le poste en question.
Pour pouvoir calculer les taux de couverture des différentes garanties sur une même base de
frais réels, on souhaite modifier la structure des données dont nous disposons pour approcher le
plus finement possible la structure de la population française. Disposer d’une base de dépenses
8. Le terme remboursement fait ici référence à la somme du remboursement de la Sécurité Sociale et du
remboursement complémentaires offert par la garantie

28
provenant d’une population assurée proche de la population française permettra de calculer les
taux de couverture des différentes garanties dans une situation proche de la réalité du marché.
Les taux de couverture ainsi obtenus peuvent être interprétés comme une estimation des taux
de couverture qu’auraient eu les différentes garanties si les distributions de frais réels auxquelles
elles s’appliquent avaient été représentatives de l’ensemble de la population française.

Comme les frais réels à disposition sont issus d’un unique contrat d’assurance santé com-
plémentaire, ils risquent fortement de ne pas correspondre à la vraie structure de la population
française. En effet, comme nous le verrons lors de la mise en oeuvre de la méthode, certaines
classes de la population sont mal représentées à l’intérieur de notre échantillon de départ. Cela
s’explique par le fait que certaines personnes ont un intérêt personnel à choisir une complé-
mentaire santé en particulier. Ainsi une personne âgée, dont une partie importante des frais de
santé concerne les soins optiques, aura un intérêt tout particulier à opter pour une assurance
complémentaire offrant un meilleur remboursement pour ce poste de dépenses.

2.2.2 Estimation du taux de couverture


Disposant d’une base de dépenses rendue plus représentative de celle de la population fran-
çaise, il est alors possible de calculer les remboursements offerts par chaque garantie dont on
cherche à évaluer le niveau. En effet, connaissant les frais réels engagés et les remboursements
de la Sécurité Sociale pour les types d’actes considérés, on peut alors déduire le remboursement
complémentaire fourni par une garantie.

Le niveau d’une garantie est alors représenté par son taux de couverture. En notant n la taille
de l’échantillon constitué pour représenter au mieux la structure de la population française, on
peut réécrire, d’après l’équation (5) le taux de couverture de la manière suivante :
n
X
1
n yk
k=1 y
τ= n = (6)
1
X x
n xk
k=1

Avec y, x les moyennes empiriques des remboursements et des frais réels sur l’échantillon.
L’écriture du taux de couverture sous la forme d’un rapport de moyennes sera utile dans la pro-
chaine étape de la méthode, qui consiste à redresser le taux de couverture pour tenir compte du
fait que l’échantillon de frais réels constitué n’est pas entièrement représentatif de la population
française.

2.2.3 Redressement du taux de couverture


Suite à la création de la base de dépenses et au calcul des remboursements complémentaires,
nous pouvons déterminer le taux de couverture τ , représentant le niveau de la garantie consi-
dérée. Cependant, l’objectif est d’obtenir un taux de couverture calculé sur la même base de
dépenses pour toutes les garanties dont on cherche à mesurer le niveau, et cette base est censée
refléter la structure de dépenses de la population française. Or, comme nous pourrons le voir, la
modification de la base de dépenses initiale que nous effectuons, basée sur le respect des quotas
de certaines variables explicatives pour les frais réels, ne se révèle pas suffisante pour garantir
la représentativité de notre échantillon final.
Ainsi, il convient de redresser le taux de couverture obtenu afin d’obtenir une estimation du
niveau de la garantie dans une situation proche de la réalité de marché.

29
Nous présenterons deux méthodes visant à redresser le taux de couverture. La première mé-
thode envisagée visera à estimer la valeur du taux de couverture dans le cas où l’estimateur
de la moyenne des frais réels est égal à la moyenne constatée sur la totalité de la population
française. Cette première méthode se basera sur une hypothèse de gaussienneté des estimateurs
de la moyenne des frais réels et des remboursements, puis sur le calcul d’une espérance condi-
tionnelle. La seconde méthode sera quant à elle basée sur une technique fréquemment utilisée
pour redresser les estimations des sondages : le calage sur marge. Le calage sur marge est la
méthode que nous avions utilisée à l’origine, mais les limites apparues lors de sa mise en oeuvre
nous ont poussés à développer une seconde approche.

Le schéma ci dessous récapitule les différentes étapes de la méthode développée :

Figure 6 – Etapes de la méthode d’évaluation des niveaux de garantie

Les sections 2.3 et 2.4 s’attardent à présenter en détails les outils et techniques utilisés au
niveau des différentes étapes de la méthode d’évaluation des niveaux de garantie développée
dans ce mémoire.

Afin d’illustrer les différentes étapes, nous présenterons également plusieurs résultats obtenus
pour le poste de dépenses Consultation/Visite. Les différentes garanties pour ce poste sont
presque toujours exprimées en pourcentage de la Base de Remboursement de la Sécurité Sociale,
et leur comparaison est donc immédiate. Cependant, ces premiers résultats nous permettrons
de mieux appréhender les effets de la méthodologie mise en place.

2.3 Outils pour la création de la base


A partir de notre échantillon initial, nous cherchons à construire un sous-échantillon qui
garantirait une certaine représentativité des frais réels pour l’ensemble de la population. L’ob-
jectif est ainsi d’approcher au mieux la structure de dépenses de l’ensemble de la population
française.

30
2.3.1 Sélection par quotas
Pour garantir la représentativité des frais réels, la méthode utilisée s’appuie sur la logique
de sélection d’échantillon mise en oeuvre pour les sondages empiriques.
En notant :
– U : L’ensemble de la population française
– S1 : L’ensemble des individus composant notre échantillon initial
– S2 : L’ensemble des individus présents dans le sous-échantillon final

Pour constituer le sous-échantillon représentatif des frais réels de la population, l’idée est de
resélectionner des individus de l’échantillon initial pour respecter certaines caractéristiques de la
population globale. La technique de sélection par quotas utilisée se décrit comme suit : Connais-
sant la structure de la population U d’après sa répartition au sein de H classes définies par les
modalités de p variables catégorielles x1 , x2 , . . . , xp , et en se fixant un nombre d’individus pour
S2 , l’idée consiste à resélectionner des individus de S1 pour respecter les quotas des H classes
au sein de la population U.

Les variables catégorielles x1 , x2 , . . . , xp sont des variables dont la valeur est connue pour
chaque assuré, comme par exemple l’âge, le sexe ou la catégorie socio-professionnelles. Pour que
la sélection par quotas ait un sens, il convient de vérifier au préalable que les variables utilisées
pour définir les classes de la population soient explicatives pour les frais réels.
Considérons par exemple une sélection par quotas d’après les variables catégorielles x1 = âge
et x2 = sexe ayant respectivement M et L modalités (L = 2 dans notre exemple). On connaît
la structure de la population U par rapport aux modalités de ces deux variables à partir de
données nationales. Deux méthodes de sélection par quotas sont envisageables :
– La sélection par quotas marginaux, où l’on impose que le sous-échantillon ait la même
structure que la population U pour chacune des deux variables.
– La sélection par quotas croisés, où l’on impose cette fois que le sous-échantillon ait la
même structure que U pour chaque classe définie par le croisement de ces deux variables.

Nous nous intéressons ici à la méthode de sélection par quotas croisés car, comme il sera vu lors
de la mise en oeuvre, les variables croisées sont explicatives des frais réels.
Notons alors :

– N : le nombre total d’individus de U.


– Uml : la classe de la population U contenant les individus présentant la modalité m × l
pour la variable croisée âge × sexe , m ∈ [1, M ] , l ∈ [1, L] .
– Nml : le nombre d’individus de Uml .

Si l’on souhaite que le sous-échantillon S2 soit composé de n0 individus, alors pour respec-
ter les quotas des classes Uml , on sélectionne nml individus dans chaque classe équivalente de
l’échantillon initial S1 . Il faut donc, pour respecter les quotas, que nml vérifie :

nml Nml Nml


= ⇐⇒ nml = n0 × (7)
n0 N N

La sélection des individus s’effectue par un tirage sans remise, cela dans l’optique de pouvoir
supposer que les observations de l’échantillon final sont des réalisations indépendantes. Cepen-

31
dant, le tirage sans remise induit une perte d’information, et il faut de plus que les tailles de
classes nml soient inférieures à celles des classes de l’échantillon initial pour que le tirage sans
remise soit possible. Une attention toute particulière doit donc être accordée lors de la construc-
tion de l’échantillon final.

Le tableau 6 présente l’exemple de calcul des nouveaux poids pour les quatres premières
tranches âge/Sexe, avec n0 = 6000.

Nombre initial proportion proportion cible Nombre final


Tranche d’individus initiale Nml /N d’individus nml
(%) (%)
H : [0,10] 879 9.46 8.92 535
F : [0,10] 815 8.77 8.54 512
H : ]10,20] 813 8.75 8.07 484
F : ]10,20] 782 8.46 7.72 463

Table 6 – Anciens et nouveaux nombres d’individus par tranches

2.3.2 Variables significatives


A partir des données initiales, on souhaite construire un sous-échantillon repésentatif de la
population française pour les quotas de certaines variables catégorielles. Ce procédé se justi-
fie par le fait que les sous-populations, définies par les modalités de ces variables catégorielles,
n’ont pas le même comportement vis à vis des frais réels engagés. L’action de rapprocher le sous-
échantillon de la structure de la population française pour les quotas de ces variables permet
alors de se placer dans une situation proche de la réalité de marché en terme de consommation
de frais de santé.
L’objectif est donc ici de tester si des variables catégorielles ont un effet significatif sur les frais
réels engagés par les assurés.

Pour tester l’influence de variables qualitatives sur une variable quantitative, on effectue
classiquement un test d’analyse de la variance (ANOVA en abrégé 9 ). L’ANOVA à un facteur
est utilisé pour tester l’influence d’une unique variable catégorielle. Pour tester la significativité
de deux variables catégorielles sur une variable quantitative, on utilise un test ANOVA à deux
facteurs. Dans le cas d’un nombre de variables catégorielles supérieur à deux, un test d’analyse
de la variance multifactoriel (MANOVA en abrégé) est utilisé.

Cependant, l’inconvénient des tests d’analyse de la variance, tels que cités ci-dessus, est
qu’ils reposent sur une hypothèse de normalité de la variable quantitative au sein de chacune
des sous-populations définies par les modalités des variables catégorielles. Or, cette hypothèse
se trouve souvent invalidée dans la pratique, comme le montre la figure 7. C’est pourquoi nous
aurons ici recours à une variante non-paramétrique des tests d’analyse de la variance, non basée
sur l’hypothèse de normalité : le test de Kruskal-Wallis.
Le test de Kruskal-Wallis est présenté en détails en annexe (Annexe A.1). Nous retenons ici
qu’il s’agit d’un test permettant de vérifier si les valeurs observées pour la variable quantitative
sont issues d’une même loi sur chacune des sous-populations.

9. ANOVA : ANalysis Of VAriance

32
Figure 7 – Densité des frais réels pour le poste Consultation/Visite

En reprenant l’exemple des données dont nous disposons pour le poste des consultations
médicales, on souhaite tester si la variable croisée âge × Sexe a un effet significatif sur les frais
réels engagés par les assurés. Le choix des variables catégorielles à tester est ici limité : les
variables âge et Sexe sont des variables dont on connaît la valeur prise pour chacun des assurés
que l’on observe. Ce sont également les deux variables pour lesquelles on connaît la structure
de la population française d’après la pyramide des âges de l’Insee.

Dans notre exemple, on sépare notre échantillon de frais réels en 14 groupes définis par les
modalité de la variable âge × Sexe (il y a sept tranches d’âges et deux catégories de sexe). On
teste l’hypothèse nulle H0 d’égalité des 14 paramètres de position 10 contre l’hypothèse alterna-
tive H1 d’inégalité d’au moins deux de ces paramètres.
En se fixant un niveau de confiance de 95%, la p-value du test de Kruskal-Wallis obtenue pour
notre exemple est très faible (de l’ordre de 10−16 ), et l’hypothèse nulle H0 est donc rejetée. On
en conclut que nos groupes de frais réels ne sont pas tous issus d’une même population. La
variable croisée âge × Sexe a donc une influence sur les frais réels engagés par les assurés.

Il faut cependant rester prudent avec l’interprétation des résultats du test de Kruskal-Wallis,
car, comme un test ANOVA, il ne nous renseigne ni sur le nombre de groupes qui proviennent
d’une population différente, ni dans quelles proportions ces groupes s’éloignent de la population
"standard". Toutefois, notre objectif ici n’est pas d’identifier quels groupes sont responsables du
rejet de H0 , mais de savoir si des groupes de notre échantillon ont une consommation de frais
réels différente. Les résultats du test de Kruskal-Wallis nous fournissent une réponse à cette
question. Il apparaît alors cohérent de créer un sous-échantillon respectant les quotas croisés
âge × Sexe de la population française dans l’optique d’approcher au mieux sa structure de
dépenses.

10. ces paramètres sont définis par la médiane des frais réels au sein de chaque groupe

33
2.4 Méthodes pour le redressement du taux de couverture
Deux méthodes sont présentées ci-dessous pour le redressement du taux de couverture cal-
culé sur le sous-échantillon construit grâce à une sélection par quotas.
La première méthode repose sur des hypothèses de gaussienneté et sur le calcul d’une espérance
conditionnelle.
La seconde méthode est basée sur l’adaptation d’une technique de redressement utilisée en son-
dage : le calage sur marges.

Deux techniques sont ainsi développées et testées. Ce choix se justifie par souci de proposer des
méthodes adaptées à différents cas de figures : le calage sur marge est très rapide à mettre en
oeuvre, mais fournit dans certain cas des résultats peu cohérents. La méthode basée sur le calcul
de l’espérance conditionnelle fournit dans l’ensemble de meilleurs résultats, mais nécessite en
contrepartie un temps de calcul bien plus important.

L’objectif est de corriger la valeur du taux de couverture pour tenir compte du fait que le
sous-échantillon créé précédemment n’est pas suffisamment représentatif des frais réels de la
population française. Le but de la méthodologie développée dans ce mémoire est d’évaluer le
niveau des garanties dans une situation qui se veut la plus proche possible de la situation de
marché, c’est-à-dire une situation où les différentes garanties seraient calculées sur une distri-
bution de frais réels reflétant au maximum celle de la population française.

Les deux techniques de redressement reposent sur l’utilisation d’une information auxiliaire :
le montant moyen de frais réels sur l’ensemble de la population française. Ce montant moyen
peut être estimé à partir de diverses études extérieures sur les frais de santé. Il semble alors
intéressant d’incorporer cette information pour corriger la valeur du taux de couverture.

2.4.1 Espérance conditionnelle


La première méthode vise à prédire la valeur du taux de couverture dans le cas où la moyenne
des frais réels constatée sur le sous-échantillon serait égale à la "vraie" moyenne des frais réels
pour l’ensemble de la population française.
Afin de simplifier les notations, on considère une garantie quelconque dont on cherche à évaluer
le niveau. A partir du sous-échantillon créé précédemment, les remboursements complémentaires
correspondants aux frais réels et aux remboursements de la Sécurité Sociale ont été calculés.

2.4.1.1 Hypothèses et objectif


D’après le sous-échantillon, on observe (x1 , y1 ), (x2 , y2 ),. . . , (xn , yn ), avec xk le k ème frais
réel et yk le remboursement correspondant, égal à la somme du remboursement de la Sécurité
Sociale et du remboursement complémentaire offert par la garantie étudiée.

On interprète (x1 , y1 ), (x2 , y2 ),. . . , (xn , yn ) comme étant une réalisation de l’échantillon
(X1 , Y1 ), (X2 , Y2 ),. . . , (Xn , Yn ), avec (X1 , Y1 ), (X2 , Y2 ),. . . , (Xn , Yn ) des vecteurs aléatoires
indépendants et identiquement distribués, ou i.i.d en notation abrégée.
Le taux de couverture τ est obtenu d’après l’équation (6), et un estimateur intuitif est :

Y
Tb = (8)
X

34
avec Y et X les estimateurs de la moyenne des remboursements et des frais réels :
n n
1X 1X
Y = Yk , X= Xk (9)
n k=1 n k=1

L’objectif est ici de prédire la valeur du taux de couverture dans le cas où le montant moyen
des frais réels constaté sur l’échantillon serait égal à celui de la population française. Ainsi, en
notant µ∗x la moyenne des frais réels constatée sur l’ensemble de la population française, on
cherche à calculer T C red défini par :
h i
T C red = E Tb | X = µ∗x
Et d’après l’équation 8, il vient :
" #
Y 1 h i
TC red
=E | X = µ∗x = ∗
E Y | X = µ∗x (10)
X µx
red revient à déterminer la quantité
h Au final, le icalcul du taux de couverture redressé T C
E Y | X = µ∗x , avec E[ . ] l’espérance sous la loi du couple (X, Y ).

2.4.1.2 Etapes de calcul h i


Le calcul de la quantité E Y | X = µ∗x est basé sur l’utilisation des deux théorèmes sui-
vants :

Théorème 2.4.1. (Théorème Limite Centrale bivarié)


Soit (Ui , Vi )1≤i≤n , n vecteurs aléatoires i.i.d et de carré intégrable, alors :
n
1 X L
√ (Ui − E[Ui ], Vi − E[Vi ]) −→ N (0, Σ)
n i=1 n→+∞

où Σ représente la matrice de variance-covariance commune aux couples aléatoires


(Ui , Vi )1≤i≤n .

Théorème 2.4.2. (Conditionnement d’un vecteur gaussien)


Si (U, V ) est un vecteur gaussien, alors :

Cov(U, V )
E [ V | U ] = E [V ] + (U − E [U ])
V ar(U )

La démonstration de ce théorème se trouve en annexe (Annexe A.2).

D’après le théorème 2.4.1, le vecteur (X, Y ) est asymptotiquement gaussien. Comme, dans
notre cas, la taille de l’échantillon n est très grande, on suppose que le vecteur (X, Y ) est
approximativement gaussien. h i
Alors, d’après le théorème 2.4.2, la quantité E Y | X = µ∗x peut être calculée par :
h i h i Cov(X, Y )  ∗ h i
E Y | X = µ∗x = E Y + µx − E X (11)
V ar(X)

35
Au final, d’après les équations (10) et (11), l’expression du taux de couverture redressé est la
suivante :
!
1 h i 1 h i Cov(X, Y )  ∗ h i
TC red
= ∗ E Y | X = µ∗x = ∗ E Y + µx − E X (12)
µx µx V ar(X)
h i h i h i
Ainsi, pour calculer E Y | X = µ∗x , il convient d’estimer E Y , E X , Cov(X, Y ) et
V ar(X).

2.4.1.3 Bootstrap h i h i
Afin d’estimer les quantités E Y , E X , Cov(X, Y ) et V ar(X), on utilise une technique de
réechantillonnage : le Bootstrap. Le Bootstrap et son utilisation, pour l’estimation des quantités
citées précédemment, seront présentés en détails dans la section 2.5. Néanmoins, la logique de
cette technique est la suivante :
A partir de l’échantillon (Xi , Yi )1≤i≤n , on constitue B rééchantillons (Xib , Yib )1≤i≤n , b ∈ [1, B] en
tirant aléatoirement avec remise des couples (xi , yi ). Sur chacun des rééchantillons, on calcule
h iBoot h iBoot
b b
les réalisations des estimateurs Y , X . Les estimations Bootstrap E Y et E X sont
alors obtenues par les approximations de Monte-Carlo :
B n
h iBoot 1 X 1X
– E Y = y b , avec y b = yb
B b=1 n i=1 i
B n
h iBoot 1 X X
– E X = xb , avec xb = 1
n xbi
B b=1 i=1
On déduit alors les estimations Bootstrap Cov(X, Y )Boot et V ar(X)Boot d’après les expres-
sion des estimateurs de la covariance et de la variance :
B 
Boot 1 X b
h iBoot  
b
h iBoot 
– Cov(X, Y ) = x −E X y −E Y
B − 1 b=1
B 2
1 X
 h iBoot
– V ar(X)Boot = xb − E X
B − 1 b=1

La valeur du taux de couverture redressé est alors obtenue d’après l’équation (12) en utilisant
les estimations Bootstrap :

!
1 Cov(X, Y )Boot
h iBoot  h iBoot

T C red = ∗ E Y + µ x − E X
µx V ar(X)Boot

h i h i
Remarque : Les quantités E Y , E X , Cov(X, Y ) et V ar(X) peuvent, après quelques
calculs, être estimées directement à partir de l’échantillon de départ. L’utilisation du rééchan-
tillonnage permet cependant de fournir une distribution des couples de moyennes (x, y) et de
visualiser la structure de dépendance liant ces deux grandeurs.

36
La figure 8 présente les résultats obtenus pour différentes garanties du poste Consulta-
tion/Visite exprimées en pourcentage de la Base de Remboursement de la Sécurité Sociale
(BRSS).

Figure 8 – Evolution du taux de couverture redressé en fonction de la garantie

A partir des expressions des diverses garanties, les remboursements ont été calculés sur le
sous-échantillon, où la moyenne des frais réels est de 29,7e. La courbe bleue représente, pour
chacune des garanties, la valeur du taux de couverture non redressé (i.e. : calculé directement
sur le sous-échantillon). La courbe rouge permet quant à elle de visualiser les différentes valeurs
obtenues pour le taux de couverture redressé, avec µ∗x = 28e .
Ces premiers résultats permettent de juger de la cohérence de la méthode :
– Le taux de couverture redressé reste supérieur au taux de couverture initial pour toutes
les garanties considérées. Cela est logique : pour une même garantie, le taux de couverture
est d’autant plus élevé que la moyenne des frais réels est basse.
– L’effet du redressement sur le taux de couverture est d’autant plus important que la
garantie est faible. Une garantie peu élevée se retrouve vite limitée dans sa capacité de
remboursement, et cette capacité se voit accentuée dans le cas d’une baisse de la moyenne
des frais réels. A contrario, une bonne garantie couvre déjà une large partie des dépenses
engagées par les assurés, son taux de couverture est alors beaucoup moins sensible à une
baisse de la moyenne des frais réels.

2.4.2 Estimateur par calage


La deuxième méthode présentée dans ce mémoire est adaptée d’une technique de redresse-
ment souvent utilisée sur les résultats des sondages : le calage sur marges.

2.4.2.1 Principe du calage


On connaît µ∗x la vraie moyenne des frais réels sur l’ensemble de la population française.
On souhaite que le taux de couverture soit calculé en tenant compte de cette information,
cela dans le but de se placer dans une situation reflétant au maximum la situation de marché.

37
Pour mémoire, lors de la construction du sous-échantillon présentée dans la section 2.3, une
séparation de la population en H classes disjointes a été utilisée. Le taux de couverture calculé
sur le sous-échantillon peut alors se réécrire :
n H
1
X X nh
n yk yh
k=1 h=1
n
τ= n = H
(13)
1
X
xk
X nh
n xh
k=1 h=1
n

avec nh le nombre de frais réels correspondant aux individus de la tranche h, xh et y h les


moyennes des frais réels et des remboursements de la tranche h, h ∈ [1, H].
Notons alors dh = nnh le poids de la tranche h, h ∈ [1, H]. Le taux de couverture s’écrit alors :
H
X
dh y h
h=1
τ= H
(14)
X
dh xh
h=1

L’idée est alors de modifier la valeur des poids des tranches pour respecter l’information
auxiliaire selon laquelle le montant moyen des frais réels est égal à µ∗x sur l’ensemble de la
population. Pour ce faire, on cherche les nouveaux poids ωh∗ tels que la moyenne des frais réels
sur notre échantillon, recalculée avec ces nouveaux poids, soit égale à µ∗x . Ainsi, on cherche à
obtenir les ωh∗ permettant d’écrire :
H
ωh∗ xh = µ∗x
X
(15)
h=1

L’équation (15) est appelée équation de calage. On parle de calage car on impose que la
moyenne de la variable x sur le sous-échantillon soit égale à celle de la population globale.

Le nouveau taux de couverture est alors calculé en remplaçant dans l’équation (14) les dh
par les nouveaux poids ωh∗ . Ce taux de couverture "calé" sera noté T C cal dans la suite de ce
mémoire, par opposition au taux de couverture redressé T C red défini précédemment.
Soit :
H
ωh∗ y h
X
H
h=1 1 X
T C cal = = ω∗ y (16)
H µ∗x h=1 h h
ωh∗ xh
X

h=1

2.4.2.2 Méthode de calcul


Nous nous intéressons ici à la manière dont sont calculés les nouveaux poids ωh∗ , h ∈ [1, H].
L’utilisation de nouveaux poids va modifier les estimations de la moyenne des frais réels et
des remboursements, mais il faut cependant garantir que ces nouveaux poids ne sont pas trop
éloignés des poids initiaux.
On cherche donc à déterminer les nouveaux poids ωh∗ :
– proches des poids initiaux dh , h ∈ [1, H]
H
ωh∗ xh = µ∗x
X
– vérifiant l’équation de calage (15) :
h=1

38
Ainsi le calcul des poids (ω1∗ , . . . , ωH
∗ ) se présente classiquement comme un problème d’optimi-

sation sous contrainte, où l’on cherche les (ω1∗ , . . . , ωH∗ ) solutions de :

H
ωh
X  
min dh G (17)
(ω1 ,...,ωH )∈<H
h=1
dh

sous les contraintes : 


 H
X
= µ∗x




 ωh xh
h=1
 H
X




 ωh = 1
h=1

La première contrainte est définie par l’équation de calage. La deuxième sert, quant à elle,
à imposer que la somme des nouveaux poids  soit
 bien égale à 1.
ωh
G est une fonction de distance telle que G dh mesure l’écart entre les poids finaux ωh et les
poids initiaux dh , h ∈ [1, H].
Une telle fonction doit vérifier :
– G(1) = 0.
– G est une fonction positive et convexe.  
La convexité de la fonction G assure ainsi que G ωdhh sera d’autant plus grand que ωdhh s’éloigne
de 1, c’est-à-dire que la distance entre ωh et dh augmente.
En pratique, il existe plusieurs fonctions de distance usuelles pouvant être utilisées.

Choix de la fonction de distance :


Comme il sera vu lors de la résolution du problème d’optimisation, l’expression des poids finaux
(ωh∗ )h∈[1,H] fait intervenir la fonction inverse de la dérivée de G. Cette fonction sera notée F par
souci de simplicité.
Plusieurs fonctions de distance ont été présentées dans la littérature. Les deux fonctions classi-
quement utilisées apparaissent sous les appélations de méthode linéaire et méthode raking ratio :

– méthode linéaire : la fonction de distance est définie par G : x ∈ <∗+ 7−→ 12 (x − 1)2 , et
alors F (x) = 1 + x
– méthode raking ratio : la fonction de distance est ici G : x ∈ <∗+ 7−→ x log x − x + 1, et
F (x) = exp(x)

Contrairement à la méthode linéaire, l’utilisation des fonctions G et F définies par la méthode


raking ratio permet d’obtenir des poids finaux ωh∗ positifs. C’est pourquoi nous utiliserons la
méthode raking ratio pour notre problème d’optimisation sous contrainte.

39
Figure 9 – Méthode raking ratio : Fonction de distance G et inverse de la dérivée F

Résolution du problème d’optimisaton :


Le Lagrangien du problème d’optimisation est la fonction définie par :
H H H
! !
ωh
 
µ∗x
X X X
L : (ω1 , . . . , ωH , λ1 , λ2 ) 7−→ dh G − λ1 ωh − 1 − λ2 ωh xh − (18)
h=1
dh h=1 h=1

avec (λ1 , λ2 ) ∈ <2 le vecteur des multiplicateurs de Lagrange.

Remarquons tout d’abord que la fonction de distance G est strictement convexe sur <∗+ :
G est 2-fois dérivable et sa dérivée seconde est strictement positive sur <∗+ .
En effet, ∀x ∈ <∗+ , G0 (x) = log x et G00 (x) = x1 > 0 .

On peut alors montrer que le Lagrangien est également strictement convexe en ω = (ω1 , . . . , ωH ).
La démonstration de ce point figure en annexe (Annexe A.3).

La stricte convexité du Lagrangien permet d’affirmer que si il existe une solution au pro-
blème d’optimisation, cette solution est unique. On détermine alors une solution (ω1∗ , . . . , ωH
∗ )

en résolvant les équations aux dérivées partielles :

∂L


 = 0, h ∈ [1, H]
∂ωh








 ∂L
= 0
 ∂λ1





∂L




 = 0
∂λ2

40
Soit, d’après l’expression du Lagrangien L donnée dans l’équation (18) :
∂L 1 ωh
 
= 0 ⇐⇒ dh G0 − λ1 − λ2 xh = 0, h ∈ [1, H]
∂ωh dh dh
⇐⇒ ωh = dh F (λ1 + λ2 xh ) , h ∈ [1, H]

avec dans notre cas F = (G0 )−1 = exp, la fonction exponentielle.

Les nouveaux poids (ω1∗ , . . . , ωH


∗ ), solution unique du problème d’optimisation sous contrainte,

sont donc égaux à :

ωh∗ = dh exp (λ1 + λ2 xh ) , h ∈ [1, H]

Il reste alors à déterminer les multiplicateurs de Lagrange λ1 et λ2 en résolvant les équations


∂L ∂L
= 0 et = 0 , en utilisant les expressions des ωh trouvées précédemment :
∂λ1 ∂λ2
H H
∂L X X
= 0 ⇐⇒ ωh = 1 ⇐⇒ dh exp (λ1 + λ2 xh ) = 1 (19)
∂λ1 h=1 h=1

H H
∂L
ωh xh = µ∗x ⇐⇒ dh exp (λ1 + λ2 xh ) xh = µ∗x
X X
= 0 ⇐⇒ (20)
∂λ2 h=1 h=1

De l’équation (19), il vient :


H
!
1 X
exp (λ1 ) = H
⇐⇒ λ1 = − ln dh exp (λ2 xh ) (21)
h=1
X
dh exp (λ2 xh )
h=1

On injecte alors l’expression trouvée pour λ1 dans l’équation (20) :


H H
" ! #
dh0 exp (λ2 xh0 ) + λ2 xh xh = µ∗x
X X
f (λ2 ) = dh exp − ln (22)
h=1 h0 =1
H PH
X exp (λ2 xh ) h=1 dh exp (λ2 xh ) xh
avec f (λ2 ) = dh H
xh = PH ∈ [min xh ; max xh ]
h=1 dh exp (λ2 xh )
h h
h=1
X
dh0 exp (λ2 xh0 )
h0 =1
f est un fonction continue et croissante d’une variable réelle, avec lim f (λ2 ) = min xh et
λ2 →−∞ h
lim f (λ2 ) = max xh 11 .La solution de l’équation (22) existe donc si µ∗x ∈] min xh ; max xh [.
λ2 →+∞ h h h
On utilise alors, à l’aide d’un outil informatique, la méthode itérative de Newton-Raphson 12
pour déterminer λ2 solution de l’équation (22). Connaissant λ2 , on détermine alors λ1 d’après
l’équation (21).

11. La démonstration de ce point est présentée en annexe (Annexe A.4).


12. La méthode de recherche de racines de Newton-Raphson est présentée en annexe (Annexe A.5).

41
Pour notre sous-échantillon de frais réels du poste Consultation/Visite, min xh = 27, 22,
h
max xh = 31, 17 et µ∗x = 28. Ainsi µ∗x ∈] min xh ; max xh [, ce qui justifie l’existence d’une solution
h h h
pour λ2 . Les résultats suivants sont alors obtenus : λ1 = 59, 35, λ2 = −2, 07, et le tableau 7
ci-dessous présente la valeur des nouveaux poids pour les dix premières tranches définies par les
modalités de la variable âge×sexe avec des tranches de dix années pour la variable âge :

Tranche T1 T2 T3 T4 T5 T6 T8 T9 T10
Anciens poids dh (%) 11,00 10,28 6,18 8,38 4,41 6,55 6,64 9,16 8,63
Nouveaux poids ωh∗ (%) 3,00 2,02 29,01 22,70 9,56 2,19e−03 20,38 1,50e−02 9,02

Table 7 – Exemple d’anciens et de nouveaux poids

Au final, le taux de couverture calé définit dans l’équation (16) est obtenu par :

H
1 X
T C cal = dh exp (λ1 + λ2 xh ) y h
µ∗x h=1

La figure 10 présente les valeurs obtenues pour le taux de couverture calé sur le même panel
de garanties utlisé pour le graphique 8.

Figure 10 – Evolution du taux de couverture calé en fonction de la garantie

Les résultats obtenus pour le taux de couverture calé apparaissent comme similaires à ceux
du taux de couverture redressé. A la vue de ces résultats, la méthode du taux de couverture
calé présente les mêmes éléments de cohérence que le taux de couverture redressé, à savoir :

– Le taux de couverture calé est, pour toutes les garanties considérées, supérieur au taux
de couverture initial. Ce résultat respecte la logique suivant laquelle le taux de couverture

42
est d’autant plus grand que la moyenne des frais réels est basse.

– L’effet du calage sur le taux de couverture se révèle plus marqué pour les garanties les plus
faibles : une garantie de niveau élevé rembourse déjà une part importante des dépenses
à la charge des assurés, la baisse du montant moyen de frais réels a donc un impact très
limité sur son taux de couverture.

43
2.5 Présentation du Bootstrap
Cette section a pour objet de présenter en détails la technique du Bootstrap et son utilisation
pour le calcul du taux de couverture redressé T C red .

2.5.1 Fonctionnement
Le Bootstrap est une méthode d’estimation par rééchantillonnage largement utilisée en son-
dage pour estimer la précision des résultats. Elle a été initialement proposée par Efron [7] en
1979.

Principe du Bootstrap
Soit X1 , . . . , Xn un échantillond i.i.d et distribué selon une loi inconnue F. On souhaite estimer
un paramètre θ(F ). Alors θ(F ) est estimé par θ(Fb ), où θ(Fb ) est obtenu en remplaçant F par Fb ,
la fonction de répartition empirique calculée sur l’échantillon. Dans le cas où θ(Fb ) ne peut pas
être calculé facilement, il est possible d’avoir recours à des simulations : On constitue B échan-
tillons X1b , . . . , Xnb , b ∈ [1, B], appelés rééchantillons, sélectionnés indépendamment selon la loi
Fb conditionnellement à l’échantillon initial X1 , . . . , Xn . En pratique, cette sélection consiste à
répéter B fois le tirage avec remise de n éléments parmi l’échantillon X1 , . . . , Xn . Une fois les
B rééchantillons à disposition, on effectue l’approximation de Monte-Carlo :
B
1 X  
θ Fb b
B b=1

pour θ(Fb ), avec Fb b la fonction de répartition empirique calculée sur le rééchantillon X1b , . . . , Xnb .
La méthode du Bootstrap permet ainsi de fournir une estimation de la variance d’un estimateur
ou de son biais.

2.5.2 Utilisation dans le cadre de la méthode


La méthode Bootstrap reste applicable dans le cas multivarié, et donc en particulier pour
notre échantillon (X1 , Y1 ), . . . , (Xn , Yn ) qui est supposé être i.i.d de loi FX,Y , où FX,Y désigne
ici la loi du couple (X, Y ).

h Pour
i mémoire,
h i le calcul du taux de couverture redressé est basé sur l’estimation des quantités
E Y , E X , Cov(X, Y ) et V ar(X). Les quantités citées précédemment peuvent être estimées
directement sur l’échantillon initial d’après la valeur prise par leur estimateur respectif. L’intérêt
du rééchantillonnage est ici d’obtenir plusieurs réalisations supposées i.i.d du couple (X, Y ), ceci
dans le but de fournir une visualisation de la structure de dépendance liant les deux estimateurs.
Chaque rééchantillon est constitué en tirant avec remise n couples parmi l’échantillon initial
(X1 , Y1 ), . . . , (Xn , Yn ). Si l’on note FbX,Y la fonction de répartition empirique du couple aléatoire
(X, Y ), les rééchantillons sont sélectionnés indépendamment selon la loi FbX,Y conditionnellement
à l’échantillon initial. Nous calculons alors, pour chaque rééchantillon, les moyennes empiriques
xb , y b . Nous obtenons ainsi B réalisations du couple aléatoire (X, Y ) à partir desquelles il est
possible d’estimer la covariance entre X et Y d’après l’estimateur de la covariance :
B 
1 X b
h i 
b
h i
SX,Y = X −E X Y −E Y
B − 1 b=1

44
h i h i
où E X et E Y sont également estimées d’après les expressions des estimateurs de l’espé-
B B
1 X b 1 X b
rance X et Y .
B b=1 B b=1
Pour la quantité V ar(X), on utilise l’estimateur sans biais de la variance :
B 
1 X b
h i2
SX = X −E X
B − 1 b=1
h iBoot h iBoot
En notant alors E Y ,E X , V ar(X)Boot et Cov(X, Y )Boot les estimations respec-
h i h i
tives de E Y , E X , V ar(X) et Cov(X, Y ), nous obtenons alors l’expression du taux de
couverture redressé :
!
1 Cov(X, Y )Boot
h iBoot  h iBoot
red ∗
TC = ∗ E Y + µ x − E X
µx V ar(X)Boot

2.6 Remarques sur les méthodes développées


2.6.1 Lien entre le taux de couverture redressé et la régression linéaire
red est
Comme il a été vu dans la section
h i calcul du taux de couverture redressé T C
2.4.1, le
basé sur la détermination de E Y | X = µ∗x .

Dans un cadre plus général, en considérant un couple aléatoire (U, V ) à valeurs réelles pour
lequel on souhaite déduire une estimation de V dans le cas où U = u. On définit pour cela une
fonction de < dans < qui à tout point u associe un point r(u). h i
Si la qualité de l’approximation est mesurée par l’erreur quadratique moyenne E (V − r(U ))2 ,
le mieux à faire est de prendre pour r la fonction de régression de V sur U , définie par
u 7→ E [ V | U = u ].

Cependant, l’espérance conditionnelle peut se révéler être un objet difficile à calculer. Ainsi,
en pratique, on se limite souvent à approcher au mieux V par une fonction affine de U :
f (U ) = αU + β, avec :


Cov(U, V )
 α =



V ar(U )


= E[V ] − αE[U ]

 β

Or, d’après le théorème 2.4.2, si (U, V ) est un couple gaussien, alors :


Cov(U, V )
E [ V | U ] = E [V ] + (U − E [U ])
V ar(U )
Et dans ce cas précis, lacourbe
 et la droite de régression
h coïncident.
i Ainsi, sous l’hypothèse
de gaussienneté du couple X, Y , la valeur de E Y | X = µ∗x s’obtient d’après la droite de
régression de Y sur X, en utilisant pour cela les réalisations issues des rééchantillonnages Boots-
b b

trap X , Y .
b∈[1,B]

45
 
La figure 11 montre les nuages de points xb , y b ainsi que la droite de régression pour
b∈[1,B]
trois garanties différentes. Le nombre de rééchantillonnages Bootstrap est ici de B = 1000.

b b
 
Figure 11 – Nuage de points et droite de régression pour X , Y pour des garanties de
150%, 200% et 300% de la BRSS

Les valeurs des paramètres des droites de régression sont données dans le tableau suivant :

Garantie Expression Ordonnée à l’origine β Coefficient directeur α


1 150% BRSS 9,12 0,63
2 200% BRSS 5,46 0,79
3 300% BRSS 1,29 0,95

Table 8 – Valeurs des paramètres de régression

On remarque que meilleure est la garantie, plus le coefficient directeur α est grand et l’ordonnée
à l’origine β est faible.

Les valeurs des coefficients directeurs et des ordonnées à l’origine des droites de régression
permettent ainsi de comprendre pourquoi le redressement du taux de couverture a d’autant
plus d’effet que la garantie est faible. En effet, prenons le cas des garanties 1 et 2 et notons
T C1red , T C2red les taux de couverture redressés, (α1 , β1 ) et (α2 , β2 ) les paramètres des droites de
régression respectives (on a donc α1 < α2 et β1 > β2 ). Les taux de couverture initiaux (calculés
avant redressement) sont quand à eux notés T C1 et T C2 . L’effet du redressement sur le taux
de couverture est mesuré par la différence entre le taux de couverture redressé et le taux de
couverture initial, et est noté ∆. Soit pour la garantie 1 :

46
∆1 = T C1red − T C1
De plus, on a d’après le lien entre l’espérance conditionnelle et la droite de régression :

1 h ∗
i α1 µ∗x + β1
T C1red = E Y 1 | X = µ x =
µ∗x µ∗x
En notant y 1 la moyenne des remboursements offerts par la garantie 1 et x la moyenne des
y h i
frais réels constatée sur le sous-échantillon, alors T C1 = 1 , et comme y 1 = E Y 1 | X = x , 13
x
le taux de couverture initial peut donc se ré-exprimer comme :

1 h i α1 x + β 1
T C1 = E Y1|X =x =
x x
Il vient donc :
α1 µ∗x + β1 α1 x + β1
∆1 = −
µ∗x x
1 1
 
= α1 − α1 + β1 −
µ∗ x
 x
1 1

= β1 −
µ∗x x
1 1
 
> β2 − = ∆2
µ∗x x

Au final, on obtient donc ∆1 > ∆2 . Cela montre que le redressement du taux de couverture à
d’autant plus d’impact que la garantie considérée est faible, comme nous avions pu le constater
sur la figure 8, reproduite ci-dessous.

13. La droite de régression prend en effet la valeur y 1 en x

47
2.6.2 Convergence du Bootstrap
Le taux de couverture redressé est estimé via l’utilisation de rééchantillonnages Bootstrap
pour deux raisons :
 
– Les rééchantillonnages permettent d’obtenir une distribution du couple X, Y , et ainsi
d’apprécier la structure de dépendance liant les deux estimateurs. Grace à une telle distri-
bution, il est également possible de vérifier la cohérence du modèle de régression linéaire,
justifié par l’hypothèse de gaussienneté du couple aléatoire, via une analyse des résidus.

– Une approche par rééchantillonnages Bootstrap permet, de plus, de construire des inter-
valles de confiance non-paramétriques pour l’estimation du taux de couverture redressé.
Disposer d’intervalles de confiance pemettra ainsi de juger de la précision des estimations
du taux de couverture.

Il convient de vérifier, avant toute chose, que l’estimation par le Bootstrap est consistante,
c’est-à-dire que le taux de couverture redressé converge bien, lorsque le nombre de rééchantillon-
nages augmente, vers l’estimation réalisée directement sur les donnée initiales.

La figure 12 présente, pour une garantie de 200% de la BRSS pour le poste Consulta-
tion/Visite, l’évolution du taux de couverture redressé en fonction du nombre de rééchantillon-
nages B. On observe que les résultats convergent, losrque B augmente, vers la valeur du taux
de couverture redressé estimé sans rééchantillonnage.

Figure 12 – Evolution du taux de couverture redressé Bootstrap en fonction du nombre de


rééchantillonnages B

48
2.6.3 Comparaison des taux de couvertures redressé et calé
La figure 13 pésente les résultats obtenus pour les taux de couverture redressé et calé sur
un même panel de garanties.

Figure 13 – Evolution des taux de couverture redressé et calé en fonction de la garantie

En premier lieu, il est intéressant de noter que les valeurs obtenues pour les deux taux de
couverture sont très proches, et ceci bien que les méthodes d’évaluation soient différentes. On
remarque également que le taux de couverture redressé est légèrement supérieur au taux de
couverture calé. Il apparaît donc, à première vue, que le redressement du taux de couverture
ait un effet plus marqué que le calage.

49
3 Mise en oeuvre
Cette partie a pour objectif de présenter la mise en oeuvre de la méthodologie développée
dans ce mémoire. Les données utilisées sont relatives au poste Optique. Contrairement au poste
Consultation/Visite qui a servi à illustrer la section technique, il existe une grande variété d’ex-
pressions de garanties pour le poste Optique.
Ainsi il est fréquent de rencontrer des garanties exprimées sur des assiettes différentes : BRSS,
Forfait, combinaison BRSS+Forfait. L’évaluation et le positionnement de ces garanties entre
elles est alors complexe. L’objectif de ce mémoire est d’apporter une solution à cette probléma-
tique, en développant une méthode axée autour de trois grandes étapes :
– 1. Re-sélectionner, à partir des données dont nous disposons, un échantillon de frais réels
plus représentatif de la population française. L’intérêt de cette étape est de placer la
comparaison des garanties dans une situation qui se veut la plus proche possible de la
réalité de marché, ceci par souci d’apporter une vision neutre du niveau des garanties en
se plaçant dans un contexte global.
– 2. Simuler, sur l’échantillon de frais réels créé à l’étape précédente, les remboursements
offerts par les différentes garanties dont on cherche à évaluer le niveau. Connaissant alors
les frais réels et les remboursements correspondants, il est alors possible de calculer pour
chacune des garanties un taux de couverture 14 , mesurant les capacités respectives des
garanties à rembourser les dépenses engagées par les assurés.
– 3. Modifier les valeurs des taux de couverture obtenus pour tenir compte du fait que
l’échantillon généré à l’étape 1. n’est pas suffisamment représentatif de la structure de dé-
penses de la population française. Deux techniques sont proposées pour modifier la valeur
des taux de couverture : un redressement basé sur l’utilisation de l’espérance condition-
nelle, et une re-pondération des segments de la population pour respecter une information
auxiliaire. On parlera de taux de couverture redressé et de taux de couverture calé pour
désigner les résultats respectifs de ces deux techniques.

La figure 14 récapitule les étapes de la méthodologie développée dans ce mémoire.

Dans cette partie, nous nous attarderons dans un premier temps à présenter les données du
poste Optique à notre disposition, et à décrire les différentes variables présentes. Une attention
particulière sera accordée à l’analyse des frais réels qui constituent la base de notre méthodologie
d’évaluation des niveaux de garantie. Ensuite, nous décrirons les étapes de la création du sous-
échantillon représentatif de la population française. Enfin, l’évaluation des niveaux de garanties
et l’analyse des résultats seront présentées.

14. Rapport entre la somme des remboursements (Sécurité Sociale et mutuelle) et la somme des frais réels

50
Données initiales

Etape 1.
Sous-échantillon de frais
réels représentatif de la
population française

Simulation des garanties et


calcul des taux de Etape 2.
couverture.

Taux de Taux de
couverture couverture calé :
redressé : T C red T C cal
Etape 3.

Comparaison des résultats

Figure 14 – Etapes de la méthodologie

3.1 Présentation des données


3.1.1 Description générale
Les données utilisées dans ce mémoire, pour la mise en oeuvre de notre méthode, sont re-
latives au poste de dépense Optique. Deux grandes catégories d’actes sont présents dans ces
données : la catégorie des verres correcteurs et la catégorie des montures.

Cette base de données comprend les prestations optiques liées à l’achat de montures et la
pose de verres correcteurs dont ont bénéficié les différents assurés d’un portefeuille entre avril
2009 et décembre 2012.

Nous ne considérons que les années de soins 2011 et 2012, les données relatives aux frais de
santé n’étant généralement plus fiables après deux ans. De plus, nous supprimons les prestations
relatives aux assurés de plus de 60 ans, car nous ne disposons que de très peu de données pour
ces âges.

Au final, on recense 10905 assurés distincts dans le portefeuille pour un total de 12635 frais
d’optique engagés entre le 31 décembre 2010 et le 31 décembre 2012.

51
3.1.2 Focus sur les frais réels
La variable Frais réel permet de décrire la structure de dépenses de la population assurée.
Cette variable est à la base de toute la méthodologie présentée dans ce mémoire. Une analyse
des frais réels est donc ici nécessaire pour vérifier que le mode de consommation de notre po-
pulation est semblable à celui classiquement observé pour des frais d’optique.

La figure 15 montre la distribution des frais réels pour les actes Verre et Monture.

Figure 15 – Distributions des Frais réels

Nous remarquons que la distribution des frais réels pour nos données optiques est plus régu-
lière que celle des données Consultation/Visite utilisées pour illustrer la partie théorique de ce
mémoire. Cela s’explique par le fait que contrairement au poste Consultation/Visite, les actes
du poste Optique ne sont pas conventionnés ; en effet la majorité des médecins généralistes sont
conventionnés dans le Secteur 1, avec un prix de consultation fixé à 23e ce qui explique le pic de
la distribution de frais réels pour ce montant. Ici, les prix des montures et des verres pratiqués
par les opticiens sont libres, et la différence de prix entre deux montures ou deux types de verres
peut être très importante.

La figure 16 présente les distributions de frais réels pour les deux types d’actes présents dans
nos données : les actes Verre et Montures.
Les prix moyens constatés sont de 144e pour une monture et de 134e pour un verre. On
recense 4143 actes de type Monture et 8492 actes de type Verre, soit 2,05 fois plus d’actes relatifs
aux verres qu’aux montures. Ceci est logique car lorsqu’un assuré se rend chez son opticien pour
une nouvelle paire de lunettes, les deux verres lui sont changés et il opte la plupart du temps
pour une nouvelle monture.

La figure 17 présente l’évolution des montants moyens de frais réels, pour les verres et les
montures, en fonction de l’âge des bénéficiaires.

52
Figure 16 – Distributions des Frais réels pour les montures et les verres

Figure 17 – Evolution du montant de frais réels moyen en fonction de l’âge

On retrouve, sur cette figure, le mode de consommation classique des frais d’optique :
– Pour les montures : Une augmentation du coût moyen jusqu’à 20 ans, puis une stabilisation
pour les âges supérieurs.
– Pour les verres : Une faible augmentation jusqu’à 40 ans, suivi d’une augmentation plus
forte entre 40 et 60 ans. Ce phénomène est lié à la presbytie qui apparaît généralement
après 40 ans.

Le mode de consommation de la population de notre échantillon est donc classique en terme


d’évolution des coûts. La différence se situe au niveau du prix des actes, où l’on constate une
tendance de notre population à surconsommer : les prix moyens d’un verre et d’une monture
sont classiquement de 120e et de 135e , alors que sur notre population, ces prix moyens sont
respectivement égaux à 134e et 144e . Cette surconsommation en terme de prix est dûe à la
qualité de la garantie santé dont bénéficie notre population assurée : se sachant bien couverts
par leur garantie, certains bénéficiaires ont tendance à engager des actes plus coûteux. Ce
phénomène est usuellement désigné par le terme d’aléa moral.

53
3.2 Création du sous-échantillon
3.2.1 Objectif
Dans l’optique d’évaluer et de comparer différentes garanties, on souhaite dans un premier
temps se placer dans une situation globale, ceci pour deux raisons :

– Il est nécessaire, pour pouvoir comparer plusieurs garanties, de se placer dans une situa-
tion commune, et l’on souhaite que cette situation reflète le marché de l’assurance santé
complémentaire.

– Par souci de rester neutre dans la méthodologie développée dans ce mémoire, pour ne
pas favoriser une garantie en particulier. En effet, les remboursements d’une garantie sont
directement liés aux frais engagés par ses bénéficiaires, et conserver une structure de por-
tefeuille non représentative de la population couverte par une complémentaire santé peut
amener à biaiser l’estimation de certaines garanties. Prenons l’exemple d’une garantie op-
tique présentant un remboursement avantageux pour les verres et les montures adultes,
mais remboursant mal les frais d’optique pour les personnes de moins de 18 ans. Si, dans
notre structure de portefeuille, la population adulte est sur-représentée, alors cette garan-
tie sera clairement avantagée lors de l’évaluation de sa performance.

Idéalement, on souhaiterait donc se placer dans une situation où notre échantillon représen-
terait l’ensemble de la population française couverte par une assurance santé complémentaire.
Cependant, nous ne connaissons pas la structure d’une telle population. Ce dont nous dispo-
sons, c’est la structure de la population française d’après les données de l’Insee, et en particulier
les pyramides des âges pour les sous-populations d’hommes et de femmes 15 . Ainsi, nous allons
nous servir de ces données pour construire, d’après notre portefeuille d’assurés, une population
respectant les quotas d’âge et de sexe de la population française.

Figure 18 – Pyramide des âges Insee

15. Source : Insee, estimations de population pour la France métropolitaine à fin 2012

54
3.2.2 Mise en oeuvre
Pour construire notre sous-échantillon, nous utilisons la méthode de sélection par quotas
croisés présentée dans la sous-section 2.3.1, qui consiste à resélectionner aléatoirement des indi-
vidus de notre portefeuille pour respecter les quotas de la population française pour les variables
âge et Sexe.

La figure 19 fournit une comparaison entre la répartition par âge et par sexe de notre po-
pulation assurée et celle de la population française. Les proportions de population données par
l’Insee ont ici été recalculées pour ne conserver que les âges inférieurs à 60 ans, âge limite de
notre population assurée.

Figure 19 – Comparaison des proportions d’hommes et de femmes par âges

A la vue de ces graphiques, il est possible de constater que la répartition de notre population
par âge et par sexe est assez éloignée de celle de la population française. Ainsi, on remarque que
les hommes sont en moyenne sur-représentés dans notre portefeuille, alors que les femmes sont
pour la majorité des âges sous-représentées par rapport à la structure de la population française.

Afin de mettre en oeuvre la méthode de sélection par quotas croisés, on segmente notre popu-
lation par âge et par sexe. Nous optons ici pour des tranches d’âge de dix ans afin de conserver
une profondeur d’effectifs suffisante dans chacune des classes. Le tableau 9 présente, pour la
population de notre portefeuille et la population française, les quotas des classes âge/sexe. La
classe H : [0,10] désigne la sous-population masculine de moins de dix ans, la classe F : [0,10]
désigne la sous-population féminine pour la même tranche d’âge.
Pour respecter les quotas de la population française, on commence par calculer le nombre de
bénéficiaires à resélectionner dans chaque classe de notre portefeuille. Ce nombre nh est obtenu,
pour chacune des h classes définies précédemment, par :

nh = n0 × propInseeh , h ∈ [1, 12]


Avec n0 la taille totale du sous-échantillon que l’on cherche à atteindre, et propInseeh le quota

55
de la population française appartenant à la hème classe.

Portefeuille Insee
Classe Nombre Proportion(%) Proportion(%)
H : [0,10] 998 9.15 8.92
F : [0,10] 949 8.70 8.54
H : ]10,20] 999 9.16 8.07
F : ]10,20] 875 8.02 7.72
H : ]20,30] 1034 9.48 7.79
F : ]20,30] 693 6.35 7.86
H : ]30,40] 992 9.10 8.21
F : ]30,40] 765 7.02 8.33
H : ]40,50] 1126 10.33 8.82
F : ]40,50] 836 7.67 8.99
H : ]50,60] 999 9.16 8.14
F : ]50,60] 639 5.86 8.61

Table 9 – Nombres d’éléments et proportions des classes de population

En se fixant une taille de sous-échantillon n0 de 7100 individus, on obtient par exemple pour
la classe H : [0,10] : nH:[0,10] = 7100 × 8.92% = 634. Il faut donc resélectionner 634 individus
de la classe H : [0,10] dans notre portefeuille pour respecter le quota de cette classe dans la
population française.

Le tableau 10 présente les nombres d’individus par classes dans notre portefeuille et le
nombre d’individus à resélectionner à l’intérieur de chacune de ces classes.

Classe Nombre initial Nombre final nh


H : [0,10] 998 634
F : [0,10] 949 606
H : ]10,20] 999 573
F : ]10,20] 875 548
H : ]20,30] 1034 553
F : ]20,30] 693 558
H : ]30,40] 992 583
F : ]30,40] 765 591
H : ]40,50] 1126 626
F : ]40,50] 836 638
H : ]50,60] 999 578
F : ]50,60] 639 611

Table 10 – Nombres d’éléments initiaux et finaux

Nous connaissons alors le nombre d’individus à resélectionner dans notre portefeuille pour
chaque classe. L’étape suivante consiste alors à tirer sans remise à l’intérieur des classes du
portefeuille les nombres d’individus précédemment calculés. Pour chacun des bénéficiaires ainsi
sélectionné, on rappatrie l’ensemble des prestations optiques dont il a bénéficié au cours des
deux dernières années. Ce rapatriement est possible grâce à la création de la variable clé, per-
mettant de repérer chaque bénéficiaire, que nous avons effectuée lors du traitement des données.

56
Comme l’ensemble des techniques de sous-échantillonnage, la resélection des bénéficiaires
par la méthode des quotas croisés induit une perte d’information. On limite cependant cette
perte d’information en sélectionnant aléatoirement le plus d’individus possibles tout en respec-
tant le caractère sans remise du tirage.

A l’issue de la mise en oeuvre de la méthode de sélection par quotas croisés, nous dispo-
sons d’un sous-échantillon de frais d’optiques engagés par une population présentant la même
structure que la population française pour les variables âge et sexe. Nous pouvons à présent
simuler différentes garanties sur cette nouvelle base de dépenses, et ainsi calculer leur taux de
couverture respectif. Nous opèrerons dans un dernier temps au redressement et au calage des
taux de couverture pour tenir compte du fait que le sous-échantillon n’est pas suffisamment
représentatif de la structure de dépenses de la population française. En effet, même si les quotas
des variables âge et sexe sont respectés dans notre sous-portefeuille de bénéficaires, les coûts
des actes engagés restent supérieurs aux moyennes constatées pour la population française. Le
redressement et le calage des taux de couverture auront pour objectif de corriger cette sur-
consommation, en fournissant une estimation du niveau qu’auraient présenté les garanties si la
moyenne des frais réels constatée sur le sous-échantillon avait été égale à celle de la population
française.

Le tableau 11 regroupe les coûts moyens des actes optiques pour l’échantillon initial, le sous-
échantillon et la population française. Les moyennes pour la population française sont issues
des résultats de l’enquète de 2011 menée par l’institut Gfk.

Echantillon initial Sous-échantillon Population française


Coût moyen Verre 134.05 133.85 120.00
Coût moyen Monture 144.42 144.10 135.00
Coût moyen global 137.45 137.21 124.92

Table 11 – Coûts moyens des actes optiques (euros)

Les chiffres présentés dans ce tableau permettent de constater que les coûts moyens des actes
optiques sur notre sous-échantillon restent supérieurs à ceux de la population française. Ainsi,
si l’on se contentait de calculer les taux de couverture après simulation des garanties sur le sous-
échantillon, les résultats obtenus ne représenteraient qu’une estimation du niveau des garanties si
ces dernières avaient été appliquées à une population assurée, certes respectant les quotas d’âge
et de sexe de la population française, mais présentant un comportement de surconsommation
des actes en terme de coût. C’est ce comportement particulier de notre population qui motive
le redressement des taux de couverture.

57
3.3 Evaluation du niveau des garanties
3.3.1 Présentation des garanties
Nous proposons ici de mettre en oeuvre la méthodologie d’évaluation des niveaux de garan-
tie. Ayant généré un sous-échantillon de frais réels provenant d’une population représentative
de la population française pour les quotas d’âge et de sexe, il est à présent possible de passer à
l’évaluation des niveaux des garanties à travers le calcul et le redressement des taux de couver-
ture.

Le tableau 12 présente les garanties choisies en vue de mettre en oeuvre la méthode d’évalua-
tion. Ces garanties sont exprimées sur des assiettes différentes, avec des conditions particulières
pour certains types d’actes optiques. A noter que les forfaits sont ici annuels.

Garantie Type d’expression Remboursement

1 %BRSS + Forfait 100% BRSS + 300e

270e pour une appareillage unifocal, 320e


2 Forfait pour un appareillage multifocal

60% BRSS + 150e pour un appareillage


3 %BRSS + Forfait enfant, 100% BRSS + 350e pour un
appareillage adulte

70e pour les montures, 210% BRSS + 135e


4 Forfait et %BRSS + Forfait pour les verres

5 %BRSS 1500% BRSS

6 %BRSS + Forfait 500% BRSS + 250e

80% FR (remboursement de la Sécurité Sociale


7 %FR inclus)

Table 12 – Garanties sélectionnées

Les garanties optiques présentent une large variété d’expressions contrairement à d’autres
postes de dépenses, tels que le poste Consultation, où la plupart des garanties du marché sont
exprimées sur la même assiette. L’évaluation des niveaux des garanties prend alors tout son sens
pour le poste Optique.

A partir de notre sous-échantillon de dépenses, nous allons simuler les remboursements

58
offerts par nos sept garanties, pour ensuite calculer et redresser leur taux de couverture.
A noter : La garantie 7 joue ici le rôle de garantie test : une garantie offrant un remboursement
de 80% des frais réels, remboursement de la Sécurité Sociale inclus, présentera inévitablement
un taux de couverture de 80%, d’après la définition même du taux de couverture. De plus, ce
taux de couverture devrait logiquement rester inchangé après redressement, le remboursement
étant proportionnel au montant de frais réels. Cette garantie permettra donc de juger de la
cohérence des résultats obtenus après redressement.

3.3.2 Simulation des garanties et calcul des taux de couverture


D’après les expressions des garanties présentées dans le tableau 12, on simule, sur notre
sous-échantillon de frais réels, les remboursements propres à chacune des garanties. On calcule
alors les taux de couverture initiaux des différentes garanties comme le rapport entre la moyenne
des remboursements et la moyenne des frais réels :
n
X
1
n yki
k=1 yi
T Ci = n = , i ∈ [1, 7]
1
X x
n xk
k=1

Où n est la taille de notre sous-échantillon de frais réels, xk et yki représentant respectivement


le k ème frais réel et le remboursement associé, égal à la somme du remboursement de la Sécurité
Sociale et du remboursement complémentaire de la garantie i, i ∈ [1, 7].

Le tableau 13 présente les valeurs obtenues pour les garanties considérées :

Garantie Taux de couverture initial


i T C i (%)
1 72.42
2 69.74
3 73.11
4 55.72
5 55.96
6 74.82
7 80.01

Table 13 – Taux de couverture initiaux

Ces premiers résultats permettent d’avoir un aperçu du niveau des garanties considérées.
Sachant que le taux de couverture moyen pour l’ensemble garanties est de 67% (hors garantie
7), il est possible de regrouper les garanties en trois groupes de niveaux :
– Un groupe de niveau "faible", composé des garanties numéros 4 et 5, présentant toutes
deux des taux de couverture sensiblement en dessous des autres garanties : respectivement
55.72% et 55.96%.
– Un groupe de niveau intermédiaire, comprenant la garantie numéro 2, avec un taux de
couverture proche de la moyenne de l’ensemble des garanties : 69.74%.
– Un groupe de niveau élevé avec les garanties numéros 1, 3 et 6, présentant des taux de
couverture de 72.42%, 73.11% et 74.82% sensiblement supérieurs à la moyenne de 67%.

59
La garantie test (garantie 7) présente un taux de couverture initial de 80.01%. Le taux de
couverture n’est pas exactement égal à 80% car une faible partie des dépenses engagées par les
assurés bénéficie d’un remboursement de la Sécurité Sociale supérieur à 80% des frais réels.

L’étape suivante est l’estimation des taux de couverture dans le cas où la moyenne des frais
réels sur notre sous-échantillon coïnciderait avec celle de la population française. Pour cela, nous
utiliserons les techniques de redressement et de calage des taux de couverture développées dans
la partie 2.4.

3.3.3 Redressement et Calage des taux de couverture


Les taux de couverture pour chacune des 7 garanties ont été calculés sur un échantillon
de frais réels issu d’une sous-population d’assurés respectant les quotas d’âge et de sexe de la
population française. Cependant, ce sous-échantillon ne se révèle pas assez représentatif de la
structure de dépenses de la population française : les coûts moyens des actes optiques observés
restent sensiblement supérieurs aux coûts moyens de ces actes pour l’ensemble de la population.
Cette surconsommation s’interprète comme une tendance de la population assurée, se sachant
bien remboursée, à engager des actes en moyenne plus coûteux.
On se propose alors d’estimer les taux de couverture des garanties dans le cas où le coût moyen
des actes optiques de notre sous-population coïnciderait avec celui de la population française.
Pour ce faire, nous utilisons les méthodes de redressement et de calage du taux de couverture.

Les expressions des taux de couverture redressés et calés, définies dans la partie 2.4 de ce mé-
moire, sont rappelées ci-dessous :

Pour le taux de couverture redressé :

!
1 Cov(X, Y )Boot
h iBoot  h iBoot

T Cred = ∗ E Y + µ x − E X
µx V ar(X)Boot

Avec :
– µ∗x : le coût moyen d’un acte optique pour la population française, ici égal à 124.92e .
h iBoot h iBoot
– E Y ,E X , V ar(X)Boot , Cov(X, Y )Boot : Les estimations provenant de la dis-
tribution bootstrap du couple (X, Y ).

Les valeurs des taux de couverture redressés, pour chacune des sept garanties considérées,
sont présentées dans le tableau 14 ci-dessous. Le nombre de rééchantillonnages Bootstrap est
ici de B = 10000.

Il est intéressant de noter que le redressement a des impacts très différents sur les taux de
couverture des six garanties. Ainsi la garantie numéro 1 présentait un taux de couverture initial
plus faible que la garantie numéro 3, mais son taux de couverture redressé est quant à lui plus
élevé : 76.74% pour la garantie numéro 1 contre 76.38% pour la garantie numéro 3. Le même
cas de figure est observé pour les garanties numéros 4 et 5 : les taux de couverture initiaux de

60
Garantie Taux de couverture initial (A) Taux de couverture redressé (B) Evolution ((B)-(A))/(A)
i T C i (%) i
T Cred (%) (%)
1 72.42 76.74 5.96
2 69.74 73.30 5.10
3 73.11 76.38 4.47
4 55.72 60.26 8.14
5 55.96 58.08 3.80
6 74.82 78.87 5.41
7 80.01 80.01 0.00

Table 14 – Taux de couverture redressés

ces deux garanties sont très proches (respectivement 55.72% et 55.96%), alors que le taux de
couverture redressé de la garantie numéro 4 est sensiblement plus élevé que celui de la garantie
numéro 5 (respectivement 60.26% et 58.08%). Cependant, les groupes de niveaux observés pour
les taux de couverture initiaux peuvent toujours être vus de la même manière :
– les garanties 4 et 5 présentent des taux de couverture redressés bien inférieurs à la moyenne
de l’ensemble des garanties, égale à 70.6% (hos garantie 7).
– La garantie numéro 2, avec un taux de couverture redressé de 73.30%, peut toujours être
considérée comme une garantie de niveau intermédiaire.
– Les garanties numéro 1, 3 et 6, avec chacune un taux de couverture redressé supérieur à
76%, peuvent également encore être vues comme des garanties de niveau élevé.

Concernant la garantie test, le taux de couverture redressé reste égal au taux de couverture
initial. Ce résultat est un indicateur de cohérence pour la méthode du taux de couverture
redressé.

Pour le taux de couverture calé :

H
1 X
T Ccal = ω∗ × yh
µ∗x h=1 h

Avec :
– H : Le nombre de classes âge/sexe de la sous-population.
– y h : Le remboursement moyen pour la hème classe, égal à la somme des remboursements
moyens de la Sécurité Sociale et de la garantie considérée.
– ωh∗ : Le poids de la hème classe, obtenu après résolution du problème d’optimisation sous
contraintes.

Pour mémoire, le problème d’optimisation est défini comme suit :


H
ωh
X  
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh

61
sous les contraintes : 
 H
X
= µ∗x




 ωh xh
h=1
 H
X




 ωh = 1
h=1

Avec dh le poids initial de la classe h, défini comme la proportion des prestations enga-
gées par les bénéficiaires de cette classe. Les wh∗ solutions du problème sont alors donnés par :
ωh∗ = dh exp (λ1 + λ2 xh ), avec λ1 et λ2 les multiplicateurs de Lagrange associés au problème
d’optimisation sous contraintes. 16

Les valeurs obtenues ici pour λ1 et λ2 sont respectivement égales à 1.69 et 1.29 × 10−2 .
Le tableau 15 présenté ci-dessous regroupe les valeurs des frais réels moyens, des anciens et des
nouveaux poids pour chacune des classes âge/sexe du sous-échantillon.

Classe Frais réel moyen xh Poids initial dh Poids final ωh∗


(euros) (%) (%)
H : [0,10] 89.17 5.47 9.38
F : [0,10] 92.63 5.04 8.26
H : ]10,20] 107.66 6.37 8.59
F : ]10,20] 104.43 8.64 12.16
H : ]20,30] 118.38 6.35 7.46
F : ]20,30] 116.39 7.13 8.59
H : ]30,40] 123.13 6.60 7.29
F : ]30,40] 118.33 6.93 8.15
H : ]40,50] 153.75 11.59 8.61
F : ]40,50] 149.70 11.28 8.83
H : ]50,60] 177.18 13.62 7.47
F : ]50,60] 188.86 10.99 5.18

Table 15 – Montants moyens de frais réels, anciens et nouveaux poids par classe

Ainsi, connaissant pour chaque garantie et pour chaque classe le montant moyen remboursé
y h , il est alors possible de calculer les valeurs des taux de couverture calés. Le tableau 16 pré-
sente les résultats obtenus pour les sept garanties optiques prises en compte.

Les résultats obtenus pour les taux de couverture calés se démarquent de ceux obtenus pour
les taux de couverture redressés :

– Les évolutions entre les taux de couverture calés et les taux de couverture initiaux sont
plus marqués que pour les taux de couverture redressés : respectivement 6.70% en moyenne
pour les taux de couverture calés et 5.48% pour les taux de couverture redressés. Ainsi, à
l’exception de la garantie 3, les taux de couverture calés majorent les taux de couverture
redressés.

16. Ici µ∗x = 124.92, et le tableau 15 montre que min xh = 89.17 et max xh = 188.86. Ainsi µ∗x ∈
h h
] min xh ; max xh [, d’où l’existence d’une solution pour λ2 .
h h

62
Garantie Taux de couverture initial Taux de couverture calé Evolution
i T C i (%) i (%)
T Ccal (%)
1 72.42 78.08 7.81
2 69.74 74.00 6.10
3 73.11 74.48 1.87
4 55.72 60.93 9.36
5 55.96 60.50 8.12
6 74.82 80.00 6.93
7 80.01 80.02 0.01

Table 16 – Taux de couverture calés

– Les groupes de niveau visualisés pour les taux de couverture initiaux et redressés ne sont
ici plus les mêmes : les garanties 1 et 6 présentent des taux de couverture calés sensible-
ment plus élevés que les autres garanties. Les taux des garanties 4 et 5 sont quant à eux
largement inférieurs aux autres, et les garanties 2 et 3 présentent quant à elles des taux
calés de niveau intermédiaire.

La garantie test présente un taux de couverture calé légèrement différent de son taux de
couverture initial. Cela est directement lié à la repondération des classes : les taux de couver-
ture des quatres premières classes sont légèrement supérieurs à 80% 17 , et le calage a pour effet
de sensiblement surpondérer les remboursements liés à ces classes (voir tableau 15), provoquant
de fait une augmentation du taux de couverture. Ce résultat est incohérent et met en évidence
la limite du taux de couverture calé : la non prise en compte de la structure de dépendance
existant entre les frais réels et les remboursements.

Ainsi la méthode du taux de couverture calé présente plus d’instabilité dans ses résultats
que la méthode du taux de couverture redressé. Cela s’explique notamment par le fait que,
contrairement à cette dernière, le taux de couverture calé ne tient pas compte de la covariance
entre les montants moyens de frais réels et de remboursements.

L’avantage principal du calage est sa simplicité de mise en oeuvre : une fois calculés, les
nouveaux poids ωh∗ sont utilisés pour le calcul du taux de couverture calé de chacune des garan-
ties. Le temps de calcul est ainsi quasiment instantané. Le calcul du taux de couverture redressé
nécessite quand à lui de réappliquer, pour chaque garantie, B rééchantillonnages bootstrap. Le
temps de calcul est donc d’autant plus important que B est grand. Il est ainsi conseillé dans la
littérature de choisir un nombre de rééchantillonnages bootstrap proche de la taille de l’échan-
tillon initial, pour obtenir un compromis satisfaisant entre la précision des estimations et la
réduction du temps de calcul. Le nombre de rééchantillonnages choisi pour le calcul des taux
de couverture redressés est ici B = 10000, le nombre total de lignes du sous-échantillon de frais
réels étant égal à 10774.

Au final, le calcul du taux de couverture calé est plus rapide à mettre en oeuvre que celui
du taux de couverture redressé, mais les résultats obtenus présentent des variations plus impor-
tantes par rapport aux taux de couvertures initiaux.

17. dans notre sous-échantillon, certains actes enfants bénéficient d’un remboursement de la Sécurité Sociale
supérieurs à 80% des frais réels engagés, ce qui explique pourquoi les taux de couverture relatifs aux quatres
premières classes (les classes enfants) sont supérieurs à 80%.

63
Les résultats obtenus pour les différents taux de couverture sont synthétisés dans le tableau 17.

Garantie Taux de couverture initial Taux de couverture redressé Taux de couverture calé
i T C i (%) i
T Cred (%) i (%)
T Ccal
1 72.42 76.74 78.08
2 69.74 73.30 74.00
3 73.11 76.38 74.48
4 55.72 60.26 60.93
5 55.96 58.08 60.50
6 74.82 78.87 80.00
7 80.01 80.01 80.02

Table 17 – Taux de couverture initiaux, redressés et calés

Remarque : Les taux de couverture redressés et calés ont été obtenus en se basant sur le
coût moyen d’un acte optique pour l’ensemble de la population française : µ∗x . Dans le cas du
poste Optique, nous connaissons de plus les coûts moyens pour les verres et les montures. Ces
valeurs sont présentées dans le tableau 11, et sont égales à 120 e pour un verre et 135 e pour
une monture.

Il peut être intéressant d’estimer les taux de couverture en tenant compte de ce double niveau
d’information. Le calage du taux de couverture peut être adapté en ce sens, la démarche restant
très semblable à celle développée dans la partie 2.4.2 pour le calcul du taux de couverture calé.
La méthode de calcul du taux de couverture calé sur deux niveaux d’informations auxiliaires,
noté T Ccal2 dans la suite, sera présentée en annexe (Annexe A.6). La logique du calcul du taux
de couverture calé à deux niveaux d’informations auxiliaires reste cependant la suivante : En
notant µvx et µmx les coûts moyens relatifs aux verres et aux montures pour la population fran-
çaise, on cherche les nouveaux poids des classes âge/sexe solutions du problème d’optimisation :

H
ωh
X  
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
sous les contraintes : 
XH
ωh xvh

= µvx






 h=1
H


 X
m
ωh xh = µm
x


 h=1
H



 X
ωh = 1




h=1

Où xvh et xm h représentent les moyennes des frais réels pour les verres et les montures à
l’intérieur de chaque classe du sous-échantillon. Les poids des classes ne sont pas distingués en
fonction des verres et des montures, car comme il sera vu en annexe, les proportions de ces deux
types d’actes sont très proches pour toutes les classes. Cela permet ici de considérer les mêmes
poids pour les actes verres et montures.

64
∗ , sont présentés dans le
Les nouveaux poids solutions du problème d’optimisation, notés ωh,2
tableau 18.

Classe Poids initial dh ∗


Poids final ωh,2
(%) (%)
H : [0,10] 5.47 16.40
F : [0,10] 5.04 15.06
H : ]10,20] 6.37 7.46
F : ]10,20] 8.64 8.44
H : ]20,30] 6.35 3.81
F : ]20,30] 7.13 4.97
H : ]30,40] 6.60 3.92
F : ]30,40] 6.93 4.53
H : ]40,50] 11.59 8.00
F : ]40,50] 11.28 8.82
H : ]50,60] 13.62 11.88
F : ]50,60] 10.99 6.70

Table 18 – Anciens et nouveaux poids par classe

Les nouveaux taux de couverture sont obtenus en utilisant la même formule que dans le cas
d’un seul niveau d’information auxiliaire :
H
1 X
T Ccal2 = ω∗ × yh
µ∗x h=1 h,2

Les résultats obtenus pour les taux de couvertures calés T Ccal2 pour chacune des sept ga-
ranties de l’étude sont présentés dans le tableau 19.

Garantie Taux de couverture initial (A) Taux de couverture calé (B) Evolution
i T C i (%) i
T Ccal2 (%) (%)
1 72.42 77.32 6.75
2 69.74 73.99 6.09
3 73.11 71.46 -2.26
4 55.72 61.55 10.46
5 55.96 65.38 16.83
6 74.82 80.06 7.00
7 (test) 80.01 80.15 0.17

Table 19 – Taux de couverture calés sur deux niveaux d’information auxiliaire

A la lecture de ce tableau, il apparaît que les résultats du T Ccal2 présentent des incohérences
majeures :
– Le T Ccal2 de la garantie 3 est inférieur à son taux de couverture initial. Ce résultat est
aberrant dans le sens où une garantie ne peut pas être moins performante lorsque le
montant moyen de frais réels diminue.

65
– Les garanties 4 et 5 présentent des taux de couverture calés très fortement supérieurs
à leurs taux de couverture initiaux. Ainsi l’écart relatif entre le T Ccal2 et le T C est de
16.83% pour la garantie 5.
– Le résultat pour la garantie test laisse apparaître, quant à lui, un taux de couverture
calé sensiblement différent du taux de couverture initial. Or la proportionnalité entre les
remboursements offerts par cette garantie et les frais réels engagés devrait logiquement
laisser inchangé le taux de couverture, et ce quelque soit le montant moyen de frais réels.

Ainsi, les résultats obtenus pour le taux de couverture calé T Ccal2 ne se révèlent pas satisfai-
sants. Ces derniers apparaissent également moins cohérents que ceux du taux de couverture calé
sur un seul niveau d’information auxiliaire. Pour les mêmes garanties, nous observons donc ici
une dégénérescence des résultats du calage des taux de couverture suite à l’incorporation d’un
niveau d’information auxiliaire supplémentaire. Au final, les taux de couverture calés T Ccal et
T Ccal2 présentent des résultats moins satisfaisants que le taux de couverture redressé T Cred .
Les calculs des taux de couverture calés étant basés sur la segmentation de la population en
classes disjointes d’âge et de sexe, il conviendra de mesurer la qualité des résultats pour des
segmentations plus fines de la population. Ce point sera discuté dans la section 3.4 relative à
l’analyse des résultats.

Le tableau 20 et la figure 20 récapitulent les résultats obtenus pour les différents taux de
couverture.

Figure 20 – Estimations des taux de couverture

66
Garantie i T C i (%) i
T Cred (%) i (%)
T Ccal i
T Ccal2 (%)
1 72.42 76.74 78.08 77.32
2 69.74 73.30 74.00 73.99
3 73.11 76.38 74.48 71.46
4 55.72 60.26 60.93 61.55
5 55.96 58.08 60.50 65.38
6 74.82 78.87 80.00 80.06

Table 20 – Récapitulatif des taux de couverture estimés

Les différents taux de couverture obtenus dans cette partie représentent, pour chaque ga-
rantie, une estimation de leur performance dans le cas où la moyenne des frais réels engagés
par les bénéficiaires aurait été égale à celle de la population française. Il convient maintenant
de comparer les résultats des différentes méthodes d’évaluation des taux de couverture. Une
attention particulière sera également accordée à l’étude de la volatilité des résultats.

3.4 Analyse des résultats


Cette partie a pour objectif d’analyser les résultats issus de la méthodologie d’évaluation
des niveaux de garantie. Il sera, entre autre, discuté de l’incohérence des résultats fournis par le
calage multiple des taux de couverture, ainsi que de l’impact de la segmentation de la population
sur le taux de couverture calé. Une analyse des taux de couverture redressés sera également pré-
sentée, dans l’optique de comprendre pourquoi cette méthode d’évaluation procure de meilleurs
résultats que les taux de couverture calés.

3.4.1 Dégénérescence du taux de couverture multiple


Le taux de couverture calé à deux niveaux d’information auxiliaires T Ccal2 présente des
résultats moins satisfaisants que le taux de couverture classique T Ccal (à un seul niveau d’in-
formation auxiliaire). Ce constat est à première vue surprenant, sachant que le calcul du T Ccal2
incorpore plus d’informations que celui du T Ccal .
Afin de mieux comprendre la dégénérescence des résultats, nous nous focaliserons sur les ga-
ranties 3 et 5, présentant toutes deux des taux de couverture T Ccal2 incohérents par rapport
aux autres résultats : le T Ccal2 de la garantie 3 est inférieur à son taux de couverture initial, et
l’écart relatif entre les taux de couverture calé et initial est très élevé pour la garantie 5.

Les incohérences des taux de couvertures calés T Ccal2 proviennent des nouveaux poids ωh,2 ∗

et de la structure de dépenses de la population : les montants moyens de frais réels les plus
faibles sont observés pour les classes de population d’âge faible. Pour pouvoir vérifier les équa-
tions de calage, une pondération plus importante doit être accordée à ces classes (les moyennes
de frais réels pour la sous-population sont plus élevées que celles de la population française,
moyennes que l’on cherche à respecter au travers des équations de calage). Les classes d’âge
élevé présentant des frais réels moyens importants sont, pour leur part, sous-pondérées. Cette
repondération excessive pour les classes d’âge extrêmes, observée pour le calage sur un niveau
d’information auxiliaire, est encore plus marquée pour le calage multiple, comme le montre le
tableau 21 ci-dessous :

Le calage sur marges repose sur la résolution d’un problème d’optimisation sous contraintes,

67
Classe Frais réel moyen xh Poids initial dh Poids final ωh∗ ∗
Poids final ωh,2
(euros) (%) (%) (%)
H : [0,10] 89.17 5.47 9.38 16.40
F : [0,10] 92.63 5.04 8.26 15.06
H : ]10,20] 107.66 6.37 8.59 7.46
F : ]10,20] 104.43 8.64 12.16 8.44
H : ]20,30] 118.38 6.35 7.46 3.81
F : ]20,30] 116.39 7.13 8.59 4.97
H : ]30,40] 123.13 6.60 7.29 3.92
F : ]30,40] 118.33 6.93 8.15 4.53
H : ]40,50] 153.75 11.59 8.61 8.00
F : ]40,50] 149.70 11.28 8.83 8.82
H : ]50,60] 177.18 13.62 7.47 11.88
F : ]50,60] 188.86 10.99 5.18 6.70

Table 21 – Montants moyens de frais réels, anciens et nouveaux poids pour les deux types de
taux de couverture calés

où la fonction cible à minimiser est définie par :


H
ωh
X  
H
(ω1 , . . . , ωH ) ∈ < 7 → dh G
h=1
dh

G étant une fonction convexe mesurant la distance entre les anciens et les nouveaux poids (pour
mémoire, la fonction G utilisée ici est G : x 7→ xlog(x) − x + 1 ). Le calage sur un double niveau
d’information auxiliaire, utilisé pour le calcul de T Ccal2 , fournit des nouveaux poids bien plus
éloignés des poids initiaux que le calage sur un unique niveau d’information : les valeurs de la
fonction cible après optimisation sont respectivement égales à 0.177 et 0.076, soit une valeur
deux fois plus élevée pour le calage à deux niveaux d’informations auxiliaires. On remarque éga-
lement que les nouveaux poids ωh,2 ∗ affectés aux deux premières classes de population sont très

largement supérieurs aux poids initiaux : respectivement 16.40% contre 5.47% pour la première
classe et 15.06% contre 5.04% pour la deuxième.

Cette sur-pondération est à l’origine de l’incohérence du taux de couverture calé T Ccal2


pour la garantie 3 : cette garantie propose des remboursements différents en fonction des ap-
pareillages enfants et adultes. Après simulation de la garantie 3 sur le sous-échantillon de frais
réels, il apparait que les classes relatives aux enfants présentent des remboursements moyens
bien inférieurs à ceux des classes adultes, comme le montre le tableau 22.
Ainsi, la sur-pondération de ces remboursements moyens lors du calcul du T Ccal2 provoque une
sous-estimation du taux de couverture pour la garantie 3. La garantie 5 fournit quant à elle des
remboursements moyens, pour les trois premières classes, largement supérieurs à la moyenne de
toutes les classes (moyenne égale à 75.12 e ). Ainsi la sur-pondération de ces trois classes, et
particulièrement celle des deux premières, a pour effet de fournir une valeur du taux de couver-
ture calé T Ccal2 très au-dessus du taux de couverture initial.

∗ doivent
Ainsi, pour vérifier les deux équations de calage, les nouveaux poids des classes ωh,2
s’éloigner sensiblement des poids initiaux dh . Ce phénomène est à l’origine d’incohérences lors
du calcul des taux de couverture calés T Ccal2 pour certaines garanties.
Ce comportement, bien que moins marqué, se retrouve également lors du calcul du taux de
couverture calé à un niveau d’information auxiliaire T Ccal , ce qui explique pourquoi les écarts

68
Remboursement moyen y h
Classe Garantie 3 Garantie 5 ∗
Poids final ωh,2
(euros) (euros) (%)
H : [0,10] 60.19 89.17 16.40
F : [0,10] 61.15 92.49 15.06
H : ]10,20] 68.36 97.91 7.46
F : ]10,20] 71.11 90.77 8.44
H : ]20,30] 105.39 47.62 3.81
F : ]20,30] 105.24 48.01 4.97
H : ]30,40] 106.51 48.80 3.92
F : ]30,40] 104.96 50.68 4.53
H : ]40,50] 111.52 73.70 8.00
F : ]40,50] 112.48 75.19 8.82
H : ]50,60] 177.65 90.12 11.88
F : ]50,60] 120.81 96.97 6.70

Table 22 – Garantie 3 et 5 : remboursements moyens et nouveaux poids pour le calcul de


T Ccal2

relatifs avec les taux de couverture initiaux sont plus volatiles pour les taux de couverture calés
que pour les taux de couverture redressés.

3.4.2 Impact de la segmentation sur le taux de couverture calé


Les résultats obtenus pour les taux de couverture calés à deux niveaux d’information auxi-
liaire T Ccal2 présentant les incohérences développées précédemment, nous faisons le choix de ne
considérer que les taux de couverture calés sur un seul niveau d’information T Ccal . Le calcul
des taux de couverture calés reposant sur une approche déterministe de repondération, il est
bien plus aisé à mettre en oeuvre que le calcul des taux de couverture redressés, mais fournit en
contrepartie des résultats moins satisfaisants. Les classes de population utilisées pour le calage
ont été construites sur des tranches d’âge de dix ans, et il peut être intéressant de mesurer
l’impact de cette segmentation sur les résultats des T Ccal . L’idée est ici de savoir si une seg-
mentation plus fine de la population permet d’obtenir de meilleurs résultats pour les taux de
couverture calés.

Les classes âge/sexe de population pour le sous-échantillon de frais réels sont ainsi reconsti-
tuées en prenant en compte des tranches d’âges de 5, 2 et 1 ans. Les résultats obtenus pour les
taux de couverture calés des six garanties sont présentés dans le tableau 23 :

Ainsi, une segementation plus fine de la population permet d’obtenir des valeurs du taux
de couverture calé plus proches du taux de couverture redressé. Cependant, ces résultats nous
montrent également que les différences restent minimes entre des segmentation en tranches de
dix ans ou d’un an.

Il est également intéressant de noter, qu’en effectuant le classement des garanties par valeurs
croissantes des taux de couverture, les résultats sont identiques pour les taux de couverture
calés et redressés. Cette constatation est rassurante dans le sens où les évaluations des niveaux
de garantie par les taux de couvertures redressés et calés sont basées sur des approches très
différentes :

69
T Ccal par segmentation
Garantie 10 ans 5 ans 2 ans 1 an T Cred
(%) (%) (%) (%) (%)
1 78.084 78.098 78.050 78.021 76.743
2 73.999 73.989 73.968 73.968 73.305
3 74.481 74.656 74.813 74.974 76.382
4 60.932 60.906 60.854 60.791 60.256
5 60.501 60.287 60.076 59.934 58.084
6 80.003 79.984 79.902 79.866 78.869

Table 23 – Impact de la segmentation sur le T Ccal

– Le taux de couverture redressé est calculé en se basant sur des rééchantillonnages des
frais réels et des remboursements. Cette technique permet de prendre en compte la cova-
riance entre les moyennes des frais réels et des remboursements au travers des estimations
bootstrap.
– Le calcul du taux de couverture calé, basé sur une repondération des classes âge/sexe de
population à l’intérieur du sous-échantillon de frais réels, n’intègre aucunement la struc-
ture de dépendance liant les frais réels et les remboursements moyens.

Ainsi, même si les valeurs des taux de couverture redressés et calés présentent des diffé-
rences, les deux méthodes d’évaluation fournissent, pour les six garanties considérées, le même
classement.
Le tableau 24 présente les valeurs et les classements des taux de couverture initiaux, redressés
et calés. Les valeurs des taux de couverture calés sont ici celles obtenues pour une segmentation
des âges en tranches d’un an.

Garantie T C / (rang) T Cred / (rang) T Ccal / (rang)


1 72.42 / (4) 76.74 / (5) 78.02 / (5)
2 69.74 / (3) 73.30 / (3) 73.97 / (3)
3 73.11 / (5) 76.38 / (4) 74.97 / (4)
4 55.72 / (1) 60.26 / (2) 60.97 / (2)
5 55.96 / (2) 58.08 / (1) 59.93 / (1)
6 74.82 / (6) 78.87 / (6) 79.87 / (6)

Table 24 – Classement des taux de couverture

3.4.3 Analyse des taux de couverture redressés


Les résultats observés pour les taux de couverture redressés apparaissent comme étant plus
cohérents que ceux des taux de couverture calés : les groupes de niveaux observés pour les
taux de couverture initiaux sont conservés lors du passage aux taux de couverture redressés. De
plus, contrairement à la technique de calage utilisée pour le calcul des T Ccal , l’évaluation des
T Cred est fondée sur l’utilisation de l’espérance conditionnelle et du rééchantillonnage bootstrap,

70
intégrant une estimation de la structure de dépendance liant les moyennes de frais réels et de
remboursements. Ainsi, connaissant ces estimations des structures de dépendance, on comprend
pourquoi l’évolution entre les taux de couvertures initiaux et redressés peut être sensiblement
différente d’une garantie à l’autre.

Comme présenté dans la sous-section 2.6.1, on rappelle le lien entre l’estimation du taux de
couverture redressé et la régression linéaire :
Sous l’hypothèse de gaussienneté du couple (X, Y ) formé des estimateurs de la moyenne des
frais réels et des remboursements, on calcule l’espérance conditionnelle de Y sachant X = µ∗x .
D’après le théorème de conditionnement d’un vecteur gaussien, l’espérance conditionnelle de Y
sachant X est une fonction affine de X , dont les paramètres font intervenir les espérances de
X, de Y , la variance de X et la covariance entre X et Y . Le calcul de l’espérance conditionnelle
en utilisant les estimations bootstrap des quantités citées précédemment est alors équivalent
à réaliser la régression linéaire de y b sur xb , avec (y b , xb )b∈[1,B] les réalisations de (Y , X) pour
chacun des B rééchantillons bootstrap.

Les graphes des régressions de y b sur xb sont présentés dans la figure 21 :

Figure 21 – Nuages bootstrap (xb , y b ) et droites de régression

Il convient de vérifier la cohérence des modèles de régression utilisés pour le calcul des taux
de couverture redressés de chacune des six garanties. Les hypothèses fondamentales de normalité
et d’homoscédasticité des résidus doivent ainsi être testées. Il s’agit ainsi de tester si les résidus
du modèle sont i.i.d suivant une loi normale centrée de variance σ 2 constante. La normalité des
résidus est visualisée au travers des QQ-plot, et vérifiée par un test de normalité de Shapiro-Wilk.

Les QQ-plots, présentés dans la figure 22, permettent de visualiser que les quantiles empi-
riques des résidus standardisés s’ajustent bien aux quantiles théoriques de la loi normale centrée
réduite, et ce pour chacune des six garanties. Afin de valider l’hypothèse de normalité des rési-
dus des régressions "bootstrap", des tests de Shapiro-Wilk sont réalisés :

71
Figure 22 – QQ-plot des résidus des régressions bootstrap

Garantie p-value
1 0.7936
2 0.5456
3 0.4069
4 0.216
5 0.7297
6 0.256

Table 25 – p-values des tests de Shapiro-Wilk

Les p-values des tests de Shapiro-wilk permettent de valider, pour chacune des garanties,
l’hypothèse nulle de normalité des résidus.
Ainsi, les modèles de régression linéaire sont "bons" dans le sens où les résidus sont i.i.d
suivant une loi normale centrée de variance σ 2 > 0. Cependant, les valeurs du R2 -ajusté, indi-
cateur souvent utilisé pour mesurer la qualité d’un modèle de régression, sont ici relativement
faibles, comme le montrent les résultats du tableau 26.

Le R2 -ajusté, interprété comme le pourcentage de variance expliquée par le modèle, se révèle


dans bien des cas être un mauvais indicateur de la qualité d’une régression. Le R2 -ajusté nous
indique si la droite de régression est proche des observations, mais pas si le modèle est "bon".
Ce point est plus largement développé en annexe (Annexe A.7), où des exemples de la qualité
limitée du R2 -ajusté sont fournis.
Ici, l’analyse des résidus montre que les modèles de régression sont cohérents : la variance des
observations autour de la droite de régression est un bruit. Les régressions linéaires sont ici
adaptées, dans le sens où il apparaît délicat de définir de meilleurs modèles.

Remaque 1 : La validité des modèles de régression linéaire est cohérente avec le cadre théorique

72
Garantie R2 -ajusté
1 0.120
2 0.131
3 0.201
4 0.037
5 0.300
6 0.295

Table 26 – R2 -ajusté pour les modèles de régression linéaire

développé pour le calcul des taux de couverture redressés. L’hypothèse fondamentale étant le
caractère gaussien du couple (X, Y ), le théorème de conditionnement (Théorème 2.4.2) montre
que le meilleur modèle de régression pour expliquer Y en fonction de X est la droite de régres-
sion. Les rééchantillons bootstrap étant sélectionnés indépendamment selon la loi de (X,Y) 18
conditionnellement à l’échantillon de départ, les couples (xb , y b ) obtenus pour chacun des B
rééchantillons peuvent être vus comme des réalisations indépendantes de B couples aléatoires
b b
(X , Y ) de même loi que (X, Y ). Les nuages des moyennes bootstrap (xb , y b ) sont ainsi des
réalisations de couples gaussiens, et le modèle de régression linéaire se trouve adapté.

Remaque 2 : Les taux de couverture redressés ont été calculés à l’aide de rééchantillonnages
bootstrap afin d’estimer les paramètres de la formule :
!
red 1 h iCov(X, Y )  ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)

L’approche par rééchantillonnage permet de visualiser les distributions des couples de frais
réels et de remboursements moyens, pour ainsi comprendre le fonctionnement du redressement
du taux de couverture. Cette approche permet également de vérifier, au travers des modèles de
régression présentés précédemment, la cohérence de la méthodologie.

Cependant, outre les avantages cités ci-dessus, le rééchantillonnage bootstrap n’apporte pas
d’information supplémentaire à celle contenue dans le sous-échantillon de départ. En effet, le
Bootstrap permet uniquement d’apporter un effet "Monte-Carlo" : En imitant la façon dont
à été généré l’échantillon initial, le bootstrap a pour effet d’introduire une volatilité dans les
résultats obtenus sur chaque rééchantillon. C’est pourquoi le bootstrap est classiquement utilisé
pour fournir une estimation de la variance d’une statistique.

Il est intéressant de fournir une estimation de la variance du taux de couverture redressé.


Pour ce faire, la procédure bootstrap doit être réadaptée. En effet, nous avons utilisé le boots-
trap pour fournir une distribution des couples de frais réels et de remboursements moyens dans
l’optique de visualiser le modèle de régression linéaire ; modèle justifié par le théorème de condi-
tionnement d’un vecteur gaussien. Ce faisant, les paramètres de la formule du T C red ont été
estimés en utilisant, pour chaque rééchantillon Bootstrap, les estimations de la moyenne des
frais réels et des remboursements. La méthode ne nous permet donc d’obtenir qu’une estima-
tion ponctuelle du T C red , mais nous souhaitons aller plus loin et proposer une estimation de la
variance ainsi qu’un intervalle de confiance pour le T C red .
18. X et Y désignent les variables aléatoires des frais réels et des remboursements.

73
3.4.4 Intervalles de confiance et volatilité des taux de couverture redressés
L’objectif est ici d’utiliser le Bootstrap afin d’obtenir :
– une estimation de la variance du taux de couverture redressé.
– un intervalle de confiance pour le taux de couverture redressé.

L’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est supposé i.i.d. L’expression du T C red est donnée par :
!
red 1 h i Cov(X, Y )  ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)
Les estimateurs 19
h i des paramètres
h i apparaissant dans l’expression du T C red sont :
Pour E Y et E X : Y et X, les estimateurs de la moyenne .
Sx 2
Pour V ar(X) : , avec Sx 2 l’estimateur sans biais de la variance de X.
n
Sxy
Pour Cov(X, Y ) : , avec Sxy l’estimateur sans biais de la covariance entre X et Y .
n

Un estimateur Υ du T C red est obtenu en substituant aux différents paramètres leurs estimateurs
respectifs :
1 Sxy 
 
Υ = ∗ Y + 2 µ∗x − X
µx Sx

Estimation Bootstrap de la variance :


B rééchantillonnages de l’échantillon initial sont effectués à l’aide de tirages avec remises de n
couples (Xi , Yi ). Pour chaque rééchantillon b, on obtient une estimation Υ b du taux de couver-
b
ture redressé en utilisant les valeurs prises par les différents estimateurs sur ce rééchantillon :
!
b = 1 S
dxy b
 
Υb ∗
Yb+
b
µ∗x − Xb
b
µx c2
S xb

On obtient au final B estimations du taux de couverture redressé : Υ


b 1, . . . , Υ
b B.

La variance Bootstrap de l’estimateur du taux de couverture redressé, notée V boot , est donnée
par :
B  B
1 X 2 1 X
V boot = b −Υ
Υb , avec Υ = Υ
b
b
B − 1 b=1 B b=1

Intervalle de confiance Bootstrap :


Il est possible de construire des intervalles de confiance Bootstrap pour une statistique. Nous
utilisons ici la méthode des percentiles 20 , développée par Efron[8] en 1981. En pratique, la
construction d’un intervalle de confiance Bootstrap pour une statistique par la méthode des
percentile se révèle très intuitive :

19. Une justification du calcul de ces estimateurs est présentée en annexe (Annexe A.8).
20. La théorie de la méthode des percentiles est développée en annexe (Annexe A.9).

74
1. On génère B rééchantillons Bootstrap sur chacun desquels la statistique est estimée.

2. On classe ces estimations par ordre croissant.

3. L’intervalle de confiance de niveau 1 − 2α s’obtient en supprimant les Bα estimations


Bootstrap les plus faibles et les Bα estimations Bootstrap les plus fortes.

Les intervalles de confiance ainsi que la variance Bootstrap permettent de fournir une vision
plus large que les estimations ponctuelles du taux de couverture redressé. Ces données per-
mettent de montrer que la précision des estimations Bootstrap n’est pas la même pour toutes
les garanties considérées.

Le tableau 27 présente les intervalles de confiance Bootstrap obtenus pour les six garanties.
Le niveau de confiance retenu est ici de 95%.

Garantie T C red IC Bootstrap 95%


(%) (%)
1 76.74 [76.07 ; 77.48]
2 73.30 [72.51 ; 74.04]
3 76.38 [75.69 ; 77.15]
4 60.26 [59.70 ; 60.70]
5 58.08 [57.60 ; 58.65]
6 78.87 [78.13 ; 79.40]

Table 27 – Intervalle de confiance Bootstrap 95% pour le T C red

Pour mesurer la précision des estimations Bootstrap obtenues, nous considérons ici, en plus de
bornesup − borneinf
la variance, d.l la demi-longueur des intervalles de confiance : d.l = . Le
√ 2
tableau 28 présente l’écart-type des estimations Bootstrap V boot ainsi que la demi-longueur
des intervalles de confiance :


Garantie V boot d.l
(%) (%)
1 0.362 0.701
2 0.389 0.761
3 0.371 0.730
4 0.254 0.502
5 0.267 0.522
6 0.321 0.637

Table 28 – Ecart-type Bootstrap et demi-longueur des intervalles de confiance 95%.

75
La longueur des intervalles de confiance Bootstrap dépend directement de la variance des
estimations, comme le montre le tableau ci-dessus : les bornes des intervalles de confiance sont
d’autant plus espacées que la variance des estimation Bootstrap est grande.

3.4.5 Evolution du taux de couverture calé


Les résultats obtenus pour les taux de couverture calés présentent plus d’instabilité que
les taux de couverture redressés. Cette instabilité est directement liée à la méthode de calage
utilisée, les nouveaux poids devant sensiblement s’écarter des poids initiaux de certaines classes
de population pour permettre à l’équation de calage d’être vérifiée. Or cette équation de calage
dépend directement de la moyenne cible que l’on cherche à atteindre : µ∗x , la moyenne des frais
réels estimée pour la population française. Il a été vu, dans la section 2.6.3, que les taux de cou-
verture calés et redressés étaient très proches dans le cas d’une moyenne des frais réels voisine
de la moyenne cible.

Il est intéressant de regarder dans quelle mesure les taux de couverture redressés et calés
divergent lorsque la moyenne cible µ∗x évolue. Pour la garantie 1, les deux taux de couverture
ont été estimés pour des valeurs de µ∗x variant de 137 à 128 euros, la moyenne des frais réels
sur le sous-échantillon étant égale à 137.4 euros. Les résultats obtenus sont synthétisés dans le
tableau 29 et visualisés sur la figure 23.

µ∗x 137 136 135 134 133 132 131 130 129 128
T C red (%) 72.48 72.82 73.16 73.51 73.86 74.21 74.58 74.94 75.32 75.70
T C cal (%) 72.48 72.92 73.35 73.79 74.23 74.68 75.14 75.60 76.06 76.53

Table 29 – Evolution des taux de couverture en fonction de µ∗x

Figure 23 – Evolution des taux de couverture en fonction de µ∗x

76
Ainsi, l’écart entre les taux de couverture redressés et calés est d’autant plus grand que µ∗x
s’éloigne de la moyenne observée sur le sous-échantillon de frais réels. Cependant, les estimations
des deux taux de couverture sont relativement proches pour de faibles écarts à la moyenne cible.
La technique du taux de couverture calé peut être vue comme une alternative à l’utilisation du
taux de couverture redressé, long en temps de calcul, pour les situations où la moyenne observée
sur le sous-échantillon reste proche de la moyenne cible µ∗x .

77
3.5 Comparaison de deux complémentaires santé
L’objectif de cette section est de présenter une application à l’évaluation des niveaux de
garantie. La méthodologie développée au cours de ce mémoire permet de proposer une estima-
tion des taux de couverture par poste de dépenses, rendant ainsi possible la comparaison de
différentes garanties sur ces postes. Nous souhaitons, à présent, comparer deux produits d’as-
surance santé complémentaire en fonction des taux de couverture de leurs garanties respectives
sur quatre grands postes de dépenses :
– Le poste Consultation/Visite (CONSU).
– Le poste Optique (OPTI).
– Le poste Hospitalisation (HOSPI).
– Le poste Prothèse dentaire (PROT).

Les remboursements offerts par les deux produits pour les quatre postes de dépenses sont
présentés dans le tableau 30 ci-dessous :

Produit 1 Produit 2

CONS 300% BRSS 200% BRSS

OPT 300% BRSS + 317e 200% BRSS + 200e

HOSPI 350% BRSS 400% BRSS

350% BRSS pour les


400% BRSS + 200e .
prothèses remboursées par la
Remboursements plafonnés à
PROT Sécurité sociale, forfait de
1200e la 1ère année et 1800e
422e sinon. Remboursements
la 2nde .
annuels plafonnés à 1584e .

Table 30 – Description des produits par poste de dépenses

L’évaluation des niveaux de garantie pour chaque poste est ici effectuée à l’aide du taux de
couverture redressé. Cette méthode est en effet préférée au taux de couverture calé au vu des
meilleurs résultats fournis tout au long de ce mémoire.
Les intervalles de confiance Bootstrap pour l’estimation des taux de couverture redressés sont
également calculés.
Les résultats des estimations pour les deux produits d’assurance santé sont présentés dans le
tableau 31 et visualisés au travers des figures 24 et 25.

78
Produit Poste T C red (%) IC Bootstrap 95%
CONSU 99.90 [99.83 ; 99.96]
1 OPTI 83.29 [82.66 ; 83.91]
HOSPI 96.12 [93.44 ; 98.33]
PROT 67.08 [65.78 ; 68.39]
CONSU 98.61 [98.39 ; 98.90]
2 OPTI 62.15 [61.38 ; 62.82]
HOSPI 96.74 [94.28 ; 98.70]
PROT 74.20 [72.66 ; 75.70]

Table 31 – Taux de couverture redressé et Intervalle de confiance Bootstrap par produit et par
poste

Ces résultats permettent de constater, pour chacun des postes, les performances des garanties
composant les deux produits d’assurance santé complémentaire. Les niveaux des garanties du
produit 1 apparaissent ainsi plus élevés pour les postes Consultation/Visite et Optique, mais
également plus faibles pour les postes Hospitalisation et Prothèse dentaire.
Les graphiques "radar" présentés ci-dessous permettent quant à eux de mieux appréhender
les points forts et les points faibles des deux produits sur les quatres postes considérés. Ces
graphiques rendent également possible un positionnement des produits sur une même figure,
présentant ainsi une vue d’ensemble des niveaux de garantie et de leurs divergences.

Figure 24 – Produits 1 et 2 : Niveaux de garantie par poste

La figure 25 présentée ci-dessous permet de clairement visualiser la surperformance de la


garantie Optique du produit 1.

79
Figure 25 – Produits 1 et 2 : Comparaison des niveaux de garantie par poste

Les résultats présentés précédemment permettent de comparer les niveaux de garanties des
deux produits pour chaque poste. Nous souhaitons également fournir une évaluation globale des
deux produits pour déterminer lequel est le plus performant. Pour cela, la technique utilisée ici
consiste à pondérer les taux de couverture obtenus pour chacune des garanties par la propor-
tion d’actes, en montant, liée à ce poste. Ces proportions sont calculées sur la sous-population
assurée utilisée tout au long de ce mémoire. Les proportions des actes relatifs aux quatre postes
de dépenses sont données dans le tableau 32 :

Poste Proportion (%)


CONSU 36.04
HOSPI 5.70
OPTI 31.10
PROT 27.16

Table 32 – Proportions des actes par poste de dépenses

Les taux de couverture d’ensemble alors obtenus sont respectivement égaux à 85.6% pour le
produit 1 et 80.5% pour le produit 2.
Ces taux de couverture globaux s’interprètent comme la part des frais de santé remboursée par
le produit, pour la population assurée, sur les quatre postes de dépenses.
Le premier produit d’assurance santé complémentaire s’avère donc plus performant que le se-
cond dans les remboursements offerts à ses bénéficiaires.

80
Il serait alors envisageable de positionner, sur un même graphique, le taux de couverture
global des produits en fonction de leur prime. Réaliser cela pour l’ensemble des acteurs de la
complémentaire santé permettrait d’obtenir un benchmark du marché, sur lequel un organisme
d’assurance pourrait repérer le positionnement de son offre vis à vis de ses concurrents.

81
Conclusion
Après avoir créé une base de dépenses issue d’une sous-population respectant les quotas
d’âge et de sexe de la population française, les niveaux des garanties ont été évalués d’après la
valeur de leur taux de couverture respectif sur cette base. Ces taux de couverture ont ensuite été
modifiés pour tenir compte de la surconsommation moyenne constatée sur la sous-population.
Deux techniques ont été construites pour réaliser cette modification, toutes deux dans l’optique
de fournir une estimation des taux de couverture dans le cas où la moyenne des frais réels enga-
gés par la sous-population aurait été égale à celle de la population française. La mise en oeuvre
de la méthodologie a alors montré que :

– La première technique, basée sur le calcul d’une espérance conditionnelle et l’estimation de


paramètres via le Bootstrap, fournit des résultats plus cohérents, intégrant la covariance
entre les moyennes des frais réels et des remboursements. Outre cet avantage, l’utilisation
du Bootstrap permet également de construire des intervalles de confiance pour les taux
de couverture des différentes garanties, et ainsi d’apprécier la performance des estimations.

– La seconde, utilisant une repondération des dépenses moyennes associées aux classes
âge/sexe de la population, bien que moins précise, fournit des résultats d’autant plus
proches de la première technique que : la segmentation de la population est précise ; que
la moyenne des frais réels observée est proche de la moyenne cible. Cette technique se
révèle également bien plus rapide à mettre en oeuvre et ne nécessite aucunement de dis-
poser de capacités informatiques importantes.

L’exemple d’application, présenté dans la dernière partie, a montré qu’il était possible, à
l’aide de la méthode développée, de fournir une évaluation des produits d’assurance santé poste
par poste, mais également dans leur ensemble. Ainsi, un organisme d’assurance peut bénéficier
d’une vision du positionnement de son offre sur le marché, et l’ajuster en conséquence pour être
plus attractif.

Enfin, bien que la méthodologie proposée permette de répondre aux attentes fixée à l’origine
de ce mémoire, certains éléments peuvent encore être considérés :
– La sélection par quotas croisés, utilisée lors de la construction de la sous-population, est
basée sur un tirage sans remise des individus, à l’intérieur des différentes classes, pour
respecter les quotas d’âge et de sexe de la population française. Cette sélection induit
une perte d’information par rapport aux données initialement disponibles. Cette perte a
été minimisée en sélectionnant aléatoirement le plus d’individus possible dans le cadre du
tirage sans remise.
Il conviendrait cependant d’évaluer l’impact de la sélection par quotas croisés sur l’esti-
mation finale des taux de couverture. Il s’agirait de réitérer la méthode de sélection un
grand nombre de fois pour obtenir différentes bases de dépenses sur lesquelles les taux de
couverture seraient calculés puis redressés. On obtiendrait alors une distribution des taux
de couverture permettant de mesurer la volatilité générée par la perte d’information lors
du tirage sans remise.

– L’estimation des taux de couverture redressés et la construction de leurs intervalles de


confiance ont fait intervenir une méthode de rééchantillonnage : le Bootstrap. Cette tech-
nique a été privilégiée, d’une part pour sa simplicité d’implémentation, d’autre part pour
son caractère intuitif. D’autres méthodes de réplication d’échantillon auraient également

82
pu être utilisées : Jackknife, d-Jackknife, Répliques Equilibrées Répétées, Bootstrap mo-
difié.

83
Bibliographie

Références
[1] AOUIZERATE J.M. (2010). Alternative neuronale en tarification santé. Mémoire d’actua-
riat, CNAM.
[2] AOUIZERATE J.M. (2012). Création d’un indicateur de niveau de garantie en frais de
santé. Bulletin Français d’Actuariat, 12(24) :15–34.
[3] BOOTH J.G. ; BUTLER R.W. ; HALL P. (1994). Bootstrap methods for finite population.
Journal of the American Statistical Association, 89(428) :1282–1289.
[4] CHAUVET G. (2007). Méthodes de bootstrap en population finie. Thèse de l’Université
Rennes 2.
[5] CHAUVET G. (2012). Méthodes de sondage. Cours de l’Ensai.
[6] DAVISON A.C. ; SARDY S. (2006). Méthodes de rééchantillonnage pour l’estimation de
variance en sondage. Journal de la Société Française de Statistique, 147(3).
[7] EFRON B. (1979). Bootstrap method : another look at the jackknife. Annals of Statistics,
7 :1–26.
[8] EFRON B. (1981). Nonparametric standard errors and confidence intervals. Canadian
Journal of Statistics, 9 :139–172.
[9] GUJARATI D.N. (2003). Basic econometrics. de boeck.
[10] GUYADER A. Espérance conditionnelle et chaînes de markov. Cours de l’Université
Rennes 2.

84
Liste des tableaux
1 Résultats de l’évaluation des niveaux de garantie . . . . . . . . . . . . . . . . . . 7
2 Résults for the guarantees level assessment . . . . . . . . . . . . . . . . . . . . . . 12
3 Nombre d’organismes et répartition du C.A. Source : Fonds CMU - DRESS 2010. 18
4 Répartition des assurés par type d’organisme. Source : DRESS 2010. . . . . . . . 18
5 Différents types d’expression des garanties . . . . . . . . . . . . . . . . . . . . . . 21
6 Anciens et nouveaux nombres d’individus par tranches . . . . . . . . . . . . . . . 32
7 Exemple d’anciens et de nouveaux poids . . . . . . . . . . . . . . . . . . . . . . . 42
8 Valeurs des paramètres de régression . . . . . . . . . . . . . . . . . . . . . . . . . 46
9 Nombres d’éléments et proportions des classes de population . . . . . . . . . . . 56
10 Nombres d’éléments initiaux et finaux . . . . . . . . . . . . . . . . . . . . . . . . 56
11 Coûts moyens des actes optiques (euros) . . . . . . . . . . . . . . . . . . . . . . 57
12 Garanties sélectionnées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
13 Taux de couverture initiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
14 Taux de couverture redressés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
15 Montants moyens de frais réels, anciens et nouveaux poids par classe . . . . . . 62
16 Taux de couverture calés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
17 Taux de couverture initiaux, redressés et calés . . . . . . . . . . . . . . . . . . . 64
18 Anciens et nouveaux poids par classe . . . . . . . . . . . . . . . . . . . . . . . . 65
19 Taux de couverture calés sur deux niveaux d’information auxiliaire . . . . . . . . 65
20 Récapitulatif des taux de couverture estimés . . . . . . . . . . . . . . . . . . . . 67
21 Montants moyens de frais réels, anciens et nouveaux poids pour les deux types
de taux de couverture calés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
22 Garantie 3 et 5 : remboursements moyens et nouveaux poids pour le calcul de
T Ccal2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
23 Impact de la segmentation sur le T Ccal . . . . . . . . . . . . . . . . . . . . . . . . 70
24 Classement des taux de couverture . . . . . . . . . . . . . . . . . . . . . . . . . . 70
25 p-values des tests de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . 72
26 R2 -ajusté pour les modèles de régression linéaire . . . . . . . . . . . . . . . . . . 73
27 Intervalle de confiance Bootstrap 95% pour le T C red . . . . . . . . . . . . . . . . 75
28 Ecart-type Bootstrap et demi-longueur des intervalles de confiance 95%. . . . . . 75
29 Evolution des taux de couverture en fonction de µ∗x . . . . . . . . . . . . . . . . . 76
30 Description des produits par poste de dépenses . . . . . . . . . . . . . . . . . . . 78
31 Taux de couverture redressé et Intervalle de confiance Bootstrap par produit et
par poste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
32 Proportions des actes par poste de dépenses . . . . . . . . . . . . . . . . . . . . . 80

85
Table des figures
1 Produits 1 et 2 : Niveaux de garantie par poste . . . . . . . . . . . . . . . . . . . 8
2 Products 1 and 2 : guarantee level by post . . . . . . . . . . . . . . . . . . . . . . 12
3 Chiffre d’affaire (Mds e ) du marché de la complémentaire santé . . . . . . . . . 18
4 Mécanisme de remboursement des dépenses de santé . . . . . . . . . . . . . . . . 20
5 Remboursements des garanties A et B . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Etapes de la méthode d’évaluation des niveaux de garantie . . . . . . . . . . . . 30
7 Densité des frais réels pour le poste Consultation/Visite . . . . . . . . . . . . . . 33
8 Evolution du taux de couverture redressé en fonction de la garantie . . . . . . . . 37
9 Méthode raking ratio : Fonction de distance G et inverse de la dérivée F . . . . . 40
10 Evolution du taux de couverture calé en fonction  de la garantie . . . . . . . . . . 42
b b

11 Nuage de points et droite de régression pour X , Y pour des garanties de
150%, 200% et 300% de la BRSS . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
12 Evolution du taux de couverture redressé Bootstrap en fonction du nombre de
rééchantillonnages B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
13 Evolution des taux de couverture redressé et calé en fonction de la garantie . . . 49
14 Etapes de la méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
15 Distributions des Frais réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
16 Distributions des Frais réels pour les montures et les verres . . . . . . . . . . . . 53
17 Evolution du montant de frais réels moyen en fonction de l’âge . . . . . . . . . . 53
18 Pyramide des âges Insee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
19 Comparaison des proportions d’hommes et de femmes par âges . . . . . . . . . . 55
20 Estimations des taux de couverture . . . . . . . . . . . . . . . . . . . . . . . . . 66
21 Nuages bootstrap (xb , y b ) et droites de régression . . . . . . . . . . . . . . . . . . 71
22 QQ-plot des résidus des régressions bootstrap . . . . . . . . . . . . . . . . . . . . 72
23 Evolution des taux de couverture en fonction de µ∗x . . . . . . . . . . . . . . . . . 76
24 Produits 1 et 2 : Niveaux de garantie par poste . . . . . . . . . . . . . . . . . . . 79
25 Produits 1 et 2 : Comparaison des niveaux de garantie par poste . . . . . . . . . 80
26 Procédé itératif de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . 91
27 Régressions linéaires simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
28 Régression non-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

86
A Annexes
A.1 Test de Kruskal-Wallis
La variable X a été observée sur k groupes indépendants G1 , G2 , . . . , Gk . L’hypothèse nulle
est alors l’égalité de l’ensemble des médianes :

H0 : θ1 = θ2 = . . . = θk

On calcule les rangs sur la réunion de tous les échantillons. En utilisant les notations suivantes :
Rangs : r1,1 , . . . , rn1 ,1 , r2,1 , . . . , rn2 ,1 , . . . , r1,k , . . . , rnk ,k .
k
X
Effectifs des échantillons : n1 , n2 , . . . , nk ; Effectif total : N = ni .
i=1
Rangs moyens des groupes : R1 , R2 , . . . , Rk .
Rang moyen général : R = N 2+1 .

La statistique de test K est définie, en l’absence d’ex aequo, par :


k
12 X  2
K= ni Ri − R
N (N + 1) i=1

12
Le facteur N (N +1) représente l’inverse de la variance de la série des rangs (1, 2, . . . , N ). S’il y
a des ex aequo, on calcule cette variance à partir de la série des rangs effectivements observés
par :  
1 X 2 (N + 1)2 
V = ri,j − N
N − 1 i,j 4
k
1 X  2
et K= ni Ri − R
V i=1

Pour des effectifs suffisamment grands dans chaque groupe (ni ≥ 10 en pratique), K
suit approximativement une loi du khi-2 à (k-1) degrés de liberté sous l’hypothèse H0 . En
se fixant
  de confiance α (classiquement α = 5%), on a sous l’hypothèse nulle H0 :
alors un seuil
PH0 χ1−α,k−1 ≥ K = 1 − α, avec χ21−α,k−1 le quantile d’ordre 1-α de la loi du khi-2. Ainsi, si
2

la valeur observée de la statistique de test est strictement supérieure à χ21−α,k−1 , on rejette H0


en faveur de H1 avec un niveau de confiance 1-α.

87
A.2 Théorème de conditionnement d’un vecteur gaussien
Théorème 1. (Conditionnement d’un vecteur gaussien)
0
Si (X, Y ) est un vecteur gaussien, alors :

Cov(X, Y )
E [ Y | X ] = E [Y ] + (X − E [X])
V ar(X)

Démonstration :
La démonstration fournie ici est une retranscription de celle présentée dans le cours de A. Guya-
der [10] :

Pour démontrer ce théorème, il suffit de prouver que la fonction u définie par :

Cov(X, Y )
u(X) = E [Y ] + (X − E [X]) = aX + b
V ar(X)

avec a = Cov(X,Y )
V ar(X) et b = E[Y ] − aE[X], vérifie bien la double propriété de caractérisation de
l’espérance conditionnelle. Puisque X est gaussienne, elle est dans L2 (Ω), et par suite u(X) =
aX + b est dans L2 (X) . Il reste à prouver que la variable aléatoire (Y − u(X)) est orthogonale
au sous-espace L2 (X), c’est-à-dire orthogonale à toute variable aléatoire f (X) fonction de X.
0
On commence par montrer que (Y − u(X)) est indépendante de X. Puisque le vecteur (X, Y )
est gaussien et que :
! ! ! ! ! !
X X 1 0 X 0 X
= = + =A + B,
Y − u(X) Y − (aX + b) −a 1 Y −b Y
0
Le vecteur (X, Y − u(X)) est gaussien aussi comme transformée affine d’un vecteur gaussien,
donc montrer l’indépendance de ses composantes revient à montrer leur décorrélation. Or :

Cov(X, Y − u(X)) = Cov(X, Y ) − Cov(X, u(X)) = Cov(X, Y ) − Cov(X, aX + b),

et par définition de a on a :

Cov(X, aX + b) = Cov(X, aX) = aV ar(X) = Cov(X, Y ),

de sorte que l’on a bien Cov(X, Y − u(X)) = 0, c’est-à-dire que X et (Y − u(X)) sont indépen-
dantes. Mais si (Y − u(X)) est une variable indépendante de X, elle est aussi indépendante de
toute fonction f (X) de la variable X. Par suite :

hf (X), Y − u(X)i = E[f (X)(Y − u(X))] = E[f (X)]E[Y − u(X)] = 0,

car (Y − u(X)) est centrée. Ainsi la seconde propriété de caractérisation de l’espérance condi-
tionnelle est vérifiée et le théorème est prouvé.

88
A.3 Convexité du Lagrangien du problème d’optimisation
Le Lagrangien de notre problème d’optimisation sous contraintes est la fonction définie par :

H H H
! !
ωh
 
µ∗x
X X X
L : (ω1 , . . . , ωH , λ1 , λ2 ) 7−→ dh G − λ1 ωh − 1 − λ2 ωh x h −
h=1
dh h=1 h=1

Avec (λ1 , λ2 ) ∈ <2 le vecteur des multiplicateurs de Lagrange, et G une fonction de distance
strictement convexe sur <∗+ .

On peut alors montrer que le Lagrangien est également strictement convexe en ω = (ω1 , . . . , ωH ).
On utilise pour cela la définition d’un fonction convexe :

Définition A.3.1. Une fonction f : I → < est convexe si et seulement si :

∀(x, y) ∈ I, ∀α ∈ [0, 1], f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y)

En considérant alors ω = (ω1 , . . . , ωH ), ω 0 = (ω10 , . . . , ωH


0 ) ∈ <∗ × <∗ et α ∈ [0, 1] quel-
+ +
conques :

H
αωh + (1 − α)ωh0
 
L αω + (1 − α)ω 0 , λ
 X
= dh G
h=1
dh
H H
! !
α)ωh0 α)ωh0 xh µ∗x
X  X 
− λ1 αωh + (1 − − 1 − λ2 αωh + (1 − −
h=1 h=1
H
ωh ω0
X  
= dh G α + (1 − α) h
h=1
dh dh
H H
! !
α)ωh0 α)ωh0 xh µ∗x
X  X 
− λ1 αωh + (1 − − 1 − λ2 αωh + (1 − −
h=1 h=1
" H H
! H
!#
ωh
 
ωh xh − µ∗x
X X X
< α dh G − λ1 ωh − 1 − λ2
h=1
dh h=1 h=1
" H  0 H
! H
!#
ω
ωh0 xh − µ∗x
X X X
h
+ (1 − α) dh G − λ1 ωh − 1 − λ
h=1
dh h=1 h=1

d’après la stricte convexité de G et la linéarité de la somme.

Au final, on obtient : L (αω + (1 − α)ω 0 , λ) < αL(ω, λ)+(1−α)L(ω 0 , λ). Le Lagrangien est donc
une fonction strictement convexe en ω, ce qui permet d’affirmer que si il existe une solution au
problème d’optimisation, cette solution est unique.

89
A.4 Limites de la fonction f
On suppose que les dh sont strictement positifs. Cette hyposthèse est toujours vérifiée dans
notre étude, la taille de la base de données permettant d’obtenir des tranches d’effectif nh non
nul, et ce même pour une segmentation fine de la population. 21

Notations : m := min xh et M := max xh .


h h

Limite en −∞ :

On a
H H H
dh eλ2 (xh −m) xh
X X X
λ 2 xh λ 2 xh
dh e xh dh e xh
h=1 e−λ2 m h=1 h=1
f (λ2 ) = = =
H e−λ2 m X
H H
dh eλ2 (xh −m)
X X
dh eλ2 xh dh eλ2 xh
h=1 h=1 h=1

Avec (
λ2 (xh −m) 0 si xh > m
lim e =
λ2 →−∞ 1 si xh = m
Donc X
dh xh
h:xh =m
lim f (λ2 ) = X =m
λ2 →−∞ dh
h:xh =m

Limite en +∞ :

De même que précédemment, on a


H
dh eλ2 (xh −M ) xh
X

h=1
f (λ2 ) = H
dh eλ2 (xh −M )
X

h=1

Avec (
λ2 (xh −M ) 0 si xh < M
lim e =
λ2 →+∞ 1 si xh = M
Donc X
dh xh
h:xh =M
lim f (λ2 ) = X =M
λ2 →+∞ dh
h:xh =M

Au final, lim f (λ2 ) = m et lim f (λ2 ) = M .


λ2 →−∞ λ2 →+∞

21. Si il existe des tranches d’effectif nh nul, nous pouvons nous ramener à cette hypothèse en supprimant ces
tranches de notre étude.

90
A.5 Méthode de Newton-Raphson
La méthode de Newton-Raphson est un procédé itératif permettant d’obtenir une valeur
approchée d’une racine réelle. Cette méthode a été initialement publiée par en 1690 par Joseph
Raphson, soit presque 50 ans avant que Isaac Newton ne la publie à son tour. En effet, bien
que Newton ait développé cette méthode en 1671, il ne la publia qu’en 1736. C’est pourquoi la
méthode porte le nom des deux mathématiciens.

La méthode de Newton-Raphson se base sur une itération du calcul de la tangente en plu-


sieurs points de la courbe d’une fonction f . Le choix d’une première valeur x0 d’une racine réelle
à localiser détermine un premier point (x0 , f (x0 )) sur la courbe de la fonction f à partir duquel
le procédé va démarrer. Le point (x0 , f (x0 )) est appelé l’amorce du procédé de Newton-Raphson.
A partir du point (x0 , f (x0 )), on détermine x1 l’intersection de la tangente en (x0 , f (x0 )) avec
l’axe des absisses. On obtient alors une nouveau point (x1 , f (x1 )) sur la courbe de f , pour
lequel on détermine également l’intesection de la tangente avec l’axe des absisses x2 . On répète
cette opération jusqu’à ce que les valeurs successives de xi et xi+1 soient suffisamment proches.
Cependant, le procédé peut très bien ne pas converger si la fonction f n’admet pas de racine
ou si le choix de l’amorce x0 n’est pas approprié.
Considérons le point (xk , f (xk )) obtenu à la k ème itération du procédé de Newton-Raphson.
Dans le cas où la fonction f est dérivable, l’équation de la tangente au point (xk , f (xk )) est
donnée par
0
y = f (xk )(x − xk ) + f (xk )
L’intersection entre la tangente au point (xk , f (xk )) et l’axe des absisses s’obtient en déterminant
x tel que y = 0. On obtient alors : x = xk − ff0(x k)
(xk )
, et comme la valeur de x trouvée est précisément
l’approximation suivante xk+1 du procédé itératif, on écrit alors :

f (xk )
xk+1 = xk −
f 0 (xk )

Cette équation est appelée "équation de récurrence de Newton-Raphson".

Figure 26 – Procédé itératif de Newton-Raphson

91
A.6 Calcul du taux de couverture calé sur deux niveaux d’informations
Dans le cas du poste Optique, nous disposons d’un double niveau d’information auxiliaire :
les coûts moyens pour un verre et pour une monture, notés respectivement µvx et µm x .
Notations :
H : le nombre de classes de population.
n : le nombre total de dépenses.
nh : le nombre de dépenses engagées par la population de la classe h.
nv , nm : les nombres totaux de dépenses pour les verres et les montures.
nvh , nm
h : les nombres de dépenses relatives aux verres et aux montures pour la classe h.

nv
En définissant alors les poids relatifs aux verres et aux montures pour chaque classe : dvh = hv
n
m nmh v m
et dh = m , on souhaite déterminer les nouveaux poids (ωh , ωh )h∈[1,H] proches des poids
n
initiaux (dvh , dm
h )h∈[1,H] et vérifiant les équations de calage :

 H
X
ωhv xvh = µvx





h=1
 H
X
ωhm xm = µm




 h x
h=1

où xvh et xmh représentent, pour la classe h, les montants de frais réels moyens pour les
verres et les montures. Ce double calage impose ici de déterminer un nombre de poids deux fois
plus important que pour le calage sur la moyenne globale des actes optique. Il est cependant
possible de montrer, sous l’hypothèse d’égalité des proportions d’actes relatifs aux verres et aux
montures pour chaque classe (i.e : dvh = dmh ∀h ∈ [1, H]), que les poids de l’ensemble des actes
(dh )h∈[1,H] sont égaux à ces proportions.

nh nv + nm nv nv nm nm
dh = = h h
= hv × + hm ×
n n n n n n
= dvh × propv + dm
h × propm
Et sous l’hypothèse dvh = dm
h , ∀h ∈ [1, H], il vient :

dh = dvh (propv + propm ) = dvh


Ainsi, il est possible de considérer les équations de calage avec des poids ωh uniques pour
chaque classe :

 H
X
ωh xvh = µvx





h=1
 H
X
ωh xm = µm




 h x
h=1

et le problème d’optimisation est alors défini de la manière suivante : on cherche les nouveaux
poids (ωh∗ )h∈[1,H] solutions de
H
ωh
X  
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh

92
sous les contraintes : 
H
X
ωh xvh

= µvx






 h=1
H


 X
m
ωh xh = µm
x


 h=1
H



 X
ωh = 1




h=1

Il convient donc de vérifier l’hypothèse d’égalité des proportions d’actes relatifs aux verres
et aux montures pour chaque classe de population. Le tableau ci-dessous montre que ces pro-
portions sont très proches pour chacune des classes :

Classe dvh dmh


H : [0,10] 0.05 0.06
F : [0,10] 0.05 0.05
H : ]10,20] 0.06 0.06
F : ]10,20] 0.09 0.09
H : ]20,30] 0.06 0.06
F : ]20,30] 0.07 0.07
H : ]30,40] 0.07 0.07
F : ]30,40] 0.07 0.07
H : ]40,50] 0.12 0.12
F : ]40,50] 0.11 0.11
H : ]50,60] 0.14 0.13
F : ]50,60] 0.11 0.11

93
A.7 Limites du R2 et du R2 -ajusté
On se place ici dans le cas d’un modèle de régression linéaire simple.

Notation :
Y1 , . . . , Yn : les valeurs observées
Yb1 , . . . , Ybn : les valeurs prédites par la droite de régression
n
X
Y = Yi
i=1
La somme des carrés expliquée par le modèle (SCE) et la somme des carrés totale (SCT) sont
définies comme suit :
X 2 X 2
SCE = Ybi − Y , SCT = Yi − Y
i i
X 2
Ybi − Y
SCE i
Le R2 est défini comme le rapport entre la SCE et la SCT, soit R2 = =X 2
SCT

Yi − Y
i
Ainsi, le R2 représente la proportion de variance totale expliquée par le modèle de régression
linéaire.
Le R2 -ajusté est dérivé du R2 pour tenir compte du nombre de variables présentes dans le mo-
2 n−1
dèle : Raj = 1 − (1 − R2 ) , avec k le nombre de paramètres du modèle, soit k=2 pour un
n−k
modèle de régression linéaire simple (l’ordonné à l’origine et le coefficient directeur). L’interpré-
tation du R2 -ajusté est semblable à celle du R2 , à savoir un indicateur de la variance expliquée
par le modèle de régression.

Ainsi le R2 permet de savoir dans quelle mesure les observation sont proches de la droite de
régression, mais pas si le modèle est "bon", comme en attestent les exemples suivants :

Figure 27 – Régressions linéaires simples

Les R2 pour les exemples 1 et 2 sont respectivement égaux à 0.91 et 0.68 et ce malgré le
fait qu’un modèle de régression linéaire semble mal adapté aux observations de l’exemple 1.
Dans l’exemple 2, la régression linéaire semble bonne dans le sens où il serait difficile de faire

94
mieux, le R2 est simplement plus faible que dans l’exemple 1 car les données sont plus bruitées.
Un modèle de régression non linéaire du type y = αx2 + β paraît mieux adapté dans le cas de
l’exemple 1, comme le montre la figure suivante :

Figure 28 – Régression non-linéaire

Le R2 est alors de 0.98. Ainsi, bien que le R2 ait été élevé dans le cas d’une régression
linéaire, ce modèle n’était clairement pas adapté aux observations de l’exemple 1.

95
A.8 Estimateurs des composantes du T C red
Le taux de couverture redressé est défini par :
!
red 1 h i Cov(X, Y )  ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)

L’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est supposé i.i.d de même loi que le couple (X, Y ).
h i
Comme E X = E[X], X est utilisé comme estimateur sans biais de E[X].
n
1 X V ar(X)
De plus, V ar(X) = 2
V ar(Xi ) = . Un estimateur sans biais de V ar(X) est donc
n i=1 n
n
Sx2 1 X
, avec Sx2 l’estimateur sans biais de la variance de X défini par : Sx2 = (Xi − X)2 .
n n − 1 i=1

 
n n n
1 X X 1 X
Enfin, Cov(X, Y ) = 2 Cov  Xi , Yj  = 2 Cov(Xi , Yj ) d’après la bilinéarité de
n i=1 j=1
n i,j=1
l’opérateur Cov. Et d’après l’hypothèse d’indépendance, Cov(Xi , Yj ) = Cov(X, Y )1{i=j} .
1 Sxy
Ainsi Cov(X, Y ) = Cov(X, Y ), et un estimateur sans biais est ,
n
n n
1 X
avec Sxy = (Xi − X)(Yi − Y ) l’estimateur sans biais de la covariance entre X et Y .
n − 1 i=1

Au final, un estimateur Υ de T C red est obtenu en remplaçant toutes les composantes par
leurs estimateurs respectifs, soit :

1 Sxy  ∗
 
Υ = ∗ Y + 2 µx − X
µx Sx

96
A.9 Intervalle de confiance Bootstrap : Méthode des percentiles
Considérons un échantillon X1 , . . . , Xn supposé i.i.d de loi inconnue F . Le Bootstrap permet
de fournir une estimation d’une fonction de répartition.
Considérons une variable aléatoire R(X1 , . . . , Xn , F ), et notons HF sa fonction de répartition
définie par :
HF (x) = P (R(X1 , . . . , Xn , F ) ≤ x)
En notant Fb la fonction de répartition empirique calculée  sur l’échantillon, HF (x) est estimé
par HFb(x) = P R(X1 , . . . , Xn , F ) ≤ x|(X1 , . . . , Xn ) , où (X1∗ , . . . , Xn∗ ) est un échantillon sé-
∗ ∗ b

lectionné selon la loi Fb conditionnellement à l’échantillon de départ.

En considérant alors les rééchantillons Bootstrap (X1b ∗ , . . . , X ∗ ) sélectionnés indépendamment


nb
selon la loi Fb , il est possible d’approcher HFb(x) par la méthode de Monte-Carlo via

B
1 X 
∗ ∗ b

I R(X1b , . . . , Xnb ,F) ≤ x
B b=1

Intéressons nous maintenant à la méthode des percentiles : Cette méthode est basée sur l’uti-
lisation de l’estimation Bootstrap de la fonction de répartition. Considérons un paramètre
θ(F ) estimé par θ(Fb ), et θ(Fb ∗ ) son équivalent Bootstrap calculé à partir d’un rééchantillon
(X1∗ , . . . , Xn∗ ). Soit  
Gboot (x) = P θ(Fb ∗ ) ≤ x|X1 , . . . , Xn

Un intervalle de confiance de niveau 1 − 2α pour θ(F ) est alors donné par


h i
−1
Gboot (α), G−1
boot (1 − α)

où Gboot peut être approché à l’aide de simulations : en pratique cette méthode consiste à
1. Générer B rééchantillons Bootstrap sur chacun desquels la statistique θ(Fb ) est calculée.
2. Classer ces estimations par ordre croissant.
3. L’intervalle de confiance de niveau 1 − 2α s’obtient en supprimant les Bα estimations
Bootstrap les plus faibles et les Bα estimations Bootstrap les plus fortes.
.

97

Vous aimerez peut-être aussi