Académique Documents
Professionnel Documents
Culture Documents
Mémoire MARTINATTO
Mémoire MARTINATTO
le 23 novembre 2013
Confidentialité : non.
Invité
Prénom NOM
Signature :
Bibliothèque : Secrétariat :
Merci également aux consultants qui m’ont aidé en répondant à certaines de mes interroga-
tions, et en particulier à Fabien Lagadec pour sa disponibilité.
Merci à ma famille et mes amis pour m’avoir soutenu pendant la durée de ce mémoire.
Enfin, je tiens à remercier l’ensemble des stagiaires d’Optimind Winter pour la bonne am-
biance qui a régné tout au long de mon stage. Merci à Matthieu Lagadec et Vincent Rouxel,
stagiaires Euria, pour leur écoute, leur soutien et les longues discussions que nous avons parta-
gées. Une pensée toute particulière à Aude, Ombline et Eliott, trois stagiaires avec qui j’ai eu
la chance de partager un bureau.
Résumé
Dans un contexte d’évolutions - récentes et à venir - de la législation française concernant le
remboursement des frais de santé, les professionnels de l’assurance complémentaire se trouvent
confrontés à un marché de plus en plus concurrentiel. Sur un même poste de dépenses, les ga-
ranties proposées par les différents organismes complémentaires peuvent être exprimées sur un
large panel d’assiettes de remboursement. Au travers de cette opacité du marché, il est difficile
pour un institutionnel de savoir comment mesurer le niveau de ses garanties, c’est-à-dire la
capacité de ces dernières à rembourser les dépenses de santé à la charge de ses assurés. L’enjeu
est pourtant de taille : pour être compétitif et espérer gagner des parts de marché, l’assureur
doit avant tout être en mesure de s’évaluer par rapport aux concurrents, et ainsi connaître les
forces et les faiblesses de son offre.
L’objectif de ce mémoire est de proposer une méthode permettant d’évaluer les niveaux
de garanties offerts par les contrats d’assurance santé complémentaire pour, in fine, être en
mesure de fournir une métrique à partir de laquelle pourront être hiérarchisées ces garanties. La
méthode développée consiste, dans un premier temps, à créer une base de dépenses sur laquelle
les niveaux des garanties seront évalués, puis à redresser ces résultats pour tenir compte du
phénomène de surconsommation observé sur cette base.
La comparaison des niveaux de garantie étant une problématique résolument nouvelle, elle n’a
jusqu’à présent été que très légèrement abordée dans la littérature. Ce travail se veut donc être
une réponse pratique à un besoin nouveau, et apporter des éléments de réflexion sur les difficultés
rencontrées dans la démarche d’évaluation et de comparaison des garanties en assurance santé
complémentaire.
2
Abstract
In a context of recent and forthcoming evolutions in french legislation about healthcare
costs compensation, supplementary health insurers are facing an increasingly competitive mar-
ket. Considering a spending post, guarantees proposed by professionals are usually expressed on
a large range of repayment basis. Through this market opacity, it’s hard for an insurer to know
how to measure the levels of his guarantees, that is their capacity to compensate healthcare
costs at the expense of the insured parties. However, there are high stakes : in order to be com-
petitive and win market shares, insurer must be able to evaluate his offers and his rivals’ones
to position himself on the market.
The aim of this Master thesis is to set up a methodology allowing to evaluate guarantees
level offered by supplementary health insurance policies. By doing this, it will be possible to
class the different garantees and then have a clear vision of the market. Our method is based
on the creation of a spending base on which the guarantees level will be evaluated. Those
results will also be corrected to integrate the over consumption phenomenon observed on our
base. Guarantees level comparison is a resolutely new issue in health insurance, and has not been
developped much in literature so far. Our work is done to provide an answer to a rising necessity,
and point out the difficulties faced in the guarantees level assessment for supplementary health
insurance.
Key words : Supplementary health insurance, Guarantee level, Coverage rate, Resam-
pling, Bootstrap, Marginal calibration, Conditional expectation, Gaussian vector, Cross
quotas selection.
3
Note de synthèse
Contexte et objectifs
Le marché de l’assurance santé complémentaire est aujourd’hui soumis à une forte concur-
rence. La non-cyclicité de ce marché et la croissance stable connue depuis 2006 ont remobilisé
les assureurs suite à la crise. Afin d’être compétitif, un organisme complémentaire doit être en
mesure de comparer son offre à celles des autres acteurs du marché. L’évaluation des niveaux
de garantie, c’est à dire la performance des remboursements offerts aux bénéficiaires, devient
alors un enjeu important pour les professionnels de la complémentaire santé. Or, la multitude
d’acteurs présents sur le marché et les pratiques liées à chacun rendent délicat le positionnement
des garanties : pour un même poste de dépenses, les garanties proposées sur le marché peuvent
être exprimées sur des assiettes de remboursement différentes. Comment comparer alors une
première garantie exprimée en pourcentage des frais réels et une seconde en pourcentage de la
base de remboursement de la Sécurité Sociale ? La principale difficulté réside dans le fait que
les remboursements de ces garanties peuvent évoluer différemment selon la nature et le montant
des dépenses engagées par les assurés.
L’objectif est ici de présenter une méthodologie permettant d’évaluer, pour un poste de dé-
penses, le niveau des différentes garanties présentes sur le marché. Cette évaluation rendra alors
possible la comparaison et le positionnement des garanties d’assurance santé complémentaire.
Méthodologie
Remarques préliminaires
La méthodologie d’évaluation des niveaux de garanties développée ici repose sur l’utilisation
d’un concept simple : le taux de couverture. Pour une garantie, le taux de couverture est calculé
sur l’ensemble des bénéficiaires comme le rapport entre la somme des remboursements et la
somme des frais réels engagés, le terme remboursement faisant ici référence à la combinaison
des remboursements de la garantie et de la Sécurité Sociale. Le taux de couverture permet ainsi
de juger de la performance des remboursements offerts par une garantie. Cependant, le taux de
couverture est directement fonction des frais réels engagés par les assurés. Ainsi, avant de pou-
voir être comparés, deux taux de couverture doivent être calculés sur la même base de dépenses.
Cette base doit, de plus, être représentative de la structure de dépenses d’une population
couverte par un contrat d’assurance santé, cela dans l’optique de conserver une approche d’éva-
luation neutre et ne pas favoriser certaines garanties. Prenons l’exemple d’une garantie optique
présentant un remboursement avantageux pour les verres et les montures adultes, mais rem-
boursant mal les frais d’optique pour les personnes de moins de 18 ans. Si dans notre portefeuille
la population adulte est sur-représentée, alors cette garantie sera clairement avantagée lors de
l’évaluation de sa performance. Ainsi, la base de dépenses devrait idéalement être représentative
d’une population assurée classique. Cependant, la structure d’une telle population est inconnue,
et nous considèrerons à la place la structure de la population française décrite par les pyramides
des âges de l’Insee.
4
Etapes de la méthode
Pour mettre en oeuvre la méthodologie d’évaluation des niveaux de garanties, nous disposons
d’une base de dépenses relative à un portefeuille d’assurés. La méthode développée se présente
en trois grandes étapes :
– 2. Simuler, sur l’échantillon de frais réels ainsi créé, les remboursements offerts par la
garantie dont on souhaite évaluer le niveau. Il est alors possible de calculer le taux de cou-
verture de la garantie, mesurant sa capacité à rembourser les dépenses de santé engagées.
– 3. Modifier la valeur du taux de couverture pour tenir compte du fait que la sous-
population étudiée a tendance à engager des frais de santé en moyenne plus coûteux
que ceux de la population française. Cette surconsommation s’interprète comme un effet
lié à la garantie dont bénéficiait initialement la population du portefeuille : se sachant bien
remboursés, certains individus ont tendance à ne pas chercher à limiter leurs dépenses.
Afin de procéder au redressement de la valeur du taux de couverture, deux techniques
sont utilisées. Ces deux techniques visent à fournir une estimation de la valeur du taux
de couverture dans le cas où la moyenne des frais réels aurait été celle de la population
française.
Techniques de redressement
La première technique est basée sur le calcul d’une espérance conditionnelle et l’utilisation
du rééchantillonnage Bootstrap pour l’estimation des paramètres. La seconde technique repose
quand à elle sur le calage sur marges, procédé utilisé en sondages pour la correction des esti-
mations. Les taux de couverture obtenus à l’aide de ces deux techniques seront respectivement
appelés taux de couverture redressé et taux de couverture calé.
5
des remboursements.
L’idée relative au calcul du taux de couverture redressé est d’estimer la valeur du taux de
couverture dans
h une situation
i où la moyenne des frais réels serait égale à µ∗x . Nous cherchons alors
à calculer E T | X = µ∗x . Cette quantité est notée T C red . Sous les hypothèses d’indépendance
et d’intégrabilité,
le théorème central limite, dans sa forme multivariée, montre que le vecteur
X, Y est asymptotiquement gaussien. De plus, le théorème de conditionnement d’un vecteur
gaussien montre que la relation liant les composantes d’un tel vecteur est donnée par la droite
de régression. Ainsi, sous l’hypothèse de gaussienneté du vecteur aléatoire X, Y , on obtient
après développement :
!
red 1 Cov(X, Y ) ∗
h i h i
TC = ∗ E Y + µx − E X
µx V ar(X)
Bien que les quantités apparaissant dans la formule du T C red puissent être estimées direc-
tement sur le sous-échantillon d’après la valeur prise par leurs estimateurs, le choix a été fait
d’utiliser un rééchantillonnage de type Bootstrap, présentant l’avantage de fournir une distri-
bution des couples de moyennes et de pouvoir ainsi apprécier leur structure de dépendance. La
procédure Bootstrap permet également de construire des intervalles de confiance pour le taux
de couverture redressé, fournissant ainsi une mesure de la précision des estimations.
nh
avec dh = , nh étant le nombre d’actes engagés par les individus de la classe h. Le calcul du
n
taux de couverture calé utilise la technique du calage sur marge : on cherche les nouveaux poids
(ωh∗ )h∈[1,H] proches des poids initiaux (dh )h∈[1,H] d’après la mesure d’une fonction de distance
H
ωh∗ xh = µ∗x .
X
G, et vérifiant l’équation de calage
h=1
Ainsi, le calcul des nouveaux poids se présente sous la forme d’un problème d’optimisation sous
contrainte, où l’on cherche les (ωh∗ )h∈[1,H] solutions de
H
ωh
X
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
6
Connaissant les nouveaux poids, le taux de couverture calé T C cal est alors donné par :
H
1 X
T C cal = ω∗ y
µ∗x h=1 h h
Les deux techniques de redressement permettent ainsi de fournir des estimations du taux de
couverture dans une situation où la moyenne des frais réels du sous-échantillon aurait été égale
à µ∗x .
Résultats
L’ensemble de la méthodologie a été mis en oeuvre sur le poste de dépenses Optique. Des
garanties présentant des types d’expressions différents (forfait, base de remboursement de la
Sécurité Sociale (BRSS), frais réels, combinaison forfait et BRSS) ont alors été considérées. Après
simulation des remboursements offerts par ces garanties sur le sous-échantillon de frais réels,
les taux de couverture ont été calculés puis corrigés d’après les deux méthodes de redressement
présentées ci-dessus. Des intervalles de confiance à 95% pour les taux de couverture redressés
T C red ont également été fournis.
L’analyse des résultats montre que le taux de couverture redressé, intégrant la covariance
entre la moyenne de frais réels et des remboursements, fournit en général des estimations plus
cohérents que le taux de couverture calé. Cependant, les estimations issues des deux méthodes
se révèlent d’autant plus proches que :
– la segmentation de la sous-population en classes d’âge et de sexe, utilisée pour le calcul
du taux de couverture calé, est fine.
– la moyenne des frais réels observée sur le sous échantillon est proche de la moyenne cible
µ∗x .
7
Figure 1 – Produits 1 et 2 : Niveaux de garantie par poste
Dans cet exemple, le produit 1 se révèle plus performant sur les postes Consultation/Visite
et Optique, avec une sur-performance marquée pour ce dernier poste. Le produit 2 propose
quand à lui de meilleures garanties pour les postes Hospitalisation et Prothèse dentaire.
Conclusion
La méthodologie développée permet, pour chaque poste de dépenses, de fournir une estima-
tion du niveau des garanties. Il devient alors possible de positionner entre elles les différentes
garanties du marché, qu’elles soient ou non exprimées sur la même assiette de remboursement.
Ce travail a été mené dans l’optique de fournir un procédé utilisable pour les professionnels
de l’assurance santé complémentaire souhaitant évaluer et positionner leurs offres face aux dif-
férents acteurs du marché. Nous espérons ainsi avoir apporté des éléments de réponses aux
problématiques et aux enjeux liés à l’évaluation des niveaux de garantie.
8
Executive summary
Context and objectives
French supplementary health insurance market is today facing a huge competition. Since
2006, non-cycle and strong cost-effectiveness of the market have grabed back insurers after the
economic crisis. In order to be competitive, a supplementary organisation must be able to com-
pare his offers with his rival’s ones, and guarantee level assessment is becoming a high stake
for insurers. Nevertheless, high number of actors on the market and each one’s practice make
difficult the comparison of guarantees : considering a spending post, guarantees proposed by
professionals are usually expressed on a large range of repayment basis. Although comparison
of guarantees expressed on the same basis is easy, it’s delicate to compare two guarantees when
their expression basis are different.
Our aim is to set up a methodology allowing to evaluate, for a given spending post, le-
vel of different guarantees met on the french market. Then, through this assessment capacity,
comparison of supplementary health insurance guarantees will be possible.
Methodology
Preliminary remark
Our guarantee level assessment methodology is found on a basic concept : coverage rate.
considering a guarantee, coverage rate is defined as the sum of repayments on the sum of spen-
dings. Coverage rate gives an estimation of the guarantee performance. However, as coverage
rates are directly function of spendings owed by insured parties, they must be calculated on the
same expenses base.
Moreover, this base has to be representative of the expenses structure of an insured popula-
tion in order to preserve a neutral evaluation approach. For example, if a guarantee is good for
adults but not for children, and if adults population is over represented in our base, then this
guarantee would have a clear advantage being evaluated on the base. So, expenses base should
ideally be representative of a classic french assured population. However, the structure of this
kind of population is unknow, and we use the the structure of the whole french population
discribed from Insee population pyramids.
Method description
We dispose of an expenses base coming from an insurance portfolio. The method developed
here is based on three steps :
– 1. Re-select, from our original base, a representative sample of the french population for
the age and gender quotas. We use the cross selection quotas approach : after segmen-
tation of population in age/gender classes, we draw without replacement individuals in
every classes to respect french population quotas. Expenses from this sub-popolation are
used to create the base on which guarantees will be evaluated.
9
– 2. Simulate repayments of the guarantee we want to estimate the level, and calculate its
coverage rate.
– 3. Correct coverage rate value to offset the phenomenon of over consumtion observed
on our sub-population. This bias is due to the original guarantee covering our portfolio
population : knowing the were well reimburse, some people don’t try to limitate their
health expenses. To set up this correction, two approachs are used in order to get an
estimation of coverage level in the case of an expense average equal to the french population
one.
Redress approachs
Our first approach is based on the calculation of a conditional expectation and the use of
Bootstrap resampling fot parameters estimation. Second one is adapted from a method for cor-
rection of survey results : the marginal calibration. Coverage rates obtained, by using those two
approachs, will be called respectively redressed coverage rate and calibrated coverage rate.
10
rate can be rewritten as :
H
X
dh y h
h=1
τ= H
X
dh xh
h=1
nh
with dh = , nh representing the number of expenses relatives to the class h. The calculation
n
of the coverage rate uses the marginal calibration approach : we are looking for the new weights
(ωh∗ )h∈[1,H] closed to the original ones (dh )h∈[1,H] for a distance function G, and respecting the
H
ωh∗ xh = µ∗x .
X
calibration equation
h=1
So, new weigths calculation involved constrained optimization, where we are seaching (ωh∗ )h∈[1,H]
solution of
H
ωh
X
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
under constraints :
H
X
= µ∗x
ωh xh
h=1
H
X
ωh = 1
h=1
The two redress approachs give us an estimation of the coverage rate value in a situation
where expenses average on our sub-population is equal to the global french population one : µ∗x .
Results
The whole methodology has been set up on the expenses post Optic, where guarantees
expressed on different repayment basis have been considered. The table given below shows the
redressed and calibrated coverage rates, and the Bootstrap 95% confidences intervals obtained
for the T C red .
The results analysis shows us that redressed coverage rate, integrating the covariance bet-
ween expenses and repayments averages, gives usually more consistent estimations than the
calibrated coverage rate. Moreover, estimations from the two approachs appear to be very close
when :
– the segmentation of the sub-population used for the marginal calibration is fine.
– the expenses mean observed on our subset is close to the target average µ∗x .
Through the methodology developped, it is also possible to compare the performances of
health insurance products post by post.
11
Garantee τ (%) T C cal (%) T C red (%) Bootstrap 95% C.I
1 72.42 78.08 76.74 [76.07 ; 77.48]
2 69.74 74.00 73.30 [72.51 ; 74.04]
3 73.11 74.48 76.38 [75.69 ; 77.15]
4 55.72 60.93 60.26 [59.70 ; 60.70]
5 55.96 60.50 58.08 [57.60 ; 58.65]
6 74.82 80.00 78.87 [78.13 ; 79.40]
Considering two products and four expenses posts (Consultation (CONSU), Optic (OPTI),
Hospitalization (HOSPI), Denture prothese (PROT)), graphs given below show the guarantees
assessment post by post.
In our example, product 1 appears to be more competitive on the Consultation and Optic
posts, with a strong gap for that last one. Product 2, for its part, offer better guarantees on the
Hospitalization and Denture protheses posts.
Conclusion
The methodology set up allows, for every expenses post, to provide guarantee level assess-
ment estimation. In this way, it is possible to give a position of the different guarantees of the
market, expressed or not on the same repayment basis. Our work has been done to supply a
process usable by supplementary health insurers who want to evaluate and order their offer
against the different actors on the market.
12
Table des matières
Remerciements 1
Résumé 2
Abstract 3
Note de synthèse 4
Executive summary 9
Introduction 15
1 Présentation générale 16
1.1 Marché de l’assurance santé complémentaire . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Un marché développé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Un marché concurrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.3 Un marché segmenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Mécanismes de l’assurance santé complémentaire . . . . . . . . . . . . . . . . . . 20
1.2.1 Mécanisme de remboursement des dépenses de santé . . . . . . . . . . . . 20
1.2.2 Les diverses expressions de garantie . . . . . . . . . . . . . . . . . . . . . 21
1.3 La comparaison des niveaux de garantie . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.1 Les niveaux de garantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.2 Les besoins et les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Les difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Les techniques couramment utilisées . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.1 Panorama des techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.2 Les limites de ces techniques . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Techniques récentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . 26
13
2.5.1 Fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5.2 Utilisation dans le cadre de la méthode . . . . . . . . . . . . . . . . . . . 44
2.6 Remarques sur les méthodes développées . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.1 Lien entre le taux de couverture redressé et la régression linéaire . . . . . 45
2.6.2 Convergence du Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6.3 Comparaison des taux de couvertures redressé et calé . . . . . . . . . . . 49
3 Mise en oeuvre 50
3.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Focus sur les frais réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Création du sous-échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.2 Mise en oeuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Evaluation du niveau des garanties . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.1 Présentation des garanties . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.2 Simulation des garanties et calcul des taux de couverture . . . . . . . . . 59
3.3.3 Redressement et Calage des taux de couverture . . . . . . . . . . . . . . . 60
3.4 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Dégénérescence du taux de couverture multiple . . . . . . . . . . . . . . . 67
3.4.2 Impact de la segmentation sur le taux de couverture calé . . . . . . . . . 69
3.4.3 Analyse des taux de couverture redressés . . . . . . . . . . . . . . . . . . 70
3.4.4 Intervalles de confiance et volatilité des taux de couverture redressés . . . 74
3.4.5 Evolution du taux de couverture calé . . . . . . . . . . . . . . . . . . . . . 76
3.5 Comparaison de deux complémentaires santé . . . . . . . . . . . . . . . . . . . . 78
Conclusion 82
Bibliographie 84
A Annexes 87
A.1 Test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.2 Théorème de conditionnement d’un vecteur gaussien . . . . . . . . . . . . . . . . 88
A.3 Convexité du Lagrangien du problème d’optimisation . . . . . . . . . . . . . . . 89
A.4 Limites de la fonction f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A.5 Méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
A.6 Calcul du taux de couverture calé sur deux niveaux d’informations . . . . . . . . 92
A.7 Limites du R2 et du R2 -ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.8 Estimateurs des composantes du T C red . . . . . . . . . . . . . . . . . . . . . . . 96
A.9 Intervalle de confiance Bootstrap : Méthode des percentiles . . . . . . . . . . . . 97
14
Introduction
Le caractère non cyclique et la croissance régulière connue par le marché de la complémen-
taire santé ont remobilisé les assureurs suite à la crise. L’assurance santé est ainsi redevenue,
depuis 2009, un secteur de premier plan pour les assureurs.
La forte compétitivité pousse les acteurs de l’assurance santé à vouloir comparer leurs offres
à celles des concurrents, ceci dans l’optique de déterminer le positionnement de leurs garan-
ties sur le marché. Cependant, les pratiques propres aux différents organismes rendent difficile
la comparaison des garanties santé. En effet, pour un poste de dépenses donné, les garanties
peuvent être exprimées sur des assiettes de remboursement différentes. Ainsi, si il est immédiat
qu’une garantie remboursant 80% des frais réels est meilleure qu’une garantie de 70% des frais
réels, la comparaison d’une première garantie de 80% des frais réels et d’une seconde indemnisant
à hauteur de 200% de la base de remboursement de la Sécurité Sociale se révèle plus compliquée.
Ce mémoire présentera, dans un premier temps, les problématiques et les enjeux liés à
l’évaluation du niveau des garanties santé, ainsi que les différentes techniques utilisées jusqu’ici,
leur fonctionnement et leurs limites. La deuxième partie du mémoire s’intéressera à présenter en
détails la méthodologie développée, en se concentrant sur les hypothèses et les outils techniques
utilisés. Ensuite, la méthodologie sera mise en oeuvre sur le poste de dépenses Optique, relatif
aux frais engagés par les assurés pour les verres et les montures. Une attention particulière sera
également accordée à l’analyse des résultats. Enfin, la dernière partie portera sur l’application
de la méthode dans l’optique de comparer deux produits d’assurance santé sur quatre postes de
dépenses, pour ainsi fournir une évaluation de leur performance globale.
15
1 Présentation générale
1.1 Marché de l’assurance santé complémentaire
1.1.1 Un marché développé
En France, la couverture complémentaire santé relève de financements privés (à l’exeption
de la couverture maladie universelle complémentaire). Elle permet, pour un assuré, de couvrir
toute ou partie des dépenses de soins et de biens médicaux non prises en charge par l’Assurance
maladie obligatoire. On parlera, dans la suite de ce mémoire, de reste à charge primaire pour
désigner cette part des frais de santé qui demeure à la charge de l’assuré après le remboursement
de la Sécurité Sociale 1 .
16
– Dans le cadre d’un contrat collectif facultatif ou individuel, l’assureur ne peut résilier
la couverture des frais médicaux et la hausse du tarif doit être uniforme pour tous les
assurés.
– 2003, la loi Fillon favorise la mise en place de contrats collectifs obligatoires, en restrei-
gnant les avantages fiscaux - pour les entreprises et les salariés - à ces seuls contrats.
– 2005, l’aide à la complémentaire santé (ACS) 2 donne droit, pendant un an, à une aide
financière pour la cotisation d’une complémentaire santé.
Les dispositifs précédents ont permis de favoriser l’accès à une complémentaire santé au plus
grand nombre. L’ANI du 11 janvier 2013 va participer à élargir encore davantage l’accès à une
couverture santé complémentaire, mais va également avoir un impact sur la structure du marché
en favorisant les contrats collectifs au détriment des contrats individuels. L’ANI aura alors pour
effet d’accentuer la concurrence sur le marché de la couverture santé individuelle où certaines
cibles, comme les TNS 3 , vont devenir prioritaires pour les assureurs.
17
Figure 3 – Chiffre d’affaire (Mds e ) du marché de la complémentaire santé
(36.9%), les sociétés d’assurance sont quand à elles plus en retrait sur ce secteur (26.2%) 5 . A
noter également qu’en 2010, les contrats collectifs et individuels représentaient respectivement
42% et 58% de l’ensemble des contrats santé. 6
Table 3 – Nombre d’organismes et répartition du C.A. Source : Fonds CMU - DRESS 2010.
Table 4 – Répartition des assurés par type d’organisme. Source : DRESS 2010.
18
1.1.3 Un marché segmenté
Pour avoir une vue globale du marché français de l’assurance santé complémentaire, il
convient de distinguer les deux catégories de contrats existantes : les contrats à adhésion indivi-
duelle et les contrats collectifs. Un contrat individuel est souscrit par un particulier directement
auprès d’un organisme d’assurance complémentaire, alors qu’un contrat collectif est souscrit par
l’entreprise qui, la plupart du temps, s’engage à prendre en charge une partie des cotisations de
ses salariés. L’adhésion d’un salarié à un contrat collectif peut être à caractère obligatoire ou
facultatif.
Comme pour le transfert des frais de santé de la Sécurité Sociale vers les organismes complé-
mentaires, des dispositions réglementaires ont permis de créer de nouveaux segments d’activité,
instaurant de ce fait une compétitivité nouvelle entre les institutionnels de la complémentaire
santé souhaitant se positionner sur ces secteurs émergeants :
– La loi Madelin de 1994, favorisant pour les travailleurs indépendants l’accès à un cou-
verture santé complémentaire grâce à des déductions fiscales. Cette loi a ainsi permis de
développer le secteur de la complémentaire santé pour les travailleurs non salariés.
– Les contrats territoriaux de 2012, créant un nouveau segment d’activité pour la couverture
complémentaire santé des agents territoriaux.
19
1.2 Mécanismes de l’assurance santé complémentaire
1.2.1 Mécanisme de remboursement des dépenses de santé
Le mécanisme de remboursement des frais de santé s’articule autour de trois niveaux :
– Au niveau de la Sécurité sociale, via l’Assurance santé obligatoire. Pour chaque type d’acte
correspondent :
– Une Base de Remboursement de la Sécurité Sociale (BRSS), déterminant l’assiette à
partir de laquelle le remboursement de la Sécurité Sociale est calculé.
– Un taux de remboursement.
– Un Remboursement de la Sécurité Sociale (RSS), correspondant à l’application du taux
de remboursement à la BRSS.
– Un Ticket Modérateur (TM), égal à la différence entre la BRSS et le RSS. Le TM
représente ainsi la part des dépenses de santé restant à la charge de l’assuré après le
remboursement de l’Assurance Maladie pour un acte au tarif de convention, c’est-à-dire
hors dépassements d’honoraires.
– Au niveau de l’assuré, où le Reste à Charge (RAC) correspond à la part des frais de santé
à la charge de l’assuré après les remboursements successifs de la Sécurité Sociale et de
l’organisme complémentaire. Son importance est variable en fonction de la garantie pro-
posée par la complémentaire de chaque assuré.
La figure 4 présente le mécanisme de remboursement des frais engagés par un assuré dans le
cadre d’une consultation médicale.
20
1.2.2 Les diverses expressions de garantie
Un des effets de la concurrence accrue entre les différents acteurs assurant une couverture
santé complémentaire est la multitude de produits proposés, et par conséquent un large panel
d’expressions pour les garanties de ces produits. Pour un poste de dépenses donné (Optique
par exemple) et pour deux assurances complémentaires offrant chacune une garantie pour ledit
poste, il est fréquent que les assiettes sur lesquelles sont exprimées ces garanties soient diffé-
rentes. Cette diversité est une source de difficultés à deux niveaux :
– Pour un particulier, comment voir clair dans l’éventail des offres qui lui sont proposées ? 7
Quelle garantie lui permettra d’être le mieux remboursé lors de ses dépenses de santé ? La
multitude d’expressions de remboursement entretient une forme d’opacité pour les clients.
– Pour les organismes de complémentaire santé, comment comparer leurs garanties à celles
de leurs concurrents ? Leur contrat garantissant un remboursement à hauteur de 90%
des frais réels est-il meilleur que l’offre adverse offrant quant à elle une indemnisation à
hauteur de 300% de la base de remboursement de la Sécurité sociale ? Cette difficulté à
comparer les diverses offres du marché peut constituer un frein à la concurrence.
Le tableau 5 ci-dessous regroupe différents types d’assiettes sur lesquelles peuvent être ex-
primées les garanties complémentaires santé :
7. Les organismes complémentaires ont fait un effort de clarté en proposant un glossaire santé dans leur
Conditions Générales et sur leur site internet, mais ces informations restent difficilement compréhensibles pour
la plupart des particuliers.
21
1.3 La comparaison des niveaux de garantie
1.3.1 Les niveaux de garantie
Le niveau d’une garantie correspond à la capacité qu’a cette dernière de rembourser les frais
de santé engagés par un assuré. Autrement dit, il s’agit de la performance de la couverture
offerte par une garantie.
Il convient de bien faire la distinction entre le niveau d’une garantie, comme défini ci-dessus,
et sa rentabilité. La rentabilité, pouvant être mesurée à l’aide de plusieurs indicateurs (dont le PS
(le ratio Sinistres sur Primes) et le ratio combiné), permet à un assureur de savoir si son système
de tarification est adapté à son portefeuille d’assurés. Sa mesure constitue principalement un
outil de contrôle et de pilotage des garanties offertes par l’assureur. Le niveau d’une garantie,
comme on l’entend dans ce mémoire, fait référence à la qualité des remboursements dont les
assurés peuvent bénéficier par le biais de cette garantie. La connaissance de ce niveau doit
permettre de répondre à la question : Sur un poste de dépenses analysé, quelle est la meilleure
couverture ?
– Un objectif marketing : être capable de se positionner vis à vis des garanties concurrentes.
Cela permettra à un assureur de voir si ses garanties santé surperforment (ou sousper-
forment) celles des autres acteurs du marché. Cet objectif constitue la problématique de
ce mémoire.
Le pilotage des garanties santé devient donc un enjeu essentiel pour les différents orga-
nismes souhaitant acquérir une certaine compétitivité sur le marché, mais également améliorer
le traitement informatique et la tarification de leurs produits.
22
La réponse à cette question n’est pas immédiate.
Considérons l’exemple suivant pour le poste Optique :
– Une garantie A rembourse 50% des FR, limité à 300e par an.
– Une garantie B propose un remboursement forfaitaire de 100e.
Un assuré de moins de 18 ans se voit prescrire des verres correcteurs du type "Verre blanc simple
foyer, sphère de -6,25 à -10,00" par son ophtalmologiste. Le montant des FR s’élève à 70e. La
base de remboursement de la Sécurité Sociale (BRSS) pour ce type de verre est de 26,88e, et
le taux de remboursement de 60%. Le remboursement de la Sécurité sociale est donc de :
60% × 26, 88 = 16, 128e. Les remboursements des garanties A et B sont égaux à :
La garantie B offre donc un meilleur remboursement dans ce cas particulier. Cependant, comme
la garantie A offre un remboursement proportionnel aux FR (dans la limite des 300e annuels),
et que la garantie B est forfaitaire, il existe un montant de FR à partir duquel la garantie A va
mieux rembourser que la B. Ce montant s’obtient en résolvant :
La figure 5 montre, pour les deux garanties A et B, les montants remboursés en fonction du
niveau des frais réels.
23
A la vue de ces résultats, il apparaît délicat de définir laquelle des deux garanties précédentes
est la plus performante. La difficulté réside dans le fait que lorsque des garanties ne sont pas
exprimées en fonction de la même assiette, comme dans l’exemple précédent, elles se comportent
de manières différentes suivant l’évolution des frais réels engagés par l’assuré.
Les méthodes qu’il est possible de rencontrer dans la pratique sont les suivantes :
– Le montant remboursé dans une situation de référence : Cette méthode consiste à com-
parer différentes garanties en les rapportant à une situation de référence, et à regarder
quelle garantie offre le meilleur remboursement. Par exemple, dans le cas d’une prothèse
en céramique d’un montant de 400e installée à deux assurés couverts par des garanties
différentes non obligatoirement exprimées sur la même assiette, il suffit de comparer le
reste à charge pour chacun des assurés.
Cette technique présente l’avantage de reposer sur un concept simple et pratique.
– Le montant maximum : Cet indicateur consiste à relever, pour un contrat donné, le mon-
tant maximal remboursé par la garantie étudiée.
– Le taux de couverture : Pour une garantie donnée, le taux de couverture est calculé comme
le rapport entre la somme des montants remboursés et la somme des montants engagés
pour les frais de santé.
C’est l’indicateur qui est le plus fréquemment utilisé pour mesurer le niveau d’une garantie.
24
La valeur de l’expression de garantie permet uniquement de positionner entre elles des ga-
ranties exprimées sur la même assiette de remboursement.
Le montant remboursé dans une situation de référence ne saurait quant à lui être un in-
dicateur satisfaisant dans la mesure où cette méthode ne se fonde que sur un évènement de
référence. Or, comme il a été vu, deux garanties peuvent se comporter de manières très diffé-
rentes suivant le montant de FR engagé. Un évènement de référence ne peut donc pas fournir
une image complète de la qualité d’une garantie.
Le taux de couverture semble a priori être la technique la mieux adaptée à la mesure des
niveaux de garantie. Etant basée sur l’ensemble des montants engagés et des remboursements
correspondants, cet indicateur prend en compte un comportement de la garantie plus large que
le montant maximum ou la situation de référence.
Cependant, le taux de couverture présente l’inconvénient majeur de dépendre directement des
frais réels engagés par l’assuré. Ce faisant, il devient très délicat de pouvoir comparer deux ga-
ranties différentes, dans la mesure où les bases de dépenses auxquelles s’appliquent ces garanties
peuvent ne pas être semblables. Ainsi, l’utilisation de cet indicateur pour comparer les niveaux
de plusieurs garanties nécessite des distributions de frais réels homogènes.
L’accès à une base de dépenses communes, regroupant l’ensemble des frais réels engagés par
les assurés pour chacune des garanties, permettrait de corriger le biais de cet indicateur. En
effet, une telle base offrirait la possibilité de calculer les remboursements que seraient suscep-
tibles d’accorder les garanties si elles étaient appliquées aux mêmes dépenses de santé. Hors, en
pratique, cette idée semble difficilement réalisable : les frais de santé constituant des bases de
données très volumineuses pour chaque assureur, le regroupement de ces bases pour constituer
une base commune sur laquelle seraient calculés, pour chaque ligne, les remboursements hypo-
thétiques de toutes les garanties nécessiterait une énorme capacité de traitement informatique.
25
taux de couverture, pondérés par les poids des tranches dans le portefeuille.
Le poids d’une tranche dans le portefeuille, calculé sur l’ensemble des FR du portefeuille, est
donné par : X
F Rk × 1{F Rk ∈ ti }
k∈ΓP
ωti = X , ti ∈ τ (2)
F Rk
k∈ΓP
Le taux de couverture de la tranche est calculé sur l’ensemble des FR relatifs au contrat C par :
X
Rk × 1{F Rk ∈ ti }
k∈ΓC
T Cti = X , ti ∈ τ (3)
F Rk × 1{F Rk ∈ ti }
k∈ΓC
L’indicateur du niveau de la garantie, pour le contrat C, est alors obtenu en sommant les
taux de couvertures pondérés par le poids des tranches correspondantes :
X
Indic = ωti × T Cti (4)
ti ∈τ
Cependant, la subdivision des FR repose sur l’hypothèse selon laquelle les distributions de
FR sont, pour toutes les garanties, "homogènes" sur les tranches constituées. Une segmenta-
tion des dépenses en tranches trop épaisses risque de ne pas être suffisante pour corriger les
fortes disparités pouvant exister entre les distributions de FR. A l’opposé, la prise en compte de
chaque montant de FR, par une segmentation unitaire des dépenses, permettrait de totalement
corriger ces différences. Or, une segmentation trop fine des FR aura pour conséquence de voir
des garanties pour lesquelles aucune dépense n’aura été engagée sur certaines tranches, et par
conséquent aucun remboursement. Dès lors se pose le problème d’estimer, pour une garantie, le
26
taux de couverture sur une tranche de dépenses pour laquelle aucun frais n’a été engagé.
Le niveau de segmentation à adopter pour les dépenses constitue donc une problématique
majeure lors de la mise en oeuvre de cette méthode.
27
2 Méthode d’évaluation des niveaux de garanties
2.1 Introduction
L’objectif de ce mémoire est de développer une méthode permettant d’évaluer le niveau des
garanties santé. Cette méthode d’évaluation doit permettre de constituer un benchmark des
différentes garanties santé par poste de dépenses, et ainsi fournir une vision des diverses offres
du marché et de leur performance.
Pour pouvoir comparer plusieurs niveaux de garantie, il est nécessaire de se placer dans une
situation où les dépenses engagées par les assurés sont identiques pour l’ensemble des garanties
considérées. La création d’une base de dépenses commune constitue donc la première étape de
la méthode présentée dans ce mémoire.
A partir de cette base de dépenses, on se propose de calculer les remboursements offerts par
les diverses garanties. Connaissant ces remboursements et les frais engagés par les assurés, il
est alors possible de calculer les taux de couverture relatifs aux différentes garanties. Sachant
que les taux de couverture reflètent les niveaux des garanties, leur calcul sur une même base
de frais réels rend alors possible leur comparaison. Dans un dernier temps, la méthode vise à
redresser les taux de couverture obtenus, pour tenir compte du fait que la base de dépenses sur
laquelle ces derniers sont calculés n’est pas totalement représentative de la population française.
Cette partie présente les étapes de la méthode mise en place et les outils théoriques utilisés
pour y parvenir.
Afin d’alléger les expressions et les formules utilisées dans cette section, les notations sui-
vantes sont utilisées :
– n : le nombre de dépenses engagées par les assurés.
– xk : le k ème frais réel, k ∈ [1, n].
– yk : le k ème remboursement associé. 8
– τ : le taux de couverture de la garantie considérée.
Le taux de couverture étant égal au rapport entre la somme des remboursements et la somme
des frais réels, on a donc :
n
X
yk
k=1
τ= n (5)
X
xk
k=1
28
provenant d’une population assurée proche de la population française permettra de calculer les
taux de couverture des différentes garanties dans une situation proche de la réalité du marché.
Les taux de couverture ainsi obtenus peuvent être interprétés comme une estimation des taux
de couverture qu’auraient eu les différentes garanties si les distributions de frais réels auxquelles
elles s’appliquent avaient été représentatives de l’ensemble de la population française.
Comme les frais réels à disposition sont issus d’un unique contrat d’assurance santé com-
plémentaire, ils risquent fortement de ne pas correspondre à la vraie structure de la population
française. En effet, comme nous le verrons lors de la mise en oeuvre de la méthode, certaines
classes de la population sont mal représentées à l’intérieur de notre échantillon de départ. Cela
s’explique par le fait que certaines personnes ont un intérêt personnel à choisir une complé-
mentaire santé en particulier. Ainsi une personne âgée, dont une partie importante des frais de
santé concerne les soins optiques, aura un intérêt tout particulier à opter pour une assurance
complémentaire offrant un meilleur remboursement pour ce poste de dépenses.
Le niveau d’une garantie est alors représenté par son taux de couverture. En notant n la taille
de l’échantillon constitué pour représenter au mieux la structure de la population française, on
peut réécrire, d’après l’équation (5) le taux de couverture de la manière suivante :
n
X
1
n yk
k=1 y
τ= n = (6)
1
X x
n xk
k=1
Avec y, x les moyennes empiriques des remboursements et des frais réels sur l’échantillon.
L’écriture du taux de couverture sous la forme d’un rapport de moyennes sera utile dans la pro-
chaine étape de la méthode, qui consiste à redresser le taux de couverture pour tenir compte du
fait que l’échantillon de frais réels constitué n’est pas entièrement représentatif de la population
française.
29
Nous présenterons deux méthodes visant à redresser le taux de couverture. La première mé-
thode envisagée visera à estimer la valeur du taux de couverture dans le cas où l’estimateur
de la moyenne des frais réels est égal à la moyenne constatée sur la totalité de la population
française. Cette première méthode se basera sur une hypothèse de gaussienneté des estimateurs
de la moyenne des frais réels et des remboursements, puis sur le calcul d’une espérance condi-
tionnelle. La seconde méthode sera quant à elle basée sur une technique fréquemment utilisée
pour redresser les estimations des sondages : le calage sur marge. Le calage sur marge est la
méthode que nous avions utilisée à l’origine, mais les limites apparues lors de sa mise en oeuvre
nous ont poussés à développer une seconde approche.
Les sections 2.3 et 2.4 s’attardent à présenter en détails les outils et techniques utilisés au
niveau des différentes étapes de la méthode d’évaluation des niveaux de garantie développée
dans ce mémoire.
Afin d’illustrer les différentes étapes, nous présenterons également plusieurs résultats obtenus
pour le poste de dépenses Consultation/Visite. Les différentes garanties pour ce poste sont
presque toujours exprimées en pourcentage de la Base de Remboursement de la Sécurité Sociale,
et leur comparaison est donc immédiate. Cependant, ces premiers résultats nous permettrons
de mieux appréhender les effets de la méthodologie mise en place.
30
2.3.1 Sélection par quotas
Pour garantir la représentativité des frais réels, la méthode utilisée s’appuie sur la logique
de sélection d’échantillon mise en oeuvre pour les sondages empiriques.
En notant :
– U : L’ensemble de la population française
– S1 : L’ensemble des individus composant notre échantillon initial
– S2 : L’ensemble des individus présents dans le sous-échantillon final
Pour constituer le sous-échantillon représentatif des frais réels de la population, l’idée est de
resélectionner des individus de l’échantillon initial pour respecter certaines caractéristiques de la
population globale. La technique de sélection par quotas utilisée se décrit comme suit : Connais-
sant la structure de la population U d’après sa répartition au sein de H classes définies par les
modalités de p variables catégorielles x1 , x2 , . . . , xp , et en se fixant un nombre d’individus pour
S2 , l’idée consiste à resélectionner des individus de S1 pour respecter les quotas des H classes
au sein de la population U.
Les variables catégorielles x1 , x2 , . . . , xp sont des variables dont la valeur est connue pour
chaque assuré, comme par exemple l’âge, le sexe ou la catégorie socio-professionnelles. Pour que
la sélection par quotas ait un sens, il convient de vérifier au préalable que les variables utilisées
pour définir les classes de la population soient explicatives pour les frais réels.
Considérons par exemple une sélection par quotas d’après les variables catégorielles x1 = âge
et x2 = sexe ayant respectivement M et L modalités (L = 2 dans notre exemple). On connaît
la structure de la population U par rapport aux modalités de ces deux variables à partir de
données nationales. Deux méthodes de sélection par quotas sont envisageables :
– La sélection par quotas marginaux, où l’on impose que le sous-échantillon ait la même
structure que la population U pour chacune des deux variables.
– La sélection par quotas croisés, où l’on impose cette fois que le sous-échantillon ait la
même structure que U pour chaque classe définie par le croisement de ces deux variables.
Nous nous intéressons ici à la méthode de sélection par quotas croisés car, comme il sera vu lors
de la mise en oeuvre, les variables croisées sont explicatives des frais réels.
Notons alors :
Si l’on souhaite que le sous-échantillon S2 soit composé de n0 individus, alors pour respec-
ter les quotas des classes Uml , on sélectionne nml individus dans chaque classe équivalente de
l’échantillon initial S1 . Il faut donc, pour respecter les quotas, que nml vérifie :
La sélection des individus s’effectue par un tirage sans remise, cela dans l’optique de pouvoir
supposer que les observations de l’échantillon final sont des réalisations indépendantes. Cepen-
31
dant, le tirage sans remise induit une perte d’information, et il faut de plus que les tailles de
classes nml soient inférieures à celles des classes de l’échantillon initial pour que le tirage sans
remise soit possible. Une attention toute particulière doit donc être accordée lors de la construc-
tion de l’échantillon final.
Le tableau 6 présente l’exemple de calcul des nouveaux poids pour les quatres premières
tranches âge/Sexe, avec n0 = 6000.
Pour tester l’influence de variables qualitatives sur une variable quantitative, on effectue
classiquement un test d’analyse de la variance (ANOVA en abrégé 9 ). L’ANOVA à un facteur
est utilisé pour tester l’influence d’une unique variable catégorielle. Pour tester la significativité
de deux variables catégorielles sur une variable quantitative, on utilise un test ANOVA à deux
facteurs. Dans le cas d’un nombre de variables catégorielles supérieur à deux, un test d’analyse
de la variance multifactoriel (MANOVA en abrégé) est utilisé.
Cependant, l’inconvénient des tests d’analyse de la variance, tels que cités ci-dessus, est
qu’ils reposent sur une hypothèse de normalité de la variable quantitative au sein de chacune
des sous-populations définies par les modalités des variables catégorielles. Or, cette hypothèse
se trouve souvent invalidée dans la pratique, comme le montre la figure 7. C’est pourquoi nous
aurons ici recours à une variante non-paramétrique des tests d’analyse de la variance, non basée
sur l’hypothèse de normalité : le test de Kruskal-Wallis.
Le test de Kruskal-Wallis est présenté en détails en annexe (Annexe A.1). Nous retenons ici
qu’il s’agit d’un test permettant de vérifier si les valeurs observées pour la variable quantitative
sont issues d’une même loi sur chacune des sous-populations.
32
Figure 7 – Densité des frais réels pour le poste Consultation/Visite
En reprenant l’exemple des données dont nous disposons pour le poste des consultations
médicales, on souhaite tester si la variable croisée âge × Sexe a un effet significatif sur les frais
réels engagés par les assurés. Le choix des variables catégorielles à tester est ici limité : les
variables âge et Sexe sont des variables dont on connaît la valeur prise pour chacun des assurés
que l’on observe. Ce sont également les deux variables pour lesquelles on connaît la structure
de la population française d’après la pyramide des âges de l’Insee.
Dans notre exemple, on sépare notre échantillon de frais réels en 14 groupes définis par les
modalité de la variable âge × Sexe (il y a sept tranches d’âges et deux catégories de sexe). On
teste l’hypothèse nulle H0 d’égalité des 14 paramètres de position 10 contre l’hypothèse alterna-
tive H1 d’inégalité d’au moins deux de ces paramètres.
En se fixant un niveau de confiance de 95%, la p-value du test de Kruskal-Wallis obtenue pour
notre exemple est très faible (de l’ordre de 10−16 ), et l’hypothèse nulle H0 est donc rejetée. On
en conclut que nos groupes de frais réels ne sont pas tous issus d’une même population. La
variable croisée âge × Sexe a donc une influence sur les frais réels engagés par les assurés.
Il faut cependant rester prudent avec l’interprétation des résultats du test de Kruskal-Wallis,
car, comme un test ANOVA, il ne nous renseigne ni sur le nombre de groupes qui proviennent
d’une population différente, ni dans quelles proportions ces groupes s’éloignent de la population
"standard". Toutefois, notre objectif ici n’est pas d’identifier quels groupes sont responsables du
rejet de H0 , mais de savoir si des groupes de notre échantillon ont une consommation de frais
réels différente. Les résultats du test de Kruskal-Wallis nous fournissent une réponse à cette
question. Il apparaît alors cohérent de créer un sous-échantillon respectant les quotas croisés
âge × Sexe de la population française dans l’optique d’approcher au mieux sa structure de
dépenses.
10. ces paramètres sont définis par la médiane des frais réels au sein de chaque groupe
33
2.4 Méthodes pour le redressement du taux de couverture
Deux méthodes sont présentées ci-dessous pour le redressement du taux de couverture cal-
culé sur le sous-échantillon construit grâce à une sélection par quotas.
La première méthode repose sur des hypothèses de gaussienneté et sur le calcul d’une espérance
conditionnelle.
La seconde méthode est basée sur l’adaptation d’une technique de redressement utilisée en son-
dage : le calage sur marges.
Deux techniques sont ainsi développées et testées. Ce choix se justifie par souci de proposer des
méthodes adaptées à différents cas de figures : le calage sur marge est très rapide à mettre en
oeuvre, mais fournit dans certain cas des résultats peu cohérents. La méthode basée sur le calcul
de l’espérance conditionnelle fournit dans l’ensemble de meilleurs résultats, mais nécessite en
contrepartie un temps de calcul bien plus important.
L’objectif est de corriger la valeur du taux de couverture pour tenir compte du fait que le
sous-échantillon créé précédemment n’est pas suffisamment représentatif des frais réels de la
population française. Le but de la méthodologie développée dans ce mémoire est d’évaluer le
niveau des garanties dans une situation qui se veut la plus proche possible de la situation de
marché, c’est-à-dire une situation où les différentes garanties seraient calculées sur une distri-
bution de frais réels reflétant au maximum celle de la population française.
Les deux techniques de redressement reposent sur l’utilisation d’une information auxiliaire :
le montant moyen de frais réels sur l’ensemble de la population française. Ce montant moyen
peut être estimé à partir de diverses études extérieures sur les frais de santé. Il semble alors
intéressant d’incorporer cette information pour corriger la valeur du taux de couverture.
On interprète (x1 , y1 ), (x2 , y2 ),. . . , (xn , yn ) comme étant une réalisation de l’échantillon
(X1 , Y1 ), (X2 , Y2 ),. . . , (Xn , Yn ), avec (X1 , Y1 ), (X2 , Y2 ),. . . , (Xn , Yn ) des vecteurs aléatoires
indépendants et identiquement distribués, ou i.i.d en notation abrégée.
Le taux de couverture τ est obtenu d’après l’équation (6), et un estimateur intuitif est :
Y
Tb = (8)
X
34
avec Y et X les estimateurs de la moyenne des remboursements et des frais réels :
n n
1X 1X
Y = Yk , X= Xk (9)
n k=1 n k=1
L’objectif est ici de prédire la valeur du taux de couverture dans le cas où le montant moyen
des frais réels constaté sur l’échantillon serait égal à celui de la population française. Ainsi, en
notant µ∗x la moyenne des frais réels constatée sur l’ensemble de la population française, on
cherche à calculer T C red défini par :
h i
T C red = E Tb | X = µ∗x
Et d’après l’équation 8, il vient :
" #
Y 1 h i
TC red
=E | X = µ∗x = ∗
E Y | X = µ∗x (10)
X µx
red revient à déterminer la quantité
h Au final, le icalcul du taux de couverture redressé T C
E Y | X = µ∗x , avec E[ . ] l’espérance sous la loi du couple (X, Y ).
Cov(U, V )
E [ V | U ] = E [V ] + (U − E [U ])
V ar(U )
D’après le théorème 2.4.1, le vecteur (X, Y ) est asymptotiquement gaussien. Comme, dans
notre cas, la taille de l’échantillon n est très grande, on suppose que le vecteur (X, Y ) est
approximativement gaussien. h i
Alors, d’après le théorème 2.4.2, la quantité E Y | X = µ∗x peut être calculée par :
h i h i Cov(X, Y ) ∗ h i
E Y | X = µ∗x = E Y + µx − E X (11)
V ar(X)
35
Au final, d’après les équations (10) et (11), l’expression du taux de couverture redressé est la
suivante :
!
1 h i 1 h i Cov(X, Y ) ∗ h i
TC red
= ∗ E Y | X = µ∗x = ∗ E Y + µx − E X (12)
µx µx V ar(X)
h i h i h i
Ainsi, pour calculer E Y | X = µ∗x , il convient d’estimer E Y , E X , Cov(X, Y ) et
V ar(X).
2.4.1.3 Bootstrap h i h i
Afin d’estimer les quantités E Y , E X , Cov(X, Y ) et V ar(X), on utilise une technique de
réechantillonnage : le Bootstrap. Le Bootstrap et son utilisation, pour l’estimation des quantités
citées précédemment, seront présentés en détails dans la section 2.5. Néanmoins, la logique de
cette technique est la suivante :
A partir de l’échantillon (Xi , Yi )1≤i≤n , on constitue B rééchantillons (Xib , Yib )1≤i≤n , b ∈ [1, B] en
tirant aléatoirement avec remise des couples (xi , yi ). Sur chacun des rééchantillons, on calcule
h iBoot h iBoot
b b
les réalisations des estimateurs Y , X . Les estimations Bootstrap E Y et E X sont
alors obtenues par les approximations de Monte-Carlo :
B n
h iBoot 1 X 1X
– E Y = y b , avec y b = yb
B b=1 n i=1 i
B n
h iBoot 1 X X
– E X = xb , avec xb = 1
n xbi
B b=1 i=1
On déduit alors les estimations Bootstrap Cov(X, Y )Boot et V ar(X)Boot d’après les expres-
sion des estimateurs de la covariance et de la variance :
B
Boot 1 X b
h iBoot
b
h iBoot
– Cov(X, Y ) = x −E X y −E Y
B − 1 b=1
B 2
1 X
h iBoot
– V ar(X)Boot = xb − E X
B − 1 b=1
La valeur du taux de couverture redressé est alors obtenue d’après l’équation (12) en utilisant
les estimations Bootstrap :
!
1 Cov(X, Y )Boot
h iBoot h iBoot
∗
T C red = ∗ E Y + µ x − E X
µx V ar(X)Boot
h i h i
Remarque : Les quantités E Y , E X , Cov(X, Y ) et V ar(X) peuvent, après quelques
calculs, être estimées directement à partir de l’échantillon de départ. L’utilisation du rééchan-
tillonnage permet cependant de fournir une distribution des couples de moyennes (x, y) et de
visualiser la structure de dépendance liant ces deux grandeurs.
36
La figure 8 présente les résultats obtenus pour différentes garanties du poste Consulta-
tion/Visite exprimées en pourcentage de la Base de Remboursement de la Sécurité Sociale
(BRSS).
A partir des expressions des diverses garanties, les remboursements ont été calculés sur le
sous-échantillon, où la moyenne des frais réels est de 29,7e. La courbe bleue représente, pour
chacune des garanties, la valeur du taux de couverture non redressé (i.e. : calculé directement
sur le sous-échantillon). La courbe rouge permet quant à elle de visualiser les différentes valeurs
obtenues pour le taux de couverture redressé, avec µ∗x = 28e .
Ces premiers résultats permettent de juger de la cohérence de la méthode :
– Le taux de couverture redressé reste supérieur au taux de couverture initial pour toutes
les garanties considérées. Cela est logique : pour une même garantie, le taux de couverture
est d’autant plus élevé que la moyenne des frais réels est basse.
– L’effet du redressement sur le taux de couverture est d’autant plus important que la
garantie est faible. Une garantie peu élevée se retrouve vite limitée dans sa capacité de
remboursement, et cette capacité se voit accentuée dans le cas d’une baisse de la moyenne
des frais réels. A contrario, une bonne garantie couvre déjà une large partie des dépenses
engagées par les assurés, son taux de couverture est alors beaucoup moins sensible à une
baisse de la moyenne des frais réels.
37
Pour mémoire, lors de la construction du sous-échantillon présentée dans la section 2.3, une
séparation de la population en H classes disjointes a été utilisée. Le taux de couverture calculé
sur le sous-échantillon peut alors se réécrire :
n H
1
X X nh
n yk yh
k=1 h=1
n
τ= n = H
(13)
1
X
xk
X nh
n xh
k=1 h=1
n
L’idée est alors de modifier la valeur des poids des tranches pour respecter l’information
auxiliaire selon laquelle le montant moyen des frais réels est égal à µ∗x sur l’ensemble de la
population. Pour ce faire, on cherche les nouveaux poids ωh∗ tels que la moyenne des frais réels
sur notre échantillon, recalculée avec ces nouveaux poids, soit égale à µ∗x . Ainsi, on cherche à
obtenir les ωh∗ permettant d’écrire :
H
ωh∗ xh = µ∗x
X
(15)
h=1
L’équation (15) est appelée équation de calage. On parle de calage car on impose que la
moyenne de la variable x sur le sous-échantillon soit égale à celle de la population globale.
Le nouveau taux de couverture est alors calculé en remplaçant dans l’équation (14) les dh
par les nouveaux poids ωh∗ . Ce taux de couverture "calé" sera noté T C cal dans la suite de ce
mémoire, par opposition au taux de couverture redressé T C red défini précédemment.
Soit :
H
ωh∗ y h
X
H
h=1 1 X
T C cal = = ω∗ y (16)
H µ∗x h=1 h h
ωh∗ xh
X
h=1
38
Ainsi le calcul des poids (ω1∗ , . . . , ωH
∗ ) se présente classiquement comme un problème d’optimi-
H
ωh
X
min dh G (17)
(ω1 ,...,ωH )∈<H
h=1
dh
La première contrainte est définie par l’équation de calage. La deuxième sert, quant à elle,
à imposer que la somme des nouveaux poids soit
bien égale à 1.
ωh
G est une fonction de distance telle que G dh mesure l’écart entre les poids finaux ωh et les
poids initiaux dh , h ∈ [1, H].
Une telle fonction doit vérifier :
– G(1) = 0.
– G est une fonction positive et convexe.
La convexité de la fonction G assure ainsi que G ωdhh sera d’autant plus grand que ωdhh s’éloigne
de 1, c’est-à-dire que la distance entre ωh et dh augmente.
En pratique, il existe plusieurs fonctions de distance usuelles pouvant être utilisées.
– méthode linéaire : la fonction de distance est définie par G : x ∈ <∗+ 7−→ 12 (x − 1)2 , et
alors F (x) = 1 + x
– méthode raking ratio : la fonction de distance est ici G : x ∈ <∗+ 7−→ x log x − x + 1, et
F (x) = exp(x)
39
Figure 9 – Méthode raking ratio : Fonction de distance G et inverse de la dérivée F
Remarquons tout d’abord que la fonction de distance G est strictement convexe sur <∗+ :
G est 2-fois dérivable et sa dérivée seconde est strictement positive sur <∗+ .
En effet, ∀x ∈ <∗+ , G0 (x) = log x et G00 (x) = x1 > 0 .
On peut alors montrer que le Lagrangien est également strictement convexe en ω = (ω1 , . . . , ωH ).
La démonstration de ce point figure en annexe (Annexe A.3).
La stricte convexité du Lagrangien permet d’affirmer que si il existe une solution au pro-
blème d’optimisation, cette solution est unique. On détermine alors une solution (ω1∗ , . . . , ωH
∗ )
∂L
= 0, h ∈ [1, H]
∂ωh
∂L
= 0
∂λ1
∂L
= 0
∂λ2
40
Soit, d’après l’expression du Lagrangien L donnée dans l’équation (18) :
∂L 1 ωh
= 0 ⇐⇒ dh G0 − λ1 − λ2 xh = 0, h ∈ [1, H]
∂ωh dh dh
⇐⇒ ωh = dh F (λ1 + λ2 xh ) , h ∈ [1, H]
H H
∂L
ωh xh = µ∗x ⇐⇒ dh exp (λ1 + λ2 xh ) xh = µ∗x
X X
= 0 ⇐⇒ (20)
∂λ2 h=1 h=1
41
Pour notre sous-échantillon de frais réels du poste Consultation/Visite, min xh = 27, 22,
h
max xh = 31, 17 et µ∗x = 28. Ainsi µ∗x ∈] min xh ; max xh [, ce qui justifie l’existence d’une solution
h h h
pour λ2 . Les résultats suivants sont alors obtenus : λ1 = 59, 35, λ2 = −2, 07, et le tableau 7
ci-dessous présente la valeur des nouveaux poids pour les dix premières tranches définies par les
modalités de la variable âge×sexe avec des tranches de dix années pour la variable âge :
Tranche T1 T2 T3 T4 T5 T6 T8 T9 T10
Anciens poids dh (%) 11,00 10,28 6,18 8,38 4,41 6,55 6,64 9,16 8,63
Nouveaux poids ωh∗ (%) 3,00 2,02 29,01 22,70 9,56 2,19e−03 20,38 1,50e−02 9,02
Au final, le taux de couverture calé définit dans l’équation (16) est obtenu par :
H
1 X
T C cal = dh exp (λ1 + λ2 xh ) y h
µ∗x h=1
La figure 10 présente les valeurs obtenues pour le taux de couverture calé sur le même panel
de garanties utlisé pour le graphique 8.
Les résultats obtenus pour le taux de couverture calé apparaissent comme similaires à ceux
du taux de couverture redressé. A la vue de ces résultats, la méthode du taux de couverture
calé présente les mêmes éléments de cohérence que le taux de couverture redressé, à savoir :
– Le taux de couverture calé est, pour toutes les garanties considérées, supérieur au taux
de couverture initial. Ce résultat respecte la logique suivant laquelle le taux de couverture
42
est d’autant plus grand que la moyenne des frais réels est basse.
– L’effet du calage sur le taux de couverture se révèle plus marqué pour les garanties les plus
faibles : une garantie de niveau élevé rembourse déjà une part importante des dépenses
à la charge des assurés, la baisse du montant moyen de frais réels a donc un impact très
limité sur son taux de couverture.
43
2.5 Présentation du Bootstrap
Cette section a pour objet de présenter en détails la technique du Bootstrap et son utilisation
pour le calcul du taux de couverture redressé T C red .
2.5.1 Fonctionnement
Le Bootstrap est une méthode d’estimation par rééchantillonnage largement utilisée en son-
dage pour estimer la précision des résultats. Elle a été initialement proposée par Efron [7] en
1979.
Principe du Bootstrap
Soit X1 , . . . , Xn un échantillond i.i.d et distribué selon une loi inconnue F. On souhaite estimer
un paramètre θ(F ). Alors θ(F ) est estimé par θ(Fb ), où θ(Fb ) est obtenu en remplaçant F par Fb ,
la fonction de répartition empirique calculée sur l’échantillon. Dans le cas où θ(Fb ) ne peut pas
être calculé facilement, il est possible d’avoir recours à des simulations : On constitue B échan-
tillons X1b , . . . , Xnb , b ∈ [1, B], appelés rééchantillons, sélectionnés indépendamment selon la loi
Fb conditionnellement à l’échantillon initial X1 , . . . , Xn . En pratique, cette sélection consiste à
répéter B fois le tirage avec remise de n éléments parmi l’échantillon X1 , . . . , Xn . Une fois les
B rééchantillons à disposition, on effectue l’approximation de Monte-Carlo :
B
1 X
θ Fb b
B b=1
pour θ(Fb ), avec Fb b la fonction de répartition empirique calculée sur le rééchantillon X1b , . . . , Xnb .
La méthode du Bootstrap permet ainsi de fournir une estimation de la variance d’un estimateur
ou de son biais.
h Pour
i mémoire,
h i le calcul du taux de couverture redressé est basé sur l’estimation des quantités
E Y , E X , Cov(X, Y ) et V ar(X). Les quantités citées précédemment peuvent être estimées
directement sur l’échantillon initial d’après la valeur prise par leur estimateur respectif. L’intérêt
du rééchantillonnage est ici d’obtenir plusieurs réalisations supposées i.i.d du couple (X, Y ), ceci
dans le but de fournir une visualisation de la structure de dépendance liant les deux estimateurs.
Chaque rééchantillon est constitué en tirant avec remise n couples parmi l’échantillon initial
(X1 , Y1 ), . . . , (Xn , Yn ). Si l’on note FbX,Y la fonction de répartition empirique du couple aléatoire
(X, Y ), les rééchantillons sont sélectionnés indépendamment selon la loi FbX,Y conditionnellement
à l’échantillon initial. Nous calculons alors, pour chaque rééchantillon, les moyennes empiriques
xb , y b . Nous obtenons ainsi B réalisations du couple aléatoire (X, Y ) à partir desquelles il est
possible d’estimer la covariance entre X et Y d’après l’estimateur de la covariance :
B
1 X b
h i
b
h i
SX,Y = X −E X Y −E Y
B − 1 b=1
44
h i h i
où E X et E Y sont également estimées d’après les expressions des estimateurs de l’espé-
B B
1 X b 1 X b
rance X et Y .
B b=1 B b=1
Pour la quantité V ar(X), on utilise l’estimateur sans biais de la variance :
B
1 X b
h i2
SX = X −E X
B − 1 b=1
h iBoot h iBoot
En notant alors E Y ,E X , V ar(X)Boot et Cov(X, Y )Boot les estimations respec-
h i h i
tives de E Y , E X , V ar(X) et Cov(X, Y ), nous obtenons alors l’expression du taux de
couverture redressé :
!
1 Cov(X, Y )Boot
h iBoot h iBoot
red ∗
TC = ∗ E Y + µ x − E X
µx V ar(X)Boot
Dans un cadre plus général, en considérant un couple aléatoire (U, V ) à valeurs réelles pour
lequel on souhaite déduire une estimation de V dans le cas où U = u. On définit pour cela une
fonction de < dans < qui à tout point u associe un point r(u). h i
Si la qualité de l’approximation est mesurée par l’erreur quadratique moyenne E (V − r(U ))2 ,
le mieux à faire est de prendre pour r la fonction de régression de V sur U , définie par
u 7→ E [ V | U = u ].
Cependant, l’espérance conditionnelle peut se révéler être un objet difficile à calculer. Ainsi,
en pratique, on se limite souvent à approcher au mieux V par une fonction affine de U :
f (U ) = αU + β, avec :
Cov(U, V )
α =
V ar(U )
= E[V ] − αE[U ]
β
45
La figure 11 montre les nuages de points xb , y b ainsi que la droite de régression pour
b∈[1,B]
trois garanties différentes. Le nombre de rééchantillonnages Bootstrap est ici de B = 1000.
b b
Figure 11 – Nuage de points et droite de régression pour X , Y pour des garanties de
150%, 200% et 300% de la BRSS
Les valeurs des paramètres des droites de régression sont données dans le tableau suivant :
On remarque que meilleure est la garantie, plus le coefficient directeur α est grand et l’ordonnée
à l’origine β est faible.
Les valeurs des coefficients directeurs et des ordonnées à l’origine des droites de régression
permettent ainsi de comprendre pourquoi le redressement du taux de couverture a d’autant
plus d’effet que la garantie est faible. En effet, prenons le cas des garanties 1 et 2 et notons
T C1red , T C2red les taux de couverture redressés, (α1 , β1 ) et (α2 , β2 ) les paramètres des droites de
régression respectives (on a donc α1 < α2 et β1 > β2 ). Les taux de couverture initiaux (calculés
avant redressement) sont quand à eux notés T C1 et T C2 . L’effet du redressement sur le taux
de couverture est mesuré par la différence entre le taux de couverture redressé et le taux de
couverture initial, et est noté ∆. Soit pour la garantie 1 :
46
∆1 = T C1red − T C1
De plus, on a d’après le lien entre l’espérance conditionnelle et la droite de régression :
1 h ∗
i α1 µ∗x + β1
T C1red = E Y 1 | X = µ x =
µ∗x µ∗x
En notant y 1 la moyenne des remboursements offerts par la garantie 1 et x la moyenne des
y h i
frais réels constatée sur le sous-échantillon, alors T C1 = 1 , et comme y 1 = E Y 1 | X = x , 13
x
le taux de couverture initial peut donc se ré-exprimer comme :
1 h i α1 x + β 1
T C1 = E Y1|X =x =
x x
Il vient donc :
α1 µ∗x + β1 α1 x + β1
∆1 = −
µ∗x x
1 1
= α1 − α1 + β1 −
µ∗ x
x
1 1
= β1 −
µ∗x x
1 1
> β2 − = ∆2
µ∗x x
Au final, on obtient donc ∆1 > ∆2 . Cela montre que le redressement du taux de couverture à
d’autant plus d’impact que la garantie considérée est faible, comme nous avions pu le constater
sur la figure 8, reproduite ci-dessous.
47
2.6.2 Convergence du Bootstrap
Le taux de couverture redressé est estimé via l’utilisation de rééchantillonnages Bootstrap
pour deux raisons :
– Les rééchantillonnages permettent d’obtenir une distribution du couple X, Y , et ainsi
d’apprécier la structure de dépendance liant les deux estimateurs. Grace à une telle distri-
bution, il est également possible de vérifier la cohérence du modèle de régression linéaire,
justifié par l’hypothèse de gaussienneté du couple aléatoire, via une analyse des résidus.
– Une approche par rééchantillonnages Bootstrap permet, de plus, de construire des inter-
valles de confiance non-paramétriques pour l’estimation du taux de couverture redressé.
Disposer d’intervalles de confiance pemettra ainsi de juger de la précision des estimations
du taux de couverture.
Il convient de vérifier, avant toute chose, que l’estimation par le Bootstrap est consistante,
c’est-à-dire que le taux de couverture redressé converge bien, lorsque le nombre de rééchantillon-
nages augmente, vers l’estimation réalisée directement sur les donnée initiales.
La figure 12 présente, pour une garantie de 200% de la BRSS pour le poste Consulta-
tion/Visite, l’évolution du taux de couverture redressé en fonction du nombre de rééchantillon-
nages B. On observe que les résultats convergent, losrque B augmente, vers la valeur du taux
de couverture redressé estimé sans rééchantillonnage.
48
2.6.3 Comparaison des taux de couvertures redressé et calé
La figure 13 pésente les résultats obtenus pour les taux de couverture redressé et calé sur
un même panel de garanties.
En premier lieu, il est intéressant de noter que les valeurs obtenues pour les deux taux de
couverture sont très proches, et ceci bien que les méthodes d’évaluation soient différentes. On
remarque également que le taux de couverture redressé est légèrement supérieur au taux de
couverture calé. Il apparaît donc, à première vue, que le redressement du taux de couverture
ait un effet plus marqué que le calage.
49
3 Mise en oeuvre
Cette partie a pour objectif de présenter la mise en oeuvre de la méthodologie développée
dans ce mémoire. Les données utilisées sont relatives au poste Optique. Contrairement au poste
Consultation/Visite qui a servi à illustrer la section technique, il existe une grande variété d’ex-
pressions de garanties pour le poste Optique.
Ainsi il est fréquent de rencontrer des garanties exprimées sur des assiettes différentes : BRSS,
Forfait, combinaison BRSS+Forfait. L’évaluation et le positionnement de ces garanties entre
elles est alors complexe. L’objectif de ce mémoire est d’apporter une solution à cette probléma-
tique, en développant une méthode axée autour de trois grandes étapes :
– 1. Re-sélectionner, à partir des données dont nous disposons, un échantillon de frais réels
plus représentatif de la population française. L’intérêt de cette étape est de placer la
comparaison des garanties dans une situation qui se veut la plus proche possible de la
réalité de marché, ceci par souci d’apporter une vision neutre du niveau des garanties en
se plaçant dans un contexte global.
– 2. Simuler, sur l’échantillon de frais réels créé à l’étape précédente, les remboursements
offerts par les différentes garanties dont on cherche à évaluer le niveau. Connaissant alors
les frais réels et les remboursements correspondants, il est alors possible de calculer pour
chacune des garanties un taux de couverture 14 , mesurant les capacités respectives des
garanties à rembourser les dépenses engagées par les assurés.
– 3. Modifier les valeurs des taux de couverture obtenus pour tenir compte du fait que
l’échantillon généré à l’étape 1. n’est pas suffisamment représentatif de la structure de dé-
penses de la population française. Deux techniques sont proposées pour modifier la valeur
des taux de couverture : un redressement basé sur l’utilisation de l’espérance condition-
nelle, et une re-pondération des segments de la population pour respecter une information
auxiliaire. On parlera de taux de couverture redressé et de taux de couverture calé pour
désigner les résultats respectifs de ces deux techniques.
Dans cette partie, nous nous attarderons dans un premier temps à présenter les données du
poste Optique à notre disposition, et à décrire les différentes variables présentes. Une attention
particulière sera accordée à l’analyse des frais réels qui constituent la base de notre méthodologie
d’évaluation des niveaux de garantie. Ensuite, nous décrirons les étapes de la création du sous-
échantillon représentatif de la population française. Enfin, l’évaluation des niveaux de garanties
et l’analyse des résultats seront présentées.
14. Rapport entre la somme des remboursements (Sécurité Sociale et mutuelle) et la somme des frais réels
50
Données initiales
Etape 1.
Sous-échantillon de frais
réels représentatif de la
population française
Taux de Taux de
couverture couverture calé :
redressé : T C red T C cal
Etape 3.
Cette base de données comprend les prestations optiques liées à l’achat de montures et la
pose de verres correcteurs dont ont bénéficié les différents assurés d’un portefeuille entre avril
2009 et décembre 2012.
Nous ne considérons que les années de soins 2011 et 2012, les données relatives aux frais de
santé n’étant généralement plus fiables après deux ans. De plus, nous supprimons les prestations
relatives aux assurés de plus de 60 ans, car nous ne disposons que de très peu de données pour
ces âges.
Au final, on recense 10905 assurés distincts dans le portefeuille pour un total de 12635 frais
d’optique engagés entre le 31 décembre 2010 et le 31 décembre 2012.
51
3.1.2 Focus sur les frais réels
La variable Frais réel permet de décrire la structure de dépenses de la population assurée.
Cette variable est à la base de toute la méthodologie présentée dans ce mémoire. Une analyse
des frais réels est donc ici nécessaire pour vérifier que le mode de consommation de notre po-
pulation est semblable à celui classiquement observé pour des frais d’optique.
La figure 15 montre la distribution des frais réels pour les actes Verre et Monture.
Nous remarquons que la distribution des frais réels pour nos données optiques est plus régu-
lière que celle des données Consultation/Visite utilisées pour illustrer la partie théorique de ce
mémoire. Cela s’explique par le fait que contrairement au poste Consultation/Visite, les actes
du poste Optique ne sont pas conventionnés ; en effet la majorité des médecins généralistes sont
conventionnés dans le Secteur 1, avec un prix de consultation fixé à 23e ce qui explique le pic de
la distribution de frais réels pour ce montant. Ici, les prix des montures et des verres pratiqués
par les opticiens sont libres, et la différence de prix entre deux montures ou deux types de verres
peut être très importante.
La figure 16 présente les distributions de frais réels pour les deux types d’actes présents dans
nos données : les actes Verre et Montures.
Les prix moyens constatés sont de 144e pour une monture et de 134e pour un verre. On
recense 4143 actes de type Monture et 8492 actes de type Verre, soit 2,05 fois plus d’actes relatifs
aux verres qu’aux montures. Ceci est logique car lorsqu’un assuré se rend chez son opticien pour
une nouvelle paire de lunettes, les deux verres lui sont changés et il opte la plupart du temps
pour une nouvelle monture.
La figure 17 présente l’évolution des montants moyens de frais réels, pour les verres et les
montures, en fonction de l’âge des bénéficiaires.
52
Figure 16 – Distributions des Frais réels pour les montures et les verres
On retrouve, sur cette figure, le mode de consommation classique des frais d’optique :
– Pour les montures : Une augmentation du coût moyen jusqu’à 20 ans, puis une stabilisation
pour les âges supérieurs.
– Pour les verres : Une faible augmentation jusqu’à 40 ans, suivi d’une augmentation plus
forte entre 40 et 60 ans. Ce phénomène est lié à la presbytie qui apparaît généralement
après 40 ans.
53
3.2 Création du sous-échantillon
3.2.1 Objectif
Dans l’optique d’évaluer et de comparer différentes garanties, on souhaite dans un premier
temps se placer dans une situation globale, ceci pour deux raisons :
– Il est nécessaire, pour pouvoir comparer plusieurs garanties, de se placer dans une situa-
tion commune, et l’on souhaite que cette situation reflète le marché de l’assurance santé
complémentaire.
– Par souci de rester neutre dans la méthodologie développée dans ce mémoire, pour ne
pas favoriser une garantie en particulier. En effet, les remboursements d’une garantie sont
directement liés aux frais engagés par ses bénéficiaires, et conserver une structure de por-
tefeuille non représentative de la population couverte par une complémentaire santé peut
amener à biaiser l’estimation de certaines garanties. Prenons l’exemple d’une garantie op-
tique présentant un remboursement avantageux pour les verres et les montures adultes,
mais remboursant mal les frais d’optique pour les personnes de moins de 18 ans. Si, dans
notre structure de portefeuille, la population adulte est sur-représentée, alors cette garan-
tie sera clairement avantagée lors de l’évaluation de sa performance.
Idéalement, on souhaiterait donc se placer dans une situation où notre échantillon représen-
terait l’ensemble de la population française couverte par une assurance santé complémentaire.
Cependant, nous ne connaissons pas la structure d’une telle population. Ce dont nous dispo-
sons, c’est la structure de la population française d’après les données de l’Insee, et en particulier
les pyramides des âges pour les sous-populations d’hommes et de femmes 15 . Ainsi, nous allons
nous servir de ces données pour construire, d’après notre portefeuille d’assurés, une population
respectant les quotas d’âge et de sexe de la population française.
15. Source : Insee, estimations de population pour la France métropolitaine à fin 2012
54
3.2.2 Mise en oeuvre
Pour construire notre sous-échantillon, nous utilisons la méthode de sélection par quotas
croisés présentée dans la sous-section 2.3.1, qui consiste à resélectionner aléatoirement des indi-
vidus de notre portefeuille pour respecter les quotas de la population française pour les variables
âge et Sexe.
La figure 19 fournit une comparaison entre la répartition par âge et par sexe de notre po-
pulation assurée et celle de la population française. Les proportions de population données par
l’Insee ont ici été recalculées pour ne conserver que les âges inférieurs à 60 ans, âge limite de
notre population assurée.
A la vue de ces graphiques, il est possible de constater que la répartition de notre population
par âge et par sexe est assez éloignée de celle de la population française. Ainsi, on remarque que
les hommes sont en moyenne sur-représentés dans notre portefeuille, alors que les femmes sont
pour la majorité des âges sous-représentées par rapport à la structure de la population française.
Afin de mettre en oeuvre la méthode de sélection par quotas croisés, on segmente notre popu-
lation par âge et par sexe. Nous optons ici pour des tranches d’âge de dix ans afin de conserver
une profondeur d’effectifs suffisante dans chacune des classes. Le tableau 9 présente, pour la
population de notre portefeuille et la population française, les quotas des classes âge/sexe. La
classe H : [0,10] désigne la sous-population masculine de moins de dix ans, la classe F : [0,10]
désigne la sous-population féminine pour la même tranche d’âge.
Pour respecter les quotas de la population française, on commence par calculer le nombre de
bénéficiaires à resélectionner dans chaque classe de notre portefeuille. Ce nombre nh est obtenu,
pour chacune des h classes définies précédemment, par :
55
de la population française appartenant à la hème classe.
Portefeuille Insee
Classe Nombre Proportion(%) Proportion(%)
H : [0,10] 998 9.15 8.92
F : [0,10] 949 8.70 8.54
H : ]10,20] 999 9.16 8.07
F : ]10,20] 875 8.02 7.72
H : ]20,30] 1034 9.48 7.79
F : ]20,30] 693 6.35 7.86
H : ]30,40] 992 9.10 8.21
F : ]30,40] 765 7.02 8.33
H : ]40,50] 1126 10.33 8.82
F : ]40,50] 836 7.67 8.99
H : ]50,60] 999 9.16 8.14
F : ]50,60] 639 5.86 8.61
En se fixant une taille de sous-échantillon n0 de 7100 individus, on obtient par exemple pour
la classe H : [0,10] : nH:[0,10] = 7100 × 8.92% = 634. Il faut donc resélectionner 634 individus
de la classe H : [0,10] dans notre portefeuille pour respecter le quota de cette classe dans la
population française.
Le tableau 10 présente les nombres d’individus par classes dans notre portefeuille et le
nombre d’individus à resélectionner à l’intérieur de chacune de ces classes.
Nous connaissons alors le nombre d’individus à resélectionner dans notre portefeuille pour
chaque classe. L’étape suivante consiste alors à tirer sans remise à l’intérieur des classes du
portefeuille les nombres d’individus précédemment calculés. Pour chacun des bénéficiaires ainsi
sélectionné, on rappatrie l’ensemble des prestations optiques dont il a bénéficié au cours des
deux dernières années. Ce rapatriement est possible grâce à la création de la variable clé, per-
mettant de repérer chaque bénéficiaire, que nous avons effectuée lors du traitement des données.
56
Comme l’ensemble des techniques de sous-échantillonnage, la resélection des bénéficiaires
par la méthode des quotas croisés induit une perte d’information. On limite cependant cette
perte d’information en sélectionnant aléatoirement le plus d’individus possibles tout en respec-
tant le caractère sans remise du tirage.
A l’issue de la mise en oeuvre de la méthode de sélection par quotas croisés, nous dispo-
sons d’un sous-échantillon de frais d’optiques engagés par une population présentant la même
structure que la population française pour les variables âge et sexe. Nous pouvons à présent
simuler différentes garanties sur cette nouvelle base de dépenses, et ainsi calculer leur taux de
couverture respectif. Nous opèrerons dans un dernier temps au redressement et au calage des
taux de couverture pour tenir compte du fait que le sous-échantillon n’est pas suffisamment
représentatif de la structure de dépenses de la population française. En effet, même si les quotas
des variables âge et sexe sont respectés dans notre sous-portefeuille de bénéficaires, les coûts
des actes engagés restent supérieurs aux moyennes constatées pour la population française. Le
redressement et le calage des taux de couverture auront pour objectif de corriger cette sur-
consommation, en fournissant une estimation du niveau qu’auraient présenté les garanties si la
moyenne des frais réels constatée sur le sous-échantillon avait été égale à celle de la population
française.
Le tableau 11 regroupe les coûts moyens des actes optiques pour l’échantillon initial, le sous-
échantillon et la population française. Les moyennes pour la population française sont issues
des résultats de l’enquète de 2011 menée par l’institut Gfk.
Les chiffres présentés dans ce tableau permettent de constater que les coûts moyens des actes
optiques sur notre sous-échantillon restent supérieurs à ceux de la population française. Ainsi,
si l’on se contentait de calculer les taux de couverture après simulation des garanties sur le sous-
échantillon, les résultats obtenus ne représenteraient qu’une estimation du niveau des garanties si
ces dernières avaient été appliquées à une population assurée, certes respectant les quotas d’âge
et de sexe de la population française, mais présentant un comportement de surconsommation
des actes en terme de coût. C’est ce comportement particulier de notre population qui motive
le redressement des taux de couverture.
57
3.3 Evaluation du niveau des garanties
3.3.1 Présentation des garanties
Nous proposons ici de mettre en oeuvre la méthodologie d’évaluation des niveaux de garan-
tie. Ayant généré un sous-échantillon de frais réels provenant d’une population représentative
de la population française pour les quotas d’âge et de sexe, il est à présent possible de passer à
l’évaluation des niveaux des garanties à travers le calcul et le redressement des taux de couver-
ture.
Le tableau 12 présente les garanties choisies en vue de mettre en oeuvre la méthode d’évalua-
tion. Ces garanties sont exprimées sur des assiettes différentes, avec des conditions particulières
pour certains types d’actes optiques. A noter que les forfaits sont ici annuels.
Les garanties optiques présentent une large variété d’expressions contrairement à d’autres
postes de dépenses, tels que le poste Consultation, où la plupart des garanties du marché sont
exprimées sur la même assiette. L’évaluation des niveaux des garanties prend alors tout son sens
pour le poste Optique.
58
offerts par nos sept garanties, pour ensuite calculer et redresser leur taux de couverture.
A noter : La garantie 7 joue ici le rôle de garantie test : une garantie offrant un remboursement
de 80% des frais réels, remboursement de la Sécurité Sociale inclus, présentera inévitablement
un taux de couverture de 80%, d’après la définition même du taux de couverture. De plus, ce
taux de couverture devrait logiquement rester inchangé après redressement, le remboursement
étant proportionnel au montant de frais réels. Cette garantie permettra donc de juger de la
cohérence des résultats obtenus après redressement.
Ces premiers résultats permettent d’avoir un aperçu du niveau des garanties considérées.
Sachant que le taux de couverture moyen pour l’ensemble garanties est de 67% (hors garantie
7), il est possible de regrouper les garanties en trois groupes de niveaux :
– Un groupe de niveau "faible", composé des garanties numéros 4 et 5, présentant toutes
deux des taux de couverture sensiblement en dessous des autres garanties : respectivement
55.72% et 55.96%.
– Un groupe de niveau intermédiaire, comprenant la garantie numéro 2, avec un taux de
couverture proche de la moyenne de l’ensemble des garanties : 69.74%.
– Un groupe de niveau élevé avec les garanties numéros 1, 3 et 6, présentant des taux de
couverture de 72.42%, 73.11% et 74.82% sensiblement supérieurs à la moyenne de 67%.
59
La garantie test (garantie 7) présente un taux de couverture initial de 80.01%. Le taux de
couverture n’est pas exactement égal à 80% car une faible partie des dépenses engagées par les
assurés bénéficie d’un remboursement de la Sécurité Sociale supérieur à 80% des frais réels.
L’étape suivante est l’estimation des taux de couverture dans le cas où la moyenne des frais
réels sur notre sous-échantillon coïnciderait avec celle de la population française. Pour cela, nous
utiliserons les techniques de redressement et de calage des taux de couverture développées dans
la partie 2.4.
Les expressions des taux de couverture redressés et calés, définies dans la partie 2.4 de ce mé-
moire, sont rappelées ci-dessous :
!
1 Cov(X, Y )Boot
h iBoot h iBoot
∗
T Cred = ∗ E Y + µ x − E X
µx V ar(X)Boot
Avec :
– µ∗x : le coût moyen d’un acte optique pour la population française, ici égal à 124.92e .
h iBoot h iBoot
– E Y ,E X , V ar(X)Boot , Cov(X, Y )Boot : Les estimations provenant de la dis-
tribution bootstrap du couple (X, Y ).
Les valeurs des taux de couverture redressés, pour chacune des sept garanties considérées,
sont présentées dans le tableau 14 ci-dessous. Le nombre de rééchantillonnages Bootstrap est
ici de B = 10000.
Il est intéressant de noter que le redressement a des impacts très différents sur les taux de
couverture des six garanties. Ainsi la garantie numéro 1 présentait un taux de couverture initial
plus faible que la garantie numéro 3, mais son taux de couverture redressé est quant à lui plus
élevé : 76.74% pour la garantie numéro 1 contre 76.38% pour la garantie numéro 3. Le même
cas de figure est observé pour les garanties numéros 4 et 5 : les taux de couverture initiaux de
60
Garantie Taux de couverture initial (A) Taux de couverture redressé (B) Evolution ((B)-(A))/(A)
i T C i (%) i
T Cred (%) (%)
1 72.42 76.74 5.96
2 69.74 73.30 5.10
3 73.11 76.38 4.47
4 55.72 60.26 8.14
5 55.96 58.08 3.80
6 74.82 78.87 5.41
7 80.01 80.01 0.00
ces deux garanties sont très proches (respectivement 55.72% et 55.96%), alors que le taux de
couverture redressé de la garantie numéro 4 est sensiblement plus élevé que celui de la garantie
numéro 5 (respectivement 60.26% et 58.08%). Cependant, les groupes de niveaux observés pour
les taux de couverture initiaux peuvent toujours être vus de la même manière :
– les garanties 4 et 5 présentent des taux de couverture redressés bien inférieurs à la moyenne
de l’ensemble des garanties, égale à 70.6% (hos garantie 7).
– La garantie numéro 2, avec un taux de couverture redressé de 73.30%, peut toujours être
considérée comme une garantie de niveau intermédiaire.
– Les garanties numéro 1, 3 et 6, avec chacune un taux de couverture redressé supérieur à
76%, peuvent également encore être vues comme des garanties de niveau élevé.
Concernant la garantie test, le taux de couverture redressé reste égal au taux de couverture
initial. Ce résultat est un indicateur de cohérence pour la méthode du taux de couverture
redressé.
H
1 X
T Ccal = ω∗ × yh
µ∗x h=1 h
Avec :
– H : Le nombre de classes âge/sexe de la sous-population.
– y h : Le remboursement moyen pour la hème classe, égal à la somme des remboursements
moyens de la Sécurité Sociale et de la garantie considérée.
– ωh∗ : Le poids de la hème classe, obtenu après résolution du problème d’optimisation sous
contraintes.
61
sous les contraintes :
H
X
= µ∗x
ωh xh
h=1
H
X
ωh = 1
h=1
Avec dh le poids initial de la classe h, défini comme la proportion des prestations enga-
gées par les bénéficiaires de cette classe. Les wh∗ solutions du problème sont alors donnés par :
ωh∗ = dh exp (λ1 + λ2 xh ), avec λ1 et λ2 les multiplicateurs de Lagrange associés au problème
d’optimisation sous contraintes. 16
Les valeurs obtenues ici pour λ1 et λ2 sont respectivement égales à 1.69 et 1.29 × 10−2 .
Le tableau 15 présenté ci-dessous regroupe les valeurs des frais réels moyens, des anciens et des
nouveaux poids pour chacune des classes âge/sexe du sous-échantillon.
Table 15 – Montants moyens de frais réels, anciens et nouveaux poids par classe
Ainsi, connaissant pour chaque garantie et pour chaque classe le montant moyen remboursé
y h , il est alors possible de calculer les valeurs des taux de couverture calés. Le tableau 16 pré-
sente les résultats obtenus pour les sept garanties optiques prises en compte.
Les résultats obtenus pour les taux de couverture calés se démarquent de ceux obtenus pour
les taux de couverture redressés :
– Les évolutions entre les taux de couverture calés et les taux de couverture initiaux sont
plus marqués que pour les taux de couverture redressés : respectivement 6.70% en moyenne
pour les taux de couverture calés et 5.48% pour les taux de couverture redressés. Ainsi, à
l’exception de la garantie 3, les taux de couverture calés majorent les taux de couverture
redressés.
16. Ici µ∗x = 124.92, et le tableau 15 montre que min xh = 89.17 et max xh = 188.86. Ainsi µ∗x ∈
h h
] min xh ; max xh [, d’où l’existence d’une solution pour λ2 .
h h
62
Garantie Taux de couverture initial Taux de couverture calé Evolution
i T C i (%) i (%)
T Ccal (%)
1 72.42 78.08 7.81
2 69.74 74.00 6.10
3 73.11 74.48 1.87
4 55.72 60.93 9.36
5 55.96 60.50 8.12
6 74.82 80.00 6.93
7 80.01 80.02 0.01
– Les groupes de niveau visualisés pour les taux de couverture initiaux et redressés ne sont
ici plus les mêmes : les garanties 1 et 6 présentent des taux de couverture calés sensible-
ment plus élevés que les autres garanties. Les taux des garanties 4 et 5 sont quant à eux
largement inférieurs aux autres, et les garanties 2 et 3 présentent quant à elles des taux
calés de niveau intermédiaire.
La garantie test présente un taux de couverture calé légèrement différent de son taux de
couverture initial. Cela est directement lié à la repondération des classes : les taux de couver-
ture des quatres premières classes sont légèrement supérieurs à 80% 17 , et le calage a pour effet
de sensiblement surpondérer les remboursements liés à ces classes (voir tableau 15), provoquant
de fait une augmentation du taux de couverture. Ce résultat est incohérent et met en évidence
la limite du taux de couverture calé : la non prise en compte de la structure de dépendance
existant entre les frais réels et les remboursements.
Ainsi la méthode du taux de couverture calé présente plus d’instabilité dans ses résultats
que la méthode du taux de couverture redressé. Cela s’explique notamment par le fait que,
contrairement à cette dernière, le taux de couverture calé ne tient pas compte de la covariance
entre les montants moyens de frais réels et de remboursements.
L’avantage principal du calage est sa simplicité de mise en oeuvre : une fois calculés, les
nouveaux poids ωh∗ sont utilisés pour le calcul du taux de couverture calé de chacune des garan-
ties. Le temps de calcul est ainsi quasiment instantané. Le calcul du taux de couverture redressé
nécessite quand à lui de réappliquer, pour chaque garantie, B rééchantillonnages bootstrap. Le
temps de calcul est donc d’autant plus important que B est grand. Il est ainsi conseillé dans la
littérature de choisir un nombre de rééchantillonnages bootstrap proche de la taille de l’échan-
tillon initial, pour obtenir un compromis satisfaisant entre la précision des estimations et la
réduction du temps de calcul. Le nombre de rééchantillonnages choisi pour le calcul des taux
de couverture redressés est ici B = 10000, le nombre total de lignes du sous-échantillon de frais
réels étant égal à 10774.
Au final, le calcul du taux de couverture calé est plus rapide à mettre en oeuvre que celui
du taux de couverture redressé, mais les résultats obtenus présentent des variations plus impor-
tantes par rapport aux taux de couvertures initiaux.
17. dans notre sous-échantillon, certains actes enfants bénéficient d’un remboursement de la Sécurité Sociale
supérieurs à 80% des frais réels engagés, ce qui explique pourquoi les taux de couverture relatifs aux quatres
premières classes (les classes enfants) sont supérieurs à 80%.
63
Les résultats obtenus pour les différents taux de couverture sont synthétisés dans le tableau 17.
Garantie Taux de couverture initial Taux de couverture redressé Taux de couverture calé
i T C i (%) i
T Cred (%) i (%)
T Ccal
1 72.42 76.74 78.08
2 69.74 73.30 74.00
3 73.11 76.38 74.48
4 55.72 60.26 60.93
5 55.96 58.08 60.50
6 74.82 78.87 80.00
7 80.01 80.01 80.02
Remarque : Les taux de couverture redressés et calés ont été obtenus en se basant sur le
coût moyen d’un acte optique pour l’ensemble de la population française : µ∗x . Dans le cas du
poste Optique, nous connaissons de plus les coûts moyens pour les verres et les montures. Ces
valeurs sont présentées dans le tableau 11, et sont égales à 120 e pour un verre et 135 e pour
une monture.
Il peut être intéressant d’estimer les taux de couverture en tenant compte de ce double niveau
d’information. Le calage du taux de couverture peut être adapté en ce sens, la démarche restant
très semblable à celle développée dans la partie 2.4.2 pour le calcul du taux de couverture calé.
La méthode de calcul du taux de couverture calé sur deux niveaux d’informations auxiliaires,
noté T Ccal2 dans la suite, sera présentée en annexe (Annexe A.6). La logique du calcul du taux
de couverture calé à deux niveaux d’informations auxiliaires reste cependant la suivante : En
notant µvx et µmx les coûts moyens relatifs aux verres et aux montures pour la population fran-
çaise, on cherche les nouveaux poids des classes âge/sexe solutions du problème d’optimisation :
H
ωh
X
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
sous les contraintes :
XH
ωh xvh
= µvx
h=1
H
X
m
ωh xh = µm
x
h=1
H
X
ωh = 1
h=1
Où xvh et xm h représentent les moyennes des frais réels pour les verres et les montures à
l’intérieur de chaque classe du sous-échantillon. Les poids des classes ne sont pas distingués en
fonction des verres et des montures, car comme il sera vu en annexe, les proportions de ces deux
types d’actes sont très proches pour toutes les classes. Cela permet ici de considérer les mêmes
poids pour les actes verres et montures.
64
∗ , sont présentés dans le
Les nouveaux poids solutions du problème d’optimisation, notés ωh,2
tableau 18.
Les nouveaux taux de couverture sont obtenus en utilisant la même formule que dans le cas
d’un seul niveau d’information auxiliaire :
H
1 X
T Ccal2 = ω∗ × yh
µ∗x h=1 h,2
Les résultats obtenus pour les taux de couvertures calés T Ccal2 pour chacune des sept ga-
ranties de l’étude sont présentés dans le tableau 19.
Garantie Taux de couverture initial (A) Taux de couverture calé (B) Evolution
i T C i (%) i
T Ccal2 (%) (%)
1 72.42 77.32 6.75
2 69.74 73.99 6.09
3 73.11 71.46 -2.26
4 55.72 61.55 10.46
5 55.96 65.38 16.83
6 74.82 80.06 7.00
7 (test) 80.01 80.15 0.17
A la lecture de ce tableau, il apparaît que les résultats du T Ccal2 présentent des incohérences
majeures :
– Le T Ccal2 de la garantie 3 est inférieur à son taux de couverture initial. Ce résultat est
aberrant dans le sens où une garantie ne peut pas être moins performante lorsque le
montant moyen de frais réels diminue.
65
– Les garanties 4 et 5 présentent des taux de couverture calés très fortement supérieurs
à leurs taux de couverture initiaux. Ainsi l’écart relatif entre le T Ccal2 et le T C est de
16.83% pour la garantie 5.
– Le résultat pour la garantie test laisse apparaître, quant à lui, un taux de couverture
calé sensiblement différent du taux de couverture initial. Or la proportionnalité entre les
remboursements offerts par cette garantie et les frais réels engagés devrait logiquement
laisser inchangé le taux de couverture, et ce quelque soit le montant moyen de frais réels.
Ainsi, les résultats obtenus pour le taux de couverture calé T Ccal2 ne se révèlent pas satisfai-
sants. Ces derniers apparaissent également moins cohérents que ceux du taux de couverture calé
sur un seul niveau d’information auxiliaire. Pour les mêmes garanties, nous observons donc ici
une dégénérescence des résultats du calage des taux de couverture suite à l’incorporation d’un
niveau d’information auxiliaire supplémentaire. Au final, les taux de couverture calés T Ccal et
T Ccal2 présentent des résultats moins satisfaisants que le taux de couverture redressé T Cred .
Les calculs des taux de couverture calés étant basés sur la segmentation de la population en
classes disjointes d’âge et de sexe, il conviendra de mesurer la qualité des résultats pour des
segmentations plus fines de la population. Ce point sera discuté dans la section 3.4 relative à
l’analyse des résultats.
Le tableau 20 et la figure 20 récapitulent les résultats obtenus pour les différents taux de
couverture.
66
Garantie i T C i (%) i
T Cred (%) i (%)
T Ccal i
T Ccal2 (%)
1 72.42 76.74 78.08 77.32
2 69.74 73.30 74.00 73.99
3 73.11 76.38 74.48 71.46
4 55.72 60.26 60.93 61.55
5 55.96 58.08 60.50 65.38
6 74.82 78.87 80.00 80.06
Les différents taux de couverture obtenus dans cette partie représentent, pour chaque ga-
rantie, une estimation de leur performance dans le cas où la moyenne des frais réels engagés
par les bénéficiaires aurait été égale à celle de la population française. Il convient maintenant
de comparer les résultats des différentes méthodes d’évaluation des taux de couverture. Une
attention particulière sera également accordée à l’étude de la volatilité des résultats.
Les incohérences des taux de couvertures calés T Ccal2 proviennent des nouveaux poids ωh,2 ∗
et de la structure de dépenses de la population : les montants moyens de frais réels les plus
faibles sont observés pour les classes de population d’âge faible. Pour pouvoir vérifier les équa-
tions de calage, une pondération plus importante doit être accordée à ces classes (les moyennes
de frais réels pour la sous-population sont plus élevées que celles de la population française,
moyennes que l’on cherche à respecter au travers des équations de calage). Les classes d’âge
élevé présentant des frais réels moyens importants sont, pour leur part, sous-pondérées. Cette
repondération excessive pour les classes d’âge extrêmes, observée pour le calage sur un niveau
d’information auxiliaire, est encore plus marquée pour le calage multiple, comme le montre le
tableau 21 ci-dessous :
Le calage sur marges repose sur la résolution d’un problème d’optimisation sous contraintes,
67
Classe Frais réel moyen xh Poids initial dh Poids final ωh∗ ∗
Poids final ωh,2
(euros) (%) (%) (%)
H : [0,10] 89.17 5.47 9.38 16.40
F : [0,10] 92.63 5.04 8.26 15.06
H : ]10,20] 107.66 6.37 8.59 7.46
F : ]10,20] 104.43 8.64 12.16 8.44
H : ]20,30] 118.38 6.35 7.46 3.81
F : ]20,30] 116.39 7.13 8.59 4.97
H : ]30,40] 123.13 6.60 7.29 3.92
F : ]30,40] 118.33 6.93 8.15 4.53
H : ]40,50] 153.75 11.59 8.61 8.00
F : ]40,50] 149.70 11.28 8.83 8.82
H : ]50,60] 177.18 13.62 7.47 11.88
F : ]50,60] 188.86 10.99 5.18 6.70
Table 21 – Montants moyens de frais réels, anciens et nouveaux poids pour les deux types de
taux de couverture calés
G étant une fonction convexe mesurant la distance entre les anciens et les nouveaux poids (pour
mémoire, la fonction G utilisée ici est G : x 7→ xlog(x) − x + 1 ). Le calage sur un double niveau
d’information auxiliaire, utilisé pour le calcul de T Ccal2 , fournit des nouveaux poids bien plus
éloignés des poids initiaux que le calage sur un unique niveau d’information : les valeurs de la
fonction cible après optimisation sont respectivement égales à 0.177 et 0.076, soit une valeur
deux fois plus élevée pour le calage à deux niveaux d’informations auxiliaires. On remarque éga-
lement que les nouveaux poids ωh,2 ∗ affectés aux deux premières classes de population sont très
largement supérieurs aux poids initiaux : respectivement 16.40% contre 5.47% pour la première
classe et 15.06% contre 5.04% pour la deuxième.
∗ doivent
Ainsi, pour vérifier les deux équations de calage, les nouveaux poids des classes ωh,2
s’éloigner sensiblement des poids initiaux dh . Ce phénomène est à l’origine d’incohérences lors
du calcul des taux de couverture calés T Ccal2 pour certaines garanties.
Ce comportement, bien que moins marqué, se retrouve également lors du calcul du taux de
couverture calé à un niveau d’information auxiliaire T Ccal , ce qui explique pourquoi les écarts
68
Remboursement moyen y h
Classe Garantie 3 Garantie 5 ∗
Poids final ωh,2
(euros) (euros) (%)
H : [0,10] 60.19 89.17 16.40
F : [0,10] 61.15 92.49 15.06
H : ]10,20] 68.36 97.91 7.46
F : ]10,20] 71.11 90.77 8.44
H : ]20,30] 105.39 47.62 3.81
F : ]20,30] 105.24 48.01 4.97
H : ]30,40] 106.51 48.80 3.92
F : ]30,40] 104.96 50.68 4.53
H : ]40,50] 111.52 73.70 8.00
F : ]40,50] 112.48 75.19 8.82
H : ]50,60] 177.65 90.12 11.88
F : ]50,60] 120.81 96.97 6.70
relatifs avec les taux de couverture initiaux sont plus volatiles pour les taux de couverture calés
que pour les taux de couverture redressés.
Les classes âge/sexe de population pour le sous-échantillon de frais réels sont ainsi reconsti-
tuées en prenant en compte des tranches d’âges de 5, 2 et 1 ans. Les résultats obtenus pour les
taux de couverture calés des six garanties sont présentés dans le tableau 23 :
Ainsi, une segementation plus fine de la population permet d’obtenir des valeurs du taux
de couverture calé plus proches du taux de couverture redressé. Cependant, ces résultats nous
montrent également que les différences restent minimes entre des segmentation en tranches de
dix ans ou d’un an.
Il est également intéressant de noter, qu’en effectuant le classement des garanties par valeurs
croissantes des taux de couverture, les résultats sont identiques pour les taux de couverture
calés et redressés. Cette constatation est rassurante dans le sens où les évaluations des niveaux
de garantie par les taux de couvertures redressés et calés sont basées sur des approches très
différentes :
69
T Ccal par segmentation
Garantie 10 ans 5 ans 2 ans 1 an T Cred
(%) (%) (%) (%) (%)
1 78.084 78.098 78.050 78.021 76.743
2 73.999 73.989 73.968 73.968 73.305
3 74.481 74.656 74.813 74.974 76.382
4 60.932 60.906 60.854 60.791 60.256
5 60.501 60.287 60.076 59.934 58.084
6 80.003 79.984 79.902 79.866 78.869
– Le taux de couverture redressé est calculé en se basant sur des rééchantillonnages des
frais réels et des remboursements. Cette technique permet de prendre en compte la cova-
riance entre les moyennes des frais réels et des remboursements au travers des estimations
bootstrap.
– Le calcul du taux de couverture calé, basé sur une repondération des classes âge/sexe de
population à l’intérieur du sous-échantillon de frais réels, n’intègre aucunement la struc-
ture de dépendance liant les frais réels et les remboursements moyens.
Ainsi, même si les valeurs des taux de couverture redressés et calés présentent des diffé-
rences, les deux méthodes d’évaluation fournissent, pour les six garanties considérées, le même
classement.
Le tableau 24 présente les valeurs et les classements des taux de couverture initiaux, redressés
et calés. Les valeurs des taux de couverture calés sont ici celles obtenues pour une segmentation
des âges en tranches d’un an.
70
intégrant une estimation de la structure de dépendance liant les moyennes de frais réels et de
remboursements. Ainsi, connaissant ces estimations des structures de dépendance, on comprend
pourquoi l’évolution entre les taux de couvertures initiaux et redressés peut être sensiblement
différente d’une garantie à l’autre.
Comme présenté dans la sous-section 2.6.1, on rappelle le lien entre l’estimation du taux de
couverture redressé et la régression linéaire :
Sous l’hypothèse de gaussienneté du couple (X, Y ) formé des estimateurs de la moyenne des
frais réels et des remboursements, on calcule l’espérance conditionnelle de Y sachant X = µ∗x .
D’après le théorème de conditionnement d’un vecteur gaussien, l’espérance conditionnelle de Y
sachant X est une fonction affine de X , dont les paramètres font intervenir les espérances de
X, de Y , la variance de X et la covariance entre X et Y . Le calcul de l’espérance conditionnelle
en utilisant les estimations bootstrap des quantités citées précédemment est alors équivalent
à réaliser la régression linéaire de y b sur xb , avec (y b , xb )b∈[1,B] les réalisations de (Y , X) pour
chacun des B rééchantillons bootstrap.
Il convient de vérifier la cohérence des modèles de régression utilisés pour le calcul des taux
de couverture redressés de chacune des six garanties. Les hypothèses fondamentales de normalité
et d’homoscédasticité des résidus doivent ainsi être testées. Il s’agit ainsi de tester si les résidus
du modèle sont i.i.d suivant une loi normale centrée de variance σ 2 constante. La normalité des
résidus est visualisée au travers des QQ-plot, et vérifiée par un test de normalité de Shapiro-Wilk.
Les QQ-plots, présentés dans la figure 22, permettent de visualiser que les quantiles empi-
riques des résidus standardisés s’ajustent bien aux quantiles théoriques de la loi normale centrée
réduite, et ce pour chacune des six garanties. Afin de valider l’hypothèse de normalité des rési-
dus des régressions "bootstrap", des tests de Shapiro-Wilk sont réalisés :
71
Figure 22 – QQ-plot des résidus des régressions bootstrap
Garantie p-value
1 0.7936
2 0.5456
3 0.4069
4 0.216
5 0.7297
6 0.256
Les p-values des tests de Shapiro-wilk permettent de valider, pour chacune des garanties,
l’hypothèse nulle de normalité des résidus.
Ainsi, les modèles de régression linéaire sont "bons" dans le sens où les résidus sont i.i.d
suivant une loi normale centrée de variance σ 2 > 0. Cependant, les valeurs du R2 -ajusté, indi-
cateur souvent utilisé pour mesurer la qualité d’un modèle de régression, sont ici relativement
faibles, comme le montrent les résultats du tableau 26.
Remaque 1 : La validité des modèles de régression linéaire est cohérente avec le cadre théorique
72
Garantie R2 -ajusté
1 0.120
2 0.131
3 0.201
4 0.037
5 0.300
6 0.295
développé pour le calcul des taux de couverture redressés. L’hypothèse fondamentale étant le
caractère gaussien du couple (X, Y ), le théorème de conditionnement (Théorème 2.4.2) montre
que le meilleur modèle de régression pour expliquer Y en fonction de X est la droite de régres-
sion. Les rééchantillons bootstrap étant sélectionnés indépendamment selon la loi de (X,Y) 18
conditionnellement à l’échantillon de départ, les couples (xb , y b ) obtenus pour chacun des B
rééchantillons peuvent être vus comme des réalisations indépendantes de B couples aléatoires
b b
(X , Y ) de même loi que (X, Y ). Les nuages des moyennes bootstrap (xb , y b ) sont ainsi des
réalisations de couples gaussiens, et le modèle de régression linéaire se trouve adapté.
Remaque 2 : Les taux de couverture redressés ont été calculés à l’aide de rééchantillonnages
bootstrap afin d’estimer les paramètres de la formule :
!
red 1 h iCov(X, Y ) ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)
L’approche par rééchantillonnage permet de visualiser les distributions des couples de frais
réels et de remboursements moyens, pour ainsi comprendre le fonctionnement du redressement
du taux de couverture. Cette approche permet également de vérifier, au travers des modèles de
régression présentés précédemment, la cohérence de la méthodologie.
Cependant, outre les avantages cités ci-dessus, le rééchantillonnage bootstrap n’apporte pas
d’information supplémentaire à celle contenue dans le sous-échantillon de départ. En effet, le
Bootstrap permet uniquement d’apporter un effet "Monte-Carlo" : En imitant la façon dont
à été généré l’échantillon initial, le bootstrap a pour effet d’introduire une volatilité dans les
résultats obtenus sur chaque rééchantillon. C’est pourquoi le bootstrap est classiquement utilisé
pour fournir une estimation de la variance d’une statistique.
73
3.4.4 Intervalles de confiance et volatilité des taux de couverture redressés
L’objectif est ici d’utiliser le Bootstrap afin d’obtenir :
– une estimation de la variance du taux de couverture redressé.
– un intervalle de confiance pour le taux de couverture redressé.
L’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est supposé i.i.d. L’expression du T C red est donnée par :
!
red 1 h i Cov(X, Y ) ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)
Les estimateurs 19
h i des paramètres
h i apparaissant dans l’expression du T C red sont :
Pour E Y et E X : Y et X, les estimateurs de la moyenne .
Sx 2
Pour V ar(X) : , avec Sx 2 l’estimateur sans biais de la variance de X.
n
Sxy
Pour Cov(X, Y ) : , avec Sxy l’estimateur sans biais de la covariance entre X et Y .
n
Un estimateur Υ du T C red est obtenu en substituant aux différents paramètres leurs estimateurs
respectifs :
1 Sxy
Υ = ∗ Y + 2 µ∗x − X
µx Sx
La variance Bootstrap de l’estimateur du taux de couverture redressé, notée V boot , est donnée
par :
B B
1 X 2 1 X
V boot = b −Υ
Υb , avec Υ = Υ
b
b
B − 1 b=1 B b=1
19. Une justification du calcul de ces estimateurs est présentée en annexe (Annexe A.8).
20. La théorie de la méthode des percentiles est développée en annexe (Annexe A.9).
74
1. On génère B rééchantillons Bootstrap sur chacun desquels la statistique est estimée.
Les intervalles de confiance ainsi que la variance Bootstrap permettent de fournir une vision
plus large que les estimations ponctuelles du taux de couverture redressé. Ces données per-
mettent de montrer que la précision des estimations Bootstrap n’est pas la même pour toutes
les garanties considérées.
Le tableau 27 présente les intervalles de confiance Bootstrap obtenus pour les six garanties.
Le niveau de confiance retenu est ici de 95%.
Pour mesurer la précision des estimations Bootstrap obtenues, nous considérons ici, en plus de
bornesup − borneinf
la variance, d.l la demi-longueur des intervalles de confiance : d.l = . Le
√ 2
tableau 28 présente l’écart-type des estimations Bootstrap V boot ainsi que la demi-longueur
des intervalles de confiance :
√
Garantie V boot d.l
(%) (%)
1 0.362 0.701
2 0.389 0.761
3 0.371 0.730
4 0.254 0.502
5 0.267 0.522
6 0.321 0.637
75
La longueur des intervalles de confiance Bootstrap dépend directement de la variance des
estimations, comme le montre le tableau ci-dessus : les bornes des intervalles de confiance sont
d’autant plus espacées que la variance des estimation Bootstrap est grande.
Il est intéressant de regarder dans quelle mesure les taux de couverture redressés et calés
divergent lorsque la moyenne cible µ∗x évolue. Pour la garantie 1, les deux taux de couverture
ont été estimés pour des valeurs de µ∗x variant de 137 à 128 euros, la moyenne des frais réels
sur le sous-échantillon étant égale à 137.4 euros. Les résultats obtenus sont synthétisés dans le
tableau 29 et visualisés sur la figure 23.
µ∗x 137 136 135 134 133 132 131 130 129 128
T C red (%) 72.48 72.82 73.16 73.51 73.86 74.21 74.58 74.94 75.32 75.70
T C cal (%) 72.48 72.92 73.35 73.79 74.23 74.68 75.14 75.60 76.06 76.53
76
Ainsi, l’écart entre les taux de couverture redressés et calés est d’autant plus grand que µ∗x
s’éloigne de la moyenne observée sur le sous-échantillon de frais réels. Cependant, les estimations
des deux taux de couverture sont relativement proches pour de faibles écarts à la moyenne cible.
La technique du taux de couverture calé peut être vue comme une alternative à l’utilisation du
taux de couverture redressé, long en temps de calcul, pour les situations où la moyenne observée
sur le sous-échantillon reste proche de la moyenne cible µ∗x .
77
3.5 Comparaison de deux complémentaires santé
L’objectif de cette section est de présenter une application à l’évaluation des niveaux de
garantie. La méthodologie développée au cours de ce mémoire permet de proposer une estima-
tion des taux de couverture par poste de dépenses, rendant ainsi possible la comparaison de
différentes garanties sur ces postes. Nous souhaitons, à présent, comparer deux produits d’as-
surance santé complémentaire en fonction des taux de couverture de leurs garanties respectives
sur quatre grands postes de dépenses :
– Le poste Consultation/Visite (CONSU).
– Le poste Optique (OPTI).
– Le poste Hospitalisation (HOSPI).
– Le poste Prothèse dentaire (PROT).
Les remboursements offerts par les deux produits pour les quatre postes de dépenses sont
présentés dans le tableau 30 ci-dessous :
Produit 1 Produit 2
L’évaluation des niveaux de garantie pour chaque poste est ici effectuée à l’aide du taux de
couverture redressé. Cette méthode est en effet préférée au taux de couverture calé au vu des
meilleurs résultats fournis tout au long de ce mémoire.
Les intervalles de confiance Bootstrap pour l’estimation des taux de couverture redressés sont
également calculés.
Les résultats des estimations pour les deux produits d’assurance santé sont présentés dans le
tableau 31 et visualisés au travers des figures 24 et 25.
78
Produit Poste T C red (%) IC Bootstrap 95%
CONSU 99.90 [99.83 ; 99.96]
1 OPTI 83.29 [82.66 ; 83.91]
HOSPI 96.12 [93.44 ; 98.33]
PROT 67.08 [65.78 ; 68.39]
CONSU 98.61 [98.39 ; 98.90]
2 OPTI 62.15 [61.38 ; 62.82]
HOSPI 96.74 [94.28 ; 98.70]
PROT 74.20 [72.66 ; 75.70]
Table 31 – Taux de couverture redressé et Intervalle de confiance Bootstrap par produit et par
poste
Ces résultats permettent de constater, pour chacun des postes, les performances des garanties
composant les deux produits d’assurance santé complémentaire. Les niveaux des garanties du
produit 1 apparaissent ainsi plus élevés pour les postes Consultation/Visite et Optique, mais
également plus faibles pour les postes Hospitalisation et Prothèse dentaire.
Les graphiques "radar" présentés ci-dessous permettent quant à eux de mieux appréhender
les points forts et les points faibles des deux produits sur les quatres postes considérés. Ces
graphiques rendent également possible un positionnement des produits sur une même figure,
présentant ainsi une vue d’ensemble des niveaux de garantie et de leurs divergences.
79
Figure 25 – Produits 1 et 2 : Comparaison des niveaux de garantie par poste
Les résultats présentés précédemment permettent de comparer les niveaux de garanties des
deux produits pour chaque poste. Nous souhaitons également fournir une évaluation globale des
deux produits pour déterminer lequel est le plus performant. Pour cela, la technique utilisée ici
consiste à pondérer les taux de couverture obtenus pour chacune des garanties par la propor-
tion d’actes, en montant, liée à ce poste. Ces proportions sont calculées sur la sous-population
assurée utilisée tout au long de ce mémoire. Les proportions des actes relatifs aux quatre postes
de dépenses sont données dans le tableau 32 :
Les taux de couverture d’ensemble alors obtenus sont respectivement égaux à 85.6% pour le
produit 1 et 80.5% pour le produit 2.
Ces taux de couverture globaux s’interprètent comme la part des frais de santé remboursée par
le produit, pour la population assurée, sur les quatre postes de dépenses.
Le premier produit d’assurance santé complémentaire s’avère donc plus performant que le se-
cond dans les remboursements offerts à ses bénéficiaires.
80
Il serait alors envisageable de positionner, sur un même graphique, le taux de couverture
global des produits en fonction de leur prime. Réaliser cela pour l’ensemble des acteurs de la
complémentaire santé permettrait d’obtenir un benchmark du marché, sur lequel un organisme
d’assurance pourrait repérer le positionnement de son offre vis à vis de ses concurrents.
81
Conclusion
Après avoir créé une base de dépenses issue d’une sous-population respectant les quotas
d’âge et de sexe de la population française, les niveaux des garanties ont été évalués d’après la
valeur de leur taux de couverture respectif sur cette base. Ces taux de couverture ont ensuite été
modifiés pour tenir compte de la surconsommation moyenne constatée sur la sous-population.
Deux techniques ont été construites pour réaliser cette modification, toutes deux dans l’optique
de fournir une estimation des taux de couverture dans le cas où la moyenne des frais réels enga-
gés par la sous-population aurait été égale à celle de la population française. La mise en oeuvre
de la méthodologie a alors montré que :
– La seconde, utilisant une repondération des dépenses moyennes associées aux classes
âge/sexe de la population, bien que moins précise, fournit des résultats d’autant plus
proches de la première technique que : la segmentation de la population est précise ; que
la moyenne des frais réels observée est proche de la moyenne cible. Cette technique se
révèle également bien plus rapide à mettre en oeuvre et ne nécessite aucunement de dis-
poser de capacités informatiques importantes.
L’exemple d’application, présenté dans la dernière partie, a montré qu’il était possible, à
l’aide de la méthode développée, de fournir une évaluation des produits d’assurance santé poste
par poste, mais également dans leur ensemble. Ainsi, un organisme d’assurance peut bénéficier
d’une vision du positionnement de son offre sur le marché, et l’ajuster en conséquence pour être
plus attractif.
Enfin, bien que la méthodologie proposée permette de répondre aux attentes fixée à l’origine
de ce mémoire, certains éléments peuvent encore être considérés :
– La sélection par quotas croisés, utilisée lors de la construction de la sous-population, est
basée sur un tirage sans remise des individus, à l’intérieur des différentes classes, pour
respecter les quotas d’âge et de sexe de la population française. Cette sélection induit
une perte d’information par rapport aux données initialement disponibles. Cette perte a
été minimisée en sélectionnant aléatoirement le plus d’individus possible dans le cadre du
tirage sans remise.
Il conviendrait cependant d’évaluer l’impact de la sélection par quotas croisés sur l’esti-
mation finale des taux de couverture. Il s’agirait de réitérer la méthode de sélection un
grand nombre de fois pour obtenir différentes bases de dépenses sur lesquelles les taux de
couverture seraient calculés puis redressés. On obtiendrait alors une distribution des taux
de couverture permettant de mesurer la volatilité générée par la perte d’information lors
du tirage sans remise.
82
pu être utilisées : Jackknife, d-Jackknife, Répliques Equilibrées Répétées, Bootstrap mo-
difié.
83
Bibliographie
Références
[1] AOUIZERATE J.M. (2010). Alternative neuronale en tarification santé. Mémoire d’actua-
riat, CNAM.
[2] AOUIZERATE J.M. (2012). Création d’un indicateur de niveau de garantie en frais de
santé. Bulletin Français d’Actuariat, 12(24) :15–34.
[3] BOOTH J.G. ; BUTLER R.W. ; HALL P. (1994). Bootstrap methods for finite population.
Journal of the American Statistical Association, 89(428) :1282–1289.
[4] CHAUVET G. (2007). Méthodes de bootstrap en population finie. Thèse de l’Université
Rennes 2.
[5] CHAUVET G. (2012). Méthodes de sondage. Cours de l’Ensai.
[6] DAVISON A.C. ; SARDY S. (2006). Méthodes de rééchantillonnage pour l’estimation de
variance en sondage. Journal de la Société Française de Statistique, 147(3).
[7] EFRON B. (1979). Bootstrap method : another look at the jackknife. Annals of Statistics,
7 :1–26.
[8] EFRON B. (1981). Nonparametric standard errors and confidence intervals. Canadian
Journal of Statistics, 9 :139–172.
[9] GUJARATI D.N. (2003). Basic econometrics. de boeck.
[10] GUYADER A. Espérance conditionnelle et chaînes de markov. Cours de l’Université
Rennes 2.
84
Liste des tableaux
1 Résultats de l’évaluation des niveaux de garantie . . . . . . . . . . . . . . . . . . 7
2 Résults for the guarantees level assessment . . . . . . . . . . . . . . . . . . . . . . 12
3 Nombre d’organismes et répartition du C.A. Source : Fonds CMU - DRESS 2010. 18
4 Répartition des assurés par type d’organisme. Source : DRESS 2010. . . . . . . . 18
5 Différents types d’expression des garanties . . . . . . . . . . . . . . . . . . . . . . 21
6 Anciens et nouveaux nombres d’individus par tranches . . . . . . . . . . . . . . . 32
7 Exemple d’anciens et de nouveaux poids . . . . . . . . . . . . . . . . . . . . . . . 42
8 Valeurs des paramètres de régression . . . . . . . . . . . . . . . . . . . . . . . . . 46
9 Nombres d’éléments et proportions des classes de population . . . . . . . . . . . 56
10 Nombres d’éléments initiaux et finaux . . . . . . . . . . . . . . . . . . . . . . . . 56
11 Coûts moyens des actes optiques (euros) . . . . . . . . . . . . . . . . . . . . . . 57
12 Garanties sélectionnées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
13 Taux de couverture initiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
14 Taux de couverture redressés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
15 Montants moyens de frais réels, anciens et nouveaux poids par classe . . . . . . 62
16 Taux de couverture calés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
17 Taux de couverture initiaux, redressés et calés . . . . . . . . . . . . . . . . . . . 64
18 Anciens et nouveaux poids par classe . . . . . . . . . . . . . . . . . . . . . . . . 65
19 Taux de couverture calés sur deux niveaux d’information auxiliaire . . . . . . . . 65
20 Récapitulatif des taux de couverture estimés . . . . . . . . . . . . . . . . . . . . 67
21 Montants moyens de frais réels, anciens et nouveaux poids pour les deux types
de taux de couverture calés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
22 Garantie 3 et 5 : remboursements moyens et nouveaux poids pour le calcul de
T Ccal2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
23 Impact de la segmentation sur le T Ccal . . . . . . . . . . . . . . . . . . . . . . . . 70
24 Classement des taux de couverture . . . . . . . . . . . . . . . . . . . . . . . . . . 70
25 p-values des tests de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . 72
26 R2 -ajusté pour les modèles de régression linéaire . . . . . . . . . . . . . . . . . . 73
27 Intervalle de confiance Bootstrap 95% pour le T C red . . . . . . . . . . . . . . . . 75
28 Ecart-type Bootstrap et demi-longueur des intervalles de confiance 95%. . . . . . 75
29 Evolution des taux de couverture en fonction de µ∗x . . . . . . . . . . . . . . . . . 76
30 Description des produits par poste de dépenses . . . . . . . . . . . . . . . . . . . 78
31 Taux de couverture redressé et Intervalle de confiance Bootstrap par produit et
par poste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
32 Proportions des actes par poste de dépenses . . . . . . . . . . . . . . . . . . . . . 80
85
Table des figures
1 Produits 1 et 2 : Niveaux de garantie par poste . . . . . . . . . . . . . . . . . . . 8
2 Products 1 and 2 : guarantee level by post . . . . . . . . . . . . . . . . . . . . . . 12
3 Chiffre d’affaire (Mds e ) du marché de la complémentaire santé . . . . . . . . . 18
4 Mécanisme de remboursement des dépenses de santé . . . . . . . . . . . . . . . . 20
5 Remboursements des garanties A et B . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Etapes de la méthode d’évaluation des niveaux de garantie . . . . . . . . . . . . 30
7 Densité des frais réels pour le poste Consultation/Visite . . . . . . . . . . . . . . 33
8 Evolution du taux de couverture redressé en fonction de la garantie . . . . . . . . 37
9 Méthode raking ratio : Fonction de distance G et inverse de la dérivée F . . . . . 40
10 Evolution du taux de couverture calé en fonction de la garantie . . . . . . . . . . 42
b b
11 Nuage de points et droite de régression pour X , Y pour des garanties de
150%, 200% et 300% de la BRSS . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
12 Evolution du taux de couverture redressé Bootstrap en fonction du nombre de
rééchantillonnages B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
13 Evolution des taux de couverture redressé et calé en fonction de la garantie . . . 49
14 Etapes de la méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
15 Distributions des Frais réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
16 Distributions des Frais réels pour les montures et les verres . . . . . . . . . . . . 53
17 Evolution du montant de frais réels moyen en fonction de l’âge . . . . . . . . . . 53
18 Pyramide des âges Insee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
19 Comparaison des proportions d’hommes et de femmes par âges . . . . . . . . . . 55
20 Estimations des taux de couverture . . . . . . . . . . . . . . . . . . . . . . . . . 66
21 Nuages bootstrap (xb , y b ) et droites de régression . . . . . . . . . . . . . . . . . . 71
22 QQ-plot des résidus des régressions bootstrap . . . . . . . . . . . . . . . . . . . . 72
23 Evolution des taux de couverture en fonction de µ∗x . . . . . . . . . . . . . . . . . 76
24 Produits 1 et 2 : Niveaux de garantie par poste . . . . . . . . . . . . . . . . . . . 79
25 Produits 1 et 2 : Comparaison des niveaux de garantie par poste . . . . . . . . . 80
26 Procédé itératif de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . 91
27 Régressions linéaires simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
28 Régression non-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
86
A Annexes
A.1 Test de Kruskal-Wallis
La variable X a été observée sur k groupes indépendants G1 , G2 , . . . , Gk . L’hypothèse nulle
est alors l’égalité de l’ensemble des médianes :
H0 : θ1 = θ2 = . . . = θk
On calcule les rangs sur la réunion de tous les échantillons. En utilisant les notations suivantes :
Rangs : r1,1 , . . . , rn1 ,1 , r2,1 , . . . , rn2 ,1 , . . . , r1,k , . . . , rnk ,k .
k
X
Effectifs des échantillons : n1 , n2 , . . . , nk ; Effectif total : N = ni .
i=1
Rangs moyens des groupes : R1 , R2 , . . . , Rk .
Rang moyen général : R = N 2+1 .
12
Le facteur N (N +1) représente l’inverse de la variance de la série des rangs (1, 2, . . . , N ). S’il y
a des ex aequo, on calcule cette variance à partir de la série des rangs effectivements observés
par :
1 X 2 (N + 1)2
V = ri,j − N
N − 1 i,j 4
k
1 X 2
et K= ni Ri − R
V i=1
Pour des effectifs suffisamment grands dans chaque groupe (ni ≥ 10 en pratique), K
suit approximativement une loi du khi-2 à (k-1) degrés de liberté sous l’hypothèse H0 . En
se fixant
de confiance α (classiquement α = 5%), on a sous l’hypothèse nulle H0 :
alors un seuil
PH0 χ1−α,k−1 ≥ K = 1 − α, avec χ21−α,k−1 le quantile d’ordre 1-α de la loi du khi-2. Ainsi, si
2
87
A.2 Théorème de conditionnement d’un vecteur gaussien
Théorème 1. (Conditionnement d’un vecteur gaussien)
0
Si (X, Y ) est un vecteur gaussien, alors :
Cov(X, Y )
E [ Y | X ] = E [Y ] + (X − E [X])
V ar(X)
Démonstration :
La démonstration fournie ici est une retranscription de celle présentée dans le cours de A. Guya-
der [10] :
Cov(X, Y )
u(X) = E [Y ] + (X − E [X]) = aX + b
V ar(X)
avec a = Cov(X,Y )
V ar(X) et b = E[Y ] − aE[X], vérifie bien la double propriété de caractérisation de
l’espérance conditionnelle. Puisque X est gaussienne, elle est dans L2 (Ω), et par suite u(X) =
aX + b est dans L2 (X) . Il reste à prouver que la variable aléatoire (Y − u(X)) est orthogonale
au sous-espace L2 (X), c’est-à-dire orthogonale à toute variable aléatoire f (X) fonction de X.
0
On commence par montrer que (Y − u(X)) est indépendante de X. Puisque le vecteur (X, Y )
est gaussien et que :
! ! ! ! ! !
X X 1 0 X 0 X
= = + =A + B,
Y − u(X) Y − (aX + b) −a 1 Y −b Y
0
Le vecteur (X, Y − u(X)) est gaussien aussi comme transformée affine d’un vecteur gaussien,
donc montrer l’indépendance de ses composantes revient à montrer leur décorrélation. Or :
et par définition de a on a :
de sorte que l’on a bien Cov(X, Y − u(X)) = 0, c’est-à-dire que X et (Y − u(X)) sont indépen-
dantes. Mais si (Y − u(X)) est une variable indépendante de X, elle est aussi indépendante de
toute fonction f (X) de la variable X. Par suite :
car (Y − u(X)) est centrée. Ainsi la seconde propriété de caractérisation de l’espérance condi-
tionnelle est vérifiée et le théorème est prouvé.
88
A.3 Convexité du Lagrangien du problème d’optimisation
Le Lagrangien de notre problème d’optimisation sous contraintes est la fonction définie par :
H H H
! !
ωh
µ∗x
X X X
L : (ω1 , . . . , ωH , λ1 , λ2 ) 7−→ dh G − λ1 ωh − 1 − λ2 ωh x h −
h=1
dh h=1 h=1
Avec (λ1 , λ2 ) ∈ <2 le vecteur des multiplicateurs de Lagrange, et G une fonction de distance
strictement convexe sur <∗+ .
On peut alors montrer que le Lagrangien est également strictement convexe en ω = (ω1 , . . . , ωH ).
On utilise pour cela la définition d’un fonction convexe :
H
αωh + (1 − α)ωh0
L αω + (1 − α)ω 0 , λ
X
= dh G
h=1
dh
H H
! !
α)ωh0 α)ωh0 xh µ∗x
X X
− λ1 αωh + (1 − − 1 − λ2 αωh + (1 − −
h=1 h=1
H
ωh ω0
X
= dh G α + (1 − α) h
h=1
dh dh
H H
! !
α)ωh0 α)ωh0 xh µ∗x
X X
− λ1 αωh + (1 − − 1 − λ2 αωh + (1 − −
h=1 h=1
" H H
! H
!#
ωh
ωh xh − µ∗x
X X X
< α dh G − λ1 ωh − 1 − λ2
h=1
dh h=1 h=1
" H 0 H
! H
!#
ω
ωh0 xh − µ∗x
X X X
h
+ (1 − α) dh G − λ1 ωh − 1 − λ
h=1
dh h=1 h=1
Au final, on obtient : L (αω + (1 − α)ω 0 , λ) < αL(ω, λ)+(1−α)L(ω 0 , λ). Le Lagrangien est donc
une fonction strictement convexe en ω, ce qui permet d’affirmer que si il existe une solution au
problème d’optimisation, cette solution est unique.
89
A.4 Limites de la fonction f
On suppose que les dh sont strictement positifs. Cette hyposthèse est toujours vérifiée dans
notre étude, la taille de la base de données permettant d’obtenir des tranches d’effectif nh non
nul, et ce même pour une segmentation fine de la population. 21
Limite en −∞ :
On a
H H H
dh eλ2 (xh −m) xh
X X X
λ 2 xh λ 2 xh
dh e xh dh e xh
h=1 e−λ2 m h=1 h=1
f (λ2 ) = = =
H e−λ2 m X
H H
dh eλ2 (xh −m)
X X
dh eλ2 xh dh eλ2 xh
h=1 h=1 h=1
Avec (
λ2 (xh −m) 0 si xh > m
lim e =
λ2 →−∞ 1 si xh = m
Donc X
dh xh
h:xh =m
lim f (λ2 ) = X =m
λ2 →−∞ dh
h:xh =m
Limite en +∞ :
h=1
f (λ2 ) = H
dh eλ2 (xh −M )
X
h=1
Avec (
λ2 (xh −M ) 0 si xh < M
lim e =
λ2 →+∞ 1 si xh = M
Donc X
dh xh
h:xh =M
lim f (λ2 ) = X =M
λ2 →+∞ dh
h:xh =M
21. Si il existe des tranches d’effectif nh nul, nous pouvons nous ramener à cette hypothèse en supprimant ces
tranches de notre étude.
90
A.5 Méthode de Newton-Raphson
La méthode de Newton-Raphson est un procédé itératif permettant d’obtenir une valeur
approchée d’une racine réelle. Cette méthode a été initialement publiée par en 1690 par Joseph
Raphson, soit presque 50 ans avant que Isaac Newton ne la publie à son tour. En effet, bien
que Newton ait développé cette méthode en 1671, il ne la publia qu’en 1736. C’est pourquoi la
méthode porte le nom des deux mathématiciens.
f (xk )
xk+1 = xk −
f 0 (xk )
91
A.6 Calcul du taux de couverture calé sur deux niveaux d’informations
Dans le cas du poste Optique, nous disposons d’un double niveau d’information auxiliaire :
les coûts moyens pour un verre et pour une monture, notés respectivement µvx et µm x .
Notations :
H : le nombre de classes de population.
n : le nombre total de dépenses.
nh : le nombre de dépenses engagées par la population de la classe h.
nv , nm : les nombres totaux de dépenses pour les verres et les montures.
nvh , nm
h : les nombres de dépenses relatives aux verres et aux montures pour la classe h.
nv
En définissant alors les poids relatifs aux verres et aux montures pour chaque classe : dvh = hv
n
m nmh v m
et dh = m , on souhaite déterminer les nouveaux poids (ωh , ωh )h∈[1,H] proches des poids
n
initiaux (dvh , dm
h )h∈[1,H] et vérifiant les équations de calage :
H
X
ωhv xvh = µvx
h=1
H
X
ωhm xm = µm
h x
h=1
où xvh et xmh représentent, pour la classe h, les montants de frais réels moyens pour les
verres et les montures. Ce double calage impose ici de déterminer un nombre de poids deux fois
plus important que pour le calage sur la moyenne globale des actes optique. Il est cependant
possible de montrer, sous l’hypothèse d’égalité des proportions d’actes relatifs aux verres et aux
montures pour chaque classe (i.e : dvh = dmh ∀h ∈ [1, H]), que les poids de l’ensemble des actes
(dh )h∈[1,H] sont égaux à ces proportions.
nh nv + nm nv nv nm nm
dh = = h h
= hv × + hm ×
n n n n n n
= dvh × propv + dm
h × propm
Et sous l’hypothèse dvh = dm
h , ∀h ∈ [1, H], il vient :
et le problème d’optimisation est alors défini de la manière suivante : on cherche les nouveaux
poids (ωh∗ )h∈[1,H] solutions de
H
ωh
X
min dh G
(ω1 ,...,ωH )∈<H
h=1
dh
92
sous les contraintes :
H
X
ωh xvh
= µvx
h=1
H
X
m
ωh xh = µm
x
h=1
H
X
ωh = 1
h=1
Il convient donc de vérifier l’hypothèse d’égalité des proportions d’actes relatifs aux verres
et aux montures pour chaque classe de population. Le tableau ci-dessous montre que ces pro-
portions sont très proches pour chacune des classes :
93
A.7 Limites du R2 et du R2 -ajusté
On se place ici dans le cas d’un modèle de régression linéaire simple.
Notation :
Y1 , . . . , Yn : les valeurs observées
Yb1 , . . . , Ybn : les valeurs prédites par la droite de régression
n
X
Y = Yi
i=1
La somme des carrés expliquée par le modèle (SCE) et la somme des carrés totale (SCT) sont
définies comme suit :
X 2 X 2
SCE = Ybi − Y , SCT = Yi − Y
i i
X 2
Ybi − Y
SCE i
Le R2 est défini comme le rapport entre la SCE et la SCT, soit R2 = =X 2
SCT
Yi − Y
i
Ainsi, le R2 représente la proportion de variance totale expliquée par le modèle de régression
linéaire.
Le R2 -ajusté est dérivé du R2 pour tenir compte du nombre de variables présentes dans le mo-
2 n−1
dèle : Raj = 1 − (1 − R2 ) , avec k le nombre de paramètres du modèle, soit k=2 pour un
n−k
modèle de régression linéaire simple (l’ordonné à l’origine et le coefficient directeur). L’interpré-
tation du R2 -ajusté est semblable à celle du R2 , à savoir un indicateur de la variance expliquée
par le modèle de régression.
Ainsi le R2 permet de savoir dans quelle mesure les observation sont proches de la droite de
régression, mais pas si le modèle est "bon", comme en attestent les exemples suivants :
Les R2 pour les exemples 1 et 2 sont respectivement égaux à 0.91 et 0.68 et ce malgré le
fait qu’un modèle de régression linéaire semble mal adapté aux observations de l’exemple 1.
Dans l’exemple 2, la régression linéaire semble bonne dans le sens où il serait difficile de faire
94
mieux, le R2 est simplement plus faible que dans l’exemple 1 car les données sont plus bruitées.
Un modèle de régression non linéaire du type y = αx2 + β paraît mieux adapté dans le cas de
l’exemple 1, comme le montre la figure suivante :
Le R2 est alors de 0.98. Ainsi, bien que le R2 ait été élevé dans le cas d’une régression
linéaire, ce modèle n’était clairement pas adapté aux observations de l’exemple 1.
95
A.8 Estimateurs des composantes du T C red
Le taux de couverture redressé est défini par :
!
red 1 h i Cov(X, Y ) ∗ h i
TC = ∗ E Y + µx − E X
µx V ar(X)
L’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est supposé i.i.d de même loi que le couple (X, Y ).
h i
Comme E X = E[X], X est utilisé comme estimateur sans biais de E[X].
n
1 X V ar(X)
De plus, V ar(X) = 2
V ar(Xi ) = . Un estimateur sans biais de V ar(X) est donc
n i=1 n
n
Sx2 1 X
, avec Sx2 l’estimateur sans biais de la variance de X défini par : Sx2 = (Xi − X)2 .
n n − 1 i=1
n n n
1 X X 1 X
Enfin, Cov(X, Y ) = 2 Cov Xi , Yj = 2 Cov(Xi , Yj ) d’après la bilinéarité de
n i=1 j=1
n i,j=1
l’opérateur Cov. Et d’après l’hypothèse d’indépendance, Cov(Xi , Yj ) = Cov(X, Y )1{i=j} .
1 Sxy
Ainsi Cov(X, Y ) = Cov(X, Y ), et un estimateur sans biais est ,
n
n n
1 X
avec Sxy = (Xi − X)(Yi − Y ) l’estimateur sans biais de la covariance entre X et Y .
n − 1 i=1
Au final, un estimateur Υ de T C red est obtenu en remplaçant toutes les composantes par
leurs estimateurs respectifs, soit :
1 Sxy ∗
Υ = ∗ Y + 2 µx − X
µx Sx
96
A.9 Intervalle de confiance Bootstrap : Méthode des percentiles
Considérons un échantillon X1 , . . . , Xn supposé i.i.d de loi inconnue F . Le Bootstrap permet
de fournir une estimation d’une fonction de répartition.
Considérons une variable aléatoire R(X1 , . . . , Xn , F ), et notons HF sa fonction de répartition
définie par :
HF (x) = P (R(X1 , . . . , Xn , F ) ≤ x)
En notant Fb la fonction de répartition empirique calculée sur l’échantillon, HF (x) est estimé
par HFb(x) = P R(X1 , . . . , Xn , F ) ≤ x|(X1 , . . . , Xn ) , où (X1∗ , . . . , Xn∗ ) est un échantillon sé-
∗ ∗ b
B
1 X
∗ ∗ b
I R(X1b , . . . , Xnb ,F) ≤ x
B b=1
Intéressons nous maintenant à la méthode des percentiles : Cette méthode est basée sur l’uti-
lisation de l’estimation Bootstrap de la fonction de répartition. Considérons un paramètre
θ(F ) estimé par θ(Fb ), et θ(Fb ∗ ) son équivalent Bootstrap calculé à partir d’un rééchantillon
(X1∗ , . . . , Xn∗ ). Soit
Gboot (x) = P θ(Fb ∗ ) ≤ x|X1 , . . . , Xn
où Gboot peut être approché à l’aide de simulations : en pratique cette méthode consiste à
1. Générer B rééchantillons Bootstrap sur chacun desquels la statistique θ(Fb ) est calculée.
2. Classer ces estimations par ordre croissant.
3. L’intervalle de confiance de niveau 1 − 2α s’obtient en supprimant les Bα estimations
Bootstrap les plus faibles et les Bα estimations Bootstrap les plus fortes.
.
97