Vous êtes sur la page 1sur 98

Résumé

MOTS CLES
Tarification, Frais de santé, Modèles Linéaires Généralisés, Contrats complémentaires
collectifs, Surcomplémentaires.

Au regard de l’augmentation constante du reste à charge laissé par l’Assurance Mala-


die, la complémentaire santé est aujourd’hui un élément clé dans le financement des soins
en France. En 2010, environ 94% de la population était couverte par une complémentaire
selon l’Enquête santé protection sociale (E.S.P.S.) de l’I.R.D.E.S. (Institut de Recherche
et Documentation en Economie de la Santé). Dans les différentes branches de métiers,
la négociation collective est très active depuis quelques années en termes de protection
sociale. De plus en plus d’accords de branche imposent des niveaux de garantie minimaux
pour protéger les salariés. A l’initiative de l’entreprise, la couverture des salariés est parfois
complétée par une surcomplémentaire.

L’objectif de ce mémoire est l’élaboration d’un outil de tarification. Celui-ci a pour


vocation de calculer un tarif pour une couverture complémentaire santé, adapté aux ga-
ranties et à la situation démographique particulière d’un portefeuille. En particulier, la
méthode d’évaluation des primes est choisie pour prendre en compte une éventuelle inté-
raction avec une surcomplémentaire et ses conséquences sur le tarif.

La contruction de cet outil repose sur une série de contrats collectifs d’entreprises,
pour lesquels la consommation annuelle ainsi que certaines caractéristiques des assurés
sont disponibles, permettant de définir un tarif par profil. Ce portefeuille a donc fait l’objet
d’une analyse préliminaire au travers notamment d’une analyse descriptive, du traitement
des données manquantes et d’une segmentation du portefeuille.

Deux paramètres ont été estimés pour la modélisation de la prime pure de chaque type
d’acte : la fréquence de consommation et le coût moyen par sinistre. L’outil principal utilisé
pour cette modélisation est le modèle linéaire généralisé. Un modèle à deux composantes
a été mis en oeuvre afin d’améliorer l’ajustement aux données, notamment pour les postes
disposant d’un nombre important d’actes sans dépassement. Les détails de la conception
de l’outil sont présentés, notamment la construction des primes ajustées à la situation
démographique de l’entreprise. Une évaluation du risque d’aléa moral a été effectuée sur
le poste optique pour lequel ce phénomène est particulièrement important.
Abstract

KEY WORDS
Pricing, Healthcare expenses, Generalized Linear Models, Collective complementary
insurance policies, supplementary insurance policy.

Since the past laws tend to reduce the reimbursement of the medical expenses by
the French Social Security, patients are required to pay a more important part of their
healthcare. That is why complementary coverage has become a key element in the French
health system. In 2010, about 94% of French people benefit from a complementary health
insurance, according to the Health and Social Protection Investigation. For the past few
years, social welfare for workers has been a recurrent subject in collective bargaining.
More and more branch agreements now require a minimum level of health coverage. Some
companies even chose to offer an additional cover to complete the complementary one.

The aim of this thesis is to build a pricing tool. On the one hand, this tool must be
able to work with any structure of demography. On the other hand, it should take into
account different levels of cover and their interactions.

The pricing tool is based on a large range of collective health insurance contracts.
Data about the annual consumption and some policyholder’s feature is available. It allows
estimating a different rate per profile. For that purpose, a preliminary analysis was done
on the portfolio : descriptive analysis, missing data processing and segmentation of the
population.

The pure premium rate was modeled thanks to two parameters for each kind of medical
expenditure : the consumption frequency and the average cost of the risk. The statisti-
cal tool used for pricing is Generalized Linear Model (GLM). In particular cases, a two
component model was used in order to fit closer to the data. The latter can model the
discontinuity in costs curves, caused by practitioners charging more than what the Social
Security reimburse.

Details about the tool development are presented too, including the calculation of the
premium adjusted to the demography. As for the moral hazard risk, it was enhanced for
optical products expenditures but less obvious for some other cares.
Remerciements

En guise de préambule, je souhaite adresser mes remerciements aux personnes qui


m’ont apporté leur aide et contribué à l’élaboration de ce mémoire.

J’aimerais remercier tout d’abord le Cabinet SPAC Actuaires, en particulier, Madame


Brigitte ECARY, Directeur Général du cabinet, de m’avoir accueillie et fait confiance
durant mon stage et par la suite ainsi que pour sa relecture attentive. J’adresse une
attention particulière à Pascal MARON et Louis LENGLIN pour m’avoir guidée dans
mes recherches, ainsi que pour leur disponibilité et leurs nombreux conseils.

Ma reconnaissance s’adresse aussi, pour leurs remarques pertinentes et leur relecture,


à Aurélie GRANVEAUX, Johnny PARIS et Stéphanie BRUGIRARD, ainsi qu’à toute
l’équipe pour leur accueil chaleureux et leur soutien.

Je remercie également Olivier LOPEZ, mon référant ISUP, pour sa disponibilité, pour
la pertinence des ses conseils, qui ont su m’orienter efficacement dans mes réflexions.

Mes remerciements vont également aux membres de ma famille, en particulier mon


père, pour leur soutien tout au long de la rédaction de ce mémoire, leurs relectures pré-
cieuses et leurs remarques constructives.
Table des matières

1 Le système d’assurance santé en France 9


1.1 Le premier pilier de remboursement : la Sécurité sociale . . . . . . . . . . . 10
1.1.1 Les comptes de la santé . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.2 La Sécurité sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.3 Evolutions de la part de remboursement de la Sécurité sociale . . . 13
1.2 La protection sociale complémentaire . . . . . . . . . . . . . . . . . . . . . 14
1.2.1 Les dépenses des couvertures complémentaires . . . . . . . . . . . . 15
1.2.2 Les financements publics . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Les organismes complémentaires privés . . . . . . . . . . . . . . . . 18
1.3 Présentation des différents types de couvertures . . . . . . . . . . . . . . . 19
1.3.1 Le contrat complémentaire santé individuel . . . . . . . . . . . . . . 19
1.3.2 La couverture sociale complémentaire d’entreprise . . . . . . . . . . 20
1.3.2.1 Les dates clés de la protection sociale complémentaire . . 20
1.3.2.2 Caractéristiques des contrats . . . . . . . . . . . . . . . . 22
1.3.2.3 La complémentaire santé collective, des inégalités d’accès . 23
1.3.2.4 Un essor de la complémentaire santé par accord de branche 24
1.4 Le marché de la surcomplémentaire . . . . . . . . . . . . . . . . . . . . . . 25
1.4.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.2 La surcomplémentaire et l’anti-sélection . . . . . . . . . . . . . . . 25
1.4.3 Régime complémentaire et régime surcomplémentaire . . . . . . . . 26

2 Mise en place du cadre théorique 27


2.1 Les méthodes de tarification . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Principe des Modèles Linéaires Généralisés . . . . . . . . . . . . . . . . . . 29
2.2.1 La famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 La fonction de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.3 Modèle de régression . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Estimation des paramètres β0 , β1 , . . . , βn . . . . . . . . . . . . . . . 31
2.3.2 Estimation du paramètre de dispersion . . . . . . . . . . . . . . . . 32
2.4 Méthodes de sélection des paramètres . . . . . . . . . . . . . . . . . . . . . 32
2.5 Les intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.1 La déviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.2 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7 Application à la tarification santé . . . . . . . . . . . . . . . . . . . . . . . 36
2.7.1 Les fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5

2.7.1.1 Le modèle de Poisson . . . . . . . . . . . . . . . . . . . . 36


2.7.1.2 La loi Binomiale Négative . . . . . . . . . . . . . . . . . . 36
2.7.2 Les coûts moyens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.2.1 Différents types de remboursements . . . . . . . . . . . . . 37
2.7.2.2 Modélisation classique des frais réels . . . . . . . . . . . . 40
2.7.2.3 Modélisation avec discontinuité . . . . . . . . . . . . . . . 40
2.7.2.4 Les sinistres graves . . . . . . . . . . . . . . . . . . . . . . 42

3 Description et analyse du portefeuille 43


3.1 Présentation des données utilisées . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.1 Le fichier des effectifs . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.2 Le fichier des prestations . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2 Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Fusion des portefeuilles . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.2 Doublons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.3 Données manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3.1 La variable sexe . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3.2 La variable CSP . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.3.3 La variable de localisation géographique . . . . . . . . . . 49
3.2.4 Majorations et lignes de régularisation . . . . . . . . . . . . . . . . 51
3.3 Les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1 Caractéristiques des assurés . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1.1 L’âge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1.2 Le sexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.1.3 La localisation géographique . . . . . . . . . . . . . . . . . 54
3.3.1.4 L’exposition au risque . . . . . . . . . . . . . . . . . . . . 60
3.3.2 Caractéristiques des contrats . . . . . . . . . . . . . . . . . . . . . . 62
3.3.2.1 Le niveau de garantie . . . . . . . . . . . . . . . . . . . . 62
3.3.2.2 Le mode d’adhésion . . . . . . . . . . . . . . . . . . . . . 64
3.4 Les actes étudiés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4 Tarification 67
4.1 Modélisation des fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1.1 Ajustement des lois de fréquence . . . . . . . . . . . . . . . . . . . 67
4.1.2 Le Modèle de régression binomial négatif . . . . . . . . . . . . . . . 69
4.1.2.1 Sélection des variables . . . . . . . . . . . . . . . . . . . . 69
4.1.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.1.2.3 Etude des résidus . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.2.4 Intervalle de confiance pour la prédiction . . . . . . . . . . 74
4.2 Modélisation des coûts moyens de sinistres . . . . . . . . . . . . . . . . . . 75
4.2.1 Significativité des paramètres . . . . . . . . . . . . . . . . . . . . . 75
4.2.2 Diagnostique des résidus . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2.1 Occurrence des dépassements . . . . . . . . . . . . . . . . 76
4.2.2.2 Importance des dépassements . . . . . . . . . . . . . . . . 77
4.2.3 Les résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3 Exploitation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6

4.3.1 Exploitation des GLM pour la construction d’un outil de tarification 83


4.3.2 Les différents types de primes . . . . . . . . . . . . . . . . . . . . . 84
4.3.3 Impact du niveau de garantie sur la consommation . . . . . . . . . 86

A Annexe A 92

B Annexe B 93

C Annexe C 94

D Annexe D 95
Introduction

L adescomplémentaire santé est aujourd’hui un élément crucial pour l’accès aux soins
ménages. En 2011, 15,4% de la population française déclarait avoir renoncé à
certains soins pour des raisons financières. Ce chiffre atteignait 30% parmi les personnes
non couvertes par des complémentaires santé. Selon la Cour des Comptes, le montant lié
au désengagement de la Sécurité sociale se serait élevé à 3,3 milliards d’euros entre 2004
et 2008. Le reste à charge des ménages s’en retrouve considérablement accru.

La complémentaire collective d’entreprise se généralise et constitue l’un des thèmes


principaux de la négociation collective. Elle permet une démocratisation de l’accès à la
complémentaire santé. Cependant, les couvertures négociées par les accords de branche
sont souvent relativement faibles. Ces dernières années sont également marquées par une
hausse des honoraires médicaux. Le nombre de dépassements de tarifs conventionnés aug-
mente et varie beaucoup selon les spécialités. Pour couvrir davantage leurs salariés, cer-
taines entreprises décident d’améliorer la qualité de couverture de leurs salariés par le biais
d’une surcomplémentaire venant compléter la couverture de base ou conventionnelle.

Cette étude est basée sur un ensemble de couvertures complémentaires et surcom-


plémentaires d’entreprises. Elle a pour objectif la constitution d’un outil de tarification a
priori de contrats collectifs. La concurrence toujours plus accrue et le contexte de crise de-
mandent une bonne maîtrise des risques encourus et une tarification précise. Par ailleurs,
le cadre législatif fluctuant nécessite de s’adapter rapidement à ces changements.

La construction d’un tarif adapté demande de prendre en compte les caractéristiques


de la population assurée. L’enjeu est donc de constituer un tarif le plus proche possible
de la consommation réelle des assurés, un tarif "sur-mesure" s’inscrivant dans le contexte
législatif actuel. Nous complétons cette étude par une prise en compte de la présence
d’une surcomplémentaire pour la tarification d’un contrat complémentaire. Cet aspect de
l’étude découle du constat que le niveau de garantie a un impact sur la consommation
qu’il convient d’évaluer pour tarifer un contrat complémentaire.

La première partie dessine le cadre général du système d’assurance santé en France.


Il s’agit de présenter, d’une part, ses acteurs et le cadre législatif dans lequel ils évoluent.
D’autre part, nous nous intéresserons aux principaux aspects de la couverture des frais de
soins de santé. La deuxième partie est destinée à expliciter le cadre théorique utilisé pour
la tarification. L’approche retenue est une modélisation des frais réels par les Modèles
Linéaires Généralisés, de plus en plus répandus dans le domaine de l’assurance. Les carac-
téristiques de la distribution des frais de santé rend leur modélisation difficile, notamment
à cause de la distinction entre les actes avec et sans dépassements d’honoraires. Pour ré-
8

soudre ce problème, un modèle à deux composantes a été retenu, permettant de distinguer


ces deux types d’actes. La troisième partie a pour objectif d’analyser les données utilisées :
leurs caractéristiques, leur fiabilité et d’en faire une analyse descriptive, essentielle pour
une tarification. Enfin, la dernière partie présente d’une part les caractéristiques de l’outil
de tarification constitué et une étude additionnelle concernant les surcomplémentaires.
Pour ce dernier point, nous nous intéressons au poste optique et aux répercussions de la
mise en place d’une surcomplémentaire sur la prime pure du régime complémentaire.
Le système d’assurance santé en France
1
L aauxprotection sociale désigne les mécanismes de prévoyance collective qui permettent
individus de faire face aux conséquences financières liées aux risques sociaux. Ces
derniers comprennent les risques maladie, vieillesse, incapacité de travailler, invalidité,
chômage, accidents du travail ou maladies professionnelles ou encore la maternité.

En particulier, le risque maladie constitue une part importante des dépenses de la


protection sociale. Selon le rapport de la Commission des comptes de la Sécurité sociale,
les coûts liés à l’assurance maladie se sont élevés à 166,6 milliards d’euros en 2011.

Plusieurs niveaux sont distingués, qui forment la structure de financement des dépenses
médicales en France. Le schéma 1.1 représente ces différents niveaux. Cette première partie
sera consacrée à les présenter, ainsi que le cadre législatif dans lequel ils évoluent.

Figure 1.1 – Les différents niveaux de financement des dépenses de santé


1.1 Le premier pilier de remboursement : la Sécurité sociale 10

1.1 Le premier pilier de remboursement : la Sécurité


sociale
1.1.1 Les comptes de la santé
La Dépense Courante de Santé (D.C.S.) s’élevait à 240 milliards d’euros en 2011 d’après
les comptes nationaux de la santé 2011 [5], soit 12% du Produit Intérieur Brut (P.I.B.).
Elle regroupe l’ensemble des paiements intervenus au cours d’une année au titre de la
santé. Elle comprend donc toutes les dépenses "courantes" engagées par les financeurs
publics (Etats, collectivités locales), la Sécurité sociale (y compris le déficit des hôpitaux
publics) et les financeurs privés (les mutuelles, les institutions de prévoyance, les sociétés
d’assurances et les ménages) pour la fonction santé. Elle se compose :

– Des dépenses pour les malades : Elle comprend la C.S.B.M.(Consommation de


Soins et de Biens Médicaux) ou D.S.B.M.(Dépense de Soins et de Biens Médicaux),
les soins de longue durée (personnes âgées ou handicapées en établissements) et les
versements d’indemnités journalières. Cette partie représente 210 milliards d’euros.

– Des dépenses de prévention : les services de médecine préventive (médecine


du travail, médecin scolaire, lutte contre les épidémies . . .), les contrôles sanitaires
(contrôle des eaux, campagnes d’information et d’éducation sanitaire . . .) et la pré-
vention collective (lutte contre l’alcoolisme, le tabagisme ou encore lutte contre la
pollution . . .) : 5,7 milliards d’euros.

– Des dépenses en faveur du système de soins : subventions de cette entité, for-


mation des professionnels, recherche médicale et pharmaceutique. Elles représentent
un total de 11,9 milliards.

– Des coûts de gestion : 15,6 milliards.

– Du double compte recherche pharmaceutique. Une partie des dépenses pour


recherche médicale et pharmaceutique est comptabilisée à la fois dans la C.S.B.M.
et dans le poste des dépenses en faveur du système de soins. Deux entités y figurent :
le Programme Hospitalier de Recherche Clinique (P.H.R.C.) comptabilisé dans la
dépense hospitalière et la recherche de l’industrie pharmaceutique qui figure dans
les dépenses de médicaments. Ce poste permet donc de retrancher de la dépense
courante les frais de recherche qui seraient sinon comptés deux fois : - 3,9 milliards
d’euros.

La Consommation de Soins et de Biens Médicaux (C.S.B.M.) représente les trois quarts


de la D.C.S. Elle s’élevait à 180 milliards d’euros en 2011 (2 762 euros par habitant), soit
une augmentation de 2,8% en volume selon les comptes de la santé. Les dépenses au titre
1.1 Le premier pilier de remboursement : la Sécurité sociale 11

du financement de la C.S.B.M. sont séparées en quatre postes principaux 1 . La part de la


Sécurité sociale au financement varie beaucoup d’un poste à l’autre, comme l’indique la
figure 1.2. Elle est concentrée sur les risques lourds et tend à se désengager sur les actes
courants.

Figure 1.2 – Source : DREES, 2011 [4]

Les différents postes de la C.S.B.M. sont les suivants :

– Les soins de ville. Ils comprennent les soins effectués en cabinets de ville et en
centres de soins. Ces derniers se composent des soins dispensés au titre de l’activité
libérale par les médecins, les dentistes et les auxiliaires médicaux (les infirmiers, mas-
seurs kinésithérapeutes, les orthophonistes, les orthoptistes. . .) et des actes d’analyse
effectués en laboratoire.

– Les soins hospitaliers. Ils occupent une place prépondérante dans la C.S.B.M. :
46,4% en 2011. C’est le poste dans lequel la Sécurité sociale intervient le plus : à
hauteur de 90% comme l’indique la figure 1.2.

– Les transports sanitaires. Ils englobent à la fois les transports spécialisés (ambu-
lances privées, ambulances d’établissements publics hospitaliers. . .) et les transports
non spécialisés utilisés par les malades (transports publics, taxis, voitures particu-
lières).

1. Le découpage est ici donné pour la base 2005. En 2011, les comptes sont, en effet, passés de la base
2000 à la base 2005. Il s’agit d’une réversion régulière des concepts, nomenclatures et méthodes de la
comptabilité nationale, afin qu’elle reflète au mieux la réalité. Pour plus de détail sur les changements
effectués, consulter les comptes de la santé 2010 [4].
1.1 Le premier pilier de remboursement : la Sécurité sociale 12

– Les biens médicaux. Ce poste comprend les médicaments et autres biens médi-
caux acquis sous prescription ou non (prothèses, orthèses, véhicules pour handicapés
physiques (V.H.P.)).

Au début de la dernière décennie, le taux d’augmentation annuel de la consommation


de biens médicaux s’élevait à 6%. Une partie de cet accroissement peut s’expliquer par des
facteurs démographiques : croissance et vieillissement de la population. A cela s’ajoute le
progrès technique, qui a notamment un impact au niveau des coûts, l’augmentation des
tarifs des médecins et de la hausse de coûts salariaux à l’hôpital. A partir de 2004, les
mesures de responsabilisation mises en place pour maîtriser les dépenses de santé, comme
le parcours de soins commencent à freiner cet accroissement des coûts. Le ralentissement
de la progression de la C.S.B.M. est réellement amorcé depuis 2007. La croissance des
coûts de soins hospitaliers se stabilise, ainsi que celle des médicaments. En revanche, en
2011, la dépense des soins de ville est en nette hausse ainsi que celle des autres biens
médicaux.

1.1.2 La Sécurité sociale

S uggérée par le Conseil National de la Résistance, la Sécurité sociale fut un élément


essentiel de la reconstruction de la France après la Seconde Guerre Mondiale. Elle
affirme, en effet, un principe de double solidarité : solidarité entre les riches et les pauvres,
solidarité entre bien-portants et malades.

Elle est mise en place par les ordonnances du 4 et du 19 octobre 1945. Il s’agit d’un sys-
tème à double influence bismarckienne (où prévaut le principe d’assurance liée au travail)
et beveridgienne (fondée sur la solidarité, indépendamment de toute activité profession-
nelle). La première ordonnance prévoit un réseau coordonné de caisses se substituant à
de multiples organismes. L’unité administrative n’est cependant pas réalisée à sa création
et ne l’est toujours pas. En effet, de nombreux régimes spéciaux subsistent, ayant refusé
de s’intégrer dans le régime général : fonctionnaires, marins, cheminots, mineurs . . . L’or-
donnance du 19 octobre concerne les risques maladie, maternité, invalidité, vieillesse et
décès.

Dans les pays d’influence anglo-saxone, le financement de la protection sociale est lar-
gement fiscalisé. Dans les autres, en France en particulier, il est fondé sur des cotisations
sociales. Cependant, depuis quelques années, l’impôt y prend une part de plus en plus
importante : Contribution Sociale Généralisée (C.S.G.), taxes sur l’alcool. . . Les contrats
d’assurance santé complémentaires contribuent également à ce financement. La Taxe Spé-
ciale sur les Conventions d’Assurance (T.C.A.) est actuellement de 7% pour les contrats
dits "responsables" 2 et de 9% pour les autres. Elle est destinée à réduire le déficit de
l’assurance maladie, s’élevant à 18,1 milliards d’euros en 2011.

Le remboursement de la Sécurité sociale s’effectue sur la base d’une assiette de rem-


boursement définie pour chaque type d’actes, appelée Tarif Conventionnel (T.C.) ou Base
2. Cette notion est développée dans la section 1.3.2.1.
1.1 Le premier pilier de remboursement : la Sécurité sociale 13

de Remboursement (B.R.).

Pour le cas d’une consultation chez un généraliste, la base de remboursement s’élève à


23 euros en 2012. La Sécurité sociale rembourse une partie de cette base de remboursement
définie par le taux de remboursement. Pour une consultation chez le généraliste dans le
parcours de soin, il s’élève à 70%. Au final, pour ce genre de consultation, la Sécurité sociale
rembourse 70% x 23 = 16,1 euros, desquels est retranchée une participation forfaitaire de
1 euro 3 , soit 15,1 euros. Les 6,9 euros restants (hors participation forfaitaire) constituent
un reste à charge pour l’assuré, appelé ticket modérateur (T.M.). Cette partie peut alors
éventuellement être prise en charge par une complémentaire santé.

1.1.3 Evolutions de la part de remboursement de la Sécurité


sociale

L aSoins
part de la Sécurité sociale dans le financement de la C.S.B.M. (Consommation de
et de Biens Médicaux) s’élevait à 75,5 % (135,8 milliards d’euros) en 2011, contre
77,1 % en 1995. La structure de financement de ces dépenses s’est, en effet, légèrement
déformée depuis 1995, avec une stabilisation depuis 2009. Plusieurs facteurs contraires ont
contribué à cette évolution.

Tout d’abord, les biens médicaux les moins biens remboursés comme l’optique occupent
une place accrue dans la C.S.B.M. Par ailleurs, le nombre de dépassements d’honoraires
est en nette progression. Selon une étude de la D.R.E.E.S. [1], les honoraires totaux des
praticiens de santé ont progressé au rythme moyen annuel de + 0,7%, entre 2002 et 2010,
toutes spécialités confondues. Ainsi, en moyenne, les dépassements de tarifs conventionnés
représentent 11,7% des honoraires totaux des médecins libéraux. Une grande variabilité est
constatée selon les spécialités. Les omnipraticiens et les radiologues sont les spécialistes
qui sont le moins fréquemment en secteur 2 4 (11%). En revanche, 77% des chirurgiens,
près de la moitié des gynécologues et des ophtalmologues y sont. Parallèlement, le nombre
d’assurés sociaux bénéficiant d’une exonération du ticket modérateur pour affectation
longue durée (A.L.D.) a connu une nette progression jusqu’en 2009, pesant sur le régime
obligatoire.

La diminution de la part de la Sécurité sociale s’explique également par les diverses


mesures d’économie prises pour limiter le déficit de la branche maladie. Un plan de re-
dressement est prévu en moyenne tous les ans depuis une quinzaine d’années. Structu-
rellement, le régime d’assurance maladie n’a pas évolué mais des mesures successives ont
entraîné un report de ses dépenses vers les complémentaires et les ménages (qui en fi-
nancent respectivement 13,7% et 9,6% en 2011 [5]). La hausse du forfait hospitalier, les
3. La participation forfaitaire a été mise en place au 1er janvier 2005 dans le but de responsabiliser le
patient, elle reste à la charge de l’assuré à chaque consultation et acte médical, ainsi qu’à chaque examen
de radiographie ou d’analyse médicale. Les complémentaires santé ne doivent pas la rembourser.
4. Il s’agit d’une catégorie de médecins autorisée à faire des dépassements d’honoraires. Cette notion
est détaillée dans la section 1.2.1
1.2 La protection sociale complémentaire 14

franchises médicales sur les consultations, la biologie, les boîtes de médicaments en sont
des exemples. L’augmentation continue des dépenses pharmaceutiques, entre 2002 et 2011,
a mené le gouvernement à prendre des mesures pour réduire ces coûts. Le taux de rem-
boursement d’un médicament par l’Assurance Maladie Obligatoire dépend directement de
son Service Médical Rendu (S.M.R.) qui est évalué par la Commission de Transparence.
Quatre niveaux de S.M.R. sont ainsi définis :

– Irremplaçable : ces médicaments sont remboursés à 100% par la Sécurité sociale.


– Majeurs ou importants : ils sont dits à vignette blanche et sont remboursés à
65%.
– Modérés ou à vignettes bleues. Le remboursement est passé de 35% à 30% en mai
2011.
– Faibles ou à vignettes oranges. Le remboursement de ces médicaments s’elève à
15% de la base de remboursement.
Créée en 2006, la vignette orange a permis de diminuer le remboursement de médica-
ments au S.M.R. jugée insuffisant. Certains d’entre eux ont même été complètement
déremboursés.

1.2 La protection sociale complémentaire

Figure 1.3 – Source : IRDES, 2012, ESPS 2010 [18]

La couverture complémentaire maladie s’est largement répandue depuis les années


1980, passant d’une couverture à hauteur de 69% de la population de France métropoli-
taine à 94% en 2010, selon l’enquête sur la santé et la protection sociale de l’I.R.D.E.S
2010. [19]. Plusieurs formes de couvertures complémentaires peuvent être distinguées : les
couvertures publiques, les contrats individuels et les contrats collectifs dont la répartition
dans la population française est donnée à la figure 1.3. Sur ce graphique, les contrats
1.2 La protection sociale complémentaire 15

individuels englobent ceux obtenus par une démarche personnelle ou issus de la transfor-
mation d’un contrat collectif en un contrat individuel au moment du passage à la retraite
ou de la perte d’un emploi. Cette catégorie ne regroupe pas exactement tout l’ensemble
des contrats individuels car beaucoup de salariés fonctionnaires déclarent à tort comme
"obtenus par leur entreprise" des contrats qui sont juridiquement individuels.

1.2.1 Les dépenses des couvertures complémentaires

Figure 1.4 – Source : DREES, 2010 [17]

La figure 1.4 présente la répartition des dépenses des organismes complémentaires


entre les différents postes médicaux.

La pharmacie

Le premier poste de dépenses des complémentaires est la pharmacie : 24% de la dépense


totale selon un rapport de l’I.R.D.E.S. [12]. Les garanties prennent à charge le ticket
modérateur pour les médicaments remboursés à 65% pour l’ensemble des bénéficiaires de
contrats modaux 5 . Le ticket modérateur des médicaments à vignette bleue est presque
toujours remboursé sauf pour environ un quart des bénéficiaires de contrats individuels
en mutuelle qui ne profitent que d’un remboursement partiel.

Les Consultations

Plusieurs secteurs sont distingués parmi les médecins :

5. Ce sont les contrats les plus souscrits auprès des organismes éudiés.
1.2 La protection sociale complémentaire 16

– Le secteur 1 : Les médecins du secteur 1 s’engagent à respecter les tarifs conven-


tionnels, en contrepartie d’avantages fiscaux et sociaux. Des dépassements peuvent
être exceptionnellement pratiqués en cas de non-respect du parcours de soins coor-
données, par exemple. Le remboursement obligatoire se fait sur la base de 70% du
tarif conventionnel (23e au 01/01/2012). Diverses majorations peuvent être ajou-
tées à la base de remboursement. A titre d’exemple, quand un médecin spécialiste
est conventionné en secteur 1, il peut appliquer la majoration dite de coordination
spécialiste (M.C.S.) de 3e. La base de remboursement s’élève alors à 26e. Cette ma-
joration peut être cumulée avec la majoration forfaitaire transitoire (M.P.C.) d’une
valeur de 2e, portant la base de rembousement à 28e.

– Le secteur 2 : Cette catégorie de médecins adhère à la convention mais a pos-


sibilité de fixer ses honoraires "avec tact et mesure". Comme pour le secteur 1, le
remboursement se fait sur la base du tarif conventionnel. Les praticiens spécialistes
du secteur 2 avec option de coordination sont autorisés à pratiquer les majorations
transitoires et de coordination au même titre que les praticiens du secteur 1. Ils sont
très peu nombreux à disposer de cette option de coordination.

– Le secteur non conventionné : cette catégorie de praticiens n’adhère pas à la


convention médicale. Les honoraires sont fixés librement. Dans ce cas, le rembour-
sement s’effectue sur la base d’un tarif d’autorité de très faible montant. Il s’élève
par exemple à 0,61e pour un généraliste et à 1,22e pour un spécialiste.

Le ticket modérateur des honoraires de consultations est toujours remboursé en cas


de respect du parcours de soins. Certains assurés bénéficient d’une prise en charge d’une
partie des dépassements d’honoraires : 74% dans le cadre d’un contrat collectif contre 29%
des bénéficiaires de contrats individuels.

Dentaire

La majeure partie des dépenses effectuées pour ce poste concernent les prothèses den-
taires. Celles-ci sont onéreuses et relativement mal remboursées par la Sécurité sociale :
la base de remboursement est de 107,5e pour les plus courantes.

L’optique

Ce poste est pratiquement entièrement à la charge des ménages. La quasi-totalité,


soit environ 98% des bénéficiaires d’un contrat modulaire sont couverts au-delà du ticket
modérateur [12]. A titre indicatif, pour une paire de lunettes à forte correction facturée
500e, le remboursement moyen varie de 220e pour les contrats individuels à 345e pour les
contrats collectifs. Par ailleurs, de plus en plus de contrats proposent un remboursement
de la chirurgie réfractive pour corriger la myopie (6 bénéficiaires sur 10).
1.2 La protection sociale complémentaire 17

L’hospitalisation

Le régime obligatoire laisse à la charge de l’assuré un forfait journalier, le ticket mo-


dérateur, les dépassements d’honoraires et les éventuelles dépenses supplémentaires pour
une chambre particulière. Le forfait journalier est une participation aux frais de l’hôpital
pour son hébergement et s’élève à 18e par jour en hôpital ou en clinique et à 13,5e en
service psychiatrique. Il est en général pris en charge par les organismes complémentaires
de manière illimitée lors d’un séjour en médecine (92% des cas en 2009) ou dans un séjour
en soins de suite (83% des cas). Ceci est cependant moins fréquent pour les séjours en
psychiatrie (67%). Les honoraires sont, au moins en partie, pris en charge pour tous les
bénéficiaires de contrats modaux. Enfin, 92% des bénéficiaires en 2009 sont couverts pour
une partie du supplément de dépense pour chambre particulière.

Les actes non remboursés par la Sécurité sociale

Le remboursement d’actes n’appartenant pas au panier de soins 6 remboursables par


l’assurance maladie obligatoire comme les consultations en médecine douce 7 , chez un
nutritionniste, le sevrage tabagique et la pilule contraceptive s’est sensiblement répandu
dans les contrats complémentaires depuis 2007. En 2009, 40% des bénéficiaires étaient
couverts pour une consultation en médecine douce contre 27% en 2007.

1.2.2 Les financements publics

La Couverture Maladie Universelle (CMU-C)

La Couverture Maladie Universelle Complémentaire (CMU-C) a été créée par la loi


du 27 juillet 1999, avec entrée en vigueur au 1er janvier 2000. Elle permet l’accès à
une protection complémentaire santé gratuite à toute personne résidant en France de
manière stable et régulière, sous condition de ressources. Le gouvernement reconnaît ainsi
la nécessité d’une couverture complémentaire. En 2010, le nombre de bénéficiaires de la
CMU-C s’élevait à 3,6 millions.

La CMU-C prend en charge le ticket modérateur en soins de ville (consultation et


prescription) ou à l’hôpital, le forfait hospitalier et, dans certaines limites fixées par la
réglementation, les dépassements d’honoraires pour l’optique et le dentaire. De plus, les
soins sont pris en charge à 100% en tiers payant. La loi instituant le dispositif de la CMU-
C impose à tous les praticiens, quel que soit leur secteur conventionnel, à pratiquer un
tarif opposable pour les soins qu’ils dispensent aux bénéficiaires de la CMU-C.

Les prestations complémentaires peuvent être versées au bénéficiaire par la Caisse


Primaire d’Assurance Maladie ou par un organisme complémentaire : une mutuelle, une
6. Détartrage annuel, scellement des sillons avant 14 ans, bilan du langage avant 14 ans, dépistage de
l’hépatite B, ostéodensitométrie tous les six ans pour les femmes de plus de 50 ans, dépistage des troubles
de l’audition chez les personnes de plus de 50 ans et une liste de 7 vaccins avec ou sans condition d’âge.
7. Acupuncture, osthéopathie, homéopathie. . .
1.2 La protection sociale complémentaire 18

institution de prévoyance ou une société d’assurance. Une liste agréée des organismes est
établie par le préfet de chaque département. Les dépenses engagées par ces organismes
sont remboursées par un fonds de financement de la protection complémentaire de la
couverture universelle du risque maladie. Celui-ci est financé par une contribution des
organismes assureurs qui est fonction de leur chiffre d’affaire : la T.S.A. (Taxe de solida-
rité Additionnelle)(qui s’élève à 6,27% en 2012), par une dotation de la Cnamts (Caisse
nationale de l’assurance maladie des travailleurs salariés), des subventions budgétaires de
l’Etat et des cotisations sur la consommation d’alcool ou de tabac.

L’Aide à la Complémentaire Santé (A.C.S.)

Le dispositif de l’Aide à la Complémentaire Santé (A.C.S.) a été mis en place au 1er


janvier 2005 (loi du 13 août 2004), afin d’inciter les ménages dont le niveau de vie se situe
juste au-dessus (35% au plus depuis le 1er janvier 2012) du plafond CMU-C à acquérir une
couverture complémentaire santé. En pratique, les ménages éligibles peuvent bénéficier de
chèques santé auprès de leur Caisse Primaire d’Assurance Maladie (C.P.A.M.). Ceux-ci
peuvent se faire valoir auprès d’un organisme complémentaire santé pour l’acquisition
d’une complémentaire individuelle (les personnes bénéficiant d’un contrat collectif dans
le cadre de leur entreprise ne sont pas éligibles à l’A.C.S.). Les soins de maladie et de
maternité sont pris en charge à 100% pour les bénéficiaires de l’A.C.S., de même que le
forfait hospitalier.

Selon une étude de l’I.R.D.E.S. [13], la population concernée par ce dispositif s’élevait
à 2,2 millions de personnes en 2007. Cependant, malgré une progression du nombre de
demandes, elle ne dépasse pas un quart de la population ciblée. Ceci est notamment lié
au reste à charge important laissé aux bénéficiaires, mais surtout au manque d’accès à
l’information dans les populations concernées et à la complexité des démarches nécessaires
pour en bénéficier.

1.2.3 Les organismes complémentaires privés

A ucomplémentaire
regard de l’augmentation constante du reste à charge des ménages, bénéficier d’une
santé est devenu déterminant pour continuer d’accéder aux soins. Se-
lon les dossiers des comptes nationaux de la santé de la D.R.E.E.S. [4], le renoncement
aux soins affectait en 2008 15,4% de la population adulte en ménage ordinaire. Ces bar-
rières financières concernent particulièrement les soins dentaires, et dans une moindre
mesure l’optique et les consultations de médecins. Les organismes complémentaires cou-
vraient 13,5% de l’ensemble des dépenses de soins et de biens médicaux en 2010. Selon
une enquête sur la protection sociale effectuée en 2010 par l’I.R.D.E.S., 89,5% des per-
sonnes interrogées dans le cadre de l’étude ont déclaré être assurées par une couverture
complémentaire hors CMU-C [18].

Le marché de la complémentaire santé est partagé entre trois types d’opérateurs : les
mutuelles, les sociétés d’assurance et les institutions de prévoyance. Selon les comptes de
1.3 Présentation des différents types de couvertures 19

la santé 2010 [4], elles financent respectivement 7,5%, 3,6% et 2,5% de la C.S.B.M.

– Les mutuelles
Elles sont prédominantes sur le marché de la complémentaire santé. Ce sont des
organismes à but non lucratif, contrôlés par les adhérents et relevant du Code de la
Mutualité. Le secteur mutualiste est très morcelé : les mutuelles représentent 86%
des organismes complémentaires santé. Selon un rapport 2011 de la D.R.E.E.S. sur
la situation financière des organismes complémentaires en santé [2], les mutuelles qui
assurent la couverture santé le font presque exclusivement de toute autre activité,
avec plus de 90% de leur chiffre d’affaires global qui concerne leur activité santé. Par
ailleurs, elles proposent surtout des contrats individuels : plus de 75% des contrats
de couverture santé des mutuelles contre 25% pour les sociétés d’assurance et 17%
pour les institutions de prévoyance. La population assurée par ce type d’organisme
est relativement âgée.

– Les Institutions de Prévoyance


Ces organismes relèvent du Code de la Sécurité sociale. Ce sont des organismes de
droit privé à but non lucratif, qui sont gérés de manière paritaire par les représen-
tants des salariés adhérents et des entreprises employeurs. Ainsi, leur activité repose
presque exclusivement sur des contrats collectifs dans le cadre des entreprises et des
branches professionnelles (suite à la conclusion d’une convention ou d’un accord de
branche), d’un régime professionnel ou interprofessionnel, ou suite à la ratification
d’un projet de l’employeur par les salariés. En 2011, l’activité des institutions de
prévoyance s’élève à 11,8 milliards d’euros de cotisations, dont 5,3 milliards en assu-
rance complémentaire santé 8 , selon le C.T.I.P. (Centre Technique des Institutions
de Prévoyance).

– Les Sociétés d’Assurance


Ces organismes ont un statut d’entreprises privées. Elles sont le deuxième acteur sur
le marché de l’individuel. Leurs bénéficiaires sont plus jeunes que ceux des mutuelles.
L’activité santé ne représente qu’une faible part de l’activité totale des assurances
présentes sur le marché : 14% pour les sociétés d’assurance non-vie et 6% pour les
sociétés d’assurance mixtes selon une étude de l’I.R.D.E.S. [12].

1.3 Présentation des différents types de couvertures

1.3.1 Le contrat complémentaire santé individuel


Lorsqu’un assuré souscrit à une complémentaire santé individuelle, le tarif est fixé en
fonction des garanties choisies par celui-ci. Il en paie intégralement la cotisation. Ce sont
des contrats auxquels souscrivent surtout des personnes non couvertes dans le cadre de
leur entreprise, en particulier celles de petites tailles, des fonctionnaires ou des inactifs.
8. Le reste du chiffre d’affaire concerne les garanties de prévoyance et d’épargne retraite.
1.3 Présentation des différents types de couvertures 20

En 2009, 56% des assurés couverts par une couverture complémentaire bénéficiaient d’une
garantie individuelle et 44% d’une garantie collective [12].

1.3.2 La couverture sociale complémentaire d’entreprise


La couverture sociale complémentaire collective est constituée de l’ensemble des ga-
ranties offertes par les entreprises à leurs salariés et leurs ayants droit(conjoints, enfants).
Elle peut être mise en place au niveau de l’établissement ou de l’entreprise, par référen-
dum, par décision unilatérale de l’employeur ou bien à l’issue d’une négociation et d’un
accord entre les salariés ou leurs représentants syndicaux et l’employeur. Un régime peut
également être imposé à une entreprise par l’accord de branche professionnelle duquel elle
relève.

1.3.2.1 Les dates clés de la protection sociale complémentaire


1985 Face à la baisse de participation de l’Assurance maladie aux dépenses de santé,
la couverture complémentaire a pris une place clé pour l’accès aux soins des ménages.
Les pouvoirs publics ont donc peu à peu créé des dispositifs pour faciliter l’accès aux
complémentaires santé individuelles et encourager les complémentaires santé collectives.
En particulier, les exonérations de charges sociales, d’une part, sur les participations de
l’employeur et des salariés et fiscales, d’autre part, sur la participation des salariés ont
été formalisées respectivement dans le Code de la Sécurité sociale et dans le Code général
des impôts en 1985.

1989 Le 31 décembre 1989, la loi n°89 - 1009, dite Loi Evin, s’érige en acte fondamental
de la protection sociale complémentaire en renforçant les garanties offertes aux personnes
assurées contre certains risques. Trois points clés peuvent être mis en évidence :

– Précision des relations entre l’employeur, le salarié et l’organisme assu-


reur. La loi Evin définit ainsi les devoirs réciproques de chaque partie : remise
d’un rapport annuel sur les comptes au chef d’entreprise par l’organisme assureur,
information du salarié...

– Prise en charge des états pathologiques antérieurs. L’article 2 précise que


l’assureur a l’obligation de prendre en charge toutes les conséquences d’états patho-
logiques antérieurs à la souscription d’un contrat collectif obligatoire. En revanche,
dans le cas d’une couverture facultative, la loi autorise l’organisme assureur à ne
pas prendre en charge les suites des états pathologiques antérieurs à la souscription
du contrat. De plus, l’organisme assureur peut librement résilier le contrat pendant
les deux premières années.

– Maintien des couvertures de frais de santé et de prévoyance en cas de


départ de l’entreprise. La loi Evin prévoit plusieurs modalités de maintien, à titre
1.3 Présentation des différents types de couvertures 21

individuel, d’une couverture collective obligatoire aux salariés quittant l’entreprise,


aux anciens salariés et aux ayants droit en cas de décès du chef de famille.

2003 La Loi n° 2003-774 du 21 août 2003, portant sur la réforme des retraites, dite Loi
Fillon, instaure de nouvelles conditions d’exonération des cotisations de Sécurité sociale
pour les contributions de l’employeur et du comité d’entreprise aux régimes de complé-
mentaire santé. La notion de contrat responsable est alors introduite. Le contrat est dit
"responsable" au sens de l’article L.871-1 du code de la Sécurité sociale s’il satisfait à
certaines conditions :

– En cas de non respect du parcours de soins, la garantie ne doit prendre en charge


ni la majoration du ticket modérateur ni les dépassements d’honoraires ;

– La participation forfaitaire et les franchises médicales pour les médicaments, les actes
paramédicaux et les transports sanitaires doivent être exclues des remboursements ;

– La garantie doit prendre en charge le ticket modérateur pour les consultations du


médecin traitant ou correspondant, les frais d’analyses ou de laboratoire dans le
cadre du parcours de soins et les médicaments remboursés par la Sécurité sociale ;

– Le contrat doit prévoir la prise en charge de deux actes de prévention, conformément


à l’amendement du 8 juin 2006 concernant les contrats responsables.

Ainsi, depuis cette réforme, les principales conditions pour bénéficier de l’exonération
socio-fiscale sont les suivantes :

– Le régime doit être à caractère obligatoire ;

– Le régime doit être à caractère collectif , c’est-à-dire, qu’il doit être appliqué
à l’ensemble du personnel ou à certaines catégories objectives de salariés ;

– Le contrat doit revêtir un caractère responsable.

Ces mesure sont effectives depuis le 1er juillet 2008.

2012 Le décret n°2012-386 du 21 mars 2012 fait évoluer les conditions à respecter par
les complémentaires santé responsables :

– Il inclut une obligation de prendre en charge les dépassements d’honoraires des tarifs
des actes et consultations de médecine exerçant à titre libéral une spécialité chirur-
gicale, obstétricale ou d’anesthésie-réanimation encadrés dans les conditions prévues
à l’article 36 de la convention nationale des médecins généralistes et spécialistes du
26 juillet 2011. Le taux maximum de dépassement d’honoraires est fixé à 50% du
tarif de l’acte par un arrêté du 21 mars 2012.
1.3 Présentation des différents types de couvertures 22

– L’organisme assureur a l’obligation de communiquer clairement aux assurés les frais


(gestion, technique, acquisition. . .) des contrats complémentaires santé. L’arrêté
d’application du 17 avril 2012 précise que pour les contrats collectifs, un document
écrit doit être communiqué chaque année.

1.3.2.2 Caractéristiques des contrats


Les bénéficiaires

En général, les contrats complémentaires collectifs mis en place dans les entreprises
concernent l’ensemble des salariés. Il arrive néanmoins qu’une distinction entre cadres et
non-cadres soit réalisée du point de vue des garanties. La tendance jurisprudentielle liée
à l’égalité de traitement tend à atténuer ces distinctions.

Dans certains cas, les familles peuvent à titre obligatoire ou non, être couvertes par la
complémentaire du salarié. Les garanties font parfois une distinction entre la famille au
sens classique du terme (enfants et conjoints, parfois ascendants) et la famille à charge au
sens de la Sécurité sociale qui exclut les conjoints non à charge.

Il existe ainsi plusieurs types de cotisations proposées par les contrats complémentaires.
Les plus courants sont les suivants 9 :

– Isolé/Famille ;
– Adulte/Enfant ;
– Uniforme : ce type de cotisation met en oeuvre une solidarité des salariés isolés vers
les salariés en famille.
– Isolé/Duo/Famille.

Les niveaux de garanties

Les niveaux de garanties proposés par les complémentaires d’entreprises sont très va-
riés. D’une manière générale, les garanties des contrats collectifs sont plus élevées que
celles des contrats individuels car ils sont moins anti-sélectifs. Par exemple, le montant
moyen remboursé par les contrats modaux pour une consultation spécialiste de secteur
2 facturée 60 euros est de 24,5 euros pour un contrat collectif contre 11 euros pour un
contrat individuel selon une étude de l’I.R.D.E.S. [12].

Les avantages des contrats collectifs

Le contrat collectif d’entreprise présente des avantages pour toutes les parties. Tout
d’abord, il permet un accès plus facile du salarié à une couverture complémentaire grâce à
9. La section 4.3.2 du présent mémoire reprend ces différents types de cotisation de manière plus
détaillée.
1.3 Présentation des différents types de couvertures 23

la participation de l’employeur. La loi n’impose aucun montant minimum pour la partici-


pation patronale mais le montant doit être significatif. Ce dispositif constitue un véritable
avantage salarial puisqu’il permet à la fois d’attirer et de retenir certaines catégories
de personnel. Les négociations au sein de l’entreprise avec les représentants des salariés
permettent de mettre en place des régimes mieux adaptés aux besoins.

Par ailleurs, les incitations sociales et fiscales liées aux contrats responsables sont
intéressantes à la fois pour le salarié et pour l’employeur.

Exonération sociale

La contribution de l’employeur pour chaque salarié est exonérée de charges sociales à


hauteur de 6% du Plafond Annuel de la Sécurité sociales (P.A.S.S.), plus 1,5% de la
rémunération annuelle brute du salarié. Le total ne peut excéder 12% du P.A.S.S.

Déductibilité Sociale

La totalité de la cotisation (part salariale + part patronale) est déductible du revenu


imposable du salarié, dans la limite de 7% du P.A.S.S. plus 3% de la rémunération annuelle
brute du salarié. Le total ne peut pas dépasser 24% du P.A.S.S.

Remarque : En revanche, la contribution de l’employeur est soumise à la C.S.G./C.R.D.S. 10


et à un forfait social de 8% pour les entreprises de plus de 9 salariés.

Enfin, pour l’assureur, le caractère obligatoire permet de réduire le risque d’anti-


sélection dans le portefeuille couvert et facilite la gestion.

1.3.2.3 La complémentaire santé collective, des inégalités d’accès


Selon l’enquête de la Protection Sociale Complémentaire d’Entreprise (P.S.C.E.) de
l’I.R.D.E.S. [10], en 2009, plus de deux entreprises sur cinq proposent une complémen-
taire santé à l’ensemble ou à une partie de leurs salariés. Les situations sont cependant
très variées selon les entreprises. La taille de celle-ci est un critère influençant beaucoup
l’offre de la complémentaire santé. Ainsi, seules 32% des Très Petites Entreprises (T.P.E.
comptant moins de 10 salariés) proposent une complémentaire à leurs salariés, contre 91%
pour celles de 250 salariés et plus.

Par ailleurs, l’offre de complémentaire santé dépend du secteur d’activité de l’entreprise


et du dialogue social. Ainsi, le secteur de l’industrie est plus fréquemment couvert que
celui de la construction et des services : 55% contre respectivement 45% et 42%.

Enfin, les cadres bénéficient souvent d’une couverture complémentaire. Ainsi, dans les
entreprises de dix salariés et plus, 43% des établissements dont l’entreprise n’emploie pas
10. Respectivement Contribution Sociale Généralisée et Contribution pour le Remboursement de la
Dette Sociale
1.3 Présentation des différents types de couvertures 24

de cadres proposent une complémentaire santé, contre 85% s’il elle en emploie plus de 9%.

1.3.2.4 Un essor de la complémentaire santé par accord de branche


Présentation des spécificités de l’accord de branche

Les conventions collectives imposent parfois la mise en place de garanties santé au sein
d’une branche professionnelle. On parle de régime conventionnel. Plusieurs éléments
peuvent être précisés dans ces accords :

– Les niveaux de garanties du régime de base. Les garanties précisées dans


l’accord de branche constituent un niveau minimum de couverture que l’entreprise
doit respecter. A titre d’exemple, dans le cas de la convention collective des fleuristes,
les entreprises sont libres d’opter pour un régime santé de "base" ou un régime santé
"amélioré".

– La clause de désignation. Il s’agit d’une mention indiquant le choix d’un ou


plusieurs organismes pour assurer les garanties prévues dans l’accord. Par exemple,
CARCEPT-Prévoyance, institution membre du groupe de protection sociale KLE-
SIA, a été désignée le 8 février 2012 par les partenaires sociaux pour assurer le
régime complémentaire en frais de santé des entreprises du secteur transport routier
de marchandises.

– La clause de migration obligatoire. Cette clause concerne les entreprises dispo-


sant d’un régime de prévoyance ou de frais de santé, auprès d’un organisme différent
de ceux mentionnés à la clause de désignation, avant la négociation. Elles ont, en
effet, l’obligation de résilier ce contrat pour rejoindre l’assureur désigné.

– La prise en charge de l’employeur et le type de cotisation.

– Des régimes surcomplémentaires. Le régime complémentaire de base pour les


salariés peut être complété par un régime surcomplémentaire conventionnel de frais
de santé au profit du salarié bénéficiaire du régime obligatoire.

Etat des lieux

Selon le rapport d’activité de COMmission des Accords de REtraites et de Prévoyance


(COMAREP) 2011 [3], au 1er janvier 2012, 252 11 conventions collectives comprenaient des
garanties de prévoyance, couvrant ainsi plus de 13 millions de salariés (70% des salariés
du secteur privé). Plus précisément, 62% d’entre elles couvrent le décès (soit 84% des
salariés), 55% sont dotées d’une garantie invalidité et 53% d’une garantie incapacité (69%
des salariés). En ce qui concerne les garanties frais de santé, 60 accords sont dénombrés,
soit seulement 29% des salariés.
11. Environ 700 accords de branches sont actuellement recensés.
1.4 Le marché de la surcomplémentaire 25

La quasi-totalité des régimes complémentaires obligatoires de frais de santé instaurés


par les accords collectifs le sont pour l’ensemble du personnel sans distinction de garantie
entre cadres et non cadres (95%), contre 70% pour les régimes de prévoyance.

Les négociations collectives en termes de protection sociale sont très actives depuis
ces dernières années. Ainsi, en 2011, environ 150 accords ou avenants portant sur la
prévoyance ou la santé ont été signés par les partenaires sociaux. Plus particulièrement,
l’année 2011 a été marquée par la création de cinq régimes de frais de santé :

– Les fleuristes ;
– La vente et services des animaux familiers ;
– Les entreprises techniques au service de la création de l’évènement ;
– Les vétérinaires, praticiens salariés ;
– Les cabinets et cliniques vétérinaires ;
– Les transports routiers de marchandises, mis en place en 2012.

Trois branches ont mis en place à la fois un régime de prévoyance et de frais de santé :
– Les activités de marchés financiers,
– L’immobilier,
– L’aide, l’accompagnement, les soins et les services à domicile.

Par ailleurs, l’accord collectif de la branche des transports routiers de voyageurs a créé
une cotisation minimale destinée à mettre en place un régime de santé.

1.4 Le marché de la surcomplémentaire


1.4.1 Présentation
Un contrat surcomplémentaire vient s’ajouter à un contrat complémentaire pour pallier
les manquements de cette couverture de base : garanties trop faibles, actes médicaux non
couverts. . ., pour s’approcher des frais réels engagés. Les contrats surcomplémentaires
viennent donc en général renforcer un poste en particulier ou concernent des salariés
bénéficiant d’une couverture santé obligatoire qui ne couvre pas ou peu les dépassements
d’honoraires.

Les contrats surcomplémentaires prennent ainsi souvent la forme d’options à des


contrats collectifs.

1.4.2 La surcomplémentaire et l’anti-sélection


En général, le principe d’une surcomplémentaire est d’établir une couverture sur me-
sure, adaptée aux besoins réels de l’assuré. Ainsi, les contrats proposent des couvertures
renforcées pour le poste optique, dentaire ou encore en soins courants. Par le choix qu’il
fait d’une garantie, le bénéficiaire dévoile ses risques à l’assureur. C’est une manière pour
1.4 Le marché de la surcomplémentaire 26

lui de séparer les individus par type de risque sans forcément passer par le questionnaire
médical.

Selon une étude de l’I.R.D.E.S. [11], l’adhésion à une surcomplémentaire santé est
fortement liée à l’état de santé (évalué à partir des dépenses passées et par l’âge). Cette
étude met bien en évidence le phénomène d’anti-sélection.

1.4.3 Régime complémentaire et régime surcomplémentaire


Si l’assuré a tendance à choisir un niveau de garantie élevé s’il se sent en mauvaise
santé, le niveau de garantie tend, lui aussi, à influencer la consommation de l’assuré.
Cette observation est particulièrement vraie pour l’optique et pour le dentaire. La part
supportée par le patient tend à freiner sa consommation. Par ailleurs, si le bénéficiaire se
sent convenablement couvert, on peut penser qu’il aura tendance à être moins regardant
vis-à-vis des dépassements d’honoraires, par exemple, que si ces dépassements étaient à
sa charge. Le choix de montures onéreuses en cas d’une bonne couverture en optique en
est un autre exemple. Le niveau de garantie a donc à la fois un impact sur le coût des
actes consommés et sur la fréquence. Ce phénomène est appelé aléa moral.

Par ailleurs, il arrive que certains professionnels de santé ajustent leurs tarifs en fonc-
tion des limites de garanties contractuelles. De telles pratiques expriment une volonté
d’optimiser les garanties afin de limiter le reste à charge des patients assurés. Cependant,
ceci se fait au détriment des régimes de frais de santé.

Ainsi, la mise en place d’un contrat surcomplémentaire santé dans une entreprise peut
augmenter la consommation des assurés et déformer la courbe des dépenses des individus.
Cette déformation peut alors être à l’origine d’un surcoût pour le régime de base. Celui-ci
peut, en effet, constater une augmentation de la dépense moyenne mais également de la
fréquence de consommation. A travers la tarification d’une complémentaire en frais de
santé collective, nous tenterons de mettre en évidence ce phénomène.
Mise en place du cadre théorique
2
Ce chapitre rappelle brièvement les méthodes statistiques disponibles les plus cou-
rantes pour effectuer une tarification santé. En particulier, nous présenterons les fonde-
ments théoriques de l’une d’elles : l’approche par les Modèles Linéaires Généralisés. Nous
préciserons les lois employées pour le cas de la tarification santé et présenterons un modèle
mixte pour la modélisation des frais réels (Coe and Stern 1982).

2.1 Les méthodes de tarification


Pour tarifer un contrat d’assurance au plus juste, l’assureur doit disposer d’un certain
nombre de variables dites de tarification : l’âge, le sexe 1 , la catégorie socio-professionnelle. . ..
Ces caractéristiques des assurés sont corrélées à leur consommation. Pour un risque à court
terme, la prime pure peut être modélisée par le produit de la fréquence moyenne par le
coût moyen par acte.

En effet, en notant S la charge totale de sinistres. Celle-ci s’exprime par :

N
X
S= Ci (2.1)
i=1

où :
– Ci pour i=(1,. . .,N) est le coût du sinistre i pour l’assureur. Ces variables aléatoires
sont supposées indépendantes et identiquement distribuées ;
– N est une variable aléatoire, à valeurs dans N, qui représente le nombre de sinistres
survenus durant la période d’observation.

Dans la littérature, l’hypothèse de supposer la loi de distribution des sinistres indépen-


dante de la fréquence de survenance de ceux-ci est souvent posée afin d’effectuer la mo-
délisation des deux quantités de manière séparée. Nous ferons également cette hypothèse
même si les données disponibles ne permettent pas de la vérifier.
1. L’arrêté du 2 mars 2011 de la Cour de justice de l’Union Européenne, qui prendra effet le 21
décembre 2012, interdit toute distinction tarifaire basée sur le sexe. Il est donc interdit de faire un tarif
différent pour un homme et une femme. Cependant, il est toujours possible de prendre en compte le sexe
et notamment la répartition hommes/femmes du portefeuille pour tarifer le contrat.
2.1 Les méthodes de tarification 28

La prime pure peut donc s’écrire comme le produit de deux composantes : la fréquence
moyenne et le coût moyen par acte.

Π = E(S) = E(N ).E(C) (2.2)

Plusieurs approches peuvent être utilisées pour modéliser la fréquence et le coût


moyen :

– La méthode empirique : Cette méthode consiste à calculer le coût moyen par âge
ou classe d’âges et par sexe pour chaque groupe d’actes. Un tarif est donc isolé pour
un individu de référence dont les caractéristiques sont fixées. Une pondération de ce
tarif selon les caractéristiques de la population assurée peut ensuite être appliquée :
coefficients familial, CSP, de zone. . .

– Les Modèles Linéaires Généralisés : C’est un outil très fréquemment utilisé,


particulièrement en tarification automobile. Cependant, il est également utilisé en
tarification santé dans d’autres mémoires [15], [20]. Il permet de quantifier l’impact
de variables explicatives sur une variable d’intérêt.

– L’approche par réseaux de neurones Le mémoire de Jean-Marc AOUIZER-


TATE [6], expose cette méthode, adaptée à la tarification santé. Les réseaux de
neurones permettent de capter automatiquement des dépendances non linéaires de
haut niveau entre les variables explicatives. Le tarif ainsi obtenu est plus fin que ce-
lui déterminé au moyen d’une approche par les Modèles Linéaires Généralisés, selon
ses conclusions. Par ailleurs, ce type de modélisation se distingue des deux autres
par son approche globale et non poste par poste.

La démarche retenue dans le cadre de ce mémoire, pour évaluer les primes pures, est
celle des Modèles Linéaires Généralisés. En effet, il est intéressant d’avoir une approche
poste par poste afin d’aboutir aux objectifs fixés par ce mémoire. Cette étude a, en effet,
pour finalité la construction d’un outil de tarification. Il est également intéressant d’avoir
une vision détaillée de la prime pour répondre à des besoins d’évaluation de l’impact
d’une surcomplémentaire sur une complémentaire. Cette méthodologie permet, de plus, de
procéder à des mises à jours rapides. Ceci a donc l’avantage de résoudre la problématique
liée à l’évolution fréquente de la réglementation dans le domaine. L’approche plus globale
obtenue par réseaux de neurones ne permet pas de voir explicitement les primes pures
relatives aux différents types d’actes. Le modèle choisi permettra de disposer des courbes
de consommation pour toutes les classes d’acte et donc de calculer un tarif pour tout
niveau de garantie.

La modélisation se fera à l’aide du logiciel R, des exemples des codes utilisés pour
l’étude sont disponibles en annexe.
2.2 Principe des Modèles Linéaires Généralisés 29

2.2 Principe des Modèles Linéaires Généralisés

Les Modèles Linéaires Généralisés ou General Linear Models (GLM) ont été introduits
pour la première fois pour l’application actuarielle par des actuaires londoniens de la City
University à la fin du 20ème siècle. Ils permettent de modéliser des phénomènes beaucoup
plus complexes que les modèles linéaires classiques.

Cette partie rappelle les grands principes de ce type de modélisation. Pour plus de
détails théoriques, il est possible de se référer à l’ouvrage de P. MC CULLAGH ET J.A.
NELDER Generalized Linear Models [16]. Concernant leur utilisation en actuariat, on
pourra consulter l’ouvrage Mathématiques de l’assurance non-vie par Michel DENUIT et
Arthur CHARPENTIER [9]. Le cours de Statistique de l’Assurance II par Arthur CHAR-
PENTIER [7], propose une approche pratique de la tarification par Modèles Linéaires
Généralisés au moyen du logiciel R.

2.2.1 La famille exponentielle


Comme pour le modèle linéaire gaussien, l’idée est de modéliser une variable Y en
fonction d’un certain nombre de variables explicatives (X1 , X2 , · · · , Xn ). Cependant, les
GLM permettent de s’affranchir de l’hypothèse contraignante de normalité. Contrairement
au modèle linéaire classique, où la loi de la variable d’intérêt est supposée gaussienne, le
GLM permet d’étendre l’ensemble des lois de cette variable à la famille exponentielle. Elle
inclut, ainsi, en plus de la loi normale, les lois de Poisson, Binomiale, Gamma, Binomiale-
Négative. . .

Les lois de la famille exponentielle sont des lois de probabilité à deux paramètres, θ et
φ, dont la densité peut se mettre sous la forme :

yθ − b(θ)
f (y|θ, φ) = exp( + c(y, φ)) (2.3)
φ
où :
– y ∈ S un sous-ensemble de R ou de N ;
– θ est appelé paramètre naturel ;
– φ est le paramètre de dispersion ;
– b est une fonction définie sur R, deux fois dérivable et de dérivée première injective ;
– c est une fonction définie sur R2 ;

L’espérance et la variance des données issues d’une distribution de la famille exponen-


tielle peuvent être calculées par :

µ = E(Y) = b’(θ)

V(Y ) = b00 (θ)φ


2.2 Principe des Modèles Linéaires Généralisés 30

où 0 et 00
désignent les dérivés premières et secondes par rapport à θ.

La variance s’exprime donc comme le produit de deux fonctions : l’une, b00 (θ), qui
dépend uniquement du paramètre θ, que l’on appelle fonction de variance V(µ), l’autre
qui ne dépend que du paramètre de dispersion. Pour les lois de Poisson et Gamma, la
variance est une fonction croissante de la moyenne.

2.2.2 La fonction de lien


Dans le cadre des modèles linéaires, la variable d’intérêt Y est exprimée en fonction
d’une combinaison linéaire des variables explicatives (X1 , . . . , Xn ). Les modèles linéaires
généralisés conservent ce principe. On considère simplement que l’espérance de Y est une
transformation de cette combinaison linéaire.

n
E(Y ) = g −1 ( βi Xi ) = g −1 (η)
X
(2.4)
i=1

où :
– g est une fonction bijective et deux fois continument différentiable, appelée fonction
de lien ;
– βi pour i=(1,. . .,n) sont des réels ;
– η est appelé prédicteur linéaire.

Quelques fonctions de lien canoniques :

Chacune des lois de probabilité de la famille exponentielle possède une fonction de lien
spécifique, qui permet de relier l’espérance µ au paramètre naturel θ. Ces fonctions sont
dites de lien canonique. Quelques fonctions de lien canoniques usuelles sont présentées à
la figure 2.1

Loi de probabilité Densité Fonction de lien canonique Dispersion


(y−µ)2
1
Normale fµ,σ (y) = σ√2Π exp(− 2σ2 ) η=µ σ2
y
Poisson P (Y = y) = exp(−λ) λy! η = ln(µ) 1
µ
Binomiale η=µ η = ln( 1−µ ) 1
1 ν−1 ν −µy 1
Gamma fµ,ν (y) = Γ(ν) y µ e η = 1/µ ν

Table 2.1 – Fonction de lien canonique et paramètres pour les lois usuelles

2.2.3 Modèle de régression


Considérons une suite de variables aléatoires Y1 , Y2 , . . . , Yn indépendantes mais non
identiquement distribuées et dont la densité peut s’écrire sous la forme exponentielle :
2.3 Estimation des paramètres 31

yi θi − b(θi )
f (yi |θi , φ) = exp( + c(yi , φ)), yi0 y ∈ S (2.5)
φ
La densité jointe de Y1 , Y2 , . . . , Yn peut donc s’écrire :

n Pn Pn n
Y i=1 yi θi − i=1 b(θi ) X
f (y|θ, φ) = f (yi |θi , φ) = exp( + c(yi , φ)) (2.6)
i=1 φ i=1
On suppose que les θi sont fonctions d’un certain nombre de paramètres : β0 , β1 , . . . , βn
tels que, en notant µi la moyenne de Yi :

n
X
g(µi ) = β0 + β i xi (2.7)
i=1
Dans la pratique, un individu est caractérisé par une série de variables explicatives :
tranche d’âge, sexe, catégorie socio-professionnelle . . .Les variables continues peuvent être
segmentées en classes de manière à ne disposer que de variables qualitatives. Dans ce cas,
un individu peut être représenté par un vecteur binaire donnant les valeurs des variables
ayant servi à le caractériser. Ce genre de modélisation demande une étude préalable des
données, afin de déterminer les variables qui ont une influence sur le tarif.

L’individu pour lequel toutes les variables explicatives valent 0 est appelé individu de
référence ou intercept. Les caractéristiques de l’individu de référence sont souvent choisies
de manière à ce qu’il soit le plus représenté dans le portefeuille. La prédiction pour un
individu de référence est donc : µi = g −1 (β0 ).

Dans le cas d’un modèle multiplicatif (lien logarithmique), la valeur prédite pour un
individu s’écrit comme le produit du coefficient de la classe de référence par une série
de coefficients correcteurs, liés aux modalités des paramètres caractérisant cet individu.
Ainsi, un coefficient peut être interprété comme une sur-sinistralité (β > 0) ou une sous-
sinistralité (β < 0) liée à une caractéristique par rapport à l’individu de référence.

2.3 Estimation des paramètres


2.3.1 Estimation des paramètres β0 , β1 , . . . , βn
Les paramètres de régression sont estimés par la méthode du maximum de vraisem-
blance. L’objectif est de maximiser la log-vraisemblance :

n n n
X X yi θi − b(θi ) X
L(θ(β)|y, φ) = ln(f (yi |θi , φ)) = + c(yi , φ)) (2.8)
i=1 i=1 φ i=1
Pour cela, il faut résoudre le système des équations dites de vraisemblance, qui an-
nulent les dérivées partielles par rapport aux βi . Cependant, les équations composant
ce système ne possèdent, en général, pas de solution explicite. Il faut donc les résoudre
numériquement. Le logiciel R utilise pour cela la méthode de Newton-Raphson.
2.4 Méthodes de sélection des paramètres 32

2.3.2 Estimation du paramètre de dispersion


Il est possible d’estimer le paramètre de dispersion par maximum de vraisemblance. Il
est alors basé sur la déviance. Cette méthode est peu utilisée en pratique car l’estimateur
obtenu est très instable. La procédure GLM du logiciel R utilise la méthode des moments.

Remarque : Dans le cas d’une loi de Poisson, le paramètre de dispersion est égal à 1.

2.4 Méthodes de sélection des paramètres


La sélection des variables explicatives est une étape importante lors de l’établissement
du modèle. Il s’agit d’éliminer les variables colinéaires. La surparamétrisation d’un modèle
rend les valeurs des paramètres et des prédictions du modèle très sensibles à l’échantillon
ayant servi à constituer le modèle. L’ajustement peut-être très bon sur ce jeu de données,
dit d’apprentissage, mais cette performance n’est pas significative. Ainsi, si la complexité
est trop faible les performances effectuées sur la base d’apprentissage et la base test seront
très proches et mauvaises toutes les deux. En revanche, si un modèle a une forte variance
liée à sa trop grande complexité, les performances sur l’ensemble d’apprentissage seront
excellentes, mais sans valeur, et très mauvaises sur un échantillon test en raison de la
variance trop importante des estimateurs.

Il s’agit donc de trouver un compromis entre :

– L’ajustement maximum des données, ce qui revient à avoir une vraisemblance maxi-
male ;

– La simplicité du modèle qui peut être mesurée par le nombre de paramètres.

Le critère d’Akaike se base sur ces deux aspects antagonistes. Il pénalise la log-vraisemblance
afin de tenir compte du nombre de paramètres. Il est défini de la façon suivante :

AIC = −ln(L(β̂)) + 2p; (2.9)

où : p désigne le nombre de paramètres du modèle.

Le modèle ayant un critère AIC minimal permet un compromis entre ajustement et


complexité.

Afin de choisir le meilleur modèle, l’idéal serait de tester toutes les combinaisons
possibles, ce qui peut demander des temps de calculs très importants dans le cas d’un
grand nombre de paramètres. Une stratégie possible est alors d’utiliser une procédure de
type pas-à-pas, disponible sous R grâce à la commande stepAIC. Il en existe plusieurs
méthodes :
2.5 Les intervalles de confiance 33

– La méthode forward : Une première variable est incluse dans le modèle. La se-
conde est choisie de manière à minimiser le critère AIC. Les autres variables sont
ajoutées selon le même principe jusqu’à ce que l’amélioration apportée ne soit plus
significative.

– La méthode backward : Le principe est le même que pour la méthode forward


mais cette fois la procédure démarre avec le modèle contentant tous les paramètres
et fait diminuer leur nombre au fur et à mesure.

2.5 Les intervalles de confiance


En général, en plus de la prévision, il est intéressant d’avoir également un intervalle
de confiance pour cette prévision, afin de connaître sa fiabilité .

Les estimateurs des coefficients sont obtenus par maximum de vraisemblance. Ils ont
donc les propriétés suivantes :
– Ils sont asymptotiquement sans biais ;
q L
– Ils sont asymptotiquement normaux : (N )(α̂ − α) N (0, Σ).
−→
où :
– Σ = I(α)−1 avec I(α) est la matrice d’information de Fisher au point α ;
– N est le nombre d’observations.

Dans le cas où φ est connu et fixé, alors I(α) = φ(X 0 X)−1 . Il est alors possible de
construire des régions de confiance pour le paramètre β et des intervalles de confiance
pour les paramètres. Dans les logiciels de statistiques comme R, l’estimation de φ est
très souvent conduite de manière séparée et l’intervalle de confiance est construit en
considérant que φ est fixé.

Région de confiance pour le paramètre β : Pour un niveau 1-α, il s’agit de l’en-


semble des valeurs β telles que :

(β − β̂)0 X 0 X(β − β̂) ≤ σ̂ 2 Fp+1,n−p−1;1−α (2.10)

Intervalles de confiance Les intervalles de confiance fournis dans les logiciels de statis-
tiques sont plutôt les intervalles de confiance pour les paramètres pris séparément. D’après
la propriété de normalité asymptotique de l’estimateur du maximum de vraisemblance, la
jème composante de β̂, βˆj suit une loi normale de moyenne βj et de variance σ 2 (X 0 X)−1jj
(jème élément diagonal de l’inverse de la matrice d’information de Fisher).

On obtient donc l’intervalle de confiance suivant, de niveau de confiance 1-α :


q q
ICα (βj ) = [βˆj − u1−α/2 .σ ((X 0 X)−1 ˆ 0 −1
jj ); βj + u1−α/2 σ. ((X X)jj )] (2.11)
2.6 Validation du modèle 34

où, u1−α/2 est le quantile d’ordre 1 - α/2 d’une loi normale centrée réduite.

Les éléments de la diagonale de I −1 traduisent la précision des estimateurs β̂j , les


éléments hors diagonale estiment les covariances existantes entre les estimateurs β̂j .

2.6 Validation du modèle


2.6.1 La déviance
La qualité du modèle est définie à partir du modèle saturé ou modèle parfait, c’est-à-
dire le modèle contenant autant de paramètres que d’observations. Dans la pratique, ce
modèle n’est pas intéressant étant donné qu’il ne résume pas du tout l’information. Soit
L(y|y), la vraisemblance du modèle saturé. On considère maintenant un autre modèle
ayant un nombre de paramètres p inférieur à celui du modèle parfait et de vraisemblance
L(µ̂|y). Le modèle décrira bien les données si L(µ̂|y) est proche de L(y|y).

La déviance est ainsi donnée par :

D∗ = φD (2.12)

où : D = 2[L(y|y) − L(µ̂|y)] est la déviance réduite.

Si le modèle décrit bien les données observées, D suit approximativement une loi
χ2n−p−1 . Ainsi, une valeur observée trop élevée suggère une mauvaise adéquation du modèle.
En pratique, le critère suivant peut être utilisé :
Le modèle est jugé de mauvaise qualité si Dobs > χ2n−p−1;1−α .

2.6.2 Analyse des résidus


La déviance fournit des indications globales sur la qualité du modèle. L’analyse des
résidus est essentielle pour vérifier l’adéquation du modèle pour ce qui concerne le choix
de la fonction de variance, de la fonction de lien ou des termes du prédicteur linéaire. Les
résidus permettent également de détecter la présence de valeurs aberrantes, demandant
une étude plus détaillée. Les propriétés des résidus employés dans le cadre de la régression
classique (distribution gaussienne), ne sont plus vérifiées dans le cadre généralisé. Il est
alors nécessaire de définir d’autres résidus aux propriétés semblables.

Les résidus les plus connus sont présentés ci-après, ainsi que les principaux axes d’ana-
lyse de ces derniers. Pour plus de détails, il est possible de se référer à l’ouvrage Generalized
Linear Models par McCullagh et Nelder (1989)[16].
2.6 Validation du modèle 35

– Les résidus bruts : yi − ŷi . Ils n’ont pas toujours la même variance, sont difficiles à
interpréter et donc peu utilisés.

– Les résidus de Pearson : McCullagh et Nelder [16] définissent les résidus de Pearson
comme les résidus bruts normalisés par l’estimation de l’écart-type de Y. Ces résidus
ont l’inconvénient de ne pas avoir une distribution normale.

yi − µ̂i
q ,
V (µ̂i )

où :
– V(.) est la fonction de variance ;

– Les résidus de déviance : Chaque individu contribue à hauteur d’une quantité di à


la déviance D : D = ni=1 di .
P

Les résidus de déviance sont donc définis par :



signe(yi − µi) di ,

Les résidus sont dits standardisés quand ils ont été divisés par un facteur qui rend la
variance constante. Pour les résidus de Pearson, la formule est donnée par :
y − µ̂
q ,
φ̂V (µ̂(1 − h))

où :
– V(.) est la fonction de variance ;
– φ̂ est une estimation du paramètre de dispersion ;
– h est l’ensemble des éléments diagonaux de la matrice de projection.

Dans le cas des résidus de la déviance,



signe(yi − µi ) di
q ,
φ̂(1 − hi )

Ces résidus peuvent être représentés graphiquement afin de détecter les écarts par
rapport au modèle :

– L’index plot : Ce graphique ordonne les résidus en fonction de leur numéro d’ob-
servation. Il est particulièrement intéressant si la variable à expliquer est binaire. Il
permet de repérer les observations conduisant à de grands résidus.

– Résidus standardisés de déviance contre les valeurs ajustées sur une échelle d’in-
formation constante : McCullagh et Nedler précisent que l’échelle d’information
2.7 Application à la tarification santé 36

constante est 2.log(µ) dans le cas de la distribution Gamma. Ce graphique per-


met d’évaluer l’adéquation globale du modèle. Si celui-ci est bien ajusté, les résidus
doivent avoir une distribution centrée en 0 et une variabilité constante.

Remarque : Ce graphique n’est pas informatif pour les données binaires.

– Le Normal QQ-plot : Ce diagramme permet de vérifier l’hypothèse de normalité


des résidus. Il est obtenu en représentant les quantiles des résidus en fonction des
quantiles de la loi normale. Si l’hypothèse de normalité est vérifiée, le graphique
obtenu sera proche de la première bissectrice.

– Le half Normal probability plot : Ce graphique est une bonne alternative au Normal
plot. Il peut être construit en calculant la valeur absolue des résidus standardisés de
la déviance, rangés par ordre croissant. Le kième élément est représenté en fonction
de φ( k+n−1/8
2n+1/2
), où φ(α) est le quantile d’ordre α d’une loi normale centrée réduite.
Il permet de déterminer si un facteur est important ou non.

2.7 Application à la tarification santé


Dans cette partie, nous exposons la démarche suivie pour effectuer la tarification.

2.7.1 Les fréquences


Soit Ni , le nombre d’actes déclarés par l’assuré i au cours de l’année. Les fréquences
sont en général modélisées par une loi de Poisson ou une loi Binomiale-Négative. Décrivons
un peu les caractéristiques de ces deux lois.

2.7.1.1 Le modèle de Poisson


Ce modèle suppose que la loi conditionnelle de Ni sachant xi est de Poisson. Comme la
moyenne est toujours positive, c’est souvent le lien canonique exponentiel qui est retenu,
ce qui donne :

n
X
E(Ni |xi ) = di exp( βi xi ). (2.13)
i=1

Cependant, ce modèle présente une contrainte assez forte puisqu’il suppose l’égalité
entre le nombre moyen de sinistres et la variabilité de ce nombre au sein de chaque classe
de risque. Souvent, cette contrainte n’est pas satisfaite.

2.7.1.2 La loi Binomiale Négative


Afin de prendre en compte la surdispersion, il est possible de superposer un terme
d’erreur aléatoire ei au prédicteur linéaire. On reconnaît ainsi l’hétérogénéité des individus
2.7 Application à la tarification santé 37

au sein de la classe : n
X
(Ni |xi , ei ) ∼ P(exp( βi xi + ei )). (2.14)
i=1

La plupart des distributions pour cette erreur ne permettent pas d’obtenir une expres-
sion explicite, sauf la densité Gamma. La distribution mélangée obtenue est alors la loi
Binomiale Négative.

Cette loi n’appartient pas à la famille exponentielle. En effet, elle dépend d’un para-
mètre de dispersion aléatoire. Par définition, si X ∼ BN(n,p) alors :
Γ(x + n) n
P(X=x) = p (1 − p)x ,
x!Γ(n)
avec n entier et 0 ≤ p ≤ 1.

X représente le nombre d’échecs au cours d’une séquence de tirages avant d’atteindre


le nombre de succès voulus.

n
Si on pose p = n+µ
, il est alors possible de se ramener à une loi exponentielle en
supposant n fixé.
Γ(x+n) µ x
P(X=x) = ( n )n ( n+µ
x!Γ(n) n+µ
) ,
µ2
Dans ce cas, la moyenne est donnée par E(X) = µ et la variance par V(X) = µ + n
.
Dans le cadre d’une fonction de lien exponentielle, µ = exp( ni=1 βi xi ).
P

Dans notre contexte, cette probabilité peut être interprétée comme la probabilité de
sélectionner un individu ayant eu x actes au cours de la période d’exposition avant d’en
rencontrer un n’ayant pas consommé.

Afin de déterminer la loi la plus adéquate, nous estimerons les paramètres de la loi
théorique par la méthode du maximum de vraisemblance. La loi théorique sera ensuite
comparée à la loi empirique par un test du Khi-deux. Ce dernier permet, en effet, de tester
l’ajustement d’une série d’observations à une loi continue.

2.7.2 Les coûts moyens


2.7.2.1 Différents types de remboursements
En santé, il existe une grande variété d’actes et les garanties proposées par les complé-
mentaires sont tout aussi variées. La modélisation du coût moyen par acte n’est souvent
pas accessible directement par la moyenne des dépenses de l’assuré : il faut retrancher le
montant de la Sécurité sociale, appliquer les plafonds de la garantie . . .

Plusieurs types d’actes peuvent être distingués, donnant lieu à des approches de tari-
fication différentes :
2.7 Application à la tarification santé 38

– Les actes pris en charge sur les frais réels avec plafond éventuel. C’est
le cas des remboursements pour les équipements d’optique : verres, montures. . .Ils
sont exprimés en forfaits en euros.

Dans ce cas, la charge de sinistres pour l’assureur est donnée par la formule suivante :
N
X
C= min(Ci − SSi , P ); (2.15)
i=1

où :
– P est le plafond fixé par la garantie ;
– Ci est la dépense engagée pour l’acte i et SSi le remboursement de la Sécurité
sociale pour l’acte i ;
– N est le nombre d’actes observés.

Le calcul de la prime pure pour ce type d’acte demande donc une modélisation de
la courbe de répartition des frais réels.

– Les actes sans dépassement dont les remboursements sont exprimés en


pourcentage de la base de remboursement. Les produits pharmaceutiques ne
donnent pas lieu à dépassement, le remboursement des complémentaires santé est
donc très souvent le ticket modérateur.

Pour ce type d’acte, la charge de sinistre pour l’assureur est donnée par la formule
suivante :
N
X
C= Ci .x; (2.16)
i=1

où :
– Ci est la dépense engagée pour l’acte i exprimée en euros ;
– x est le taux de remboursement prévu par la garantie (en fonction du tarif conven-
tionnel).

Pour ce cas de figure, le calcul de la prime pure est également possible grâce à une
modélisation de la courbe de répartition des frais réels. Cette dernière coïncide avec
la courbe de répartition des bases de remboursement.

– Les actes avec dépassement dont les remboursements sont exprimés en


pourcentage du tarif conventionnel. Contrairement au cas précédent, la courbe
de répartition des frais réels ne coïncide plus avec celle des tarifs conventionnels.
Les couvertures remboursent souvent une partie de ces dépassements d’honoraires
jusqu’à un certain plafond. En général, les plafonds sont exprimés en pourcentage
de la base de remboursement. C’est notamment le cas pour les consultations chez
le spécialiste, le généraliste, les prothèses dentaires, les auxiliaires médicaux. . .. La
figure 2.1 illustre cette décomposition des dépenses réelles.
2.7 Application à la tarification santé 39

Figure 2.1 – Répartition de la dépense réelle entre les différents acteurs

La formule suivante permet de calculer la charge de sinistres :


N
X
C= min(F R_BRi ; P ).T Ci ; (2.17)
i=1

où :
– F R_BRi est la dépense engagée pour l’acte i exprimée en pourcentage de la base
de remboursement ;
– T Ci est le tarif conventionnel appliqué à l’acte i en euros ;
– P est le plafond de la garantie, exprimé en pourcentage de la base de rembourse-
ment.

Dans ce cas, une modélisation de la courbe des frais réels ne suffit pas pour effectuer
les calculs de la prime pure. Par exemple, dans le cas d’une consultation généraliste,
il faut pouvoir distinguer un acte avec dépassement facturé 26e (TC = 23e)d’un
acte sans dépassement avec une majoration de coordination spécialiste par exemple
(MCS), également facturé 26e (TC = 26e). En effet, ces deux actes n’engendrent
pas la même structure de remboursement. Dans le premier cas, les trois euros de
dépassement sont entièrement à la charge de l’assuré ou éventuellement de sa com-
plémentaire. Dans l’autre cas, la Sécurité sociale prend en charge une partie de la
majoration (70%).

Pour la tarification de ce type d’acte, nous modéliserons la répartition de la courbe


des dépassements par rapport au tarif conventionnel. Les tarifs seront donc exprimés
en pourcentage de la base de remboursement.

Remarque : Le passage d’un tarif en pourcentage de la base de remboursement en


euro n’est possible qu’en appliquant un tarif conventionnel moyen.
2.7 Application à la tarification santé 40

2.7.2.2 Modélisation classique des frais réels


Les courbes de répartition des coûts des actes ou biens médicaux sont classiquement
modélisées par des lois Gamma. C’est notamment le cas dans plusieurs mémoires d’actua-
riat : VAUTRIN [20], LAGADEC [15]. Certains actes se prêtent bien à ce modèle comme
les montures de lunettes, d’autres moins comme nous le verrons par la suite. Nous utili-
serons donc, dans certains cas, un modèle plus complexe afin d’obtenir une modélisation
plus fidèle aux données observées. Cette approche est décrite dans la section suivante.

2.7.2.3 Modélisation avec discontinuité


Comme en témoigne le graphique de la figure 2.2, la courbe des frais réels en pourcen-
tage de la base de remboursement pour les consultations chez le spécialiste présente une
discontinuité.

Figure 2.2 – Courbe des frais réels en pourcentage de la base de remboursement pour les
consultations chez le spécialiste obtenue par les données brutes du portefeuille.

Afin de prendre en compte cette discontinuité, nous tenterons de complexifier le Mo-


dèle Linéaire Généralisé classique. Nous retiendrons pour cela un modèle mixte à deux
composantes. Cette approche a notamment été utilisée pour modéliser des précipitations
journalières, Stern and Coe (1982).

Ce modèle a été construit afin de prendre en compte la survenance de pluie dans la


journée (première composante discrète) et l’intensité des précipitations dans le cas de jours
pluvieux (seconde composante continue). Dans notre cas, les composantes modéliseront
respectivement la survenance de dépassement et leur sévérité.
2.7 Application à la tarification santé 41

La densité obtenue est donc de la forme suivante, dont les composantes seront définies
par la suite :

Sévérité des dépassements


z }| {
f (y) = πW (x).δ0 (y) + (1 − πW (x)).fW =1 (y|X = x) (2.18)
| {z }
Actes sans dépassement

Première composante : actes sans dépassement

La survenance des dépassements est modélisée par une variable aléatoire binaire W,
qui prend la valeur 1 si l’acte est facturé avec dépassement et 0 sinon. Il est possible
d’utiliser une distribution de Bernouilli pour ce modèle : Wη ∼ Be(π).

P (W = w) = π w .(1 − π)1−w , w = 0 ou 1.

où π est la probabilité d’avoir un dépassement pour un acte donné.

Il existe plusieurs liens pour modéliser des variables binaires. Le lien logit est le plus
connu, la régression prend alors le nom de Régression logistique. Deux autres liens sont
possibles : le lien probit et le lien log-log. Le lien logit est souvent préféré puisque son
interprétation est simple : c’est le logarithme du ratio de la probabilité de succès sur la
probabilité d’échec.

Le modèle linéaire généralisé pour une variable binaire avec lien logit est défini par les
caractéristiques suivantes :

W|η ∼ Be(π)

π
log( 1−π ) = η = β0 + β1 x1 + . . . + βp xp

Seconde composante : Sévérité des dépassements

La modélisation de la distribution des actes avec dépassement peut se faire grâce à une
loi Gamma, qui permet de modéliser l’asymétrie de la distribution. Avec les paramètres
usuels de forme α et d’échelle β, la fonction de densité est de la forme :

1 α α−1 −βy
f (y; α, β) = β y e α, β > 0, y ≤ 0; (2.19)
Γ(α)
Z ∞
avec Γ(α) = tα−1 e−1 dt α > 0. (2.20)
0

Il est possible de reparamétrer cette densité avec la moyenne µ = αβ .


2.7 Application à la tarification santé 42


1 νy νy
f (y; µ, ν) = exp(− ) ν > 0; µ ≤ 0. (2.21)
yΓ(ν) µ µ
1
ν est égal à ς2
, où ς est le coefficient de variation.

Comme pour la survenance, l’intensité sera modélisée par un GLM Gamma :

Yw|η ∼ G(µ, ν )

log(µ) = η = β0 + β1 x1 + . . . + βp xp

Comme nous l’avons précisé précédemment, le lien canonique de la distribution Gamma


est l’inverse de µ. Cependant, le lien logarithmique est plus souvent utilisé car il présente
l’avantage de donner un modèle multiplicatif, les coefficients βj ont alors une interpréta-
tion simple en terme de multiplicateurs.

2.7.2.4 Les sinistres graves


En assurance responsabilité civile, les sinistres graves constituent une part très impor-
tante de la charge de sinistres de l’assureur. Retirés de l’étude pour ne pas perturber la
modélisation des autres sinistres, ils nécessitent une évaluation séparée.

En tarification santé, ce genre de sinistre est beaucoup plus rare. De plus, les assureurs
instaurent en général des plafonds sur les garanties, aussi ils ne sont pas impactés par un
sinistre exceptionnellement élevé. Les pathologies lourdes et onéreuses concernent surtout
l’hospitalisation. Les dépenses sont alors très souvent prises en charge à 100% par la
Sécurité sociale. Ce genre d’acte ne concerne donc pas l’assureur qui n’en a même pas
connaissance.

Il est donc possible de retirer d’éventuelles valeurs importantes de l’étude


pour qu’elles ne viennent pas perturber la modélisation. Par ailleurs, il n’est
pas rare qu’il s’agisse de valeurs aberrantes liées à des saisies erronées.
Description et analyse du portefeuille
3
Une tarification demande une bonne connaissance du portefeuille. Aussi, cette partie
analytique et de constitution de la base de données est fondamentale pour concevoir
le tarif. Analyse démographique, traitement des données manquantes, erronées sont des
étapes clés du travail de tarification auxquelles il faut réserver beaucoup de temps et de
soins.

Les données qui composent notre portefeuille proviennent de 8 couvertures collec-


tives d’entreprises couvertes par un même organisme assureur, composées de contrats
complémentaires et supplémentaires très variés. Le tableau 3.1 est un bref descriptif des
portefeuilles étudiés.

Portefeuille Nombre de Montant des Régime Secteur


salariés prestations conven- d’activité
tionnel
A 174 631 67 642 820e NON Service
B 6 568 2 335 511e OUI Industrie
C 6 944 2 246 342e NON Service
D 95 657 39 252 440e OUI Industrie
E 34 009 12 775 349e NON Service
F 6 178 1 612 417e NON Service
G 28 367 9 004 319e OUI Service
H 25 853 8 165 134e OUI Industrie

Table 3.1 – Descriptif des portefeuilles

Certains contrats relèvent d’une convention collective imposant un régime convention-


nel, c’est le cas pour les entreprises B,D,G et H. Certaines de ces entreprises possèdent
également un régime surcomplémentaire. Au total, les effectifs s’élèvent à 378 206 per-
sonnes pour un montant de prestations d’environ 143 millions d’euros.

Les données ont été extraites au 09/05/2012, pour la période de couverture 2011. Elles
3.1 Présentation des données utilisées 44

comprennent donc la quasi-totalité des prestations se rapportant à l’année de couverture.


Pour chaque portefeuille, nous disposons d’un fichier des effectifs, répertoriant tous les
individus couverts au cours de la période étudiée et d’un fichier des prestations versées
lignes à lignes.

Les données sont traitées à l’aide du logiciel Access.

3.1 Présentation des données utilisées


3.1.1 Le fichier des effectifs
Ce fichier contient les informations relatives aux assurés et bénéficiaires des contrats
proposés par l’assureur. Les assurés sont caractérisés par un numéro d’adhérent qui est
commun à l’ouvrant droit et à tous ses ayants droit et par un numéro de bénéficiaire
unique pour chaque assuré.

Outre ces informations, nous disposons des variables présentées dans le tableau 3.2.

Variable Description
CONTRAT Numéro du contrat couvrant l’assuré. Si l’assuré
est couvert par plusieurs contrats, le fichier des ef-
fectifs contient autant de lignes relatives à l’assuré
que de contrats.
N INSEE Il s’agit dans la plupart des cas du numéro Insee
de l’ouvrant droit, parfois de celui du conjoint non
à charge.
DEPARTEMENT Département de résidence de l’assuré.
NAISSANCE Date de naissance de l’assuré.
SEXE Sexe de l’assuré.
AFFILIATION Date d’affiliation de l’assuré au régime.
SORTIE Date de sortie de l’assuré du régime.
LIEN BENEF Lien du bénéficiaire avec l’ouvrant droit.
CATEGORIE Catégorie Socio-Professionnelle de l’ouvrant droit.
OBL/FAC Mode d’adhésion obligatoire ou facultatif de l’as-
suré au contrat.

Table 3.2 – Variables du fichier des effectifs


3.2 Traitement des données 45

3.1.2 Le fichier des prestations


Il s’agit d’un récapitulatif ligne à ligne des actes remboursés aux assurés. Il est possible
de faire le lien entre ce fichier et celui des effectifs par l’intermédiaire du numéro d’adhé-
rent et du numéro de bénéficiaire. Lorsque l’assuré est couvert par différents contrats,
plusieurs lignes caractérisent le même remboursement. Elles représentent les versements
liées aux différents contrats. Les variables disponibles dans cette base sont présentées dans
le tableau 3.3.

3.2 Traitement des données


Plusieurs étapes ont été nécessaires pour constituer un jeu de données le plus fiable
possible.

3.2.1 Fusion des portefeuilles


La fusion des portefeuilles requiert une certaine homogénéité des contrats qui s’y
trouvent. Dans le cas de l’étude, la population des conjoints pose problème. En effet, dans
certains régimes disponibles ici, la base conventionnelle ne concerne pas les conjoints non
à charge au sens de la Sécurité sociale. Un contrat complémentaire pour les bénéficiaires
est cependant mis en place à titre facultatif pour les ayants droit. Par conséquent, les
conjoints disposent de leur propre numéro d’adhérent, ce qui rend impossible toute liaison
avec l’ouvrant droit.

Ce genre de contrat majore considérablement la consommation des conjoints par rap-


port à un régime dans lequel l’ayant droit est couvert à titre obligatoire. En effet, les
conjoints couverts ne sont probablement que des conjoints à charge ou qui ne bénéficient
pas de couverture complémentaire par ailleurs. Les taux de conjoint adhérant par ouvrant
droit sont notamment beaucoup plus faibles dans ce type de régime.

La population de conjoints est donc très hétérogène. De plus, nous ne disposons pas
d’information concernant la structure de cotisation des différents contrats.

Ce genre de problème risque de biaiser notre étude. Par mesure de précau-


tion, nous la limiterons aux actifs et aux enfants.

3.2.2 Doublons
Les fichiers des effectifs et ceux des prestations présentent de nombreux doublons qu’il
convient de localiser et de supprimer. Dans le fichier des effectifs, une personne peut
apparaître plusieurs fois pour différentes raisons :

– si elle a été affiliée pendant plusieurs périodes distinctes au cours de l’exercice,

– si elle dispose de plusieurs contrats


3.2 Traitement des données 46

Variable Description
CONTRAT Numéro du contrat couvrant l’assuré. Il permet de
déterminer la couverture qui donne lieu à la pres-
tation.
N DE PIECE Un soin ou un groupe de soins à un assuré est re-
péré par un numéro de pièce. Il permet notamment
de relier les remboursements successifs de plusieurs
couvertures relatifs à un même soin.
CODE ACTE Ce code permet de connaître la nature du soin.
Nous disposons d’un fichier qui récapitule ces codes
ainsi que leur signification.
FRAIS REELS C’est la dépense totale engagée par l’assuré pour
le soin.
RBT SECU Le remboursement effectué par la Sécurité sociale.
TC Le tarif conventionnel. Il nous permet d’apprécier
les éventuels dépassements d’honoraires pratiqués
lors du soin.
TAUX SECU C’est le taux auquel le soin a été remboursé par
l’assuré.
AUTRE MUT Il s’agit du remboursement perçu par l’assuré par
l’intermédiaire d’une autre complémentaire que
celle de l’entreprise, comme celle de son conjoint
par exemple.
QUANTITE C’est la quantité d’actes représentée par la ligne.
COEFFICIENT Les tarifs de certains soins sont exprimés à l’aide
d’une lettre clé et d’un coefficient, comme les auxi-
liaires médicaux par exemple.
DATE DE SURVENANCE La date de survenance est la date à laquelle le soin
a été prodigué. Dans notre étude, ces dates de sur-
venance sont limitées à l’année 2011.
DATE DE REGLEMENT La date de règlement est la date de remboursement
du soin. Elle diffère de la date de survenance et
peut survenir pendant l’année comptable 2012.

Table 3.3 – Variables du fichier des prestations

Un fichier récapitulatif des adhérents est donc établi dans lequel chacun ne figure qu’une
seule fois. Un taux de présence annuel (au prorata du temps couvert par la complémen-
3.2 Traitement des données 47

taire) est affecté à chaque individu grâce aux dates d’entrée et de sortie du régime. Les
différents contrats qui couvrent les adhérents constituent une information intéressante que
nous synthétiserons grâce à deux variables présentées plus loin dans l’étude.

Le nombre de personnes comptabilisées au total dans les huit bases s’élève


à 321 847.

Le même travail est effctué pour les prestations. En effet, un même acte apparait
plusieurs fois dans la base s’il donne lieu à des remboursements de la part de plusieurs
contrats. Un traitement préalable est effectué afin de ne conserver qu’un seule ligne pour
chaque acte. Deux lignes relatives au même acte sont repérées grâce au numéro de pièce.
Seule celles relatives au remboursement des contrats complémentaires sont conservées.

La base de données agrégée des prestations est donc portée de 7 995 331
lignes à 7 740 642 lignes.

3.2.3 Données manquantes


Certaines variables de la base ne sont pas renseignées pour certains individus. Dans
la plupart des cas, nous ne pouvons donc pas utiliser ces enregistrements. Cependant, il
convient de les étudier très soigneusement afin de s’assurer que ces omissions sont causées
par des erreurs de gestion et donc réparties de manière aléatoire.

3.2.3.1 La variable sexe


Les données manquantes dans les fichiers des effectifs des différentes bases concernant
cette variable sont présentées à la figure 3.4.

Données manquantes
Fichier Nombre de personnes Données manquantes
après traitement
A 137 528 9 126 3
B 5 531 241 0
C 5 349 360 0
D 89 542 4 891 8
E 26 744 1 780 0
F 5 721 398 0
G 27 466 1 203 2
H 23 964 1 304 0

TOTAL 321 847 19 304 13

Table 3.4 – Données manquantes : Variable Sexe


3.2 Traitement des données 48

Le renseignement de cette variable est absent chez les jeunes enfants en particulier.
Comme la différence de consommation entre fille et garçon est peu significative chez les
enfants, on procède à un tirage aléatoire pour cette catégorie de population. Par ailleurs, le
numéro Insee de l’assuré est disponible. Il est donc possible d’en déduire le sexe manquant
à partir de cette variable.

Ces corrections effectuées, il reste peu de données manquantes sur cette variable (moins
de 1%).

3.2.3.2 La variable CSP


Il arrive que la catégorie socio-professionnelle soit absente de l’enregistrement ou que
celle-ci soit renseignée par une modalité générique comme "toute catégorie". Ce genre de
modalité apparait lorsque la complémentaire collective concerne l’ensemble des salariés
sans distinction entre cadres et non cadres. Le nombre de données manquantes pour cette
variable est présenté dans le tableau 3.5.

Fichier Nombre de personnes Données manquantes Proportion


A 137 528 10 245 7%
B 5 531 1 558 28%
C 5 350 135 3%
D 89 542 4 190 5%
E 26 744 3 299 12%
F 5 721 10 0%
G 27 466 948 3%
H 23 964 558 7%

TOTAL 321 847 21 044 7%

Table 3.5 – Données manquantes : Variable CSP

L’absence de renseignement pour cette variable dépend de la base de données étu-


diée. Il est très important pour les portefeuilles de contrats qui concernent l’ensemble
du personnel. Au global, 7% des lignes d’effectifs ne sont pas ou mal renseignées. Ceci
concerne donc relativement peu d’individus, ce qui nous permet d’envisager de conserver
cette variable.

Nous allons étudier la répartition de ces données manquantes dans la table pour s’as-
surer que les personnes au statut non renseigné peuvent être écartées de l’étude sans
introduire de biais. La figure 3.1 nous présente la proportion de CSP manquantes par âge.
3.2 Traitement des données 49

Figure 3.1 – Proportion de CSP manquantes par âge

Il apparaît que l’absence d’information sur la catégorie socio-professionnelle concerne


surtout les grands âges. En effet, ces personnes sont retraitées et n’ont donc plus ce
statut. Cependant, lorsqu’elle est disponible, cette information est intéressante à prendre
en compte car les écarts de revenus sont toujours significatifs entre cadres et non cadres,
même après l’âge de la retraite.

Notre étude a plutôt pour vocation de tarifer des contrats complémentaires collectifs
d’entreprise, c’est donc la population des actifs qui nous intéresse surtout. Dans cette
population le taux de personnes à la CSP non renseignée est relativement constant. Nous
choisissons donc de conserver la variable malgré le manque d’information dans les classes
d’âges élevés.

Le portefeuille comprend 300803 individus : 86040 cadres (29%) et 214762


non cadres (71%).

3.2.3.3 La variable de localisation géographique


Les fichiers des effectifs comprennent une variable qui nous informe sur le département
de résidence de l’assuré. Le nombre d’individus non renseignés dans les différentes bases
est présenté dans le tableau 3.6.

Comme précédemment, nous étudions la proportion d’individus par tranche d’âge et


pour lesquels l’information est manquante. Comme le montre la figure 3.2, la réparti-
tion des omissions pour cette variable n’est pas du tout uniforme. Le taux de données
manquantes est très élevé chez les jeunes actifs, entre 18 et 30 ans.

Par ailleurs, nous pouvons observer que leur consommation est nulle et leur période de
couverture souvent courte. Il s’agit de personnes couvertes mais n’ayant jamais consommé
ni même transmis l’intégralité de leurs informations personnelles à l’organisme assureur.
Il n’est donc pas raisonnablement possible de supprimer ces personnes du portefeuille sans
3.2 Traitement des données 50

Régime Nombre de personnes Données manquantes Proportion


A 137 528 3 333 2%
B 5 531 52 1%
C 5 350 124 2%
D 89 542 576 1%
E 26 744 188 1%
F 5 721 372 7%
G 27 466 2 507 9%
H 23 964 326 1%

TOTAL 321 847 7 478 2%

Table 3.6 – Données manquantes : Variable localisation géographique

provoquer un biais dans notre modélisation des fréquences. Ces personnes ne consomment
pas, cela n’a donc pas d’impact pour la modélisation des frais réels. En revanche, il n’est
plus envisageable de prendre en compte la région dans la modélisation des fréquences.

Figure 3.2 – Proportion de données manquantes pour la variable de localisation géogra-


phique parmi les ouvrants droit

Conclusion : La variable de localisation géographique n’est conservée que pour


la modélisation des frais réels.
3.3 Les variables tarifaires 51

3.2.4 Majorations et lignes de régularisation


Certaines interventions de praticiens donnent lieu à un relèvement du tarif convention-
nel, comme la majoration nourrisson de 5e pour un généraliste, par exemple. Dans la base
de données des prestations, les majorations apparaissent sur une ligne distincte de l’acte
auquel elles sont rattachées. Dans le cadre de notre étude, ces deux lignes sont fusionnées
en une seule en sommant les tarifs conventionnels, les différents remboursements et les
frais réels. Il est possible de les relier à partir du numéro de pièce et de la date de soins.

Le fichier des prestations comprend des lignes dites de régularisation. Elles corres-
pondent en fait à des annulations de remboursements. Les montants renseignés dans ces
lignes sont donc négatifs. Il est possible une fois encore de retirer les lignes associées à
partir de leur numéro de pièce.

Ces traitements n’ont aucun impact sur le montant total des prestations observées.

3.3 Les variables tarifaires


Avant d’entamer la modélisation des coûts et des fréquences, il est important de bien
connaître le portefeuille et de prendre le temps de le décrire. Ceci permet de détermi-
ner d’éventuelles variables tarifaires. Une variable tarifaire est une variable susceptible
d’influencer positivement ou négativement la survenance de sinistres.

3.3.1 Caractéristiques des assurés

3.3.1.1 L’âge
La répartition des âges dans le portefeuille est donnée par la figure 3.3. Seuls les
ouvrants droit et les enfants sont représentés puisque la population de conjoints est trop
hétérogène pour être étudiée convenablement.

La première constatation est que les grands âges sont mal représentés puisqu’il s’agit
d’une couverture collective d’entreprise. La classe la plus représentée est comprise entre
27 et 40 ans.

D’une manière générale, la répartition par âge présente des inégalités, cependant les
classes d’âges des moins de 62 ans sont bien représentées, ce qui ne gênera pas l’étude par
la suite.

La consommation des assurés en soins et biens médicaux est très fortement liée à leur
âge : une personne âgée a en général plus de problèmes de santé qu’un individu de vingt
ans. Par ailleurs, le type de consommation varie au cours de la vie, comme le montre la
figure 3.4.

La courbe (a) indique un pic de consommation dans les premières années de la vie, qui,
3.3 Les variables tarifaires 52

Figure 3.3 – Pyramide des âges dans la population d’ouvrants droits

d’après le graphique (b) correspond principalement à des soins courants : des consultations
chez le généraliste en particulier. Entre 10 et 20 ans, un autre pic de consommation
survient qui coïncide avec une augmentation de la part du poste dentaire. Cette période
de la vie est, en effet, marquée par les soins d’orthodontie. La courbe augmente ensuite
régulièrement jusqu’aux grands âges. Le graphique (b) permet de mettre en évidence un
accroissement de la place de l’optique à partir de 40 ans, lié à la presbytie. Passé 65 ans,
c’est le poste hospitalier qui prend de l’ampleur petit à petit.

(a) Dépenses annuelles déclarées par âge (b) Répartition des dépenses par poste de consommation

Figure 3.4 – Impact de l’âge sur la consommation en soins médicaux

Afin de prendre en compte l’âge dans le modèle, il convient de segmenter la population


par classe d’âges, les plus homogènes possible. Nous nous baserons sur une représentation
graphique pour effectuer la segmentation, malgré la part d’arbitraire que comporte cette
approche.
3.3 Les variables tarifaires 53

Les graphiques précédents mettent en évidence des différences de comportement im-


portantes chez les enfants en fonction de leur âge. Cependant, en tarification, le nombre
d’enfants est souvent connu mais rarement leur âge. Aussi, dans l’optique d’un outil de
tarification les enfants seront englobés dans une unique classe d’âge, les moins de 20 ans.

Chez les actifs, les dépenses en soins augmentent presque linéairement d’après le gra-
phique (a), nous avons cependant constaté précédemment la prise d’ampleur du poste
optique vers 42 ans. C’est à partir de ce critère que nous distinguerons les jeunes des
autres actifs. La segmentation retenue est précisée dans le tableau 3.7.

Segmentation Age
Groupe 1 Moins de 20 ans
Groupe 2 20 - 42 ans
Groupe 3 42 - 62 ans
Groupe 4 Plus de 62 ans

Table 3.7 – Segmentation : les classes d’âges

Le portefeuille étudié contient 130 397 enfants (45%), 88 513 jeunes adultes
(30%), 69 105 adultes (24%) et 4 606 séniors (2%).

3.3.1.2 Le sexe
Le portefeuille d’ouvrants droit comprend 151 118 femmes (52%) et 141 503 hommes
(48%).

Figure 3.5 – Dépenses annuelles moyennes par poste et par sexe


3.3 Les variables tarifaires 54

Le graphique de la figure 3.5 présente les dépenses moyennes annuelles observées dans
le portefeuille pour les hommes et les femmes. Pour tous les postes, les dépenses des
femmes sont plus élevées que pour les hommes. Ce facteur sera donc à prendre en compte
pour notre modélisation.

3.3.1.3 La localisation géographique


La base d’étude dispose d’une information concernant la localisation géographique : le
département d’habitation. Cette variable comprend donc un grand nombre de modalités
qui rend son exploitation difficile dans le cadre des Modèles Linéaires Généralisés. Nous
allons donc procéder à une segmentation de cette variable grâce à certaines techniques
d’analyse des données : l’Analyse en Composante Principale (A.C.P.) et la Classification
Ascendante Hiérarchique (C.A.H.).

Les départements seront regroupés en fonction des similarités des comportements de


consommation observés sur les individus. L’étude se basera sur les dépassements d’hono-
raires des spécialistes et les classes de prix pour les prothèses dentaires.

La consommation des adhérents peut être influencée par son niveau de couverture.
Aussi, afin d’étudier un groupe relativement homogène, nous nous baserons sur une sous-
population couverte à hauteur d’environ 300% de la base de remboursement pour les
consultations spécialiste et de 400% pour les prothèses dentaires. En effet, c’est le sous-
groupe le mieux représenté.

La mise en oeuvre de cette segmentation se fait grâce au package FactoMineR du


logiciel R. Pour plus de détails concernant les codes de ce package et l’interprétation de ces
analyses, il est possible de se référer à l’ouvrage Analyse de données avec R, par François
Husson, Sébastien Lê et Jérôme Pagès [14].

Principe de l’analyse en composante principale

Une A.C.P s’applique sur un tableau croisant N individus (en lignes) et K variables
(en colonnes). Un individu est ainsi repéré dans un espace de dimension K appelé "espace
des individus", que l’on munit de la distance euclidienne.

L’idée de l’A.C.P. est de représenter le nuage de points des N individus dans un espace
de dimension réduite qui reflète au mieux la réalité, c’est-à-dire en déformant le moins
possible les distances entre les individus. Pour cela, il faut déterminer le plan qui maximise
les distances entre les points et le centre de gravité du nuage G :

PK 2
k=1 Mk G

Cette quantité est appelée variance expliquée ou inertie expliquée.


3.3 Les variables tarifaires 55

Présentation du tableau de données

Dans notre étude, les individus sont les départements. Nous regroupons ensuite les
actes en fonction du pourcentage de dépassement effectué par le praticien par rapport à la
base de remboursement. La consommation dans les départements est ainsi représentée par
la proportion d’actes dans les différentes tranches de dépassement, pour les consultations
chez le spécialiste d’une part et les prothèses dentaires d’autre part. Un échantillon des
données étudiées est présenté à la figure 3.6.

Figure 3.6 – Echantillon du tableau de données pour l’ACP

La variable ST_100 correspond au pourcentage de consultations spécialistes sans dé-


passement, ST_200 au pourcentage de consultations facturées avec un dépassement com-
pris entre 100% et 200% de la base de remboursement et ainsi de suite. De la même
manière, les variables PT_200, PT_300. . . sont les pourcentages respectifs de prothèses
dont le tarif est compris entre 100% et 200% et entre 200% et 300% de la base de rem-
boursement. . .

Choix du nombre de dimensions

Figure 3.7 – Inertie expliquée par les différents axes de l’A.C.P.


3.3 Les variables tarifaires 56

La figure 3.7 représente l’inertie expliquée par chacune des dimensions de l’A.C.P.
Ce genre de graphique permet de repérer le nombre optimal de dimensions à étudier en
repérant une "cassure". Ici, elle est observable après les deux premiers axes. Ils expriment,
à eux deux, 62,42% de l’inertie totale. Les axes 3 et 4 en apportent respectivement 9,84%
et 8,96%. Les deux premiers axes sont retenus en priorité.

Représentation des individus

L’étude des individus nous permet d’appréhender les ressemblances entre individus du
point de vue de l’ensemble des variables retenues pour l’étude, dans le but de construire
des groupes d’individus homogènes.

La figure 3.9 représente les individus sur le premier plan factoriel. Les départements 75
et 92 se détachent nettement des autres individus et semblent pouvoir constituer un groupe
à eux seuls. Ils sont opposés par l’axe principal (axe des abscisses) aux départements 78,
91, 95, 6, 77, 89 et 93 en particulier. Le reste des individus se répartit autour de l’axe
principal en deux groupes aux contours mal délimités.

Figure 3.8 – Représentation des individus sur les deux premiers axes
3.3 Les variables tarifaires 57

Représentation des variables

Les axes peuvent être interprétés comme de nouvelles variables artificielles. La figure
3.9 fournit une représentation des variables initiales sur le plan défini par les deux pre-
miers axes factoriels. Ce sont les corrélations des variables avec les axes qui servent de
coordonnées pour la représentation graphique. La figure obtenue est appelée cercle des
corrélations. La qualité de représentation des variables est jugée par sa proximité avec le
cercle de corrélation. Les variables PT_300, PT_200 et PT_700 décrivant les prothèses
dentaires ne sont pas très bien représentées sur ce plan.

Figure 3.9 – Cercle des corrélations

Ce graphique met en évidence une corrélation positive entre toutes les variables sauf
les variables des actes spécialistes sans dépassement et celles des classes de coûts faible et
moyens pour les prothèses dentaires : 400% et 200% de la base de remboursement. Cet
axe oppose donc les départements dans lesquels les praticiens font de nombreux dépasse-
ments (corrélés positivement avec le premier axe) avec ceux qui en font peu. Une étude
supplémentaire des coefficients de corrélation montre que ce sont les variables ST_250 et
ST_300 qui contribuent le plus à son explication.

D’un côté du second axe, on trouve :


– les départements qui font peu de dépassements et des prothèses dentaires dans les
gammes de prix bas,
– les régions où les dépassement sont élevés (300%, 350%, 400% de la BR), et des prix
de prothèses très élevés (700% de la BR).

De l’autre, sont regroupées les régions à dépassements (200%, 250% de la BR) et prix
3.3 Les variables tarifaires 58

de prothèses élevés (500% de la BR).

Classification ascendante hiérarchique

Pour compléter cette étude, une classification ascendante hiérarchique va nous per-
mettre de regrouper les départements de manière la plus efficace possible, selon le type de
consommation. La ressemblance entre individu est modélisée par une distance, euclidienne
dans notre cas, pour rester cohérent avec l’étude précédente.

Les classes doivent être homogènes (le plus compacte possible) et différentes (les plus
distinctes possible l’une de l’autre). L’algorithme suggère trois classes qui sont représentées
sur le plan de la figure 3.10 en couleurs distinctes.

Figure 3.10 – Représentation de la partition sur le plan factoriel

Une représentation géographique des résultats obtenus est présentée en figure 3.11.

Résultats et critiques

Trois régions sont donc définies par cette étude :

– Région 1 : Cette région comprend essentiellement des départements dans lesquels


les praticiens spécialistes pratiquent de rares dépassements plutôt faibles.
3.3 Les variables tarifaires 59

Figure 3.11 – Groupement des départements par région dans le portefeuille

– Région 2 : Il s’agit des départements dans lesquels les dépassements sont plutôt
modérés.

– Région 3 : Deux départements composent cette région marquée par de forts et


fréquents dépassements : Paris et les Hauts-de-Seine.

Dans la suite de l’étude nous les désignerons sous les appelations respectives de : région
à dépassement faibles, modérés, sévères.

Afin de tester la cohérence des résultats obtenus pour le portefeuille avec des données
plus générales, l’étude a également été réalisée de manière similaire sur la base des dépas-
sements de spécialistes uniquement. Les graphiques obtenus par cette étude sont présentés
en annexe A.

La répartition par classe est représentée sur une carte de France à la figure 3.12.a.
Globalement, les mêmes zones de dépassements se dégagent que pour la carte de France
issue du dossier D.R.E.E.S. des comptes de la santé 2010 [4]. Les deux cartes mettent
en évidence des dépassements importants principalement situés le long de la Seine, de
la Saône et du Rhône jusqu’à la Méditerranée. Selon l’étude de la D.R.E.E.S., cette
répartition géographique est liée au niveau de vie des habitants, à la présence de forte
proportion de centres urbains (villes de plus de 100 000 habitants) et dans une moindre
mesure, à la densité de spécialistes. Quelques écarts sont cependant constatés sur les
départements périphériques, liés à notre échantillon.

Cette carte semble donc globalement cohérente avec la répartition des médecins en
secteur 2 observée en France par la D.R.E.E.S.
3.3 Les variables tarifaires 60

(a) Découpage obtenu avec seule prise en(b) Répartition des spécialistes selon leur taux d’accès au
compte des dépassements de spécialiste secteur 2 et leurs taux de dépassement

Figure 3.12 – Analogie entre la répartition obtenue à partir du portefeuille et la réparti-


tion des spécialistes en secteur 2 en France

Pour la suite de notre étude, nous utiliserons donc la répartition obtenue


en figure 3.11. Le diagramme 3.13 présente le pourcentage d’adhérents du
portefeuille dans chaque région.

Figure 3.13 – Répartition des assurés par région

3.3.1.4 L’exposition au risque


Comme précisé précédemment, nous disposons d’une variable présentant le taux de
présence d’un assuré au cours de l’année. Cette variable permet de mesurer l’exposition au
risque et il est important d’en tenir compte au cours de la modélisation des fréquences. En
effet, le nombre de remboursements versé par l’assureur à une personne observée pendant
3.3 Les variables tarifaires 61

une période de six mois sera probablement plus faible que pour une personne observée
durant l’année entière.

La grande majorité des personnes étudiées (environ 90%) sont couvertes durant l’an-
née entière. La figure 3.14 représente les proportions des autres périodes de couvertures
observées dans le portefeuille. La répartition n’est pas vraiment uniforme mais les varia-
tions d’une période de couverture à l’autre ne sont pas trop importantes. Dans le modèle
linéaire généralisé, il est possible de prendre ce paramètre en compte à l’aide d’une variable
offset.

Figure 3.14 – Périodes de couverture

Soit un individu observé sur une période d’exposition e, exprimée en année. Soit Yi
sa fréquence de consommation d’un acte donné sur la période d’exposition. En supposant
que la probabilité de consommer cet acte ne dépend pas de la période d’observation dans
l’année, la fréquence annuelle pour ce type de consommation est donc de Yi0 = Yi /e. Dans
le cas d’un modèle log-Poisson, par exemple, il est raisonnablement possible de supposer
que :

Y |X ∼ P(eµ) ∼ P(exp(Xβ + log(e)))

Cependant, l’hypothèse qui consiste à supposer que le nombre de sinistres sur l’année
entière est proportionnel au temps de couverture est très contestable. Par exemple, on
peut penser que la probabilité de consulter un médecin généraliste est plus importante en
hiver qu’en été. Par ailleurs, certaines garanties limitent le nombre de remboursements
pour certains types de consommation, par exemple les lunettes. Dans ce cas, la probabilité
d’avoir un second remboursement est nulle.

Pour l’étude des fréquences, nous nous baserons uniquement sur les indi-
vidus couverts toute l’année.
3.3 Les variables tarifaires 62

3.3.2 Caractéristiques des contrats


3.3.2.1 Le niveau de garantie
Comme nous l’avons précisé dans la première partie, la garantie d’un bénéficiaire peut
influencer sa consommation. Nous disposons d’un portefeuille de contrats aux niveaux
de garanties très hétérogènes. Une variable NIVEAU permet de prendre en compte ce
paramètre dans la tarification. Celle-ci classe les contrats par niveau de garantie selon le
type d’acte observé. Le niveau de couverture d’un individu est donc défini par le maximum
des niveaux de ses contrats.

Cinq niveaux ont été définis selon l’importance du remboursement effectué par le
contrat, pour chaque type d’acte étudié. Les seuils ont été fixés à partir des grilles de
garanties commercialisées par plusieurs assureurs, afin qu’ils soient cohérents avec ce qui
est proposé sur le marché. La grille des niveaux retenus est présentée en annexe B.

Remarquons que les médicaments ne donnent pas lieu à dépassements. Il n’y a donc
qu’un seul niveau de garantie pour ce type d’acte. Il en est de même pour le forfait
journalier hospitalier ou la franchise de 18e pour actes lourds. Ce genre de dépenses est
entièrement remboursé par tous les contrats de base observés. Le niveau de garantie n’est
donc pas non plus pertinent dans ce cas.

Remarque : Nous ne pouvons pas savoir si les adhérents disposent d’une seconde cou-
verture complémentaire, par exemple dans le cadre du régime de leur conjoint, sauf si
un versement de la part d’une autre mutuelle a été effectué. La variable ne reflète pas
toujours le niveau de garantie réel de l’assuré.

Niveau
Région 1 2 3 4 5
Neutre 46% 46% 43% 46% 37%
A dépassements modérés 47% 47% 54% 43% 55%
A dépassements élevés 7% 7% 3% 11% 8%

Total 100% 100% 100% 100% 100%

Table 3.8 – Répartition des individus selon la localisation géographique et leur niveau de
couverture pour un spécialiste

Cependant, la variable NIVEAU est fortement corrélée avec les variables CSP et loca-
lisation géographique. Le tableau 3.8 présente la répartition des adhérents selon les diffé-
rents niveaux de consultation chez le spécialiste et les régions définies précédemment. La
répartition entre les différentes régions varie nettement d’un niveau à l’autre. On constate
3.3 Les variables tarifaires 63

notamment peu de couvertures de niveau 5 dans la région à faibles dépassements. En


effet, ceux-ci y sont rares et une couverture importante n’y est pas vraiment nécessaire.

Le tableau 3.9 présente, quant à lui, la répartition des assurés selon la catégorie socio-
professionnelle. Là encore, la répartition varie beaucoup d’un niveau à l’autre. Les cadres
sont, par exemple, minoritaires dans les niveaux faibles.

Niveau
CSP 1 2 3 4 5
C 31% 39% 20% 59% 42%
NC 69% 61% 80% 41% 58%

Total 100% 100% 100% 100% 100%

Table 3.9 – Répartition des individus selon la catégorie socio-professionnelle et leur ni-
veau de couverture pour un spécialiste

Les variables CSP et Localisation géographique ne sont pas indépendantes


du niveau de garantie. Une modélisation sans prendre en compte cet aspect
risque de conduire à sur-estimer un niveau élevé, par exemple, pour des assurés
vivant dans des régions sans dépassement. Un modèle avec interactions 1 serait
envisageable. Cependant, il serait difficile à exploiter étant donné le nombre
de modalités. Pour cette raison, l’étude des cadres et des non cadres sera faite
séparément. Par ailleurs, les départements aux faibles dépassements seront
séparés des autres.

1. Dans ce cas, un terme supplémentaire est introduit dans le modèle afin de prendre en compte
l’intéraction entre les variables.
3.3 Les variables tarifaires 64

3.3.2.2 Le mode d’adhésion


Le contrat de base est obligatoire pour l’ensemble des ouvrants droit ainsi que pour leur
famille à charge au sens de la Sécurité sociale. Cependant, certaines entreprises souscrivent
à une surcomplémentaire conventionnelle ou non. Cette adhésion peut être obligatoire ou
facultative. Il est donc possible de créer une variable précisant si l’assuré a adhéré ou
non à un contrat facultatif. Ceci nous permettrait de prendre en compte une éventuelle
anti-sélection dans le portefeuille.

Etudions cette variable d’un peu plus près. Le premier constat est que le nombre de
personnes ayant souscrit à un contrat facultatif est très faible dans la population étudiée :
moins de 5%. Les entreprises mettent en place, pour la plupart, des contrats à adhésion
obligatoire. Ce mode d’adhésion est, comme nous l’avons précisé en première partie, plus
efficace fiscalement pour l’assuré et socialement pour l’employeur. Le pourcentage d’assu-
rés ayant souscrit à une surcomplémentaire facultative est présenté par classes d’individus
à la figure 3.15.

Figure 3.15 – Pourcentage d’adhésion à des contrats facultatifs selon les caractéristiques
de la population

Comme nous l’avons précisé en première partie, l’accès à la complémentaire santé dans
les entreprises est très influencé par la catégorie socio-professionnelle. C’est ce qu’il est
3.4 Les actes étudiés 65

possible de constater en observant le graphique 3.15. Les contrats facultatifs observés sont,
pour la plupart, uniquement destinés à la population des cadres. Ainsi, presque 10% des
cadres ont adhéré à un contrat facultatif contre 3% des non cadres.

Par ailleurs, les individus de plus de 62 ans sont très peu nombreux à adhérer à une
surcomplémentaire (pour la population des retraités, l’adhésion est toujours facultative).

Pour conclure, l’adhésion des adhérents du portefeuille aux contrats étu-


diés est à grande majorité obligatoire. Ceci limite donc le phénomène d’anti-
sélection dans le portefeuille. Etant donné le faible nombre de personnes dispo-
sant d’un contrat de type facultatif, la variable risque d’être peu significative
dans le reste de l’étude. Des tests complémentaires nous permettront de le
confirmer.

3.4 Les actes étudiés


Les actes modélisés à partir des modèles linéaires généralisés sont récapitulés dans
le tableau 3.10 ainsi que le type de modélisation employé pour évaluer les coûts moyens.
Plusieurs raisons rendent impossible la modélisation de certains actes. Tout d’abord, nous
disposons de peu d’observations pour certains types d’actes, comme par exemple la kérato-
tomie ou la parodontologie, qui ne sont proposées que dans peu de garanties. Par ailleurs,
la forme de certaines courbes rend impossible leur rapprochement à une loi classique, c’est
le cas des frais de séjour hospitalier.

Remarque : Le calcul des tarifs pour les auxiliaires médicaux est souvent global. Or,
sont considérés comme auxiliaires médicaux, les infirmiers, les masseurs kinésithérapeutes,
les orthoptistes, les orthophonistes et les pédicures. Une analyse descriptive des fréquences
permet de mettre en évidence des différences significatives selon le type d’auxiliaire médi-
cal. En particulier, les interventions fréquentes d’infirmiers concernent plus particulière-
ment les individus âgés. Les infirmiers sont donc séparés des autres auxiliaires médicaux
pour la modélisation.
3.4 Les actes étudiés 66

Actes Remarques sur la modélisation

SOINS COURANTS
Consultations Généraliste Courbe des dépassements
Consultations Spécialiste Courbe des dépassements
Auxiliaires médicaux Courbe des dépassements
Actes techniques médicaux Courbe des dépassements
Radiologie Courbe des dépassements
Franchise pour actes lourds Uniquement les fréquences 2
HOSPITALISATION
Chambre particulière 1 Courbe des Frais réels
Frais d’accompagnement Courbe des Frais réels
Forfait journalier Uniquement les fréquences 2
PHARMACIE
Pharmacie 15% Courbe des Frais réels
Pharmacie 30% Courbe des Frais réels
Pharmacie 65% Courbe des Frais réels
OPTIQUE
Montures 3 Courbe des Frais réels
Verres 3 Courbe des Frais réels
Lentilles Courbe des Frais réels
DENTAIRE
Soins dentaires Courbe des dépassements
Prothèses dentaires Courbe des dépassements

Table 3.10 – Actes étudiés

1. La modélisation des fréquences pour ce type d’acte est difficilement réalisable avec un modèle GLM.
En effet, la forme de la courbe distingue nettement les longs et les courts séjours. Elle est donc difficilement
modélisable par une loi classique.
2. Le montant des frais réels pour ces actes est toujours le même, c’est un forfait.
3. Pour ces actes, la modélisation des coûts moyens est séparée pour les enfants et pour les adultes,
en raison des fortes différences de remboursement de la part de la Sécurité sociale.
Tarification
4
Cette partie présente l’aspect pratique de la tarification à l’aide des modèles linéaires
généralisés. Les différentes étapes seront illustrées par des exemples.

4.1 Modélisation des fréquences


4.1.1 Ajustement des lois de fréquence
Comme précisé dans la première partie, la modélisation des fréquences se fait classi-
quement à l’aide d’une loi de Poisson ou d’une loi Binomiale Négative. Il faut donc au
préalable chercher la plus adéquate pour nos données. Remarquons cependant que dans
le cas particulier de l’optique, la plupart des contrats du portefeuille limitent le nombre
d’équipements remboursés à un par an. Il n’est donc pas possible de faire une modélisation
avec l’une des deux lois précédentes. Nous étudierons donc la probabilité de consommer
dans l’année par une loi binomiale pour ce type d’acte.

Nous illustrerons l’ajustement dans le cas général par l’étude des fréquences des soins
dentaires. Avant de commencer, il peut être utile de calculer l’espérance et la variance
empirique. La moyenne s’élève à 0,55 et la variance 2,04. On constate que ces deux valeurs
sont très éloignées ce qui semble compromettre un ajustement correct avec une loi de
Poisson.

Poursuivons avec un test goodness-of-fits, utilisant la méthode du maximum de vrai-


semblance, et mis en oeuvre par la fonction goodfit de R. Les résultats obtenus pour la loi
de Poisson et la Loi Binomiale Négative sont présentés sous forme graphique à la figure
4.1. Ce sont les racines carrées des fréquences qui sont représentées afin d’avoir un meilleur
aperçu des petites fréquences.

L’ajustement à la loi de Poisson est peu satisfaisant comme on s’y attendait. Com-
plétons cette étude par un test du chi-deux, les résultats du test sont présentés dans le
tableau 4.1. Celui-ci permet, en effet, d’évaluer si deux listes de mêmes effectifs suivent
la même loi de probabilité. On calcule la quantité :
m
X (ni − n0i )2
A= (4.1)
i=1 n0i

où,
4.1 Modélisation des fréquences 68

(a) Loi de Poisson (b) Loi Binomiale Négative

Figure 4.1 – Comparaison des ajustements des fréquences aux lois Binomiale Négative
et Poisson

– ni sont les occurrences de notre portefeuille,


– n0i sont les occurrences obtenues par la loi théorique.

Dans les deux cas, la p-value est inférieure à 5% et le test rejette donc l’adéquation.
Cependant, la distance est plus faible pour la loi Binomiale Négative.

Binomiale Négative Poisson


A 386 > 104
Degrés de liberté 100 100
p-value < 2.2e-16 < 2.2e-16

Table 4.1 – Résultat des tests du Chi-deux

Bilan : D’une manière générale pour l’ensemble des actes étudiés, les fré-
quences s’ajustent mieux avec une loi Binomiale Négative. C’est donc ce type
de loi qui est retenue pour la modélisation. Par ailleurs, la variable à expliquer
étant une variable de comptage, nous prendrons le lien classique pour ce type
de données, le lien logarithmique.
4.1 Modélisation des fréquences 69

4.1.2 Le Modèle de régression binomial négatif


4.1.2.1 Sélection des variables
La sélection des variables se fait par la procédure AIC dont le principe a été défini
précédemment. A titre d’exemple, nous présentons les résultats obtenus pour les consulta-
tions généraliste dans la base des non cadres. Ils figurent dans le tableau 4.2. Le critère est
minimisé pour le modèle complet. On constate cependant que la variable mode d’adhé-
sion a peu d’impact sur l’augmentation de l’information du modèle. Cependant, le critère
d’Akaike mène à conserver toutes les variables.

Modèle AIC
Complet 841 711
Privé de la variable mode d’adhésion 841 720
Privé de la variable niveau 842 188
Privé de la variable sexe 843 015
Privé de la variable age 844 131

Table 4.2 – Résultats de la procédure AIC

D’une manière générale, dans la grande majorité des actes, toutes les variables sont
jugées significatives, exceptée la variable mode d’adhésion. Ce manque de significativité
s’explique par le faible nombre d’observations dont nous disposons. Nous la retirerons
donc de l’étude. Encore une fois, le faible pourcentage de personnes adhérant à un contrat
facultatif limite beaucoup l’anti-sélection dans le portefeuille. Parmi les autres variables,
certaines sont parfois rejetées selon le type d’acte. Dans le cas particulier de certains actes,
où les coefficients ne sont pas significatifs pour la fréquence des sinistres et pour le coût
moyen, la variable pourra être rejetée. Nous exclurons, alors, la variable de l’analyse et
relancerons le modèle.

4.1.2.2 Résultats
A présent que le modèle est choisi, nous pouvons l’étudier plus en détail. L’application
se fait à l’aide de la fonction glm du logiciel R. Un exemple de code R est consultable en
annexe C. Le tableau 4.3 présente les résultats d’une analyse de la déviance. Le modèle
nul correspond au modèle pour lequel on suppose que la probabilité est constante et ne
dépend pas des variables prédictives. Comme on peut le constater, la probabilité critique
de la table d’analyse conduit à considérer que le modèle complet est informatif. En effet,
rappelons que le modèle est jugé de mauvaise qualité si la déviance observée est supérieure
au quantile à 95% d’un Khi deux à 215 095 degrés de libertés dans ce cas.

Les résultats de l’ajustement des fréquences par la loi binomiale négative des interven-
tions des généralistes chez les non cadres sont présentés dans le tableau 4.4.
4.1 Modélisation des fréquences 70

Modèle Déviance Degrés de p-value


liberté
Modèle nul 219 656 196 840 .
Modèle complet 215 095 196 832 < 10−16

Table 4.3 – Analyse de la déviance du modèle complet pour les Consultations Généraliste

La colonne "Estimation" fournit la série de coefficients ponctuels βj estimés par la


procédure. La ligne INTERCEPT caractérise l’individu de référence. Il s’agit de l’indi-
vidu le plus représenté dans le portefeuille, c’est un homme, d’âge compris entre 20 et
42 ans couvert par une garantie de niveau 1. Pour une loi Binomiale Négative au lien
logarithmique, la fréquence moyenne de cet individu est obtenue par :

p
X
µi = exp(β0 + βj xij ). (4.2)
j=1

où :
– βi , i=(1,...,n) sont les coefficients correcteurs calculés ;
– xij sont les modalités des variables tarifaires pour l’individu i, prenant les valeurs 1
si l’individu présente la caractéristique, 0 sinon.

Ainsi, la fréquence moyenne estimée pour l’individu de référence, un homme entre 20


et 42 ans avec une garantie de niveau 1 est égale à exp(0,619) = 1,86 consultations par
an. Pour avoir la fréquence pour une femme, il suffit de multiplier la valeur obtenue par
le coefficient correcteur associé. Ainsi, la fréquence annuelle obtenue est : exp(0,619)×
exp(0,215)= 2,30.

Les colonnes "Wald 95% Confidence Limits" du tableau 4.4 sont respectivement les
bornes supérieures et inférieures de l’intervalle de confiance de Wald pour les paramètres
au niveau de confiance de 95%. Cet intervalle permet d’apprécier la marge d’erreur dans
les résultats obtenus pour un niveau de confiance donné. Ces bornes sont calculées par la
formule :
βj ± 1, 96 ∗ StdError,
où,
– 1,96 est le quantile d’ordre 97,5% de la loi normale centrée réduite,
– Std Error est l’élément diagonal (jj) de I -1 .

Ainsi, dans l’exemple précédent, le coefficient correspondant à l’individu de référence


(INTERCEPT) est compris dans l’intervalle [0,601 ;0,637]. Cet intervalle de confiance est
donc relativement restreint.
Paramètres Estimation Standard Error Wald 95% Confidence Limits ChiSQ Pr >
ChiSq
INTERCEPT 0,619 0,0089 0,601 0,637 69,24 0
< 20 ans 0,029 0,0069 0,015 0,042 4,14 < 0,00001
42 - 62 ans 0,335 0,0078 0,3198 0,3504 42,98 < 0,00001
> 62 ans 0,315 0,0265 0,2629 0,3666 11,89 < 0,00001
SEXE F 0,215 0,0059 0,2031 0,22609 36,67 < 0,00001
NIVEAU 2 0,168 0,0081 0,1521 0,1837 20,83 < 0,00001
NIVEAU 3 0,156 0,0117 0,1327 0,1787 13,27 < 0,00001
NIVEAU 4 0,173 0,0153 0,1424 0,2025 11,24 < 0,00001
NIVEAU 5 0,224 0,0121 0,2012 0,2485 18,65 < 0,00001

Table 4.4 – Ajustement du modèle de régression Binomiale Négative : Généraliste


4.1 Modélisation des fréquences

Remarque : Le coefficient INTERCEPT permet de calculer la fréquence de l’individu de référence : un homme d’âge compris
entre 20 et 42 ans avec une garantie de niveau 1. Ces modalités n’apparaissent donc pas dans le tableau.
71
4.1 Modélisation des fréquences 72

Enfin, les colonnes "ChiSQ" et "Pr > ChiSq" permettent de tester si le coefficient βj
est significativement différent de 0. Ainsi, la colonne ChiSQ fournit la statistique de Wald,
donnée par :
(βj )2
. (4.3)
(StdErrorβj )2

Elle obéit approximativement à la loi du Chi deux à 1 degré de liberté. L’hypothèse


de nullité du coefficient est rejetée dans le cas où la p-value (donnée à la colonne 7) est
inférieure à 0,5%. Dans l’exemple, l’hypothèse est rejetée pour l’ensemble des coefficients.

Ajoutons quelques mots concernant les résultats obtenus et leur interprétation. On


constate que le vieillissement a un impact aggravant sur la fréquence de consommation
comme nous l’avions constaté lors de l’étude des variables. Il en est de même pour le
facteur sexe : la fréquence de consultation des femmes est nettement supérieure à celle
des hommes. Jusque là, ces résultats sont cohérents avec les conclusions tirées de l’étude
descriptive du portefeuille. Comme indiqué dans le tableau 4.5, l’augmentation de la
fréquence entre le niveau 1 et le niveau 2 est très importante. En revanche, elle l’est moins
entre les autres niveaux.

Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5


Fréquence 1,86 2,20 2,17 2,21 2,33

Table 4.5 – Evolution de la fréquence avec le niveau de garantie pour les consultations
chez le généraliste

La segmentation de la population effectuée en première partie a permis de réduire mais


pas de supprimer complètement l’hétérogénéité entre les représentants des classes. En
conséquence, l’interprétation des coefficients doit prendre en compte cette "imperfection"
des données disponibles. Les variations observées sur les fréquences peuvent être expliquées
par la composition du portefeuille. Le tableau 4.6 présente la répartition par sexe dans
les différents niveaux.

Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5


Femmes 56% 54% 42% 51% 52%
Hommes 44% 46% 58% 49% 48%

Table 4.6 – Répartition des individus par sexe selon le niveau de garantie

Le pourcentage de femmes dans le niveau 3 est beaucoup plus faible que dans les
autres, ce qui peut expliquer en partie la plus faible valeur obtenue pour le coefficient
4.1 Modélisation des fréquences 73

de ce niveau. La même étude peut être conduite avec la répartition par tranches d’âges,
présentée dans le tableau 4.7. Le niveau 1 a une répartition très différente des autres
classes, avec notamment peu d’enfants, plus de jeunes adultes mais également plus de
retraités.

Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5


< 20 ans 38% 45% 48% 44% 44%
20-42 ans 34% 30% 30% 30% 30%
42-62 ans 24% 25% 22% 23% 25%
> 62 ans 5% 0% 0% 3% 1%

Table 4.7 – Evolution de la fréquence avec le niveau de garantie pour les consultations
chez le généraliste

4.1.2.3 Etude des résidus


Une partie importante d’une procédure de modélisation est la vérification de la cohé-
rence des hypothèses. Nous procédons donc à une analyse des résidus. Les codes nécessaires
au calcul des résidus par le logiciel R sont présentés en annexe D.

Commençons par étudier le graphique des résidus standardisés de la déviance en fonc-


tion de valeurs prédites. Si l’adéquation est bonne, les résidus doivent présenter une dis-
tribution avec une moyenne nulle et une variabilité constante. McCullagh and Nelder [16]
expliquent que les principaux problèmes rencontrés peuvent être des courbures dans le
graphique et un changement systématique de la variance selon la valeur µ̂, la fréquence
moyenne. Le premier phénomène peut alors indiquer soit une fonction de lien incorrecte
soit l’omission d’une variable explicative. Le second phénomène soulève plutôt une inadé-
quation de la fonction de variance.

A titre d’illustration, nous présentons ces graphiques pour les auxiliaires médicaux à
la figure 4.2. Le graphique (a) présente une légère tendance décroissante, indiquant une
mauvaise adéquation de la fonction de variance. Celle-ci augmente trop rapidement avec
la moyenne, il y a sur-dispersion. Par ailleurs, le graphique met en évidence quelques
outliers, c’est-à-dire des observations distantes du reste des données.

Une ligne se décroche du reste du groupe, causée par le nombre important de valeurs
zéro. La valeur zéro pose souvent problème pour la modélisation. Plusieurs méthodes ont
été mises au point, présentée par D. Bahn et Massenburg (2008) [8], comme la méthode
des zero-inflated, zero-altered ou encore two-part model.

Le graphique (b) de la figure 4.2 permet de vérifier si les résidus suivent une distribution
4.1 Modélisation des fréquences 74

(a) Résidus de la déviance et valeurs prédites (b) Normal probability plot

Figure 4.2 – Résidus : Auxiliaires médicaux

spécifique. Il est construit à partir des résidus standardisés de la déviance. Les résidus
bruts ne suivent pas nécessairement une distribution normale. McCullah et Nelder [16],
précisent que les résidus de données de comptage peuvent présenter des distorsions si
elles présentent de nombreux zéros. Cela produit, en effet, une concentration importante
de petits résidus qui font apparaitre un plateau dans le Normal plot. Ce phénomène est
nettement mis en évidence sur le graphique. Cela vient confirmer les conclusions tirées de
l’observation du graphique précédent : le modèle demanderait à être complexifié afin de
tenir compte des nombreux zéros. Le reste des observations suit une ligne droite, indiquant
une bonne adéquation.

Les conclusions tirées de cette étude sont communes à l’ensemble des actes
étudiés. Le test des résidus met en évidence un problème d’adéquation. Cette
modélisation demanderait donc à être complexifiée.

4.1.2.4 Intervalle de confiance pour la prédiction


La fonction R predict permet de calculer l’écart-type de la moyenne obtenue afin
de construire des intervalles de confiance pour la prédiction. Le tableau 4.8 fournit les
intervalles de confiance pour les fréquences des actes de radiodiologie, pour différentes
caractéristiques d’individus chez les cadres. La fréquence de l’individu de référence est
explicitée. En revanche, pour une plus grande facilité d’interprétation, les autres modalités
sont présentées en pourcentage d’écart par rapport à l’individu de référence.

Les intervalles de confiance obtenus sont relativement satisfaisants, mis à part celui
4.2 Modélisation des coûts moyens de sinistres 75

Intercept Femme Enfant Retraité Niveau 3 Niveau 5


Scénario Moyen 0,4 151,30% 65,89% 237,41% 120,82% 132,13%
Scénario Bas 0,38 151,63% 66,20% 215,27% 122,37% 129,14%
Scénario Haut 0,41 151,00% 65,61% 257,61% 119,41% 134,85%

Table 4.8 – Résultats, intervalles de confiance : Actes techniques médicaux

des retraités. La largeur de cet intervalle de confiance s’explique par le peu de données
dont nous disposons dans cette catégorie.

Les résultats obtenus sont conformes aux observations faites au cours de l’analyse
descriptive du portefeuille. Les femmes ont plus souvent recours à ce type de soin. Ils sont
en revanche moins fréquents chez les enfants et beaucoup plus chez les retraités. Quant à
l’influence de la garantie, la tendance semble confirmer le fait que la fréquence augmente
avec la qualité de celle-ci.

Remarque : la surdispersion mise en évidence précédemment entraîne une sous-estimation


de la variance. Cela engendre de fait une sous-estimation de la largeur des intervalles de
confiance obtenus. La précision de ces intervalles de confiance est donc toute relative.

4.2 Modélisation des coûts moyens de sinistres


Nous ne présenterons dans cette partie que l’ajustement de coûts de sinistres dans le
cas du modèle défini à la section 2.7.2.3. La procédure de modélisation de ces courbes est
similaire à celle employée pour ajuster la courbe de gravité des coûts, présentée en section
4.2.2. Toute cette section sera illustrée à partir de la modélisation des consultations et
visites chez le spécialiste afin d’avoir une vision globale de l’étude à mener.

4.2.1 Significativité des paramètres


Commençons par choisir un ensemble approprié de prédicteurs pour les deux régres-
sions effectuées. Les résultats de la première étape de la procédure stepwise sont présentés
dans le tableau 4.9. Les modèles étudiés dans chacun des cas sont privés de la variable
indiquée dans la colonne "Modèle".

Remarque : Pour la première régression, la valeur du critère AIC est égale à la dé-
viance, au nombre de paramètres près. Ceci s’explique par le fait que la log-vraisemblance
du modèle saturé dans le cas de Bernoulli est toujours nulle. La déviance associée au
modèle est donc égale à la log-vraisemblance.

Dans les deux cas, le modèle 1 correspond à celui ne comprenant qu’un unique para-
mètre. C’est le plus simple. Les autres sont obtenus en ne retirant qu’une seule variable
4.2 Modélisation des coûts moyens de sinistres 76

Numéro du Modèle Nombre de Déviance AIC


modèle paramètres
Probabilité d’observer un acte sans dépassement
1 Null 1 112 356 112 358
2 Complet 11 108 949 108 971
3 - Niveau 7 109 024 109 038
4 - Sexe 10 109 046 109 066
5 - fac 10 108 951 108 971
6 - Region 10 111 150 111 170
7 - Age 8 109 654 109 670

Sévérité des dépassements


1 Null 1 13147 154446
2 Complet 11 12146 150217
3 - Niveau 7 12157 150220
4 - Sexe 10 12161 150221
5 - fac 10 12153 150212
6 - Region 10 12914 150531
7 - Age 8 12324 150285

Table 4.9 – Récapitulatif de la procédure de sélection des variables pour les cadres dans
la région 2

à chaque fois. Là encore, dans les deux cas, la variable caractérisant le mode d’adhésion
n’améliore pas l’ajustement du modèle selon le critère AIC. La procédure le rejette. Dans
les deux cas, la déviance est minimale pour le modèle 5, de même pour le critère AIC,
ce qui indique un meilleur ajustement. Par ailleurs, dans les deux cas, retirer la variable
Région augmente significativement la déviance du modèle.

En conclusion, la variable mode d’adhésion est retirée du modèle. Le faible nombre


d’observations disponible ne permet pas de l’exploiter.

4.2.2 Diagnostique des résidus


4.2.2.1 Occurrence des dépassements
Comme précédemment, il convient de vérifier que la fonction de lien (logit) est correcte,
qu’il ne manque pas une variable explicative importante et qu’une explication linéaire
suffit.

Avant de commencer à interpréter les résultats, effectuons quelques validations. Dans


le cas d’une régression d’une variable binaire, les résidus classiques peuvent être difficiles
à définir et à interpréter à cause de la nature discrète de la variable à expliquer. Certaines
des analyses des résidus présentées précédemment ne sont pas informatives dans le cas
d’une variable binaire, en particulier, les graphiques des résidus en fonction des valeurs
4.2 Modélisation des coûts moyens de sinistres 77

prédites et le Normal probability plot. En effet, la régression logistique n’exige pas que les
prédicteurs soient distribués normalement ou que la variance soit identique dans chacun
des groupes.

Le half Normal probability plot avec intervalle de confiance à 95% constitue un outil
intéressant pour l’analyse des résidus. Leur distribution n’étant pas connue dans le cadre
des modèles linéaires généralisés, Atkinson (1985) a proposé l’ajout d’un intervalle de
confiance pour la moyenne des résidus. Celui-ci permettant de déterminer si les résidus
observés sont cohérents avec le modèle ajusté. Si ce dernier est correct, l’enveloppe à 95%
doit contenir la valeur absolue des résidus.

Figure 4.3 – Half Normal plot : Spécialistes - Cadres - Région 2

La figure 4.3 montre le Half Normal plot des résidus standardisés de la déviance. Le
graphique ne laisse pas paraître d’outliers. Il n’y a pas d’écart systématique des résidus
par rapport à l’enveloppe de confiance. Cependant, certaines parties s’écartent légèrement
de la ligne continue. La condition d’adéquation à 95% n’est pas vérifiée.

4.2.2.2 Importance des dépassements


L’analyse des résidus dans le cadre de la loi Gamma est plus simple que celle d’une
loi Binomiale, étant donnée la continuité de la distribution. La figure 4.4 présente les
graphiques des résidus de la déviance en fonction des valeurs prédites pour les cadres en
région 2.

Le graphique (a) met en évidence un nombre relativement important d’outliers. Ce-


pendant, les résidus ont globalement une moyenne nulle et une variabilité constante, ce
qui traduit une certaine justesse du modèle. Une très légère tendance décroissante peut
être remarquée qui suggère que la fonction de lien n’est pas tout à fait bien ajustée mais
reste satisfaisante.
4.2 Modélisation des coûts moyens de sinistres 78

Figure 4.4 – Résidus de la déviance : Spécialistes - Cadres - Région 2

(a) Normal probability plot (b) Histogramme des résidus

Figure 4.5 – Normalité des résidus : Spécialistes - Cadres - Région 2

Afin d’étudier l’adéquation de la distribution Gamma à la modélisation des données, le


graphique (a) de la figure 4.5 représente le Normal probability plot. Le graphique (b) est un
histogramme des résidus standardisés de la déviance qui devraient approximativement être
distribués selon une loi normale. L’approximation est à peu près correcte sur l’ensemble de
4.2 Modélisation des coûts moyens de sinistres 79

la courbe, sauf sur les bords inférieurs et supérieurs de la distribution. Cependant l’écart
est peu important et concerne peu de données, ce qui ne devrait pas trop impacter notre
étude.

4.2.3 Les résultats obtenus


Commençons par comparer le modèle obtenu avec les données réelles. Les figures 4.6
et 4.7 présentent l’ajustement des frais réels par le modèle pour les non cadres respecti-
vement dans une région à faibles dépassements et à dépassements modérés.

Figure 4.6 – Ajustement des coûts moyens de consultations et visites chez le spécialiste
pour les non cadres dans une région à faibles dépassements

Figure 4.7 – Ajustement des coûts moyens de consultations et visites chez le spécialiste
pour les non cadres dans une région à dépassements modérés
4.2 Modélisation des coûts moyens de sinistres 80

Les données réelles sont décrites sous la forme d’un histogramme. Leur répartition pré-
sente quelques discontinuités. Celles-ci créent des écarts par rapport à la courbe simulée
par le modèle linéaire généralisé, représentée en ligne continue. Ces discontinuités s’ex-
pliquent par le fait qu’il s’agit de classes de coûts comprenant des tarifs multiples de 10
que les médecins semblent choisir plus souvent que les autres, par comodité. Par exemple,
la classe de coûts des 170%-180% BR comprend tous les actes au tarif conventionnel de
23 euros facturés 40 euros par le médecin.

A titre d’illustration, les résultats obtenus pour les deux régressions puis avec le mo-
dèle agrégé sont présentés dans le tableau 4.10 pour les non cadres dans une région à
faibles dépassements,c’est-à-dire correspondant à la figure 4.6. Encore une fois nous les
présentons sous forme d’un pourcentage d’écart par rapport à l’individu de référence 1 afin
de faciliter l’interprétation. Les intervalles de confiance sont donnés en tenant compte des
dépendances entre les coefficients.

Le modèle agrégé est obtenu en utilisant les résultats des deux régressions au moyen
de la formule 2.18.

La première remarque sur ces résultats est que les intervalles de confiance sont assez
corrects pour les prédictions, mis à part pour la classe d’âge des plus de 62 ans.

Dans le modèle agrégé, on constate que les classes d’âges ont des moyennes proches,
exceptée la classe des enfants. En effet, d’après nos conclusions, moins de dépassements
y sont observés et ces derniers sont moins sévères que dans les trois autres classes.

Le sexe semble également influencer le comportement vis-à-vis des dépassements. Leur


fréquence est plus importante chez les femmes et leurs montants plus élevés. L’analyse
préalable du portefeuille avait révélé une surconsommation des femmes par rapport aux
hommes. Celle-ci ne semble donc pas uniquement due à la fréquence de consommation
mais également à son mode de consommation.

En revanche, les résultats concernant l’influence du niveau de garantie ne sont pas


très nets. En effet, il y a une légère augmentation du coût moyen entre le niveau 1 et le
niveau 5, excepté pour le niveau 4. Cependant, celle-ci n’est pas très significative. Ceci
peut s’expliquer par le manque d’homogénéité observé dans les classes de niveaux ou
éventuellement par un manque d’information concernant les individus représentant les
différents niveaux.

Le modèle obtenu présente quelques écarts par rapport aux données obser-
vées, liés notamment au comportement des médecins pour le choix de leurs
tarifs. Les tests d’ajustement révèlent eux aussi quelques problèmes au niveau
de la modélisation. Le cas particulier de la consultation chez le spécialiste
ne permet pas d’observations très concluantes concernant l’impact du niveau
de garanties sur la consommation. Cette remarque est valable pour plusieurs
1. Homme cadre entre 20 et 42 ans ayant une garantie de niveau 1
4.2 Modélisation des coûts moyens de sinistres 81

Modalité observée Scénario Central Scénario Optimiste Scénario Pessimiste

Probabilité d’observer un acte sans dépassement


Intercept 0,59 0,60 0,58
Age 1 102,18% 101,99% 102,37%
Age 3 82,92% 83,22% 82,61%
Age 4 82,07% 84,13% 79,95%
Sexe F 77,18% 77,38% 76,98%
Niveau 2 104,12% 104,08% 104,16%
Niveau 3 102,13% 101,62% 102,67%
Niveau 4 104,12% 104,53% 103,70%
Niveau 5 100,66% 101,01% 100,30%

Sévérité des dépassements


Intercept 1,79 1,86 1,72
Age 1 90,74% 90,58% 90,91%
Age 3 93,31% 93,40% 93,21%
Age 4 100,47% 103,79% 96,87%
Sexe F 101,32% 101,09% 101,58%
Niveau 2 97,89% 98,09% 97,68%
Niveau 3 99,38% 98,41% 100,43%
Niveau 4 98,87% 99,87% 97,78%
Niveau 5 100,70% 101,76% 99,56%

Modèle agrégé
Intercept 1,32 1,29 1,36
Age 1 94,28% 94,64% 93,93%
Age 3 101,48% 101,16% 101,77%
Age 4 106,71% 103,32% 110,21%
Sexe F 109,10% 108,80% 109,36%
Niveau 2 97,44% 97,46% 97,43%
Niveau 3 98,91% 99,68% 98,14%
Niveau 4 97,95% 97,37% 98,56%
Niveau 5 100,15% 99,43% 100,89%

Table 4.10 – Résultats obtenus pour les régressions et le modèle agrégé


4.2 Modélisation des coûts moyens de sinistres 82

autres actes comme les consultations chez le généraliste ou les auxiliaires mé-
dicaux.
4.3 Exploitation des résultats 83

4.3 Exploitation des résultats


4.3.1 Exploitation des GLM pour la construction d’un outil de
tarification
L’objectif de ce mémoire étant de construire un outil de tarification, précisons un peu
la technique employée pour calculer les tarifs à partir des modélisations effectuées par les
Modèles Linéaires Généralisés.

Cette méthode nous permet de calculer les paramètres et ainsi de déterminer com-
plètement les lois de fréquences et de coûts moyens adaptés aux caractéristiques de la
population étudiée. Celle-ci doit être segmentée en classes de tarification homogènes. La
prime pure globale est alors obtenue par une moyenne pondérée des tarifs calculés pour
chaque classe homogène.

Plusieurs paramètres doivent donc être renseignés dans l’outil. D’une part, il faut
fournir une description du portefeuille observé, notamment la répartition des individus :
– par sexe,
– par tranche d’âge,
– par catégorie socio-professionnelle,
– par région.

D’autre part, il est nécessaire de fournir un descriptif des garanties : les rembourse-
ments effectués par poste et le niveau de couverture associé.

Dans le cas des fréquences, le calcul est simple puisqu’en général 2 , seule nous intéresse
l’espérance de la loi de fréquences. Rappelons qu’elle est tout simplement obtenue, dans
le cas de la loi Binomiale Négative, par :
Pp
µ = exp(β0 + j=1 βj xj )

En revanche, le cas des coûts moyens est plus délicat à traiter à cause des limites de
remboursements prévues par les garanties. Pour un plafond P appliqué sur le rembour-
sement d’un acte i (exprimé en euros), le coût moyen par acte pour l’assureur est donné
par :
Z P Z ∞
µi = x.f (x)dx + P. f (x)dx
0 P

où : f est la densité de la loi Gamma modélisée par les G.L.M. et X la variable aléatoire
représentant le coût de l’acte i.

Cette intégrale est estimée grâce à un découpage en tranches de coûts. A cette quantité,
il faut encore retrancher un éventuel remboursement de la Sécurité sociale. Une distinction
2. Il arrive cependant que des garanties plafonnent le nombre de remboursements annuels. C’est sou-
vent le cas pour les consultations de médecine douce.
4.3 Exploitation des résultats 84

est faite entre les remboursements effectués pour le Régime Général et pour le Régime
d’Alsace-Moselle 3

Ces deux éléments nous permettent d’obtenir une prime pure pour chaque type d’acte.
Le tarif à appliquer pour la couverture découle simplement de la somme de ces primes
pures par acte.

4.3.2 Les différents types de primes


En tarification santé, la prime demandée à l’assuré, au moment de la commerciali-
sation, peut prendre plusieurs formes, comme nous l’avons précisé en première partie.
L’outil fournit les types de primes les plus courants, calculées comme suit :

– Le prime unique : Dans ce cas, tous les assurés paient la même prime, quel que
soit le nombre de bénéficiaires qui sont assurés par son intermédiaire. Elle est donnée
par la formule suivante :

PU = P Pouvrantdroit + P Pconjoint × τconjoint + P Penf ant × τenf ant


où :
– P Pouvrantdroit est la prime pure d’un ouvrant droit calculée grâce à l’étude précé-
dente à partir des caractéristiques observées dans le portefeuille à tarifer ;
– P Pconjoint est la prime pure du conjoint. Sa consommation devra être déterminée
par une étude complémentaire spécifique à ce type d’assuré, prenant notamment
en compte les modalités d’adhésion (facultatif/obligatoire, taux de conjoints à
charge/non à charge. . . ) ;
– τconjoint est le taux de conjoint c’est-à-dire le pourcentage d’ouvrants droit cou-
vrant un conjoint par leur régime ;
– P Penf ant est la prime pure d’un enfant, également calculée grâce à l’étude précé-
dente ;
– τenf ant est le nombre moyen d’enfants par ouvrant droit.

– Le tarif adulte enfant : L’assuré paie pour le nombre de bénéficiaires couverts


par son adhésion. Souvent à partir du troisième enfant, l’adhésion n’engendre pas
de surcôut pour l’ouvrant droit 4 . La prime pure adulte est donnée par, avec les
notations précédentes :

P Padulte = P Pouvrantdroit × ξouvrantdroit + P Pconjoint × ξconjoint .


où :
– ξouvrantdroit : pourcentage d’ouvrants droit parmi les adultes du portefeuille ;
3. En Alsace-Moselle, le régime Général est complété par un régime complémentaire obligatoire dit
"Régime Local". Couverts par le régime Bismarckien, les départements ont souhaité conserver leur niveau
de couverture au moment de leur rattachement au territoire français. A titre d’exemple, le niveau de
remboursement d’une consultation chez un médecin généraliste est de 90% dans le Régime Local contre
70% pour le Régime Général.
4. La dépense associée aux enfants "gratuits" est reportée sur la prime de l’ensemble des assurés, soit
sur la prime adulte, soit sur la prime enfant
4.3 Exploitation des résultats 85

– ξconjoint : pourcentage de conjoints parmi les adultes du portefeuille.

– Le tarif Isolé/Famille : Les primes sont alors calculées de la façon suivante, en


conservant les notations précédentes :

P Pisolé = P Pouvrantdroit .

P Pf amille = P Pouvrantdroit + P Pconjoint × ρconjoint + P Penf ant × ρenf ant .


où :
– ρconjoint est le nombre moyen de conjoints couverts par famille.
– ρenf ant est le nombre moyen d’enfants couverts par famille.

Remarque : dans le cas d’une cotisation isolé/famille, les contrats prévoient parfois
une solidarité des isolés vers les familles. La cotisation isolé est alors supérieure à
la consommation moyenne réelle de l’assuré.

– Le tarif Isolé/Duo/Famille : Ce tarif prévoit une cotisation spéciale pour les


familles de deux personnes contrairement à l’exemple détaillé précédemment. Les
primes sont alors calculées de la façon suivante, en conservant les notations précé-
dentes :

P Pisolé = P Pouvrantdroit .

P Pduo = P Pouvrantdroit + P Pconjoint × µconjoint + P Penf ant × µenf ant .

P Pf amille = P Pouvrantdroit + P Pconjoint × νconjoint + P Penf ant × νenf ant .


où :
– µenf ant est le pourcentage d’enfants parmi les bénéficiaires des familles de deux
personnes.
– µconjoint est le pourcentage de conjoints parmi les bénéficiaires des familles de
deux personnes.
– µenf ant est le nombre moyen d’enfants parmi les bénéficiaires des familles de plus
de deux personnes.
– µconjoint est le nombre moyen de conjoints parmi les bénéficiaires des familles de
plus de deux personnes.

Ces calculs de primes demandent donc une bonne connaissance de la démographie du


portefeuille, notamment pour estimer les pourcentages de conjoints, d’enfants. Ces carac-
téristiques démographiques varient notamment avec l’âge et la catégorie socio-professionnelle.
Elles pourraient faire l’objet d’une étude complémentaire.

Pour achever le calcul de la prime a priori, les diverses taxes 5 et les frais de gestion
appliqués par l’assureur doivent être ajoutés à la prime pure.
5. En 2012, les taxes sont la T.S.A. à 6,27% et la T.C.A. à 7% pour les contrats responsables.
4.3 Exploitation des résultats 86

4.3.3 Impact du niveau de garantie sur la consommation


Comme nous avons pu le constater dans le cas détaillé des consultations spécialistes,
l’influence du niveau de garantie ne constitue pas toujours une tendance bien marquée
selon le type d’acte observé. Ce phénomène est en grande partie lié à l’hétérogénéité
de notre échantillon. Cependant, la tendance est plus nette pour certains types d’actes,
l’optique en particulier.

Figure 4.8 – Déformation de la courbe de consommation selon le niveau de garantie :


Montures adultes

La figure 4.8 présente l’évolution de la consommation des montures en fonction des


niveaux de garantie dans le cas des non cadres en région 1. Si une surcomplémentaire
vient s’ajouter au régime, un phénomène de déformation de la courbe de consommation
peut se manifester puisque le niveau de garantie total de la personne augmente. Il est
donc intéressant de pouvoir mesurer cet impact.

La base de tarification que nous avons construite précédemment va nous permettre


d’étudier cette déformation et ses conséquences. Illustrons la démarche par un exemple.
On observe un portefeuille simplifié d’individus non cadres de 20 à 42 ans résidant dans
une région à dépassements modérés et de sexe masculin. Cette population est couverte, sur
les montures, par une couverture complémentaire de base de niveau 3 s’élevant à 150 euros.
Nous allons étudier l’impact de la mise en place d’une couverture surcomplémentaire de
niveau 4 s’élevant à 200 euros.
4.3 Exploitation des résultats 87

Nous étudions donc plusieurs scénarii grâce à l’outil de tarification établi. Dans un
premier temps, le calcul est effectué avec les garanties du contrat de base. Pour évaluer
l’impact de la mise en place de la surcomplémentaire sur le contrat de base, les paramètres
utilisés précédemment sont conservés, seul le niveau de garantie est modifié. Il s’agit donc
du tarif observé pour un remboursement maximum de 150 euros sur des individus couverts
par une couverture globale de niveau 4. A titre indicatif la prime pure de la couverture
globale est également simulée.

Les résultats obtenus grâce à l’outil construit sont détaillés dans le tableau 4.11

Frais réels Remboursement Remboursement


moyens moyen moyen Surcom-
Complémentaire plémentaire
Contrat Complémentaire 161,58 e 134,42 e -
uniquement
Contrat Complémentaire + 181,82 e 139,90 e 25,21 e
Surcomplémentaire

Table 4.11 – Impact d’une surcomplémentaire sur le contrat de base

D’après les résultats obtenus, les frais réels moyens observés pour le portefeuille sont
portés de 161,58 euros à 181,52 euros, soit une augmentation de 13%. Cette augmentation
des frais réels moyens se répercute sur les remboursements du contrat complémentaire à
hauteur de 4%.

Le même phénomène est observable sur la fréquence de consommation. Notre modèle


évalue à 6% l’augmentation de consommation entre une couverture de niveau 3 et une
couverture de niveau 4.

Au final, l’impact de la surcomplémentaire sur la prime pure du contrat


complémentaire est évaluée à 10%. Si la prime pure d’équilibre évaluée avant
la mise en place de la surcomplémentaire est maintenue, le régime complé-
mentaire devient déficitaire.
Conclusion

L’objectif de ce mémoire était, d’une part, l’élaboration d’un outil de tarification santé,
d’autre part une étude de l’impact d’une surcomplémentaire sur la prime pure d’un contrat
complémentaire collectif.

Une grande partie de cette étude a été consacrée à l’étude du portefeuille d’assurés
et des données de consommation disponibles. Il s’agit, en effet, d’une étape essentielle à
une tarification, afin de bien maîtriser les informations permettant d’ajuster correctement
le tarif. Cette partie a mis en évidence les difficultés inhérentes à une tarification, liées
notamment au manque d’information, à la fusion de plusieurs portefeuilles et aux spéci-
ficités des contrats disponibles. Toutes ces contraintes nous ont conduit à segmenter le
portefeuille afin de construire des classes les plus homogènes possibles. Une étude de la
consommation par département a également été réalisée grâce à des méthodes d’analyse
en composante principale et de classification. Les départements ont ainsi été regroupés en
régions dans lesquelles les comportements de consommation sont proches.

L’instrument utilisé pour le calcul des primes pures est un outil classique en tarifica-
tion : le Modèle Linéaire Généralisé. Ce dernier s’est montré plus ou moins adéquat pour
la modélisation des coûts et des fréquences selon le type d’acte étudié. En particulier, nous
avons complexifié le modèle classique d’ajustement des coûts en ajoutant une composante
Binomiale au modèle Gamma. Ceci nous a permis de prendre en compte certaines spéci-
ficités des lois observées, liées notamment à la distinction entre les tarifs conventionnés et
non conventionnés.

La complexification du modèle des coûts a permis d’améliorer nettement son ajuste-


ment aux données empiriques. Les tests de validation effectués par l’étude des résidus ont
soulignés des problèmes d’adéquation du modèle des fréquences. Ils mettent en évidence
un certain nombre de points mal ajustés, une mauvaise adéquation de la fonction de lien
et la non vérification de l’hypothèse de normalité des résidus aux valeurs extrêmes. Le
modèle Binomiale Négatif retenu pour modéliser les fréquences demanderait à être com-
plexifié afin de prendre en compte le nombre important de personnes ne consommant
pas dans l’année (valeur zéro). Plusieurs modèles existent qui pourraient améliorer les
résultats comme les modèles zero-inflated, zero-altered ou encore two-part model.

Les résultats obtenus par la modélisation nous ont permis dans une dernière partie de
constituer un outil de tarification. La modélisation des frais réels effectuée précédemment
offre la possibilité de calculer les primes pures quelle que soit la grille de garantie ainsi
que la décomposition de la prime pure entre les différents postes de remboursement. Les
primes pures obtenues sont bien sûr des tarifs a priori qui demanderont un ajustement
4.3 Exploitation des résultats 89

lié aux particularités du portefeuille. Une étude complémentaire demanderait à être ef-
fectuée sur les conjoints à partir d’un échantillon moins hétérogène. De plus, il serait
intéressant d’avoir des statistiques démographiques pour construire les différents tarifs
comme Isolé/Famille, Isolé/Duo/Couple, sur les taux de personnes en couple par âge, par
exemple. Par ailleurs, l’exploitation des résultats fut également l’occasion d’une étude
complémentaire concernant les surcomplémentaires. Nous avons pu mettre ce phénomène
en évidence le phénomène d’aléa moral dans le poste optique, et dans une moindre me-
sure dans les autres postes de dépenses. L’étude des niveaux de garantie permet ainsi
de prendre en compte l’évolution de la consommation en fonction du niveau de garan-
tie et donc de fournir une mesure de l’impact d’une surcomplémentaire sur un contrat
complémentaire.
Bibliographie

[1] Etudes et Résultats no 786 : Les honoraires des professionnels de santé libéraux entre
2008 et 2010, tech. report, Direction de la recherche, des études, de l’évaluation et
des statistiques (DREES), 2011.
[2] La situation financière des organismes complémentaires assurant une couverture
santé, tech. report, Direction de la recherche, des études, de l’évaluation et des sta-
tistiques (DREES), 2011.
[3] Rapport d’activité de le commission de retraite et de prévoyance prévue par l’article l.
911-3 du code de la Sécurité sociale, tech. report, Commission des accords de retraite
et de prévoyance (COMAREP), 2011.
[4] Comptes nationaux de la santé 2010, tech. report, Direction de la recherche, des
études, de l’évaluation et des statistiques (DREES), 2012.
[5] Comptes nationaux de la santé 2011, tech. report, Direction de la recherche, des
études, de l’évaluation et des statistiques (DREES), 2012.
[6] J.-M. AOUIZERTATE, Alternative Neuronale en tarification santé, PhD thesis,
Conservatoire National des Arts et Métiers, 2010.
[7] A. Charpentier, Statistiques de l’assurance II - partie 1 : assurance non-vie -
tarification et provisionnement. 2011.
[8] G. D. Bahn and R. Massenburg, Deal with Excess Zeros in the Discrete Depen-
dant Variable, the Number of Homicide in Chicago Census Tract. 2008.
[9] M. Denuit and A. Charpentier, Mathématiques de l’assurance non-vie - Tome
II : Tarification et provisionnement, Economica, 2005.
[10] P. Dourgnon, A. Pierre, and T. Rochereau, L’enquête protection sociale com-
plémentaire d’entreprise 2009, tech. report, Institut de recherche et documentation
en économie de la santé (IRDES), 2012.
[11] C. Franc, M. Perronnin, and A. Pierre, Qui a souscrit une surcomplémen-
taire ? Une analyse dynamique de l’auto-sélection, tech. report, Institut de recherche
et documentation en économie de la santé (IRDES), 2010.
[12] M. Garnero, Les contrats les plus souscrits auprès des complémentaires santé en
2009, tech. report, Institut de recherche et documentation en économie de la santé
(IRDES), 2004.
[13] S. Guthmuller, F. Jusot, and J. Wittwer, Le recours à l’Aide Complémen-
taire santé : les enseignements d’une expérimentation sociale à Lille, tech. report,
Institut de recherche et documentation en économie de la santé (IRDES), 2011.
[14] F. Husson, S. Lê, and J. Pagès, Analyse de données avec R, Presses Universi-
taires de Rennes, 2009.
BIBLIOGRAPHIE 91

[15] F. Lagadec, Tarification d’un contrat de complémentaire santé par un Modèle Li-
néaire Généralisé, PhD thesis, EURIA, 2009.
[16] P. McCullagh and J. A. Nelder, Generalized Linear Models, Chapman and
Hall/CRC, monographs on Statistics and Applied Probability ed., 1989.
[17] M. Perronnin and A. Couffinhal, Accès à la couverture complémentaire mala-
die en France : une comparaison des niveaux de remboursement, tech. report, Institut
de recherche et documentation en économie de la santé (IRDES), 2004.
[18] M. Perronnin, S. Guillaume, and T. Rochereau, Enquête sur la protection
sociale 2010, tech. report, Institut de recherche et documentation en économie de la
santé (IRDES), 2012.
[19] M. Perronnin, A. Pierre, and T. Rochereau, La complémentaire santé en
France en 2008 : une large diffusion mais des inégalités d’accès, tech. report, Institut
de recherche et documentation en économie de la santé (IRDES), 2011.
[20] M. Vautrin, Elaboration d’une méthode de tarification avec indicateur de risque
pour les contrats complémentaires santé collectifs, PhD thesis, Institut de Statistiques
de l’Université de Paris, 2009.
Annexe A
A

Figure A.1 – Résultat de l’A.C.P. et de la classification hiérarchique dans le cas de


l’étude des dépassements de consultations chez le spécialiste

Figure A.2 – Cercle des corrélations : étude des dépassements de consultation chez le
spécialiste
Annexe B
B
Type de Niveau Niveau Niveau Niveau Niveau
garantie 1 2 3 4 5
Hospitalisation
Forfait journalier Forfait 100% 100% 100% 100% 100%
Chambre particulière Forfait 40e 60e 80e 100e 120e
Frais d’accompagnement Forfait 20e 30e 40e 50e 60e
Soins courants
Généraliste BR 100% 150% 250% 300% 400%
Spécialiste BR 100% 200% 300% 400% 500%
Auxiliaires médicaux BR 100% 150% 250% 300% 400%
Analyses médicales BR 100% 150% 250% 300% 400%
Radiologie BR 100% 200% 300% 400% 500%
Actes techniques médicaux BR 100% 200% 300% 400% 500%
Franchise actes lourds Forfait 100% 100% 100% 100% 100%
Pharmacie
Pharmacie 15 BR 100% 100% 100% 100% 100%
Pharmacie 35 BR 100% 100% 100% 100% 100%
Pharmacie 60 BR 100% 100% 100% 100% 100%
Optique
Monture Forfait/an 60e 110e 150e 180e 230e
Verres unifocaux Forfait/verre 70e 100e 130e 150e 200e
Verres multifocaux Forfait/verre 150e 190e 230e 290e 350e
Lentilles Forfait/an 0e 100e 200e 300e 400e
Dentaire
Soins dentaires BR 100% 200% 250% 300% 350%
Prothèses dentaires BR 200% 300% 400% 500% 600%
Autres
Médecine douce 3 sc./an 15e 30e 45e 55e 65e

Table B.1 – Grille de garanties utilisée


Annexe C
C
Les codes suivants permettent de calculer les coefficients du GLM.

Importation des données : Fréquences

> frequence <- read.table("C :/R/GE_NC_F.txt", header = TRUE, sep = " ;")
> # Transformation des variables en facteur et désignation de la modalité de référence #
> frequence$Sexe = C(frequence$base=2) #On désigne la modalité "M" comme modalité
de référence de la variable Sexe (par défaut "F" (ordre alphabétique)) #
> frequence$Age = C(as.factor(frequence$Age), base =2) # On transforme la variable
en facteur et on désigne las classe des 20-42 ans comme modalité de référence #

Importation des données : Coûts moyens, on procède de la même manière, la table est
appelée cm.
Mise en oeuvre du GLM : cas des fréquences avec la Binomiale Négative :
> regbn <- glm.nb(freq ∼ Age + Sexe + Niveau, data = frequence)
Mise en oeuvre du GLM dans le cas des coûts moyens : Régression logistique et loi Gamma

> cm$sansdep <- (cm$FR_BR)==1


> reglogit <- glm(sansdep ∼ Age + Sexe + Niveau + Region, data = cm, family =
binomial(link ="logit"))
> reggamma <- glm(FR_BR ∼ Age + Sexe + Niveau + Region, data = cm, family =
Gamma(link ="log"))
Accès aux coefficients :
> reggamma$coefficients
Accès au coefficient de dispersion :
> summary(reggamma)$dispersion
Valeur de µ̂ prédite pour un enfant de sexe masculin dans le niveau 5 avec intervalle de
confiance
> predict(regbn,newdata = data.frame(Sexe ="M", Age = "1", Niveau = "5"),type="response",
se = TRUE)
Annexe D
D
Les graphiques d’analyse des résidus employés pour valider les différents modèles sont
obtenus à partir des codes suivants :

Cas 1 : données de comptage


Résidus standardisés en fonction des valeurs prédites

fitted <- 2*sqrt(predict(regbn,frequence,type="response"))


rds <- rstandard(model = regbn,type="deviance")
plot(fitted,rds,main ="Résidus vs. Fitted Values, xlab = "Predicted values, ylab = "Rési-
dus standardisés de la déviance")
abline(h=0,col="red")
Normal QQ plot

rds <- rstandard(model = regbn, type ="deviance")


qqnorm(rds)
Cas 2 : régression logistique
Half Normal probability plot : ce graphique peut être obtenu grâce au package binomTools.

library(binomTools)
cm$sansdep1 <- replace(cm$sansdep, which(cm$sansdep == TRUE),1)
cm$sansdep1 <- replace(cm$sansdep1, which(cm$sansdep == FALSE),0)
cm$sansdep2 <- replace(cm$sansdep, which(cm$sansdep == TRUE),0)
cm$sansdep2 <- replace(cm$sansdep1, which(cm$sansdep == FALSE),1)
reglogit2 <- glm(cbind(sansdep1,sansdep2) ∼ Age + Sexe + Niveau + Region, data =
cm, family =binomial(link="logit"))
halfnorm(reglogit2, plot = TRUE, resType = "standard deviance")

Vous aimerez peut-être aussi