Académique Documents
Professionnel Documents
Culture Documents
MOTS CLES
Tarification, Frais de santé, Modèles Linéaires Généralisés, Contrats complémentaires
collectifs, Surcomplémentaires.
La contruction de cet outil repose sur une série de contrats collectifs d’entreprises,
pour lesquels la consommation annuelle ainsi que certaines caractéristiques des assurés
sont disponibles, permettant de définir un tarif par profil. Ce portefeuille a donc fait l’objet
d’une analyse préliminaire au travers notamment d’une analyse descriptive, du traitement
des données manquantes et d’une segmentation du portefeuille.
Deux paramètres ont été estimés pour la modélisation de la prime pure de chaque type
d’acte : la fréquence de consommation et le coût moyen par sinistre. L’outil principal utilisé
pour cette modélisation est le modèle linéaire généralisé. Un modèle à deux composantes
a été mis en oeuvre afin d’améliorer l’ajustement aux données, notamment pour les postes
disposant d’un nombre important d’actes sans dépassement. Les détails de la conception
de l’outil sont présentés, notamment la construction des primes ajustées à la situation
démographique de l’entreprise. Une évaluation du risque d’aléa moral a été effectuée sur
le poste optique pour lequel ce phénomène est particulièrement important.
Abstract
KEY WORDS
Pricing, Healthcare expenses, Generalized Linear Models, Collective complementary
insurance policies, supplementary insurance policy.
Since the past laws tend to reduce the reimbursement of the medical expenses by
the French Social Security, patients are required to pay a more important part of their
healthcare. That is why complementary coverage has become a key element in the French
health system. In 2010, about 94% of French people benefit from a complementary health
insurance, according to the Health and Social Protection Investigation. For the past few
years, social welfare for workers has been a recurrent subject in collective bargaining.
More and more branch agreements now require a minimum level of health coverage. Some
companies even chose to offer an additional cover to complete the complementary one.
The aim of this thesis is to build a pricing tool. On the one hand, this tool must be
able to work with any structure of demography. On the other hand, it should take into
account different levels of cover and their interactions.
The pricing tool is based on a large range of collective health insurance contracts.
Data about the annual consumption and some policyholder’s feature is available. It allows
estimating a different rate per profile. For that purpose, a preliminary analysis was done
on the portfolio : descriptive analysis, missing data processing and segmentation of the
population.
The pure premium rate was modeled thanks to two parameters for each kind of medical
expenditure : the consumption frequency and the average cost of the risk. The statisti-
cal tool used for pricing is Generalized Linear Model (GLM). In particular cases, a two
component model was used in order to fit closer to the data. The latter can model the
discontinuity in costs curves, caused by practitioners charging more than what the Social
Security reimburse.
Details about the tool development are presented too, including the calculation of the
premium adjusted to the demography. As for the moral hazard risk, it was enhanced for
optical products expenditures but less obvious for some other cares.
Remerciements
Je remercie également Olivier LOPEZ, mon référant ISUP, pour sa disponibilité, pour
la pertinence des ses conseils, qui ont su m’orienter efficacement dans mes réflexions.
4 Tarification 67
4.1 Modélisation des fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1.1 Ajustement des lois de fréquence . . . . . . . . . . . . . . . . . . . 67
4.1.2 Le Modèle de régression binomial négatif . . . . . . . . . . . . . . . 69
4.1.2.1 Sélection des variables . . . . . . . . . . . . . . . . . . . . 69
4.1.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.1.2.3 Etude des résidus . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.2.4 Intervalle de confiance pour la prédiction . . . . . . . . . . 74
4.2 Modélisation des coûts moyens de sinistres . . . . . . . . . . . . . . . . . . 75
4.2.1 Significativité des paramètres . . . . . . . . . . . . . . . . . . . . . 75
4.2.2 Diagnostique des résidus . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2.1 Occurrence des dépassements . . . . . . . . . . . . . . . . 76
4.2.2.2 Importance des dépassements . . . . . . . . . . . . . . . . 77
4.2.3 Les résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3 Exploitation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6
A Annexe A 92
B Annexe B 93
C Annexe C 94
D Annexe D 95
Introduction
L adescomplémentaire santé est aujourd’hui un élément crucial pour l’accès aux soins
ménages. En 2011, 15,4% de la population française déclarait avoir renoncé à
certains soins pour des raisons financières. Ce chiffre atteignait 30% parmi les personnes
non couvertes par des complémentaires santé. Selon la Cour des Comptes, le montant lié
au désengagement de la Sécurité sociale se serait élevé à 3,3 milliards d’euros entre 2004
et 2008. Le reste à charge des ménages s’en retrouve considérablement accru.
Plusieurs niveaux sont distingués, qui forment la structure de financement des dépenses
médicales en France. Le schéma 1.1 représente ces différents niveaux. Cette première partie
sera consacrée à les présenter, ainsi que le cadre législatif dans lequel ils évoluent.
– Les soins de ville. Ils comprennent les soins effectués en cabinets de ville et en
centres de soins. Ces derniers se composent des soins dispensés au titre de l’activité
libérale par les médecins, les dentistes et les auxiliaires médicaux (les infirmiers, mas-
seurs kinésithérapeutes, les orthophonistes, les orthoptistes. . .) et des actes d’analyse
effectués en laboratoire.
– Les soins hospitaliers. Ils occupent une place prépondérante dans la C.S.B.M. :
46,4% en 2011. C’est le poste dans lequel la Sécurité sociale intervient le plus : à
hauteur de 90% comme l’indique la figure 1.2.
– Les transports sanitaires. Ils englobent à la fois les transports spécialisés (ambu-
lances privées, ambulances d’établissements publics hospitaliers. . .) et les transports
non spécialisés utilisés par les malades (transports publics, taxis, voitures particu-
lières).
1. Le découpage est ici donné pour la base 2005. En 2011, les comptes sont, en effet, passés de la base
2000 à la base 2005. Il s’agit d’une réversion régulière des concepts, nomenclatures et méthodes de la
comptabilité nationale, afin qu’elle reflète au mieux la réalité. Pour plus de détail sur les changements
effectués, consulter les comptes de la santé 2010 [4].
1.1 Le premier pilier de remboursement : la Sécurité sociale 12
– Les biens médicaux. Ce poste comprend les médicaments et autres biens médi-
caux acquis sous prescription ou non (prothèses, orthèses, véhicules pour handicapés
physiques (V.H.P.)).
Elle est mise en place par les ordonnances du 4 et du 19 octobre 1945. Il s’agit d’un sys-
tème à double influence bismarckienne (où prévaut le principe d’assurance liée au travail)
et beveridgienne (fondée sur la solidarité, indépendamment de toute activité profession-
nelle). La première ordonnance prévoit un réseau coordonné de caisses se substituant à
de multiples organismes. L’unité administrative n’est cependant pas réalisée à sa création
et ne l’est toujours pas. En effet, de nombreux régimes spéciaux subsistent, ayant refusé
de s’intégrer dans le régime général : fonctionnaires, marins, cheminots, mineurs . . . L’or-
donnance du 19 octobre concerne les risques maladie, maternité, invalidité, vieillesse et
décès.
Dans les pays d’influence anglo-saxone, le financement de la protection sociale est lar-
gement fiscalisé. Dans les autres, en France en particulier, il est fondé sur des cotisations
sociales. Cependant, depuis quelques années, l’impôt y prend une part de plus en plus
importante : Contribution Sociale Généralisée (C.S.G.), taxes sur l’alcool. . . Les contrats
d’assurance santé complémentaires contribuent également à ce financement. La Taxe Spé-
ciale sur les Conventions d’Assurance (T.C.A.) est actuellement de 7% pour les contrats
dits "responsables" 2 et de 9% pour les autres. Elle est destinée à réduire le déficit de
l’assurance maladie, s’élevant à 18,1 milliards d’euros en 2011.
de Remboursement (B.R.).
L aSoins
part de la Sécurité sociale dans le financement de la C.S.B.M. (Consommation de
et de Biens Médicaux) s’élevait à 75,5 % (135,8 milliards d’euros) en 2011, contre
77,1 % en 1995. La structure de financement de ces dépenses s’est, en effet, légèrement
déformée depuis 1995, avec une stabilisation depuis 2009. Plusieurs facteurs contraires ont
contribué à cette évolution.
Tout d’abord, les biens médicaux les moins biens remboursés comme l’optique occupent
une place accrue dans la C.S.B.M. Par ailleurs, le nombre de dépassements d’honoraires
est en nette progression. Selon une étude de la D.R.E.E.S. [1], les honoraires totaux des
praticiens de santé ont progressé au rythme moyen annuel de + 0,7%, entre 2002 et 2010,
toutes spécialités confondues. Ainsi, en moyenne, les dépassements de tarifs conventionnés
représentent 11,7% des honoraires totaux des médecins libéraux. Une grande variabilité est
constatée selon les spécialités. Les omnipraticiens et les radiologues sont les spécialistes
qui sont le moins fréquemment en secteur 2 4 (11%). En revanche, 77% des chirurgiens,
près de la moitié des gynécologues et des ophtalmologues y sont. Parallèlement, le nombre
d’assurés sociaux bénéficiant d’une exonération du ticket modérateur pour affectation
longue durée (A.L.D.) a connu une nette progression jusqu’en 2009, pesant sur le régime
obligatoire.
franchises médicales sur les consultations, la biologie, les boîtes de médicaments en sont
des exemples. L’augmentation continue des dépenses pharmaceutiques, entre 2002 et 2011,
a mené le gouvernement à prendre des mesures pour réduire ces coûts. Le taux de rem-
boursement d’un médicament par l’Assurance Maladie Obligatoire dépend directement de
son Service Médical Rendu (S.M.R.) qui est évalué par la Commission de Transparence.
Quatre niveaux de S.M.R. sont ainsi définis :
individuels englobent ceux obtenus par une démarche personnelle ou issus de la transfor-
mation d’un contrat collectif en un contrat individuel au moment du passage à la retraite
ou de la perte d’un emploi. Cette catégorie ne regroupe pas exactement tout l’ensemble
des contrats individuels car beaucoup de salariés fonctionnaires déclarent à tort comme
"obtenus par leur entreprise" des contrats qui sont juridiquement individuels.
La pharmacie
Les Consultations
5. Ce sont les contrats les plus souscrits auprès des organismes éudiés.
1.2 La protection sociale complémentaire 16
Dentaire
La majeure partie des dépenses effectuées pour ce poste concernent les prothèses den-
taires. Celles-ci sont onéreuses et relativement mal remboursées par la Sécurité sociale :
la base de remboursement est de 107,5e pour les plus courantes.
L’optique
L’hospitalisation
institution de prévoyance ou une société d’assurance. Une liste agréée des organismes est
établie par le préfet de chaque département. Les dépenses engagées par ces organismes
sont remboursées par un fonds de financement de la protection complémentaire de la
couverture universelle du risque maladie. Celui-ci est financé par une contribution des
organismes assureurs qui est fonction de leur chiffre d’affaire : la T.S.A. (Taxe de solida-
rité Additionnelle)(qui s’élève à 6,27% en 2012), par une dotation de la Cnamts (Caisse
nationale de l’assurance maladie des travailleurs salariés), des subventions budgétaires de
l’Etat et des cotisations sur la consommation d’alcool ou de tabac.
Selon une étude de l’I.R.D.E.S. [13], la population concernée par ce dispositif s’élevait
à 2,2 millions de personnes en 2007. Cependant, malgré une progression du nombre de
demandes, elle ne dépasse pas un quart de la population ciblée. Ceci est notamment lié
au reste à charge important laissé aux bénéficiaires, mais surtout au manque d’accès à
l’information dans les populations concernées et à la complexité des démarches nécessaires
pour en bénéficier.
A ucomplémentaire
regard de l’augmentation constante du reste à charge des ménages, bénéficier d’une
santé est devenu déterminant pour continuer d’accéder aux soins. Se-
lon les dossiers des comptes nationaux de la santé de la D.R.E.E.S. [4], le renoncement
aux soins affectait en 2008 15,4% de la population adulte en ménage ordinaire. Ces bar-
rières financières concernent particulièrement les soins dentaires, et dans une moindre
mesure l’optique et les consultations de médecins. Les organismes complémentaires cou-
vraient 13,5% de l’ensemble des dépenses de soins et de biens médicaux en 2010. Selon
une enquête sur la protection sociale effectuée en 2010 par l’I.R.D.E.S., 89,5% des per-
sonnes interrogées dans le cadre de l’étude ont déclaré être assurées par une couverture
complémentaire hors CMU-C [18].
Le marché de la complémentaire santé est partagé entre trois types d’opérateurs : les
mutuelles, les sociétés d’assurance et les institutions de prévoyance. Selon les comptes de
1.3 Présentation des différents types de couvertures 19
la santé 2010 [4], elles financent respectivement 7,5%, 3,6% et 2,5% de la C.S.B.M.
– Les mutuelles
Elles sont prédominantes sur le marché de la complémentaire santé. Ce sont des
organismes à but non lucratif, contrôlés par les adhérents et relevant du Code de la
Mutualité. Le secteur mutualiste est très morcelé : les mutuelles représentent 86%
des organismes complémentaires santé. Selon un rapport 2011 de la D.R.E.E.S. sur
la situation financière des organismes complémentaires en santé [2], les mutuelles qui
assurent la couverture santé le font presque exclusivement de toute autre activité,
avec plus de 90% de leur chiffre d’affaires global qui concerne leur activité santé. Par
ailleurs, elles proposent surtout des contrats individuels : plus de 75% des contrats
de couverture santé des mutuelles contre 25% pour les sociétés d’assurance et 17%
pour les institutions de prévoyance. La population assurée par ce type d’organisme
est relativement âgée.
En 2009, 56% des assurés couverts par une couverture complémentaire bénéficiaient d’une
garantie individuelle et 44% d’une garantie collective [12].
1989 Le 31 décembre 1989, la loi n°89 - 1009, dite Loi Evin, s’érige en acte fondamental
de la protection sociale complémentaire en renforçant les garanties offertes aux personnes
assurées contre certains risques. Trois points clés peuvent être mis en évidence :
2003 La Loi n° 2003-774 du 21 août 2003, portant sur la réforme des retraites, dite Loi
Fillon, instaure de nouvelles conditions d’exonération des cotisations de Sécurité sociale
pour les contributions de l’employeur et du comité d’entreprise aux régimes de complé-
mentaire santé. La notion de contrat responsable est alors introduite. Le contrat est dit
"responsable" au sens de l’article L.871-1 du code de la Sécurité sociale s’il satisfait à
certaines conditions :
– La participation forfaitaire et les franchises médicales pour les médicaments, les actes
paramédicaux et les transports sanitaires doivent être exclues des remboursements ;
Ainsi, depuis cette réforme, les principales conditions pour bénéficier de l’exonération
socio-fiscale sont les suivantes :
– Le régime doit être à caractère collectif , c’est-à-dire, qu’il doit être appliqué
à l’ensemble du personnel ou à certaines catégories objectives de salariés ;
2012 Le décret n°2012-386 du 21 mars 2012 fait évoluer les conditions à respecter par
les complémentaires santé responsables :
– Il inclut une obligation de prendre en charge les dépassements d’honoraires des tarifs
des actes et consultations de médecine exerçant à titre libéral une spécialité chirur-
gicale, obstétricale ou d’anesthésie-réanimation encadrés dans les conditions prévues
à l’article 36 de la convention nationale des médecins généralistes et spécialistes du
26 juillet 2011. Le taux maximum de dépassement d’honoraires est fixé à 50% du
tarif de l’acte par un arrêté du 21 mars 2012.
1.3 Présentation des différents types de couvertures 22
En général, les contrats complémentaires collectifs mis en place dans les entreprises
concernent l’ensemble des salariés. Il arrive néanmoins qu’une distinction entre cadres et
non-cadres soit réalisée du point de vue des garanties. La tendance jurisprudentielle liée
à l’égalité de traitement tend à atténuer ces distinctions.
Dans certains cas, les familles peuvent à titre obligatoire ou non, être couvertes par la
complémentaire du salarié. Les garanties font parfois une distinction entre la famille au
sens classique du terme (enfants et conjoints, parfois ascendants) et la famille à charge au
sens de la Sécurité sociale qui exclut les conjoints non à charge.
Il existe ainsi plusieurs types de cotisations proposées par les contrats complémentaires.
Les plus courants sont les suivants 9 :
– Isolé/Famille ;
– Adulte/Enfant ;
– Uniforme : ce type de cotisation met en oeuvre une solidarité des salariés isolés vers
les salariés en famille.
– Isolé/Duo/Famille.
Les niveaux de garanties proposés par les complémentaires d’entreprises sont très va-
riés. D’une manière générale, les garanties des contrats collectifs sont plus élevées que
celles des contrats individuels car ils sont moins anti-sélectifs. Par exemple, le montant
moyen remboursé par les contrats modaux pour une consultation spécialiste de secteur
2 facturée 60 euros est de 24,5 euros pour un contrat collectif contre 11 euros pour un
contrat individuel selon une étude de l’I.R.D.E.S. [12].
Le contrat collectif d’entreprise présente des avantages pour toutes les parties. Tout
d’abord, il permet un accès plus facile du salarié à une couverture complémentaire grâce à
9. La section 4.3.2 du présent mémoire reprend ces différents types de cotisation de manière plus
détaillée.
1.3 Présentation des différents types de couvertures 23
Par ailleurs, les incitations sociales et fiscales liées aux contrats responsables sont
intéressantes à la fois pour le salarié et pour l’employeur.
Exonération sociale
Déductibilité Sociale
Enfin, les cadres bénéficient souvent d’une couverture complémentaire. Ainsi, dans les
entreprises de dix salariés et plus, 43% des établissements dont l’entreprise n’emploie pas
10. Respectivement Contribution Sociale Généralisée et Contribution pour le Remboursement de la
Dette Sociale
1.3 Présentation des différents types de couvertures 24
de cadres proposent une complémentaire santé, contre 85% s’il elle en emploie plus de 9%.
Les conventions collectives imposent parfois la mise en place de garanties santé au sein
d’une branche professionnelle. On parle de régime conventionnel. Plusieurs éléments
peuvent être précisés dans ces accords :
Les négociations collectives en termes de protection sociale sont très actives depuis
ces dernières années. Ainsi, en 2011, environ 150 accords ou avenants portant sur la
prévoyance ou la santé ont été signés par les partenaires sociaux. Plus particulièrement,
l’année 2011 a été marquée par la création de cinq régimes de frais de santé :
– Les fleuristes ;
– La vente et services des animaux familiers ;
– Les entreprises techniques au service de la création de l’évènement ;
– Les vétérinaires, praticiens salariés ;
– Les cabinets et cliniques vétérinaires ;
– Les transports routiers de marchandises, mis en place en 2012.
Trois branches ont mis en place à la fois un régime de prévoyance et de frais de santé :
– Les activités de marchés financiers,
– L’immobilier,
– L’aide, l’accompagnement, les soins et les services à domicile.
Par ailleurs, l’accord collectif de la branche des transports routiers de voyageurs a créé
une cotisation minimale destinée à mettre en place un régime de santé.
lui de séparer les individus par type de risque sans forcément passer par le questionnaire
médical.
Selon une étude de l’I.R.D.E.S. [11], l’adhésion à une surcomplémentaire santé est
fortement liée à l’état de santé (évalué à partir des dépenses passées et par l’âge). Cette
étude met bien en évidence le phénomène d’anti-sélection.
Par ailleurs, il arrive que certains professionnels de santé ajustent leurs tarifs en fonc-
tion des limites de garanties contractuelles. De telles pratiques expriment une volonté
d’optimiser les garanties afin de limiter le reste à charge des patients assurés. Cependant,
ceci se fait au détriment des régimes de frais de santé.
Ainsi, la mise en place d’un contrat surcomplémentaire santé dans une entreprise peut
augmenter la consommation des assurés et déformer la courbe des dépenses des individus.
Cette déformation peut alors être à l’origine d’un surcoût pour le régime de base. Celui-ci
peut, en effet, constater une augmentation de la dépense moyenne mais également de la
fréquence de consommation. A travers la tarification d’une complémentaire en frais de
santé collective, nous tenterons de mettre en évidence ce phénomène.
Mise en place du cadre théorique
2
Ce chapitre rappelle brièvement les méthodes statistiques disponibles les plus cou-
rantes pour effectuer une tarification santé. En particulier, nous présenterons les fonde-
ments théoriques de l’une d’elles : l’approche par les Modèles Linéaires Généralisés. Nous
préciserons les lois employées pour le cas de la tarification santé et présenterons un modèle
mixte pour la modélisation des frais réels (Coe and Stern 1982).
N
X
S= Ci (2.1)
i=1
où :
– Ci pour i=(1,. . .,N) est le coût du sinistre i pour l’assureur. Ces variables aléatoires
sont supposées indépendantes et identiquement distribuées ;
– N est une variable aléatoire, à valeurs dans N, qui représente le nombre de sinistres
survenus durant la période d’observation.
La prime pure peut donc s’écrire comme le produit de deux composantes : la fréquence
moyenne et le coût moyen par acte.
– La méthode empirique : Cette méthode consiste à calculer le coût moyen par âge
ou classe d’âges et par sexe pour chaque groupe d’actes. Un tarif est donc isolé pour
un individu de référence dont les caractéristiques sont fixées. Une pondération de ce
tarif selon les caractéristiques de la population assurée peut ensuite être appliquée :
coefficients familial, CSP, de zone. . .
La démarche retenue dans le cadre de ce mémoire, pour évaluer les primes pures, est
celle des Modèles Linéaires Généralisés. En effet, il est intéressant d’avoir une approche
poste par poste afin d’aboutir aux objectifs fixés par ce mémoire. Cette étude a, en effet,
pour finalité la construction d’un outil de tarification. Il est également intéressant d’avoir
une vision détaillée de la prime pour répondre à des besoins d’évaluation de l’impact
d’une surcomplémentaire sur une complémentaire. Cette méthodologie permet, de plus, de
procéder à des mises à jours rapides. Ceci a donc l’avantage de résoudre la problématique
liée à l’évolution fréquente de la réglementation dans le domaine. L’approche plus globale
obtenue par réseaux de neurones ne permet pas de voir explicitement les primes pures
relatives aux différents types d’actes. Le modèle choisi permettra de disposer des courbes
de consommation pour toutes les classes d’acte et donc de calculer un tarif pour tout
niveau de garantie.
La modélisation se fera à l’aide du logiciel R, des exemples des codes utilisés pour
l’étude sont disponibles en annexe.
2.2 Principe des Modèles Linéaires Généralisés 29
Les Modèles Linéaires Généralisés ou General Linear Models (GLM) ont été introduits
pour la première fois pour l’application actuarielle par des actuaires londoniens de la City
University à la fin du 20ème siècle. Ils permettent de modéliser des phénomènes beaucoup
plus complexes que les modèles linéaires classiques.
Cette partie rappelle les grands principes de ce type de modélisation. Pour plus de
détails théoriques, il est possible de se référer à l’ouvrage de P. MC CULLAGH ET J.A.
NELDER Generalized Linear Models [16]. Concernant leur utilisation en actuariat, on
pourra consulter l’ouvrage Mathématiques de l’assurance non-vie par Michel DENUIT et
Arthur CHARPENTIER [9]. Le cours de Statistique de l’Assurance II par Arthur CHAR-
PENTIER [7], propose une approche pratique de la tarification par Modèles Linéaires
Généralisés au moyen du logiciel R.
Les lois de la famille exponentielle sont des lois de probabilité à deux paramètres, θ et
φ, dont la densité peut se mettre sous la forme :
yθ − b(θ)
f (y|θ, φ) = exp( + c(y, φ)) (2.3)
φ
où :
– y ∈ S un sous-ensemble de R ou de N ;
– θ est appelé paramètre naturel ;
– φ est le paramètre de dispersion ;
– b est une fonction définie sur R, deux fois dérivable et de dérivée première injective ;
– c est une fonction définie sur R2 ;
µ = E(Y) = b’(θ)
où 0 et 00
désignent les dérivés premières et secondes par rapport à θ.
La variance s’exprime donc comme le produit de deux fonctions : l’une, b00 (θ), qui
dépend uniquement du paramètre θ, que l’on appelle fonction de variance V(µ), l’autre
qui ne dépend que du paramètre de dispersion. Pour les lois de Poisson et Gamma, la
variance est une fonction croissante de la moyenne.
n
E(Y ) = g −1 ( βi Xi ) = g −1 (η)
X
(2.4)
i=1
où :
– g est une fonction bijective et deux fois continument différentiable, appelée fonction
de lien ;
– βi pour i=(1,. . .,n) sont des réels ;
– η est appelé prédicteur linéaire.
Chacune des lois de probabilité de la famille exponentielle possède une fonction de lien
spécifique, qui permet de relier l’espérance µ au paramètre naturel θ. Ces fonctions sont
dites de lien canonique. Quelques fonctions de lien canoniques usuelles sont présentées à
la figure 2.1
Table 2.1 – Fonction de lien canonique et paramètres pour les lois usuelles
yi θi − b(θi )
f (yi |θi , φ) = exp( + c(yi , φ)), yi0 y ∈ S (2.5)
φ
La densité jointe de Y1 , Y2 , . . . , Yn peut donc s’écrire :
n Pn Pn n
Y i=1 yi θi − i=1 b(θi ) X
f (y|θ, φ) = f (yi |θi , φ) = exp( + c(yi , φ)) (2.6)
i=1 φ i=1
On suppose que les θi sont fonctions d’un certain nombre de paramètres : β0 , β1 , . . . , βn
tels que, en notant µi la moyenne de Yi :
n
X
g(µi ) = β0 + β i xi (2.7)
i=1
Dans la pratique, un individu est caractérisé par une série de variables explicatives :
tranche d’âge, sexe, catégorie socio-professionnelle . . .Les variables continues peuvent être
segmentées en classes de manière à ne disposer que de variables qualitatives. Dans ce cas,
un individu peut être représenté par un vecteur binaire donnant les valeurs des variables
ayant servi à le caractériser. Ce genre de modélisation demande une étude préalable des
données, afin de déterminer les variables qui ont une influence sur le tarif.
L’individu pour lequel toutes les variables explicatives valent 0 est appelé individu de
référence ou intercept. Les caractéristiques de l’individu de référence sont souvent choisies
de manière à ce qu’il soit le plus représenté dans le portefeuille. La prédiction pour un
individu de référence est donc : µi = g −1 (β0 ).
Dans le cas d’un modèle multiplicatif (lien logarithmique), la valeur prédite pour un
individu s’écrit comme le produit du coefficient de la classe de référence par une série
de coefficients correcteurs, liés aux modalités des paramètres caractérisant cet individu.
Ainsi, un coefficient peut être interprété comme une sur-sinistralité (β > 0) ou une sous-
sinistralité (β < 0) liée à une caractéristique par rapport à l’individu de référence.
n n n
X X yi θi − b(θi ) X
L(θ(β)|y, φ) = ln(f (yi |θi , φ)) = + c(yi , φ)) (2.8)
i=1 i=1 φ i=1
Pour cela, il faut résoudre le système des équations dites de vraisemblance, qui an-
nulent les dérivées partielles par rapport aux βi . Cependant, les équations composant
ce système ne possèdent, en général, pas de solution explicite. Il faut donc les résoudre
numériquement. Le logiciel R utilise pour cela la méthode de Newton-Raphson.
2.4 Méthodes de sélection des paramètres 32
Remarque : Dans le cas d’une loi de Poisson, le paramètre de dispersion est égal à 1.
– L’ajustement maximum des données, ce qui revient à avoir une vraisemblance maxi-
male ;
Le critère d’Akaike se base sur ces deux aspects antagonistes. Il pénalise la log-vraisemblance
afin de tenir compte du nombre de paramètres. Il est défini de la façon suivante :
Afin de choisir le meilleur modèle, l’idéal serait de tester toutes les combinaisons
possibles, ce qui peut demander des temps de calculs très importants dans le cas d’un
grand nombre de paramètres. Une stratégie possible est alors d’utiliser une procédure de
type pas-à-pas, disponible sous R grâce à la commande stepAIC. Il en existe plusieurs
méthodes :
2.5 Les intervalles de confiance 33
– La méthode forward : Une première variable est incluse dans le modèle. La se-
conde est choisie de manière à minimiser le critère AIC. Les autres variables sont
ajoutées selon le même principe jusqu’à ce que l’amélioration apportée ne soit plus
significative.
Les estimateurs des coefficients sont obtenus par maximum de vraisemblance. Ils ont
donc les propriétés suivantes :
– Ils sont asymptotiquement sans biais ;
q L
– Ils sont asymptotiquement normaux : (N )(α̂ − α) N (0, Σ).
−→
où :
– Σ = I(α)−1 avec I(α) est la matrice d’information de Fisher au point α ;
– N est le nombre d’observations.
Dans le cas où φ est connu et fixé, alors I(α) = φ(X 0 X)−1 . Il est alors possible de
construire des régions de confiance pour le paramètre β et des intervalles de confiance
pour les paramètres. Dans les logiciels de statistiques comme R, l’estimation de φ est
très souvent conduite de manière séparée et l’intervalle de confiance est construit en
considérant que φ est fixé.
Intervalles de confiance Les intervalles de confiance fournis dans les logiciels de statis-
tiques sont plutôt les intervalles de confiance pour les paramètres pris séparément. D’après
la propriété de normalité asymptotique de l’estimateur du maximum de vraisemblance, la
jème composante de β̂, βˆj suit une loi normale de moyenne βj et de variance σ 2 (X 0 X)−1jj
(jème élément diagonal de l’inverse de la matrice d’information de Fisher).
où, u1−α/2 est le quantile d’ordre 1 - α/2 d’une loi normale centrée réduite.
D∗ = φD (2.12)
Si le modèle décrit bien les données observées, D suit approximativement une loi
χ2n−p−1 . Ainsi, une valeur observée trop élevée suggère une mauvaise adéquation du modèle.
En pratique, le critère suivant peut être utilisé :
Le modèle est jugé de mauvaise qualité si Dobs > χ2n−p−1;1−α .
Les résidus les plus connus sont présentés ci-après, ainsi que les principaux axes d’ana-
lyse de ces derniers. Pour plus de détails, il est possible de se référer à l’ouvrage Generalized
Linear Models par McCullagh et Nelder (1989)[16].
2.6 Validation du modèle 35
– Les résidus bruts : yi − ŷi . Ils n’ont pas toujours la même variance, sont difficiles à
interpréter et donc peu utilisés.
– Les résidus de Pearson : McCullagh et Nelder [16] définissent les résidus de Pearson
comme les résidus bruts normalisés par l’estimation de l’écart-type de Y. Ces résidus
ont l’inconvénient de ne pas avoir une distribution normale.
yi − µ̂i
q ,
V (µ̂i )
où :
– V(.) est la fonction de variance ;
Les résidus sont dits standardisés quand ils ont été divisés par un facteur qui rend la
variance constante. Pour les résidus de Pearson, la formule est donnée par :
y − µ̂
q ,
φ̂V (µ̂(1 − h))
où :
– V(.) est la fonction de variance ;
– φ̂ est une estimation du paramètre de dispersion ;
– h est l’ensemble des éléments diagonaux de la matrice de projection.
Ces résidus peuvent être représentés graphiquement afin de détecter les écarts par
rapport au modèle :
– L’index plot : Ce graphique ordonne les résidus en fonction de leur numéro d’ob-
servation. Il est particulièrement intéressant si la variable à expliquer est binaire. Il
permet de repérer les observations conduisant à de grands résidus.
– Résidus standardisés de déviance contre les valeurs ajustées sur une échelle d’in-
formation constante : McCullagh et Nedler précisent que l’échelle d’information
2.7 Application à la tarification santé 36
– Le half Normal probability plot : Ce graphique est une bonne alternative au Normal
plot. Il peut être construit en calculant la valeur absolue des résidus standardisés de
la déviance, rangés par ordre croissant. Le kième élément est représenté en fonction
de φ( k+n−1/8
2n+1/2
), où φ(α) est le quantile d’ordre α d’une loi normale centrée réduite.
Il permet de déterminer si un facteur est important ou non.
n
X
E(Ni |xi ) = di exp( βi xi ). (2.13)
i=1
Cependant, ce modèle présente une contrainte assez forte puisqu’il suppose l’égalité
entre le nombre moyen de sinistres et la variabilité de ce nombre au sein de chaque classe
de risque. Souvent, cette contrainte n’est pas satisfaite.
au sein de la classe : n
X
(Ni |xi , ei ) ∼ P(exp( βi xi + ei )). (2.14)
i=1
La plupart des distributions pour cette erreur ne permettent pas d’obtenir une expres-
sion explicite, sauf la densité Gamma. La distribution mélangée obtenue est alors la loi
Binomiale Négative.
Cette loi n’appartient pas à la famille exponentielle. En effet, elle dépend d’un para-
mètre de dispersion aléatoire. Par définition, si X ∼ BN(n,p) alors :
Γ(x + n) n
P(X=x) = p (1 − p)x ,
x!Γ(n)
avec n entier et 0 ≤ p ≤ 1.
n
Si on pose p = n+µ
, il est alors possible de se ramener à une loi exponentielle en
supposant n fixé.
Γ(x+n) µ x
P(X=x) = ( n )n ( n+µ
x!Γ(n) n+µ
) ,
µ2
Dans ce cas, la moyenne est donnée par E(X) = µ et la variance par V(X) = µ + n
.
Dans le cadre d’une fonction de lien exponentielle, µ = exp( ni=1 βi xi ).
P
Dans notre contexte, cette probabilité peut être interprétée comme la probabilité de
sélectionner un individu ayant eu x actes au cours de la période d’exposition avant d’en
rencontrer un n’ayant pas consommé.
Afin de déterminer la loi la plus adéquate, nous estimerons les paramètres de la loi
théorique par la méthode du maximum de vraisemblance. La loi théorique sera ensuite
comparée à la loi empirique par un test du Khi-deux. Ce dernier permet, en effet, de tester
l’ajustement d’une série d’observations à une loi continue.
Plusieurs types d’actes peuvent être distingués, donnant lieu à des approches de tari-
fication différentes :
2.7 Application à la tarification santé 38
– Les actes pris en charge sur les frais réels avec plafond éventuel. C’est
le cas des remboursements pour les équipements d’optique : verres, montures. . .Ils
sont exprimés en forfaits en euros.
Dans ce cas, la charge de sinistres pour l’assureur est donnée par la formule suivante :
N
X
C= min(Ci − SSi , P ); (2.15)
i=1
où :
– P est le plafond fixé par la garantie ;
– Ci est la dépense engagée pour l’acte i et SSi le remboursement de la Sécurité
sociale pour l’acte i ;
– N est le nombre d’actes observés.
Le calcul de la prime pure pour ce type d’acte demande donc une modélisation de
la courbe de répartition des frais réels.
Pour ce type d’acte, la charge de sinistre pour l’assureur est donnée par la formule
suivante :
N
X
C= Ci .x; (2.16)
i=1
où :
– Ci est la dépense engagée pour l’acte i exprimée en euros ;
– x est le taux de remboursement prévu par la garantie (en fonction du tarif conven-
tionnel).
Pour ce cas de figure, le calcul de la prime pure est également possible grâce à une
modélisation de la courbe de répartition des frais réels. Cette dernière coïncide avec
la courbe de répartition des bases de remboursement.
où :
– F R_BRi est la dépense engagée pour l’acte i exprimée en pourcentage de la base
de remboursement ;
– T Ci est le tarif conventionnel appliqué à l’acte i en euros ;
– P est le plafond de la garantie, exprimé en pourcentage de la base de rembourse-
ment.
Dans ce cas, une modélisation de la courbe des frais réels ne suffit pas pour effectuer
les calculs de la prime pure. Par exemple, dans le cas d’une consultation généraliste,
il faut pouvoir distinguer un acte avec dépassement facturé 26e (TC = 23e)d’un
acte sans dépassement avec une majoration de coordination spécialiste par exemple
(MCS), également facturé 26e (TC = 26e). En effet, ces deux actes n’engendrent
pas la même structure de remboursement. Dans le premier cas, les trois euros de
dépassement sont entièrement à la charge de l’assuré ou éventuellement de sa com-
plémentaire. Dans l’autre cas, la Sécurité sociale prend en charge une partie de la
majoration (70%).
Figure 2.2 – Courbe des frais réels en pourcentage de la base de remboursement pour les
consultations chez le spécialiste obtenue par les données brutes du portefeuille.
La densité obtenue est donc de la forme suivante, dont les composantes seront définies
par la suite :
La survenance des dépassements est modélisée par une variable aléatoire binaire W,
qui prend la valeur 1 si l’acte est facturé avec dépassement et 0 sinon. Il est possible
d’utiliser une distribution de Bernouilli pour ce modèle : Wη ∼ Be(π).
P (W = w) = π w .(1 − π)1−w , w = 0 ou 1.
Il existe plusieurs liens pour modéliser des variables binaires. Le lien logit est le plus
connu, la régression prend alors le nom de Régression logistique. Deux autres liens sont
possibles : le lien probit et le lien log-log. Le lien logit est souvent préféré puisque son
interprétation est simple : c’est le logarithme du ratio de la probabilité de succès sur la
probabilité d’échec.
Le modèle linéaire généralisé pour une variable binaire avec lien logit est défini par les
caractéristiques suivantes :
W|η ∼ Be(π)
π
log( 1−π ) = η = β0 + β1 x1 + . . . + βp xp
La modélisation de la distribution des actes avec dépassement peut se faire grâce à une
loi Gamma, qui permet de modéliser l’asymétrie de la distribution. Avec les paramètres
usuels de forme α et d’échelle β, la fonction de densité est de la forme :
1 α α−1 −βy
f (y; α, β) = β y e α, β > 0, y ≤ 0; (2.19)
Γ(α)
Z ∞
avec Γ(α) = tα−1 e−1 dt α > 0. (2.20)
0
!ν
1 νy νy
f (y; µ, ν) = exp(− ) ν > 0; µ ≤ 0. (2.21)
yΓ(ν) µ µ
1
ν est égal à ς2
, où ς est le coefficient de variation.
Yw|η ∼ G(µ, ν )
log(µ) = η = β0 + β1 x1 + . . . + βp xp
En tarification santé, ce genre de sinistre est beaucoup plus rare. De plus, les assureurs
instaurent en général des plafonds sur les garanties, aussi ils ne sont pas impactés par un
sinistre exceptionnellement élevé. Les pathologies lourdes et onéreuses concernent surtout
l’hospitalisation. Les dépenses sont alors très souvent prises en charge à 100% par la
Sécurité sociale. Ce genre d’acte ne concerne donc pas l’assureur qui n’en a même pas
connaissance.
Les données ont été extraites au 09/05/2012, pour la période de couverture 2011. Elles
3.1 Présentation des données utilisées 44
Outre ces informations, nous disposons des variables présentées dans le tableau 3.2.
Variable Description
CONTRAT Numéro du contrat couvrant l’assuré. Si l’assuré
est couvert par plusieurs contrats, le fichier des ef-
fectifs contient autant de lignes relatives à l’assuré
que de contrats.
N INSEE Il s’agit dans la plupart des cas du numéro Insee
de l’ouvrant droit, parfois de celui du conjoint non
à charge.
DEPARTEMENT Département de résidence de l’assuré.
NAISSANCE Date de naissance de l’assuré.
SEXE Sexe de l’assuré.
AFFILIATION Date d’affiliation de l’assuré au régime.
SORTIE Date de sortie de l’assuré du régime.
LIEN BENEF Lien du bénéficiaire avec l’ouvrant droit.
CATEGORIE Catégorie Socio-Professionnelle de l’ouvrant droit.
OBL/FAC Mode d’adhésion obligatoire ou facultatif de l’as-
suré au contrat.
La population de conjoints est donc très hétérogène. De plus, nous ne disposons pas
d’information concernant la structure de cotisation des différents contrats.
3.2.2 Doublons
Les fichiers des effectifs et ceux des prestations présentent de nombreux doublons qu’il
convient de localiser et de supprimer. Dans le fichier des effectifs, une personne peut
apparaître plusieurs fois pour différentes raisons :
Variable Description
CONTRAT Numéro du contrat couvrant l’assuré. Il permet de
déterminer la couverture qui donne lieu à la pres-
tation.
N DE PIECE Un soin ou un groupe de soins à un assuré est re-
péré par un numéro de pièce. Il permet notamment
de relier les remboursements successifs de plusieurs
couvertures relatifs à un même soin.
CODE ACTE Ce code permet de connaître la nature du soin.
Nous disposons d’un fichier qui récapitule ces codes
ainsi que leur signification.
FRAIS REELS C’est la dépense totale engagée par l’assuré pour
le soin.
RBT SECU Le remboursement effectué par la Sécurité sociale.
TC Le tarif conventionnel. Il nous permet d’apprécier
les éventuels dépassements d’honoraires pratiqués
lors du soin.
TAUX SECU C’est le taux auquel le soin a été remboursé par
l’assuré.
AUTRE MUT Il s’agit du remboursement perçu par l’assuré par
l’intermédiaire d’une autre complémentaire que
celle de l’entreprise, comme celle de son conjoint
par exemple.
QUANTITE C’est la quantité d’actes représentée par la ligne.
COEFFICIENT Les tarifs de certains soins sont exprimés à l’aide
d’une lettre clé et d’un coefficient, comme les auxi-
liaires médicaux par exemple.
DATE DE SURVENANCE La date de survenance est la date à laquelle le soin
a été prodigué. Dans notre étude, ces dates de sur-
venance sont limitées à l’année 2011.
DATE DE REGLEMENT La date de règlement est la date de remboursement
du soin. Elle diffère de la date de survenance et
peut survenir pendant l’année comptable 2012.
Un fichier récapitulatif des adhérents est donc établi dans lequel chacun ne figure qu’une
seule fois. Un taux de présence annuel (au prorata du temps couvert par la complémen-
3.2 Traitement des données 47
taire) est affecté à chaque individu grâce aux dates d’entrée et de sortie du régime. Les
différents contrats qui couvrent les adhérents constituent une information intéressante que
nous synthétiserons grâce à deux variables présentées plus loin dans l’étude.
Le même travail est effctué pour les prestations. En effet, un même acte apparait
plusieurs fois dans la base s’il donne lieu à des remboursements de la part de plusieurs
contrats. Un traitement préalable est effectué afin de ne conserver qu’un seule ligne pour
chaque acte. Deux lignes relatives au même acte sont repérées grâce au numéro de pièce.
Seule celles relatives au remboursement des contrats complémentaires sont conservées.
La base de données agrégée des prestations est donc portée de 7 995 331
lignes à 7 740 642 lignes.
Données manquantes
Fichier Nombre de personnes Données manquantes
après traitement
A 137 528 9 126 3
B 5 531 241 0
C 5 349 360 0
D 89 542 4 891 8
E 26 744 1 780 0
F 5 721 398 0
G 27 466 1 203 2
H 23 964 1 304 0
Le renseignement de cette variable est absent chez les jeunes enfants en particulier.
Comme la différence de consommation entre fille et garçon est peu significative chez les
enfants, on procède à un tirage aléatoire pour cette catégorie de population. Par ailleurs, le
numéro Insee de l’assuré est disponible. Il est donc possible d’en déduire le sexe manquant
à partir de cette variable.
Ces corrections effectuées, il reste peu de données manquantes sur cette variable (moins
de 1%).
Nous allons étudier la répartition de ces données manquantes dans la table pour s’as-
surer que les personnes au statut non renseigné peuvent être écartées de l’étude sans
introduire de biais. La figure 3.1 nous présente la proportion de CSP manquantes par âge.
3.2 Traitement des données 49
Notre étude a plutôt pour vocation de tarifer des contrats complémentaires collectifs
d’entreprise, c’est donc la population des actifs qui nous intéresse surtout. Dans cette
population le taux de personnes à la CSP non renseignée est relativement constant. Nous
choisissons donc de conserver la variable malgré le manque d’information dans les classes
d’âges élevés.
Par ailleurs, nous pouvons observer que leur consommation est nulle et leur période de
couverture souvent courte. Il s’agit de personnes couvertes mais n’ayant jamais consommé
ni même transmis l’intégralité de leurs informations personnelles à l’organisme assureur.
Il n’est donc pas raisonnablement possible de supprimer ces personnes du portefeuille sans
3.2 Traitement des données 50
provoquer un biais dans notre modélisation des fréquences. Ces personnes ne consomment
pas, cela n’a donc pas d’impact pour la modélisation des frais réels. En revanche, il n’est
plus envisageable de prendre en compte la région dans la modélisation des fréquences.
Le fichier des prestations comprend des lignes dites de régularisation. Elles corres-
pondent en fait à des annulations de remboursements. Les montants renseignés dans ces
lignes sont donc négatifs. Il est possible une fois encore de retirer les lignes associées à
partir de leur numéro de pièce.
Ces traitements n’ont aucun impact sur le montant total des prestations observées.
3.3.1.1 L’âge
La répartition des âges dans le portefeuille est donnée par la figure 3.3. Seuls les
ouvrants droit et les enfants sont représentés puisque la population de conjoints est trop
hétérogène pour être étudiée convenablement.
La première constatation est que les grands âges sont mal représentés puisqu’il s’agit
d’une couverture collective d’entreprise. La classe la plus représentée est comprise entre
27 et 40 ans.
D’une manière générale, la répartition par âge présente des inégalités, cependant les
classes d’âges des moins de 62 ans sont bien représentées, ce qui ne gênera pas l’étude par
la suite.
La consommation des assurés en soins et biens médicaux est très fortement liée à leur
âge : une personne âgée a en général plus de problèmes de santé qu’un individu de vingt
ans. Par ailleurs, le type de consommation varie au cours de la vie, comme le montre la
figure 3.4.
La courbe (a) indique un pic de consommation dans les premières années de la vie, qui,
3.3 Les variables tarifaires 52
d’après le graphique (b) correspond principalement à des soins courants : des consultations
chez le généraliste en particulier. Entre 10 et 20 ans, un autre pic de consommation
survient qui coïncide avec une augmentation de la part du poste dentaire. Cette période
de la vie est, en effet, marquée par les soins d’orthodontie. La courbe augmente ensuite
régulièrement jusqu’aux grands âges. Le graphique (b) permet de mettre en évidence un
accroissement de la place de l’optique à partir de 40 ans, lié à la presbytie. Passé 65 ans,
c’est le poste hospitalier qui prend de l’ampleur petit à petit.
(a) Dépenses annuelles déclarées par âge (b) Répartition des dépenses par poste de consommation
Chez les actifs, les dépenses en soins augmentent presque linéairement d’après le gra-
phique (a), nous avons cependant constaté précédemment la prise d’ampleur du poste
optique vers 42 ans. C’est à partir de ce critère que nous distinguerons les jeunes des
autres actifs. La segmentation retenue est précisée dans le tableau 3.7.
Segmentation Age
Groupe 1 Moins de 20 ans
Groupe 2 20 - 42 ans
Groupe 3 42 - 62 ans
Groupe 4 Plus de 62 ans
Le portefeuille étudié contient 130 397 enfants (45%), 88 513 jeunes adultes
(30%), 69 105 adultes (24%) et 4 606 séniors (2%).
3.3.1.2 Le sexe
Le portefeuille d’ouvrants droit comprend 151 118 femmes (52%) et 141 503 hommes
(48%).
Le graphique de la figure 3.5 présente les dépenses moyennes annuelles observées dans
le portefeuille pour les hommes et les femmes. Pour tous les postes, les dépenses des
femmes sont plus élevées que pour les hommes. Ce facteur sera donc à prendre en compte
pour notre modélisation.
La consommation des adhérents peut être influencée par son niveau de couverture.
Aussi, afin d’étudier un groupe relativement homogène, nous nous baserons sur une sous-
population couverte à hauteur d’environ 300% de la base de remboursement pour les
consultations spécialiste et de 400% pour les prothèses dentaires. En effet, c’est le sous-
groupe le mieux représenté.
Une A.C.P s’applique sur un tableau croisant N individus (en lignes) et K variables
(en colonnes). Un individu est ainsi repéré dans un espace de dimension K appelé "espace
des individus", que l’on munit de la distance euclidienne.
L’idée de l’A.C.P. est de représenter le nuage de points des N individus dans un espace
de dimension réduite qui reflète au mieux la réalité, c’est-à-dire en déformant le moins
possible les distances entre les individus. Pour cela, il faut déterminer le plan qui maximise
les distances entre les points et le centre de gravité du nuage G :
PK 2
k=1 Mk G
Dans notre étude, les individus sont les départements. Nous regroupons ensuite les
actes en fonction du pourcentage de dépassement effectué par le praticien par rapport à la
base de remboursement. La consommation dans les départements est ainsi représentée par
la proportion d’actes dans les différentes tranches de dépassement, pour les consultations
chez le spécialiste d’une part et les prothèses dentaires d’autre part. Un échantillon des
données étudiées est présenté à la figure 3.6.
La figure 3.7 représente l’inertie expliquée par chacune des dimensions de l’A.C.P.
Ce genre de graphique permet de repérer le nombre optimal de dimensions à étudier en
repérant une "cassure". Ici, elle est observable après les deux premiers axes. Ils expriment,
à eux deux, 62,42% de l’inertie totale. Les axes 3 et 4 en apportent respectivement 9,84%
et 8,96%. Les deux premiers axes sont retenus en priorité.
L’étude des individus nous permet d’appréhender les ressemblances entre individus du
point de vue de l’ensemble des variables retenues pour l’étude, dans le but de construire
des groupes d’individus homogènes.
La figure 3.9 représente les individus sur le premier plan factoriel. Les départements 75
et 92 se détachent nettement des autres individus et semblent pouvoir constituer un groupe
à eux seuls. Ils sont opposés par l’axe principal (axe des abscisses) aux départements 78,
91, 95, 6, 77, 89 et 93 en particulier. Le reste des individus se répartit autour de l’axe
principal en deux groupes aux contours mal délimités.
Figure 3.8 – Représentation des individus sur les deux premiers axes
3.3 Les variables tarifaires 57
Les axes peuvent être interprétés comme de nouvelles variables artificielles. La figure
3.9 fournit une représentation des variables initiales sur le plan défini par les deux pre-
miers axes factoriels. Ce sont les corrélations des variables avec les axes qui servent de
coordonnées pour la représentation graphique. La figure obtenue est appelée cercle des
corrélations. La qualité de représentation des variables est jugée par sa proximité avec le
cercle de corrélation. Les variables PT_300, PT_200 et PT_700 décrivant les prothèses
dentaires ne sont pas très bien représentées sur ce plan.
Ce graphique met en évidence une corrélation positive entre toutes les variables sauf
les variables des actes spécialistes sans dépassement et celles des classes de coûts faible et
moyens pour les prothèses dentaires : 400% et 200% de la base de remboursement. Cet
axe oppose donc les départements dans lesquels les praticiens font de nombreux dépasse-
ments (corrélés positivement avec le premier axe) avec ceux qui en font peu. Une étude
supplémentaire des coefficients de corrélation montre que ce sont les variables ST_250 et
ST_300 qui contribuent le plus à son explication.
De l’autre, sont regroupées les régions à dépassements (200%, 250% de la BR) et prix
3.3 Les variables tarifaires 58
Pour compléter cette étude, une classification ascendante hiérarchique va nous per-
mettre de regrouper les départements de manière la plus efficace possible, selon le type de
consommation. La ressemblance entre individu est modélisée par une distance, euclidienne
dans notre cas, pour rester cohérent avec l’étude précédente.
Les classes doivent être homogènes (le plus compacte possible) et différentes (les plus
distinctes possible l’une de l’autre). L’algorithme suggère trois classes qui sont représentées
sur le plan de la figure 3.10 en couleurs distinctes.
Une représentation géographique des résultats obtenus est présentée en figure 3.11.
Résultats et critiques
– Région 2 : Il s’agit des départements dans lesquels les dépassements sont plutôt
modérés.
Dans la suite de l’étude nous les désignerons sous les appelations respectives de : région
à dépassement faibles, modérés, sévères.
Afin de tester la cohérence des résultats obtenus pour le portefeuille avec des données
plus générales, l’étude a également été réalisée de manière similaire sur la base des dépas-
sements de spécialistes uniquement. Les graphiques obtenus par cette étude sont présentés
en annexe A.
La répartition par classe est représentée sur une carte de France à la figure 3.12.a.
Globalement, les mêmes zones de dépassements se dégagent que pour la carte de France
issue du dossier D.R.E.E.S. des comptes de la santé 2010 [4]. Les deux cartes mettent
en évidence des dépassements importants principalement situés le long de la Seine, de
la Saône et du Rhône jusqu’à la Méditerranée. Selon l’étude de la D.R.E.E.S., cette
répartition géographique est liée au niveau de vie des habitants, à la présence de forte
proportion de centres urbains (villes de plus de 100 000 habitants) et dans une moindre
mesure, à la densité de spécialistes. Quelques écarts sont cependant constatés sur les
départements périphériques, liés à notre échantillon.
Cette carte semble donc globalement cohérente avec la répartition des médecins en
secteur 2 observée en France par la D.R.E.E.S.
3.3 Les variables tarifaires 60
(a) Découpage obtenu avec seule prise en(b) Répartition des spécialistes selon leur taux d’accès au
compte des dépassements de spécialiste secteur 2 et leurs taux de dépassement
une période de six mois sera probablement plus faible que pour une personne observée
durant l’année entière.
La grande majorité des personnes étudiées (environ 90%) sont couvertes durant l’an-
née entière. La figure 3.14 représente les proportions des autres périodes de couvertures
observées dans le portefeuille. La répartition n’est pas vraiment uniforme mais les varia-
tions d’une période de couverture à l’autre ne sont pas trop importantes. Dans le modèle
linéaire généralisé, il est possible de prendre ce paramètre en compte à l’aide d’une variable
offset.
Soit un individu observé sur une période d’exposition e, exprimée en année. Soit Yi
sa fréquence de consommation d’un acte donné sur la période d’exposition. En supposant
que la probabilité de consommer cet acte ne dépend pas de la période d’observation dans
l’année, la fréquence annuelle pour ce type de consommation est donc de Yi0 = Yi /e. Dans
le cas d’un modèle log-Poisson, par exemple, il est raisonnablement possible de supposer
que :
Cependant, l’hypothèse qui consiste à supposer que le nombre de sinistres sur l’année
entière est proportionnel au temps de couverture est très contestable. Par exemple, on
peut penser que la probabilité de consulter un médecin généraliste est plus importante en
hiver qu’en été. Par ailleurs, certaines garanties limitent le nombre de remboursements
pour certains types de consommation, par exemple les lunettes. Dans ce cas, la probabilité
d’avoir un second remboursement est nulle.
Pour l’étude des fréquences, nous nous baserons uniquement sur les indi-
vidus couverts toute l’année.
3.3 Les variables tarifaires 62
Cinq niveaux ont été définis selon l’importance du remboursement effectué par le
contrat, pour chaque type d’acte étudié. Les seuils ont été fixés à partir des grilles de
garanties commercialisées par plusieurs assureurs, afin qu’ils soient cohérents avec ce qui
est proposé sur le marché. La grille des niveaux retenus est présentée en annexe B.
Remarquons que les médicaments ne donnent pas lieu à dépassements. Il n’y a donc
qu’un seul niveau de garantie pour ce type d’acte. Il en est de même pour le forfait
journalier hospitalier ou la franchise de 18e pour actes lourds. Ce genre de dépenses est
entièrement remboursé par tous les contrats de base observés. Le niveau de garantie n’est
donc pas non plus pertinent dans ce cas.
Remarque : Nous ne pouvons pas savoir si les adhérents disposent d’une seconde cou-
verture complémentaire, par exemple dans le cadre du régime de leur conjoint, sauf si
un versement de la part d’une autre mutuelle a été effectué. La variable ne reflète pas
toujours le niveau de garantie réel de l’assuré.
Niveau
Région 1 2 3 4 5
Neutre 46% 46% 43% 46% 37%
A dépassements modérés 47% 47% 54% 43% 55%
A dépassements élevés 7% 7% 3% 11% 8%
Table 3.8 – Répartition des individus selon la localisation géographique et leur niveau de
couverture pour un spécialiste
Cependant, la variable NIVEAU est fortement corrélée avec les variables CSP et loca-
lisation géographique. Le tableau 3.8 présente la répartition des adhérents selon les diffé-
rents niveaux de consultation chez le spécialiste et les régions définies précédemment. La
répartition entre les différentes régions varie nettement d’un niveau à l’autre. On constate
3.3 Les variables tarifaires 63
Le tableau 3.9 présente, quant à lui, la répartition des assurés selon la catégorie socio-
professionnelle. Là encore, la répartition varie beaucoup d’un niveau à l’autre. Les cadres
sont, par exemple, minoritaires dans les niveaux faibles.
Niveau
CSP 1 2 3 4 5
C 31% 39% 20% 59% 42%
NC 69% 61% 80% 41% 58%
Table 3.9 – Répartition des individus selon la catégorie socio-professionnelle et leur ni-
veau de couverture pour un spécialiste
1. Dans ce cas, un terme supplémentaire est introduit dans le modèle afin de prendre en compte
l’intéraction entre les variables.
3.3 Les variables tarifaires 64
Etudions cette variable d’un peu plus près. Le premier constat est que le nombre de
personnes ayant souscrit à un contrat facultatif est très faible dans la population étudiée :
moins de 5%. Les entreprises mettent en place, pour la plupart, des contrats à adhésion
obligatoire. Ce mode d’adhésion est, comme nous l’avons précisé en première partie, plus
efficace fiscalement pour l’assuré et socialement pour l’employeur. Le pourcentage d’assu-
rés ayant souscrit à une surcomplémentaire facultative est présenté par classes d’individus
à la figure 3.15.
Figure 3.15 – Pourcentage d’adhésion à des contrats facultatifs selon les caractéristiques
de la population
Comme nous l’avons précisé en première partie, l’accès à la complémentaire santé dans
les entreprises est très influencé par la catégorie socio-professionnelle. C’est ce qu’il est
3.4 Les actes étudiés 65
possible de constater en observant le graphique 3.15. Les contrats facultatifs observés sont,
pour la plupart, uniquement destinés à la population des cadres. Ainsi, presque 10% des
cadres ont adhéré à un contrat facultatif contre 3% des non cadres.
Par ailleurs, les individus de plus de 62 ans sont très peu nombreux à adhérer à une
surcomplémentaire (pour la population des retraités, l’adhésion est toujours facultative).
Remarque : Le calcul des tarifs pour les auxiliaires médicaux est souvent global. Or,
sont considérés comme auxiliaires médicaux, les infirmiers, les masseurs kinésithérapeutes,
les orthoptistes, les orthophonistes et les pédicures. Une analyse descriptive des fréquences
permet de mettre en évidence des différences significatives selon le type d’auxiliaire médi-
cal. En particulier, les interventions fréquentes d’infirmiers concernent plus particulière-
ment les individus âgés. Les infirmiers sont donc séparés des autres auxiliaires médicaux
pour la modélisation.
3.4 Les actes étudiés 66
SOINS COURANTS
Consultations Généraliste Courbe des dépassements
Consultations Spécialiste Courbe des dépassements
Auxiliaires médicaux Courbe des dépassements
Actes techniques médicaux Courbe des dépassements
Radiologie Courbe des dépassements
Franchise pour actes lourds Uniquement les fréquences 2
HOSPITALISATION
Chambre particulière 1 Courbe des Frais réels
Frais d’accompagnement Courbe des Frais réels
Forfait journalier Uniquement les fréquences 2
PHARMACIE
Pharmacie 15% Courbe des Frais réels
Pharmacie 30% Courbe des Frais réels
Pharmacie 65% Courbe des Frais réels
OPTIQUE
Montures 3 Courbe des Frais réels
Verres 3 Courbe des Frais réels
Lentilles Courbe des Frais réels
DENTAIRE
Soins dentaires Courbe des dépassements
Prothèses dentaires Courbe des dépassements
1. La modélisation des fréquences pour ce type d’acte est difficilement réalisable avec un modèle GLM.
En effet, la forme de la courbe distingue nettement les longs et les courts séjours. Elle est donc difficilement
modélisable par une loi classique.
2. Le montant des frais réels pour ces actes est toujours le même, c’est un forfait.
3. Pour ces actes, la modélisation des coûts moyens est séparée pour les enfants et pour les adultes,
en raison des fortes différences de remboursement de la part de la Sécurité sociale.
Tarification
4
Cette partie présente l’aspect pratique de la tarification à l’aide des modèles linéaires
généralisés. Les différentes étapes seront illustrées par des exemples.
Nous illustrerons l’ajustement dans le cas général par l’étude des fréquences des soins
dentaires. Avant de commencer, il peut être utile de calculer l’espérance et la variance
empirique. La moyenne s’élève à 0,55 et la variance 2,04. On constate que ces deux valeurs
sont très éloignées ce qui semble compromettre un ajustement correct avec une loi de
Poisson.
L’ajustement à la loi de Poisson est peu satisfaisant comme on s’y attendait. Com-
plétons cette étude par un test du chi-deux, les résultats du test sont présentés dans le
tableau 4.1. Celui-ci permet, en effet, d’évaluer si deux listes de mêmes effectifs suivent
la même loi de probabilité. On calcule la quantité :
m
X (ni − n0i )2
A= (4.1)
i=1 n0i
où,
4.1 Modélisation des fréquences 68
Figure 4.1 – Comparaison des ajustements des fréquences aux lois Binomiale Négative
et Poisson
Dans les deux cas, la p-value est inférieure à 5% et le test rejette donc l’adéquation.
Cependant, la distance est plus faible pour la loi Binomiale Négative.
Bilan : D’une manière générale pour l’ensemble des actes étudiés, les fré-
quences s’ajustent mieux avec une loi Binomiale Négative. C’est donc ce type
de loi qui est retenue pour la modélisation. Par ailleurs, la variable à expliquer
étant une variable de comptage, nous prendrons le lien classique pour ce type
de données, le lien logarithmique.
4.1 Modélisation des fréquences 69
Modèle AIC
Complet 841 711
Privé de la variable mode d’adhésion 841 720
Privé de la variable niveau 842 188
Privé de la variable sexe 843 015
Privé de la variable age 844 131
D’une manière générale, dans la grande majorité des actes, toutes les variables sont
jugées significatives, exceptée la variable mode d’adhésion. Ce manque de significativité
s’explique par le faible nombre d’observations dont nous disposons. Nous la retirerons
donc de l’étude. Encore une fois, le faible pourcentage de personnes adhérant à un contrat
facultatif limite beaucoup l’anti-sélection dans le portefeuille. Parmi les autres variables,
certaines sont parfois rejetées selon le type d’acte. Dans le cas particulier de certains actes,
où les coefficients ne sont pas significatifs pour la fréquence des sinistres et pour le coût
moyen, la variable pourra être rejetée. Nous exclurons, alors, la variable de l’analyse et
relancerons le modèle.
4.1.2.2 Résultats
A présent que le modèle est choisi, nous pouvons l’étudier plus en détail. L’application
se fait à l’aide de la fonction glm du logiciel R. Un exemple de code R est consultable en
annexe C. Le tableau 4.3 présente les résultats d’une analyse de la déviance. Le modèle
nul correspond au modèle pour lequel on suppose que la probabilité est constante et ne
dépend pas des variables prédictives. Comme on peut le constater, la probabilité critique
de la table d’analyse conduit à considérer que le modèle complet est informatif. En effet,
rappelons que le modèle est jugé de mauvaise qualité si la déviance observée est supérieure
au quantile à 95% d’un Khi deux à 215 095 degrés de libertés dans ce cas.
Les résultats de l’ajustement des fréquences par la loi binomiale négative des interven-
tions des généralistes chez les non cadres sont présentés dans le tableau 4.4.
4.1 Modélisation des fréquences 70
Table 4.3 – Analyse de la déviance du modèle complet pour les Consultations Généraliste
p
X
µi = exp(β0 + βj xij ). (4.2)
j=1
où :
– βi , i=(1,...,n) sont les coefficients correcteurs calculés ;
– xij sont les modalités des variables tarifaires pour l’individu i, prenant les valeurs 1
si l’individu présente la caractéristique, 0 sinon.
Les colonnes "Wald 95% Confidence Limits" du tableau 4.4 sont respectivement les
bornes supérieures et inférieures de l’intervalle de confiance de Wald pour les paramètres
au niveau de confiance de 95%. Cet intervalle permet d’apprécier la marge d’erreur dans
les résultats obtenus pour un niveau de confiance donné. Ces bornes sont calculées par la
formule :
βj ± 1, 96 ∗ StdError,
où,
– 1,96 est le quantile d’ordre 97,5% de la loi normale centrée réduite,
– Std Error est l’élément diagonal (jj) de I -1 .
Remarque : Le coefficient INTERCEPT permet de calculer la fréquence de l’individu de référence : un homme d’âge compris
entre 20 et 42 ans avec une garantie de niveau 1. Ces modalités n’apparaissent donc pas dans le tableau.
71
4.1 Modélisation des fréquences 72
Enfin, les colonnes "ChiSQ" et "Pr > ChiSq" permettent de tester si le coefficient βj
est significativement différent de 0. Ainsi, la colonne ChiSQ fournit la statistique de Wald,
donnée par :
(βj )2
. (4.3)
(StdErrorβj )2
Table 4.5 – Evolution de la fréquence avec le niveau de garantie pour les consultations
chez le généraliste
Table 4.6 – Répartition des individus par sexe selon le niveau de garantie
Le pourcentage de femmes dans le niveau 3 est beaucoup plus faible que dans les
autres, ce qui peut expliquer en partie la plus faible valeur obtenue pour le coefficient
4.1 Modélisation des fréquences 73
de ce niveau. La même étude peut être conduite avec la répartition par tranches d’âges,
présentée dans le tableau 4.7. Le niveau 1 a une répartition très différente des autres
classes, avec notamment peu d’enfants, plus de jeunes adultes mais également plus de
retraités.
Table 4.7 – Evolution de la fréquence avec le niveau de garantie pour les consultations
chez le généraliste
A titre d’illustration, nous présentons ces graphiques pour les auxiliaires médicaux à
la figure 4.2. Le graphique (a) présente une légère tendance décroissante, indiquant une
mauvaise adéquation de la fonction de variance. Celle-ci augmente trop rapidement avec
la moyenne, il y a sur-dispersion. Par ailleurs, le graphique met en évidence quelques
outliers, c’est-à-dire des observations distantes du reste des données.
Une ligne se décroche du reste du groupe, causée par le nombre important de valeurs
zéro. La valeur zéro pose souvent problème pour la modélisation. Plusieurs méthodes ont
été mises au point, présentée par D. Bahn et Massenburg (2008) [8], comme la méthode
des zero-inflated, zero-altered ou encore two-part model.
Le graphique (b) de la figure 4.2 permet de vérifier si les résidus suivent une distribution
4.1 Modélisation des fréquences 74
spécifique. Il est construit à partir des résidus standardisés de la déviance. Les résidus
bruts ne suivent pas nécessairement une distribution normale. McCullah et Nelder [16],
précisent que les résidus de données de comptage peuvent présenter des distorsions si
elles présentent de nombreux zéros. Cela produit, en effet, une concentration importante
de petits résidus qui font apparaitre un plateau dans le Normal plot. Ce phénomène est
nettement mis en évidence sur le graphique. Cela vient confirmer les conclusions tirées de
l’observation du graphique précédent : le modèle demanderait à être complexifié afin de
tenir compte des nombreux zéros. Le reste des observations suit une ligne droite, indiquant
une bonne adéquation.
Les conclusions tirées de cette étude sont communes à l’ensemble des actes
étudiés. Le test des résidus met en évidence un problème d’adéquation. Cette
modélisation demanderait donc à être complexifiée.
Les intervalles de confiance obtenus sont relativement satisfaisants, mis à part celui
4.2 Modélisation des coûts moyens de sinistres 75
des retraités. La largeur de cet intervalle de confiance s’explique par le peu de données
dont nous disposons dans cette catégorie.
Les résultats obtenus sont conformes aux observations faites au cours de l’analyse
descriptive du portefeuille. Les femmes ont plus souvent recours à ce type de soin. Ils sont
en revanche moins fréquents chez les enfants et beaucoup plus chez les retraités. Quant à
l’influence de la garantie, la tendance semble confirmer le fait que la fréquence augmente
avec la qualité de celle-ci.
Remarque : Pour la première régression, la valeur du critère AIC est égale à la dé-
viance, au nombre de paramètres près. Ceci s’explique par le fait que la log-vraisemblance
du modèle saturé dans le cas de Bernoulli est toujours nulle. La déviance associée au
modèle est donc égale à la log-vraisemblance.
Dans les deux cas, le modèle 1 correspond à celui ne comprenant qu’un unique para-
mètre. C’est le plus simple. Les autres sont obtenus en ne retirant qu’une seule variable
4.2 Modélisation des coûts moyens de sinistres 76
Table 4.9 – Récapitulatif de la procédure de sélection des variables pour les cadres dans
la région 2
à chaque fois. Là encore, dans les deux cas, la variable caractérisant le mode d’adhésion
n’améliore pas l’ajustement du modèle selon le critère AIC. La procédure le rejette. Dans
les deux cas, la déviance est minimale pour le modèle 5, de même pour le critère AIC,
ce qui indique un meilleur ajustement. Par ailleurs, dans les deux cas, retirer la variable
Région augmente significativement la déviance du modèle.
prédites et le Normal probability plot. En effet, la régression logistique n’exige pas que les
prédicteurs soient distribués normalement ou que la variance soit identique dans chacun
des groupes.
Le half Normal probability plot avec intervalle de confiance à 95% constitue un outil
intéressant pour l’analyse des résidus. Leur distribution n’étant pas connue dans le cadre
des modèles linéaires généralisés, Atkinson (1985) a proposé l’ajout d’un intervalle de
confiance pour la moyenne des résidus. Celui-ci permettant de déterminer si les résidus
observés sont cohérents avec le modèle ajusté. Si ce dernier est correct, l’enveloppe à 95%
doit contenir la valeur absolue des résidus.
La figure 4.3 montre le Half Normal plot des résidus standardisés de la déviance. Le
graphique ne laisse pas paraître d’outliers. Il n’y a pas d’écart systématique des résidus
par rapport à l’enveloppe de confiance. Cependant, certaines parties s’écartent légèrement
de la ligne continue. La condition d’adéquation à 95% n’est pas vérifiée.
la courbe, sauf sur les bords inférieurs et supérieurs de la distribution. Cependant l’écart
est peu important et concerne peu de données, ce qui ne devrait pas trop impacter notre
étude.
Figure 4.6 – Ajustement des coûts moyens de consultations et visites chez le spécialiste
pour les non cadres dans une région à faibles dépassements
Figure 4.7 – Ajustement des coûts moyens de consultations et visites chez le spécialiste
pour les non cadres dans une région à dépassements modérés
4.2 Modélisation des coûts moyens de sinistres 80
Les données réelles sont décrites sous la forme d’un histogramme. Leur répartition pré-
sente quelques discontinuités. Celles-ci créent des écarts par rapport à la courbe simulée
par le modèle linéaire généralisé, représentée en ligne continue. Ces discontinuités s’ex-
pliquent par le fait qu’il s’agit de classes de coûts comprenant des tarifs multiples de 10
que les médecins semblent choisir plus souvent que les autres, par comodité. Par exemple,
la classe de coûts des 170%-180% BR comprend tous les actes au tarif conventionnel de
23 euros facturés 40 euros par le médecin.
A titre d’illustration, les résultats obtenus pour les deux régressions puis avec le mo-
dèle agrégé sont présentés dans le tableau 4.10 pour les non cadres dans une région à
faibles dépassements,c’est-à-dire correspondant à la figure 4.6. Encore une fois nous les
présentons sous forme d’un pourcentage d’écart par rapport à l’individu de référence 1 afin
de faciliter l’interprétation. Les intervalles de confiance sont donnés en tenant compte des
dépendances entre les coefficients.
Le modèle agrégé est obtenu en utilisant les résultats des deux régressions au moyen
de la formule 2.18.
La première remarque sur ces résultats est que les intervalles de confiance sont assez
corrects pour les prédictions, mis à part pour la classe d’âge des plus de 62 ans.
Dans le modèle agrégé, on constate que les classes d’âges ont des moyennes proches,
exceptée la classe des enfants. En effet, d’après nos conclusions, moins de dépassements
y sont observés et ces derniers sont moins sévères que dans les trois autres classes.
Le modèle obtenu présente quelques écarts par rapport aux données obser-
vées, liés notamment au comportement des médecins pour le choix de leurs
tarifs. Les tests d’ajustement révèlent eux aussi quelques problèmes au niveau
de la modélisation. Le cas particulier de la consultation chez le spécialiste
ne permet pas d’observations très concluantes concernant l’impact du niveau
de garanties sur la consommation. Cette remarque est valable pour plusieurs
1. Homme cadre entre 20 et 42 ans ayant une garantie de niveau 1
4.2 Modélisation des coûts moyens de sinistres 81
Modèle agrégé
Intercept 1,32 1,29 1,36
Age 1 94,28% 94,64% 93,93%
Age 3 101,48% 101,16% 101,77%
Age 4 106,71% 103,32% 110,21%
Sexe F 109,10% 108,80% 109,36%
Niveau 2 97,44% 97,46% 97,43%
Niveau 3 98,91% 99,68% 98,14%
Niveau 4 97,95% 97,37% 98,56%
Niveau 5 100,15% 99,43% 100,89%
autres actes comme les consultations chez le généraliste ou les auxiliaires mé-
dicaux.
4.3 Exploitation des résultats 83
Cette méthode nous permet de calculer les paramètres et ainsi de déterminer com-
plètement les lois de fréquences et de coûts moyens adaptés aux caractéristiques de la
population étudiée. Celle-ci doit être segmentée en classes de tarification homogènes. La
prime pure globale est alors obtenue par une moyenne pondérée des tarifs calculés pour
chaque classe homogène.
Plusieurs paramètres doivent donc être renseignés dans l’outil. D’une part, il faut
fournir une description du portefeuille observé, notamment la répartition des individus :
– par sexe,
– par tranche d’âge,
– par catégorie socio-professionnelle,
– par région.
D’autre part, il est nécessaire de fournir un descriptif des garanties : les rembourse-
ments effectués par poste et le niveau de couverture associé.
Dans le cas des fréquences, le calcul est simple puisqu’en général 2 , seule nous intéresse
l’espérance de la loi de fréquences. Rappelons qu’elle est tout simplement obtenue, dans
le cas de la loi Binomiale Négative, par :
Pp
µ = exp(β0 + j=1 βj xj )
En revanche, le cas des coûts moyens est plus délicat à traiter à cause des limites de
remboursements prévues par les garanties. Pour un plafond P appliqué sur le rembour-
sement d’un acte i (exprimé en euros), le coût moyen par acte pour l’assureur est donné
par :
Z P Z ∞
µi = x.f (x)dx + P. f (x)dx
0 P
où : f est la densité de la loi Gamma modélisée par les G.L.M. et X la variable aléatoire
représentant le coût de l’acte i.
Cette intégrale est estimée grâce à un découpage en tranches de coûts. A cette quantité,
il faut encore retrancher un éventuel remboursement de la Sécurité sociale. Une distinction
2. Il arrive cependant que des garanties plafonnent le nombre de remboursements annuels. C’est sou-
vent le cas pour les consultations de médecine douce.
4.3 Exploitation des résultats 84
est faite entre les remboursements effectués pour le Régime Général et pour le Régime
d’Alsace-Moselle 3
Ces deux éléments nous permettent d’obtenir une prime pure pour chaque type d’acte.
Le tarif à appliquer pour la couverture découle simplement de la somme de ces primes
pures par acte.
– Le prime unique : Dans ce cas, tous les assurés paient la même prime, quel que
soit le nombre de bénéficiaires qui sont assurés par son intermédiaire. Elle est donnée
par la formule suivante :
P Pisolé = P Pouvrantdroit .
Remarque : dans le cas d’une cotisation isolé/famille, les contrats prévoient parfois
une solidarité des isolés vers les familles. La cotisation isolé est alors supérieure à
la consommation moyenne réelle de l’assuré.
P Pisolé = P Pouvrantdroit .
Pour achever le calcul de la prime a priori, les diverses taxes 5 et les frais de gestion
appliqués par l’assureur doivent être ajoutés à la prime pure.
5. En 2012, les taxes sont la T.S.A. à 6,27% et la T.C.A. à 7% pour les contrats responsables.
4.3 Exploitation des résultats 86
Nous étudions donc plusieurs scénarii grâce à l’outil de tarification établi. Dans un
premier temps, le calcul est effectué avec les garanties du contrat de base. Pour évaluer
l’impact de la mise en place de la surcomplémentaire sur le contrat de base, les paramètres
utilisés précédemment sont conservés, seul le niveau de garantie est modifié. Il s’agit donc
du tarif observé pour un remboursement maximum de 150 euros sur des individus couverts
par une couverture globale de niveau 4. A titre indicatif la prime pure de la couverture
globale est également simulée.
Les résultats obtenus grâce à l’outil construit sont détaillés dans le tableau 4.11
D’après les résultats obtenus, les frais réels moyens observés pour le portefeuille sont
portés de 161,58 euros à 181,52 euros, soit une augmentation de 13%. Cette augmentation
des frais réels moyens se répercute sur les remboursements du contrat complémentaire à
hauteur de 4%.
L’objectif de ce mémoire était, d’une part, l’élaboration d’un outil de tarification santé,
d’autre part une étude de l’impact d’une surcomplémentaire sur la prime pure d’un contrat
complémentaire collectif.
Une grande partie de cette étude a été consacrée à l’étude du portefeuille d’assurés
et des données de consommation disponibles. Il s’agit, en effet, d’une étape essentielle à
une tarification, afin de bien maîtriser les informations permettant d’ajuster correctement
le tarif. Cette partie a mis en évidence les difficultés inhérentes à une tarification, liées
notamment au manque d’information, à la fusion de plusieurs portefeuilles et aux spéci-
ficités des contrats disponibles. Toutes ces contraintes nous ont conduit à segmenter le
portefeuille afin de construire des classes les plus homogènes possibles. Une étude de la
consommation par département a également été réalisée grâce à des méthodes d’analyse
en composante principale et de classification. Les départements ont ainsi été regroupés en
régions dans lesquelles les comportements de consommation sont proches.
L’instrument utilisé pour le calcul des primes pures est un outil classique en tarifica-
tion : le Modèle Linéaire Généralisé. Ce dernier s’est montré plus ou moins adéquat pour
la modélisation des coûts et des fréquences selon le type d’acte étudié. En particulier, nous
avons complexifié le modèle classique d’ajustement des coûts en ajoutant une composante
Binomiale au modèle Gamma. Ceci nous a permis de prendre en compte certaines spéci-
ficités des lois observées, liées notamment à la distinction entre les tarifs conventionnés et
non conventionnés.
Les résultats obtenus par la modélisation nous ont permis dans une dernière partie de
constituer un outil de tarification. La modélisation des frais réels effectuée précédemment
offre la possibilité de calculer les primes pures quelle que soit la grille de garantie ainsi
que la décomposition de la prime pure entre les différents postes de remboursement. Les
primes pures obtenues sont bien sûr des tarifs a priori qui demanderont un ajustement
4.3 Exploitation des résultats 89
lié aux particularités du portefeuille. Une étude complémentaire demanderait à être ef-
fectuée sur les conjoints à partir d’un échantillon moins hétérogène. De plus, il serait
intéressant d’avoir des statistiques démographiques pour construire les différents tarifs
comme Isolé/Famille, Isolé/Duo/Couple, sur les taux de personnes en couple par âge, par
exemple. Par ailleurs, l’exploitation des résultats fut également l’occasion d’une étude
complémentaire concernant les surcomplémentaires. Nous avons pu mettre ce phénomène
en évidence le phénomène d’aléa moral dans le poste optique, et dans une moindre me-
sure dans les autres postes de dépenses. L’étude des niveaux de garantie permet ainsi
de prendre en compte l’évolution de la consommation en fonction du niveau de garan-
tie et donc de fournir une mesure de l’impact d’une surcomplémentaire sur un contrat
complémentaire.
Bibliographie
[1] Etudes et Résultats no 786 : Les honoraires des professionnels de santé libéraux entre
2008 et 2010, tech. report, Direction de la recherche, des études, de l’évaluation et
des statistiques (DREES), 2011.
[2] La situation financière des organismes complémentaires assurant une couverture
santé, tech. report, Direction de la recherche, des études, de l’évaluation et des sta-
tistiques (DREES), 2011.
[3] Rapport d’activité de le commission de retraite et de prévoyance prévue par l’article l.
911-3 du code de la Sécurité sociale, tech. report, Commission des accords de retraite
et de prévoyance (COMAREP), 2011.
[4] Comptes nationaux de la santé 2010, tech. report, Direction de la recherche, des
études, de l’évaluation et des statistiques (DREES), 2012.
[5] Comptes nationaux de la santé 2011, tech. report, Direction de la recherche, des
études, de l’évaluation et des statistiques (DREES), 2012.
[6] J.-M. AOUIZERTATE, Alternative Neuronale en tarification santé, PhD thesis,
Conservatoire National des Arts et Métiers, 2010.
[7] A. Charpentier, Statistiques de l’assurance II - partie 1 : assurance non-vie -
tarification et provisionnement. 2011.
[8] G. D. Bahn and R. Massenburg, Deal with Excess Zeros in the Discrete Depen-
dant Variable, the Number of Homicide in Chicago Census Tract. 2008.
[9] M. Denuit and A. Charpentier, Mathématiques de l’assurance non-vie - Tome
II : Tarification et provisionnement, Economica, 2005.
[10] P. Dourgnon, A. Pierre, and T. Rochereau, L’enquête protection sociale com-
plémentaire d’entreprise 2009, tech. report, Institut de recherche et documentation
en économie de la santé (IRDES), 2012.
[11] C. Franc, M. Perronnin, and A. Pierre, Qui a souscrit une surcomplémen-
taire ? Une analyse dynamique de l’auto-sélection, tech. report, Institut de recherche
et documentation en économie de la santé (IRDES), 2010.
[12] M. Garnero, Les contrats les plus souscrits auprès des complémentaires santé en
2009, tech. report, Institut de recherche et documentation en économie de la santé
(IRDES), 2004.
[13] S. Guthmuller, F. Jusot, and J. Wittwer, Le recours à l’Aide Complémen-
taire santé : les enseignements d’une expérimentation sociale à Lille, tech. report,
Institut de recherche et documentation en économie de la santé (IRDES), 2011.
[14] F. Husson, S. Lê, and J. Pagès, Analyse de données avec R, Presses Universi-
taires de Rennes, 2009.
BIBLIOGRAPHIE 91
[15] F. Lagadec, Tarification d’un contrat de complémentaire santé par un Modèle Li-
néaire Généralisé, PhD thesis, EURIA, 2009.
[16] P. McCullagh and J. A. Nelder, Generalized Linear Models, Chapman and
Hall/CRC, monographs on Statistics and Applied Probability ed., 1989.
[17] M. Perronnin and A. Couffinhal, Accès à la couverture complémentaire mala-
die en France : une comparaison des niveaux de remboursement, tech. report, Institut
de recherche et documentation en économie de la santé (IRDES), 2004.
[18] M. Perronnin, S. Guillaume, and T. Rochereau, Enquête sur la protection
sociale 2010, tech. report, Institut de recherche et documentation en économie de la
santé (IRDES), 2012.
[19] M. Perronnin, A. Pierre, and T. Rochereau, La complémentaire santé en
France en 2008 : une large diffusion mais des inégalités d’accès, tech. report, Institut
de recherche et documentation en économie de la santé (IRDES), 2011.
[20] M. Vautrin, Elaboration d’une méthode de tarification avec indicateur de risque
pour les contrats complémentaires santé collectifs, PhD thesis, Institut de Statistiques
de l’Université de Paris, 2009.
Annexe A
A
Figure A.2 – Cercle des corrélations : étude des dépassements de consultation chez le
spécialiste
Annexe B
B
Type de Niveau Niveau Niveau Niveau Niveau
garantie 1 2 3 4 5
Hospitalisation
Forfait journalier Forfait 100% 100% 100% 100% 100%
Chambre particulière Forfait 40e 60e 80e 100e 120e
Frais d’accompagnement Forfait 20e 30e 40e 50e 60e
Soins courants
Généraliste BR 100% 150% 250% 300% 400%
Spécialiste BR 100% 200% 300% 400% 500%
Auxiliaires médicaux BR 100% 150% 250% 300% 400%
Analyses médicales BR 100% 150% 250% 300% 400%
Radiologie BR 100% 200% 300% 400% 500%
Actes techniques médicaux BR 100% 200% 300% 400% 500%
Franchise actes lourds Forfait 100% 100% 100% 100% 100%
Pharmacie
Pharmacie 15 BR 100% 100% 100% 100% 100%
Pharmacie 35 BR 100% 100% 100% 100% 100%
Pharmacie 60 BR 100% 100% 100% 100% 100%
Optique
Monture Forfait/an 60e 110e 150e 180e 230e
Verres unifocaux Forfait/verre 70e 100e 130e 150e 200e
Verres multifocaux Forfait/verre 150e 190e 230e 290e 350e
Lentilles Forfait/an 0e 100e 200e 300e 400e
Dentaire
Soins dentaires BR 100% 200% 250% 300% 350%
Prothèses dentaires BR 200% 300% 400% 500% 600%
Autres
Médecine douce 3 sc./an 15e 30e 45e 55e 65e
> frequence <- read.table("C :/R/GE_NC_F.txt", header = TRUE, sep = " ;")
> # Transformation des variables en facteur et désignation de la modalité de référence #
> frequence$Sexe = C(frequence$base=2) #On désigne la modalité "M" comme modalité
de référence de la variable Sexe (par défaut "F" (ordre alphabétique)) #
> frequence$Age = C(as.factor(frequence$Age), base =2) # On transforme la variable
en facteur et on désigne las classe des 20-42 ans comme modalité de référence #
Importation des données : Coûts moyens, on procède de la même manière, la table est
appelée cm.
Mise en oeuvre du GLM : cas des fréquences avec la Binomiale Négative :
> regbn <- glm.nb(freq ∼ Age + Sexe + Niveau, data = frequence)
Mise en oeuvre du GLM dans le cas des coûts moyens : Régression logistique et loi Gamma
library(binomTools)
cm$sansdep1 <- replace(cm$sansdep, which(cm$sansdep == TRUE),1)
cm$sansdep1 <- replace(cm$sansdep1, which(cm$sansdep == FALSE),0)
cm$sansdep2 <- replace(cm$sansdep, which(cm$sansdep == TRUE),0)
cm$sansdep2 <- replace(cm$sansdep1, which(cm$sansdep == FALSE),1)
reglogit2 <- glm(cbind(sansdep1,sansdep2) ∼ Age + Sexe + Niveau + Region, data =
cm, family =binomial(link="logit"))
halfnorm(reglogit2, plot = TRUE, resType = "standard deviance")