Vous êtes sur la page 1sur 12

Bases de données médico-administratives et

épidémiologie : intérêts et limites


!  Marcel Goldberg1, Catherine Quantin2, Alice Guéguen3 et Marie Zins4
Les épidémiologistes cherchent à décrire les phénomènes de santé des populations, à comprendre l’histoire naturelle
des maladies et à juger, en termes de causalité, du rôle de facteurs de risque sur la santé. Dans tous ces domaines,
les difficultés méthodologiques sont difficiles à contrôler. Elles proviennent essentiellement des biais potentiellement
induits par divers phénomènes de sélection qui interviennent lors de l’inclusion des sujets dans l’étude épidémiologi-
que et durant le suivi de celle-ci lorsqu’elle est longitudinale. Certaines solutions efficaces pour prendre en compte la
non-participation et pour le calcul des pondérations impliquent le recours à des bases de données nationales réputées
exhaustives (bases de données de santé et socioprofessionnelles essentiellement). Les problèmes rencontrés, aussi
bien méthodologiques que ceux liés à des questions d’éthique et de confidentialité, sont illustrés par l’exemple de la
cohorte Constances en cours de mise en place ; la plate-forme scientifique et technique « Plastico », actuellement en
phase de préfiguration, peut apporter une aide considérable à la mise en œuvre des solutions proposées.

L ’épidémiologie est la science qui


étudie la fréquence et la distri-
bution, dans le temps et dans l’es-
pace, des problèmes de santé des
populations, ainsi que le rôle des
facteurs qui les déterminent. Son
domaine d’intervention est tout ce
qui concerne la santé de l’homme
dans ses relations avec son environ-
nement naturel, socio-économique
ou culturel.

Dans un contexte épidémiologique,


la prise en compte du temps joue un
rôle capital. On peut considérer le
temps de diverses façons, selon les
questions que l’on se pose. Dans cer-
tains cas, on veut étudier l’évolution
d’un phénomène de population dans
Source : Wikipédia

le temps : la fréquence du tabagisme


diminue-t-elle ? L’incidence des can-
cers augmente-t-elle  ? Les appro-
ches pertinentes sont alors l’enquête
12345
transversale répétée (Enquête décen- The Sick Girl (La jeune fille malade), tableau de Mikael Ancher, 1882
nale santé par exemple) ou l’enre-
gistrement systématique permanent
(mortalité, registres du cancer).
loppé dans le contexte des mala- 1.  Marcel Goldberg est professeur à la Faculté
Mais c’est aussi souvent à l’évolution de médecine de Paris Île-de-France – Ouest. Il
dies chroniques, qui évoluent sur des a dirigé une unité de recherche d’épidémiologie
de processus, à l’échelle individuelle, décennies et qui dominent le paysage de l’Institut national de la santé et des études
que les épidémiologistes s’intéres- sanitaire des pays développés. médicales (Inserm) et est rattaché actuellement
à l’Unité 687 (marcel.goldberg@inserm.fr).
sent. Deux questions, notamment, 2.  Catherine Quantin est professeur au Centre
sont au cœur de la problématique Outre le temps, une autre question qui hospitalo-universitaire (CHU) de Dijon, où elle
dirige le service de biostatistique et d’informati-
épidémiologique. La première est intéresse particulièrement les épidé- que médicale (catherine.quantin@chu-dijon.fr).
«  l’histoire naturelle  » des processus miologistes est celle de la causalité  : 3.  Alice Guégen est ingénieur de recherche à
physiopathologiques et des maladies l’exposition à un « facteur de risque » l’Inserm, Unité 687 (alice.gueguen@inserm.fr).
4.  Marie Zins est chercheur et dirige, au sein de
(quelles sont les étapes qui vont de la modifie-t-elle le risque de survenue l’Inserm Unité 687, l’équipe Risques postprofes-
primo-infection par le VIH5 à la mala- d’une maladie ? Cette recherche de la sionnels-cohortes (RPPC) du Centre technique
d’appui et de formation des centres d’examens
die sida constituée et au décès ?) ; cet causalité n’est pas l’apanage de l’épi- de santé (Cetaf) (marie.zins@inserm.fr).
intérêt s’est particulièrement déve- démiologie traditionnelle «  d’organe  » 5.  Virus de l’immunodéficience humaine.

Courrier des statistiques n° 124, mai-octobre 2008 59


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

(épidémiologie du cancer, des maladies de 60 ans et de nombreuses études sionnelles et environnementales...) et


cardiovasculaires…). Elle concerne dans différents pays ! à l’état de santé (chronologie des
aussi «  l’épidémiologie sociale  », qui phénomènes pathologiques).
s’intéresse aux déterminants sociaux Deux grands types d’études sont utili-
de la santé : il ne s’agit pas seulement sés par l’épidémiologie analytique (ou Globalement, les études de cohorte
de décrire les inégalités de santé selon étiologique6)  : les études de cohorte sont celles qui permettent d’étudier
des variables sociales diverses, mais (terme épidémiologique synonyme de dans les meilleures conditions l’his-
de tenter de comprendre les mécanis- panel) et les études cas-témoins  ; toire naturelle des processus phy-
mes par lesquels la situation sociale se les secondes diffèrent des premières siopathologiques et des maladies,
traduit par la survenue de problèmes notamment par la façon de prendre et de juger, en termes de causalité,
de santé, en tenant compte de l’expo- en compte le temps. Le principe du rôle sur la santé de facteurs de
sition aux facteurs de risques «  clas- risque ou d’interventions préventives
dans la cohorte épidémiologique est
siques  » comme le tabac, l’alcool ou en prenant en compte les évolutions
le suivi individuel longitudinal d’un
l’alimentation par exemple [Goldberg temporelles et les effets conjoints de
groupe de sujets. Il peut s’agir de
et al., 2003].6
personnes souffrant d’une maladie différents facteurs.
La notion de cause en épidémiologie dont on veut étudier l’évolution, mais
est probabiliste  : une cause est un lorsqu’on se place dans une optique Le problème méthodologique
facteur qui modifie l’incidence d’une étiologique, les sujets sont a priori majeur : les biais dus aux effets
pathologie dans la population, en tous indemnes de la maladie étudiée, de sélection
tenant compte des autres facteurs alors que l’étude cas-témoins est
qui peuvent interagir dans la relation rétrospective : on part de sujets déjà Un biais est une erreur qui entraîne
« exposition-effet ». Établir une relation malades (et de témoins indemnes de une différence systématique entre le
de causalité entre une exposition à un la pathologie étudiée) et on remonte paramètre que l’on cherche à estimer
facteur de risque et une maladie est le dans le passé pour chercher l’expo- (par exemple l’incidence d’une mala-
plus souvent difficile et long, car l’épi- sition aux facteurs de risque soup- die, une mesure d’association entre
démiologie est avant tout une science çonnés qu’on compare entre groupes une maladie et un facteur de risque,
d’observation où, pour des raisons malades et témoins. ou encore entre un traitement et un
notamment éthiques, il n’est usuel- état de santé) et le paramètre qui est
lement pas possible d’expérimenter estimé par l’étude.
(c’est-à-dire de tirer au sort des sujets
exposés et non exposés, et observer Une des sources majeures de biais
le cours naturel des choses). dans les enquêtes épidémiologiques
provient des effets de sélection, qui
Les épidémiologistes ont donc défini
surviennent lorsque la population
des «  critères de causalité  » pour
observée diffère de la population
juger de l’existence de relations cau-
cible en raison de phénomènes liés
sales  : force de l’association entre
exposition à un facteur de risque et au recrutement ou au suivi des sujets.
Les biais susceptibles de se produire
Source : Wikipédia

maladie, mesurée par divers indices ;


stabilité de l’association entre études peuvent concerner  : (i) l’estimation
épidémiologiques dans des popula- de la fréquence de la maladie ou de
tions diverses et avec des méthodes l’exposition à un facteur de risque  ;
différentes  ; existence d’une relation (ii) l’estimation de l’association entre
Schéma de la section d’un VIH
dose-réponse (plus l’exposition est exposition et maladie. L’estimation
forte, plus le risque est élevé)  ; tem- de la fréquence de la maladie ou
poralité de l’association (la cause doit Dans ce qui suit, on envisagera de l’exposition, ou de l’association
précéder l’effet)  ; plausibilité biolo- essentiellement les études de cohorte exposition – maladie, est biaisée si la
gique et cohérence de l’association qui, parce qu’elles assurent un suivi probabilité d’être malade (ou exposé)
avec les données connues. Réunir individuel des mêmes sujets, offrent n’est pas indépendante de la proba-
tous ces éléments peut être très long : la possibilité d’analyses épidémiolo- bilité d’être inclus dans l’étude, ou si
par exemple, la première observation giques permettant de tenir compte la relation exposition – maladie est
suggérant nettement que le nickel est au mieux de phénomènes liés au différente entre les sujets inclus et
un cancérogène date de la fin des temps : séquence temporelle exposi- ceux qui ne le sont pas.
années 1920, mais la confirmation tion – effet, effet de génération, effet
« officielle » de son caractère cancé- de période. Il est ainsi possible de Or, les cohortes épidémiologiques
rogène par le Centre international de modéliser l’enchaînement et les effets incluent souvent les sujets sur la
recherche sur le cancer date du début conjoints des différents facteurs rela- base du volontariat, nécessaire dès
des années 1990, soit après plus tifs aux conditions de vie (alimenta- qu’il s’agit de recueillir des données
tion, habitat, accès aux soins, réseau auprès des sujets eux-mêmes  : des
6.  L’étiologie est l’étude des causes des mala- social...), à l’environnement (condi- biais de sélection peuvent donc inter-
dies [NDLR]. tions de travail, expositions profes- venir lors de la constitution de la

60
Bases de données médico-administratives et épidémiologie : intérêts et limites

cohorte et tout au long du suivi de


celle-ci, notamment lorsque  certains
sujets faisant initialement partie de
la cohorte cessent de  participer
à l’enquête (phénomène d’attrition)
[Goldberg & Luce, 2001].

Les cohortes épidémiologiques sont


conçues essentiellement pour des
besoins de recherche épidémiologi-
que, visant à étudier l’histoire naturelle
des processus physiopathologiques
et des maladies, et à comprendre les
relations entre exposition à des fac-
teurs de risque de nature diverse et
Source : Wikipédia

survenue de maladies (objectif « ana-


lytique  »). Elles peuvent également
avoir des objectifs « descriptifs » d’in-
formation en santé publique (estima-
tion de paramètres variés concernant
The Doctor (Le docteur), tableau de Samuel Luke Fildes,1891
l’ensemble de la population cible).
Or, le problème des biais potentiels
liés aux effets de sélection se pré-
sente de façon très différente selon
que les objectifs sont analytiques ou Ainsi, pour analyser les effets du diffère chez ceux qui sont devenus
descriptifs. tabac sur le risque de cancer, il n’est malades et ceux qui ne le sont pas,
pas nécessaire d’observer un échan- ce qui est souvent le cas.
Étude analytique des relations tillon représentatif de la population,
mais de disposer d’effectifs suffisants Les épidémiologistes sont familiers
entre expositions et maladies
de non-fumeurs et de fumeurs parmi de ces difficultés. On rappellera que
La première phase d’une étude épidé- lesquels le niveau d’exposition est toutes les cohortes épidémiologi-
contrasté  : en effet, sur la base des ques longitudinales reposant sur le
miologique est l’inclusion des sujets
connaissances actuelles, il est très volontariat (c’est-à-dire toutes celles
qui y participent. Différentes procé-
vraisemblable que les mécanismes qui impliquent la participation active
dures peuvent être mises en œuvre
physiopathologiques et biologiques des sujets pour fournir des données
à cette fin  : appel au volontariat par
de la cancérogenèse liée au tabac non disponibles par d’autres sources)
courrier ou appel téléphonique, sélec-
soient identiques dans un échantillon présentent le même phénomène de
tion aléatoire ou non dans des fichiers
de volontaires et dans l’ensemble de sélection à l’inclusion et au cours du
divers, etc. Les procédures reposant
la population. Les effets de sélection suivi. Certaines, célèbres dans l’his-
sur le volontariat sont toujours à l’ori-
dus au volontariat de la participation toire de l’épidémiologie, ont contribué
gine de biais de sélection qui sont
ne génèrent donc a priori pas de de façon décisive à l’avancement des
parfois d’ampleur considérable. Au
biais, ou seulement des biais mini- connaissances scientifiques  : ainsi,
sein d’une cohorte dont les procé-
mes, lorsqu’il s’agit de comprendre c’est à partir d’enquêtes sur des
dures d’inclusion ont été les mêmes
comment les expositions à des fac- volontaires qu’on a pu mettre en
pour tous les sujets, la relation expo-
teurs de risque, les caractéristiques évidence le caractère pathogène du
sition – maladie n’est cependant pas
professionnelles et sociales, etc., tabac, ou identifier les principaux fac-
a priori différente entre les sujets
teurs de risque cardiovasculaires.
volontaires et ceux qui ne le sont influencent l’état de santé et peuvent
pas [Greenland, 1977 ; Criqui, 1979 ; être à l’origine de pathologies ou, au
Austin et al., 1981]. Une des raisons contraire, protectrices. Étude descriptive de la
en est qu’au moment de l’inclusion, fréquence des problèmes de
tous les sujets sont indemnes des La probabilité de participation initiale santé et des expositions
maladies qui seront analysées, seuls est différente chez les sujets expo-
les cas incidents pendant la période sés et les non exposés au facteur Dans ce type d’étude, les paramè-
de suivi étant pris en compte dans d’intérêt, ce qui n’entraîne habituel- tres d’intérêt doivent être estimés
les études de cohorte  : des condi- lement pas de biais. En revanche, le sur un échantillon représentatif de
tions très particulières seraient en problème de l’attrition au cours du la population cible. Or, les cohortes
effet nécessaires pour entraîner un suivi peut, lui, être à l’origine de biais épidémiologiques prospectives étant
biais dans la mise en évidence ou la importants, si la probabilité de ne plus habituellement composées unique-
quantification d’une relation entre une être suivi diffère chez les exposés ment de volontaires, il existe inévi-
exposition et une maladie. et les non-exposés, ou bien si elle tablement des effets de sélection,

Courrier des statistiques n° 124, mai-octobre 2008 61


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

même lorsqu’on procède à un tirage l’ensemble des non-participants. Le ment définies à partir d’enquêtes déjà
au sort aléatoire d’un échantillon dans même problème se pose tout au long réalisées, où il est possible d’estimer
une base de sondage appropriée. du suivi, les non-répondants et les les probabilités de participation en
perdus de vue différant toujours des fonction des variables usuelles (sexe,
Lors de l’inclusion initiale, les non- participants selon divers facteurs, en âge, PCS).
participants (personnes non retrou- particulier les comportements de vie
vées, refus, etc.), constituent une et les problèmes de santé qui jouent Lors de l’inclusion, et chaque année
source potentielle de biais. Pour y un rôle majeur, même à catégorie pendant le suivi de la cohorte au
remédier, on s’efforce de recueillir un socioprofessionnelle égale. Là aussi, cours du temps, un poids sera attri-
minimum de données sur les non- on a pu l’observer dans la cohorte bué à chaque sujet permettant de
participants – essentiellement sur Gazel  : à sexe, âge et catégorie produire des estimations de certaines
leur âge, sexe, profession et caté- socioprofessionnelle équivalents, les variables relatives à la population
gorie socioprofessionnelle (PCS) –, risques d’attrition diffèrent en fonc- cible. Le principe de calcul de ces
afin de procéder ultérieurement à tion des consommations d’alcool et pondérations consiste à appliquer au
des redressements pour estimer les de tabac, de l’état de santé perçu, de poids de tirage initial, attribué à cha-
paramètres d’intérêt. Cette approche, l’absentéisme médical7, de la surve- que individu, un coefficient de correc-
utilisée dans de nombreuses enquê- nue de problèmes de santé mentale tion de «  non-réponse  » déterminé à
tes de santé (notamment l’Enquête et de cancers notamment [Goldberg partir de l’analyse des variables liées
décennale santé et l’Enquête santé et al., 2006]. Or, c’est justement ce à la non-participation à la cohorte.
et protection sociale), connaît cepen- type de facteurs qui est étudié dans La non-réponse observée une année
dant certaines limites. Ainsi, il n’est les cohortes épidémiologiques. donnée est le résultat de la non-parti-
pas toujours possible de recueillir les cipation initiale à la cohorte combinée
données de redressement (âge, sexe,
Des solutions pour l’analyse de à la non-réponse ponctuelle ou défini-
PCS) pour l’ensemble des sujets non
la non-participation et le calcul tive. Avec le poids avant calage ainsi
participants. 7 8
des pondérations calculé, on peut alors déterminer une
pondération finale par calage sur les
De plus, il n’est pas toujours facile
marges décrivant de façon pertinente
de savoir si ces données sont suf- Il existe des solutions pour obtenir un
la population à laquelle on souhaite
fisantes pour contrôler les biais échantillon représentatif de la popu-
généraliser les résultats.
potentiels, car on sait par exemple lation cible et minimiser les biais liés
qu’au sein de la même catégorie à la sélection initiale et à l’attrition
Cette démarche, relativement sim-
socio-économique, existent de lar- au cours du suivi. On s’appuiera ici
ple dans ses principes, présente des
ges différences à bien des égards, sur celles qui ont été élaborées pour
difficultés pour être mise en œuvre
notamment en termes de santé, de le projet Constances. Celui-ci vise
concrètement, notamment sur deux
comportements, de modes de vie, de à constituer une importante cohorte
réseaux sociaux, etc. Ceci a été bien épidémiologique prospective, d’envi- points  : (i) dans la comparaison des
montré par exemple dans la cohorte ron 200 000 individus8. Ces solutions participants et des non-participants
Gazel constituée de 20  000 agents s’inspirent d’une méthode déjà uti- pour le calcul des coefficients de
de l’entreprise EDF-GDF volontaires lisée pour la cohorte Gazel, à partir redressement  ; (ii) dans la définition
suivis depuis 1989 [Goldberg et al., de diverses bases de données por- des bases sur lesquelles il faut calcu-
2007]. La comparaison de ceux-ci tant sur les agents d’EDF-GDF. Cette ler les marges permettant le calage.
à leurs collègues non participants méthode a permis d’identifier et de
et de même catégorie socioprofes- quantifier les effets de sélection liés La comparaison des participants et
sionnelle, sexe et âge montre que le au volontariat, à l’inclusion comme des non-participants doit prendre en
statut marital, l’existence de mala- tout au long du suivi, de façon beau- compte la non-participation et l’attri-
dies psychiatriques et de pathologies coup plus fine qu’habituellement tion au cours du suivi. L’analyse des
liées à des consommations élevées [Goldberg et al., 2001  ; Goldberg et facteurs liés à l’attrition ne pose pas
d’alcool et de tabac, sont fortement al., 2006]. Afin de pouvoir procéder à de problème particulier, car on dis-
associés à la participation initiale à la des redressements permettant d’es- posera de nombreuses informations
cohorte [Goldberg et al., 2001]. timer les variables d’intérêt dans la sur tous les sujets qui abandonnent
population cible tout en minimisant la cohorte puisque, par construction,
Finalement, on est rarement en situa- les biais, la démarche générale rete- tous auront été inclus. Il convient
tion de contrôler complètement les nue est la suivante. cependant de définir explicitement
biais de sélection potentiels, faute les critères pris en compte pour déci-
de disposer de données pertinen- Les sujets éligibles sont tirés au sort der qu’une personne abandonne
tes à la fois sur les participants et par sondage stratifié avec probabili- définitivement sa participation à la
tés inégales, en surreprésentant les cohorte, la principale difficulté rési-
individus ayant une probabilité de dant dans cette définition, car la non-
7.  L'absentéisme médical correspond aux
arrêts de travail pour raison de santé. non-volontariat plus forte. Les pro- participation une année donnée ne
8.  www.constances.fr/index.html babilités d’inclusion sont empirique- préjuge pas forcément d’un abandon

62
Bases de données médico-administratives et épidémiologie : intérêts et limites

(cf. l’expérience du suivi dans Gazel données également disponibles pour données individuelles socioprofes-
[Goldberg et al., 2006]). les participants de la cohorte, et qui sionnelles et de santé pertinentes
sont habituellement associées à des pour l’analyse épidémiologique. On
Le problème de la non-participation phénomènes de sélection dans les verra dans la section suivante que
est à la fois plus classique et plus études épidémiologiques [Goldberg & les bases de données existantes ne
complexe à résoudre, puisque la non- Luce, 2001], comme les hospitalisa- sont pas indemnes d’imperfections
participation équivaut le plus souvent, tions, les accidents, l’absentéisme, la de nature diverse, susceptibles d’in-
dans le cadre d’enquêtes reposant consommation de soins, les diagnos- duire des «  erreurs de classement  »
sur le volontariat, à une absence d’in- tics d’affections de longue durée, le (personnes non malades classées
formation, tant en ce qui concerne lieu d’habitation, la trajectoire socio- à tort malades, par exemple). Mais
les caractéristiques des personnes professionnelle. dans l’optique de la comparaison des
que les motifs de leur non-partici- participants et des non-participants, il
pation. Une solution qui permet de Un tel dispositif permet le calcul d’un s’agit d’erreurs « non différentielles »,
contourner ces difficultés consiste à coefficient de traitement de non- puisque la probabilité d’erreur est
constituer et à suivre une «  cohorte réponse pour chaque individu. Pour la même dans les deux groupes, la
de non-participants  » formée d’un cela, une fois l’analyse de la non- source d’information étant identique :
échantillon aléatoire issu de la popu- participation et de l’attrition réalisée, ce type d’erreur diminue la puissance
lation des non-participants à partir de seules les variables explicatives de des tests, mais n’induit pas de biais
bases de données nationales existan- l’une et l’autre seront retenues pour la [Bouyer et al., 1993].
tes, l’ensemble (participants et non- constitution de groupes homogènes
participants) devant être représentatif quant à la probabilité de réponse. Dans
Bases de données nationales
de la population générale. un premier temps, le coefficient de
pertinentes pour l’épidémiologie
traitement de la non-réponse « non-
L’établissement des marges permet- participation  » est calculé comme
Il existe différentes bases de données
tant le calage repose aussi sur l’utili- l’inverse du taux de participation pon-
nationales exhaustives9 réunissant
sation des mêmes bases de données déré du groupe relatif à l’individu
des données individuelles diverses
nationales afin de calculer les marges considéré. De la même façon, et dans
pouvant être utilisées dans des proto-
pertinentes qui, outre les habituel- un second temps, le coefficient de
coles épidémiologiques, qu’il s’agisse,
les caractéristiques (sexe, âge, PCS), traitement de la non-réponse «  attri-
comme on vient de le voir, d’analyser
doivent intégrer des variables relati- tion » est calculé comme l’inverse du
la non-participation et de calculer
ves à la santé et caractéristiques du taux de «  non-attrition  » pondéré du
les pondérations, ou de répondre à
recours aux soins, toutes informa- groupe relatif à l’individu considéré.
d’autres besoins (sélection de sujets
tions également disponibles pour les Le coefficient de traitement de non-
présentant une pathologie, validation
participants à la cohorte. La qualité réponse final est alors calculé comme
d’un diagnostic, suivi de personnes
du calage sera donc sensiblement le produit de ces deux coefficients, ce
incluses dans des études, etc.). 9
améliorée par le calcul de marges qui permet d’obtenir des estimations
ayant un rapport spécifique avec la non biaisées [Hernan et al., 2004  ;
finalité de la cohorte, c’est-à-dire des Little & Vartivarian, 2003  ; Jones et Événements socioprofessionnels
questions de santé. al., 2006].
Les bases de données de la Caisse
En pratique, la cohorte de non-par- Une telle approche nécessite donc de nationale d’assurance vieillesse
ticipants fera l’objet d’un suivi ano- pouvoir utiliser des bases de données (Cnav) sont essentielles, à la fois pour
nyme en ce qui concerne certaines nationales exhaustives contenant des permettre l’accès aux données socio-
professionnelles et pour suivre les
sujets dans les cohortes. Le rôle de
cet organisme est notamment d’assu-
rer le droit au paiement de la retraite
pour toute personne ayant appartenu
au moins une fois au régime général
de sécurité sociale (RGSS) durant sa
vie. Pour cela, la Cnav a mis en place
un système permettant de collecter

9.  On peut trouver une description plus com-


Source : site Gazel

plète des bases de données citées dans deux


documents téléchargeables (www.rppc.fr/
publications.html)  : Ribet C, Genet J, Zins M.
Les bases de données socioprofessionnelles.
Rapport. Unité 684 Inserm – CNAMTS, 2006 et
Coeuret-Pélisser M, Zins M. Les bases de don-
nées de l'assurance maladie. Rapport. Unité
Extrait du journal d’information de la cohorte Gazel 687 Inserm – CNAMTS, 2006.

Courrier des statistiques n° 124, mai-octobre 2008 63


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

et traiter les données sociales issues régimes de base (MSA, Cancava, Les bases de données de la Cnav
de différents organismes et régimes Organic), ainsi que dans certains régi- peuvent grandement faciliter des
gestionnaires des prestations socia- mes particuliers ou spéciaux (SNCF, opérations particulièrement lourdes
les aux niveaux national, régional et EDF-GDF, CNRACL, Mines). et complexes, courantes dans de
local. Pour remplir son rôle, la Cnav nombreuses enquêtes épidémiologi-
a créé plusieurs bases de données De plus, pour le compte et sous le ques, et dont l’efficacité est souvent
qu’elle gère, dont les principales sont contrôle des organismes d’assurance médiocre. Elles permettent notam-
présentées succinctement ci-après. maladie, la Cnav met en œuvre le ment le suivi des sujets  : tous les
Répertoire national inter-régimes des épisodes socioprofessionnels de la
Le Système national de gestion des bénéficiaires de l’assurance maladie quasi-totalité des personnes vivant
identités (SNGI) contient l’ensemble (RNIAM), qui est constitué, pour cha- en France étant enregistrés de façon
des données (numéro d’inscription que bénéficiaire, en plus de son NIR prospective et détaillée, il est théori-
au répertoire ou NIR, état civil, sta- et de son état civil, des informations quement possible de suivre les per-
tut vital) pour toute personne née sonnes incluses dans un protocole
de rattachement à l’organisme lui
en France métropolitaine ou dans longitudinal tout au long de leur vie et
servant les prestations d’assurance
les départements d’outre-mer (DOM) de minimiser ainsi le taux de perdus
maladie.
(premier cas). Il contient aussi les de vue.
données d’identification des person-
Pour la constitution et l’enrichisse-
nes nées à l’étranger dont l’inscrip- Les bases de données de la Cnav
ment de ces bases de données, la
tion est demandée par un organisme peuvent également être utilisées pour
Cnav reçoit régulièrement des don-
autorisé sur la base d’un justificatif l’accès aux données socioprofession-
d’état civil, ou encore de celles nées nées en provenance de différentes
nelles : certains domaines de l’épidé-
dans les territoires d’outre-mer (TOM) sources. Les Déclarations annuelles
miologie, notamment l’épidémiologie
et résidant sur le territoire français de données sociales (DADS) sont des risques professionnels et des
(second cas). transmises chaque année par les déterminants sociaux de la santé,
employeurs ayant un numéro Siret. s’intéressent particulièrement au sta-
Le SNGI a pour finalité de certifier tut social et professionnel et à son
l’identité d’une personne. L’Insee a Les Données nominatives trimestriel- évolution dans le temps. Les don-
en charge l’immatriculation de toute les (DNT) sont transmises par les nées enregistrées dans les bases de
personne se trouvant dans le premier employeurs de personnel de mai- la Cnav sont particulièrement riches
cas ; ces informations sont contenues son. Les informations de périodes de ce point de vue et susceptibles
dans le Répertoire national d’iden- d’activité / non-activité des individus d’intéresser différentes équipes d’épi-
tification des personnes physiques relevant de l’Unedic (chômage), de démiologistes, aussi bien pour sélec-
(RNIPP). Depuis 1981, il incombe à la CNAMTS (maladie), de la Caisse tionner, sur des critères socioprofes-
la Cnav, dans le cadre de sa mission nationale d’allocations familiales sionnels, des sujets à inclure dans
déléguée par l’Insee, de procéder (Cnaf, notamment les données sur la des études de méthodologie variée
à l’immatriculation des personnes maternité), des régimes particuliers (cas-témoins, cohorte, etc.), que pour
se trouvant dans le second cas. Le ou spéciaux (SNCF, EDF, RATP…), avoir accès aux données sociopro-
SNGI contient l’ensemble des élé- sont également transmises à la Cnav. fessionnelles les concernant tout au
ments d’identification des personnes long de suivis de longue durée.
(NIR, nom patronymique, prénom(s), Cet ensemble de données est recueilli
sexe, date et lieu de naissance, date de façon prospective depuis 1995.
et lieu de décès, numéros d’acte de Événements de santé
cependant, les données des autres
naissance et d’actes de décès), soit régimes ne sont actuellement collec-
reçus de l’Insee, soit intégrés par la En ce qui concerne les données de
tées que lorsque les sujets atteignent mortalité : le statut vital et les causes
Cnav elle-même.
l’âge de 55 ans : c’est en effet à partir de décès peuvent actuellement être
de cet âge que la vérification et le obtenus selon la procédure décrite
Le Système national de gestion des
remplissage d’éventuelles absences dans le décret n° 98-37 autorisant
carrières (SNGC) permet de retra-
cer, pour chaque individu dès l’âge d’informations débutent. l’accès au RNIPP et à la base de don-
de 16  ans et jusqu’à la liquidation nées du centre d’épidémiologie des
de ses droits à la retraite, ses diffé- Les données issues de la Cnav sont causes de décès de l’Inserm (CépiDc),
rentes périodes d’activité  : périodes pour des raisons évidentes (elles ser- dans des conditions garantissant une
d’activité professionnelle ou assimi- vent de base au calcul des retraites) confidentialité absolue des données à
lées (chômage, maladie, maternité complètes et particulièrement bien caractère personnel.
ou congés parentaux…). Le SNGC validées, notamment pour les pério-
contient donc l’ensemble des don- des les plus récentes, et leur qualité Concernant les données d’hospitalisa-
nées inhérentes à la carrière des (complétude et exactitude) s’amé- tion : le Programme de médicalisation
assurés du régime général, y compris liore régulièrement au fil des années du système d’information (PMSI) a
les données concernant d’éventuel- avec l’informatisation du recueil à la pour objectif de produire des informa-
les périodes effectuées dans d’autres source. tions à contenu médical sur les fonc-

64
Bases de données médico-administratives et épidémiologie : intérêts et limites

tions hospitalières et de permettre une informations auprès des profession- L’utilisation du PMSI comme source
allocation de ressources dépendant nels de santé (informations pertinentes d’information sur les pathologies
de l’activité hospitalière. Il consiste relatives à leur activité, leurs recettes, s’avère délicate et ne peut reposer
en un recueil exhaustif systématique et s’il y a lieu, à leurs prescriptions), la uniquement sur le diagnostic princi-
et un traitement automatisé d’infor- définition, le suivi et l’évaluation des pal [Couris et al., 2002, Couris et al.,
mations administratives et médicales politiques de santé publique (loi de 2007]. Il est nécessaire de dévelop-
soumises au secret médical. Les éta- santé publique du 13 août 2004). per des algorithmes plus complexes
blissements transmettent les fichiers alliant les codes des diagnostics aux
anonymisés à l’Agence régionale Le SNIIR-AM peut constituer une codes des actes spécifiques de la
d’hospitalisation (ARH) et celles-ci solution particulièrement efficace pathologie étudiée. Par ailleurs, lors-
les transmet à l’Agence technique pour l’accès à des données indivi- que la base du PMSI est utilisée pour
de l’information sur l’hospitalisation duelles permettant de réaliser des estimer l’incidence d’une pathologie,
(ATIH), en vue de la constitution des enquêtes épidémiologiques. Il s’agit il faut exclure les cas prévalents10 par
bases de données nationales. Cette en effet d’une base de données indi- la recherche de la pathologie dans les
transmission se fait sous la forme de viduelles et anonymes conservées bases PMSI les années antérieures
résumés de sortie anonymisés (RSA), pendant deux ans au-delà de l’an- [Quantin et al., 2000]  ; cependant,
qui contiennent essentiellement des née en cours. L’anonymisation des ce problème ne se pose pas lorsque
données permettant l’identification du variables identifiantes est réalisée par le PMSI est utilisé pour sélectionner
séjour, l’identification du patient par le module FOIN (fonction d’occulta- des sujets à inclure en fonction d’une
un numéro d’anonymat et des don- tion des informations nominatives) pathologie [Geoffroy-Perez et al.,
nées médicales (diagnostic principal, [Quantin et al., 2005  ; Lenormand, 2006] ou pour connaître l’occurrence
ensemble des diagnostics associés et 2005]. Cette fonction repose sur le des pathologies dans le cadre du suivi
des actes pratiqués). NIR de l’ouvrant-droit, la date de longitudinal d’une cohorte [Borella et
naissance et le sexe du bénéficiaire. al., 2000 ; Laroche et al., 2002].
Enfin, parmi les données enregis- Les données sont anonymisées en
trées par les systèmes d’information deux étapes : au niveau local, créant L’intérêt potentiel des bases de don-
de l’assurance maladie, on distingue un numéro d’anonymat réversible nées de l’assurance maladie dans
deux types de données : celles dites (algorithme FOIN-1)  ; puis au niveau une optique épidémiologique apparaît
«  de production  », portant principa- national, créant un identifiant ano- clairement dans la mesure où elles
lement sur les consommations de nyme irréversible (algorithme FOIN- fournissent des données individuelles
soins, et dont l’objectif premier est 2)  : à partir de cet identifiant, on ne médicalisées, structurées et codées
la liquidation des prestations d’assu- peut pas retrouver les données nomi- de manière standardisée [Fender &
rance maladie ; et celles « de référen- natives qui ont servi au calcul. Weill, 2004]. Leur utilisation dans une
tiels », qui concernent les informations optique épidémiologique nécessite
sur les assurés, les établissements de cependant un important travail de
santé et les professionnels de santé. réflexion méthodologique [Quantin et
al., 1999], de contrôle et de validation
Par ailleurs, les services médicaux de données. Ainsi, la base des ALD
disposent de leurs propres fichiers codées par des médecins reste une
comportant des informations médica- base de données a vocation médico-
les sur les affections de longue durée sociale [CNAMTS, 2004] et ses limi-
(ALD), les accidents du travail et les tes sont connues  : imprécision des
maladies professionnelles, et dont diagnostics, absence d’exhaustivité
l’objectif initial est le contrôle, par les des cas déclarés, risque de double
Source : site PMSI

médecins conseil, des pathologies déclaration [Chinaud et al., 2004]. La


ouvrant droit à une prestation. prévalence des affections classées
en ALD est systématiquement infé-
Toutes ces données sont désormais rieure à la prévalence réelle, car le
rassemblées au sein du Système Logo du Programme de médicalisation patient peut être atteint de l’une de
national d’information inter régimes de du système d’information – PMSI ces maladies, mais ne pas répondre
l’assurance maladie (SNIIR-AM). Les aux critères de sévérité ou d’évoluti-
données du SNIIR-AM incluent tous Principaux problèmes vité exigés ; il peut déjà être exonéré
les régimes de l’assurance maladie  : méthodologiques du ticket modérateur à un autre titre
CNAMTS, MSA, RSI et les 16 autres (autre ALD, invalidité), ou il peut ne
régimes spéciaux, et concernent aussi Bien que l’ensemble des bases de
bien la médecine de ville que les données citées n’ait pas fait l’objet
hospitalisations. Le SNIIR-AM a pour d’analyses systématiques de validité, 10.  L’incidence concerne les nouveaux cas de
objet la connaissance des dépenses quelques études plus ou moins ponc- maladie apparus pendant une période donnée,
alors que la prévalence concerne l’ensemble
de l’ensemble des régimes de l’as- tuelles ont porté sur les données des cas pendant cette période (cas préexistants
surance maladie, le retour de ces issues des différents fichiers. et nouveaux cas).

Courrier des statistiques n° 124, mai-octobre 2008 65


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

pas demander à être exonéré pour Les doublons et collisions peuvent tés à partir d’autres sources comme
des raisons personnelles (assurance exister dans une même base de don- c’est le plus souvent la règle  : il est
complémentaire satisfaisante, souci nées, ou peuvent être générés lors alors impossible de recueillir le NIR,
de confidentialité…). de l’appariement de deux ou plu- même avec l’accord des sujets, et
sieurs bases. Les collisions ou les donc de suivre ces derniers dans les
Par ailleurs, la qualité du codage n’a doublons sont de nature à provoquer bases du SNIIR-AM. Ce problème est
jamais été évaluée, à notre connais- des erreurs de classement et donc, bien connu des épidémiologistes et
sance. La base de données de rem- au mieux, une perte de puissance, de la Commission nationale de l’in-
boursements de l’assurance maladie au pire, un biais de classement si les formatique et des libertés (Cnil). Des
est adaptée aux objectifs d’analyse erreurs sont liées à la maladie ou à solutions sont actuellement recher-
des pratiques de prescription [Deprez une autre variable d’intérêt. chées, qui pourraient reposer sur
et al., 2004], d’évaluation de l’impact la mise en place d’un «  identifiant
de campagne d’information [Lecadet À l’heure actuelle, le seul identifiant national de santé  » [Gensbittel et al.,
et al., 2004]. En revanche, elle ne stable et qui présente les meilleures 2007].
comporte pas d’information sur la qualités est le NIR. Pour garantir la
nature des maladies traitées et exclut, confidentialité des données indivi-
par définition, l’automédication et les Éthique & confidentialité
duelles, l’identifiant encrypté11 par
prestations non présentées au rem- la fonction FOIN est actuellement L’utilisation des bases de données
boursement.11121314 utilisé dans les bases de données citées précédemment pose des pro-
médico-administratives. Si, pour cha- blèmes relevant de l’éthique de la
L’identification des sujets dans les
que individu, les éléments permettant recherche. Cette utilisation nécessite
bases de données recouvre deux
de reconstituer son identifiant FOIN en cela des dispositifs destinés à
aspects distincts  : identifier, dans
[Quantin et al., 2005  ; Lenormand, garantir aux données à caractère per-
une base de données, des individus
2005] sont disponibles, il est alors sonnel une confidentialité conforme
connus dans une autre base (apparie-
possible de retrouver, pour une per- aux textes et suffisante pour être
ment de bases de données, notam-
sonne donnée, les enregistrements acceptable par la société.
ment pour les suivis de cohorte) ;
de données le concernant, y compris
identifier des individus dans une base On peut tout d’abord rappeler que, du
dans le SNIIR-AM. Des erreurs peu-
de données pour les études d’inci- fait du caractère particulièrement sen-
vent néanmoins se produire à divers
dence, de prévalence, la constitution sible des données qu’ils utilisent, les
niveaux limitant l’identification des
d’études cas-témoins ou de cohorte. épidémiologistes voient leur activité
sujets par l’identifiant FOIN, et il faut
alors envisager des solutions d’ap- particulièrement encadrée. Ainsi, dans
Dans la première situation, il s’agit
pariement probabiliste [Jaro, 1995  ; le cadre de la loi Informatique et liber-
d’apparier au moins deux bases de
Quantin et al., 2005] à partir des tés, il existe un dispositif spécifique
données, puis d’interpréter les infor-
autres variables disponibles dans ces réglementant le traitement de l’infor-
mations retrouvées. Dans la seconde,
bases de données. mation en matière de recherches dans
la principale stratégie est de définir
le domaine de la santé, et tout projet
un algorithme d’identification fiable
Cependant, en l’état actuel des tex- d’enquête épidémiologique doit obte-
des patients à identifier, qui peut
tes, l’utilisation directe du NIR est nir, préalablement à son examen par la
être constitué à partir de diagnos-
interdite aux épidémiologistes, seuls Cnil, l’aval du Comité consultatif sur le
tics, d’actes ou de consommation de
certains organismes ayant l’autorisa- traitement de l’information en matière
médicaments selon la base de don-
tion d’en avoir connaissance (notam- de recherches dans le domaine de la
nées utilisée. La qualité d’un appa-
ment les organismes de protection santé (CCTIRS)12. Certaines enquê-
riement quel qu’il soit se mesure par
sociale). Or, les données individuelles tes épidémiologiques, notamment
le nombre de collisions (même identi-
contenues dans les bases médica- celles qui s’accompagnent des ges-
fiant pour des personnes différentes)
les du SNIIR-AM ne sont accessi- tes invasifs13 (examen radiologique,
et de doublons (plusieurs identifiants
bles que via le numéro FOIN pour le par exemple), nécessitent l’accord
pour une même personne) [Quantin
calcul duquel le NIR est nécessaire. préalable d’un comité de protection
et al., 2005].
Lorsqu’il est possible d’inclure dans des personnes. Enfin, dans certaines
une enquête des sujets à partir d’un situations complexes sur le plan de
11.  L’encryptage est une procédure de chif- organisme détenteur du NIR (comme l’éthique, il est également possible de
frement permettant de protéger un message
ou des données qu’on souhaite garder confi- dans l’exemple de Constances pré- saisir le Comité consultatif national
dentiels. senté plus loin), cette difficulté peut d’éthique pour les sciences de la vie
12.  Loi 78-17 modifiée et décret n° 95-682 pris
pour application du chapitre V bis de cette loi
être résolue et il est possible, comme et de la santé (CCNE). Il faut aussi
et modifiant lui-même le décret n° 78-774 du on le verra, d’élaborer des procédu- souligner que la communauté des épi-
17 juillet 1978. res où le NIR n’est jamais connu des démiologistes s’est dotée, dès 1998,
13.  Se dit d’une méthode d’exploration ou de
soin nécessitant une lésion de l’organisme ou épidémiologistes. Mais cette situation de recommandations de déontologie
susceptible d’entraîner un risque pour la santé n’est pas courante et ne peut être et bonnes pratiques en épidémiologie
[NDLR].
14.  Téléchargeable sur  : http://adelf.isped.u- utilisée lorsque les participants d’une qui ont fait récemment l’objet d’une
bordeaux2.fr (rubrique Actualités). enquête épidémiologique sont recru- révision14.

66
Bases de données médico-administratives et épidémiologie : intérêts et limites

Sur le plan technique, l’utilisation des


bases de données médico-adminis-
tratives présente des difficultés parti-
culières concernant la confidentialité
des données à caractère personnel.
À cet égard, le problème essentiel
est celui des identifiants utilisables.
Ce point a été traité en détail dans
un numéro récent du Courrier des
statistiques et nous n’y reviendrons
pas ici [Gensbittel et al., 2007].

Source : Courrier des statistiques


D’autres techniques plus récentes
viennent d’être proposées [Quantin
et al., 2008]. À titre d’illustration des
solutions qui peuvent être mises en
œuvre pour assurer une stricte confi-
dentialité, tout en permettant un large
accès aux bases de données médico-
administratives, on résumera (en le
Entrée et porche du bâtiment de la Cnil, 8 rue Vivienne, Paris 2e
simplifiant) le dispositif prévu pour
la cohorte Constances déjà citée15.
Les procédures comportent notam-
ment un tirage au sort des partici-
pants potentiels, une inclusion dans l’algorithme de calcul de l’identifiant tirées au sort seront informées, lors
un centre d’examens de santé (CES) crypté FOIN. La Cnav transmet éga- de l’invitation, de la possibilité de faire
de la sécurité sociale permettant le lement les NConstances et les données partie de cet échantillon ; elles pour-
recueil de données médicalisées, et concernant la date de naissance et le ront explicitement refuser ce suivi
un suivi des volontaires, par ques- sexe à un « Tiers de confiance » agréé en remplissant le coupon-réponse
tionnaire postal et dans les bases de par la Cnil. accompagnant l’invitation et seront
données de la Cnav et du SNIIR-AM ; alors exclues de la population des
une cohorte de non-répondants doit La CNAMTS conserve les informations non-participants susceptibles d’être
également faire l’objet d’un suivi ano- nécessaires à la génération des numé- tirés au sort. 15 16
nyme dans les bases de la Cnav et du ros FOIN associés aux NConstances. Afin
SNIIR-AM. de pouvoir adresser les courriers d’in- Lors de leur venue dans le CES,
vitation à participer aux sujets tirés au les personnes volontaires rempliront
sort, elle adresse également la cor- un consentement éclairé permettant
respondance NIRindividuel–NConstances, d’exprimer l’acceptation ou le refus
Constitution de la cohorte
ainsi que les données d’état civil, aux de transmission de tout ou partie
Centres de traitement informatique des données les concernant, notam-
La Cnav procède à un tirage au sort à
(CTI) interrégionaux de la CNAMTS, ment dans le cadre du suivi  : don-
probabilités inégales selon des varia-
qui disposent de l’adresse postale nées du SNIIR-AM (consommations
bles usuelles (sexe, âge, PCS) des
des sujets. Les CTI transmettent alors de médicaments, actes de laboratoi-
sujets éligibles16. À cette fin, elle extrait
les fichiers d’adresses aux CES, pour res, hospitalisations, consultations de
du RNIAM les NIR des affiliés éligibles,
envoi des invitations. généralistes, consultations de spécia-
qui sont ensuite appariés aux informa-
listes), données socioprofessionnelles
tions incluses dans d’autres fichiers
de la Cnav, adresses postales de la
sur la PCS actuelle pour les actifs, et
Informations préalables et Poste, données des causes de décès
sur la dernière PCS occupée pour les
inclusion des participants du CépiDC de l’Inserm. Une étiquette
autres (retraités, chômeurs, inactifs).
avec un code à barres correspondant
Chaque sujet tiré au sort se verra
Les participants de la cohorte seront au NConstances, qui leur aura été attri-
attribuer un «  numéro Constances  »
(NConstances). La correspondance invités par courrier  : les personnes bué, sera apposée sur chaque docu-
NIRindividuel–NConstances sera conservée sollicitées recevront une plaquette ment (consentement, questionnaires,
par la Cnav pour les échanges de don- de présentation de Constances et un données de l’examen de santé).
nées ultérieurs. Pour chaque sujet tiré coupon-réponse leur permettant de
au sort, la Cnav adresse cette table de donner leur accord pour participer
à la cohorte. Comme il est prévu de 15.  Au moment de la rédaction de cet article,
correspondance à la CNAMTS (struc- le dossier Constances est en cours d'examen
ture gérant le SNIIR-AM), ainsi que des mettre en place un échantillon de à la Cnil.
données d’état civil (nom patronymi- non-participants suivi de façon tota- 16.  La population source de Constances est
constituée des affiliés du Régime général de
que, prénom, date de naissance, sexe, lement anonyme dans les bases de sécurité sociale âgés de 18 à 69 ans, résidant
lieu de naissance) nécessaires pour données nationales, les personnes dans certains départements français.

Courrier des statistiques n° 124, mai-octobre 2008 67


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

Circuit de transmission des Le projet de plate-forme Plastico Le projet Plastico a pour objectif de
données constituer une plate-forme limitée
Actuellement, la France dispose, à l’aide à la réalisation d’enquêtes
Deux types de données seront comme on l’a vu, de bases de don- concernant des individus et impliquant
recueillis  : des données nominatives nées médico-administratives couvrant l’utilisation de données à caractère
et des données anonymisées, pour la quasi-totalité de la population natio- personnel. Le rôle de la plate-forme
lesquelles des flux indépendants nale (et ce, contrairement à la plupart Plastico concernant l’accès aux don-
seront mis en place. des autres pays)  ; de surcroît, ces nées individuelles des bases de don-
bases de données sont centralisées et nées nationales est de servir d’inter-
Dans le cas des données nomina- structurées. Mais notre pays se carac- face entre les enquêtes épidémio-
tives  : après l’inclusion, les don- térise aussi par une sous-utilisation logiques et les bases de données  :
nées d’état civil (nom patronymique, de cette ressource particulièrement mise au point avec les responsables
prénom, date de naissance, sexe, importante. concernés des modalités opération-
lieu de naissance) et l’adresse pos- nelles d’accès et de transfert de don-
tale, associées aux NConstances, seront Certes, comme l’exemple du projet nées  ; réception des résultats des
transmises au Tiers de confiance et Constances l’illustre, les procédures opérations informatiques de recherche
conservées sur un ordinateur indé- permettant l’accès aux bases de don- des sujets et d’extraction des données
pendant de tout réseau (internet, nées médico-administratives nationa- individuelles  ; contrôles de premier
intranet…). Le Tiers de confiance les sont complexes et nécessitent des niveau (complétude, absence de dou-
sera en mesure d’identifier par diffé- moyens importants, mobilisables sur blons…)  ; transmission sécurisée. La
rentiel, après un délai de 3 mois, les une très longue durée. Il existe en plate-forme pourra prendre en charge
non-participants, parmi lesquels un outre divers problèmes légaux, mais ils cette activité dans des conditions de
échantillon de non-participants sera pourraient être résolus. qualité et de sécurité difficiles à réunir
tiré au sort pour faire l’objet d’un au sein de chaque équipe concernée,
suivi dans les bases de données L’absence de dispositifs destinés à en raison des ressources nécessaires,
nationales. surmonter les importantes difficultés de la compétence et de l’expérience
scientifiques, techniques et logistiques du personnel spécialisé dans ces opé-
Dans le cas des données anonymi- inhérentes à ce type d’activités (qui rations.
sées  : les données recueillies dans nécessitent des moyens dont aucune
les CES, identifiées par le NConstances, équipe d’épidémiologie ne dispose Une autre fonction de Plastico est,
seront adressées à l’équipe en France) est donc, à l’évidence, la pour les enquêtes qui font appel à plu-
Constances. Ces données seront raison principale de la faible utilisation sieurs sources informatisées de don-
alors associées à un «  numéro de actuelle des dispositifs informationnels nées, d’assurer l’appariement de don-
cohortiste permanent » (NCP) et inté- disponibles. nées individuelles issues de bases de
grées dans les bases de données de données différentes. En effet, du fait
la cohorte, et accessibles unique- Dans ce contexte, le projet de création des contraintes très fortes de sécu-
ment aux personnes habilitées. La d’une plate-forme scientifique et tech- rité et de confidentialité attachées au
correspondance NCP–NConstances sera nique pour l’aide à la gestion de cohor- traitement des données à caractère
gérée par l’équipe Constances. De tes et de grandes enquêtes (projet personnel, et des restrictions pour
plus, le Tiers de confiance adressera «  Plastico  ») correspond aux besoins l’utilisation du NIR, le croisement de
à l’équipe Constances les informa- de nombreuses équipes menant de données individuelles provenant de
tions suivantes : NConstances, date de grandes enquêtes relevant de divers plusieurs bases de données est une
naissance, sexe, PCS et l’information organismes. La plate-forme Plastico, opération complexe et particulière-
quant à la participation éventuelle de ouverte à la communauté scientifique ment lourde. Plastico, structure inter-
chaque sujet. spécialisée, repose sur la mutualisa- organismes, en relation permanente
tion de moyens sous la forme d’une avec les organismes gérant les bases
Après les vagues d’inclusion, la Cnav plate-forme scientifique et technique : de données nationales, devrait dispo-
et la CNAMTS détruiront les infor- ressources méthodologiques et outils ser de moyens techniques importants
mations ne concernant ni la cohorte de recueil de données, compétences et de personnel spécialisé de haut
de participants ni la cohorte de non- de natures diverses, développement niveau, jouera le rôle d’un «  Centre
participants. Le Tiers de confiance d’activités partagées et de synergies d’appariement sécurisé  » [Quantin et
détruira toutes les informations ne scientifiques. Répondant à la néces- al., 2008]. Les aspects légaux et régle-
concernant pas les participants (y sité de structures pérennes pour des mentaires et les modalités de fonc-
compris les informations de sujets opérations de très longue durée, elle tionnement d’une telle fonction sont
appartenant à la cohorte de non- devrait offrir des prestations diverses, en cours de définition en relation avec
participants, dont le suivi doit être dans des conditions de fonctionne- la Cnil.
strictement anonyme)  ; ainsi, après ment apportant des solutions à cer-
l’inclusion, le Tiers de confiance dis- taines des difficultés évoquées, tout L’utilisation des données de morbi-
posera uniquement d’informations en induisant d’importantes économies dité extraites de bases de données
concernant les participants. d’échelle. nationales, comme le PMSI ou les

68
Bases de données médico-administratives et épidémiologie : intérêts et limites

ALD, ne permet pas d’obtenir des médicaments. À l’heure actuelle, on ne bénéfices d’ampleur modeste, ou de
diagnostics suffisamment fiables et dispose de pratiquement aucun algo- décrire la distribution et l’évolution
précis par référence aux contraintes rithme validé qui pourrait être utilisé d’événements peu fréquents, ce sont
épidémiologiques. en routine. aujourd’hui des effectifs très impor-
tants qu’il faut réunir dans les étu-
Dans de nombreuses situations, il est Enfin, Plastico assurera également des épidémiologiques. Des cohortes
donc nécessaire de mettre en place une fonction de saisie automatisée de de centaines de milliers de sujets,
des procédures de validation des dia- questionnaires au bénéfice d’enquêtes suivis de façon prospective pendant
gnostics extraits des bases de don- épidémiologiques par des techniques des périodes qui s’étendent sur des
nées. Dans le cadre de Plastico, un de lecture automatisée de documents décennies, sont indispensables pour
réseau de recherche, associant des (LAD) grâce à un atelier de LAD. répondre à des questions multiples.
épidémiologistes et des professionnels
de l’information médicale des dépar- Dans ce paysage, la France ne se
L’importance des besoins nécessai-
tements d’information médicale des distingue pas particulièrement par
res implique l’association de plusieurs
hôpitaux qui recueillent les données ses grandes réalisations, les cohor-
organismes pour la création et la ges-
de base du PMSI, a été constitué. Les tes prospectives françaises ayant une
tion de la plate-forme. Actuellement, la
objectifs principaux de ce réseau sont taille relativement faible comparative-
mise en place d’une structure de pré-
de développer des méthodes d’aide à ment à ce qui existe, parfois depuis
figuration de la plate-forme Plastico a
la validation pour des diagnostics de des décennies, dans d’autres pays.
été confiée par l’Institut de recherche
pathologie issus des bases de don- La modestie des études françaises
en santé publique (IReSP) à l’Unité s’explique en partie par une sous-utili-
nées médicales nationales. Il n’existe mixte Inserm-CNAMTS 687 pour une
cependant pas de méthode «  géné- sation des possibilités offertes par les
durée de deux ans (2008-2009). Les bases de données nationales alimen-
rale » pour un tel objectif. objectifs de la structure de préfigura- tées par les organismes de protection
tion sont d’accumuler une expérience sociale et médicale, qui offrent pour-
Une voie prometteuse est le déve- suffisante, à la fois sur le plan scien- tant un intérêt potentiel majeur pour la
loppement d’algorithmes alliant un tifique, technique et des ressources réalisation d’études épidémiologiques
diagnostic à des actes médico-tech- à réunir, et sur celui des modalités [Goldberg, 2006].
niques, à des consommations de institutionnelles et de gestion.
médicaments plus ou moins spéci- Or, si l’on veut que la France se
fiques de la pathologie concernée, dote d’outils épidémiologiques d’en-
etc. L’accès aux bases de données Pour une meilleure utilisation
vergure comparable à ce qui existe
médicalisées citées ici rend possible des bases de données médico-
dans plusieurs pays, de très grandes
de telles approches, dans la mesure administratives enquêtes et de nouvelles cohortes
où elles contiennent des données à sont indispensables, dont l’effectif ne
la fois sur les diagnostics et sur les L’épidémiologie se trouve aujourd’hui se comptera plus en dizaines, mais en
actes médico-techniques et les médi- face à la nécessité de développer des centaines de milliers de sujets. Ceci
caments prescrits. Bien entendu, de études de taille autrefois inimaginable. nécessite le développement de struc-
tels algorithmes sont spécifiques des Qu’il s’agisse de mettre en évidence tures du type de celle proposée par
pathologies  ; ils doivent de plus être des risques de faible ampleur associés le projet Plastico, indispensable pour
constamment mis à jour en fonction à l’exposition à des agents potentielle- assurer une interface entre les équipes
de l’évolution des techniques médi- ment pathogènes, d’évaluer l’efficacité d’épidémiologie et les grandes bases
cales et de l’introduction de nouveaux d’interventions dont on attend des de données nationales. n

Références bibliographiques
  Austin MA, Criqui MH, Barrett et al. The effect of response bias on the odds-ratio. Am J Epidemiol,
1981;114,137-143.
  Borella L et al. Un essai d’exploitation de la base PMSI nationale pour évaluer le volume et les modes de prise
en charge du cancer en secteur hospitalier non lucratif. Rev Epidemiol Sante Publique, 2000, 48 : 53-70.
  Bouyer J, Hémon D, Cordier S et al. Épidémiologie, principes et méthodes quantitatives. Paris, Éditions
Inserm, 1993.
  Chinaud F, Weill A, Ricordeau P, Fender P, Allemand H. Incidence du cancer du poumon en France métropo-
litaine de 1997 à 2002 : les données du régime général de l’assurance maladie. Revue Médicale de l’Assurance
Maladie Avril-juin2004, 35: 69-79.
  CNAMTS-DSM-Mission des Soins de ville-Mission Statistique. Incidence médico-sociale des ALD30 en 1999.
Avril 2004. www.ameli.fr/245/doc/1391/article_pdf.html.
  Couris CM et al. Method of correction to assess the number of hospitalized incident breast cancer cases
based on claims databases. J Clin Epidemiol, 2002, 55 : 386-391.

Courrier des statistiques n° 124, mai-octobre 2008 69


Marcel Goldberg, Catherine Quantin, Alice Guéguen et Marie Zins

  Couris CM, Forêt Dodelin C, Rabilloud M, Colin C, Bobin JY, Dargent D, Raudran D, Schott AM Sensibilité et
spécificité de deux méthode d’identification des cancers du sein incidents dans les services spécialisés à partir
des données médico-administratives. Rev Epidemiol Sante Publique 2004, 52, 151-60.
  Criqui MH. Response bias and risk ratios in epidemiologic studies. Am J Epidemiol, 1979;109,394-399.
  Deprez Ph-H, Chinaud F, Clech S, Germanaud J, Weill A, Cornille JL, Fender P. La population traitée par médi-
caments de la classe des antihistaminiques en France Métropolitaine : données du régime général de l’assurance
maladie, 2000. Revue Médicale de l’Assurance Maladie, Avril-Juin 2004, 35: 3-11.
  Fender P, Weill A. Epidémiologie, santé publique et bases de données médico-tarifaire. (Éditorial) Rev Epidemiol
Santé Publique, 2004, 52,113-117.
  Gensbittel MH, Riandey B, Quantin C. Appariements sécurisés : statisticiens, ayez de l’audace ! Courrier des
statistiques, 2007, 121-122: 49-58.
  Geoffroy-Perez B, Imbernon E, Gilg Soit Ilg A, Goldberg M. Comparison of the French DRG based information
system (PMSI) with the National Mesothelioma Surveillance Program database. [Article in French]. Rev Epidemiol
Sante Publique. 2006 54:475-83.
  Goldberg M, Luce D. Les effets de sélection dans les cohortes épidémiologiques. Nature, causes et consé-
quences. Rev Epidemiol Santé Publique 2001;49:477-92.
  Goldberg M, Chastang JF, Leclerc A, Zins M, Bonenfant S, Bugel I, Kaniewski N, Schmaus A, Niedhammer I,
Piciotti M, Chevalier A, Godard C, Imbernon E. Socioeconomic, demographic, occupational and health factors
associated with participation in a long-term epidemiologic survey. A prospective study of the French Gazel cohort
and its target population. Am J Epidemiol 2001;154:373-84.
  Goldberg M, Melchior M, Leclerc A, Lert F. épidémiologie et déterminants des inégalités sociales de santé.
Apports récents et problèmes actuels. Rev Epidemiol Santé Publique 2003 ;51:381-401.
  Goldberg M. Les bases de données d’origine administrative peuvent-elles être utiles pour l’épidémiologie  ?
Rev Epidemiol Sante Publique, 2006, 54: 297-303.
  Goldberg M, Chastang JF, Zins M, Niedhammer I, Leclerc A. Attrition during follow-up: health problems are the
strongest predictors. A Study of the Gazel Cohort. J Clin Epid. 2006, 59;1213-1221.
  Goldberg M, Leclerc A, Bonenfant S, Chastang JF, Schmaus A, Kaniewski N, Zins M. Cohort profile: the GAZEL
Cohort Study. Int J Epid 2007, 36:32-39.
  Greenland S. Response and follow-up bias in cohort studies. Am J Epidemiol, 1977;106,184-187.
  Hernan AH, Hernandez-Diaz S, Robins JM. A structural approach to selection bias. Epidemiology, 2004b,
15:615-625.
  Jaro M. Probabilistic linkage of large public health data files. Stat Med 1995;14:491-8.
  Jones AM, Koolman X, Rice N. Health-related non-response in the British Household Panel Survey and
European Community Household Panel: using inverse-probability-weighted estimators in non-linear models. J
Royal Stat Society, Series A. 2006;169:1-27.
  Laroche ML et al. Qualité des données PMSI au CHU de Limoges : application de la méthode L.Q.A.S. Rev
Epidemiol Sante Publique, 2002, 50 : 433-439.
  Lecadet J, Vialaret K, Vidal P, Baris B, Fender P. Mesure à l’échelle d’une région des effets d’un programme
national d’information sur le bon usage des antibiotiques. Revue Médicale de l’Assurance Maladie Avril-Juin
2004, 35: 81-91.
  Lenormand F. Le système d’information de l’assurance maladie. Courrier des Statistiques 2005 ;113-114 :33-51.
  Little RJ and Vartivarian S. On weighting the rates in non réponse weights. Statistics in Médicine, 2003,
22:1589-1599.
  Quantin C., Sauleau E., Bolard P., Mousson C., Kerkri M., Brunet-Lecomte P., Moreau T., Dusserre L.
Modeling of high cost patient distribution within renal failure diagnosis related group. Journal Clin Epidemiology.
1999;52:251-258.
  Quantin C., Allaert F.A., Bouzelat H., Rodrigues J.M., Trombert-Paviot B., Brunet-Lecomte P., Gremy F.,
Dusserre L. La sécurité des réseaux d’informations médicales  : application aux études épidémiologiques. Rev
Epidémiol et Santé Publ. 2000 ; 48:89-99.
  Quantin C, Gouyon B, Allaert FA, Cohen O. Méthodologie pour le chaînage de données sensibles tout
en respectant l’anonymat  : application au suivi des informations médicales. Courrier des Statistiques 2005  ;
113-114 :15-26.
  Quantin C, Binquet C, Allaert FA, Cornet B, Pattisina R, Le Teuff G, Ferdynus C, Gouyon JB. Decision analysis for
the assessment of a record linkage procedure: application to a perinatal network. Meth Inf Med, 2005;44:72-79.

70

View publication stats

Vous aimerez peut-être aussi