Vous êtes sur la page 1sur 17

Apport des cohortes à la connaissance de la santé

Les études de cohorte :


principes et méthode

Les études de cohorte suivent un groupe important de personnes et évaluent


les effets sur leur santé des facteurs de risque auxquels elles sont exposées.
La fiabilité de ces études repose sur une méthodologie rigoureuse afin d’éviter
tout biais, toute erreur de collecte des données ou d’interprétation des résultats.

Principe et intérêt des cohortes


épidémiologiques
Marcel Goldberg Qu’est-ce qu’une cohorte épidémiologique ? VIH et la relation entre la charge virale et le nombre de
Marie Zins La cohorte épidémiologique est un type d’enquête lymphocytes T4 au cours du temps [13].
Inserm U1018, dont le principe est le suivi longitudinal, à l’échelle Ces cohortes sont un outil précieux pour la recherche
plate-forme de individuelle, d’un groupe de sujets. Selon les objectifs clinique mais, ne prenant en compte que des personnes
scientifiques, la durée d’observation des sujets et les malades, elles relèvent en fait du domaine de la recherche
recherche Cohortes
données individuelles recueillies de façon prospective biomédicale « classique », avec parfois une dimension
épidémiologiques
diffèrent. Une distinction majeure doit être faite d’emblée sociale (lire Apport des sciences sociales : l’exemple
en population — entre cohortes de malades souffrant d’une pathologie de cohortes de patients infectés par le VIH, p. 26).
Centre de recherche particulière, et cohortes en population générale. Les cohortes en population générale sont celles qui font
en épidémiologie Les cohortes de malades, dont l’objectif est d’étudier l’objet de ce dossier. Elles s’intéressent essentiellement
et santé des l’évolution d’une maladie (évolution naturelle ou sous aux causes des maladies, particulièrement les maladies
populations, traitement), incluent un nombre souvent restreint de plurifactorielles aux déterminants environnementaux et
université de sujets (quelques milliers, parfois quelques dizaines génétiques multiples. Ces cohortes doivent inclure et
Versailles-Saint- de milliers pour les plus importantes) habituellement suivre, souvent pendant des décennies, des échantillons
Quentin, UMRS 1018 recrutés en milieu médical, et les données recueillies sont parfois très vastes, pour lesquels sont recueillies de
très détaillées, incluant notamment des investigations façon prospective des données personnelles, de mode
biocliniques approfondies. Une illustration de l’apport de vie, sociales, professionnelles et environnementales,
Les références entre d’un suivi longitudinal pour la connaissance de l’histoire et qui s’accompagnent de biobanques.
crochets renvoient à la naturelle des maladies est donnée par la figure 1 : elle Le principe d’une cohorte à visée étiologique est
Bibliographie générale montre, grâce à un suivi rapproché des patients, les simple, et résumé par la figure 2.
p. 51. principales phases de l’évolution de l’infection par le On choisit un groupe de sujets qui sont a priori

14 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

figure 1
Phases de l’évolution de l’infection par le VIH
Nombre de CD4 + lymphocytes T ARN viral par ml
(cell./mm3) Syndrome de l’infection aiguë par le VIH de plasma
1200 Première Vaste dissémination du virus dans l’organisme Mort 107
infection Duplication du VIH dans les organes lymphoïdes
1100
1000 Maladies
opportunistes 106
900 Latence clinique

800
Symptômes 105
700
généraux
600
500 104
400
300
103
200
100
0 102
0 3 6 9 12 1 2 3 4 5 6 7 8 9 10 11
Semaines Années

figure 2
Schéma de base d’une cohorte épidémiologique prospective
Mesures de facteurs de risque : alcool, tabac, événements de vie,
environnement, expositions professionnelles, données biologiques…

décès
temps

inclusion

Événements de santé : cancer, lombalgie, infarctus,


dépression, démences…

indemnes de la (des) maladie(s) étudiée(s) au début répondre à plusieurs questions de recherche épidémiolo-
de la période d’observation. Tout au long du suivi de la gique, clinique, biologique ou de santé publique même si
cohorte, on recueille des données concernant les sujets : certaines ne sont pas encore formulées de façon précise au
exposition à des facteurs de risque et incidence des démarrage de la cohorte » selon, la définition de l’Agence
maladies et, à la fin de la période d’étude, on dispose nationale de recherche sur le sida, et constituent alors
de toutes les données utiles pour calculer les risques de véritables infrastructures de recherche et de santé
associés aux expositions. publique, comme le montrent les exemples décrits dans
Ces cohortes sont souvent « généralistes », et se ce numéro (lire Les nouvelles « méga-cohortes » en popu-
caractérisent par une couverture large de problèmes lation en Europe, p. 34 et Les cohortes « historiques »
de santé et de déterminants. Elles sont « conçues pour en France, p. 37).

adsp n° 78 mars 2012 15


Apport des cohortes à la connaissance de la santé

Pourquoi des cohortes ? Dans certaines situations, il faudrait ainsi réunir des
Sur le plan méthodologique, les avantages principaux des effectifs immenses pour répondre à des questions
cohortes sont la possibilité d’analyses épidémiologiques d’intérêt, ce qui constitue une des principales limites des
longitudinales permettant de tenir compte au mieux de cohortes prospectives en population. À titre d’illustration,
phénomènes liés au temps, notamment de la séquence si l’on voulait connaître la prévalence du diabète non
temporelle exposition (ou intervention) effet. Il est ainsi diagnostiqué selon le sexe, l’âge et la profession et
possible de modéliser l’enchaînement et les interactions catégorie socioprofessionnelle (PCS) dans la population
des différents facteurs relatifs aux conditions de vie adulte, et sous l’hypothèse que la prévalence totale
(alimentation, habitat, accès aux soins, réseau social…), dans la population adulte serait de 1 %, on obtiendrait,
à l’environnement (conditions de travail, expositions dans une cohorte de 200 000 sujets, des intervalles de
professionnelles et environnementales…), et à l’état de confiance variant entre 0,81 et 1,19, donc une précision
santé (états précliniques, chronologie des phénomènes de 1 % +- 19 %, ce qui n’est évidemment pas satisfaisant.
pathologiques). Par ailleurs, les données d’exposition Si l’on s’interroge sur les effets de l’exposition aux
étant recueillies avant la survenue des effets analysés, pesticides sur le risque de myélome multiple (cancer
on évite certains biais potentiels des études rétrospec- rare, dont l’incidence annuelle est d’environ 9/100 000),
tives. Au total, les études de cohorte sont celles qui en retenant des hypothèses réalistes concernant la
permettent théoriquement de proposer les meilleures prévalence de l’exposition et l’augmentation du risque,
conditions pour juger en termes de causalité du rôle l’effectif minimum nécessaire après six ans de suivi
sur la santé de facteurs de risque ou d’interventions est de plus de 1 100 000 sujets ; dix ans après, il est
préventives, en permettant de prendre en compte les d’environ 520 000 sujets. Ces exemples montrent bien
évolutions temporelles et les interactions entre facteurs. que de façon réaliste les cohortes prospectives ne
Les domaines d’utilisation des cohortes sont aussi peuvent pas répondre à certaines questions, et que
diversifiés que l’épidémiologie elle-même, et concernent d’autres approches, notamment les études de type cas
tous les aspects de la santé en relation avec des facteurs témoins, sont indispensables.
de risque de type varié. Outils de recherche épidémiolo-
gique, les cohortes en population peuvent également, Effets de sélection, biais et représentativité
sous certaines conditions, avoir des objectifs descriptifs Un biais est une erreur qui entraîne une différence
et de surveillance (description, suivi de l’évolution et systématique entre la véritable valeur d’un paramètre
surveillance des pathologies et de l’exposition à des d’intérêt (l’incidence d’une maladie, une mesure d’asso-
facteurs de risque), et d’évaluation de l’efficacité à ciation entre une maladie et un facteur de risque) et le
court, moyen et long termes d’interventions de nature paramètre qui est estimé par l’étude.
préventive ou réparatrice. Une des sources majeures de biais dans les études
épidémiologiques provient des effets de sélection, qui
Limites et difficultés surviennent lorsque la population observée diffère de
Ainsi présentées, les cohortes longitudinales en popu- la population cible en raison de phénomènes liés au
lation semblent être l’instrument idéal qui répond à recrutement ou au suivi des sujets. Or, dans la plupart
tous les besoins de recherche et de santé publique. des cohortes épidémiologiques, la participation des
Elles ont cependant des limites et leur mise en œuvre sujets repose sur le volontariat, et il existe fréquemment
n’est pas sans difficultés diverses. des effets de sélection qui peuvent intervenir lors de la
constitution de la cohorte et au long du suivi de celle-ci
Puissance statistique et précision (attrition) [25].
Rappelons que pour l’estimation de la fréquence d’un Lorsque l’objectif de l’étude est descriptif (estimation
phénomène (prévalence ou incidence), l’effectif de de la fréquence de la maladie ou de l’exposition à un
l’échantillon à observer pour une précision donnée facteur de risque dans la population) il faut, pour éviter
dépend de la fréquence du phénomène dans la popu- les biais de sélection, que le paramètre soit estimé
lation. Pour l’estimation d’une mesure d’association sur un échantillon représentatif de la population cible,
entre exposition à un facteur de risque et une maladie, c’est-à-dire en pratique tiré au sort dans une base de
l’effectif de l’échantillon à observer permettant de sondage appropriée. Le mode d’inclusion faisant appel
mettre en évidence une association avec une « puis- au volontariat entraîne inévitablement des effets de
sance statistique » donnée dépend de l’incidence de la sélection, même lorsqu’on procède à un tirage au sort
maladie dans la population non exposée, de la valeur aléatoire d’un échantillon dans une base de sondage
supposée de l’indice d’association (risque relatif), et appropriée. On rencontre en effet des non-participants
de la fréquence du facteur de risque dans la population à l’inclusion (personnes non retrouvées, refus, etc.),
étudiée. D’une façon générale, plus les phénomènes ainsi que des sujets perdus de vue en cours de suivi,
d’intérêt (maladies, expositions) sont rares, plus les qui constituent une source potentielle de biais.
associations facteur de risque — maladie sont faibles, Pour y remédier, on s’efforce de recueillir lors de
et plus l’effectif doit être important pour une précision l’inclusion un minimum de données sur les non-par-
ou une puissance données. ticipants (essentiellement âge, sexe, et PCS), afin de

16 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

procéder ultérieurement à des redressements pour les mécanismes physiopathologiques et biologiques de


estimer les paramètres d’intérêt. Cette approche connaît la cancérogenèse liée au tabac sont identiques dans
cependant certaines limites. Ainsi, il n’est pas toujours un échantillon de volontaires et dans l’ensemble de la
possible de recueillir les données de redressement population. Les effets de sélection dus au volontariat
pour l’ensemble des sujets non participants. De plus, de la participation ne génèrent donc a priori pas de
il n’est pas toujours facile de savoir si ces données biais, ou seulement des biais minimes, lorsqu’il s’agit
sont suffisantes pour contrôler les biais potentiels, car de comprendre comment les expositions à des fac-
on sait par exemple qu’au sein de la même catégorie teurs de risque, les caractéristiques professionnelles et
socio-économique existent de larges différences à bien sociales, etc., influencent l’état de santé et peuvent être
des égards, notamment en termes de santé, de com- à l’origine de pathologies, ou au contraire protectrices.
portements, de modes de vie, de réseaux sociaux, etc. Le problème de l’attrition au cours du suivi peut par
Ainsi, la comparaison des volontaires de la cohorte contre être à l’origine de biais importants si la probabilité
Gazel aux non-participants de même catégorie socio- de ne plus être suivi diffère chez les exposés et les
professionnelle, âge et genre, illustre ce point : le statut non-exposés, et/ou chez ceux qui sont ou ne sont pas
marital, les consommations d’alcool et de tabac, les devenus malades, ce qui est souvent le cas.
comportements à risque pour la santé, l’existence de
maladies psychiatriques sont fortement associés à la Données répétées et données manquantes
participation initiale à la cohorte [23]. Les cohortes épidémiologiques présentent deux carac-
Le même problème se pose tout au long du suivi, les téristiques particulières qui suscitent des difficultés
non-répondants et les perdus de vue différant toujours méthodologiques : (i) les mêmes variables peuvent être
des participants pour divers facteurs, en particulier recueillies à plusieurs reprises au cours du suivi pour les
les comportements de vie et les problèmes de santé mêmes sujets ; (ii) ces variables peuvent être manquantes
qui jouent un rôle majeur, même à catégorie sociopro- à un ou plusieurs points de mesure au cours du suivi,
fessionnelle égale, comme on a pu l’observer là aussi et cela d’autant plus fréquemment que celui-ci est de
dans la cohorte Gazel : le risque d’attrition diffère en longue durée et que le recueil des données est répété.
fonction des consommations d’alcool et de tabac, de On dispose de différentes méthodes statistiques pour
l’état de santé perçu, de l’absentéisme médical, de la traiter ces problèmes ; elles sont résumées dans l’article
survenue de problèmes de santé mentale et de cancers Aspects méthodologiques liés à l’analyse de données
notamment [24]. Or ce sont justement ce type de facteurs longitudinales et aux effets de sélection, p. 18.
qui sont étudiés dans les cohortes épidémiologiques.
Finalement, on est rarement en situation de contrôler Identification des pathologies incidentes et phénotypage
complètement les biais de sélection potentiels, car il faut Une des difficultés majeures des cohortes de population
pour cela disposer de données pertinentes recueillies est l’identification des pathologies incidentes parmi les
à la fois pour les participants et l’ensemble des non- sujets au cours du suivi. Les déclarations des sujets
participants. Cela est parfois possible si l’on a accès eux-mêmes sont insuffisantes : elles peuvent être impré-
à des sources de données où toute la population cible cises, voire erronées, potentiellement entachées de biais
est représentée, comme les bases de données de divers, et surtout… manquantes, car une des raisons
l’Assurance maladie ou du Programme de médicalisation majeures de l’abandon de la participation à un suivi de
du système d’information des hôpitaux (PMSI) [26]. cohorte est justement la survenue de pathologies [24,
Dans un contexte où l’on cherche à étudier les relations 25]. Par ailleurs, on ne dispose pas en France de source
entre exposition à des facteurs de risque et survenue exhaustive et fiable d’enregistrement des pathologies
de maladies (objectif étiologique), la situation est plus incidentes à l’échelle de la population générale, sauf
simple. En effet, la relation exposition — maladie n’est a exceptions partielles (registres du cancer, par exemple)
priori pas différente entre les sujets volontaires et ceux mais qui ne couvrent qu’un petit nombre de maladies
qui ne le sont pas. Une des raisons est que, au moment et le plus souvent des territoires restreints. L’existence
de l’inclusion, tous sont indemnes des maladies qui des grandes bases de données médico-administratives
seront analysées, seuls les cas incidents pendant la nationales de l’Assurance maladie et du PMSI constitue
période de suivi étant pris en compte dans les études une aide potentiellement précieuse, car elles couvrent
de cohorte : des conditions très particulières seraient toute la population et enregistrent la quasi-totalité des
en effet nécessaires pour entraîner un biais dans la consommations de soins et les problèmes de santé
mise en évidence ou la quantification d’une relation sérieux, et permettent donc a priori d’avoir connaissance
entre une exposition et une maladie. Ainsi, pour analyser de la survenue des pathologies d’intérêt.
les effets du tabac sur le risque de cancer, il n’est pas Cependant, outre des difficultés d’accès à ces bases de
nécessaire d’observer un échantillon représentatif de données, il faut considérer que la validité des diagnostics
la population, mais de disposer d’effectifs suffisants médicaux est le plus souvent imparfaite, et que ceux-ci
de non-fumeurs et de fumeurs parmi lesquels le niveau doivent faire l’objet de confirmations systématiques, afin
d’exposition est contrasté : en effet, sur la base des d’obtenir un « phénotypage » de qualité. Cela est une
connaissances actuelles, il est très vraisemblable que activité particulièrement lourde, qui implique le retour au

adsp n° 78 mars 2012 17


Apport des cohortes à la connaissance de la santé

médecin soignant, la recherche de documents médicaux spatiale, voire au prix d’une journée d’hospitalisation
(comptes-rendus d’anatomopathologie, imagerie, etc.), et dans un service de CHU, mais ils sont largement supé-
l’examen systématique des dossiers par des « comités rieurs aux budgets qu’il est habituellement possible de
de validation » constitués d’experts médicaux. demander aux organismes nationaux de financement
Les aspects concernant l’utilisation des bases de de la recherche pour des études épidémiologiques de
données médico-administratives sont détaillés dans grande dimension. En effet, contrairement aux autres
l’article L’apport des bases de données médico‑admi- pays scientifiquement avancés, la France n’a mis en place
nistratives, p. 21. que très récemment un système de financement spéci-
fique, et continue de facto de sous-estimer l’importance
Les cohortes épidémiologiques en France scientifique de telles plates-formes de recherche, malgré
Malgré les limites évoquées, on a vu se développer en des efforts récents (lire Les grandes cohortes en santé
France, depuis une quinzaine d’années, de nombreuses 2008-2011, p. 39). Cependant, les budgets qui sont
cohortes aux objectifs divers. Les cohortes françaises distribués sont la plupart du temps très loin des coûts
se caractérisent cependant par leur taille relativement véritables, et d’au moins un ordre de grandeur inférieur
faible, aucune ne dépassant un petit nombre de dizaines aux financements des cohortes étrangères comparables.
de milliers de sujets (lire Les cohortes « historiques » D’autres difficultés tiennent à la nécessité de l’impli-
en France, p. 37), alors que certaines cohortes dans cation à long terme des équipes dont la pérennité n’est
d’autres pays peuvent atteindre, voire dépasser, plusieurs souvent pas assurée, et à la quasi-impossibilité de
centaines de milliers de sujets (lire Les nouvelles « méga- disposer de personnels spécialisés stables et d’un
cohortes » en population en Europe, p. 34). niveau de qualification suffisant, notamment du fait
La relative modestie des cohortes françaises s’explique de l’absence de statut reconnu pour ce type d’activité
par plusieurs raisons. Outre le nombre notoirement trop dans les organismes publics de recherche, alors que
faible des épidémiologistes, on se heurte aujourd’hui la durée des projets est incompatible avec un trop fort
en France à de nombreuses difficultés d’ordre financier, renouvellement des personnels techniques qualifiés
organisationnel et technique. Les coûts des cohortes sont qui doivent assurer la continuité des procédures et des
élevés, car l’épidémiologie fait essentiellement appel à recueils de données.
des données qui sont le plus souvent recueillies auprès Or, si l’on veut que la France se dote d’outils épidé-
des personnes elles-mêmes par des moyens divers : miologiques d’envergure comparable à ce qui existe
entretiens, auto-questionnaires, examens médicaux, dans les pays de niveau scientifique comparable, de
collecte de matériel biologique, etc. Ces coûts restent nouvelles cohortes prospectives sont indispensables,
finalement modestes si on les compare à ceux des dont l’effectif ne se comptera plus en dizaines, mais
grands instruments de physique ou à ceux de la recherche en centaines de milliers de sujets. n

Aspects méthodologiques liés


à l’analyse de données longitudinales
et aux effets de sélection

S
Alice Guéguen i les études de cohorte présentent de nom- de répondre à certaines questions de recherche, par
Rémi Sitta breux avantages méthodologiques, comme cela exemple pour l’analyse de trajectoires, ou de l’incidence
Inserm U1018, a été indiqué dans l’article Principe et intérêt d’évènements irréversibles. D’autres fois, ce sera un
plate-forme de des cohortes épidémiologiques, p. 14, elles n’en moyen parmi d’autres, mais en général le plus efficace :
recherche Cohortes présentent pas moins certaines difficultés sur le plan en recueillant des données répétées sur les mêmes
statistique, notamment pour ce qui concerne l’analyse données de santé, on pourra décrire leur évolution dans
épidémiologiques en
de données longitudinales et la prise en compte des le temps. Chaque sujet étant son propre « témoin », et les
population — Centre
effets de sélection. données mesurées sur un même sujet étant corrélées,
de recherche en on peut obtenir une bonne précision des estimateurs,
épidémiologie et L’analyse des données longitudinales car ces caractéristiques diminuent leur variance.
santé des populations, Le principe des études de cohorte repose sur le suivi Cependant, les méthodes d’analyse classique ne sont
université de Versailles- longitudinal d’un groupe de sujets, incluant notamment le plus utilisables, car elles fournissent des estimations dont
Saint‑Quentin, recueil répété des mêmes variables au cours du temps. les variances peuvent être à tort soit trop élevées soit
UMRS 1018 Une cohorte épidémiologique est parfois le seul moyen trop faibles. Deux types de modèles ont été développés

18 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

pour analyser ce type de données : les modèles mixtes résultats seront pourtant systématiquement biaisés
et les modèles marginaux [28]. Selon la nature de la [27], même lorsque tous les facteurs de participation
variable d’intérêt (continue et de distribution normale, sont connus et mesurés.
binaire, à plusieurs catégories, etc.), ces méthodes sont D’une manière générale, il est possible d’obtenir des
plus ou moins faciles à mettre en œuvre. estimations correctes à condition de tenir compte du
Les modèles mixtes incluent dans la modélisation de la mécanisme de non-participation, ce qui sous-entend
variable d’intérêt des effets aléatoires propres à chaque qu’on le connaisse. Or ce mécanisme est inconnu, et la
sujet. Ceux-ci se comportent comme des paramètres seule solution acceptable consistera à faire des hypo-
qui n’ont pas d’intérêt en soi, mais qui permettent de thèses sur celui-ci. Les estimations produites ne seront
prendre en compte la corrélation entre les données. Si donc valides que sous ces hypothèses. On distingue
cette méthode se met facilement en œuvre pour des trois types de mécanismes de données manquantes.
données continues et de distribution normale, il n’en ●● Données MCAR (Missing completly at random) : la
va pas de même dans d’autres situations, par exemple valeur de la variable d’intérêt et la probabilité qu’elle soit
quand la variable d’intérêt est binaire, et qu’il y a de manquante sont indépendantes. La plausibilité d’une
plus peu de temps de recueil. telle hypothèse est quasi systématiquement remise
Les modèles marginaux ont pour objectif de modé- en cause dans les enquêtes épidémiologiques, mais
liser directement la moyenne de la variable d’intérêt. elle est envisageable dans d’autres études : après un
Quand celle-ci est continue et de distribution normale, prélèvement biologique, le fait qu’un tube se casse ou
la mise en œuvre de ces modèles est facilitée grâce à que l’analyseur de biologie tombe en panne conduira
l’existence de la distribution multinormale. En revanche, à des données de type MCAR. Dans la situation où les
quand la variable d’intérêt est binaire ou a plusieurs données sont MCAR, les résultats des analyses naïves
catégories, il n’existe pas de distribution multidimen- effectuées sur la population enquêtée sont corrects.
sionnelle similaire. Les méthodes des GEE (Generalized ●● Données MAR (Missing at random) : après prise
estimating equations) ont été développées à la fin des en compte des caractéristiques observées du sujet
années 80 pour pallier ce problème. jusqu’à sa non-participation, la valeur de la variable
d’intérêt et la probabilité qu’elle soit manquante sont
Les effets de sélection indépendantes.
Les données de cohorte en population générale sont le ●● Données MNAR (Missing not at random) : même
plus souvent collectées directement auprès de sujets après prise en compte des caractéristiques observées
tirés au sort dans une population cible. Il en résulte du sujet jusqu’à sa non-participation, la valeur de la
que la population enquêtée à l’inclusion peut différer variable d’intérêt et la probabilité qu’elle soit manquante
de la population cible en raison de phénomènes liés sont corrélées.
à la non-participation. Il est également possible qu’il La pertinence de l’hypothèse MAR ou MNAR dépend
y ait non-participation au cours du suivi. Celle-ci peut essentiellement des données dont on dispose : plus
être soit définitive à partir d’un moment donné — on il existe de l’information potentiellement liée à la fois
parle alors d’attrition –, soit intermittente (certaines à la non-participation et à la variable d’intérêt, plus
personnes ne participent pas à un moment donné du l’hypothèse MAR devient acceptable. Ce qui implique
suivi, puis participent de nouveau). que si les données observées ne devaient pas être
Les phénomènes de sélection sur la population cible, en suffisantes pour la plausibilité de l’hypothèse MAR,
diminuant la quantité d’information disponible, conduisent il faudrait envisager d’enrichir les données par suffi-
ainsi à une perte de précision dans les estimations samment d’informations supplémentaires, par exemple
produites à partir de la population enquêtée. Mais la issues de sources extérieures à l’enquête elle-même.
conséquence la plus importante est que ces estimations En tout état de cause, une bonne approche consiste
peuvent être incorrectes : elles se trouvent en effet à faire des analyses de sensibilité : on considère plu-
biaisées dès que certains facteurs de la participation sieurs hypothèses alternatives plausibles pour spécifier
sont liés statistiquement aux variables étudiées. Cela le mécanisme de non-participation, et on examine la
est particulièrement vrai dans un contexte « descriptif » manière dont les résultats fluctuent en fonction des
où on cherche à estimer des moyennes, des fréquences, hypothèses envisagées.
des incidences ou encore des prévalences de maladies En résumé, l’hypothèse MCAR est rarement plausible.
dans une population particulière. Dans un contexte « expli- Sous l’hypothèse MAR, il est possible de prendre en
catif » où l’on s’intéresse à des mesures d’association compte le mécanisme de non-participation, mais comme
(essentiellement entre une exposition et une maladie), cette hypothèse ne peut pas être vérifiée à partir des
les biais sont en général de plus faible importance. données observées, il est toujours préférable d’envisager
Habituellement, on cherche à éviter ce biais en incluant l’hypothèse MNAR.
les facteurs de participation dans la modélisation à Les références entre
partir de données recueillies sur les seuls participants. Les méthodes crochets renvoient à la
Cette solution peut donner des résultats corrects, mais Deux méthodes ont récemment été développées pour Bibliographie générale
il existe des situations particulières dans lesquelles les donner des résultats sans biais sous l’hypothèse que p. 51.

adsp n° 78 mars 2012 19


Apport des cohortes à la connaissance de la santé

les données sont MAR : la pondération [20] et l’impu- les participants du temps précédent. Les probabilités
tation [41]. Elles nécessitent de recueillir, pour les modélisées sont alors multipliées entre elles, et le
participants et les non-participants, des informations produit final est inversé pour fournir une pondération pour
liées à la non-participation. Elles permettent de « recons- les sujets participant à tous les temps envisagés. En
tituer » les données manquantes des non-participants revanche, lorsque la non-participation est intermittente,
grâce aux données disponibles des participants et des la méthode des pondérations, en théorie possible, rend
non-participants. La description des méthodes se fait les analyses très lourdes : une solution simple, mais
plus facilement dans le cas suivant : tous les sujets moins performante, consiste à considérer la non-parti-
participent à l’inclusion, et il y a un seul temps de suivi cipation comme définitive dès la première occurrence
ultérieur, où sera recueillie la variable d’intérêt. Les et ignorer les réponses ultérieures.
deux méthodes se généralisent ensuite à des situations Ces deux méthodes peuvent être utilisées simul-
plus complexes. tanément. Par exemple, pour la non-participation à
La méthode des imputations s’effectue en deux l’inclusion, on applique quasi systématiquement une
étapes : parmi les participants, on construit un modèle qui pondération, en s’appuyant sur des informations externes
explique la variable d’intérêt par les variables observées à l’enquête elle-même, ce qui n’empêchera pas de
à l’inclusion. Ce modèle est alors appliqué à chaque non- traiter l’attrition future soit par de l’imputation, soit
participant à partir des variables observées à l’inclusion, par pondération (auquel cas la pondération totale sera
afin de lui prédire une valeur pour la variable d’intérêt. le produit de la pondération pour non-inclusion et de
On ajoute souvent en pratique à la prédiction du modèle celle pour attrition).
un terme reflétant la variabilité de la variable d’intérêt, Les deux méthodes, pondérations et imputations,
et on répète cette procédure plusieurs fois pour que les sont théoriquement équivalentes, mais elles ont en
données ainsi générées conservent toute la structure pratique chacune leurs avantages et leurs limites. La
multidimensionnelle originelle de la population cible. comparaison pondération/imputation semble indiquer
Les analyses sont ensuite effectuées sur chaque jeu une plus faible variance des estimateurs par imputation,
de données entier complété ainsi par imputation, et les mais parfois cela reflète uniquement la trop grande
résultats sont synthétisés. La généralisation au cas où confiance implicite donnée à tort au modèle d’imputation.
il y a non-participation intermittente est plus compliquée
à décrire sur le plan théorique ; elle est depuis quelques Autres aspects méthodologiques
années facilement mise en œuvre grâce à l’implémen- propres aux données de cohorte
tation de ces méthodes dans les logiciels statistiques. Les questions méthodologiques pour les études de
La méthode des pondérations comprend également cohorte s’orientent dans différentes directions. Les
deux étapes : la première étape consiste à écrire un méthodes d’analyse de données longitudinales évoquées
modèle de participation/non-participation qui prédit la plus haut donnent des résultats biaisés quand l’exposition
probabilité qu’un sujet soit participant en fonction des varie au cours du temps et qu’il existe des variables de
variables observées à l’inclusion. Dans un deuxième confusion, elles-mêmes affectées par des expositions
temps, on affecte aux seuls sujets participants une antérieures ; les modèles marginaux structurels ont été
pondération égale à l’inverse de ces probabilités pré- développés à cette intention. Le décès lui-même peut être
dites. Cette approche se justifie intuitivement ainsi : cause d’attrition, et causer des biais en particulier s’il
un sujet participant qui, au vu de ses caractéristiques partage des facteurs de risque avec la variable d’intérêt ;
antérieures, présente une faible probabilité de participer selon l’objectif, descriptif ou explicatif, l’attitude face
se verra ainsi attribuer une pondération importante, de à cette attrition est de considérer la cohorte comme
manière à ce qu’il représente les nombreux sujets non mortelle ou immortelle [18]. Les cohortes épidémiolo-
participants ayant les mêmes caractéristiques que lui. giques incluent souvent un nombre important de sujets,
Les estimations sont alors obtenues grâce à une analyse mais la quantité d’information recueillie par sujet est
pondérée, effectuée sur la population des participants. en général bien supérieure. Cela est d’autant plus vrai
Cette méthode nécessite que tous les individus de la lorsque les cohortes intègrent des données provenant de
population cible aient une probabilité de participation sources externes, telles des bases de données médico-
non nulle, car il n’y aurait sinon aucun participant pour administratives nationales. Les méthodes statistiques
représenter ces non-participants. utilisées devront alors s’adapter à ce cas particulier
Lorsqu’il y a plusieurs temps de recueil, en cas d’at- où le nombre de sujets est plus faible que le nombre
trition, la généralisation se fait simplement en modé- de variables, et emprunter des méthodes issues de la
lisant la participation à chaque temps de recueil parmi fouille des données. n

20 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

L’apport des bases de données


médico‑administratives

L
a France est l’un des rares pays dont les orga- organismes et régimes gestionnaires des prestations Céline Ribet
nismes de protection médico-sociale ou de gestion sociales, dont le principal est le Système national de Mireille
hospitalière disposent de systèmes d’information gestion des carrières (SNGC). Cette base de données Cœuret‑Pellicer
centralisés couvrant de façon exhaustive et permanente permet de retracer, pour chaque individu dès l’âge Julie Gourmelen
l’ensemble de la population. Les données enregistrées en de 16 ans et jusqu’à la liquidation de ses droits à la
Inserm U1018,
routine comportent des informations sur le recours aux retraite, ses différentes périodes d’activité : périodes
Plate-forme de
soins, les hospitalisations, le handicap, les prestations d’activité professionnelle (par l’intermédiaire des décla-
sociales et l’activité professionnelle. Bien que n’ayant rations transmises par les employeurs) ou périodes recherche Cohortes
pas à l’origine de finalité épidémiologique, ces bases assimilées (chômage, maladie, maternité ou congés épidémiologiques
offrent un intérêt potentiel majeur pour la réalisation de parentaux ; informations transmises respectivement en population —
telles études mais sont encore très peu exploitées. On par l’Assurance chômage, l’Assurance maladie, et les Centre de recherche
présentera ici les principaux systèmes d’information, caisses d’allocations familiales). Le SNGC contient en épidémiologie
leur exploitation potentielle en santé publique ainsi que donc l’ensemble des données inhérentes à la carrière et santé des
les précautions que nécessite leur utilisation. des assurés du régime général, y compris les données populations,
concernant d’éventuelles périodes effectuées dans université de
Description des principales données disponibles d’autres régimes de base (régimes des indépendants, Versailles-
des agriculteurs…) ainsi que dans certains régimes
Saint‑Quentin,
Les données socioprofessionnelles particuliers ou spéciaux (SNCF, EDF…).
UMRS 1018
Les événements socioprofessionnels des individus Un autre système d’information mis en œuvre par la
sont informatisés dans les systèmes nationaux des Cnav est le Répertoire national inter-régimes des béné-
différents régimes d’assurance vieillesse. Pour toute ficiaires de l’assurance maladie (RNIAM), qui permet
personne ayant appartenu au moins une fois au cours de connaître l’organisme de rattachement de chaque
de sa vie au régime général de la Sécurité sociale, c’est bénéficiaire d’un régime d’assurance maladie par l’inter-
la Caisse nationale d’assurance vieillesse (Cnav) qui médiaire du NIR (lire encadré).
procède à l’enregistrement des données lui permettant
de garantir le droit au paiement de la retraite. Pour Les données de mortalité
répondre à cet objectif, la Cnav a mis en œuvre plu- Le statut vital et les causes de décès des sujets d’une
sieurs systèmes nationaux lui permettant de collecter enquête peuvent être obtenus auprès du Centre d’épi-
et traiter les données sociales issues de différents démiologie sur les causes médicales de décès (CépiDC)

NIR, RNIPP, SNGI

L e « numéro d’inscription au répertoire », ou NIR, est


l’identifiant unique et invariable de tout individu. Ce
numéro à treize caractères (plus deux pour la clé de
c’est l’Insee qui a en charge cette immatriculation et qui
procède à sa conservation au sein du Répertoire natio-
nal d’identification des personnes physiques (RNIPP).
contrôle), dont la composition est précisée par décret, Pour les personnes nées à l’étranger, à Mayotte et dans
est attribué à une seule et unique personne, et une les TOM, c’est la Cnav qui met en œuvre d’une part
personne ne possède qu’un NIR. Une fois attribué, il l’immatriculation (uniquement lorsque l’inscription est
ne change plus. demandée par un organisme habilité), et d’autre part
L’attribution de ce numéro et son association aux autres la conservation au sein du Système national de gestion
éléments d’identification d’un individu (nom patrony- des identités (SNGI). Ces deux fichiers ont pour finalité
mique, prénoms, date et lieu de naissance, numéro de de certifier l’état civil et le statut vital d’une personne
l’acte de naissance, sexe) se font dès la naissance sur auprès des organismes de sécurité sociale, de l’admi-
la base des informations enregistrées par l’état civil. Au nistration fiscale, de la Banque de France, du Système
moment du décès, s’ajoutent les date et lieu de décès informatique pour le répertoire des entreprises et des
et le numéro de l’acte. établissements (Sirene). Leur utilisation repose sur de
Pour les personnes nées en France métropolitaine ou fortes obligations légales ; ainsi, ils ne peuvent être servir
dans les DOM, qu’elles soient françaises ou étrangères, à des fins de recherche des personnes. n

adsp n° 78 mars 2012 21


Apport des cohortes à la connaissance de la santé

de l’Inserm selon la procédure décrite dans le décret vidus en vue de l’inclusion dans une enquête épidé-
n° 98-37. Cette procédure permet d’apparier des données miologique à partir de critères tels qu’une pathologie,
d’état civil et de statut vital hébergées par l’Insee aux un recours à des soins spécifiques ou une profession.
causes médicales de décès anonymes. Un exemple récent est l’étude des effets du Médiator :
il a été possible d’identifier dans le SNIIR-AM toutes
Les données d’hospitalisation les personnes ayant eu une prescription remboursée
Le Programme de médicalisation du système d’infor- de ce médicament, et de suivre leur devenir médical,
mation des hôpitaux (PMSI) consiste en un recueil avec les résultats que l’on sait [46].
exhaustif systématique et standardisé d’informations Les données sont quasi exhaustives par rapport à
médicales et administratives pour tout séjour d’un la population française. Elles permettent donc de dis-
patient dans un établissement de soins. Il concerne poser d’effectifs immenses pour certaines analyses.
aujourd’hui tous les établissements (publics et privés) Cette exhaustivité peut aider à prendre en compte les
et tous les types de séjours (médecine, chirurgie, obs- effets de sélection à l’inclusion et au cours du suivi, qui
tétrique, soins de suite et de réadaptation, psychiatrie, sont une source majeure de biais dans les enquêtes
urgences, soins à domicile). L’objectif principal du PMSI épidémiologiques (lire Aspects méthodologiques liés
est de décrire l’activité d’un établissement à des fins à l’analyse de données longitudinales et aux effets
d’allocation budgétaire. L’information est médicalisée de sélection, p. 18) :
et repose sur un classement des séjours en « groupes ●● la constitution d’un fichier de « non-participants »,
médicalement homogènes » (GHM), à partir du codage pour lesquels on pourra disposer de données sur leurs
des diagnostics établis au cours d’un séjour et des consommations de soins, leurs hospitalisations et leurs
principaux actes pratiqués. Ces informations sont ano- caractéristiques socioprofessionnelles, permet d’étudier
nymisées puis rassemblées dans une base de données les facteurs liés à la non-participation ;
nationale gérée par l’Agence technique de l’information ●● le suivi de façon « passive », à travers ces bases,
sur l’hospitalisation (ATIH). des personnes incluses dans des études mais qui ne
répondent plus aux questionnaires permet de pallier le
Les données de l’Assurance maladie problème des perdus de vue.
Il existe en France un grand nombre de régimes d’assu- Enfin, ces données sont parfois plus fiables que
rance maladie, disposant chacun de son propre système des informations obtenues par auto-questionnaire. Par
d’information contenant les données nécessaires à exemple, les informations sur la carrière professionnelle,
la liquidation des prestations de ses assurés. Ces qui servent au calcul des retraites, sont pour des raisons
données comprennent des informations détaillées sur évidentes particulièrement complètes et validées, toute
les soins présentés au remboursement (consultations, erreur pouvant en effet avoir un impact économique sur
médicaments, prélèvements biologiques…), ainsi que les bénéficiaires comme sur la collectivité.
sur les assurés, les établissements de soins et les Ces avantages font que, couplées à des enquêtes
professionnels de santé. Les services médicaux des auprès des personnes, ces bases de données peuvent
caisses disposent de leurs propres fichiers comportant faire l’objet d’utilisations très diversifiées dans le cadre
des informations médicales structurées sur les affections des études épidémiologiques et peuvent apporter des
de longue durée (ALD), les accidents du travail et les solutions satisfaisantes à divers problèmes fréquemment
maladies professionnelles. rencontrés lors de la mise en œuvre de ces études,
La nécessité de suivre l’ensemble des dépenses qu’il s’agisse de l’inclusion ou du suivi des sujets ou
tous régimes confondus a abouti en 2003 à la création de l’accès à des données concernant des événements
du Système national d’informations inter-régimes de d’intérêt.
l’Assurance maladie (SNIIR-AM). Ces données concernent
aujourd’hui tous les régimes d’assurance maladie, pour Tenir compte des limites
la médecine de ville comme pour l’hospitalisation. Elles Si ces bases de données constituent un intérêt certain, il
sont individualisées par bénéficiaires, professionnels faut toujours garder à l’esprit qu’elles ont été construites
de santé et établissements, et médicalisées (les actes uniquement pour répondre aux objectifs de gestion des
sont codés selon la Classification commune des actes organismes qui les ont constituées. Leur utilisation par
médicaux et les pathologies selon la CIM10). des épidémiologistes nécessite d’une part un important
Grâce à un identifiant anonyme commun, les données travail de réflexion concernant l’accès à ces données,
du PMSI sont également désormais intégrées au leur appariement aux données d’enquêtes et les circuits
SNIIR-AM. de confidentialité à mettre en œuvre, et d’autre part un
travail crucial de contrôle et de validation des données.
Utilité des bases dans un cadre épidémiologique
Les références entre Les bases médico-administratives offrent de nombreux L’accès aux données
crochets renvoient à la avantages inhérents à leur constitution. L’identification des personnes dans les bases de données
Bibliographie générale Les données sont individuelles. Ainsi, l’accès à ces médico-administratives et sociales repose sur le « numéro
p. 51. bases de données peut servir à sélectionner des indi- d’inscription au répertoire », ou NIR, communément

22 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

appelé numéro Insee ou numéro de Sécurité sociale délivrés. Il est également établi que la prévalence des
(voir encadré). Or, en dehors même des études épidé- ALD enregistrées est systématiquement inférieure à
miologiques, l’utilisation directe de cet identifiant est la prévalence réelle des affections pour différentes
soumise à de fortes contraintes juridiques (plusieurs raisons : patient atteint de l’une de ces maladies mais
lois et décrets définissent son accès, son usage et sa ne répondant pas aux critères de sévérité exigés ou ne
conservation dans les systèmes d’information). Il est demandant pas à bénéficier du dispositif, par exemple
possible de trouver des solutions à cette difficulté, mais s’il est déjà exonéré du ticket modérateur au titre d’une
elle constitue actuellement un obstacle formel pour la autre affection.
plupart des études en dehors d’un éventuel partenariat La validité des diagnostics, que ce soit pour les causes
avec un organisme habilité à détenir ce numéro. de décès, les ALD ou le PMSI, dépend fortement de la
Reste ensuite un important travail pour définir les pro- qualité du codage à la production de l’information, celle-ci
cédures de transmissions sécurisées entre les différents pouvant être affectée par différents problèmes (variabilité
intervenants (fournisseurs de données, responsables entre praticiens, biais liés aux finalités budgétaires du
de la gestion de l’étude, chercheurs), afin de garantir PMSI…). Plusieurs études ont montré que l’utilisation du
aux données à caractère personnel une confidentialité PMSI ne pouvait pas se suffire du diagnostic principal,
conforme aux textes. mais nécessitait des algorithmes complexes alliant les
Ainsi, l’accès et l’utilisation de ces bases de données codes diagnostics aux codes actes spécifiques de la
restent complexes et nécessitent, dans des conditions pathologie étudiée [10, 11].
compatibles avec les contraintes de qualité des études Dans de nombreuses situations, il est donc nécessaire
épidémiologiques, des moyens lourds et des compé- de mettre en place des procédures de validation de ces
tences spécialisées. Il est vraisemblable que très peu données. Les méthodes utilisées peuvent être variées :
d’équipes d’épidémiologie en France disposent actuel- retour à des informations du dossier médical via les
lement de ces ressources. médecins traitants, confrontation avec des question-
naires remplis par les sujets, croisement avec d’autres
La validité des données sources (données de registre, causes de décès…). Une
Comme déjà évoqué, l’utilisation de ces bases de voie prometteuse est le développement d’algorithmes
données en dehors des champs pour lesquels elles incluant des données provenant de l’appariement de
ont été développées nécessite un travail complexe de l’ensemble de ces bases (remboursements de médica-
contrôle et de validation, particulièrement dans le cas des ments enregistrés dans le SNIIR-AM, diagnostics des
études épidémiologiques où la précision des données ALD, actes et diagnostics du PMSI).
concernant les événements de santé est cruciale.
Dans le cas précis des données de santé, aucune Conclusion
de ces bases prise isolément ne permet d’obtenir des L’utilisation des bases de données d’origine socio-médico-
informations complètes et d’une validité suffisante. administrative peut grandement faciliter les travaux de
Les données de consommations de soins ne com- recherche en santé, voire améliorer la qualité des études.
portent pas d’information sur la nature des maladies La résolution des problèmes évoqués pour optimiser
traitées et excluent par définition l’automédication, leur utilisation pourra contribuer au développement en
les prestations non présentées au remboursement, France de grandes cohortes comparables à celles qui
et n’informent pas sur l’observance des traitements existent dans d’autres pays. n

adsp n° 78 mars 2012 23


Apport des cohortes à la connaissance de la santé

Intérêt des cohortes pour la surveillance


épidémiologique : exemples dans le domaine
des risques professionnels
Béatrice Geoffroy Qu’est-ce que la surveillance épidémiologique ? Atouts des études de cohorte
Gaëlle Santin La surveillance épidémiologique peut être définie comme pour la surveillance épidémiologique
Juliette Chatelot le suivi et l’analyse épidémiologique systématiques et Plusieurs types d’études longitudinales peuvent être
Institut de permanents d’un problème de santé et de ses détermi- initiés dans le contexte de la surveillance et corres-
nants à l’échelle d’une population [22]. Si le but de la pondent à des objectifs différents [8].
veille sanitaire,
recherche épidémiologique est d’établir des relations
Département
entre des événements de santé et leurs déterminants, Surveillance de populations spécifiques
santé‑travail celui de la surveillance épidémiologique est d’éclairer la Cette surveillance cible une population partageant des
prise de décision en matière de prévention des risques caractéristiques d’exposition communes. Ce type d’étude
pour la santé et de prise en charge. La surveillance a est généralement mené dans le but principal de détecter
une approche essentiellement descriptive ; elle s’attache des événements de santé dont l’incidence serait jugée
à connaître et à décrire les tendances concernant la anormalement élevée par rapport à une population de
fréquence des événements de santé et la distribution référence. Dans le domaine des risques professionnels,
de leurs déterminants au sein d’une population définie, il peut s’agir de personnes ayant la même profession,
ainsi qu’à analyser leur impact sur la santé de la popu- travaillant dans le même secteur d’activité, dans la
lation d’intérêt. Les indicateurs produits sont utilisés même entreprise, ou exposées à une même nuisance.
pour identifier des groupes à risque, définir des priorités L’initiation de cohortes constitue une approche inté-
d’actions de santé publique ou évaluer l’impact de ressante pour la surveillance à l’échelle de l’entreprise.
l’évolution des facteurs de risque et des actions de Il s’agit de reconstituer de manière rétrospective la
prévention ou de prise en charge mises en place. Les population employée – suivie au-delà du départ à la
indicateurs issus de la surveillance permettent également retraite – afin de dresser un premier bilan relatif à la
de soulever des hypothèses et d’orienter la recherche mortalité observée. La cohorte constituée peut ensuite
étiologique en cas de détection de changements inex- servir de base à la mise en place d’une surveillance au
pliqués dans les caractéristiques épidémiologiques long cours de la santé des personnels employés. Ce
d’une maladie [2, 31]. type d’outil permet ainsi, à l’échelon de l’entreprise,
Les exemples de surveillance basée sur des dispo- d’orienter les actions de prévention, de surveiller l’impact
sitifs longitudinaux développés ci-après sont issus du de l’adoption de procédés nouveaux et d’évaluer les
domaine des risques professionnels. Si les qualités des mesures préventives mises en place. Elle facilite par
études longitudinales pour la surveillance ne sont pas ailleurs l’analyse d’éventuels signaux suspects signalés
spécifiques à ce domaine, il en illustre particulièrement par la médecine du travail, et permet de répondre rapi-
bien les atouts. Le monde du travail se caractérise dement et de manière rationnelle à des préoccupations
en effet par des modifications perpétuelles de l’envi- des partenaires sociaux relatives à la santé.
ronnement professionnel et des conditions d’emploi, De même, pour documenter l’impact sur la santé de
liées aux changements politiques, économiques et procédés nouveaux dont on suspecte le caractère nui-
technologiques, susceptibles d’impacter fortement les sible pour la santé, il peut être intéressant d’initier des
risques professionnels et par conséquent les problèmes cohortes de travailleurs exposés et de mettre en place
de santé qui leur sont liés. L’étude de la santé en un suivi prospectif systématique sans a priori sur les
relation avec le travail se heurte à de nombreuses conséquences de santé attendues. De telles cohortes
difficultés, notamment l’absence de spécificité des doivent permettre de générer des hypothèses quant à
maladies professionnelles, le caractère multifactoriel la nocivité du/des produit(s). Ce type de surveillance
des pathologies étudiées, qui nécessite de prendre en est particulièrement pertinent dans le cas d’exposi-
compte des expositions concomitantes (à la fois profes- tions relativement rares en population générale : c’est
sionnelles et extraprofessionnelles), la survenue des le cas, par exemple, de la production et l’utilisation
pathologies souvent différée dans le temps par rapport industrielles de nanomatériaux, actuellement en plein
Les références entre à l’exposition professionnelle, notamment les cancers essor, et qui font l’objet de préoccupations du point de
crochets renvoient à la qui surviennent le plus souvent chez les personnes vue de la santé des travailleurs — des risques pour
Bibliographie générale retraitées. Les dispositifs de surveillance longitudinaux la santé sont suspectés de par la taille inhabituelle
p. 51. permettent de pallier certaines de ces difficultés. de ces poussières, qui leur conférerait un potentiel de

24 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

nuisance spécifique. Ce type de dispositif présente en problématiques émergentes en termes d’exposition ou


outre l’avantage d’être évolutif, le suivi de santé et le d’état de santé. En cas de détection de phénomènes
recueil de données afférentes pouvant être adaptés de santé inexpliqués, il est enfin possible de greffer
en fonction de la progression des connaissances. Une sur ce dispositif d’éventuelles études ciblées à visée
telle cohorte constitue une population déjà identifiée et analytique.
accessible pour mener d’éventuelles études de recherche
étiologique. Contraintes méthodologiques
Afin d’atteindre ces objectifs, la surveillance épidé-
Surveillance en population générale miologique doit s’appuyer sur des indicateurs fiables,
Par ailleurs, des cohortes peuvent être initiées en popu- reproductibles dans le temps mais, surtout, reflétant la
lation générale. Conçues comme un véritable observa- réalité de la situation à l’échelle de la population d’intérêt.
toire de la santé des travailleurs au long cours, elles Ainsi il est nécessaire que la population d’étude soit
représentent le seul dispositif permettant de disposer « représentative » de la population cible. Cela signifie
d’une « image évolutive de la réalité des risques profes- qu’il doit être possible, à partir des données issues
sionnels à l’échelle de la population » [22]. De part leur du groupe de personnes suivies, d’obtenir des esti-
protocole, ces études sont théoriquement à même de mations extrapolables à la population d’intérêt. Il est
produire une grande variété d’indicateurs propres à la donc fondamental de contrôler au mieux les effets de
population d’intérêt (fréquence des pathologies, pré- sélection. Pour les enquêtes en population générale,
valences et caractéristiques des expositions, mesures cela nécessite notamment que l’échantillon étudié soit
d’association entre l’exposition et la pathologie), en constitué par tirage au sort dans la population cible.
tenant compte de la temporalité des événements, des L’équilibre assuré par le tirage au sort est cependant
expositions conjointes, des temps de latence de cer- rompu dès que l’information est manquante pour cer-
taines pathologies. Ce type d’étude est ainsi à même taines personnes. En effet, cette non-réponse est
de documenter le poids des facteurs professionnels susceptible d’entraîner des biais de sélection, si les
sur la santé à l’échelle populationnelle. La surveillance phénomènes étudiés sont liés à la participation. Ce
de ces indicateurs au fil du temps permet d’étudier les problème se pose non seulement à l’inclusion, mais
changements au regard de l’évolution des procédés et de également au fil du suivi, et quel que soit le type de
la mise en œuvre de mesures préventives, ou d’alerter recueil de données.
sur des modifications des caractéristiques épidémio- Les données issues de sources externes collectées
logiques d’une maladie en relation avec les facteurs en routine (causes médicales de décès, déclarations
professionnels. En outre, ces cohortes en population administratives par les employeurs, consommations de
générale sont susceptibles d’apporter rapidement des soins,…), de par leur enregistrement systématique, sont
arguments en faveur d’une association entre une expo- moins susceptibles d’entraîner des biais de sélection.
sition et une pathologie, suggérée par d’autres signaux En revanche, le recueil d’information direct auprès des
(exemple : observation de cas groupés de pathologie). personnes dépend de la capacité à contacter la personne
Un outil classique pour la surveillance des risques et de sa volonté et capacité à répondre, lesquelles
professionnels repose sur l’étude de la mortalité par peuvent être liées au phénomène étudié (état de santé
cause et par profession. Les systèmes basés sur en particulier). Dans ce cas, il est possible que les
des échantillons longitudinaux de population ont pour estimations obtenues sur le sous-groupe des personnes
avantage de permettre de disposer de taux de mor- répondantes ne reflètent pas la situation de la population
talité en population et de tenir compte de la carrière d’intérêt, par exemple, si les fumeurs participent plus
entière, contrairement aux systèmes classiques basés que les non-fumeurs à une enquête cherchant à estimer
sur les seuls certificats de décès pour lesquels seule la prévalence de consommation de tabac.
la dernière activité professionnelle est généralement Il existe cependant des solutions pour corriger des
renseignée [33]. biais de sélection éventuels lorsqu’on dispose chez
En ce qui concerne les cohortes prospectives en les participants et les non-participants d’informations
population, elles offrent de nombreuses possibilités en lien avec le phénomène étudié (telles que les
et modularités pour la surveillance épidémiologique. données de l’Assurance maladie). Ainsi, dans le cas
Dans le cas notamment des études par questionnaire, d’études de cohorte sur échantillons de population,
le recueil des données peut être planifié et couvrir des ce type d’information recueilli en continu au fil du suivi
facteurs professionnels et extraprofessionnels variés, peut être utilisé pour appréhender au mieux les biais
éventuellement intriqués. Dans le cadre du suivi, le de sélection potentiels (lire Aspects méthodologiques
recueil continu des informations sur l’état de santé et sur liés à l’analyse de données longitudinales et aux effets
les facteurs de risque permet de disposer de mesures de sélection, p. 18).
répétées dans le temps des expositions profession- Par ailleurs, dans la plupart des cas, la population
nelles nécessaires pour documenter des changements d’intérêt évolue au fil du temps. Pour qu’une cohorte
des conditions de travail au niveau individuel, mais de surveillance permette d’obtenir des estimations
également d’adapter le recueil de données selon des extrapolables à la population cible au fil du suivi, il

adsp n° 78 mars 2012 25


Apport des cohortes à la connaissance de la santé

est indispensable de tenir compte de l’évolution de la compte de cofacteurs. Elles permettent de disposer
composition de cette dernière. Certaines personnes d’une image évolutive des pathologies en lien avec les
de la cohorte initiale peuvent ne plus faire partie de facteurs d’intérêt et de surveiller l’impact de l’évolution
la population cible à la date d’observation, tandis que des risques. S’il n’est pas question dans ce contexte
de nouvelles personnes y sont entrées depuis. Afin de d’interpréter les résultats en termes de causalité étant
maintenir la capacité à décrire la population de manière donné l’absence d’objectif spécifique de ce type d’études,
transversale et prendre en compte au fil du temps l’évo- elles permettent cependant de générer des hypothèses
lution des facteurs de risque, il est nécessaire de mettre pour la recherche. Leur protocole facilite en outre la
en place une cohorte dite « ouverte », c’est-à-dire avec mise en place d’études ad hoc. Cependant, la capacité
inclusion au fil du temps des nouveaux entrants dans le des études à atteindre ces objectifs est totalement
champ de la population d’intérêt. Dans le cas d’étude dépendante de la possibilité de recueillir l’information
sur échantillon de population, cela suppose de tirer au auprès d’un échantillon représentatif de la population
sort périodiquement et suivre de nouveaux éligibles dans pour laquelle on souhaite disposer d’indicateurs de
la population cible. Dans le cas de la surveillance des santé ou d’exposition. Cette condition de représenta-
risques professionnels, compte tenu des changements tivité doit théoriquement être réalisée à tout moment
importants du tissu socio-économique, cette contrainte (représentativité transversale) et au long du suivi pour
est fondamentale afin de tenir compte des travailleurs tous les sujets inclus. Cela suppose le plus souvent de
jeunes, des procédés nouveaux, etc. mettre en place des dispositifs « ouverts » permettant
d’inclure périodiquement de nouveaux sujets et, surtout,
Conclusions de mettre en œuvre tous les moyens possibles pour
Dans le domaine de la surveillance, les études de cohorte lutter contre la non-réponse à l’inclusion et l’attrition,
représentent un outil majeur pour pallier la plupart des et pour documenter et prendre en compte au mieux
écueils des autres dispositifs classiques tels que les les effets de sélection afin d’obtenir des indicateurs
problèmes de temporalité, de latence ou de prise en extrapolables à la population cible surveillée. n

Apport des sciences sociales : l’exemple


de cohortes de patients infectés par le VIH

L
Bruno Spire es cohortes représentent un outil idéal pour mener en France ; la cohorte Manif2000 a inclus 467 patients
Inserm-Sesstim, des études multidisciplinaires à l’interface de entre 1995 et 1997 dans 8 centres des régions Paca
UMR 912, Marseille l’épidémiologie médicale et des sciences sociales. et de la banlieue parisienne.
L’évolution médicale d’individus concernés par un
problème de santé peut être ainsi analysée de façon L’importance de l’observance pour l’infection
holistique en tenant compte du comportement et des à VIH et ses particularités
perceptions des intéressés. Ces études se réalisent Les progrès significatifs des traitements antirétro-
par la mise en place de questionnaires remplis par les viraux hautement actifs ont relancé la problématique
patients régulièrement distribués au fur et à mesure de l’observance. Plusieurs travaux ont mis en évidence
du déroulement de la cohorte. Ces questionnaires sont l’observance comme facteur majeur associé au succès
conçus généralement en tenant compte des travaux virologique, à la baisse de la progression clinique et de
qualitatifs menés préalablement sur des patients la mortalité. Le niveau d’observance requis pour assurer
concernés par la pathologie d’intérêt. Nous prendrons la meilleure réponse à long terme des multithérapies
comme exemple les cohortes de patients infectés par reste cependant une question ouverte. Les cohortes
le VIH. Les travaux se sont principalement centrés sur ont permis de suivre au cours du temps la capacité des
l’observance au traitement, mais aussi sur la qualité patients dans la vie réelle à être observants et de mesurer
de vie des patients traités. Deux cohortes ont recueilli l’impact au cours du temps de la non-observance. À
des informations socio-comportementales, la cohorte partir des questionnaires administrés aux patients,
Aproco/Copilote de la 1re génération de patients ini- des algorithmes de classification ont été établis en
tiant une multithérapie avec antiprotéase, et la cohorte classant les patients comme hautement observants,
Manif2000 incluant des patients infectés par usage modérément observants ou non observants au cours
de drogue intraveineuse. La cohorte Aproco a inclus des 4 derniers jours. Ces questionnaires ont été validés
1 281 patients entre 1997 et 1999 dans 47 centres en indiquant une bonne corrélation entre observance et

26 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

succès virologique et en démontrant la relation entre cours des 36 mois de suivi. L’observance complète à
observance et concentrations plasmatiques d’inhibi- M4 est associée à la fois à la suppression prolongée
teurs de protéase. La validité des questionnaires a été de la réplication virale et à un gain de CD4 > 200/mm3
confirmée dans différentes populations très variées : au cours des 3 années de traitement. Cependant, les
les migrants d’Afrique subsaharienne vivant en France, patients modérément observants entre M12 et M36
les usagers de drogues injectables, les patients vivant ont une probabilité similaire de réponse virologique pro-
au Cambodge ou au Cameroun. longée à celle des patients restés toujours complètement
observants, les patients ayant présenté des épisodes
Une approche dynamique et non prédictive de l’observance de non-observance entre M12 et M36 ayant moins
Les travaux réalisés dans ces cohortes ont permis de fréquemment une réponse prolongée. L’optimisation
montrer que l’observance est un phénomène dynamique de l’observance semble cruciale pendant les premiers
qui se modifie au cours du temps. Dans la cohorte mois qui suivent l’initiation des multithérapies pour
Aproco/Copilote, seulement 26 % des patients restent garantir l’efficacité immuno-virologique à long terme.
hautement observants tout du long de 36 mois de suivi. Des déviations modérées de l’observance au cours du
64 % ont parfois une observance élevée, et 10 % jamais. suivi ultérieur semblent avoir un impact moindre. Les
Grâce à l’approche longitudinale, l’approche prédictive interventions pour améliorer l’observance doivent être
de l’observance visant à identifier a priori les facteurs privilégiées au moment des premiers mois suivant la
expliquant une non-observance future a été écartée. mise sous traitement.
En effet, l’analyse des déterminants de l’observance
a été recherchée dans la cohorte Aproco/Copilote. La dépression joue sur la progression clinique
Un nombre limité de caractéristiques mesurées avant indépendamment de l’observance
traitement sont associées à la non-observance initiale. La question de l’impact de la dépression sur la pro-
En revanche, la non-observance est mieux expliquée par gression clinique avait été largement ouverte avant
les variables mesurant le vécu des patients après la l’arrivée des multithérapies. La recherche d’un éventuel
mise sous traitement. Les effets secondaires perçus impact de la dépression sur la progression clinique des
par le patient sont déterminants pour expliquer la non- patients sous traitement ne peut s’étudier qu’en tenant
observance, aussi bien à court terme dans son établis- compte de l’observance, puisque cette variable est
sement qu’à plus long terme pour expliquer les ruptures directement associée à la non-observance. Au sein des
d’observance. Chez les usagers de drogue de la cohorte deux cohortes Manif et Aproco/Copilote, la dépression
Manif2000, les patients les moins observants sont les est mesurée au décours de l’initiation du traitement
toxicomanes actifs ne bénéficiant pas de traitement de par l’échelle CES-D. Cette échelle CES-D contient 20
substitution. Ceux qui ont continué ou qui ont repris les questions qui génèrent un score hautement prédictif
pratiques d’injection ont plus de risque de présenter un de la dépression. La dépression est associée à un
comportement de rupture d’observance. De plus, les risque accru de progression immuno-clinique et cela de
résultats démontrent l’impact de la précarité sociale façon indépendante de l’observance. Dans la cohorte
chez les ex-usagers de drogue sur l’observance ; en Aproco/Copilote, la progression clinique était basée
revanche, chez les sujets qui restent dépendants, c’est sur les événements cliniques classant sida, alors que
une substitution efficace en réduisant l’injection qui dans la cohorte Manif, la progression clinique était
est associée à une bonne observance. Ces résultats définie par le fait d’avoir des CD4 < 200, étant donné
suggèrent que la prise en charge des toxicomanes que les patients inclus dans cette cohorte avaient des
séropositifs nécessite une appréhension globale de CD4 initiaux plus élevés (>35 0) et donc peu à risque
la toxicomanie, en tenant compte de l’ensemble de de développer des événements cliniques. Ce résultat
la problématique du patient et pas seulement du VIH. suggère que des mécanismes neuro-immunitaires pour-
raient jouer un rôle dans la progression de la maladie.
L’observance est encore plus capitale au début
du traitement Analyse des facteurs associés à l’observance au long cours
Les données cliniques, immuno-virologiques et com- Ce type d’approche présente des difficultés d’analyse
portementales ont été recueillies à (quatrième mois car la sélection des patients suivis et répondant régu-
suivant le début du suivi) M4, M12, M20, M28 et M36 lièrement aux auto-questionnaires pose des problèmes
après l’initiation du traitement chez les 1 281 patients de biais de représentativité à cause des données man-
de la cohorte Aproco. La suppression prolongée de la quantes. Les facteurs associés à l’observance à long
réplication virale à M28 et M36 et un gain d’au moins terme ont pu être étudiés tout en tenant compte des
200 CD4/mm3 ont été utilisés comme critères de succès biais induits par les données manquantes. Celles-ci
virologiques et immunologiques. Parmi les 582 patients sont fréquentes dans toutes les études de cohorte
suivis régulièrement jusqu’à M36, 360 patients ont car il existe une attrition naturelle (décès, perdus de
des données complètes sur l’observance. Bien que vue, abandons). De plus, les données spécifiques aux
59 % soient complètement observants à M4, seulement auto-questionnaires sont également manquantes même
26 % ont maintenu un taux d’observance complète au si les patients sont toujours suivis dans la cohorte,

adsp n° 78 mars 2012 27


Apport des cohortes à la connaissance de la santé

soit par refus de remplir le questionnaire ou par non- aux opiacés. La perception des effets secondaires est
remise du questionnaire. L’analyse des données a été un facteur prédictif important de rupture de confiance
effectuée par une méthode statistique spécifique pour entre le médecin et son patient. Dans une analyse menée
tenir compte du fait que les données manquantes ne sont après trois années de traitement centrée sur les scores
pas dues au hasard (méthode d’Heckman) et corriger agrégés de qualité de vie physique et qualité de vie
ainsi les biais potentiels : après correction du biais, la mentale, les mêmes facteurs expliquent de bons scores
non-observance est indépendamment associée à l’âge de qualité de vie, mais on peut démontrer également
jeune, un nombre élevé d’effets secondaires perçus, le rôle indépendant de la relation de confiance avec le
un traitement monoprise ou comprenant trois prises médecin prescripteur sur la qualité de vie mentale et
ou plus par jour, une combinaison avec antiprotéase, la satisfaction des explications fournies par le médecin
un score élevé de dépression et l’absence de soutien sur la qualité de vie physique.
du partenaire principal. De plus, les patients nés hors
Union européenne sont plus souvent retrouvés obser- Le rôle des croyances sur la santé
vants. Le groupe de transmission par toxicomanie et Les caractéristiques psychologiques des patients avant
les mauvaises conditions de logement sont associés à traitement peuvent également expliquer en partie la
la non-observance seulement si le biais induit par les qualité de vie après plusieurs années de traitement.
données manquantes n’est pas corrigé. Le « locus de contrôle » recueilli lors de l’inclusion dans
Aproco a été mesuré. Il s’agit d’une croyance généralisée
La qualité de vie des patients selon laquelle les événements ultérieurs dépendent soit
traités par antirétroviraux de facteurs internes, soit de facteurs externes. Dans
le cas du locus interne, l’individu établit un lien causal
Le rôle néfaste des effets secondaires perçus entre ses actions et son état de santé alors que, pour
La cohorte Aproco a aussi comme objectif d’envisager le locus externe, le patient pense soit qu’un personnage
l’étude de la qualité de vie des patients traités par tout-puissant (le médecin) peut contrôler son état de
multithérapie et de mesurer l’impact du traitement. santé soit qu’elle est sous l’influence exclusive de la
L’échelle SF-36 qui a été choisie est une échelle géné- chance. La mesure du « locus de contrôle » se fait grâce
rique qui explore 4 dimensions physiques et 4 dimen- à trois sous-scores, un pour le locus interne, un pour le
sions mentales de qualité de vie pour laquelle il existe locus externe « personnage tout-puissant » et un pour
des valeurs de référence dans la population française le locus externe « chance ».
en fonction de l’âge et du sexe. Une qualité de vie est Les résultats montrent qu’un locus externe « per-
considérée comme normale si les patients ont des sonnage tout-puissant » élevé a une influence défavorable
scores de 3 échelles sur 4 physiques et 3 sur 4 men- sur la qualité de vie mentale à M44, ainsi qu’un nombre
tales supérieures au 25e percentile des valeurs de la élevé d’effets secondaires déclarés et le fait de ne pas
population générale. Le traitement semble montrer un avoir atteint le stade sida. En revanche, un locus interne
impact positif sur la qualité de vie puisque la proportion élevé influence positivement la qualité de vie physique
de patients avec une bonne qualité de vie allait de 36 % à M44, ainsi que le fait d’avoir un emploi et un faible
avant traitement à 46 % après un an de traitement nombre d’effets secondaires déclarés.
(p = 0,001) ; la qualité de vie est influencée à la fois Au total, l’expérience des cohortes a montré que, une
par l’efficacité du traitement, mais aussi négativement fois le traitement instauré, la qualité de vie mesurée
par les effets secondaires perçus, en particulier par la par des échelles génériques est assez stable. La com-
lipodystrophie. Chez les patients infectés par voie toxi- posante la plus sensible au changement de la qualité
comane, la perception des effets secondaires est plus de vie dépend des effets secondaires perçus par les
élevée, et les traitements de substitution améliorent la patients. Ces derniers semblent être l’indicateur le plus
qualité de vie sans toutefois leur permettre de rejoindre simplifié et le plus utile pour évaluer la qualité de vie
celle des patients qui ont pu arrêter toute dépendance au sein d’essais cliniques. n

28 adsp n° 78 mars 2012


Les études de cohorte : principes et méthode

Coordination et partage de données


de cohortes

E
n 2020, 75 % des décès au niveau mondial seront giques qui incluent le mode de vie, et les informations Georges Dagher
dus à des maladies chroniques complexes. Les socio-économiques et environnementales. Infrastructure
progrès au niveau des technologies de haut débit, Par ailleurs, la recherche biomédicale rencontre dif- nationale
notamment en génomique, ont permis des avancées férents obstacles qui limitent le développement de la Biobanques,
importantes, notamment en termes de définitions de recherche étiologique, de la recherche translationnelle
Inserm US 13, Paris
sous-groupes de pathologies. De nombreuses recherches ou du développement de nouvelles molécules thérapeu-
sont articulées autour d’études de caractéristiques, tiques. Parmi ces obstacles figure l’accès aux échantillons
de différences et de singularités génétiques. Dans le biologiques provenant de cohortes d’individus bien définis
champ thérapeutique, les travaux visent à développer sur le plan clinique et, en particulier dans le domaine
une médecine personnalisée qui répond efficacement de l’épidémiologie génétique, la nécessité d’accès à un
et rapidement aux besoins des patients. Dans ce cadre, grand nombre de sujets pour identifier des associations
les échantillons biologiques et leurs données associées génétiques significatives sur le plan statistique dans
sont essentiels pour : les maladies complexes. Pour relever ces défis, il est
●● Élucider les interactions entre des facteurs géné- indispensable de s’assurer de la qualité des échan-
tiques et environnementaux responsables de pathologies, tillons, de la standardisation ou de l’harmonisation de
comprendre les mécanismes des maladies complexes leur collecte, transformation et conservation. De plus,
et des maladies rares. il est nécessaire d’élargir le champ des pathologies
●● Développer des programmes médicaux ajustés concernées, d’aboutir à une interopérabilité des bases
aux particularités des patients et savoir, en fonction de données, et bien entendu de garder la confiance
de facteurs de risque identifiés, adapter la prévention, qu’accordent les citoyens à ces activités.
diagnostiquer précocement et orienter vers un trai-
tement adapté. Biobanques : un outil de mutualisation
●● Déterminer les influences des facteurs génétiques des bases de données biologiques
sur les effets et les résultats des traitements, prévenir les Le succès de cette entreprise repose principalement
effets délétères, fournir des médicaments sûrs, efficaces sur la qualité de l’échantillon et celle des informations
et adaptés en fonction des particularités individuelles. qui lui sont associées. Il est donc important que la
●● Identifier de nouvelles cibles thérapeutiques, déve- communauté de la recherche biomédicale coordonne
lopper de nouveaux médicaments ou améliorer ceux mieux ses efforts pour assurer le recueil et la conser-
existants. vation d’échantillons biologiques dans des conditions
La recherche utilisant ces ressources, telles que techniques qui en garantissent la qualité et la possibilité
la génomique, la protéomique ou encore l’imagerie, a de mise en commun pour des analyses groupées. C’est
accompli des avancées majeures dans la compréhension l’objectif majeur de l’infrastructure nationale Biobanques
des facteurs physiopathologiques qui sous-tendent les retenue dans le cadre du programme national « Inves-
maladies complexes et rares. Les études d’associations tissements d’avenir ».
génétiques (GWAs) ont permis l’identification d’asso- Biobanques1 mobilise, au sein d’une infrastructure
ciations génétiques dans le diabète type 1 et type 2, la distribuée sur tout le territoire français, les biobanques,
pathologie coronarienne, le cancer colorectal, du sein, ou tumorothèques, centres de ressources microbiologiques
de la prostate, la dégénérescence maculaire, la maladie (mBRCs) et cohortes, ainsi que des expertises asso-
de Crohn, l’autisme, les maladies neurodégénératives. ciées aux collections d’échantillons biologiques. L’infras-
Malgré ces avancées dans la détection des associa- tructure s’appuie sur les acquis d’un solide réseau
tions génétiques avec les pathologies complexes, les structuré depuis 2005, et couvre tous les champs de la
déterminants génétiques ne représentent qu’un des recherche biomédicale. Le projet fédère 72 biobanques,
facteurs qui jouent un rôle dans leur développement. dont 8 mBRCs, et implique de nombreuses équipes de
L’influence du mode de vie, des facteurs environne- recherche à travers des projets utilisant les collections
mentaux et sociaux a été reconnue et explorée depuis d’échantillons biologiques.
bien longtemps. Cela implique que l’interaction entre le La mise en place de l’infrastructure Biobanques se
gène et l’« environnement » joue un rôle essentiel dans la déroule en deux phases. Une phase de construction
chaîne causale. Il est alors important que les sciences (2011-2016), destinée à coordonner et harmoniser les
biomédicales aient accès non seulement aux études
génétiques, mais également aux données épidémiolo- 1. http://www.crbfrance.fr/

adsp n° 78 mars 2012 29


Apport des cohortes à la connaissance de la santé

différentes activités existantes ; cette phase assurera la nisation peut être également utile dans la synthèse des
mise en place et la préparation des services communs informations provenant de différentes études ou encore
et des plates-formes technologiques qui seront opéra- dans le développement de nouveaux projets. Plusieurs
tionnelles progressivement au cours des prochaines initiatives dans cette perspective ont été entreprises au
années. Ultérieurement, une phase opérationnelle sera niveau international. Par exemple, l’harmonisation des
mise en œuvre (2017-2019), durant laquelle l’infras- données de l’étude Epic, qui associe des cohortes de
tructure fournira services et plates-formes à l’ensemble plusieurs pays européens, est un élément essentiel de
de la communauté scientifique. son succès ; il en est de même pour différentes autres
L’objectif de Biobanques est d’intégrer les collec- études telles que GenomeEUTwin, Euralim ou encore
tions d’échantillons biologiques, les technologies et les Engage. De plus, le consortium P3G (Public Population
expertises associées afin de les pérenniser et de les Projects in Genomics) a entrepris depuis plusieurs années
enrichir, cela dans le respect des cadres éthiques et une harmonisation des bases épidémiologiques en
juridiques français et européens. Par ailleurs, l’infras- association avec le projet européen Phoebe. Il a ainsi
tructure assure une coordination plus efficace des actions développé un outil pratique dénommé Datashaper2,
des biobanques et des mBRCs, ainsi que la valorisation qui inclut deux séries de données, des variables pri-
des collections au sein de projets de recherche d’excel- maires nécessaires à toute étude épidémiologique et
lence, tant académiques que privés. Pour atteindre ces des variables d’ajustement, et qui décline ces variables
objectifs, l’infrastructure mutualisera les moyens et les primaires en une série d’informations. Datashaper est
compétences en développant des services communs un travail collaboratif impliquant plus de 25 cohortes
tels que : affaires réglementaires et éthiques, qualité (études longitudinales de population) internationales
de l’échantillon, bioinformatique, unité de méthodologie provenant de 14 pays. Biobanques, en concertation
et de biostatistique, ainsi que des plates-formes tech- avec P3G, encouragera l’accès à Datashaper et l’uti-
nologiques destinées à la communauté scientifique. lisation des outils informatiques annexes développés
Parmi les services communs figure le service bioin- par le consortium.
formatique et bases de données, clés de voûte de la Biobanques a pour objectifs de porter les collections
recherche biomédicale, notamment génomique et pro- d’échantillons biologiques d’origine humaine et les col-
téomique. Biobanques développera, dans un premier lections microbiologiques à un nouveau niveau de coordi-
temps, un projet pilote afin d’équiper et de tester l’intero- nation, de qualité et de valorisation en développant une
pérabilité des bases de données cliniques et analytiques infrastructure pérenne et reconnue à l’échelle nationale
provenant de projets portant sur une sélection restreinte et internationale. L’infrastructure visera en particulier
de maladies complexes et de maladies rares. Ce projet à atteindre les objectifs suivants :
pilote permettra d’identifier la fiabilité et la validité des ●● Accroître l’excellence scientifique et l’efficacité
modules informatiques proposés ainsi que les goulots de la recherche française dans les sciences de la vie.
d’étranglement et les difficultés de leur mise en œuvre. ●● Atteindre une masse critique suffisante en termes
Parmi celles-ci figure l’accès aux données cliniques de recherche et d’investissements, et éviter la duplication
pseudonymisées ou anonymisées des patients. Il fau- des efforts en établissant des liens avec d’autres projets
drait développer une solution sécurisée permettant le européens et internationaux, en améliorant la qualité
transfert, à partir des services hospitaliers, d’une partie et la standardisation des bioressources et de données
de ces données à des fins de recherche et cela dans le associées, et en mettant en place l’interopérabilité des
respect de la confidentialité et de la volonté du patient. bases de données. Cela en étroite collaboration avec
les infrastructures européennes BBMRI3 et Embarc4.
Harmoniser les données des cohortes ●● Faciliter l’accès des chercheurs académiques et
de pays européens privés aux ressources biologiques et aux données asso-
Par ailleurs, l’harmonisation par pathologie du contenu de ciées afin de favoriser l’innovation et la compétitivité,
ces bases est une nécessité pour collecter les données accélérer la mise en place de partenariats public-privé. n
d’un nombre suffisant de patients, dépassant souvent
les 10 000 sujets, afin d’atteindre la puissance statis- 2. http://www.datashaper.org/
tique suffisante pour l’analyse des polymorphismes 3. http://www.bbmri.eu/
génétiques des maladies complexes. Une telle harmo- 4. http://www.embarc.eu/

30 adsp n° 78 mars 2012

Vous aimerez peut-être aussi