Vous êtes sur la page 1sur 5

Faire parler les donnes de sant

lejournal.cnrs.fr/articles/faire-parler-les-donnees-de-sante

Opration de saisie informatique de feuilles de soins dans une Caisse primaire dassurance maladie.
A. DUCLOS/SIPA
Partager
Une rcente loi prvoit douvrir laccs aux donnes de sant des assurs sociaux. Une occasion pour certains
d'tudier les maladies, leur volution et l'efficacit des traitements, et pour d'autres de s'inquiter de la protection
ncessaire de la vie prive et du secret mdical.
Avec prs de 1,2 milliard de feuilles de soins par an, le Systme national dinformation inter-rgimes de
lAssurance maladie (Sniiram) est lune des plus grosses bases de donnes de sant au monde. Ce
foisonnement dinformations fait le bonheur de nombre de chercheurs. Mais son accs est trs encadr, trop
pour certains. Larticle 193 de la rcente loi de modernisation de notre systme de sant prvoit douvrir en
partie laccs ce fichier gr par la Caisse nationale dassurance maladie des travailleurs salaris (Cnamts).
Tandis que certains voient dans cette ouverture un formidable moyen, grce aux algorithmes de big data, de
mener des tudes de pharmacovigilance ou dvaluer les soins et les politiques de sant, dautres pensent
quelle risque de porter atteinte la vie prive, au secret mdical, ou dtre exploites par les assureurs pour
recalculer les primes payes par leurs clients.

Une base de donnes unique, des accs diffrencis


ge, sexe, lieu de rsidence, dtail de toutes les prestations rembourses, donnes relatives aux sjours Le
recensement des divers soins fournis prs de 65 millions dassurs sociaux intresse de nombreux acteurs de
la sant et de la recherche. Un arrt de juillet 2013 fixe la liste des 25 organismes ayant accs aux bases de
donnes du Sniiram.
Pour des raisons historiques videntes, le principal exploitant du Sniiram est lAssurance maladie elle-mme. Et
ses champs daction sont trs tendus. Dans le cadre de la gestion du risque, nos observations stendent du
suivi dvnements indsirables, comme ltude ralise en 2013 en partenariat avec lAgence nationale de
scurit du mdicament (ANSM) sur le risque thromboembolique des pilules de 3e gnration, lobservation

1/5

des parcours de soins en passant par la promotion de rfrentiels de bon usage des soins auprs des
professionnels de sant , prcise Claude Gissot, directeur de la stratgie, des tudes et des statistiques la
Cnamts. Du ct des patients, la collecte des tarifs a permis lAssurance maladie de publier les tarifs des
professionnels et de proposer des programmes daccompagnement spcifique aux malades. En outre, la
Cnamts scrute les bases de donnes la recherche danomalies rvlatrices dactes frauduleux. Dun point de
vue macroconomique, nous surveillons et analysons de prs lvolution des dpenses, car la question de la
soutenabilit financire du systme de sant court et moyen terme est au cur de nos missions , ajoute
Claude Gissot.
Le recensement
des soins fournis
prs de 65 millions
dassurs sociaux
intresse de
nombreux acteurs
de la sant et
de la recherche.
Bien entendu, tous les organismes ne disposent pas des mmes accs. Les donnes individuelles ne sont
accessibles qu lAssurance maladie, aux agences rgionales de sant dans la limite de leur primtre
gographique, la Haute Autorit de sant (HAS), lAgence nationale de scurit du mdicament (ANSM) et
lInstitut national de veille sanitaire (INVS). Dautres institutions, telles que lInstitut national du cancer, les
fdrations hospitalires, lInstitut national de la sant et de la recherche mdicale (Inserm), lInstitut de
recherche et documentation en conomie de la sant (Irdes) ou encore le CNRS, ne bnficient quant elles
que dun accs aux bases de donnes agrges comme le suivi des dpenses, le suivi de lactivit et
lchantillon gnral des bnficiaires (EGB), qui permet danalyser les parcours individuels.
Pour les autres organismes, aprs avoir obtenu lautorisation de la Commission nationale de linformatique et
des liberts (Cnil), lInstitut des donnes de sant (IDS) autorise ou non laccs aux donnes aprs examen de
lobjet de la recherche. Entre janvier 2014 et juin 2015, les CHU ont reprsent eux seuls 38 % des demandes
lIDS. Les recherches portaient majoritairement sur le suivi de pathologies comme Alzheimer, lasthme ou le
cancer.
En plus des donnes accs rglement du Sniiram, lAssurance maladie publie en open data certains jeux de
donnes strictement anonymes. ce jour, 17 jeux de donnes sont publis sur la plateforme du gouvernement,
parmi lesquels la base des dpenses dAssurance maladie ou la base des personnes souffrant daffections de
longue dures (ALD).

Un recours obligatoire des algorithmes sophistiqus


Lexploitation du Sniiram, qui est compos de bases de donnes thmatiques (appeles datamarts) cres selon
des besoins spcifiques, constitue un gigantesque dfi technique. Dabord en raison de sa taille prs de
500 Traoctets , qui en fait lune des plus grandes bases de donnes de sant au monde. Ensuite cause de
sa structure htrogne combinant 15 datamarts, un EGB et une base des donnes individuelles des
bnficiaires (DCIR). Ces caractristiques rendent le Sniiram inexploitable sans traitement pralable.
La Cnamts sest donc tourne fin 2014 vers le Centre de mathmatiques appliques (CMAP) afin dexplorer les
possibilits offertes par les technologies du big data au domaine de la sant. Lobjet de la recherche mene par
le CMAP consiste faire parcourir cette masse de donnes par des algorithmes non superviss la recherche
de signaux faibles. Des algorithmes similaires ceux utiliss par les grands moteurs de recherche du Web.

2/5

Laccs au dossier mdical informatis des patients se fait par le biais de la carte Vitale.
HUMBERT/BSIP
Partager
Imaginons une courbe des individus par leur sexe et leur ge. Un algorithme classique ne dduirait pas de luimme que le poids volue en fonction de lge : ses concepteurs doivent lui indiquer ce lien afin que lalgorithme
dtecte par la suite certaines anomalies, comme une augmentation ou une perte de poids anormale sur une
population qui prend un certain type de mdicament. Cette approche est limite la validation dhypothses
prtablies.
En revanche, la proprit dun algorithme non supervis sera de dcouvrir par lui-mme, sans apprentissage
pralable, que le poids est corrl lge , explique Emmanuel Bacry, chercheur au CMAP et responsable du
partenariat pour lcole polytechnique. Cette diffrence est fondamentale car, en explorant la base Sniiram, ces
algorithmes autonomes seront en mesure deffectuer des rapprochements auxquels personne navait pens et,
esprent les chercheurs, de dtecter des anomalies si infimes soient-elles. Dans notre prcdent exemple,
lalgorithme dcouvrirait de lui-mme comment le poids des individus volue avec lge, puis dtecterait tout seul
que certaines personnes prenant un certain mdicament nvoluent pas de la mme manire. De tels
algorithmes mettront peut-tre un jour en vidence des diffrences de rsultats de sant entre des parcours de
soins de patients lies des questions dorientations, de pratiques professionnelles htrognes , espre
Claude Gissot. Ces algorithmes savrent utiles pour reprer les signaux faibles, dcouvrir des facteurs jusquici
cachs et formuler de nouvelles hypothses ; hypothses qui doivent toutefois tre ensuite valides de manire
classique.

Protger les donnes personnelles


Lexistence de la base Sniiram pose invitablement lpineuse question de la scurit des donnes
personnelles. Louverture aux organismes privs permise par larticle 193 de la future loi de modernisation de
sant a ainsi fait bondir les associations dusagers qui y voient un danger pour la protection des donnes

3/5

personnelles. La loi impose nanmoins des garde-fous afin dviter que les assureurs privs ne sen servent
pour profiler les individus et adapter leurs tarifs en fonction. Elle prvoit notamment que les oprateurs privs et
publics pourront bnficier dun accs aux donnes pseudonymises condition dune part de justifier de
lintrt public de leur usage et dautre part quelles ne soient pas exploites dans le but de promouvoir ou de
modifier les contrats dassurance.

La loi impose des


garde-fous afin
dviter que les
assureurs utilisent
la base du Sniiram
pour profiler les
individus.
La pseudonymisation automatique des donnes est assure par lapplication de la procdure Foin (Fonction
doccultation des informations nominatives), labore en 1996 par le Cnamts. Cette dernire repose sur une
fonction dite de hachage qui consiste transformer de manire irrversible le numro de scurit sociale, le
sexe et la date de naissance du patient. Une premire application de Foin intervient au moment o les
informations partent des caisses locales, puis un second traitement est effectu leur arrive dans le Sniiram,
au Centre national de traitement de linformatique de la Cnamts vreux.
En France, contrairement aux pays dans lesquels il ny a pas dAssurance maladie publique ou dquivalent, la
mission de service public de la Cnamts et la veille de la Cnil procurent une certaine protection aux assurs quant
aux potentielles drives de lutilisation des donnes de sant , analyse Kvin Huguenin, chercheur au
Laboratoire danalyse et darchitecture des systmes (LAAS) du CNRS.
Le processus douverture dun jeu de donnes doit rpondre aux grandes rgles de lanonymisation. Ces rgles
permettent dempcher la ridentification des donnes en les dgradant tout en veillant en prserver
linformation utile aux tudes de sant. Malgr tout, le risque de ridentification reste techniquement prsent.
On ne sait jamais de quel type dinformations auxiliaires lentit qui analyse les donnes dispose , explique
Kvin Huguenin.
Des chercheurs de luniversit du Texas Austin sont dj parvenus identifier des utilisateurs de Netflix en
comparant le contenu de sa base anonymise avec les notes attribues sur le site Internet IMDB, poursuit-il. On
pourrait donc essayer de croiser les donnes ouvertes par lAssurance maladie avec les informations
disponibles sur les assurs (localisation, ge, symptmes, etc.), en particulier les informations laisses sur les
rseaux sociaux et les forums tels que PatientsLikeMe ou Doctissimo.

4/5

LAssurance maladie a sollicit le Centre de mathmatiques appliques pour quil explore les possibilits
offertes par les technologies du big data dans le domaine de la sant.
O. MARK/FOTOLIA.COM
Partager

Une veille en temps rel grce aux flux bruts


Enfin, en plus de laccs aux bases darchives de lAssurance maladie, certains acteurs aimeraient pouvoir en
exploiter les flux bruts, ce flot continu dinformations qui partent des caisses locales destination du Sniiram.
Analyser ces flux permettrait par exemple de mettre en place des veilles en temps rel. Toutefois, personne ny
a accs, celui-ci tant contrl par lAssurance maladie. Certains regrettent cette situation, tel Jean-Yves Robin,
directeur gnral dOpenHealth Company. Cette socit a cr un rseau de plus de 6 000 pharmacies qui lui
transmettent les donnes de vente de mdicaments. partir de ce panel, la socit propose une srie de veilles
sur la vaccination grippale, ltendue de la gastro-entrite ou encore les manifestations allergiques. Ce procd
nest pas propre cet oprateur priv. LINVS organise sa veille en temps rel travers des rseaux comme
Oscour (Organisation de la surveillance coordonne des urgences) ou Sursaud (Surveillance sanitaire des
urgences et des dcs).
Mais sil est trs probable que le suivi des flux bruts permette dtayer des stratgies commerciales et marketing
en matire de mdicament, daucuns doutent que ce seul suivi permette de prvenir des problmes sanitaires.
En effet, le suivi de la consommation des soins rattache au patient est ncessaire et il se fait en rapprochant les
donnes de suivi des mdicaments avec les donnes issues du Programme de mdicalisation des systmes
d'information (PMSI) via laccs au Sniiram. Des dispositions daccs qui figurent justement dans la nouvelle loi
sant.

5/5