Vous êtes sur la page 1sur 12

LA Note DANALyse

Marie-Pierre Hamel et David Marguerit,

dpartement Questions sociales

Analyse des big data


Quels usages, quels dfis ?
La multiplication croissante des donnes pro-

Son dveloppement ncessite toutefois de bien

duites et le dveloppement doutils informatiques

comprendre les enjeux qui y sont lis. C'est

permettant de les analyser offre dinnombrables

l'objectif de cette note, qui s'attache dtailler ce

possibilits tant pour ltat que pour les entre-

qu'est l'analyse des big data et prsente les usages

prises. Il ne fait aucun doute que le traitement de


ces masses de donnes, ou big data, jouera un
rle primordial dans la socit de demain, car il
trouve des applications dans des domaines aussi
varis que les sciences, le marketing, les services
client, le dveloppement durable, les transports,

possibles de ces technologies, qu'il s'agisse de


rendre la gestion plus efficace, d'amliorer les
services rendus ou de prvenir des phnomnes
nuisibles (pidmies, criminalit, etc.). Elle
expose les principales difficults associes ces

la sant, ou encore lducation. Par ailleurs, le

usages : garantir la confidentialit et le respect

potentiel conomique de ce secteur est indnia-

de la vie prive. Enfin, elle montre comment diff-

ble et les retombes en termes demploi et de

rents pays et entreprises ont dores et dj investi

cration de richesse seront non ngligeables.

dans ce secteur. g

www.strategie.gouv.fr

11/2013

No 08

DFINIR LANALYSE DES BIG DATA

Les eNjeux

Big data et 5 V

Laccroissement des donnes produites par les


entreprises, les particuliers, les scientifiques et les
acteurs publics, coupl au dveloppement doutils
informatiques, offre de nouvelles perspectives
danalyses. Ces dernires ont des rpercussions
importantes en termes de cration demploi,
de recherche et dveloppement ou damlioration
des services et de leur gestion1.

Le volume de donnes numriques augmente de manire


exponentielle : 90 % de lensemble des donnes
aujourdhui disponibles ont t cres ces deux dernires
annes2. Alors que lon parlait il y a peu de gigaoctets
(109 octets), on parle maintenant plutt de traoctets
(10 12 octets), de ptaoctets (10 15 octets), dexaoctets
(1018 octets) et mme de zettaoctets (1021octets)3.

Cette note dfinit tout dabord ce quest lanalyse


des big data. Elle montre en quoi c'est un
phnomne nouveau et quelles volutions
sociales et techniques il est li.
Elle dtaille ensuite les usages et les possibilits
offertes par les analyses de masses de donnes et
leurs applications concrtes.
Puis elle sattache signaler les principaux risques
associs ces usages. Lanalyse des big data peut
engendrer des inquitudes du fait du croisement
d'un grand nombre de donnes. Ainsi, se pose la
question des conditions ncessaires au respect de
la vie prive et la scurit des donnes.

Cette augmentation sexplique principalement par les


volutions techniques et dinfrastructures. Entre 1990
et 2011, le pourcentage des utilisateurs dinternet et de
tlphones mobiles au niveau mondial est pass respectivement de 0,05 % 32,7 %4 et de 0,21 % 85,5 %5.
Entre les troisimes trimestres de 2011 et de 2012,
les ventes mondiales de tablettes numriques et de
smartphones ont pour leur part augment de 45,2 %6.
Ericsson prdit quil y aura 50 milliards dobjets connects (encadr 1) dans le monde dici 2020, contre
environ 12 milliards aujourdhui 7 . Le dveloppement
dapplications et de rseaux sociaux lis ces nouvelles
technologies explique aussi la cration de donnes.

Enfin, cette note prsente les grandes stratgies


mises en uvre par le secteur priv et les
gouvernements de diffrents pays et dtermine
quelles sont les conditions indispensables au
dveloppement de lanalyse des big data.

Lavnement doutils comme le cloud computing (encadr 1) permet par ailleurs de stocker des donnes
moindre cot. Globalement, le prix dun gigaoctet pour
un disque dur est pass denviron 16 USD (12,30 euros)
en fvrier 2000 0,10 USD (0,07 euros) en aot 20108.
1. World Economic Forum (2012), Big Data, Big Impact: New Possibilities for International Development.
2. Brasseur C. (2013), Enjeux et usages du big data. Technologies, mthodes et mises en uvre, Paris, Lavoisier, p. 30.
3. 1 traoctet reprsente par exemple 6 millions de livres, 1 ptaoctet reprsente 2 milliards de photos numriques de rsolution moyenne, et 1,8 zettaoctets reprsentent
toutes les informations enregistres en 2011.
4. Banque mondiale (2013), World Development Indicators.
5. Ibid.
6. IDC Press Release (2012), Smartphones Drive Third Quarter Growth in the Worldwide Mobile Phone Market, According to IDC, 25 octobre.
7. Ericsson White Paper (2011), More than 50 Billion Connected Devices.
8. http://ns1758.ca/winch/winchest.html.

LA Note DANALyse
11/2013

No 08

eNcADr 1. LMeNts De DfiNitioN


Big data : normes volumes de donnes structures et non
structures, difficilement grables avec des solutions
classiques de stockage et de traitement9. Ces donnes
proviennent de sources diverses et sont (pour la plupart)
produites en temps rel.
cloud computing : Dsigne des prestations distance
logiciels, stockage de donnes physiquement rparties
dans des data centers10 et non pas sur le terminal de
lutilisateur.
Datamining : Ensemble de techniques ayant pour objet
lextraction dun savoir partir de grandes quantits de
donnes, par des mthodes automatiques ou semiautomatiques.
internet des objets : Dsigne les objets connects
internet qui transmettent des donnes numriques par le
biais de puces radiofrquences (RFID). Ces objets peuvent
communiquer entre eux. On les retrouve dans la grande
distribution, dans les objets du quotidien (podomtres
connects, domotique, compteurs lectriques intelligents),
dans les avions, les voitures, dans le monde mdical, etc.11.
open data : Processus douverture des donnes publiques
ou prives pour les rendre disponibles lensemble de la
population sans restriction juridique, technique ou
financire. Lopen data contribue laugmentation des
donnes disponibles lanalyse.

capteurs installs sur des oliennes avec celles relatives


la mto ou aux mares, il est possible doptimiser leur
orientation en temps rel, de mieux prvoir les temps
de maintenance, etc. De la mme faon, des voitures
autopilotes, communicantes entre elles et avec
lenvironnement, sont aussi en dveloppement pour
viter les accidents (donnes venant de capteurs des
voitures, de capteurs sous les routes, donnes de prvision mto, donnes historiques/statistiques de densit
de trafic, etc.)13.
Autre caractristique, les donnes analyses ne sont plus
forcment structures comme dans les analyses antrieures, mais peuvent tre du texte, des images, du contenu
multimdia, des traces numriques, des objets connects,
etc. (varit). Par exemple, alors quil nexistait auparavant pas de systmes permettant d'analyser automatiquement du texte, il est aujourdhui possible dtudier
ltat de lopinion via les tweets (social medias analysis),
ou encore de proposer une aide au diagnostic en se
basant sur la littrature mdicale (encadr 2).
Les acteurs du secteur mentionnent aussi la vracit ou
la qualit des donnes. Par exemple, comment l'analyste
peut-il sassurer que les donnes de rseaux sociaux
comme Facebook ne sont pas des rumeurs ou des diffusions malveillantes ? En 2013, une information dun faux
compte Twitter a dgrad le cours de laction dune
socit cote au NASDAQ. Le tweet a entran lchange
de 300 000 actions en deux minutes, et une baisse de
25 % de la valeur de laction14. Autre exemple : un capteur
dfectueux utilis dans un systme de conduite assiste
peut causer un accident.

Tout lintrt des masses de donnes ne rside pas uniquement dans leur quantit. Le volume partir duquel il
est possible de parler de big data ne fait dailleurs pas
lunanimit. Lanalyse des big data comprend quatre
autres critres que lon retrouve de faon plus ou moins
simultane : vitesse, varit, vracit, valeur.

ces quatre V sajoute souvent un cinquime, qui dsigne


la valeur quil est possible de tirer de ces donnes, les
usages quelles produisent15.

La vitesse rfre aux dlais dactualisation et danalyse


des donnes numriques. Les donnes ne sont plus
traites en diffr, mais en temps rel (ou quasi rel).
Selon les cas, il est mme possible de ne plus stocker les
informations, mais de les analyser en flux (streaming).
Cette rapidit peut tre primordiale. Au Canada, en analysant en temps rel les informations sur ltat de sant de
bbs prmaturs avec un logiciel daide au diagnostic
(encadr 2), des infections ont pu tre dtectes vingtquatre heures avant la manifestation de symptmes
visibles12. Autre exemple : en croisant les donnes de

Outils et mthodes
Pour rpondre aux besoins provenant dentreprises
comme Google ou Facebook, des logiciels capables de
traiter de gigantesques volumes de donnes structures
et non structures ont vu le jour, pour la plupart il y a
moins de cinq ans. Ces logiciels, souvent open source
comme Hadoop, peuvent distribuer des donnes simultanment sur plusieurs serveurs. Dautres logiciels,

9. Brasseur C. (2013), op. cit., p. 30.


10. Data center : en franais, centre de traitement de donnes. Il sagit dun site physique sur lequel se trouvent regroups des quipements constituants du systme
dinformation dune entreprise ou dune institution, que ce stockage soit interne et/ou externe lentreprise, exploit ou non avec le soutien de prestataires.
11. Gille L. et Marchandise J.-F. (dir.) (2013), La dynamique dInternet. Prospective 2030, tude ralise pour le Commissariat la stratgie et la prospective, Paris, tudes, n 1.
12. Mayer-Schnberger V. et Cukier K. (2013), Big Data. A Revolution That Will Transform How We Live, Work, and Think, Boston, New York, Eamon Dolan, Houghton Mifflin
Harcourt, p. 60.
13. http://www.smartplanet.fr/smart-technology/fin-des-embouteillages-lautoroute-du-futur-plus-efficace-a-273-17768/.
14. http://talkingtechno.com/2013/02/26/un-faux-tweet-plombe-le-cours-de-bourse-dune-entreprise-le-web-et-la-folie-des-rumeurs/.
15. GFII (2012), Dossier de synthse de la journe dtude du GFII Big data : exploiter de grands volumes de donnes : quels enjeux pour les acteurs du march de
linformation et de la croissance ?.

www.strategie.gouv.fr

dapprendre des diagnostics antrieurs, Watson propose


un diagnostic. Ce dernier est valu selon une probabilit
et le raisonnement est explicit.
Dautres applications sont envisages : dans les mtiers
du droit (tant donn limportance des lgislations,
des rglementations, etc.), lanalyse de dossiers, le conseil
financier, etc.

limage de MapReduce servent effectuer des calculs en


parallle avec ces donnes distribues. On bnficie ainsi
de la puissance de calcul concomitante de multiples
serveurs banaliss en cluster (secteurs).
Pour amliorer le traitement des donnes, les logiciels
doivent tre capables de dtecter linformation intressante : on parle alors de datamining 16 (encadr 1).
De plus, lanalyste utilise une mthode inductive et
non plus dductive : il cherche tablir des corrlations
entre plusieurs informations sans hypothses prdfinies. Le projet BrainsSCANr a permis la fabrication dun
logiciel qui, en s'appuyant sur 3,5 millions de rsums
darticles scientifiques, fait automatiquement un lien
entre des parties du cerveau et certaines maladies.
Les corrlations faibles sont les plus intressantes, car
elles reprsentent celles qui nont pas souvent fait lobjet
de recherches. Ainsi, un lien entre migraine et striatum a t mis au jour, lordinateur ouvrant de lui-mme
une nouvelle piste de recherche17.

La technologie big data est galement associe au dveloppement de logiciels capables de rendre intelligibles les
rsultats rendu possible par l'mergence de nouveaux
outils de visualisation (images, diagrammes, animations).

COMPRENDRE LE POTENTIEL
DES ANALYSES DES BIG DATA
Simplifier et adapter les services
Lanalyse des big data permet tout dabord de mieux
couter les usagers, de mieux comprendre leurs modes
dutilisation des services et daffiner loffre. Google
Analytics propose par exemple aux entreprises damliorer la conception de leur site internet par lanalyse des
visites des internautes. Ces applications ont aussi leur
utilit dans le secteur public.

Les logiciels, volutifs, peuvent aussi apprhender


lenvironnement des donnes et apprendre des rsultats
antrieurs. On parle alors de machine learning ou dapprentissage automatique (encadr 2).

eNcADr 2. WAtsoN-iBM
Watson est un programme informatique dintelligence
artificielle conu par IBM dans le but de rpondre des
questions formules en langage naturel. Pour dvelopper
ce programme, IBM sest donn un objectif ludique.
Il sagissait de remporter le jeu tlvis amricain Jeopardy!
contre des champions. Ce jeu consiste en lnonc de
rponses pour lesquelles les candidats ont trouver les
questions correspondantes. Le programme informatique
doit pouvoir comprendre lnonc (en langage naturel) et
trouver la question dans un temps de rflexion comparable
celui des humains.
Ce programme dintelligence artificielle utilise le logiciel
Hadoop (voir supra) afin de parcourir une grande quantit
de contenus (200 millions de pages lors de sa victoire
Jeopardy!) trs rapidement (en moins de trois secondes
pour Jeopardy!). Watson value la probabilit que la
rponse quil trouve soit la bonne, rpondant seulement si
celle-ci est juge assez leve.
IBM cherche maintenant commercialiser lutilisation de
Watson. Watson est par exemple utile dans le domaine du
diagnostic mdical. En analysant les symptmes et les
donnes mdicales fournis par un mdecin (en langage
naturel), et les connaissances emmagasines (dictionnaires
mdicaux, littrature scientifique, tudes de cas, etc.),
selon un modle de machine learning qui lui permet

Avec lducation en ligne (dont les Massive Open Online


Courses MOOC), on peut analyser les activits des
lves (temps consacr, faon de suivre les programmes,
arrt-retour dans les vidos pdagogiques, recherches
internet parallles, etc.) pour amliorer les modes denseignement.
Dans le domaine des transports, on modlise les dplacements des populations pour adapter les infrastructures
et les services (horaires des trains, etc.). cette fin, les
donnes provenant des pass de transports en commun,
des vlos et des voitures communes, mais aussi de la
golocalisation (donnes cellulaires et systmes de localisation par satellites) de personnes ou de voitures, sont
utilises.
Dans un autre domaine, celui de la logistique, la suite
du sisme qui sest produit en Hati en 2010, les mouvements de foule ont t analyss laide des donnes
cellulaires pour faciliter la distribution de laide18. Toujours
en Hati, lpidmie de cholra qui sest dveloppe aprs
le tremblement de terre a t mieux combattue grce
ltude des dplacements des personnes contamines19.
Autre exemple, les analyses peuvent faciliter la recherche
demploi. Il sagit de combiner les qualifications des indi-

16. Brasseur C. (2013), op. cit.


17. Fischmann S. (2013), Sciences et technologies de linformation et de la communication. Big data, partie 2 : le quatrime paradigme de la science, Bulletins lectroniques
tats-Unis, n 336, Ambassade de France aux tats-Unis / ADIT.
18. World Economic Forum (2012), op. cit., p. 5.
19. Ibid.

LA Note DANALyse
11/2013

No 08

vidus avec les offres demploi (issues des sites internet


de type Le Bon Coin, des sites dentreprises, des sites
administratifs, etc.). Les analyses permettent aussi
didentifier les formations pertinentes, danticiper les
reconversions, dadapter la recherche aux besoins du
march20. Lentreprise Monster.fr utilise ainsi un logiciel,
conu sur le modle dun site de rencontre, qui vise
trouver lemployeur idal en croisant les comptences,
mais aussi les affinits psychologiques, les caractristiques des individus embauchs, etc.

dconomiser des ressources23. Une entreprise peut, par


exemple, suivre ses ventes en temps rel pour mieux rapprovisionner ses stocks. De mme, une administration
publique peut suivre lactivit des agents, le versement de
prestations, laccroissement des demandes, etc.
Les possibilits sont multiples et sappliquent une infinit de secteurs. Le datamining (encadr 1) de masses de
donnes est par exemple trs performant pour dtecter
les fraudes. En analysant quantit de donnes sur des
populations de fraudeurs, on dcouvrira certains profils
types qui ntaient pas visibles. Il est alors possible de
mieux cibler les contrles (ladministration douanire franaise commene utiliser ces technologies). Le traitement
en temps rel permet aussi de lancer des alertes : lmission dune contravention pourrait par exemple permettre
de dtecter quun individu en cong maladie ne devrait
pas se trouver dans un dpartement diffrent de celui o
il rside.

Lanalyse de masses de donnes permet galement de


mieux comprendre les sentiments ou les besoins des
citoyens. Pour la campagne de rlection de Barack
Obama en 2012, les conseillers ont analys localement
les messages sur Twitter pour adapter en direct le
discours du prsident. Autre exemple, en France, la mairie
de Toulouse a demand en 2013 la socit Apicube
danalyser 1,6 million de documents (tweet, Facebook,
blogs, forums, etc.) pour mieux connatre les sujets de
proccupation des citoyens. Ces analyses ont toutefois
leurs limites en termes de reprsentativit de la population.

En matire dnergie et de dveloppement durable, les


systmes de compteurs intelligents (lectricit, gaz, eau)
rationalisent la consommation nergtique. En plus doffrir
aux citoyens la possibilit de mieux contrler leur consommation, ils permettent de couper distance, avec laccord
des clients, lalimentation dquipements pour viter les
surcharges du rseau.

Elles permettent encore denvoyer un usager des


informations sur des services publics ou privs suivant
lvolution, en temps quasi rel, de sa situation. On peut
imaginer quune information fournie par un employeur
dclenche loctroi dune prestation sociale ou en facilite
le calcul21.

De mme, en analysant les donnes provenant de capteurs sur les avions et en les associant des donnes
mto, on modifie les couloirs ariens pour raliser des
conomies de carburant, on amliore la conception, la
maintenance des avions ou leur scurit24.

Lamlioration des services publics passe aussi par


la limitation des demandes de pices justificatives,
la majorit des informations se trouvant dj dans
les masses de donnes dtenues par les institutions
publiques. Au Royaume-Uni, pour les demandes de nouveaux permis, lagence en charge des permis de conduire
et de limmatriculation des vhicules peut rcuprer les
photographies et les signatures ncessaires dans les
donnes en ligne du service en charge des passeports (si
le demandeur a un passeport)22. Les analyses permettent
galement de prremplir les formulaires administratifs en
croisant les donnes.

Prdire et prvenir
Lanalyse des masses de donnes permet plus spcifiquement danticiper, avec un certain degr de certitude,
des comportements ou des besoins25. La socit Crito
vend, par exemple, des services de publicits cibles
sous forme de bannires affiches sur les sites consults.
Il sagit danalyser une importante quantit dinformations sur les habitudes de consommation des internautes
pour tablir des corrlations, et ainsi prvoir leurs achats.
De la mme faon, lenseigne amricaine Target parvient
identifier les femmes qui attendent un enfant pour leur
proposer des produits pour nourrisson. cette fin, les
analystes ont corrl des millions de donnes laide de
cartes de fidlit de femmes ouvrant une liste de cadeaux

Amliorer les performances gestionnaires


Les analyses de donnes massives peuvent accrotre
la transparence administrative, faciliter lvaluation
des services, assister la prise de dcision, ou permettre

20. TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 15.
21. Hamel M.-P. (2012), Fraude, indus, non-recours : comment faciliter le juste paiement des prestations sociales ?, La Note d'analyse, Centre danalyse stratgique,
n 306, novembre ; Hamel M.-P. (2013), Comment utiliser les technologies numriques pour poursuivre l'amlioration des relations entre l'administration et ses usagers ?,
La Note d'analyse, Centre danalyse stratgique, n 317, janvier.
22. Yiu C. (2012), The Big Data Opportunity: Making Government Faster, Smarter and More Personal, Policy Exchange, p. 13.
23. TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 12 ; McKinsey Global Institute (2011), Big Data.
The Next Frontier for Innovation, Competition, and Productivity, 156 p.
24. Jouniaux P. (2013), Big data au service de la scurit du transport arien : lanalyse des donnes de vol, Tlcom, n 169, juillet.
25. ce sujet, voir Siegel E. (2013), Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons.

www.strategie.gouv.fr

Les volontaires doivent rpondre annuellement un


questionnaire et passer un examen de sant tous les cinq
ans. Ces donnes sont ensuite apparies tous les ans avec
celles de la CNAMTS (SNIIRAM31 et PMSI32), de la CNAV
(SNGC33) et de lINSERM (donnes sur les causes de dcs).
Lquipe de recherche souhaite intgrer ultrieurement
dans la cohorte des donnes sous forme dimages, par
exemple des rsultats de rsonance magntique ou de
squenage du gnome. Le croisement des donnes sur
la squence dADN, les pathologies dclares et
lenvironnement de vie (type de profession, lieu
dhabitation, etc.) permettra notamment damliorer la
comprhension des mcanismes de lpigntique34.

de naissance. Ils ont observ quelles commenaient


acheter des crmes sans parfum environ trois mois de
grossesse, puis certains supplments alimentaires un
stade de grossesse plus avanc. Ces profils de comportements ont ensuite t tendus toute la clientle. Target
sest toutefois retrouv au cur dun scandale, un pre
ayant dcouvert la grossesse de sa fille mineure parce
quelle recevait ces publicits cibles26.
Dans le domaine de la sant, il est possible de mieux
prvenir certaines maladies ou pidmies, ou damliorer
le traitement des patients. En analysant les recherches
des internautes sur Google, une quipe est parvenue
dtecter plus rapidement larrive des pidmies de
grippe27. Autre exemple, en sintressant aux donnes
disponibles sur Facebook, des chercheurs ont dtect les
adolescents ayant des comportements risque pour
cibler les campagnes de prvention28.

La prvention des crimes est lune des applications possibles de lanalyse des masses de donnes. La police et
luniversit de Memphis ont dvelopp un programme
(Blue Crush), maintenant utilis par de nombreuses villes,
qui permet didentifier les zones et les heures o des
dlits sont le plus mme davoir lieu, afin doptimiser
laffectation des services35.

Les technologies associes aux big data permettent aussi


des avances spectaculaires dans lanalyse du gnome
humain. Alors quil a fallu dix ans et 3 milliards USD
(2,3 milliards deuros) pour raliser le premier squenage humain complet, il est maintenant possible den
raliser un en quelques jours et pour environ 1 000 USD
(760 euros)29. Ces connaissances, couples dautres
informations, permettent de mieux comprendre lvolution de pathologies, damliorer les mesures de prvention ou encore les protocoles de soins (encadr 3).

De la mme faon, la ville de New York a dvelopp un


systme pour dtecter les logements o des incendies
sont le plus susceptibles de se produire (squats, taudis,
appartements surpeupls, dcoups en plusieurs lots,
ne respectant pas les rgles de scurit). Il sagit de
croiser quantit de donnes issues de diffrents services
et agences municipaux portant sur les cinq dernires
annes : informations sur les logements, procdures
dexpulsion, impays de gaz, dlectricit, de taxes municipales, visites dambulance, taux de criminalit, historique des incendies, etc. En appliquant des techniques de
datamining ces masses de donnes, on dtermine des
profils types de plaintes reues sur la hotline de la ville
( propos de nuisances sonores, de troubles du voisinage,
sur des suroccupations prsumes). Lors de contrles,
ces profils sont le plus susceptibles de dboucher sur la
dtection de logements o les normes de scurit ne sont
pas respectes. Avant les analyses, 13 % des inspections
donnaient finalement lieu des vacuations pour des
raisons de scurit, contre environ 70 % aujourdhui36.

eNcADr 3. coHorte coNstANces


La cohorte Constances est une enqute pidmiologique
ayant pour objectif de suivre long terme un chantillon
reprsentatif de 200 000 personnes affilies au rgime
gnral de la Scurit sociale30. Elle est mene en
partenariat par lInstitut national de la sant et de la
recherche mdicale (INSERM), luniversit Versailles-Saint
Quentin, la Caisse nationale dassurance maladie des
travailleurs salaris (CNAMTS), et la Caisse nationale
dassurance vieillesse (CNAV), avec le soutien du ministre
de la Sant.
Les personnes enqutes, ges de 18 69 ans
linclusion, ont t slectionnes par tirage au sort.

26. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 58.


27. Ginsberg J. et al. ( 2009), Detecting influenza epidemics using search engine query data, Nature, n 457, p. 1012-1014.
28. Moreno M. et al. (2012), Associations between displayed alcohol references on facebook and problem drinking among college students, Archives of Pediatrics &
Adolescent Medicine, 166(2), p. 157-163.
29. Fischmann S. (2013) op. cit.
30. http://www.constances.fr/fr/.
31. Le Systme national d'informations inter rgimes d'assurance maladie (SNIIRAM) donne des informations sur les remboursements de lassurance maladie aux
particuliers.
32. Le Programme de mdicalisation des systmes dinformation (PMSI) : il renseigne les sjours hospitaliers des patients des fins de remboursements.
33. Le Systme national de gestion des carrires (SNGC) regroupe les informations sur la carrire des assurs : salaires, emplois occups, cong maternit, invalidit,
chmage, etc.
34. Lpigntique est lexpression diffrencie des gnes en fonction de lenvironnement. En dautres termes, deux personnes porteuses dun mme gne peuvent, ou non,
dvelopper une maladie selon linfluence de lenvironnement sur ce gne.
35. http://www.memphispolice.org/blue%20crush.htm.
36. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 185-189.

LA Note DANALyse
11/2013

No 08

PRENDRE EN COMPTE LES RISQUES

La loi Informatique et Liberts prcise par ailleurs


que ces donnes personnelles doivent tre collectes
et traites pour des finalits dtermines, explicites et
lgitimes. Seules les donnes pertinentes pour un usage
dfini peuvent donc tre collectes. Leur dure de
conservation ne doit pas excder le temps ncessaire
latteinte des objectifs pour lesquels elles sont collectes
(pass ce dlai, prvaut le droit loubli ou lobligation
de destruction des donnes). Mme si les donnes ne
sont pas enregistres mais traites en temps rel, la loi
sapplique.

Le dveloppement de lanalyse de masses de donnes


doit saccompagner dun questionnement relatif la protection des donnes. Le rcent scandale Prism sur la
transmission de donnes dutilisateurs dinternet des
fins de surveillance entre des compagnies comme
Google, Yahoo !, Microsoft, Apple, Aol, You Tube, Skype,
Paltalk ou Facebook et les services de renseignements
amricains (National Security Agency) a dailleurs donn
une attention considrable cette problmatique et
pourrait avoir de lourdes consquences pour le secteur37.

Dans le cadre des dbats europens sur le projet de


rglement europen du 25 janvier 2012, la position de la
Commission est que la finalit de lutilisation des donnes
personnelles devrait tre clairement tablie. Avec lanalyse des big data, il est cependant difficile danticiper quel
usage il en sera fait. La collecte cible et le principe
de suppression entrent par ailleurs en contradiction avec
la ncessit dun volume de donnes le plus important
possible43.

Respecter la vie prive


Traiter les donnes caractre personnel
En France, lusage des donnes caractre personnel est
rglement par la loi Informatique et Liberts38. Dans
sa version modifie, cette loi transpose directement la
directive europenne de 1995 relative la protection des
donnes que le projet de rglement europen du 25 janvier 2012 doit rviser39. Pour la loi, la donne personnelle
concerne toutes les informations relatives une personne
physique identifie ou qui peut tre identifie par des
lments qui lui sont propres.

La loi Informatique et Liberts reconnat aussi le droit


dtre inform de la collecte et de lutilisation des donnes,
et en particulier de la finalit du traitement, de lidentit
du responsable du traitement ou des destinataires des
donnes et des droits dont ils disposent (des droits
daccs, de rectification, dopposition peuvent tre exercs pour motif lgitime)44. Selon le mme principe, la
Commission europenne veut demander un consentement explicite par type de donnes. La lgislation est
cependant allge lorsque les donnes collectes sont
trs vite anonymises. Le consentement, lorsquil est
requis par la loi, est en tout cas suppos offrir la personne un pouvoir. Il dsigne toute manifestation de
volont libre, spcifique ou informe45.

Pour dterminer si une personne est identifiable, tous les


moyens auxquels lanalyste peut avoir accs sont pris
en considration. Beaucoup de donnes peuvent alors
permettre cette identification comme un numro de
tlphone, des donnes de golocalisation ou une
adresse IP , et surtout lorsquelles sont combines
dautres40. Leur utilisation peut aussi se faire la suite
dune anonymisation qui suppose de dtruire le lien entre
linformation et lidentit.
Cependant, compte tenu des possibilits de croisement
des donnes permises par lanalyse des big data, cette
anonymisation est quasiment impossible obtenir. Toutes
les donnes doivent-elles pour autant tre considres
comme personnelles41 ? Leur utilisation tant souvent fort
utile, comme dans le champ de la sant, cette voie serait
contreproductive si elle conduisait empcher toute
exploitation de donnes imparfaitement anonymises.
Lanonymisation a, en tout cas, le mrite de compliquer la
tche de ceux qui seraient mal intentionns42.

Selon la CNIL et pour plusieurs autorits europennes de


protection des donnes personnelles, cette autorisation
donne dans un contexte spcifique ne correspond
pas aux pratiques actuelles de Google. On reproche ainsi
lentreprise un manque de transparence et dinformation envers les usagers concernant lutilisation de leurs
donnes et la matrise de celles-ci46.

37. http://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/.
38. Loi 78-17 du 6 janvier 1978 modifie.
39. Directive 95/46/CE du Parlement europen et du Conseil, du 24 octobre 1995, relative la protection des personnes physiques lgard du traitement des donnes
caractre personnel et la libre circulation de ces donnes, JOCE n L 281 du 23/11/1995, p. 31. Proposition de rglement du Parlement europen et du Conseil relatif la
protection des personnes physiques lgard du traitement des donnes caractre personnel et la libre circulation de ces donnes (rglement gnral sur la
protection des donnes), Bruxelles, le 25 janvier 2012, COM(2012) 11 final, 2012/0011 (COD).
40. Levallois-Barth C. (2013), Big data et protection des donnes personnelles : un dfi (quasi) impossible ?, Tlcom, n 169, juillet.
41. ce sujet, voir le premier cahier Innovation et prospective de la CNIL, Vie prive lhorizon 2020, p. 32-33.
42. Levallois-Barth C. (2013), op. cit.
43. Ibid.
44. Pas de motif lgitime invoquer dans le cadre de la prospection commerciale.
45. Levallois-Barth C. (2013), op. cit.
46. CNIL, Dcision n 2013-025 du 10 juin 2013 de la prsidente de la CNIL mettant en demeure la socit GOOGLE INC.

www.strategie.gouv.fr

exceptions apparaissent, comme laccs des donnes


de golocalisation lorsquun usager utilise des services
comme Proxima mobile53. Ladministration peut aussi
dans certains cas spcifiques prvus par une loi vendre des donnes, comme les donnes de carte grise,
sauf opposition de lautomobiliste qui peut cocher (sil la
remarque) une case sur son certificat de demande. Intressants dans le cadre des big data, certains de ces
usages refltent une moins bonne prise en compte de la
protection des donnes personnelles par ladministration.
La CNIL rflchit aux rglementations qui pourraient
encadrer les analyses.

Mme sil est explicitement demand, le consentement


peut tre biais ou manipul la personne pouvant tre
pousse le donner47. Cependant, dans certains cas, par
exemple pour dtecter plus rapidement des pidmies, le
champ du consentement pourrait tre largi aux fins de
lintrt gnral48.
La question du consentement rejoint celle du dtenteur de
la donne. Qui peut avoir accs aux donnes disponibles
sur Internet, comme les donnes publiques des rseaux
sociaux ? Dabord gratuites, la plupart sont maintenant
payantes et constituent lactif principal dentreprises
comme Facebook ou Google, do leur opposition la
lgislation europenne. Alors que les organisations produisaient et utilisaient jusqu maintenant leurs propres
donnes, des data brokers revendent aujourdhui les donnes dentreprises ou encore de ltat divers acteurs49.
On estime ainsi que la socit amricaine Acxiom, spcialise dans le recueil et la vente dinformations, et qui a
dgag un revenu de 1,15 milliard de dollars en 2012,
possderait en moyenne 1 500 donnes sur 700 millions
dindividus dans le monde50.

Plus gnralement, ct des risques lis au traitement


des donnes caractre personnel, les progrs importants qui peuvent en rsulter pour le traitement de
pathologies, loctroi de droits sociaux ou encore la protection de lenvironnement par exemple doivent tre mis
dans la balance.
Assurer la scurit des donnes
Au-del des rgles de traitement, se pose la question de
la scurit des outils utiliss pour traiter ces donnes.

Traiter les donnes administratives

Les masses de donnes sont gnralement stockes


dans des clouds (encadr 1). Toutefois, les crateurs de
ces technologies instaureraient rgulirement des backdoors54 leur permettant davoir accs lensemble des
donnes stockes. Ainsi, quelles que soient ces donnes,
elles seraient thoriquement accessibles par le fournisseur du service. De plus, le Patriot Act, mis en place aux
tats-Unis aprs les attentats du 11 septembre 2001,
accorde aux autorits amricaines le droit daccder
directement aux donnes cloud stockes sur les
serveurs des socits amricaines (ou des entreprises
trangres ayant des intrts conomiques dans le pays),
et ce quel que soit leur lieu d'implantation.

En ce qui concerne la collecte et le traitement des donnes


personnelles dont dispose ladministration, lindividu bnficie l encore du droit den tre inform et de donner son
consentement. Toutefois, dans le cadre des procdures
administratives, de nombreuses obligations lgales restreignent ses droits. Le consentement nest par exemple pas
requis lorsquune autorit administrative est lgalement
habilite obtenir, dans le cadre dune mission particulire
ou de lexercice dun droit de communication, la transmission directe dinformations par une autre autorit
administrative51. Lusager na alors aucun recours : cest
plutt la CNIL qui autorise en amont les changes.
Le consentement la transmission dinformations peut,
par ailleurs, tre difficile matriser : pour un patient, le
fait de remettre sa carte vitale un mdecin revient par
exemple consentir ce que ce dernier ait accs aux
donnes relatives lhistorique de ses remboursements52.
La transmission de donnes des personnes extrieures
ladministration nest en principe pas permise, mais des

Pour assurer la scurit de ces donnes personnelles,


alors que les principaux clouds utiliss en France sont
trangers et que le recours ces technologies de
stockage sest accru de 30 % en 201255, ltat franais
finance, hauteur de 150 millions deuros, deux clouds
computing nationaux dans le cadre dun partenariat

47. Levallois-Barth C. (2013), op. cit.


48. Ibid.
49. Dans un rapport publi en 2012, la Commission fdrale amricaine du commerce sest soucie de lessor de la profession dinformation broker. Elle demande entre autres
ce que les citoyens puissent avoir accs aux informations que ces vendeurs dinformations ont sur eux. Federal Trade Commission (2012), Protecting Consumer
Privacy in an Era of Rapid Change, mars.
50. http://www.zdnet.fr/actualites/data-brokers-aux-etats-unis-votre-vie-privee-est-en-vente-39789295.htm.
51. Article 6 de lordonnance du 8 dcembre 2005, loi Informatique et Liberts. Cluzel-Mtayer L. (2013), Les tlservices publics face au droit la confidentialit des
donnes, Revue franaise dadministration publique, n 146, 2013/2, p. 405-418.
52. Cluzel-Mtayer L. (2013), op. cit., p. 405-418.
53. Proxima mobile, disponible depuis mars 2010, est le portail des services aux citoyens sur terminal mobile. Cet outil permet didentifier des services dintrt gnral,
gratuits et sans publicit, accessibles sur terminaux mobiles, qui cherchent faciliter la vie quotidienne de tous les citoyens. Diverses applications pour smartphones,
dont une application du service des impts, sont par exemple disponibles partir de ce portail.
54. Les backdoors sont des points daccs confidentiel un systme dexploitation, un programme ou un service en ligne installs par le concepteur.
55. http://blog.markess.fr/2013/05/barometre-markess-des-prestataires-du-cloud-computing-2013.html.

LA Note DANALyse
11/2013

No 08

public-priv56. Il est essentiel de poursuivre ces initiatives, tout en sensibilisant les acteurs privs aux risques
sur les liberts et la vie prive57.

un autre niveau, la connaissance des comportements


permettra sans doute de crer des produits de consommation, mais aussi des produits culturels (tlsries,
cinma, etc.) ou des services correspondant, au plus
prs, aux attentes, aux gots et aux dsirs des individus62.
Des questions comme celle du libre choix se posent alors.

Pour protger les donnes, des recommandations de la


CNIL portent par ailleurs sur la scurit des systmes
dinformation et la gestion des risques lis au traitement
des donnes personnelles58. On vise protger les ordinateurs et les donnes stockes contre les intrusions, les
virus, ou les dommages causs aux donnes. Le projet de
rglement europen en cours dadoption vise aussi
mettre la charge des responsables de traitement informatique des obligations, comme celle de prendre en
compte la protection des donnes ds la conception des
systmes (privacy by design).

PROMOUVOIR LES BIG DATA


Dans le secteur priv
Les pays qui instaurent une stratgie nationale pour
encourager lanalyse des big data font figure dexception.
Les sommes investies par le secteur public (voir infra)
sont dailleurs minimes par rapport aux investissements
privs. Selon une enqute internationale ralise en
2012-2013 auprs de 1 217 entreprises ayant un chiffre
daffaires suprieur 1 milliard USD (759,6 millions
deuros), 643 entreprises ont eu une stratgie big data
en 2012 ; parmi celles-ci, 7 % ont investi au moins
500 millions USD (379,8 millions deuros) et 15 % au
moins 100 millions (75,9 millions deuros)63.

Concernant les changes dinformations entre administrations, des outils de scurisation sont mis disposition
par le Secrtariat gnral pour la modernisation de laction publique (SGMAP). Le Rfrentiel gnral de scurit
(RGS) veut scuriser, en fixant des rgles, les changes
lectroniques entre les usagers et les autorits administratives et entre les autorits administratives59. La Plateforme dchange de confiance (PEC) met, pour sa part, en
place un systme dintermdiation entre les administrations et les partenaires/usagers pour leur permettre de
communiquer en confiance.

Les tats-Unis sont sans doute le pays le plus avanc


en termes de stratgie big data. En mars 2012, ladministration amricaine a annonc un investissement de
200 millions USD (154 millions deuros) pour amliorer
les technologies (stockage, analyse, collecte des donnes), acclrer la recherche en science et en ingnierie,
renforcer la scurit nationale, transformer lenseignement et lapprentissage, et dvelopper une main-duvre
qualifie dans le secteur.

Protger les liberts individuelles


Certains usages des big data posent par ailleurs des
risques pour les liberts individuelles. Comme cela a t
dit plus haut, de nombreux tats amricains utilisent des
logiciels qui permettent de prdire les moments ou les
lieux o des crimes sont les plus mme dtre commis.
Cela signifie que les individus les plus susceptibles de
commettre un crime un moment et un lieu donns pourront sans doute tre identifis avec beaucoup de prcision60. Comment tirer profit de ces connaissances sans
mettre en pril les liberts individuelles ?

LIrlande aspire pour sa part devenir le pays de rfrence des technologies big data. Le Plan daction pour
lemploi de 2013 prvoit le dveloppement dune filire
big data depuis la formation de la main-duvre jusqu
la cration ou linstallation dentreprises. Sy ajoute un
investissement de 1 million deuros pour dvelopper un
centre de recherche dont les grandes orientations seront
dfinies par un consortium dentreprises prives.

En permettant de mieux anticiper les comportements,


mais aussi lapparition de maladies associes des profils gntiques, ces technologies pourraient aussi tre
utilises par les services de sant ou les compagnies
dassurance pour refuser des traitements ou des clients,
encadrer les comportements des assurs, etc.61. Quels
garde-fous mettre en place ?

De son ct, la Commission europenne a entre autres


mis en place le programme Big Data Public Private Forum
(2012). Sur une priode de vingt-six mois, 3 millions
deuros seront au total investis pour la cration dun
forum internet visant dfinir les grandes orientations en

56. Le projet de cloud public Andromde sest concrtis en 2012 au travers de la cration de Numergy et de Cloudwatt, deux socits nes de partenariats public-priv avec
SFR et Bull dun ct, et Orange et Thales de lautre.
57. Achiary A., Hamelin J. et Auverlot D. (2013), Cyberscurit, lurgence dagir, La note danalyse, Centre danalyse stratgique, n 324, mars.
58. Voir les guides de scurit sur la mthode de gestion des risques IL et sur le catalogue de mesures de scurit mettre en place, dits rcemment par la CNIL.
59. Premier ministre, ANSSI, ministre du Budget, des Comptes publics et de la Rforme de ltat (DGME), Rfrentiel gnral de scurit. Version 1.0 du 6 mai 2010.
60. Mayer-Schnberger V. et Cukier K(2013), op. cit., p. 157-163.
61. Reynaudi M. et Sauneron S. (2012), Mdecine prdictive : les balbutiements dun concept aux enjeux considrables, La note danalyse, Centre danalyse stratgique,
n 289, octobre.
62. Voir par exemple au sujet de la cration de sries tlvises : http://www.salon.com/2013/02/01/how_netflix_is_turning_viewers_into_puppets/.
63. Tata Consultancy Service (2013), The Emerging Big Returns on Big Data. A TCS 2013 Global Trend Study.
http://www.lesechos-conferences.fr/data/classes/produit_partenaire/fichier_5183_540.pdf.

www.strategie.gouv.fr

matire danalyse des big data au sein de lUnion europenne. Ce projet veut fournir une plateforme de discussion sur lmergence dune conomie de la donne pour
lindustrie, la recherche et les dcideurs politiques.

comptitivit et de cration de richesse, dautre part en


termes de relations stratgiques : il peut tre proccupant
que des acteurs trangers et/ou privs en sachent davantage que ltat franais quant aux habitudes de vie, aux
comportements, aux proccupations, etc. des citoyens.

La France est entre trs rcemment dans la course


lanalyse des big data. Dans le cadre des investissements
davenir, sept projets traitant des big data ont t slectionns pour recevoir 11,5 millions deuros, quatre autres
projets sont en cours dinstruction et un nouvel appel
projets devrait avoir lieu avant la fin de 2013. Les projets
financs rassemblent une grande diversit dacteurs :
concepteurs de systmes informatiques, diteurs de
logiciels, intgrateurs de technologies, laboratoires de
recherche et un nombre important de start-up. Les
retombes attendues sont multiples, touchant au marketing ou la recherche gntique.

Prcisons finalement que la demande en spcialistes de


lanalyse de donnes massives est en plein essor. Il
nexiste pas destimation nationale officielle, mais, titre
indicatif, linstitut Mc Kinsey Global estime que les besoins
en analyses de masses de donnes induiront, aux tatsUnis dici 2018, le recrutement de 140 000 190 000
spcialistes69.
Ces technologies ncessitent la matrise doutils mathmatiques et statistiques de trs haut niveau. Des comptences dans le domaine de linformatique, et notamment
en programmation, sont galement requises. lment
important, les spcialistes doivent pouvoir travailler main
dans la main avec les services commerciaux et avec les
gestionnaires, et tre au fait des rgles concernant la
scurit et le respect de la vie prive. Pour lheure, la
plupart des analystes de donnes massives ont suivi une
formation soit en informatique, soit en mathmatiquesstatistiques, puis se sont forms en autodidacte. Une premire formation de niveau master a toutefois ouvert ses
portes en septembre 2013 Paris70. Elle ne pourra cependant pas rpondre toute la demande et aux besoins.

En parallle, la ministre dlgue auprs du ministre du


Redressement productif charge des petites et moyennes
entreprises, de l'innovation et de lconomie numrique a
cr une mission ayant pour but de dfinir les grandes
orientations ncessaires lmergence dune filire big
data. Pour la priode 2013-2018, cette mission prconise
de crer un incubateur parisien avec un investissement
de 300 millions deuros provenant de fonds publicsprivs. Elle estime que la valeur gnre par cet investissement pourrait atteindre 2,8 milliards deuros et crer dix
mille emplois directs sur la priode64. Environ cent start-up
spcialises dans les applications big data doivent ainsi
tre finances. Plusieurs autres travaux insistent sur le
dveloppement de la filire en France. Citons le rapport de
la Commission innovation 2025 qui fait du dveloppement
des analyses big data lune des sept ambitions pour une
France innovante et dynamique65, mais aussi le rapport
La nouvelle France industrielle prsent par Arnaud
Montebourg en septembre 2013, qui dsigne les big data
comme lun des 34 plans prioritaires66.

Dans le secteur public


Bien quil soit difficile dapprhender lensemble des
usages amens se dvelopper, lanalyse des big data
est un atout important pour ladministration. Peu de pays
ont cependant mis en place des stratgies spcifiques en
la matire.
LAustralie fait figure dexception en voulant amliorer la
gestion et les services publics laide des analyses de
masses de donnes. Dans son plan stratgique concernant les Technologies de linformation et de la communication (TIC) pour la priode 2012-2015, le bureau de la
gestion de l'information du gouvernement prconise par
exemple dtablir un centre dexcellence pour lanalyse et
la gestion des big data rattach lensemble du gouvernement, ou encore de rendre les donnes accessibles
entre administrations.

La France investit galement dans le dveloppement


doutils spcifiques de stockage de donnes (voir supra)
ou encore dans la cration de moteurs de recherche
nationaux comme Quaero 67. La majorit des donnes
cres sur internet sont en effet dtenues par des entreprises trangres, et principalement tats-uniennes. En
France, la part de march de Google sur les moteurs de
recherche tait estime 90,9 % en avril 201368. Cette
situation est problmatique, dune part en termes de

Dautres pays, tel le Royaume-Uni, concentrent plutt


leurs efforts dans des secteurs spcifiques comme celui

64. http://www.afdel.fr/actualites/categorie/actualite-afdel/article/big-data-filiere-d-avenir-pour-la-france-les-propositions-de-l-afdel.
65. Commission innovation 2025 (2013), Un principe et sept ambitions pour linnovation, commission prside par Anne Lauvergeon, Paris, La Documentation franaise,
octobre.
66. Ministre du Redressement productif, La nouvelle France industrielle, Paris, 2013.
67. lorigine un projet franco-allemand, puis seulement franais.
68. http://www.atinternet.fr/documents/barometre-des-moteurs-avril-2013/.
69. McKinsey Global Institute (2011), Big Data. The Next Frontier for Innovation, Competition, and Productivity, 156 p.
70. Tlcom ParisTech.

10

LA Note DANALyse
11/2013

No 08

de la sant. Les pouvoirs publics doivent financer, hauteur de 90 millions de livres sterling (106 millions deuros), linstitut big data de luniversit dOxford. Cet institut
ralisera des analyses pour amliorer la dtection, la surveillance, le traitement et la prvention dun large ventail
de maladies.

Les responsables prvoient dintgrer ce dispositif des


outils informatiques permettant des analyses de type big
data71.
Bien que divers formats de donnes puissent tre croiss,
il est par ailleurs important de faire en sorte que les donnes soient le plus harmonises possible. Les donnes
rcoltes par deux administrations, des niveaux gographiques diffrents ou pour des temporalits variables,
ne seront par exemple pas ou difficilement compatibles.
Cette incompatibilit sexplique par le fait que les donnes
administratives ne sont gnralement pas recueillies
des fins danalyse, mais pour la gestion interne. Dans la
mesure du possible, une rflexion sur la compatibilit des
donnes entre administrations devrait tre mene.

En France, que ce soit au niveau de la conception, de la


mise en uvre ou de lvaluation des politiques publiques,
mais aussi dans la gestion quotidienne des administrations, les analyses empiriques sont globalement peu utilises. En ce sens, au-del des contraintes associes la
protection de donnes, lanalyse des big data ncessite
dinstaurer une culture de la donne qui fait encore
dfaut. Il existe ainsi des quantits normes de donnes
publiques qui ne sont pas valorises.
troitement lie ce manque de recours aux analyses
empiriques, la difficult pour les administrations est
dinvestir dans des technologies dont les retombes sont
difficilement chiffrables et dont la mise en uvre peut
savrer dlicate (contraintes juridiques, partage des
donnes entre administrations, etc.). Alors que les logiciels de type open source existent, des investissements
sont ncessaires pour normaliser les donnes, pour scuriser les changes, mais aussi pour recruter ou former
des analystes (voir supra).

coNcLusioN
Le nombre de donnes continue crotre et
les outils danalyse vont se perfectionner.
Sans prsager des futurs usages, lanalyse des
big data est sans aucun doute voue gagner en
importance, certains parlant mme de rvolution72.

Le peu de recours aux analyses de donnes dans la


gestion et la prise de dcision sexplique en partie par le
cloisonnement des donnes. Le partage dinformations
entre administrations et avec des acteurs externes est
indispensable pour donner plus de valeur lanalyse des
big data, la richesse des analyses rsidant essentiellement dans le rapprochement des donnes entre lesquelles on navait pas prsuppos de relations.

Loin dtre un simple effet de mode, lanalyse


permet de traiter des pathologies, de crer de
nouvelles technologies, daccrotre nos
connaissances, de prvenir des catastrophes,
dorganiser les services, etc. Dun autre ct,
lanalyse des donnes massives comporte
des risques lis au respect de la vie prive,
la confidentialit, au libre-arbitre, auxquels
il convient de rflchir ds maintenant73.

Pour encourager les changes, des normes de scurit


des changes ont cependant t mises en place (voir
supra). Des outils comme le Rfrentiel gnral dinteroprabili (RGI), qui fixe les rgles techniques permettant
dassurer linteroprabilit des systmes dinformation,
encouragent aussi le partage. Le mouvement dopen data
(encadr 1) doit par ailleurs contribuer ce dcloisonnement. Autre exemple, depuis 2010, le Centre daccs
scuris distant (CASD) donne accs, de faon trs
encadre, aux chercheurs (publics-privs) des donnes
individuelles (INSEE et Services statistiques ministriels).

Mots cls : masse de donnes, analyse, donnes


personnelles, administration lectronique, prdiction.

LA Note DANALyse
11/2013 - No 08

71. CNIL (2013), Workshop OpenCNIL Open Data, Paris, 4 juillet.


72. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 60.
73. Les auteurs tiennent remercier pour leur aide prcieuse : Agns Benassy-Qur et Antoine Bozio (Conseil dalayse conomique), Denis Berthault (LexisNexis),
Rmi Bilbault et Ruth Martinez (GFII), Pascal Caillerez (Dcideur public Systmes dinformation), Jean-Pierre Camilleri, Mehdi Benchoufi, Alexandre Bredimas et
Christian Delom (Club Jade), Christine Chambaz, Alain Folliet et Marie-Nolle Shabiague (CNAF), Stphan Clemenon (Telecom Paris Tech), Julien Damon (Sciences Po),
Bertrand Diard (Talend), Jol Hamelin et Antton Achiary (CGSP), Charles Huot (TEMIS), Mathieu Jacomy (Mdialab), Mathieu Jeandron et Annelise Massiera (DISIC),
Nadia Joubert, Philippe Louviau, Rmi Favier et Bruno Nicoulaud (DNLF), Maxime Lesur et Bernard Ourghanlian (Microsoft), Claire Levallois-Barth (Institut MinesTlcom), Andr Loth (DREES), Hammou Messatfa, Christophe Burgaud, David Kerr et Laura Haas (IBM), Philippe Niewbourg (Decideo), Judical Phan, Geoffrey Delcroix
et Delphine Carnel (CNIL), Vincent Poubelle (CNAV), Pascal Saubion et Jean-Paul Leroux (Orange), Henri Verdier (Etalab), Marie Zins et Marcel Goldberg (INSERM).

11

www.strategie.gouv.fr

DerNires
PuBLicAtioNs

coNsuLter
www.strategie.gouv.fr, rubrique publications

Retrouvez les dernires actualits


du Commissariat gnral
la stratgie et la prospective sur :

Notes danalyse :
N 01 g Un fonds europen pour lemploi des jeunes - Proposition
pour une initiative (juin 2013)

www.strategie.gouv.fr

N 02 g Internet : prospective 2030 (juin 2013)

CommissariatStrategieProspective

N 03 g Approvisionnements en mtaux critiques : un enjeu pour


la comptitivit des industries franaise et europenne ?
(juillet 2013)

N 04 g Les compagnies ariennes europennes sont-elles


mortelles ? Perspectives vingt ans (juillet 2013)
N 05 g Pour un secteur des semences diversifi et innovant
(octobre 2013)
N 06 g Intensifier et rorienter les transferts de technologies
bas carbone pour lutter contre le changement climatique
(octobre 2013)
N 07 g Doha, Varsovie, des confrences de transition vers un
accord climatique mondial en 2015 (octobre 2013)

La Note danalyse n 08 - novembre 2013 est une publication


du Commissariat gnral la stratgie et la prospective
Directeur de la publication :
Jean Pisani-Ferry, commissaire gnral
Directeur de la rdaction :
Herv Monange, adjoint au commissaire gnral
Secrtaires de rdaction : Delphine Gorges, Valrie Senn
Impression : Commissariat gnral
la stratgie et la prospective
Dpt lgal : novembre 2013 - N ISSN : 1760-5733
Contact presse : Jean-Michel Roull, responsable
de la communication - 01 42 75 61 37 / 06 46 55 38 38
jean-michel.roulle@strategie.gouv.fr

Cr par dcret du 22 avril 2013, le Commissariat gnral la stratgie et la prospective


se substitue au Centre danalyse stratgique. Lieu dchanges et de concertation,
le Commissariat gnral apporte son concours au Gouvernement pour la dtermination
des grandes orientations de lavenir de la nation et des objectifs moyen et long termes
de son dveloppement conomique, social, culturel et environnemental. Il contribue,
par ailleurs, la prparation des rformes dcides par les pouvoirs publics.

www.strategie.gouv.fr
Commissariat gnral la stratgie et la prospective - 18, rue de Martignac - 75700 Paris SP 07 - Tl. 01 42 75 60 00

Vous aimerez peut-être aussi