Vous êtes sur la page 1sur 12

LA Note DANALyse 11/2013

No 08
Marie-Pierre Hamel et David Marguerit,
dpartement Questions sociales

Analyse des big data


Quels usages, quels dfis ?
La multiplication croissante des donnes pro- Son dveloppement ncessite toutefois de bien
duites et le dveloppement doutils informatiques comprendre les enjeux qui y sont lis. C'est
permettant de les analyser offre dinnombrables l'objectif de cette note, qui s'attache dtailler ce
possibilits tant pour ltat que pour les entre- qu'est l'analyse des big data et prsente les usages
prises. Il ne fait aucun doute que le traitement de
possibles de ces technologies, qu'il s'agisse de
ces masses de donnes, ou big data, jouera un
rendre la gestion plus efficace, d'amliorer les
rle primordial dans la socit de demain, car il
services rendus ou de prvenir des phnomnes
trouve des applications dans des domaines aussi
nuisibles (pidmies, criminalit, etc.). Elle
varis que les sciences, le marketing, les services
expose les principales difficults associes ces
client, le dveloppement durable, les transports,
la sant, ou encore lducation. Par ailleurs, le usages : garantir la confidentialit et le respect

potentiel conomique de ce secteur est indnia- de la vie prive. Enfin, elle montre comment diff-

ble et les retombes en termes demploi et de rents pays et entreprises ont dores et dj investi

cration de richesse seront non ngligeables. dans ce secteur. g

www.strategie.gouv.fr
Les eNjeux DFINIR LANALYSE DES BIG DATA
Laccroissement des donnes produites par les Big data et 5 V
entreprises, les particuliers, les scientifiques et les Le volume de donnes numriques augmente de manire
acteurs publics, coupl au dveloppement doutils exponentielle : 90 % de lensemble des donnes
informatiques, offre de nouvelles perspectives aujourdhui disponibles ont t cres ces deux dernires
annes2. Alors que lon parlait il y a peu de gigaoctets
danalyses. Ces dernires ont des rpercussions
(109 octets), on parle maintenant plutt de traoctets
importantes en termes de cration demploi,
(10 12 octets), de ptaoctets (10 15 octets), dexaoctets
de recherche et dveloppement ou damlioration (1018 octets) et mme de zettaoctets (1021octets)3.
des services et de leur gestion1.
Cette note dfinit tout dabord ce quest lanalyse
des big data. Elle montre en quoi c'est un
phnomne nouveau et quelles volutions
sociales et techniques il est li.
Elle dtaille ensuite les usages et les possibilits
offertes par les analyses de masses de donnes et
leurs applications concrtes.
Puis elle sattache signaler les principaux risques
associs ces usages. Lanalyse des big data peut
engendrer des inquitudes du fait du croisement
d'un grand nombre de donnes. Ainsi, se pose la
question des conditions ncessaires au respect de
la vie prive et la scurit des donnes. Cette augmentation sexplique principalement par les
volutions techniques et dinfrastructures. Entre 1990
Enfin, cette note prsente les grandes stratgies et 2011, le pourcentage des utilisateurs dinternet et de
mises en uvre par le secteur priv et les tlphones mobiles au niveau mondial est pass respec-
gouvernements de diffrents pays et dtermine tivement de 0,05 % 32,7 %4 et de 0,21 % 85,5 %5.
quelles sont les conditions indispensables au Entre les troisimes trimestres de 2011 et de 2012,
dveloppement de lanalyse des big data. les ventes mondiales de tablettes numriques et de
smartphones ont pour leur part augment de 45,2 %6.
Ericsson prdit quil y aura 50 milliards dobjets connec-
ts (encadr 1) dans le monde dici 2020, contre
environ 12 milliards aujourdhui 7 . Le dveloppement
dapplications et de rseaux sociaux lis ces nouvelles
technologies explique aussi la cration de donnes.
Lavnement doutils comme le cloud computing (enca-
dr 1) permet par ailleurs de stocker des donnes
moindre cot. Globalement, le prix dun gigaoctet pour
un disque dur est pass denviron 16 USD (12,30 euros)
en fvrier 2000 0,10 USD (0,07 euros) en aot 20108.

1. World Economic Forum (2012), Big Data, Big Impact: New Possibilities for International Development.
2. Brasseur C. (2013), Enjeux et usages du big data. Technologies, mthodes et mises en uvre, Paris, Lavoisier, p. 30.
3. 1 traoctet reprsente par exemple 6 millions de livres, 1 ptaoctet reprsente 2 milliards de photos numriques de rsolution moyenne, et 1,8 zettaoctets reprsentent
toutes les informations enregistres en 2011.
4. Banque mondiale (2013), World Development Indicators.
5. Ibid.
6. IDC Press Release (2012), Smartphones Drive Third Quarter Growth in the Worldwide Mobile Phone Market, According to IDC, 25 octobre.
7. Ericsson White Paper (2011), More than 50 Billion Connected Devices.
8. http://ns1758.ca/winch/winchest.html.

2
LA Note DANALyse
11/2013
No 08

eNcADr 1. LMeNts De DfiNitioN capteurs installs sur des oliennes avec celles relatives
Big data : normes volumes de donnes structures et non la mto ou aux mares, il est possible doptimiser leur
structures, difficilement grables avec des solutions orientation en temps rel, de mieux prvoir les temps
classiques de stockage et de traitement9. Ces donnes de maintenance, etc. De la mme faon, des voitures
proviennent de sources diverses et sont (pour la plupart) autopilotes, communicantes entre elles et avec
produites en temps rel. lenvironnement, sont aussi en dveloppement pour
cloud computing : Dsigne des prestations distance viter les accidents (donnes venant de capteurs des
logiciels, stockage de donnes physiquement rparties voitures, de capteurs sous les routes, donnes de prvi-
dans des data centers10 et non pas sur le terminal de sion mto, donnes historiques/statistiques de densit
lutilisateur. de trafic, etc.)13.
Datamining : Ensemble de techniques ayant pour objet
Autre caractristique, les donnes analyses ne sont plus
lextraction dun savoir partir de grandes quantits de
forcment structures comme dans les analyses ant-
donnes, par des mthodes automatiques ou semi-
rieures, mais peuvent tre du texte, des images, du contenu
automatiques.
multimdia, des traces numriques, des objets connects,
internet des objets : Dsigne les objets connects
etc. (varit). Par exemple, alors quil nexistait aupara-
internet qui transmettent des donnes numriques par le
vant pas de systmes permettant d'analyser automati-
biais de puces radiofrquences (RFID). Ces objets peuvent
communiquer entre eux. On les retrouve dans la grande quement du texte, il est aujourdhui possible dtudier
distribution, dans les objets du quotidien (podomtres ltat de lopinion via les tweets (social medias analysis),
connects, domotique, compteurs lectriques intelligents), ou encore de proposer une aide au diagnostic en se
dans les avions, les voitures, dans le monde mdical, etc.11. basant sur la littrature mdicale (encadr 2).
open data : Processus douverture des donnes publiques Les acteurs du secteur mentionnent aussi la vracit ou
ou prives pour les rendre disponibles lensemble de la la qualit des donnes. Par exemple, comment l'analyste
population sans restriction juridique, technique ou peut-il sassurer que les donnes de rseaux sociaux
financire. Lopen data contribue laugmentation des comme Facebook ne sont pas des rumeurs ou des diffu-
donnes disponibles lanalyse. sions malveillantes ? En 2013, une information dun faux
compte Twitter a dgrad le cours de laction dune
Tout lintrt des masses de donnes ne rside pas uni- socit cote au NASDAQ. Le tweet a entran lchange
quement dans leur quantit. Le volume partir duquel il de 300 000 actions en deux minutes, et une baisse de
est possible de parler de big data ne fait dailleurs pas 25 % de la valeur de laction14. Autre exemple : un capteur
lunanimit. Lanalyse des big data comprend quatre dfectueux utilis dans un systme de conduite assiste
autres critres que lon retrouve de faon plus ou moins peut causer un accident.
simultane : vitesse, varit, vracit, valeur.
ces quatre V sajoute souvent un cinquime, qui dsigne
La vitesse rfre aux dlais dactualisation et danalyse la valeur quil est possible de tirer de ces donnes, les
des donnes numriques. Les donnes ne sont plus usages quelles produisent15.
traites en diffr, mais en temps rel (ou quasi rel).
Selon les cas, il est mme possible de ne plus stocker les Outils et mthodes
informations, mais de les analyser en flux (streaming). Pour rpondre aux besoins provenant dentreprises
Cette rapidit peut tre primordiale. Au Canada, en analy- comme Google ou Facebook, des logiciels capables de
sant en temps rel les informations sur ltat de sant de traiter de gigantesques volumes de donnes structures
bbs prmaturs avec un logiciel daide au diagnostic et non structures ont vu le jour, pour la plupart il y a
(encadr 2), des infections ont pu tre dtectes vingt- moins de cinq ans. Ces logiciels, souvent open source
quatre heures avant la manifestation de symptmes comme Hadoop, peuvent distribuer des donnes simulta-
visibles12. Autre exemple : en croisant les donnes de nment sur plusieurs serveurs. Dautres logiciels,

9. Brasseur C. (2013), op. cit., p. 30.


10. Data center : en franais, centre de traitement de donnes. Il sagit dun site physique sur lequel se trouvent regroups des quipements constituants du systme
dinformation dune entreprise ou dune institution, que ce stockage soit interne et/ou externe lentreprise, exploit ou non avec le soutien de prestataires.
11. Gille L. et Marchandise J.-F. (dir.) (2013), La dynamique dInternet. Prospective 2030, tude ralise pour le Commissariat la stratgie et la prospective, Paris, tudes, n 1.
12. Mayer-Schnberger V. et Cukier K. (2013), Big Data. A Revolution That Will Transform How We Live, Work, and Think, Boston, New York, Eamon Dolan, Houghton Mifflin
Harcourt, p. 60.
13. http://www.smartplanet.fr/smart-technology/fin-des-embouteillages-lautoroute-du-futur-plus-efficace-a-273-17768/.
14. http://talkingtechno.com/2013/02/26/un-faux-tweet-plombe-le-cours-de-bourse-dune-entreprise-le-web-et-la-folie-des-rumeurs/.
15. GFII (2012), Dossier de synthse de la journe dtude du GFII Big data : exploiter de grands volumes de donnes : quels enjeux pour les acteurs du march de
linformation et de la croissance ?.

3 www.strategie.gouv.fr
limage de MapReduce servent effectuer des calculs en dapprendre des diagnostics antrieurs, Watson propose
parallle avec ces donnes distribues. On bnficie ainsi un diagnostic. Ce dernier est valu selon une probabilit
de la puissance de calcul concomitante de multiples et le raisonnement est explicit.
serveurs banaliss en cluster (secteurs). Dautres applications sont envisages : dans les mtiers
du droit (tant donn limportance des lgislations,
Pour amliorer le traitement des donnes, les logiciels des rglementations, etc.), lanalyse de dossiers, le conseil
doivent tre capables de dtecter linformation intres- financier, etc.
sante : on parle alors de datamining 16 (encadr 1).
De plus, lanalyste utilise une mthode inductive et
La technologie big data est galement associe au dvelop-
non plus dductive : il cherche tablir des corrlations
pement de logiciels capables de rendre intelligibles les
entre plusieurs informations sans hypothses prdfi-
rsultats rendu possible par l'mergence de nouveaux
nies. Le projet BrainsSCANr a permis la fabrication dun
outils de visualisation (images, diagrammes, animations).
logiciel qui, en s'appuyant sur 3,5 millions de rsums
darticles scientifiques, fait automatiquement un lien
entre des parties du cerveau et certaines maladies. COMPRENDRE LE POTENTIEL
Les corrlations faibles sont les plus intressantes, car
DES ANALYSES DES BIG DATA
elles reprsentent celles qui nont pas souvent fait lobjet
de recherches. Ainsi, un lien entre migraine et stria- Simplifier et adapter les services
tum a t mis au jour, lordinateur ouvrant de lui-mme Lanalyse des big data permet tout dabord de mieux
une nouvelle piste de recherche17. couter les usagers, de mieux comprendre leurs modes
Les logiciels, volutifs, peuvent aussi apprhender dutilisation des services et daffiner loffre. Google
lenvironnement des donnes et apprendre des rsultats Analytics propose par exemple aux entreprises damlio-
antrieurs. On parle alors de machine learning ou dap- rer la conception de leur site internet par lanalyse des
prentissage automatique (encadr 2). visites des internautes. Ces applications ont aussi leur
utilit dans le secteur public.
eNcADr 2. WAtsoN-iBM Avec lducation en ligne (dont les Massive Open Online
Watson est un programme informatique dintelligence Courses MOOC), on peut analyser les activits des
artificielle conu par IBM dans le but de rpondre des
lves (temps consacr, faon de suivre les programmes,
questions formules en langage naturel. Pour dvelopper
ce programme, IBM sest donn un objectif ludique. arrt-retour dans les vidos pdagogiques, recherches
Il sagissait de remporter le jeu tlvis amricain Jeopardy! internet parallles, etc.) pour amliorer les modes den-
contre des champions. Ce jeu consiste en lnonc de seignement.
rponses pour lesquelles les candidats ont trouver les Dans le domaine des transports, on modlise les dplace-
questions correspondantes. Le programme informatique ments des populations pour adapter les infrastructures
doit pouvoir comprendre lnonc (en langage naturel) et et les services (horaires des trains, etc.). cette fin, les
trouver la question dans un temps de rflexion comparable
donnes provenant des pass de transports en commun,
celui des humains.
des vlos et des voitures communes, mais aussi de la
Ce programme dintelligence artificielle utilise le logiciel
Hadoop (voir supra) afin de parcourir une grande quantit golocalisation (donnes cellulaires et systmes de loca-
de contenus (200 millions de pages lors de sa victoire lisation par satellites) de personnes ou de voitures, sont
Jeopardy!) trs rapidement (en moins de trois secondes utilises.
pour Jeopardy!). Watson value la probabilit que la Dans un autre domaine, celui de la logistique, la suite
rponse quil trouve soit la bonne, rpondant seulement si du sisme qui sest produit en Hati en 2010, les mouve-
celle-ci est juge assez leve. ments de foule ont t analyss laide des donnes
IBM cherche maintenant commercialiser lutilisation de cellulaires pour faciliter la distribution de laide18. Toujours
Watson. Watson est par exemple utile dans le domaine du
en Hati, lpidmie de cholra qui sest dveloppe aprs
diagnostic mdical. En analysant les symptmes et les
le tremblement de terre a t mieux combattue grce
donnes mdicales fournis par un mdecin (en langage
naturel), et les connaissances emmagasines (dictionnaires ltude des dplacements des personnes contamines19.
mdicaux, littrature scientifique, tudes de cas, etc.), Autre exemple, les analyses peuvent faciliter la recherche
selon un modle de machine learning qui lui permet demploi. Il sagit de combiner les qualifications des indi-

16. Brasseur C. (2013), op. cit.


17. Fischmann S. (2013), Sciences et technologies de linformation et de la communication. Big data, partie 2 : le quatrime paradigme de la science, Bulletins lectroniques
tats-Unis, n 336, Ambassade de France aux tats-Unis / ADIT.
18. World Economic Forum (2012), op. cit., p. 5.
19. Ibid.

4
LA Note DANALyse
11/2013
No 08

vidus avec les offres demploi (issues des sites internet dconomiser des ressources23. Une entreprise peut, par
de type Le Bon Coin, des sites dentreprises, des sites exemple, suivre ses ventes en temps rel pour mieux rap-
administratifs, etc.). Les analyses permettent aussi provisionner ses stocks. De mme, une administration
didentifier les formations pertinentes, danticiper les publique peut suivre lactivit des agents, le versement de
reconversions, dadapter la recherche aux besoins du prestations, laccroissement des demandes, etc.
march20. Lentreprise Monster.fr utilise ainsi un logiciel, Les possibilits sont multiples et sappliquent une infi-
conu sur le modle dun site de rencontre, qui vise nit de secteurs. Le datamining (encadr 1) de masses de
trouver lemployeur idal en croisant les comptences, donnes est par exemple trs performant pour dtecter
mais aussi les affinits psychologiques, les caractris- les fraudes. En analysant quantit de donnes sur des
tiques des individus embauchs, etc. populations de fraudeurs, on dcouvrira certains profils
Lanalyse de masses de donnes permet galement de types qui ntaient pas visibles. Il est alors possible de
mieux comprendre les sentiments ou les besoins des mieux cibler les contrles (ladministration douanire fran-
citoyens. Pour la campagne de rlection de Barack aise commene utiliser ces technologies). Le traitement
Obama en 2012, les conseillers ont analys localement en temps rel permet aussi de lancer des alertes : lmis-
les messages sur Twitter pour adapter en direct le sion dune contravention pourrait par exemple permettre
discours du prsident. Autre exemple, en France, la mairie de dtecter quun individu en cong maladie ne devrait
de Toulouse a demand en 2013 la socit Apicube pas se trouver dans un dpartement diffrent de celui o
danalyser 1,6 million de documents (tweet, Facebook, il rside.
blogs, forums, etc.) pour mieux connatre les sujets de En matire dnergie et de dveloppement durable, les
proccupation des citoyens. Ces analyses ont toutefois systmes de compteurs intelligents (lectricit, gaz, eau)
leurs limites en termes de reprsentativit de la popu- rationalisent la consommation nergtique. En plus doffrir
lation. aux citoyens la possibilit de mieux contrler leur consom-
Elles permettent encore denvoyer un usager des mation, ils permettent de couper distance, avec laccord
informations sur des services publics ou privs suivant des clients, lalimentation dquipements pour viter les
lvolution, en temps quasi rel, de sa situation. On peut surcharges du rseau.
imaginer quune information fournie par un employeur De mme, en analysant les donnes provenant de cap-
dclenche loctroi dune prestation sociale ou en facilite teurs sur les avions et en les associant des donnes
le calcul21. mto, on modifie les couloirs ariens pour raliser des
Lamlioration des services publics passe aussi par conomies de carburant, on amliore la conception, la
la limitation des demandes de pices justificatives, maintenance des avions ou leur scurit24.
la majorit des informations se trouvant dj dans
Prdire et prvenir
les masses de donnes dtenues par les institutions
publiques. Au Royaume-Uni, pour les demandes de nou- Lanalyse des masses de donnes permet plus spcifi-
veaux permis, lagence en charge des permis de conduire quement danticiper, avec un certain degr de certitude,
et de limmatriculation des vhicules peut rcuprer les des comportements ou des besoins25. La socit Crito
photographies et les signatures ncessaires dans les vend, par exemple, des services de publicits cibles
donnes en ligne du service en charge des passeports (si sous forme de bannires affiches sur les sites consults.
le demandeur a un passeport)22. Les analyses permettent Il sagit danalyser une importante quantit dinforma-
galement de prremplir les formulaires administratifs en tions sur les habitudes de consommation des internautes
croisant les donnes. pour tablir des corrlations, et ainsi prvoir leurs achats.
De la mme faon, lenseigne amricaine Target parvient
Amliorer les performances gestionnaires identifier les femmes qui attendent un enfant pour leur
Les analyses de donnes massives peuvent accrotre proposer des produits pour nourrisson. cette fin, les
la transparence administrative, faciliter lvaluation analystes ont corrl des millions de donnes laide de
des services, assister la prise de dcision, ou permettre cartes de fidlit de femmes ouvrant une liste de cadeaux

20. TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 15.
21. Hamel M.-P. (2012), Fraude, indus, non-recours : comment faciliter le juste paiement des prestations sociales ?, La Note d'analyse, Centre danalyse stratgique,
n 306, novembre ; Hamel M.-P. (2013), Comment utiliser les technologies numriques pour poursuivre l'amlioration des relations entre l'administration et ses usagers ?,
La Note d'analyse, Centre danalyse stratgique, n 317, janvier.
22. Yiu C. (2012), The Big Data Opportunity: Making Government Faster, Smarter and More Personal, Policy Exchange, p. 13.
23. TechAmerica Foundation (2012), Demystifying Big Data: A Practical Guide To Transforming The Business of Government, p. 12 ; McKinsey Global Institute (2011), Big Data.
The Next Frontier for Innovation, Competition, and Productivity, 156 p.
24. Jouniaux P. (2013), Big data au service de la scurit du transport arien : lanalyse des donnes de vol, Tlcom, n 169, juillet.
25. ce sujet, voir Siegel E. (2013), Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons.

5 www.strategie.gouv.fr
de naissance. Ils ont observ quelles commenaient Les volontaires doivent rpondre annuellement un
acheter des crmes sans parfum environ trois mois de questionnaire et passer un examen de sant tous les cinq
grossesse, puis certains supplments alimentaires un ans. Ces donnes sont ensuite apparies tous les ans avec
stade de grossesse plus avanc. Ces profils de comporte- celles de la CNAMTS (SNIIRAM31 et PMSI32), de la CNAV
ments ont ensuite t tendus toute la clientle. Target (SNGC33) et de lINSERM (donnes sur les causes de dcs).
sest toutefois retrouv au cur dun scandale, un pre Lquipe de recherche souhaite intgrer ultrieurement
ayant dcouvert la grossesse de sa fille mineure parce dans la cohorte des donnes sous forme dimages, par
quelle recevait ces publicits cibles26. exemple des rsultats de rsonance magntique ou de
squenage du gnome. Le croisement des donnes sur
Dans le domaine de la sant, il est possible de mieux la squence dADN, les pathologies dclares et
prvenir certaines maladies ou pidmies, ou damliorer lenvironnement de vie (type de profession, lieu
le traitement des patients. En analysant les recherches dhabitation, etc.) permettra notamment damliorer la
des internautes sur Google, une quipe est parvenue comprhension des mcanismes de lpigntique34.
dtecter plus rapidement larrive des pidmies de
grippe27. Autre exemple, en sintressant aux donnes La prvention des crimes est lune des applications pos-
disponibles sur Facebook, des chercheurs ont dtect les sibles de lanalyse des masses de donnes. La police et
adolescents ayant des comportements risque pour luniversit de Memphis ont dvelopp un programme
cibler les campagnes de prvention28. (Blue Crush), maintenant utilis par de nombreuses villes,
Les technologies associes aux big data permettent aussi qui permet didentifier les zones et les heures o des
des avances spectaculaires dans lanalyse du gnome dlits sont le plus mme davoir lieu, afin doptimiser
humain. Alors quil a fallu dix ans et 3 milliards USD laffectation des services35.
(2,3 milliards deuros) pour raliser le premier squen- De la mme faon, la ville de New York a dvelopp un
age humain complet, il est maintenant possible den systme pour dtecter les logements o des incendies
raliser un en quelques jours et pour environ 1 000 USD sont le plus susceptibles de se produire (squats, taudis,
(760 euros)29. Ces connaissances, couples dautres appartements surpeupls, dcoups en plusieurs lots,
informations, permettent de mieux comprendre lvolu- ne respectant pas les rgles de scurit). Il sagit de
tion de pathologies, damliorer les mesures de prven- croiser quantit de donnes issues de diffrents services
tion ou encore les protocoles de soins (encadr 3). et agences municipaux portant sur les cinq dernires
annes : informations sur les logements, procdures
eNcADr 3. coHorte coNstANces
dexpulsion, impays de gaz, dlectricit, de taxes muni-
La cohorte Constances est une enqute pidmiologique cipales, visites dambulance, taux de criminalit, histo-
ayant pour objectif de suivre long terme un chantillon
rique des incendies, etc. En appliquant des techniques de
reprsentatif de 200 000 personnes affilies au rgime
datamining ces masses de donnes, on dtermine des
gnral de la Scurit sociale30. Elle est mene en
partenariat par lInstitut national de la sant et de la profils types de plaintes reues sur la hotline de la ville
recherche mdicale (INSERM), luniversit Versailles-Saint ( propos de nuisances sonores, de troubles du voisinage,
Quentin, la Caisse nationale dassurance maladie des sur des suroccupations prsumes). Lors de contrles,
travailleurs salaris (CNAMTS), et la Caisse nationale ces profils sont le plus susceptibles de dboucher sur la
dassurance vieillesse (CNAV), avec le soutien du ministre dtection de logements o les normes de scurit ne sont
de la Sant. pas respectes. Avant les analyses, 13 % des inspections
Les personnes enqutes, ges de 18 69 ans donnaient finalement lieu des vacuations pour des
linclusion, ont t slectionnes par tirage au sort. raisons de scurit, contre environ 70 % aujourdhui36.

26. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 58.


27. Ginsberg J. et al. ( 2009), Detecting influenza epidemics using search engine query data, Nature, n 457, p. 1012-1014.
28. Moreno M. et al. (2012), Associations between displayed alcohol references on facebook and problem drinking among college students, Archives of Pediatrics &
Adolescent Medicine, 166(2), p. 157-163.
29. Fischmann S. (2013) op. cit.
30. http://www.constances.fr/fr/.
31. Le Systme national d'informations inter rgimes d'assurance maladie (SNIIRAM) donne des informations sur les remboursements de lassurance maladie aux
particuliers.
32. Le Programme de mdicalisation des systmes dinformation (PMSI) : il renseigne les sjours hospitaliers des patients des fins de remboursements.
33. Le Systme national de gestion des carrires (SNGC) regroupe les informations sur la carrire des assurs : salaires, emplois occups, cong maternit, invalidit,
chmage, etc.
34. Lpigntique est lexpression diffrencie des gnes en fonction de lenvironnement. En dautres termes, deux personnes porteuses dun mme gne peuvent, ou non,
dvelopper une maladie selon linfluence de lenvironnement sur ce gne.
35. http://www.memphispolice.org/blue%20crush.htm.
36. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 185-189.

6
LA Note DANALyse
11/2013
No 08

PRENDRE EN COMPTE LES RISQUES La loi Informatique et Liberts prcise par ailleurs
que ces donnes personnelles doivent tre collectes
Le dveloppement de lanalyse de masses de donnes
et traites pour des finalits dtermines, explicites et
doit saccompagner dun questionnement relatif la pro-
lgitimes. Seules les donnes pertinentes pour un usage
tection des donnes. Le rcent scandale Prism sur la
dfini peuvent donc tre collectes. Leur dure de
transmission de donnes dutilisateurs dinternet des
conservation ne doit pas excder le temps ncessaire
fins de surveillance entre des compagnies comme
latteinte des objectifs pour lesquels elles sont collectes
Google, Yahoo !, Microsoft, Apple, Aol, You Tube, Skype,
(pass ce dlai, prvaut le droit loubli ou lobligation
Paltalk ou Facebook et les services de renseignements
amricains (National Security Agency) a dailleurs donn de destruction des donnes). Mme si les donnes ne
une attention considrable cette problmatique et sont pas enregistres mais traites en temps rel, la loi
pourrait avoir de lourdes consquences pour le secteur37. sapplique.
Dans le cadre des dbats europens sur le projet de
Respecter la vie prive
rglement europen du 25 janvier 2012, la position de la
Traiter les donnes caractre personnel Commission est que la finalit de lutilisation des donnes
En France, lusage des donnes caractre personnel est personnelles devrait tre clairement tablie. Avec lana-
rglement par la loi Informatique et Liberts38. Dans lyse des big data, il est cependant difficile danticiper quel
sa version modifie, cette loi transpose directement la usage il en sera fait. La collecte cible et le principe
directive europenne de 1995 relative la protection des de suppression entrent par ailleurs en contradiction avec
donnes que le projet de rglement europen du 25 jan- la ncessit dun volume de donnes le plus important
vier 2012 doit rviser39. Pour la loi, la donne personnelle possible43.
concerne toutes les informations relatives une personne
physique identifie ou qui peut tre identifie par des La loi Informatique et Liberts reconnat aussi le droit
lments qui lui sont propres. dtre inform de la collecte et de lutilisation des donnes,
et en particulier de la finalit du traitement, de lidentit
Pour dterminer si une personne est identifiable, tous les
du responsable du traitement ou des destinataires des
moyens auxquels lanalyste peut avoir accs sont pris
donnes et des droits dont ils disposent (des droits
en considration. Beaucoup de donnes peuvent alors
daccs, de rectification, dopposition peuvent tre exer-
permettre cette identification comme un numro de
cs pour motif lgitime)44. Selon le mme principe, la
tlphone, des donnes de golocalisation ou une
Commission europenne veut demander un consente-
adresse IP , et surtout lorsquelles sont combines
ment explicite par type de donnes. La lgislation est
dautres40. Leur utilisation peut aussi se faire la suite
dune anonymisation qui suppose de dtruire le lien entre cependant allge lorsque les donnes collectes sont
linformation et lidentit. trs vite anonymises. Le consentement, lorsquil est
requis par la loi, est en tout cas suppos offrir la per-
Cependant, compte tenu des possibilits de croisement sonne un pouvoir. Il dsigne toute manifestation de
des donnes permises par lanalyse des big data, cette
volont libre, spcifique ou informe45.
anonymisation est quasiment impossible obtenir. Toutes
les donnes doivent-elles pour autant tre considres Selon la CNIL et pour plusieurs autorits europennes de
comme personnelles41 ? Leur utilisation tant souvent fort protection des donnes personnelles, cette autorisation
utile, comme dans le champ de la sant, cette voie serait donne dans un contexte spcifique ne correspond
contreproductive si elle conduisait empcher toute pas aux pratiques actuelles de Google. On reproche ainsi
exploitation de donnes imparfaitement anonymises. lentreprise un manque de transparence et dinforma-
Lanonymisation a, en tout cas, le mrite de compliquer la tion envers les usagers concernant lutilisation de leurs
tche de ceux qui seraient mal intentionns42. donnes et la matrise de celles-ci46.

37. http://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/.
38. Loi 78-17 du 6 janvier 1978 modifie.
39. Directive 95/46/CE du Parlement europen et du Conseil, du 24 octobre 1995, relative la protection des personnes physiques lgard du traitement des donnes
caractre personnel et la libre circulation de ces donnes, JOCE n L 281 du 23/11/1995, p. 31. Proposition de rglement du Parlement europen et du Conseil relatif la
protection des personnes physiques lgard du traitement des donnes caractre personnel et la libre circulation de ces donnes (rglement gnral sur la
protection des donnes), Bruxelles, le 25 janvier 2012, COM(2012) 11 final, 2012/0011 (COD).
40. Levallois-Barth C. (2013), Big data et protection des donnes personnelles : un dfi (quasi) impossible ?, Tlcom, n 169, juillet.
41. ce sujet, voir le premier cahier Innovation et prospective de la CNIL, Vie prive lhorizon 2020, p. 32-33.
42. Levallois-Barth C. (2013), op. cit.
43. Ibid.
44. Pas de motif lgitime invoquer dans le cadre de la prospection commerciale.
45. Levallois-Barth C. (2013), op. cit.
46. CNIL, Dcision n 2013-025 du 10 juin 2013 de la prsidente de la CNIL mettant en demeure la socit GOOGLE INC.

7 www.strategie.gouv.fr
Mme sil est explicitement demand, le consentement exceptions apparaissent, comme laccs des donnes
peut tre biais ou manipul la personne pouvant tre de golocalisation lorsquun usager utilise des services
pousse le donner47. Cependant, dans certains cas, par comme Proxima mobile53. Ladministration peut aussi
exemple pour dtecter plus rapidement des pidmies, le dans certains cas spcifiques prvus par une loi ven-
champ du consentement pourrait tre largi aux fins de dre des donnes, comme les donnes de carte grise,
lintrt gnral48. sauf opposition de lautomobiliste qui peut cocher (sil la
La question du consentement rejoint celle du dtenteur de remarque) une case sur son certificat de demande. Int-
la donne. Qui peut avoir accs aux donnes disponibles ressants dans le cadre des big data, certains de ces
sur Internet, comme les donnes publiques des rseaux usages refltent une moins bonne prise en compte de la
sociaux ? Dabord gratuites, la plupart sont maintenant protection des donnes personnelles par ladministration.
payantes et constituent lactif principal dentreprises La CNIL rflchit aux rglementations qui pourraient
comme Facebook ou Google, do leur opposition la encadrer les analyses.
lgislation europenne. Alors que les organisations pro- Plus gnralement, ct des risques lis au traitement
duisaient et utilisaient jusqu maintenant leurs propres des donnes caractre personnel, les progrs impor-
donnes, des data brokers revendent aujourdhui les don- tants qui peuvent en rsulter pour le traitement de
nes dentreprises ou encore de ltat divers acteurs49. pathologies, loctroi de droits sociaux ou encore la protec-
On estime ainsi que la socit amricaine Acxiom, sp- tion de lenvironnement par exemple doivent tre mis
cialise dans le recueil et la vente dinformations, et qui a dans la balance.
dgag un revenu de 1,15 milliard de dollars en 2012,
possderait en moyenne 1 500 donnes sur 700 millions Assurer la scurit des donnes
dindividus dans le monde50. Au-del des rgles de traitement, se pose la question de
la scurit des outils utiliss pour traiter ces donnes.
Traiter les donnes administratives
En ce qui concerne la collecte et le traitement des donnes Les masses de donnes sont gnralement stockes
personnelles dont dispose ladministration, lindividu bn- dans des clouds (encadr 1). Toutefois, les crateurs de
ficie l encore du droit den tre inform et de donner son ces technologies instaureraient rgulirement des back-
consentement. Toutefois, dans le cadre des procdures doors54 leur permettant davoir accs lensemble des
administratives, de nombreuses obligations lgales restrei- donnes stockes. Ainsi, quelles que soient ces donnes,
gnent ses droits. Le consentement nest par exemple pas elles seraient thoriquement accessibles par le fournis-
requis lorsquune autorit administrative est lgalement seur du service. De plus, le Patriot Act, mis en place aux
habilite obtenir, dans le cadre dune mission particulire tats-Unis aprs les attentats du 11 septembre 2001,
ou de lexercice dun droit de communication, la trans- accorde aux autorits amricaines le droit daccder
mission directe dinformations par une autre autorit directement aux donnes cloud stockes sur les
administrative51. Lusager na alors aucun recours : cest serveurs des socits amricaines (ou des entreprises
plutt la CNIL qui autorise en amont les changes. trangres ayant des intrts conomiques dans le pays),
Le consentement la transmission dinformations peut, et ce quel que soit leur lieu d'implantation.
par ailleurs, tre difficile matriser : pour un patient, le Pour assurer la scurit de ces donnes personnelles,
fait de remettre sa carte vitale un mdecin revient par alors que les principaux clouds utiliss en France sont
exemple consentir ce que ce dernier ait accs aux trangers et que le recours ces technologies de
donnes relatives lhistorique de ses remboursements52. stockage sest accru de 30 % en 201255, ltat franais
La transmission de donnes des personnes extrieures finance, hauteur de 150 millions deuros, deux clouds
ladministration nest en principe pas permise, mais des computing nationaux dans le cadre dun partenariat

47. Levallois-Barth C. (2013), op. cit.


48. Ibid.
49. Dans un rapport publi en 2012, la Commission fdrale amricaine du commerce sest soucie de lessor de la profession dinformation broker. Elle demande entre autres
ce que les citoyens puissent avoir accs aux informations que ces vendeurs dinformations ont sur eux. Federal Trade Commission (2012), Protecting Consumer
Privacy in an Era of Rapid Change, mars.
50. http://www.zdnet.fr/actualites/data-brokers-aux-etats-unis-votre-vie-privee-est-en-vente-39789295.htm.
51. Article 6 de lordonnance du 8 dcembre 2005, loi Informatique et Liberts. Cluzel-Mtayer L. (2013), Les tlservices publics face au droit la confidentialit des
donnes, Revue franaise dadministration publique, n 146, 2013/2, p. 405-418.
52. Cluzel-Mtayer L. (2013), op. cit., p. 405-418.
53. Proxima mobile, disponible depuis mars 2010, est le portail des services aux citoyens sur terminal mobile. Cet outil permet didentifier des services dintrt gnral,
gratuits et sans publicit, accessibles sur terminaux mobiles, qui cherchent faciliter la vie quotidienne de tous les citoyens. Diverses applications pour smartphones,
dont une application du service des impts, sont par exemple disponibles partir de ce portail.
54. Les backdoors sont des points daccs confidentiel un systme dexploitation, un programme ou un service en ligne installs par le concepteur.
55. http://blog.markess.fr/2013/05/barometre-markess-des-prestataires-du-cloud-computing-2013.html.

8
LA Note DANALyse
11/2013
No 08

public-priv56. Il est essentiel de poursuivre ces initia- un autre niveau, la connaissance des comportements
tives, tout en sensibilisant les acteurs privs aux risques permettra sans doute de crer des produits de consom-
sur les liberts et la vie prive57. mation, mais aussi des produits culturels (tlsries,
Pour protger les donnes, des recommandations de la cinma, etc.) ou des services correspondant, au plus
CNIL portent par ailleurs sur la scurit des systmes prs, aux attentes, aux gots et aux dsirs des individus62.
dinformation et la gestion des risques lis au traitement Des questions comme celle du libre choix se posent alors.
des donnes personnelles58. On vise protger les ordi-
nateurs et les donnes stockes contre les intrusions, les
virus, ou les dommages causs aux donnes. Le projet de
PROMOUVOIR LES BIG DATA
rglement europen en cours dadoption vise aussi Dans le secteur priv
mettre la charge des responsables de traitement infor-
Les pays qui instaurent une stratgie nationale pour
matique des obligations, comme celle de prendre en
encourager lanalyse des big data font figure dexception.
compte la protection des donnes ds la conception des
Les sommes investies par le secteur public (voir infra)
systmes (privacy by design).
sont dailleurs minimes par rapport aux investissements
Concernant les changes dinformations entre adminis- privs. Selon une enqute internationale ralise en
trations, des outils de scurisation sont mis disposition 2012-2013 auprs de 1 217 entreprises ayant un chiffre
par le Secrtariat gnral pour la modernisation de lac- daffaires suprieur 1 milliard USD (759,6 millions
tion publique (SGMAP). Le Rfrentiel gnral de scurit deuros), 643 entreprises ont eu une stratgie big data
(RGS) veut scuriser, en fixant des rgles, les changes en 2012 ; parmi celles-ci, 7 % ont investi au moins
lectroniques entre les usagers et les autorits adminis- 500 millions USD (379,8 millions deuros) et 15 % au
tratives et entre les autorits administratives59. La Plate- moins 100 millions (75,9 millions deuros)63.
forme dchange de confiance (PEC) met, pour sa part, en
Les tats-Unis sont sans doute le pays le plus avanc
place un systme dintermdiation entre les administra-
en termes de stratgie big data. En mars 2012, ladminis-
tions et les partenaires/usagers pour leur permettre de
tration amricaine a annonc un investissement de
communiquer en confiance.
200 millions USD (154 millions deuros) pour amliorer
Protger les liberts individuelles les technologies (stockage, analyse, collecte des don-
nes), acclrer la recherche en science et en ingnierie,
Certains usages des big data posent par ailleurs des
renforcer la scurit nationale, transformer lenseigne-
risques pour les liberts individuelles. Comme cela a t
ment et lapprentissage, et dvelopper une main-duvre
dit plus haut, de nombreux tats amricains utilisent des
qualifie dans le secteur.
logiciels qui permettent de prdire les moments ou les
lieux o des crimes sont les plus mme dtre commis. LIrlande aspire pour sa part devenir le pays de rf-
Cela signifie que les individus les plus susceptibles de rence des technologies big data. Le Plan daction pour
commettre un crime un moment et un lieu donns pour- lemploi de 2013 prvoit le dveloppement dune filire
ront sans doute tre identifis avec beaucoup de prci- big data depuis la formation de la main-duvre jusqu
sion60. Comment tirer profit de ces connaissances sans la cration ou linstallation dentreprises. Sy ajoute un
mettre en pril les liberts individuelles ? investissement de 1 million deuros pour dvelopper un
centre de recherche dont les grandes orientations seront
En permettant de mieux anticiper les comportements,
dfinies par un consortium dentreprises prives.
mais aussi lapparition de maladies associes des pro-
fils gntiques, ces technologies pourraient aussi tre De son ct, la Commission europenne a entre autres
utilises par les services de sant ou les compagnies mis en place le programme Big Data Public Private Forum
dassurance pour refuser des traitements ou des clients, (2012). Sur une priode de vingt-six mois, 3 millions
encadrer les comportements des assurs, etc.61. Quels deuros seront au total investis pour la cration dun
garde-fous mettre en place ? forum internet visant dfinir les grandes orientations en

56. Le projet de cloud public Andromde sest concrtis en 2012 au travers de la cration de Numergy et de Cloudwatt, deux socits nes de partenariats public-priv avec
SFR et Bull dun ct, et Orange et Thales de lautre.
57. Achiary A., Hamelin J. et Auverlot D. (2013), Cyberscurit, lurgence dagir, La note danalyse, Centre danalyse stratgique, n 324, mars.
58. Voir les guides de scurit sur la mthode de gestion des risques IL et sur le catalogue de mesures de scurit mettre en place, dits rcemment par la CNIL.
59. Premier ministre, ANSSI, ministre du Budget, des Comptes publics et de la Rforme de ltat (DGME), Rfrentiel gnral de scurit. Version 1.0 du 6 mai 2010.
60. Mayer-Schnberger V. et Cukier K(2013), op. cit., p. 157-163.
61. Reynaudi M. et Sauneron S. (2012), Mdecine prdictive : les balbutiements dun concept aux enjeux considrables, La note danalyse, Centre danalyse stratgique,
n 289, octobre.
62. Voir par exemple au sujet de la cration de sries tlvises : http://www.salon.com/2013/02/01/how_netflix_is_turning_viewers_into_puppets/.
63. Tata Consultancy Service (2013), The Emerging Big Returns on Big Data. A TCS 2013 Global Trend Study.
http://www.lesechos-conferences.fr/data/classes/produit_partenaire/fichier_5183_540.pdf.

9 www.strategie.gouv.fr
matire danalyse des big data au sein de lUnion euro- comptitivit et de cration de richesse, dautre part en
penne. Ce projet veut fournir une plateforme de discus- termes de relations stratgiques : il peut tre proccupant
sion sur lmergence dune conomie de la donne pour que des acteurs trangers et/ou privs en sachent davan-
lindustrie, la recherche et les dcideurs politiques. tage que ltat franais quant aux habitudes de vie, aux
La France est entre trs rcemment dans la course comportements, aux proccupations, etc. des citoyens.
lanalyse des big data. Dans le cadre des investissements Prcisons finalement que la demande en spcialistes de
davenir, sept projets traitant des big data ont t slec- lanalyse de donnes massives est en plein essor. Il
tionns pour recevoir 11,5 millions deuros, quatre autres nexiste pas destimation nationale officielle, mais, titre
projets sont en cours dinstruction et un nouvel appel indicatif, linstitut Mc Kinsey Global estime que les besoins
projets devrait avoir lieu avant la fin de 2013. Les projets en analyses de masses de donnes induiront, aux tats-
financs rassemblent une grande diversit dacteurs : Unis dici 2018, le recrutement de 140 000 190 000
concepteurs de systmes informatiques, diteurs de spcialistes69.
logiciels, intgrateurs de technologies, laboratoires de Ces technologies ncessitent la matrise doutils math-
recherche et un nombre important de start-up. Les matiques et statistiques de trs haut niveau. Des comp-
retombes attendues sont multiples, touchant au marke- tences dans le domaine de linformatique, et notamment
ting ou la recherche gntique. en programmation, sont galement requises. lment
En parallle, la ministre dlgue auprs du ministre du important, les spcialistes doivent pouvoir travailler main
Redressement productif charge des petites et moyennes dans la main avec les services commerciaux et avec les
entreprises, de l'innovation et de lconomie numrique a gestionnaires, et tre au fait des rgles concernant la
cr une mission ayant pour but de dfinir les grandes scurit et le respect de la vie prive. Pour lheure, la
orientations ncessaires lmergence dune filire big plupart des analystes de donnes massives ont suivi une
data. Pour la priode 2013-2018, cette mission prconise formation soit en informatique, soit en mathmatiques-
de crer un incubateur parisien avec un investissement statistiques, puis se sont forms en autodidacte. Une pre-
de 300 millions deuros provenant de fonds publics- mire formation de niveau master a toutefois ouvert ses
privs. Elle estime que la valeur gnre par cet investis- portes en septembre 2013 Paris70. Elle ne pourra cepen-
sement pourrait atteindre 2,8 milliards deuros et crer dix dant pas rpondre toute la demande et aux besoins.
mille emplois directs sur la priode64. Environ cent start-up
Dans le secteur public
spcialises dans les applications big data doivent ainsi
tre finances. Plusieurs autres travaux insistent sur le Bien quil soit difficile dapprhender lensemble des
dveloppement de la filire en France. Citons le rapport de usages amens se dvelopper, lanalyse des big data
la Commission innovation 2025 qui fait du dveloppement est un atout important pour ladministration. Peu de pays
des analyses big data lune des sept ambitions pour une ont cependant mis en place des stratgies spcifiques en
France innovante et dynamique65, mais aussi le rapport la matire.
La nouvelle France industrielle prsent par Arnaud LAustralie fait figure dexception en voulant amliorer la
Montebourg en septembre 2013, qui dsigne les big data gestion et les services publics laide des analyses de
comme lun des 34 plans prioritaires66. masses de donnes. Dans son plan stratgique concer-
La France investit galement dans le dveloppement nant les Technologies de linformation et de la communi-
doutils spcifiques de stockage de donnes (voir supra) cation (TIC) pour la priode 2012-2015, le bureau de la
ou encore dans la cration de moteurs de recherche gestion de l'information du gouvernement prconise par
nationaux comme Quaero 67. La majorit des donnes exemple dtablir un centre dexcellence pour lanalyse et
cres sur internet sont en effet dtenues par des entre- la gestion des big data rattach lensemble du gouver-
prises trangres, et principalement tats-uniennes. En nement, ou encore de rendre les donnes accessibles
France, la part de march de Google sur les moteurs de entre administrations.
recherche tait estime 90,9 % en avril 201368. Cette Dautres pays, tel le Royaume-Uni, concentrent plutt
situation est problmatique, dune part en termes de leurs efforts dans des secteurs spcifiques comme celui

64. http://www.afdel.fr/actualites/categorie/actualite-afdel/article/big-data-filiere-d-avenir-pour-la-france-les-propositions-de-l-afdel.
65. Commission innovation 2025 (2013), Un principe et sept ambitions pour linnovation, commission prside par Anne Lauvergeon, Paris, La Documentation franaise,
octobre.
66. Ministre du Redressement productif, La nouvelle France industrielle, Paris, 2013.
67. lorigine un projet franco-allemand, puis seulement franais.
68. http://www.atinternet.fr/documents/barometre-des-moteurs-avril-2013/.
69. McKinsey Global Institute (2011), Big Data. The Next Frontier for Innovation, Competition, and Productivity, 156 p.
70. Tlcom ParisTech.

10
LA Note DANALyse
11/2013
No 08

de la sant. Les pouvoirs publics doivent financer, hau- Les responsables prvoient dintgrer ce dispositif des
teur de 90 millions de livres sterling (106 millions deu- outils informatiques permettant des analyses de type big
ros), linstitut big data de luniversit dOxford. Cet institut data71.
ralisera des analyses pour amliorer la dtection, la sur- Bien que divers formats de donnes puissent tre croiss,
veillance, le traitement et la prvention dun large ventail il est par ailleurs important de faire en sorte que les don-
de maladies. nes soient le plus harmonises possible. Les donnes
En France, que ce soit au niveau de la conception, de la rcoltes par deux administrations, des niveaux gogra-
mise en uvre ou de lvaluation des politiques publiques, phiques diffrents ou pour des temporalits variables,
mais aussi dans la gestion quotidienne des administra- ne seront par exemple pas ou difficilement compatibles.
tions, les analyses empiriques sont globalement peu utili- Cette incompatibilit sexplique par le fait que les donnes
ses. En ce sens, au-del des contraintes associes la administratives ne sont gnralement pas recueillies
protection de donnes, lanalyse des big data ncessite des fins danalyse, mais pour la gestion interne. Dans la
dinstaurer une culture de la donne qui fait encore mesure du possible, une rflexion sur la compatibilit des
dfaut. Il existe ainsi des quantits normes de donnes donnes entre administrations devrait tre mene.
publiques qui ne sont pas valorises.
troitement lie ce manque de recours aux analyses
empiriques, la difficult pour les administrations est
dinvestir dans des technologies dont les retombes sont
difficilement chiffrables et dont la mise en uvre peut
coNcLusioN
savrer dlicate (contraintes juridiques, partage des
Le nombre de donnes continue crotre et
donnes entre administrations, etc.). Alors que les logi-
les outils danalyse vont se perfectionner.
ciels de type open source existent, des investissements
Sans prsager des futurs usages, lanalyse des
sont ncessaires pour normaliser les donnes, pour scu-
riser les changes, mais aussi pour recruter ou former big data est sans aucun doute voue gagner en
des analystes (voir supra). importance, certains parlant mme de rvolution72.
Le peu de recours aux analyses de donnes dans la Loin dtre un simple effet de mode, lanalyse
gestion et la prise de dcision sexplique en partie par le permet de traiter des pathologies, de crer de
cloisonnement des donnes. Le partage dinformations nouvelles technologies, daccrotre nos
entre administrations et avec des acteurs externes est connaissances, de prvenir des catastrophes,
indispensable pour donner plus de valeur lanalyse des
dorganiser les services, etc. Dun autre ct,
big data, la richesse des analyses rsidant essentielle-
lanalyse des donnes massives comporte
ment dans le rapprochement des donnes entre les-
quelles on navait pas prsuppos de relations.
des risques lis au respect de la vie prive,
la confidentialit, au libre-arbitre, auxquels
Pour encourager les changes, des normes de scurit
il convient de rflchir ds maintenant73.
des changes ont cependant t mises en place (voir
supra). Des outils comme le Rfrentiel gnral dinter- Mots cls : masse de donnes, analyse, donnes
oprabili (RGI), qui fixe les rgles techniques permettant personnelles, administration lectronique, prdiction.
dassurer linteroprabilit des systmes dinformation,
encouragent aussi le partage. Le mouvement dopen data LA Note DANALyse
(encadr 1) doit par ailleurs contribuer ce dcloisonne- 11/2013 - No 08

ment. Autre exemple, depuis 2010, le Centre daccs


scuris distant (CASD) donne accs, de faon trs
encadre, aux chercheurs (publics-privs) des donnes
individuelles (INSEE et Services statistiques ministriels).

71. CNIL (2013), Workshop OpenCNIL Open Data, Paris, 4 juillet.


72. Mayer-Schnberger V. et Cukier K. (2013), op. cit., p. 60.
73. Les auteurs tiennent remercier pour leur aide prcieuse : Agns Benassy-Qur et Antoine Bozio (Conseil dalayse conomique), Denis Berthault (LexisNexis),
Rmi Bilbault et Ruth Martinez (GFII), Pascal Caillerez (Dcideur public Systmes dinformation), Jean-Pierre Camilleri, Mehdi Benchoufi, Alexandre Bredimas et
Christian Delom (Club Jade), Christine Chambaz, Alain Folliet et Marie-Nolle Shabiague (CNAF), Stphan Clemenon (Telecom Paris Tech), Julien Damon (Sciences Po),
Bertrand Diard (Talend), Jol Hamelin et Antton Achiary (CGSP), Charles Huot (TEMIS), Mathieu Jacomy (Mdialab), Mathieu Jeandron et Annelise Massiera (DISIC),
Nadia Joubert, Philippe Louviau, Rmi Favier et Bruno Nicoulaud (DNLF), Maxime Lesur et Bernard Ourghanlian (Microsoft), Claire Levallois-Barth (Institut Mines-
Tlcom), Andr Loth (DREES), Hammou Messatfa, Christophe Burgaud, David Kerr et Laura Haas (IBM), Philippe Niewbourg (Decideo), Judical Phan, Geoffrey Delcroix
et Delphine Carnel (CNIL), Vincent Poubelle (CNAV), Pascal Saubion et Jean-Paul Leroux (Orange), Henri Verdier (Etalab), Marie Zins et Marcel Goldberg (INSERM).

11 www.strategie.gouv.fr
DerNires
PuBLicAtioNs
coNsuLter
www.strategie.gouv.fr, rubrique publications
Retrouvez les dernires actualits Notes danalyse :
du Commissariat gnral N 01 g Un fonds europen pour lemploi des jeunes - Proposition
la stratgie et la prospective sur : pour une initiative (juin 2013)
g www.strategie.gouv.fr N 02 g Internet : prospective 2030 (juin 2013)
g CommissariatStrategieProspective N 03 g Approvisionnements en mtaux critiques : un enjeu pour
la comptitivit des industries franaise et europenne ?
g
(juillet 2013)
N 04 g Les compagnies ariennes europennes sont-elles
mortelles ? Perspectives vingt ans (juillet 2013)
N 05 g Pour un secteur des semences diversifi et innovant
(octobre 2013)
N 06 g Intensifier et rorienter les transferts de technologies
bas carbone pour lutter contre le changement climatique
(octobre 2013)
N 07 g Doha, Varsovie, des confrences de transition vers un
accord climatique mondial en 2015 (octobre 2013)

La Note danalyse n 08 - novembre 2013 est une publication


du Commissariat gnral la stratgie et la prospective
Directeur de la publication : Cr par dcret du 22 avril 2013, le Commissariat gnral la stratgie et la prospective
Jean Pisani-Ferry, commissaire gnral
Directeur de la rdaction : se substitue au Centre danalyse stratgique. Lieu dchanges et de concertation,
Herv Monange, adjoint au commissaire gnral
le Commissariat gnral apporte son concours au Gouvernement pour la dtermination
Secrtaires de rdaction : Delphine Gorges, Valrie Senn
Impression : Commissariat gnral des grandes orientations de lavenir de la nation et des objectifs moyen et long termes
la stratgie et la prospective
Dpt lgal : novembre 2013 - N ISSN : 1760-5733
de son dveloppement conomique, social, culturel et environnemental. Il contribue,
Contact presse : Jean-Michel Roull, responsable par ailleurs, la prparation des rformes dcides par les pouvoirs publics.
de la communication - 01 42 75 61 37 / 06 46 55 38 38
jean-michel.roulle@strategie.gouv.fr

www.strategie.gouv.fr
Commissariat gnral la stratgie et la prospective - 18, rue de Martignac - 75700 Paris SP 07 - Tl. 01 42 75 60 00

Vous aimerez peut-être aussi