12
Divers experts, grandes institutions (comme le MIT aux tats-Unis), administrations et spcialistes sur
13
le terrain des technologies ou des usages considrent le phnomne big data comme l'un des grands dfis
informatiques de la dcennie 2010-2020 et en ont fait une de leurs nouvelles priorits de recherche et
dveloppement.
Sommaire
1 Histoire
2 Dimensions des big data
2.1 Volume
2.2 Varit
2.3 Vlocit
3 Diffrence avec l'informatique dcisionnelle
4 Reprsentation
4.1 Modles
4.2 Stockage
5 Applications des big data
5.1 Recherche scientifique
5.2 Politique
5.3 Secteur priv
6 Perspectives et volutions
6.1 Modlisation de donnes
6.2 Gestion de donnes
6.3 Outils de gestion des donnes
7 Gestion de l'entropie
8 Bilan nergtique
9 Ides reues sur le big data
10 Risques d'atteinte la vie prive et aux droits fondamentaux
11 Gouvernance et mgadonnes
12 Notes et rfrences
13 Voir aussi
13.1 Liens externes
Histoire
Le big data a une histoire rcente et pour partie cache, en tant
qu'outil des technologies de l'information et comme espace
virtuel prenant une importance volumique croissante dans le
cyberespace.
16
ajoute
Les volutions qui caractrisent le big data et ses algorithmes, ainsi que celles de la science des donnes sont
en partie caches (au sein des services de renseignement des grands tats) et si rapides et potentiellement
17
profondes que peu de prospectivistes se risquent pronostiquer son devenir moyen ou long termes , mais
la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunits
18
commerciales que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir
19
merger des systmes ubiquistes, orwelliens et totalitaires capables de fortement contrler, surveiller et/ou
influencer les individus et groupes.
20
Les risques de drives de la part de gouvernements ou d'entreprises ont surtout d'abord t dcrits par
Orwell la fin de la dernire guerre mondiale, puis souvent par la science fiction. Avec l'apparition de
grandes banques de donnes dans les annes 1970 (et durant toute la priode de la guerre froide) de
21
nombreux auteurs s'inquitent des risques pris concernant la protection de la vie prive , dont par exemple
mis en avant par le Pr. A. Miller avec le nombre croissant de donnes stockes relatives la sant physique
22, 23, 24
et psychique des individus
.
En 2000, Froomkin dans un article paru dans la revue Stanford Law Review se demande si la vie prive n'est
25
pas dj morte , mais ce sont surtout les rvlations d'E. Snowden (2013) qui ont suscit une nouvelle prise
de conscience et d'importants mouvements protestation citoyenne.
Les quatre droits et tats de base de la vie prive tels qu'nonce par Westin en 1962 (droit la
26
solitude , l'intimit, l'anonymat dans la foule et la rserve) sont menacs dans un nombre croissant de
27
28
situations de mme que la protection du contenu des courriers lectroniques qui fait partie du droit la
29
vie prive .
Le Big Data s'accompagne du dveloppement d'applications vise analytique, qui traitent les donnes pour
30
31
en tirer du sens . Ces analyses sont appeles Big Analytics ou broyage de donnes. Elles portent sur
des donnes quantitatives complexes avec des mthodes de calcul distribu.
32
En 2001, un rapport de recherche du META Group (devenu Gartner) dfinit les enjeux inhrents la
croissance des donnes comme tant tri-dimensionnels : les analyses complexes rpondent en effet la rgle
33
dite des 3V (volume, vlocit et varit ). Ce modle est encore largement utilis aujourd'hui pour
34
dcrire ce phnomne .
Le taux de croissance annuel moyen mondial du march de la technologie et des services du Big Data sur la
priode 2011-2016 devrait tre de 31,7%. Ce march devrait ainsi atteindre 23,8 milliards de dollars en 2016
(d'aprs IDC mars 2013).
Le Big Data devrait galement reprsenter 8% du PIB europen en 2020 (AFDEL fvrier 2013).
Volume
35
C'est une dimension relative : le Big Data comme le notait Lev Manovitch en 2011 dfinissait autrefois
les ensembles de donnes suffisamment grands pour ncessiter des super-ordinateurs , mais il est
rapidement (dans les annes 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs
36
de bureau pour analyser ou co-analyser de vastes ensembles de donnes .
Le volume des donnes stockes est en pleine expansion : les donnes numriques cres dans le monde
seraient passes de 1,2 zettaoctets par an en 2010 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et
37
s'lveront 40 zettaoctets en 2020 . titre d'exemple, Twitter gnrait en janvier 2013, 7 teraoctets de
38
Ce sont pourtant les installations technico-scientifiques (mtorologie par exemple) qui produiraient le plus
de donnes [rf. ncessaire]. De nombreux projets, de dimension pharaonique, sont ainsi en cours. Le
radiotlescope Square Kilometre Array par exemple, produira 50 teraoctets de donnes analyses par jour,
39
un rythme de 7 000 teraoctets de donnes brutes par seconde .
Varit
Le volume des Big Data met les data centers devant un rel dfi : la varit des donnes. Il ne s'agit pas de
donnes relationnelles traditionnelles, ces donnes sont brutes, semi-structures voire non structures
40
(cependant, les donnes non-structures devront, pour utilisation, tre structures ). Ce sont des donnes
complexes provenant du web (Web Mining), au format texte (Text Mining) et images (Image Mining). Elles
peuvent tre publiques (Open Data, Web des donnes), go-dmographiques par lot (adresses IP), ou relever
de la proprit des consommateurs (Profils 360) [rf. ncessaire]. Ce qui les rend difficilement utilisables avec
les outils traditionnels.
La dmultiplication des outils de collecte sur les individus et sur les objets permettent damasser toujours
41
plus de donnes . Et les analyses sont dautant plus complexes quelles portent de plus en plus sur les liens
entre des donnes de natures diffrentes.
Vlocit
La vlocit reprsente la fois la frquence laquelle les donnes sont gnres, captures et partages et
mises jour.
Des flux croissants de donnes doivent tre analyss en quasi-temps rel (fouille de flots de donnes) pour
42
rpondre aux besoins des processus chrono-sensibles . Par exemple, les systmes mis en place par la
bourse et les entreprises doivent tre capables de traiter ces donnes avant quun nouveau cycle de
gnration nait commenc, avec le risque pour l'Homme de perdre une grande partie de la matrise du
systme quand les principaux oprateurs deviennent des "robots" capables de lancer des ordres d'achat ou de
vente de l'ordre de la nanoseconde (Trading haute frquence), sans disposer de tous les critres pertinents
d'analyse pour le moyen et long terme.
Informatique dcisionnelle : utilisation de statistique descriptive, sur des donnes forte densit en
information afin de mesurer des phnomnes, dtecter des tendances ;
44
Big Data : utilisation de statistique infrentielle, sur des donnes faible densit en information dont le
grand volume permet dinfrer des lois (rgressions.) donnant ds lors (avec les limites de linfrence)
45
au big data des capacits prdictives .
Synthtiquement :
l'informatique "traditionnelle", informatique dcisionnelle comprise, est base sur un modle du monde ;
46, 47
le Big Data vise ce que les mathmatiques trouvent un modle dans les donnes
.
Reprsentation
Modles
Les bases de donnes relationnelles classiques ne permettent pas de grer les volumes de donnes du Big
Data. De nouveaux modles de reprsentation permettent de garantir les performances sur les volumtries en
jeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de grer des bases
48
49
massivement parallles . Des patrons darchitecture Big Data Architecture framework (BDAF) sont
proposs par les acteurs de ce march comme MapReduce dvelopp par Google et utilis dans le
framework Hadoop. Avec ce systme les requtes sont spares et distribues des nuds parallliss, puis
excutes en parallles (map). Les rsultats sont ensuite rassembls et rcupers (reduce). Teradata, Oracle
ou EMC (via le rachat de Greenplum) proposent galement de telles structures, bases sur des serveurs
standards dont les configurations sont optimises. Ils sont concurrencs par des diteurs comme SAP et plus
50
rcemment Microsoft . Les acteurs du march sappuient sur des systmes forte scalabilit horizontale et
sur des solutions bases sur du NoSQL (MongoDB, Cassandra) plutt que sur des bases de donnes
51
relationnelles classiques .
Stockage
Pour rpondre aux problmatiques Big Data larchitecture de stockage des systmes doit tre repense et les
modles de stockage se multiplient en consquence.
le cloud computing : laccs se fait via le rseau, les services sont accessibles la demande et en libre
52
service sur des ressources informatiques partages et configurables . Les services les plus connus sont
ceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.
les super calculateurs hybrides : Les HPC pour High Performance Computing, quon retrouve en France
dans les centres nationaux de calculs universitaire tels quelIDRIS, le CINES, mais aussi au CEA ou
53
encore le HPC-LR
Les systmes de fichiers distribues (DFS - Distributed files system): les donnes ne sont plus stockes sur
une seule machine car la quantit stocker est beaucoup trop importante. Les donnes, les fichiers sont
"dcoups" en morceaux d'une taille dfinie et chaque morceau est envoy sur une machine bien prcise
54
utilisant du stockage local . Le stockage local est prfr au stockage SAN/NAS pour des raisons de
goulots d'tranglement au niveau du rseau et des interfaces rseaux des SAN. De plus, utiliser un
stockage de type SAN cote bien plus cher pour des performances bien moindres. Dans les systmes de
55
stockage distribu pour le Big Data, l'on introduit le principe de "Data locality" . Les donnes sont
sauvegardes l o elles peuvent tre traites.
Les big data trouvent des applications dans de nombreux domaines : programmes scientifiques (CERN28
Mastodons), outils d'entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA) parfois
56
57
spcialises (Teradata, Jaspersoft30, Pentaho31) ou Start-up (aleph-networks ,Bionatics , Hariba
58
59
60
61
Mdical , SafetyLine , KwypeSoft , Vigicolis, PredicSis , ainsi que dans le domaine de l'Open Source
(Apache Hadoop, Infobright32, Talend33) et de logiciels d'exploitation ouverts (avec par exemple le
logiciel ouvert d'analyse de big data H2O (software)).
Recherche scientifique
Le big data a un important potentiel scientifique. Ainsi, les expriences de physique du Large Hadron
Collider du CERN utilisent environ 150 millions de capteurs dlivrant des donnes 40 millions de fois par
seconde. Pour 600 millions de collisions par seconde, il reste aprs filtrage 100 collisions d'intrt par
62, 63, 64
seconde. En consquence, 25 Po de donnes sont stocker par an, et 200 Po aprs rplication
. Les
outils d'analyse du big data pourrait affiner l'exploitation de ces donnes.
Quand le Sloan Digital Sky Survey (SDSS) a commenc collecter des donnes astronomiques en 2000, il a
amass en quelques semaines plus de donnes que toutes celles prcdemment collectes dans lhistoire de
lastronomie. Il continue un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stock plus de
140 teraoctets dinformation. Le Large Synoptic Survey Telescope prvu pour 2015, devrait en amasser
65
autant tous les cinq jours .
Dcoder le premier gnome humain a ncessit 10 ans, mais prend moins d'une semaine : les squenceurs
d'ADN ont progress d'un facteur 10 000 les dix dernires annes, soit 100 fois la loi de Moore (100 environ
66
sur 10 ans) . En biologie, les approches massives bases sur une logique dexploration des donnes et de
recherche dinduction sont lgitimes et complmentaires des approches classiques bases sur l'hypothse
67
initiale formule .
Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de donnes dobservations et de simulations
68
climatiques .
Politique
Lanalyse de Big Data a jou un rle important dans la campagne de r-lection de Barack Obama,
69
notamment pour analyser les opinions politiques de la population .
Depuis l'anne 2012, le Dpartement de la dfense amricain investit annuellement sur les projets de Big
70
Data plus de 250 millions de dollars .
71
Le gouvernement amricain possde six des dix plus puissants supercalculateurs de la plante .
La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois termin,
ce data center pourra supporter des yottaoctets dinformation collects par la NSA sur internet.
En 2013, le big data faisait partie des 7 ambitions stratgiques de la France dtermines par la Commission
72
innovation 2030 .
Secteur priv
Walmart traite plus dun million de transactions client par heure, celles-ci sont importes dans des bases de
73
donnes dont on estime quelles contiennent plus de 2,5 Po dinformation
Facebook traite 50 milliards de photos.
Dune manire gnrale l'exploration de donnes de Big Data permet llaboration de profils clients dont on
74
ne supposait pas lexistence .
L'utilisation des donnes de Big Data rentre maintenant dans la stratgie de muses aussi prestigieux que le
Guggenheim Museum. l'aide de transmetteurs lectroniques placs dans ses salles les visiteurs sont suivis
tout au long de leur visite. Le muse peut ainsi dterminer de nouveaux parcours de visite en fonction des
75
uvres les plus apprcies ou encore dcider des expositions mettre en place .
Perspectives et volutions
L'un des principaux enjeux de productivit du Big Data dans son volution va porter sur la logistique de
l'information, c'est--dire sur comment garantir que l'information pertinente arrive au bon endroit au bon
moment. Il s'agit d'une approche micro-conomique. Son efficacit dpendra ainsi de celle de la
combinaison entre les approches micro- et macro-conomique d'un problme.
76
Selon une tude IDC, les donnes numriques cres dans le monde atteindraient 40 zettaoctets d'ici 2020 .
titre de comparaison, Facebook gnrait environ 10 traoctets de donnes par jour au dbut 2013. Le
dveloppement de l'hbergement massif de donnes semble avoir t acclr par plusieurs phnomnes
simultanment: la pnurie de disques durs due aux inondations en Thalande en 2011, l'explosion du march
des supports mobiles (smartphones et tablettes notamment), etc. Ajout cela, la dmocratisation du cloudcomputing de plus en plus proche, grce des outils comme Dropbox, amne le big data au centre de la
logistique de l'information.
Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avances doivent tre faites, et ce en
suivant trois axes :
Modlisation de donnes
Les mthodes actuelles de modlisation de donnes ainsi que les systmes de gestion de base de donnes ont
t conus pour des volumes de donnes trs infrieurs. La fouille de donnes a des caractristiques
fondamentalement diffrentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il
faudra des modlisations de donnes et des langages de requtes permettant :
une reprsentation des donnes en accord avec les besoins de plusieurs disciplines scientifiques ;
de dcrire des aspects spcifiques une discipline (modles de mtadonnes) ;
de reprsenter la provenance des donnes ;
de reprsenter des informations contextuelles sur la donne ;
de reprsenter et supporter lincertitude ;
77
de reprsenter la qualit de la donne .
De trs nombreux autres thmes de recherche sont lis ce thme, citons notamment : la rduction de
modle pour les EDP, l'acquisition comprime en imagerie, l'tude de mthodes numriques d'ordre lev
Probabilits, statistiques, analyse numrique, quations aux drives partielles dterministes et
stochastiques, approximation, calcul haute performance, algorithmique Une grande partie de la
communaut scientifique, notamment en mathmatiques appliques et en informatique, est concerne par ce
thme porteur.
Gestion de donnes
Le besoin de grer des donnes extrmement volumineuses est flagrant et les technologies daujourdhui ne
permettent pas de le faire. Il faut repenser des concepts de base de la gestion de donnes qui ont t
dtermins dans le pass. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidrer
le principe qui veut quune requte sur un SGBD fournisse une rponse complte et correcte sans tenir
compte du temps ou des ressources ncessaires. En effet la dimension exploratoire de la fouille de donnes
fait que les scientifiques ne savent pas ncessairement ce quils cherchent. Il serait judicieux que le SGBD
puisse donner des rponses rapides et peu coteuses qui ne seraient quune approximation, mais qui
77
permettraient de guider le scientifique dans sa recherche .
Dans le domaine des donnes clients, il existe galement de rels besoins d'exploitation de ces donnes, en
78
raison notamment de la forte augmentation de leur volume des dernires annes . Le big data et les
technologies associes permettent de rpondre diffrents enjeux tels que l'acclration des temps danalyse
des donnes clients, la capacit analyser lensemble des donnes clients et non seulement un chantillon de
celles-ci ou la rcupration et la centralisation de nouvelles sources de donnes clients analyser afin
didentifier des sources de valeur pour lentreprise.
Les outils utiliss lheure actuelle ne sont pas en adquation avec les volumes de donnes engendrs dans
lexploration de big data. Il est ncessaire de concevoir des instruments permettant de mieux visualiser,
analyser, et cataloguer les ensembles de donnes afin de permettre une optique de recherche guide par la
77
donne . La recherche en big data ne fait que commencer. La quantit de data volue beaucoup plus
rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prvoit qu'il n y aura pas
suffisamment de scientifiques du data. En 2018, les tats-Unis auraient besoin de 140 000 190 000
70
scientifiques spcialiss en big data .
Gestion de l'entropie
Le dluge de donnes qui alimente le big data (et dont certaines sont illgales ou incontrles) est souvent
mtaphoriquement compare la fois un flux continu de nourriture, de ptrole ou dnergie (qui alimente
79
les entreprises du data mining et secondairement la socit de linformation ) qui expose au risque
36
dinfobsit et pourrait tre compar lquivalent dune pollution du cyberespace et de la noosphre
(mtaphoriquement, le big data correspondrait pour partie une sorte de grande mare noire
informationnelle, ou une eutrophisation diffuse mais croissante et continue du monde numrique pouvant
80
conduire une dystrophisation, voire des dysfonctions au sein des cosystmes numriques) .
Face cette entropie informationnelle quelques rponses de type nguentropiques sont nes (wikipdia
en fait partie en triant et restructurant de linformation dj publie).
Dautres rponses ont t la cration de moteurs de recherche et doutils danalyse smantique et de fouille
de flots de donnes, de plus en plus puissants et rapides.
Nanmoins, l'analyse du big data tend lui-mme engendrer du big data, avec un besoin de stockage et de
serveurs qui semble exponentiel.
Bilan nergtique
Corolairement la croissance de la masse et du flux de donnes, une nergie croissante est dpense d'une
part dans la course aux outils de datamining, au cryptage/dcryptage et aux outils analytiques et
dauthentification, et d'autre part dans la construction de fermes de serveurs qui doivent tre refroidis ; au
dtriment du bilan nergtique et lectrique du Web.
En 2010, les jeux de donnes produites par lhomme sont de plus en plus complts par d'autres donnes,
massivement acquises de manire passive et automatique par un nombre croissant de capteurs lectroniques
et sous des formes de plus en plus interoprables et comprhensibles par les ordinateurs. Le volume de
donnes stockes dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur
internet, les uns voient dans le big data intelligemment utilis une source dinformation qui permettrait de
lutter contre la pauvret, la criminalit ou la pollution. Et l'autre extrmit du spectre des avis, d'autres,
souvent dfenseurs de la confidentialit de la vie prive, en ont une vision plus sombre, craignant ou
81
affirmant que le Big Data est plutt un Big Brother se prsentant dans de nouveaux habits , dans des
82
vtements de lentreprise .
En 2011 l'occasion d'un bilan sur 10 ans d'Internet pour la socit, Danah boyd (de Microsoft Research) et
Kate Crawford (University of New South Wales) dnoncaient de manire provocatrice six problmes lis
des ides reues sur le big data : Lautomatisation de la recherche change la dfinition du savoir () Les
revendications dobjectivit et dexactitude sont trompeuses () De plus grosses donnes ne sont pas
toujours de meilleures donnes () Toutes les donnes ne sont pas quivalentes () Accessible ne signifie
36
pas thique () Laccs limit aux Big Data cre de nouvelles fractures numriques (dont entre pauvres
36
et riches ) ;
dshumanisation : Dans ce que Bruce Schneier dnomme lge dor de la surveillance , la plupart des
individus peuvent se sentir dshumaniss et ils ne peuvent plus protger les donnes personnelles ou non
qui les concernent, et qui sont collectes, analyses et vendues leur insu. Alors qu'il devient difficile de
se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de
ne pas pouvoir chapper une surveillance constante o des pressions visant les faire consommer,
voter, etc.
faille de scurit informatique : dans un monde de plus en plus interconnect et li lInternet, la scurit
en ligne devient cruciale, pour la protection de la vie prive, mais aussi pour l'conomie (ex : en cas de
problme grave, des risques existent de perte de confiance, concernant la scurit des processus dachat en
ligne par exemple ; ils pourraient avoir des consquences conomiques importantes) ;
vassalisation de la recherche scientifique par des socits commerciales et leurs services de
36
marketing ;
36
apophnie : (dductions indues) : les biais daccs et dinterprtation sont nombreux ( un corpus nest
pas plus scientifique ou objectif parce que lon est en mesure daspirer toutes les donnes dun site.
Dautant quil existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans
laccs mme ces donnes quon aurait tort de considrer comme totales. Cet accs ne repose en effet
que sur le bon vouloir de socits commerciales et sur les moyens financiers dont disposent chercheurs et
36
universits) ;
De plus, un biais li au genre existe : la grande majorit des chercheurs experts en informatique sont
aujourdhui des hommes, or des historiennes fministes et les philosophes des sciences ont montr que le
83
sexe de celui qui pose les questions dtermine souvent les questions qui seront poses ;
msinterprtation de certaines donnes lies l'altrit, avec d'ventuelles consquences
sociopsychologiques, par exemple et de mauvaise comprhension ou interprtation de lautre ( lautre
84
nest pas une donne rappelle D. Pucheu ).
Un autre risque est celui d'une rarfaction des occasions dexposition des individus des choses qui
nauraient pas t pr-vues pour eux, et donc un asschement de lespace public (comme espace de
dlibration, de formation de projets non rabattus sur la seule concurrence des intrts individuels), ces
85
choses non pr-vues, tant prcisment constitutives du commun, ou de lespace public .
exacerbation de la fracture numrique, car les outils de data mining offrent quelques entreprises un
accs croissant et presque instantan des milliards de donnes et de documents numrises. Pour ceux
qui savent utiliser ces donnes, et avec certaines limites, elles offrent aussi une certaine capacit
produire, trier ou distinguer des informations juges stratgiques, permettant alors aussi de retenir ou au
86
contraire de librer avant dautres certaines informations stratgiques . Cet accs trs privilgi et peu
transparent l'information peut favoriser des situations de conflits d'intrt ou des dlits d'initis. Il existe
un risque d'ingalits croissante face aux donnes et au pouvoir que l'on a sur elles : Manovich distingue
ainsi 3 catgories dacteurs, foncirement ingaux face la donne : ceux qui crent les donnes (que ce
soit consciemment ou en laissant des traces numriques), ceux qui ont les moyens de les recueillir, et ceux
qui ont la comptence de les analyser (2011).
Ces derniers sont en faible nombre, mais trs privilgis (ils sont souvent employs par les entreprises et
autres entits du big data et ont donc le meilleur accs la donne; ils contribuent produire ou orienter
les rgles qui vont les encadrer et cadrer lexploitation des Big Data. Des ingalits institutionnelles sont a
priori inluctables mais elles peuvent tre minimises et devraient au moins tre tudies, car elles
orientent les donnes et les types de recherches et applications qui en dcouleront.
Gouvernance et mgadonnes
107
Notes et rfrences
1. http://www.research.ibm.com/visual/projects/chromogram.html
2. Watters, Audrey, Visualize Big Data with Flowing Media (http://www.readwriteweb.com/start/2010/04/visualizebig-data-with-flowing-media.php), ReadWriteWeb. 15 avril 2010
3. Terme recommand en France par la DGLFLF, Journal officiel du 22 aot 2014, et au Canada par l'OQLF.
4. http://www.telecom-paristech.fr/formation-continue/masteres-specialises/big-data.html.
5. Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World
(http://faculty.cord.edu/andersod/The%20Rise%20of%20Big%20Data.docx), The. Foreign Aff., 92, 28.
6. Les mdias dans la moulinette du big data (http://www.lemonde.fr/sciences/article/2014/01/06/les-medias-dans-lamoulinette-du-big-data_4343574_1650684.html), 6 janvier 2014, consult 12 janvier 2014.
7. Le rle du Big Data dans la campagne prsidentielle amricaine en 2012 (http://123opendata.com/blog/bigdata-campagne-presidentielle-us/)
8. Big Data : un ADN utilisateur squenable pour moins de 1 000 $ (http://lecercle.lesechos.fr/entreprises-marches/hightech-medias/internet/221144150/big-data-adn-utilisateur-sequencable-moins-1/)
9. La scurit se met rsolument au Big Data (http://www.lemagit.fr/article/ids-ips-siem/10640/1/la-securitemet-resolument-big-data/), LeMagIT, mars 2012.
10. Michel Cartier, Le "Big Data" (http://www.21siecle.quebec/table-des-matieres-2/le-big-data/), sur 21e sicle
11. CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data (http://www.csail.mit.edu/node/2142),
Tackling the Challenges of Big Data, janvier 2014, consult 2014-01-12
12. Gouvernement franais (2012) - Investissements davenir (http://investissement-avenir.gouvernement.fr/sites/default
/files/user/AAP%20Cloud%20Computing%203%20-%20Big%20data.pdf) Fonds national pour la socit numrique,
Appel projets no 3 - Big Data.
13. Big Data Paris, confrence-exposition, 20-21 mars 2012 (http://bigdataparis.com/fr-index.php).
14. The Worlds Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of
60 analog and digital technologies during the period from 1986 to 2007 (http://www.martinhilbert.net
/WorldInfoCapacity.html)
15. Gil Press (2013) une trs courte histoire du big data Forbes.com, dat du 5 mai 2013,
16. Trguier, V. (2014). Mondes de donnes et imaginaires: vers un monde cyberntique (http://dumas.ccsd.cnrs.fr/dumas01086598/document) et [http:// dumas.ccsd.cnrs.fr/dumas-01086598/document rsum] ; Library and information
sciences. 2014, PDF, 53 pages
17. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazine
for Students, 19(1), 44-49
18. Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities
(http://faculty.ksu.edu.sa/mejdl/Publications/big-data-to-big-data-mining.pdf). In Database Systems for Advanced
Applications (pp. 1-15). Springer Berlin Heidelberg
19. Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (http://www.sciencedirect.com/science/article
/pii/S1742684709700138 rsum])
20. Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
21. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984.
Newsweek, Incorporated.
22. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.
23. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), Jan 1975, 6-14.
24. hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault on
Privacy (http://scholarship.law.duke.edu/cgi/viewcontent.cgi?article=1213&context=faculty_scholarship)". University
of Pennsylvania Law Review, 970-991.
25. Froomkin, A. M. (2000). The death of privacy ? (http://media.usm.maine.edu/~lenny/privacy-deathof.pdf) ; Stanford
Law Review, 1461-1543.
26. Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
27. Askland, A. (2006). [http://papers.ssrn.com/sol3/Delivery.cfm
/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault on
Privacy (http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3).
St. Louis University Public Law Review, 25(33), et rsum (http://papers.ssrn.com
/sol3/papers.cfm?abstract_id=1406744)
28. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee
Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector
Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. rsum]).
29. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
30. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
31. http://www.amazon.com/Big-Data-Analytics-Intelligence-Businesses/dp/111814760X
32. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocityand-Variety.pdf
33. http://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml
34. http://www-01.ibm.com/software/data/bigdata/
35. Manovich L (2011) Trending: The Promises and the Challenges of Big Social Data, Debates in the Digital Humanities,
ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].
36. Big Data : la ncessit dun dbat (traduction collaborative dun essai de Danah boyd et Kate Crawford prsentant Six
provocations au sujet du phnomne des Big Data, prsent lors du Symposium sur les dynamiques de linternet et de
la socit : Une dcennie avec Internet, organis par lOxford Internet Institute, le 21 septembre 2011)
(http://www.internetactu.net/2011/09/23/big-data-la-necessite-d%E2%80%99un-debat/comment-page-1/), FING,
Internet.Actu.Net
37. tude IDC-EMC, Extracting value from chaos (http://www.emc.com/collateral/analyst-reports/idc-extractingvalue-from-chaos-ar.pdf), sponsorise par EMC Gartner, cite par Delphine Cuny sous le titre "Big data" : la nouvelle
rvolution , Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
38. The big data rvolution , Le journal, CNRS, no 28, janvier 2013 (lire en ligne (http://www.cnrs.fr/fr/pdf
/cim/CIM28.pdf)).
39. http://ercim-news.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities
40. Big data : du concept la mise en uvre. Premiers bilans. (http://blog.dataraxy.com/post/2013/07/10/Big-data-%3Adu-concept-%C3%A0-la-mise-en-%C5%93uvre.-Premiers-bilans.)
41. http://www.technologyreview.com/news/423897/data-analysis-is-creating-new-business-opportunities/
42. https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&
S_CMP=is_bdebook1_bda
43. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
44. http://www.andsi.fr/tag/dsi-big-data/
45. http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densiteinformation-com
46. Delort, Le Big Data, Paris, Presses Universitaires de France, 2015, 128 p. (ISBN 978-2-13-065211-3, lire en ligne
(http://www.puf.com/Que_sais-je:Le_Big_Data))
47. Le Big Data - PUF (http://www.puf.com/Que_sais-je:Le_Big_Data), sur www.puf.com/, 12 avril 2015
48. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-paralleleau-massivement-parallele--1442974.htm?RH=UJF
49. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
50. http://www.zdnet.fr/actualites/explosion-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm
51. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
52. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
53. https://www.hpc-lr.univ-montp2.fr/
54. (en) Michel Sumbul, HDFS (http://whatsbigdata.be/hdfs), sur http://whatsbigdata.be/hdfs, 24 juin 2014 (consult le
28 juillet 2014)
55. (en) HDFS (http://whatsbigdata.be/hdfs/), sur http://whatsbigdata.be/hdfs/, 24 juin 2014 (consult le
28 juillet 2014)
56. http://www.aleph-networks.com
57. http://www.bionatics.com/
58. http://healthstartup.eu/2012/05/top-big-data-opportunities-for-health-startups/.
59. http://www.safety-line.fr/index.php/fr/.
60. http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value
/10-jeunes-entreprises-innovantes-reperees-pour-leurs-projets-big-data.html
61. http://www.PredicSis.com.
62. (en) LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the
world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are
explained for the general public. (http://cds.cern.ch/record/1278169?ln=en), CERN-Brochure-2010-006-Eng. LHC
Brochure, English version., CERN (consult le 20 janvier 2013)
(en)
63.
LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the
form of questions and answers. (http://cds.cern.ch/record/1092437?ln=en), CERN-Brochure-2008-001-Eng. LHC
Guide, English version., CERN (consult le 20 janvier 2013)
64. Geoff Brumfiel, High-energy physics: Down the petabyte highway , Nature, vol. 469, 19 janvier 2011, p. 28283
(DOI 10.1038/469282a (http://dx.doi.org/10.1038/469282a), lire en ligne (http://www.nature.com/news/2011/110119
/full/469282a.html)).
65. Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says
Kenneth Cukier (interviewed here)but also big headaches (http://www.economist.com/node/15557443), The
Economist, publi 25 fvrier 2010
66. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data
100. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy
(http://ro.uow.edu.au/cgi/viewcontent.cgi?article=1716&context=infopapers&sei-redir=1&referer=http%3A%2F
%2Fscholar.google.fr%2Fscholar%3Fhl%3Dfr%26q%3DAssault%2Bon%2Bprivacy%2B%26btnG
%3D%26lr%3D#search=%22Assault%20privacy%22). Faculty of Informatics-Papers, 711
101. Ohm, P. (2009). The rise and fall of invasive ISP surveillance (http://illinoislawreview.org/wp-content/ilr-content
/articles/2009/5/Ohm.pdf). University of Illinois Law Review, 30 aout 2008
102. Tene, O., & Polonetsky, J. (2012). Big data for all: Privacy and user control in the age of analytics. Nw. J. Tech. &
Intell. Prop., 11, xxvii
103. Solove, D. J. (2011). Why privacy matters even if you have nothing to hide. Chronicle of Higher Education, 15
104. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publications
I've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.
105. Schneier, B (2008). What our top spy doesnt get: Security and privacy arent opposites. Wired. com.
106. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint
and TJX data breaches. Mis Quarterly, 673-687 (rsum (http://www.jstor.org/stable/20650322)).
107. Laurence Allard, Pierre Grosdemouge et Fred Pailler, Big Data: la ncessit dun dbat
(http://internetactu.blog.lemonde.fr/2011/10/05/big-data-la-necessite-dun-debat), sur un blog du Monde, 5 octobre 2011.
108. Maxime Ouellet, Andr Mondoux, Marc Mnard, Maude Bonenfant et Fabien Richert, "Big Data", gouvernance et
surveillance, Montral, Universit du Qubec Montral, 2014, 65 p. (ISBN 978-2-920752-11-5, lire en ligne
(http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIERS_2014-1.pdf)).
Voir aussi
Liens externes
Big Data : un ADN utilisateur squenable pour
moins de 1 000 $. Les Echos.
(http://lecercle.lesechos.fr/entreprises-marches/hightech-medias/internet/221144150/big-dataadn-utilisateur-sequencable-moins-1)
Big Data car Low-Density Data ? La faible densit
en information comme facteur discriminant. Les
Echos. (http://lecercle.lesechos.fr/entrepreneur
/tendances-innovation/221169222/big-datalow-density-data-faible-densite-information-com)