Académique Documents
Professionnel Documents
Culture Documents
1 2, 3
Le big data /ˌbɪɡ ˈdeɪtə/ (litt. « grosses données » en anglais), les mégadonnées ou les données
4
massives , désigne des ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les
capacités humaines d'analyse et même celles des outils informatiques classiques de gestion de base de
5
données ou de l'information .
L’explosion quantitative (et souvent redondante) de la donnée numérique contraint à de nouvelles manières
6
de voir et analyser le monde . De nouveaux ordres de grandeur concernent la capture, le stockage, la
recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data
sont énormes et en partie encore insoupçonnées [non neutre] ; on évoque souvent de nouvelles possibilités
7
d'exploration de l'information diffusée par les médias , de connaissance et d'évaluation, d'analyse
tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des
8
risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques ,
9
mais aussi en termes de génomique ou métagénomique , pour la médecine (compréhension du
fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux
changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur
« internet de l'énergie »), l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des
10
réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité . La
multiplicité de ces applications laisse d'ailleurs déjà poindre un véritable écosystème économique
11
impliquant, d'ores et déjà, les plus gros acteurs du secteur des technologies de l'information .
Certains [Qui ?] supposent que le big data pourrait aider les entreprises à réduire leurs risques et faciliter la
prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus
12
personnalisée et contextualisée .
13 14
Divers experts, grandes institutions (comme le MIT aux États-Unis, le Collège de France en Europe),
15 16
administrations et spécialistes sur le terrain des technologies ou des usages considèrent le phénomène
big data comme l'un des grands défis informatiques de la décennie 2010-2020 et en ont fait une de leurs
nouvelles priorités de recherche et développement, qui pourrait notamment conduire à l'Intelligence
17
artificielle en étant exploré par des réseaux de neurones artificiels autoapprenants .
Sommaire
Histoire
Dimensions
Volume
Variété
Vélocité
Différence avec l'informatique décisionnelle
Représentation Une visualisation des données créée par
18
Modèles IBM montre que les big data sur les
Stockage modifications de Wikipedia par le robot
Pearle ont plus de signification lorsqu'elles
Applications sont mises en valeur par des couleurs et
Recherche scientifique 19
des localisations .
Exemples d'applications pour la planète et le
climat
Politique
Secteur privé
Secteur énergétique
Perspectives et évolutions
Modélisation de données
Gestion de données
Outils de gestion des données
Gestion de l'entropie
Bilan énergétique
Idées reçues
Risques et Problèmes
Critiques
Gouvernance et mégadonnées
Virtualisation
Big data temps réel
Notes et références
Voir aussi
Articles connexes
Liens externes
Bibliographie
Histoire
Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de l'information et
comme espace virtuel prenant une importance volumique croissante dans le cyberespace.
L'expression « big data » serait apparue en octobre 1997 selon
les archives de la bibliothèque numérique de l'Association for
Computing Machinery (ACM), dans un article scientifique sur
les défis technologiques à relever pour visualiser les « grands
21
ensembles de données » .
Les évolutions qui caractérisent le big data et ses algorithmes, ainsi que celles de la science des données sont
en partie cachées (au sein des services de renseignement des grands États) et si rapides et potentiellement
24
profondes que peu de prospectivistes se risquent à pronostiquer son devenir à moyen ou long terme , mais
la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunités
25
commerciales que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir
26
émerger des systèmes ubiquistes, orwelliens et totalitaires capables de fortement contrôler, surveiller et/ou
influencer les individus et groupes.
27
Les risques de dérives de la part de gouvernements ou d'entreprises ont surtout d'abord été décrits par
Orwell à la fin de la dernière guerre mondiale, puis souvent par la science fiction. Avec l'apparition de
grandes banques de données dans les années 1970 (et durant toute la période de la guerre froide) de
28
nombreux auteurs s'inquiètent des risques pris concernant la protection de la vie privée , en particulier
Arthur R. Miller (en) qui cite l'exemple de la croissance des données stockées relatives à la santé physique
29, 30, 31
et psychique des individus .
En 2000, Froomkin,dans un article paru dans la revue Stanford Law Review, se demande si la vie privée n'est
32
pas déjà morte , mais ce sont surtout les révélations d'Edward Snowden (2013) qui ont suscité une nouvelle
prise de conscience et d'importants mouvements de protestation citoyenne.
Les quatre droits et « états de base de la vie privée » tels qu'énoncés par Westin en 1962 (droit à la
33
solitude , à l'intimité, à l'anonymat dans la foule et à la réserve) sont menacés dans un nombre croissant de
34 35
situations , de même que la protection du contenu des courriers électroniques qui fait partie du droit à la
36
vie privée .
Dimensions
Le big data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour
37 38
en tirer du sens . Ces analyses sont appelées big analytics ou « broyage de données ». Elles portent sur
des données quantitatives complexes à l'aide de méthodes de calcul distribué et de statistiques.
39
En 2001, un rapport de recherche du META Group (devenu Gartner) définit les enjeux inhérents à la
croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle
40
dite « des 3V » (volume, vélocité et variété ). Ce modèle est encore largement utilisé aujourd’hui pour
41
décrire ce phénomène .
Le taux de croissance annuel moyen mondial du marché de la technologie et des services du big data sur la
période 2011-2016 devrait être de 31,7 %. Ce marché devrait ainsi atteindre 23,8 milliards de dollars en
2016 (d'après IDC mars 2013). Le big data devrait également représenter 8 % du PIB européen en 2020
(AFDEL février 2013).
Volume
42
C'est une dimension relative : le big data, comme le notait Lev Manovitch en 2011 , définissait autrefois
« les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est
rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs
43
de bureau pour analyser ou co-analyser de vastes ensembles de données .
Le volume des données stockées est en pleine expansion : les données numériques créées dans le monde
44
seraient passées de 1,2 zettaoctet par an en 2010 à 1,8 zettaoctet en 2011 , puis 2,8 zettaoctets en 2012 et
s'élèveront à 40 zettaoctets en 2020. À titre d'exemple, Twitter générait en janvier 2013, 7 téraoctets de
45
données chaque jour et Facebook 10 téraoctets . En 2014, Facebook Hive générait 4 000 To de data par
46
jour .
Variété
Le volume des big data met les centres de données face à un réel défi : la variété des données. Il ne s'agit pas
de données relationnelles traditionnelles, ces données sont brutes, semi-structurées, voire non structurées
48
(cependant, les données non structurées devront, pour utilisation, être structurées ). Ce sont des données
complexes provenant du web (Web mining), au format texte (text mining) et images (image mining). Elles
peuvent être publiques (open data, Web des données), géo-démographiques par îlot (adresses IP), ou relever
de la propriété des consommateurs [réf. nécessaire]. Ce qui les rend difficilement utilisables avec les outils
traditionnels.
La démultiplication des outils de collecte sur les individus et sur les objets permet d’amasser toujours plus
49
de données . Et les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre
des données de natures différentes.
Vélocité
La vélocité représente la fréquence à laquelle les données sont à la fois générées, capturées, partagées et
50
mises à jour .
Des flux croissants de données doivent être analysés en quasi-temps réel (fouille de flots de données) pour
51
répondre aux besoins des processus chrono-sensibles . Par exemple, les systèmes mis en place par la
bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de
génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du
système quand les principaux opérateurs deviennent des machines capables de lancer des ordres d'achat ou
de vente à la nanoseconde (trading haute fréquence) sans disposer de tous les critères pertinents d'analyse
pour le moyen et long terme.
Différence avec l'informatique décisionnelle
Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de “V” supplémentaires
selon l’inspiration des services marketing), la maturation du sujet fait apparaître un autre critère plus
52
fondamental de différence avec l'informatique décisionnelle et concernant les données et leur utilisation :
Synthétiquement :
Représentation
Modèles
Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du big
data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en
jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gérer des bases
57 58
massivement parallèles . Des patrons d’architecture (“big data architecture framework", BDAF) sont
proposés par les acteurs de ce marché comme MapReduce créé par Google et utilisé dans le framework
Hadoop. Avec ce système, les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées
en parallèles (map). Les résultats sont ensuite rassemblés et récupérés (reduce). Teradata, Oracle ou EMC
(via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont
les configurations sont optimisées. Ils sont concurrencés par des éditeurs comme SAP et plus récemment
59
Microsoft . Les acteurs du marché s’appuient sur des systèmes à forte évolutivité horizontale et sur des
solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles
60
classiques .
Stockage
Pour répondre aux problématiques big data, l’architecture de stockage des systèmes doit être repensée et les
modèles de stockage se multiplient en conséquence.
Cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et
61
en libre service sur des ressources informatiques partagées et configurables . Les services
les plus connus sont ceux de Google BigQuery, Big Data sur Amazon Web Services et
Microsoft Windows Azure.
Super calculateurs hybrides : les HPC pour high performance computing, qu’on retrouve en
France dans les centres nationaux de calculs universitaire tels que l’IDRIS, le CINES, mais
62
aussi au CEA ou encore le HPC-LR
Systèmes de fichiers distribués (ou DFS pour distributed files system) : les données ne sont
plus stockées sur une seule machine car la quantité est beaucoup trop importante. Les
données, les fichiers sont "découpés" en morceaux d'une taille définie et chaque morceau
63
63
est envoyé sur une machine bien précise utilisant du stockage local . Le stockage local est
préféré au stockage SAN et NAS pour des raisons de goulots d'étranglement au niveau du
réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de type SAN coûte
bien plus cher pour des performances bien moindres. Dans les systèmes de stockage
64
distribué pour le big data, l'on introduit le principe de data locality . Les données sont
sauvegardées là où elles peuvent être traitées.
Applications
Le big data trouve des applications dans de nombreux domaines : programmes scientifiques (CERN28
Mastodons), outils d'entreprises (IBM29, Amazon Web Services, BigQuery, SAP HANA) parfois
spécialisées (Teradata, Jaspersoft30, Pentaho31...) ou startups, ainsi que dans le domaine de l'open source
(Apache Hadoop, Infobright32, Talend33...) et de logiciels d'exploitation ouverts (avec par exemple le
logiciel ouvert d'analyse de big data H2O).
Recherche scientifique
Le big data en est issu et il alimente une partie de la recherche. Ainsi le Large Hadron Collider du CERN
utilise environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde ; Pour 600
millions de collisions par seconde, il reste après filtrage 100 collisions d'intérêt par seconde, soit 25 Po de
65, 66, 67
données à stocker par an, et 200 Po après réplication . Les outils d'analyse du big data pourraient
affiner l'exploitation de ces données.
Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a
amassé en quelques semaines plus de données que toutes celles précédemment collectées dans l’histoire de
l’astronomie. Il continue à un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stocké plus de
140 téraoctets d’information. Le Large Synoptic Survey Telescope prévu pour 2015 devrait en amasser
68
autant tous les cinq jours .
Décoder le premier génome humain a nécessité 10 ans, mais prend aujourd'hui moins d'une semaine : les
séquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois la loi de Moore
69
(qui a progressé d'un facteur 100 environ sur 10 ans) . En biologie, les approches massives basées sur une
logique d’exploration des données et de recherche d’induction sont légitimes et complémentaires des
70
approches classiques basées sur l'hypothèse initiale formulée . Le big data s'est aussi introduit dans le
domaine des protéines.
Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de données d’observations et de simulations
71
climatiques .
Les sciences sociales explorent des corpus aussi variés que le contenu de Wikipédia dans le monde ou les
millions de publications et de tweets sur Internet.
Le big data mondial contient des données essentielles « pour résoudre l'équation climatique », et notamment
pour améliorer l'efficacité énergétique des villes et bâtiments, pour les smartgrids, pour vérifier l'application
de règlementations visant à lutter contre la déforestation, la surpêche, la dégradation des sols, le gaspillage
alimentaire ou à mieux gérer les déchets, éco-consommer ou inciter les investisseurs à créer des villes
72
intelligentes , etc.
Lors de la COP 23 (Bonn, 2017) un événement parallèle de haut niveau organisé par le « Forum sur
l'innovation durable » et le PNUD a réuni des dirigeants de sociétés de données du secteur privé et des
représentants des Nations unies. Ce groupe a appelé à développer la « philanthropie des données », c'est-à-
73, 74
dire à massivement et de manière altruiste partager les données pour stimuler l'efficacité, l'innovation et
le soutien aux actions de protection du climat et de résilience face au changement climatique. Une meilleure
collecte, mise à disposition de tous, analyse et utilisation des données volumineuses est une condition selon
75
ce groupe pour atteindre l'objectif 2030 no 13 (pour le climat) de l'ONU et les objectifs de l'Accord de
72
Paris sur le climat . C'est ce qu'y a rappelé Amina J. Mohammed, Secrétaire générale adjointe des Nations
unies, dans son discours d'ouverture. C'est le cas notamment des données météo nécessaires à l'agriculture, à
72
la protection de l'économie et des infrastructures vulnérables aux aléas climatiques .
En 2017, le PNUD aide plus de 75 pays à moderniser leurs systèmes de surveillance météorologique et
climatiques. Dans les pays dits émergents, un effort reste à faire pour le « dernier kilomètre » ; par exemple
les « opérateurs mobiles » pourraient mieux recevoir l'information météorologique et aider à un partage des
données sur les récoltes et problèmes de culture via des téléphones portables ; les antennes relais pourraient
elles-mêmes, en lien avec des sociétés de Big Data devenir des plates-formes de regroupement de données
utiles à l'élaboration de plans locaux et nationaux d'adaptation au changement climatique, et utiles à
72
l'élaboration de stratégies sectorielles de résilience climatique .
Les difficultés d'anonymisation de la donnée privée restent cependant un important frein au partage efficace
de données massives entre les décideurs et le grand-public. La « philanthropie des données » vise à faire des
72
secteurs public et privé deux partenaires égaux .
En 2017 un concours "Data for Climate Action Challenge" a été lancé début 2017 par Global
Pulse (Onu) pour susciter l'innovation en matière de données ouvertes axée sur l'exploitation
du Big Data et de l'analyse de données au service du bien commun. Ce concours vise à
catalyser l'action sur le changement climatique. Il a mis en relation 97 équipes de recherche
72
(semi-finalistes) avec des jeux de données venant de 11 entreprises .
En 2016 Taylor s'interroge : Quand le big data est présenté comme un commun ou un bien public ; de quel
76
bien parle-t-on ? et à quel public le destine-t-on réellement ? en citant notamment Robert Kirkpatrick
(directeur de UN Global Pulse) pour qui « le big data est comme un nouveau type de ressource naturelle (ou
non-naturelle) infiniment renouvelable, de plus en plus omniprésente - mais qui est tombée entre les mains
d'une industrie extractive opaque et largement non réglementée, qui commence seulement à se rendre
compte qu'il existe une opportunité sociale - et peut-être une responsabilité sociale - à s'assurer que ces
73, 76
données atteignent les personnes qui en ont le plus besoin » .
Politique
L’analyse du big data a joué un rôle important dans la campagne de ré-élection de Barack Obama,
77
notamment pour analyser les opinions politiques de la population .
Depuis 2012, le département de la Défense américain investit annuellement sur les projets big data plus de
78
250 millions de dollars . Le gouvernement américain possède six des dix plus puissants supercalculateurs
79
de la planète . La National Security Agency est actuellement en train de construire le Utah Data Center qui
80
stockera jusqu'à un yottaoctet d’informations collectées par la NSA sur internet . En 2013, le big data
81
faisait partie des sept ambitions stratégiques de la France déterminées par la Commission innovation 2030 .
Secteur privé
82
La revente de fichier de profil utilisateur peut participer au big data .
Walmart traite plus d'un million de transactions client par heure, importées dans des bases de données qui
83
contiendraient plus de 2,5 Po d’information . Facebook traite 50 milliards de photos. D’une manière
générale l'exploration de données de big data permet l’élaboration de profils clients dont on ne supposait pas
84
l’existence .
Le musée Solomon R. Guggenheim construit sa stratégie en analysant des données massives : dans les salles
des transmetteurs électroniques suivent les visiteurs tout au long de leur visite. Le musée détermine ainsi de
nouveaux parcours de visite en fonction des œuvres les plus appréciées, ou décider des expositions à mettre
85
en place .
Dans le domaine de l'assurance, l'augmentation du nombres d'objets connectés permet de recueillir un grand
86
nombre de données en temps réel. Elles aident à mieux connaître les personnes et les objets assurés .
Secteur énergétique
Les smart buildings (éventuellement au sein de smart cities) sont caractérisés par une « hybridation » entre
numérique et énergie.
Ces bâtiments ou logements individuels peuvent produire de l'énergie (voire être « positifs en énergie »). Ils
peuvent aussi produire des données sur cette énergie et/ou sur leur consommation d'énergies. Ces données
une fois agrégées et analysées peuvent permettre d'appréhender voire d'anticiper la consommation des
usagers, des quartiers, villes, etc. en fonction des variations du contexte, météorologique notamment.
En attendant un développement plus large du stockage de l'énergie, les jours nuageux et sans vent il faut
encore faire appel à des centrales conventionnelles, et les jours exceptionnellement beaux et venteux (ex. : 8
mai 2016 où durant 4 heures le vent et le soleil ont généré plus de 90 % de l'électricité du pays, les centrales
électriques au charbon et au gaz doivent réduire à temps leur production). Un cas extrême est celui d’une
éclipse solaire (prévisible). La gestion de ces pics et intermittences coûte aujourd’hui plus de 500 millions
€/an à l’Allemagne et conduit à des émissions de CO2 et autres gaz à effet de serre que l’on voudrait
87
éviter . Grâce aux corrélations pouvant émerger de l'analyse fine des mégadonnées, les opérateurs de
l'énergie peuvent mieux appréhender les variations fines du gisement des énergies renouvelables et les
croiser avec la demande réelle.
Exemples
Perspectives et évolutions
L'un des principaux enjeux de productivité du big data dans son évolution va porter sur la logistique de
l'information, c'est-à-dire sur comment garantir que l'information pertinente arrive au bon endroit au bon
moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la
combinaison entre les approches micro- et macro-économique d'un problème.
89
Selon une étude IDC, les données numériques créées dans le monde atteindraient 40 zettaoctets d'ici 2020 .
À titre de comparaison, Facebook générait environ 10 téraoctets de données par jour au début 2013. Le
développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomènes
simultanément : la pénurie de disques durs suite aux inondations en Thaïlande en 2011, l'explosion du
marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du
cloud-computing de plus en plus proche, grâce à des outils comme Dropbox, amène le big data au centre de
la logistique de l'information.
Afin de pouvoir exploiter au maximum le big data, de nombreuses avancées doivent être faites, et ce en
suivant trois axes.
Modélisation de données
Les méthodes actuelles de modélisation de données ainsi que les systèmes de gestion de base de données ont
été conçus pour des volumes de données très inférieurs. La fouille de données a des caractéristiques
fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il
faudra des modélisations de données et des langages de requêtes permettant :
une représentation des données en accord avec les besoins de plusieurs disciplines
scientifiques ;
de décrire des aspects spécifiques à une discipline (modèles de métadonnées) ;
de représenter la provenance des données ;
de représenter des informations contextuelles sur la donnée ;
de représenter et supporter l’incertitude ;
90
de représenter la qualité de la donnée ;
91
de réaliser l'approximation d'un gros volume de données .
De très nombreux autres thèmes de recherche sont liés à ce thème, citons notamment : la réduction de
modèle pour les EDP, l'acquisition comprimée en imagerie, l'étude de méthodes numériques d'ordre élevé…
Probabilités, statistiques, analyse numérique, équations aux dérivées partielles déterministes et
stochastiques, approximation, calcul haute performance, algorithmique… Une grande partie de la
communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce
thème porteur.
Gestion de données
Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui ne
permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été
déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer
le principe qui veut qu’une requête sur un SGBD fournisse une réponse complète et correcte sans tenir
compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données
fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que le SGBD
puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui
90
permettraient de guider le scientifique dans sa recherche .
Dans le domaine des données clients, il existe également de réels besoins d'exploitation de ces données, en
92
raison notamment de la forte augmentation de leur volume des dernières années . Le big data et les
technologies associées permettent de répondre à différents enjeux tels que l'accélération des temps d’analyse
des données clients, la capacité à analyser l’ensemble des données clients et non seulement un échantillon de
celles-ci ou la récupération et la centralisation de nouvelles sources de données clients à analyser afin
d’identifier des sources de valeur pour l’entreprise.
Gestion de l'entropie
Le déluge de données qui alimente le big data (et dont certaines sont illégales ou incontrôlées) est souvent
métaphoriquement comparé à la fois à un flux continu de nourriture, de pétrole ou d’énergie (qui alimente
93
les entreprises du data mining et secondairement la société de l’information ) qui expose au risque
43
d’infobésité et pourrait être comparé à l’équivalent d’une « pollution » du cyberespace et de la noosphère
(métaphoriquement, le big data correspondrait pour partie à une sorte de grande marée noire
informationnelle, ou à une eutrophisation diffuse mais croissante et continue du monde numérique pouvant
94
conduire à une dystrophisation, voire à des dysfonctions au sein des écosystèmes numériques) .
Face à cette « entropie informationnelle » quelques réponses de type néguentropique sont nées (Wikipédia
en fait partie en triant et restructurant de l’information déjà publiée).
D’autres réponses ont été la création de moteurs de recherche et d’outils d’analyse sémantique et de fouille
de flots de données, de plus en plus puissants et rapides.
Néanmoins, l'analyse du big data tend elle-même à engendrer du big data, avec un besoin de stockage et de
serveurs qui semble exponentiel.
Bilan énergétique
Parallèlement à la croissance de la masse et du flux de données, une énergie croissante est dépensée d'une
part dans la course aux outils de datamining, au chiffrement/déchiffrement et aux outils analytiques et
d’authentification, et d'autre part dans la construction de fermes de serveurs qui doivent être refroidis ; au
détriment du bilan énergétique et électrique du Web.
Idées reçues
En 2010, les jeux de données produites par l’homme sont de plus en plus complétés par d'autres données,
massivement acquises de manière passive et automatique par un nombre croissant de capteurs électroniques
et sous des formes de plus en plus interopérables et compréhensibles par les ordinateurs. Le volume de
données stockées dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur
internet, les uns voient dans le big data intelligemment utilisé une source d’information qui permettrait de
lutter contre la pauvreté, la criminalité ou la pollution. Et à l'autre extrémité du spectre des avis, d'autres,
souvent défenseurs de la confidentialité de la vie privée, en ont une vision plus sombre, craignant ou
95
affirmant que le big data est plutôt un Big Brother se présentant dans de « nouveaux habits » , « dans des
96
vêtements de l’entreprise » .
En 2011 à l'occasion d'un bilan sur 10 ans d'Internet pour la société, Danah Boyd (de Microsoft Research) et
Kate Crawford (University of New South Wales) dénonçaient de manière provocatrice six problèmes liés à
des idées reçues sur le big data : « L’automatisation de la recherche change la définition du savoir (…) Les
revendications d’objectivité et d’exactitude sont trompeuses (…) De plus grosses données ne sont pas
toujours de meilleures données (…) Toutes les données ne sont pas équivalentes (…) Accessible ne signifie
43
pas éthique (…) L’accès limité aux big data crée de nouvelles fractures numériques » (dont entre pauvres
43
et riches) .
Risques et Problèmes
Plusieurs types de risques d'atteinte à la vie privée et aux droits fondamentaux sont cités par la littérature :
Critiques
Gouvernance et mégadonnées
123
Elle nécessite un débat citoyen constant ainsi que des modes de gouvernance et de surveillance
124
adaptés car des États, des groupes ou des entreprises ayant des accès privilégiés au big data peuvent en
extraire très rapidement un grand nombre de « données personnelles diffuses » qui, par croisement et
analyse, permettent un profilage de plus en plus précis, intrusif et parfois illégal (faisant fi de la protection
de la vie privée) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel,
religieux ou professionnel (exemple du programme PRISM de la NSA), de leurs activités personnelles, leurs
habitudes de déplacement, d’achat et de consommation, ou encore de leur santé. Cette question renvoie
directement à la Déclaration Universelle des droits de l'Homme qui indique, dans l'article 12, que « Nul ne
sera l'objet d'immixtions arbitraires dans sa vie privée, sa famille, son domicile ou sa correspondance, ni
d'atteintes à son honneur et à sa réputation. Toute personne a droit à la protection de la loi contre de telles
125 43
immixtions ou de telles atteintes » .« La montée des big data amène aussi de grandes responsabilités ».
126
En matière de santé publique notamment, des enjeux éthiques forts existent .
Sur la scène européenne, un nouveau règlement a été mis en place dans le courant de l'année 2015: le GDPR
(General Data Protection Regulation). Il s'agit d'un règlement qui modifie le cadre juridique relatif à la
protection des données personnelles au sein de l’union européenne. Le GDPR rappelle que toute personne
physique devrait avoir le contrôle de données à caractère personnel la concernant. Tout opération
économique se doit, de plus, d'être transparente, le règlement en assure la sécurité juridique (article 13).
127
Enfin la protection des données personnelles est garantie par ce nouveau règlement (article 17) .
Virtualisation
La virtualisation des données est un moyen de rassembler des données provenant de plusieurs sources dans
une seule « vue ». L'assemblage est virtuel : contrairement à d'autres méthodes, la plupart des données
128
restent en place et sont extraites des sources brutes à la demande .
Notes et références
1. Prononciation en anglais standard retranscrite selon la norme API.
2. [PDF] Commission générale de terminologie et de néologie, Journal officiel de la République
française du 22 août 2014 [lire en ligne (https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEX
T000029388087)].
3. « mégadonnées » (http://www.gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26507313), Le
Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le
31 janvier 2019).
4. « Big Data – Mastère Spécialisé® de gestion et analyse des données massives » (http://www.t
elecom-paristech.fr/formation-continue/masteres-specialises/big-data.html), sur École
d'Ingénieurs : Télécom ParisTech (consulté le 13 décembre 2017)
5. CEA, « Conférence : voyage au coeur du Big Data » (http://www.cea.fr/multimedia/Pages/video
s/culture-scientifique/technologies/conference-big-data.aspx), sur CEA/Médiathèque,
5 juillet 2017 (consulté le 4 septembre 2017)
6. (en) Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way
We Think about the World (http://faculty.cord.edu/andersod/The%20Rise%20of%20Big%20Dat
a.docx), The. Foreign Aff., 92, 28.
7. Les médias dans la moulinette du « big data » (https://www.lemonde.fr/sciences/article/2014/0
1/06/les-medias-dans-la-moulinette-du-big-data_4343574_1650684.html), 6 janvier 2014,
consulté 12 janvier 2014.
8. « Le Big Data dans la campagne présidentielle US » (http://123opendata.com/blog/big-data-ca
mpagne-presidentielle-us/), sur 123opendata.com (consulté le 13 décembre 2017)
9. Pierre Delort, « Big Data : un ADN utilisateur séquençable pour moins de 1000 $ », lesechos.fr,
7 mars 2012 (lire en ligne (http://lecercle.lesechos.fr/entreprises-marches/high-tech-medias/inte
rnet/221144150/big-data-adn-utilisateur-sequencable-moins-1/), consulté le
13 décembre 2017)
10. « La sécurité se met résolument au «Big Data» », LeMagIT, mars 2012 (lire en ligne (http://ww
w.lemagit.fr/article/ids-ips-siem/10640/1/la-securite-met-resolument-big-data/), consulté le
13 décembre 2017)
11. Michel Cartier, « Le "Big Data" » (http://www.21siecle.quebec/table-des-matieres-2/le-big-
data/), sur 21e siècle
12. (en-US) « Big data : l’expérience client ultime ? », Tech Page One, 25 janvier 2016 (lire en ligne
(http://www.techpageone.fr/business-fr/big-data-experience-client-ultime/), consulté le
31 mai 2017)
13. (en)CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data (http://ww
w.csail.mit.edu/node/2142), Tackling the Challenges of Big Data, janvier 2014, consulté 2014-
01-12
14. Création au Collège de France d'une Chaire « Sciences des données » en 2018. (https://www.
college-de-france.fr/site/stephane-mallat/index.htm), college-de-france.fr.
15. [PDF]Gouvernement français (2012) - Investissements d’avenir (http://investissement-avenir.go
uvernement.fr/sites/default/files/user/AAP%20Cloud%20Computing%203%20-%20Big%20dat
a.pdf) – Fonds national pour la société numérique, Appel à projets no 3 - Big Data.
16. Big Data Paris, conférence-exposition, 20-21 mars 2012 (http://bigdataparis.com/fr-index.php).
17. (en) « The AI revolution in science », Science | AAAS, 5 juillet 2017 (lire en ligne (http://www.sc
iencemag.org/news/2017/07/ai-revolution-science), consulté le 7 juillet 2017)
18. Non accessible le 31 mars 2019 (http://www.research.ibm.com/visual/projects/chromogram.htm
l), sur ibm.com
19. Watters, Audrey, Visualize Big Data with Flowing Media (http://www.readwriteweb.com/start/20
10/04/visualize-big-data-with-flowing-media.php), ReadWriteWeb. 15 avril 2010
20. (en) The World’s Technological Capacity to Store, Communicate, and Compute Information
tracking the global capacity of 60 analog and digital technologies during the period from 1986
to 2007 (http://www.martinhilbert.net/WorldInfoCapacity.html)
21. (en) Gil Press, « A Very Short History Of Big Data », Forbes, 9 mai 2013 (lire en ligne (https://w
ww.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#69c1ed6465a1),
consulté le 13 décembre 2017)
22. Gil Press (2013) « une très courte histoire du big data » Forbes.com, daté du 5 mai 2013,
23. Tréguier, V. (2014). « Mondes de données et imaginaires: vers un monde cybernétique (http://d
umas.ccsd.cnrs.fr/dumas-01086598/document) » et Résumé (http://dumas.ccsd.cnrs.fr/dumas-
01086598/document) ; Library and information sciences. 2014, [PDF], 53 pages
24. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS:
Crossroads, The ACM Magazine for Students, 19(1), 44-49
25. (en) Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining:
challenges, issues, and opportunities (http://faculty.ksu.edu.sa/mejdl/Publications/big-data-to-bi
g-data-mining.pdf). In Database Systems for Advanced Applications (p. 1-15). Springer Berlin
Heidelberg
26. Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19
(http://www.sciencedirect.com/science/article/pii/S1742684709700138 résumé])
27. (en) Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
28. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks,
and Specters of 1984. Newsweek, Incorporated.
29. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of
Michigan Press.
30. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), janvier 1975, 6-14.
31. (en)hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on
Professor Miller's" The Assault on Privacy (http://scholarship.law.duke.edu/cgi/viewcontent.cgi?
article=1213&context=faculty_scholarship)". University of Pennsylvania Law Review, 970-991.
32. (en) Froomkin, A. M. (2000). The death of privacy ? (http://media.usm.maine.edu/~lenny/privac
y-deathof.pdf) ; Stanford Law Review, 1461-1543.
33. (en) Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
34. Askland, A. (2006).
[http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?
abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault on Privacy (http://paper
s.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid
=3). St. Louis University Public Law Review, 25(33), et résumé (http://papers.ssrn.com/sol3/pa
pers.cfm?abstract_id=1406744)
35. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic
Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring
of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy
Rights, The. Software LJ, 4, 493. résumé]).
36. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
37. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?
PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
38. (en) Michael Minelli, Michele Chambers et Ambiga Dhiraj, Big Data, Big Analytics : Emerging
Business Intelligence and Analytic Trends for Today's Businesses, Wiley, 22 janvier 2013
(ISBN 978-1-118-14760-3)
39. (en) « Application Delivery Strategies » (http://blogs.gartner.com/doug-laney/files/2012/01/ad94
9-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf) [PDF], sur
blogs.gartner.com, 6 février 2001
40. « Les 3 V du Big Data : Volume, Vitesse et Variété », JDN, 31 mai 12 (lire en ligne (http://www.j
ournaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-
variete.shtml), consulté le 13 décembre 2017)
41. (en-US) « Big Data Analytics | IBM Analytics » (http://www-01.ibm.com/software/data/bigdata/),
sur www-01.ibm.com (consulté le 13 décembre 2017)
42. (en) Manovich L (2011) ‘Trending: The Promises and the Challenges of Big Social Data’,
Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press,
Minneapolis, MN.[15 juillet 2011].
43. Big data : la nécessité d’un débat (traduction collaborative d’un essai de Danah boyd et Kate
Crawford présentant “Six provocations au sujet du phénomène des big data”, présenté lors du
Symposium sur les dynamiques de l’internet et de la société : “Une décennie avec Internet”,
organisé par l’Oxford Internet Institute, le 21 septembre 2011) (http://www.internetactu.net/201
1/09/23/big-data-la-necessite-d%E2%80%99un-debat/comment-page-1/), FING,
Internet.Actu.Net
44. « Étude IDC-EMC, « Extracting value from chaos » » (http://www.emc.com/collateral/analyst-re
ports/idc-extracting-value-from-chaos-ar.pdf), sponsorisée par EMC Gartner, citée par Delphine
Cuny sous le titre « "Big data" : la nouvelle révolution », Virginia Rometty, La tribune, no 42, 29
mars au 4 avril 2013, p. 4
45. « The Big Data révolution », Le journal, CNRS, no 28, janvier 2013 (lire en ligne (http://www.cnr
s.fr/fr/pdf/cim/CIM28.pdf)).
46. (en-US) Janet Wiener et Nathan Bronson, « Facebook’s Top Open Data Problems » (https://res
earch.fb.com/facebook-s-top-open-data-problems/), sur Facebook Research, 22 octobre 2014
(consulté le 15 mars 2017)
47. (en) Shaun de Witt, Richard Sinclair, Andrew Sansum et Michael Wilson, « Managing Large
Data Volumes from Scientific Facilities », ERCIM News, avril 2012 (lire en ligne (http://ercim-ne
ws.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities))
48. dataraxy, « Big data : du concept à la mise en œuvre. Premiers bilans. » (http://blog.dataraxy.c
om/post/2013/07/10/Big-data-:-du-concept-%C3%A0-la-mise-en-%C5%93uvre.-Premiers-bilan
s.), sur blog.dataraxy.com, 10 juillet 2013 (consulté le 13 décembre 2017)
49. (en) Lee Gomes, « Data Analysis Is Creating New Business Opportunities », MIT Technology
Review, 2 mai 2011 (lire en ligne (http://www.technologyreview.com/news/423897/data-analysi
s-is-creating-new-business-opportunities/), consulté le 13 décembre 2017)
50. Pierre Brunelle, Déchiffrer le big data, Simplement : Acquérir les outils pour agir, de la réflexion
à l'usage. (French Edition), Sceaux, Pierre Brunelle, 2016, 129 p. (ISBN 978-1-5394-0933-5),
p. 12
51. (en-US) « IBM Understanding Big Data 2017/12/13 15:54:47 » (https://www14.software.ibm.co
m/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&S_CMP=is_bdebook
1_bda), sur www14.software.ibm.com, 24 février 2005 (consulté le 13 décembre 2017)
52. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delo
rt.pdf#13
53. (en-US) « le Blog ANDSI » DSI Big Data » (http://www.andsi.fr/tag/dsi-big-data/), sur
www.andsi.fr (consulté le 13 décembre 2017)
54. Pierre Delort, « Big Data car Low-Density Data ? La faible densité en information comme
facteur discriminant », lesechos.fr, 3 avril 2013 (lire en ligne (http://lecercle.lesechos.fr/entrepre
neur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-co
m), consulté le 13 décembre 2017)
55. Delort, Le Big Data, Paris, Presses Universitaires de France, 2015, 128 p.
(ISBN 978-2-13-065211-3, lire en ligne (http://www.puf.com/Que_sais-je:Le_Big_Data))
56. « Le Big Data - PUF » (http://www.puf.com/Que_sais-je:Le_Big_Data), sur www.puf.com/,
12 avril 2015
57. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-
proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
58. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf]
59. Thierry Lévy-Abégnoli, « Explosion des volumes de données : de nouvelles architectures
s’imposent », ZDNet France, 25 février 2013 (lire en ligne (http://www.zdnet.fr/actualites/explosi
on-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm), consulté
le 13 décembre 2017)
60. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
61. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
62. https://www.hpc-lr.univ-montp2.fr/
63. (en) Michel Sumbul, « HDFS » (http://whatsbigdata.be/hdfs), sur http://whatsbigdata.be/hdfs,
24 juin 2014 (consulté le 28 juillet 2014)
64. (en) « HDFS » (http://whatsbigdata.be/hdfs/), sur http://whatsbigdata.be/hdfs/, 24 juin 2014
(consulté le 28 juillet 2014)
65. (en) « LHC Brochure, English version. A presentation of the largest and the most powerful
particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its
role, characteristics, technologies, etc. are explained for the general public. » (http://cds.cern.c
h/record/1278169?ln=en), CERN-Brochure-2010-006-Eng. LHC Brochure, English version.,
CERN (consulté le 20 janvier 2013)
66. (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron
Collider (LHC) in the form of questions and answers. » (http://cds.cern.ch/record/1092437?ln=e
n), CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le
20 janvier 2013)
67. Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,
19 janvier 2011, p. 282–83 (DOI 10.1038/469282a (https://dx.doi.org/10.1038%2F469282a),
lire en ligne (http://www.nature.com/news/2011/110119/full/469282a.html)).
68. Data, data everywhere Information has gone from scarce to superabundant. That brings huge
new benefits, says Kenneth Cukier (interviewed here)—but also big headaches (http://www.eco
nomist.com/node/15557443), The Economist, publié 25 février 2010
69. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of
growth: Big data analytics and policies (http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf
#page=6), en ligne sur le site de l'OCDE, mis à jour 21 juillet 2014, PDF, 14 p
70. Delort Pierre (2012), Big data (http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.
pdf#page=6), Association Nationale des DSI, PDF 12p
71. (en) « NASA Goddard Introduces the NASA Center for Climate Simulation » (http://www.nasa.g
ov/centers/goddard/news/releases/2010/10-051.html), sur www.nasa.gov (consulté le
13 décembre 2017)
72. Acclimatise (2017) Data philanthropy will drive climate resilient development (http://www.acclim
atise.uk.com/2017/11/27/data-philanthropy-will-drive-climate-resilient-development/) ;
Acclimatise News 27 novembre 2017 Development, Earth Observation & Climate Data
73. Kirkpatrick, R. (2011). Data philanthropy: Public & private sector data Sharing for global
resilience. UN Global Pulse, 16, 2011.
74. Pawelke, A., & Tatevossian, A. R. (2013). Data philanthropy: Where are we now. United
Nations Global Pulse Blog.
75. Kshetri, N. (2014). The emerging role of Big Data in key development issues: Opportunities,
challenges, and concerns (http://journals.sagepub.com/doi/full/10.1177/2053951714564227).
Big Data & Society, 1(2), 2053951714564227.
76. (en) Taylor L (2016). The ethics of big data as a public good: which public ? Whose good ?.
Phil. Trans. R. Soc. A, 374(2083), 2016012 résumé (http://rsta.royalsocietypublishing.org/conte
nt/374/2083/20160126) ; l'un des 15 thèmes traités par ‘The ethical impact of data science (htt
p://rsta.royalsocietypublishing.org/content/374/2083)’ (2016).
77. Non trouvé le 31 mars 2019 (http://bosmol.com/2013/02/how-big-data-analysis-helped-preside
nt-obama-defeat-romney-in-2012-elections.html), sur bosmol.com
78. The GovLab Index: The Data Universe (http://thegovlab.org/govlab-index-the-digital-universe/),
sur thegovlab.org, consulté le 31 mars 2019.
79. http://www.informationweek.com/government/enterprise-applications/image-gallery-
governments-10-most-powerf/224700271.
80. 2012 Energy Summit (http://blog.governor.utah.gov/2012/02/2012-energy-summit/) sur le site
de l'État de l'Utah
81. http://www.innovation2030.org/fr/
82. Le Business Model de la revente de données (https://www.my-business-plan.fr/revente-donnee
s), sur my-business-plan.fr, consulté le 31 mars 2019
83. (en) « Data, data everywhere », The Economist, 25 février 2010 (lire en ligne (http://www.econ
omist.com/node/15557443), consulté le 9 décembre 2012)
84. Non trouvé le 31 mars 2019 (http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-
cas/data-mining-clients.php), sur bayesia.com
85. (en) « When the Art Is Watching You » (https://www.wsj.com/articles/when-the-art-is-watching-y
ou-1418338759?mod=e2tw), sur Wall Street Journal, 11 décembre 2014
86. « Assurances : 5 tendances qui vont bouleverser le secteur » (http://www.frenchweb.fr/assuran
ces-5-tendances-qui-vont-bouleverser-le-secteur/240644), sur Frenchweb, 2 mai 2016
(consulté le 10 mai 2016)
87. Schiermeier, Quirin (2016) Germany enlists machine learning to boost renewables revolution ;
Grids struggle to cope with erratic nature of wind and solar power (http://www.nature.com/new
s/germany-enlists-machine-learning-to-boost-renewables-revolution-1.20251) ; 13 July 2016]
88. Development of innovative weather and power forecast models for the grid integration of
weather dependent energy sources (http://www.projekt-eweline.de/en/index.html), EWeLiNE ,
consulté 2016-07-14
89. Régis Castagné (Interoute) : "Big Data et Cloud Computing seront intimement liés" (http://www.
silicon.fr/regis-castagne-interoute-big-data-cloud-computing-intimement-lies-90528.html),
silicon.fr, 7 novembre 2013.
90. http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
91. (en) Christian Gout, Zoé Lambert et Dominique Apprato, Data approximation : mathematical
modelling and numerical simulations, Paris, EDP Sciences, 2019, 168 p.
(ISBN 978-2-7598-2367-3)
92. Infographie - l’exploitation des données clients à l’ère du Big Data (http://blog.markess.fr/2013/
03/infographie-exploitations-des-donnees-clients-avec-le-big-data.html), blog MARKESS
International
93. Hilbert, M. (2013). Big data for development: From information-to knowledge societies. SSRN
2205145.
94. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World (http://www.
democracynow.org/2015/3/13/data_and_goliath_bruce_schneier_on) et partie 2 (http://www.de
mocracynow.org/blog/2015/3/13/part_2_bruce_schneier_on_the) et transcriptions écrites (en
anglais), par la Chaine « Democracy Now », consulté 2015-05-08
95. Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
96. (en) The Age of Big Data (https://www.nytimes.com/2012/02/12/sunday-review/big-datas-impac
t-in-the-world.html?_r=0), article de STEVE LOHRFEB. Publié le 11, 2012 par le New-York
Times
97. Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women,
knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall,
Boston: Unwin Hyman, 298–320.
98. Pucheu David, « L'altérité à l'épreuve de l'ubiquité informationnelle », Hermès, La Revue
1/2014 (no 68) , p. 115-122 Lien vers Cairn Info (http://www.cairn.info/revue-hermes-la-revue-2
014-1-page-115.htm.)
99. Antoinette Rouvroy. (2014). "Des données sans personne: le fétichisme de la donnée à
caractère personnel à l'épreuve de l'idéologie des big data (http://works.bepress.com/cgi/viewc
ontent.cgi?article=1069&context=antoinette_rouvroy)" Contribution en marge de l'Étude
annuelle du Conseil d'État. Le numérique et les droits et libertés fondamentaux. (résumé (htt
p://works.bepress.com/antoinette_rouvroy/55))
00. Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
01. (en) « Acxiom Hacker Gets Prison Sentence », DMN, 28 mars 2005 (lire en ligne (http://www.d
mnews.com/acxiom-hacker-gets-prison-sentence/article/87117/), consulté le
13 décembre 2017)
02. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott
Levine was sentenced to eight years in prison (http://www.computerworld.com/article/2543400/
cybercrime-hacking/appeals-court--stiff-prison-sentence-in-acxiom-data-theft-case-
stands.html), consulté 2015-05-08
03. en anglais : "largest ever invasion and theft of personal data"
04. (en) John Leyden, « Acxiom database hacker jailed for 8 years », The Register, 23 février 2006
(lire en ligne (https://www.theregister.co.uk/2006/02/23/acxiom_spam_hack_sentencing/),
consulté le 13 décembre 2017)
05. reportage diffusé par Canal+ (http://www.tagtele.com/videos/voir/151950/) « Big Data : les
nouveaux devins »
06. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After
Internet Utopia? (http://www.bcongresos.com/congresos/gestor/ckfinder/userfiles/files/ACOP/Pr
esentaciones/Evgeny%20Morozov.pdf). PublicAffairs, juin 2012
07. Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the
age of Facebook (http://firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/27
75/2432). First Monday, 15(1).
08. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook (htt
p://pages.uoregon.edu/koopman/courses_readings/phil123-net/privacy/hull_context_privacy_f
b.pdf). Ethics and information technology, 13(4), 289-302
09. What Big Data Needs (http://www.technologyreview.com/news/424104/what-big-data-needs-a-
code-of-ethical-practices/)
10. Ethical issues in data mining (http://alexandria.tue.nl/repository/freearticles/612259)
11. Ethics of Big Data. (http://www.ethicsofbigdata.com/)
12. http://www.cio.co.uk/insight/data-management/ethical-questions-around-big-data/ Ethical
Questions around Big Data]
13. Jean-Paul Deléage, « Avec Edward Snowden, l'homme sorti de l'ombre qui voulait éclairer le
monde ! », Écologie & politique 1/2014 (No 48) , p. 5-12 URL : http://www.cairn.info/revue-
ecologie-et-politique-2014-1-page-5.htm. ; DOI : 10.3917/ecopo.048.0005
14. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on
privacy (http://ro.uow.edu.au/cgi/viewcontent.cgi?article=1716&context=infopapers&sei-redir=1
&referer=http%3A%2F%2Fscholar.google.fr%2Fscholar%3Fhl%3Dfr%26q%3DAssault%2Bo
n%2Bprivacy%2B%26btnG%3D%26lr%3D#search=%22Assault%20privacy%22). Faculty of
Informatics-Papers, 711
15. Ohm, P. (2009). The rise and fall of invasive ISP surveillance (http://illinoislawreview.org/wp-co
ntent/ilr-content/articles/2009/5/Ohm.pdf). University of Illinois Law Review, 30 aout 2008
16. Tene, O., & Polonetsky, J. (2012). « Big data for all: Privacy and user control in the age of
analytics”. Nw. J. Tech. & Intell. Prop., 11, xxvii
17. Solove, D. J. (2011). Why privacy matters even if you have ‘nothing to hide’. Chronicle of
Higher Education, 15
18. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?
article=1159&context=faculty_publications I've Got Nothing to Hide' and Other
Misunderstandings of Privacy]. San Diego law review, 44, 745.
19. Schneier, B (2008). What our top spy doesn’t get: Security and privacy aren’t opposites. Wired.
com.
20. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy:
lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé (https://
www.jstor.org/stable/20650322)).
21. La commissaire en chef de la concurrence au sein de l'UE estime que les données massives
affectent négativement la concurrence (https://www.developpez.com/actu/181180/La-commiss
aire-en-chef-de-la-concurrence-au-sein-de-l-UE-estime-que-les-donnees-massives-affectent-n
egativement-la-concurrence/), sur developpez.com du 3 janvier 2018, consulté le 31 mars
2019.
22. « Rapport du CIB sur les mégadonnées et la santé », rapport scientifique, 2015 (lire en ligne (h
ttp://unesdoc.unesco.org/images/0024/002487/248724f.pdf))
23. Laurence Allard, Pierre Grosdemouge et Fred Pailler, « Big Data: la nécessité d’un débat » (htt
p://internetactu.blog.lemonde.fr/2011/10/05/big-data-la-necessite-dun-debat), sur un blog du
Monde, 5 octobre 2011.
24. Maxime Ouellet, André Mondoux, Marc Ménard, Maude Bonenfant et Fabien Richert, "Big
Data", gouvernance et surveillance, Montréal, Université du Québec à Montréal, 2014, 65 p.
(ISBN 978-2-920752-11-5, lire en ligne (http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIER
S_2014-1.pdf)).
25. « Déclaration universelle des droits de l'Homme » (http://www.textes.justice.gouv.fr/textes-fond
amentaux-10086/droits-de-lhomme-et-libertes-fondamentales-10087/declaration-universelle-de
s-droits-de-lhomme-de-1948-11038.html), sur http://www.textes.justice.gouv.fr, 1er août 2001.
26. Vayena, E., Salathé, M., Madoff, L. C., & Brownstein, J.S. (2015). Ethical challenges of big data
in public health (http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003904).
PLoS computational biology, 11(2), e1003904
27. « RÈGLEMENT DU PARLEMENT EUROPÉEN ET DU CONSEIL du 27 avril 2016 relatif à la
protection des personnes physiques à l'égard du traitement des données à caractère personnel
et à la libre circulation de ces données » (http://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?
uri=CELEX:32016R0679&from=FR), sur http://www.eur-lex.europa.eu, 27 avril 2016.
28. Voir Data virtualization (en).
29. « Architecture data temps réel, par où commencer ? » (https://www.nexworld.fr/architecture-dat
a-temps-reel-debuter/), sur Nexworld, 4 janvier 2019 (consulté le 13 mars 2019)
Voir aussi
Droit d'auteur : les textes sont disponibles sous licence Creative Commons attribution, partage dans les mêmes
conditions ; d’autres conditions peuvent s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi que les
crédits graphiques. En cas de réutilisation des textes de cette page, voyez comment citer les auteurs et mentionner la
licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le
paragraphe 501(c)(3) du code fiscal des États-Unis.