Vous êtes sur la page 1sur 22

Big data

1 2, 3
Le big data /ˌbɪɡ ˈdeɪtə/ (litt. « grosses données » en anglais), les mégadonnées ou les données
4
massives , désigne des ensembles de données devenus si volumineux qu'ils dépassent l'intuition et les
capacités humaines d'analyse et même celles des outils informatiques classiques de gestion de base de
5
données ou de l'information .

L’explosion quantitative (et souvent redondante) de la donnée numérique contraint à de nouvelles manières
6
de voir et analyser le monde . De nouveaux ordres de grandeur concernent la capture, le stockage, la
recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data
sont énormes et en partie encore insoupçonnées [non neutre] ; on évoque souvent de nouvelles possibilités
7
d'exploration de l'information diffusée par les médias , de connaissance et d'évaluation, d'analyse
tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des
8
risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques ,
9
mais aussi en termes de génomique ou métagénomique , pour la médecine (compréhension du
fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux
changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur
« internet de l'énergie »), l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des
10
réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité . La
multiplicité de ces applications laisse d'ailleurs déjà poindre un véritable écosystème économique
11
impliquant, d'ores et déjà, les plus gros acteurs du secteur des technologies de l'information .

Certains [Qui ?] supposent que le big data pourrait aider les entreprises à réduire leurs risques et faciliter la
prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus
12
personnalisée et contextualisée .
13 14
Divers experts, grandes institutions (comme le MIT aux États-Unis, le Collège de France en Europe),
15 16
administrations et spécialistes sur le terrain des technologies ou des usages considèrent le phénomène
big data comme l'un des grands défis informatiques de la décennie 2010-2020 et en ont fait une de leurs
nouvelles priorités de recherche et développement, qui pourrait notamment conduire à l'Intelligence
17
artificielle en étant exploré par des réseaux de neurones artificiels autoapprenants .
Sommaire
Histoire
Dimensions
Volume
Variété
Vélocité
Différence avec l'informatique décisionnelle
Représentation Une visualisation des données créée par
18
Modèles IBM montre que les big data sur les
Stockage modifications de Wikipedia par le robot
Pearle ont plus de signification lorsqu'elles
Applications sont mises en valeur par des couleurs et
Recherche scientifique 19
des localisations .
Exemples d'applications pour la planète et le
climat
Politique
Secteur privé
Secteur énergétique
Perspectives et évolutions
Modélisation de données
Gestion de données
Outils de gestion des données
Gestion de l'entropie
Bilan énergétique
Idées reçues
Risques et Problèmes
Critiques
Gouvernance et mégadonnées
Virtualisation
Big data temps réel
Notes et références
Voir aussi
Articles connexes
Liens externes
Bibliographie

Histoire
Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de l'information et
comme espace virtuel prenant une importance volumique croissante dans le cyberespace.
L'expression « big data » serait apparue en octobre 1997 selon
les archives de la bibliothèque numérique de l'Association for
Computing Machinery (ACM), dans un article scientifique sur
les défis technologiques à relever pour visualiser les « grands
21
ensembles de données » .

Selon V. Tréguier (2014) et selon la « très courte histoire du


22
big data » publiée par Gil Press en 2013 pour la période
1944-2012, sa naissance est liée aux progrès des systèmes de
stockage, de fouille et d'analyse de l'information numérisée,
qui ont permis une sorte de big bang de l'information stockée
puis une croissance inflationniste de l'univers de la donnée Croissance de la capacité mondiale de
20
numérisée. Mais ses prémisses sont à trouver dans le stockage de données et informations .
croisement de la cybernétique et de courants de pensée nés
durant la Seconde Guerre mondiale, selon lesquels l’homme et
le monde peuvent être représentés comme « des ensembles informationnels, dont la seule différence avec la
machine est leur niveau de complexité. La vie deviendrait alors une suite de 0 et de 1, programmable et
23
prédictible » ajoute V. Tréguier.

Les évolutions qui caractérisent le big data et ses algorithmes, ainsi que celles de la science des données sont
en partie cachées (au sein des services de renseignement des grands États) et si rapides et potentiellement
24
profondes que peu de prospectivistes se risquent à pronostiquer son devenir à moyen ou long terme , mais
la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunités
25
commerciales que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir
26
émerger des systèmes ubiquistes, orwelliens et totalitaires capables de fortement contrôler, surveiller et/ou
influencer les individus et groupes.
27
Les risques de dérives de la part de gouvernements ou d'entreprises ont surtout d'abord été décrits par
Orwell à la fin de la dernière guerre mondiale, puis souvent par la science fiction. Avec l'apparition de
grandes banques de données dans les années 1970 (et durant toute la période de la guerre froide) de
28
nombreux auteurs s'inquiètent des risques pris concernant la protection de la vie privée , en particulier
Arthur R. Miller (en) qui cite l'exemple de la croissance des données stockées relatives à la santé physique
29, 30, 31
et psychique des individus .

En 2000, Froomkin,dans un article paru dans la revue Stanford Law Review, se demande si la vie privée n'est
32
pas déjà morte , mais ce sont surtout les révélations d'Edward Snowden (2013) qui ont suscité une nouvelle
prise de conscience et d'importants mouvements de protestation citoyenne.
Les quatre droits et « états de base de la vie privée » tels qu'énoncés par Westin en 1962 (droit à la
33
solitude , à l'intimité, à l'anonymat dans la foule et à la réserve) sont menacés dans un nombre croissant de
34 35
situations , de même que la protection du contenu des courriers électroniques qui fait partie du droit à la
36
vie privée .

Dimensions
Le big data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour
37 38
en tirer du sens . Ces analyses sont appelées big analytics ou « broyage de données ». Elles portent sur
des données quantitatives complexes à l'aide de méthodes de calcul distribué et de statistiques.
39
En 2001, un rapport de recherche du META Group (devenu Gartner) définit les enjeux inhérents à la
croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle
40
dite « des 3V » (volume, vélocité et variété ). Ce modèle est encore largement utilisé aujourd’hui pour
41
décrire ce phénomène .
Le taux de croissance annuel moyen mondial du marché de la technologie et des services du big data sur la
période 2011-2016 devrait être de 31,7 %. Ce marché devrait ainsi atteindre 23,8 milliards de dollars en
2016 (d'après IDC mars 2013). Le big data devrait également représenter 8 % du PIB européen en 2020
(AFDEL février 2013).

Volume
42
C'est une dimension relative : le big data, comme le notait Lev Manovitch en 2011 , définissait autrefois
« les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est
rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs
43
de bureau pour analyser ou co-analyser de vastes ensembles de données .

Le volume des données stockées est en pleine expansion : les données numériques créées dans le monde
44
seraient passées de 1,2 zettaoctet par an en 2010 à 1,8 zettaoctet en 2011 , puis 2,8 zettaoctets en 2012 et
s'élèveront à 40 zettaoctets en 2020. À titre d'exemple, Twitter générait en janvier 2013, 7 téraoctets de
45
données chaque jour et Facebook 10 téraoctets . En 2014, Facebook Hive générait 4 000 To de data par
46
jour .

Ce sont les installations technico-scientifiques (météorologie, etc.) qui produiraient le plus de


données [réf. nécessaire]. De nombreux projets de dimension pharaonique sont en cours. Le radiotélescope
“Square Kilometre Array” par exemple produira 50 téraoctets de données analysées par jour, tirées de
47
données brutes produites à un rythme de 7 000 téraoctets par seconde .

Variété

Le volume des big data met les centres de données face à un réel défi : la variété des données. Il ne s'agit pas
de données relationnelles traditionnelles, ces données sont brutes, semi-structurées, voire non structurées
48
(cependant, les données non structurées devront, pour utilisation, être structurées ). Ce sont des données
complexes provenant du web (Web mining), au format texte (text mining) et images (image mining). Elles
peuvent être publiques (open data, Web des données), géo-démographiques par îlot (adresses IP), ou relever
de la propriété des consommateurs [réf. nécessaire]. Ce qui les rend difficilement utilisables avec les outils
traditionnels.

La démultiplication des outils de collecte sur les individus et sur les objets permet d’amasser toujours plus
49
de données . Et les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre
des données de natures différentes.

Vélocité

La vélocité représente la fréquence à laquelle les données sont à la fois générées, capturées, partagées et
50
mises à jour .

Des flux croissants de données doivent être analysés en quasi-temps réel (fouille de flots de données) pour
51
répondre aux besoins des processus chrono-sensibles . Par exemple, les systèmes mis en place par la
bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de
génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du
système quand les principaux opérateurs deviennent des machines capables de lancer des ordres d'achat ou
de vente à la nanoseconde (trading haute fréquence) sans disposer de tous les critères pertinents d'analyse
pour le moyen et long terme.
Différence avec l'informatique décisionnelle

Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de “V” supplémentaires
selon l’inspiration des services marketing), la maturation du sujet fait apparaître un autre critère plus
52
fondamental de différence avec l'informatique décisionnelle et concernant les données et leur utilisation :

Informatique décisionnelle : utilisation de statistique descriptive, sur des données à forte


densité en information afin de mesurer des phénomènes, détecter des tendances… ;
Big data : utilisation de statistique inférentielle, sur des données à faible densité en
53
information dont le grand volume permet d’inférer des lois (régressions…) donnant dès
54
lors au big data (avec les limites de l’inférence) des capacités prédictives .

Synthétiquement :

l'informatique traditionnelle, informatique décisionnelle comprise, est basée sur un modèle


du monde ;
55, 56
le big data vise à ce que les mathématiques trouvent un modèle dans les données .

Représentation

Modèles

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du big
data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en
jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gérer des bases
57 58
massivement parallèles . Des patrons d’architecture (“big data architecture framework", BDAF) sont
proposés par les acteurs de ce marché comme MapReduce créé par Google et utilisé dans le framework
Hadoop. Avec ce système, les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées
en parallèles (map). Les résultats sont ensuite rassemblés et récupérés (reduce). Teradata, Oracle ou EMC
(via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont
les configurations sont optimisées. Ils sont concurrencés par des éditeurs comme SAP et plus récemment
59
Microsoft . Les acteurs du marché s’appuient sur des systèmes à forte évolutivité horizontale et sur des
solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles
60
classiques .

Stockage

Pour répondre aux problématiques big data, l’architecture de stockage des systèmes doit être repensée et les
modèles de stockage se multiplient en conséquence.

Cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et
61
en libre service sur des ressources informatiques partagées et configurables . Les services
les plus connus sont ceux de Google BigQuery, Big Data sur Amazon Web Services et
Microsoft Windows Azure.
Super calculateurs hybrides : les HPC pour high performance computing, qu’on retrouve en
France dans les centres nationaux de calculs universitaire tels que l’IDRIS, le CINES, mais
62
aussi au CEA ou encore le HPC-LR
Systèmes de fichiers distribués (ou DFS pour distributed files system) : les données ne sont
plus stockées sur une seule machine car la quantité est beaucoup trop importante. Les
données, les fichiers sont "découpés" en morceaux d'une taille définie et chaque morceau
63
63
est envoyé sur une machine bien précise utilisant du stockage local . Le stockage local est
préféré au stockage SAN et NAS pour des raisons de goulots d'étranglement au niveau du
réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de type SAN coûte
bien plus cher pour des performances bien moindres. Dans les systèmes de stockage
64
distribué pour le big data, l'on introduit le principe de data locality . Les données sont
sauvegardées là où elles peuvent être traitées.

Applications
Le big data trouve des applications dans de nombreux domaines : programmes scientifiques (CERN28
Mastodons), outils d'entreprises (IBM29, Amazon Web Services, BigQuery, SAP HANA) parfois
spécialisées (Teradata, Jaspersoft30, Pentaho31...) ou startups, ainsi que dans le domaine de l'open source
(Apache Hadoop, Infobright32, Talend33...) et de logiciels d'exploitation ouverts (avec par exemple le
logiciel ouvert d'analyse de big data H2O).

Recherche scientifique

Le big data en est issu et il alimente une partie de la recherche. Ainsi le Large Hadron Collider du CERN
utilise environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde ; Pour 600
millions de collisions par seconde, il reste après filtrage 100 collisions d'intérêt par seconde, soit 25 Po de
65, 66, 67
données à stocker par an, et 200 Po après réplication . Les outils d'analyse du big data pourraient
affiner l'exploitation de ces données.

Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a
amassé en quelques semaines plus de données que toutes celles précédemment collectées dans l’histoire de
l’astronomie. Il continue à un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stocké plus de
140 téraoctets d’information. Le Large Synoptic Survey Telescope prévu pour 2015 devrait en amasser
68
autant tous les cinq jours .

Décoder le premier génome humain a nécessité 10 ans, mais prend aujourd'hui moins d'une semaine : les
séquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois la loi de Moore
69
(qui a progressé d'un facteur 100 environ sur 10 ans) . En biologie, les approches massives basées sur une
logique d’exploration des données et de recherche d’induction sont légitimes et complémentaires des
70
approches classiques basées sur l'hypothèse initiale formulée . Le big data s'est aussi introduit dans le
domaine des protéines.

Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de données d’observations et de simulations
71
climatiques .

Les sciences sociales explorent des corpus aussi variés que le contenu de Wikipédia dans le monde ou les
millions de publications et de tweets sur Internet.

Exemples d'applications pour la planète et le climat

Le big data mondial contient des données essentielles « pour résoudre l'équation climatique », et notamment
pour améliorer l'efficacité énergétique des villes et bâtiments, pour les smartgrids, pour vérifier l'application
de règlementations visant à lutter contre la déforestation, la surpêche, la dégradation des sols, le gaspillage
alimentaire ou à mieux gérer les déchets, éco-consommer ou inciter les investisseurs à créer des villes
72
intelligentes , etc.
Lors de la COP 23 (Bonn, 2017) un événement parallèle de haut niveau organisé par le « Forum sur
l'innovation durable » et le PNUD a réuni des dirigeants de sociétés de données du secteur privé et des
représentants des Nations unies. Ce groupe a appelé à développer la « philanthropie des données », c'est-à-
73, 74
dire à massivement et de manière altruiste partager les données pour stimuler l'efficacité, l'innovation et
le soutien aux actions de protection du climat et de résilience face au changement climatique. Une meilleure
collecte, mise à disposition de tous, analyse et utilisation des données volumineuses est une condition selon
75
ce groupe pour atteindre l'objectif 2030 no 13 (pour le climat) de l'ONU et les objectifs de l'Accord de
72
Paris sur le climat . C'est ce qu'y a rappelé Amina J. Mohammed, Secrétaire générale adjointe des Nations
unies, dans son discours d'ouverture. C'est le cas notamment des données météo nécessaires à l'agriculture, à
72
la protection de l'économie et des infrastructures vulnérables aux aléas climatiques .
En 2017, le PNUD aide plus de 75 pays à moderniser leurs systèmes de surveillance météorologique et
climatiques. Dans les pays dits émergents, un effort reste à faire pour le « dernier kilomètre » ; par exemple
les « opérateurs mobiles » pourraient mieux recevoir l'information météorologique et aider à un partage des
données sur les récoltes et problèmes de culture via des téléphones portables ; les antennes relais pourraient
elles-mêmes, en lien avec des sociétés de Big Data devenir des plates-formes de regroupement de données
utiles à l'élaboration de plans locaux et nationaux d'adaptation au changement climatique, et utiles à
72
l'élaboration de stratégies sectorielles de résilience climatique .

Les difficultés d'anonymisation de la donnée privée restent cependant un important frein au partage efficace
de données massives entre les décideurs et le grand-public. La « philanthropie des données » vise à faire des
72
secteurs public et privé deux partenaires égaux .

En 2016, le PNUD a organisé un concours d'innovation (Climate Action Hackathon) qui a


attribué des bourses à 23 développeurs Web pour créer des applications mobiles de terrain
72
en Afrique, utilisant les données climatiques et météorologiques .

En 2017 un concours "Data for Climate Action Challenge" a été lancé début 2017 par Global
Pulse (Onu) pour susciter l'innovation en matière de données ouvertes axée sur l'exploitation
du Big Data et de l'analyse de données au service du bien commun. Ce concours vise à
catalyser l'action sur le changement climatique. Il a mis en relation 97 équipes de recherche
72
(semi-finalistes) avec des jeux de données venant de 11 entreprises .

En 2016 Taylor s'interroge : Quand le big data est présenté comme un commun ou un bien public ; de quel
76
bien parle-t-on ? et à quel public le destine-t-on réellement ? en citant notamment Robert Kirkpatrick
(directeur de UN Global Pulse) pour qui « le big data est comme un nouveau type de ressource naturelle (ou
non-naturelle) infiniment renouvelable, de plus en plus omniprésente - mais qui est tombée entre les mains
d'une industrie extractive opaque et largement non réglementée, qui commence seulement à se rendre
compte qu'il existe une opportunité sociale - et peut-être une responsabilité sociale - à s'assurer que ces
73, 76
données atteignent les personnes qui en ont le plus besoin » .

Politique

L’analyse du big data a joué un rôle important dans la campagne de ré-élection de Barack Obama,
77
notamment pour analyser les opinions politiques de la population .

Depuis 2012, le département de la Défense américain investit annuellement sur les projets big data plus de
78
250 millions de dollars . Le gouvernement américain possède six des dix plus puissants supercalculateurs
79
de la planète . La National Security Agency est actuellement en train de construire le Utah Data Center qui
80
stockera jusqu'à un yottaoctet d’informations collectées par la NSA sur internet . En 2013, le big data
81
faisait partie des sept ambitions stratégiques de la France déterminées par la Commission innovation 2030 .
Secteur privé
82
La revente de fichier de profil utilisateur peut participer au big data .

Walmart traite plus d'un million de transactions client par heure, importées dans des bases de données qui
83
contiendraient plus de 2,5 Po d’information . Facebook traite 50 milliards de photos. D’une manière
générale l'exploration de données de big data permet l’élaboration de profils clients dont on ne supposait pas
84
l’existence .

Le musée Solomon R. Guggenheim construit sa stratégie en analysant des données massives : dans les salles
des transmetteurs électroniques suivent les visiteurs tout au long de leur visite. Le musée détermine ainsi de
nouveaux parcours de visite en fonction des œuvres les plus appréciées, ou décider des expositions à mettre
85
en place .

Dans le domaine de l'assurance, l'augmentation du nombres d'objets connectés permet de recueillir un grand
86
nombre de données en temps réel. Elles aident à mieux connaître les personnes et les objets assurés .

Secteur énergétique

Les smart buildings (éventuellement au sein de smart cities) sont caractérisés par une « hybridation » entre
numérique et énergie.

Ces bâtiments ou logements individuels peuvent produire de l'énergie (voire être « positifs en énergie »). Ils
peuvent aussi produire des données sur cette énergie et/ou sur leur consommation d'énergies. Ces données
une fois agrégées et analysées peuvent permettre d'appréhender voire d'anticiper la consommation des
usagers, des quartiers, villes, etc. en fonction des variations du contexte, météorologique notamment.

L'analyse des données collectées de production (solaire, microéolien...) et de consommation dans un


bâtiment, par le biais des objets connectés et du smartgrid, permet aussi potentiellement de mieux gérer la
consommation des usagers (de manière « personnalisée »).

En attendant un développement plus large du stockage de l'énergie, les jours nuageux et sans vent il faut
encore faire appel à des centrales conventionnelles, et les jours exceptionnellement beaux et venteux (ex. : 8
mai 2016 où durant 4 heures le vent et le soleil ont généré plus de 90 % de l'électricité du pays, les centrales
électriques au charbon et au gaz doivent réduire à temps leur production). Un cas extrême est celui d’une
éclipse solaire (prévisible). La gestion de ces pics et intermittences coûte aujourd’hui plus de 500 millions
€/an à l’Allemagne et conduit à des émissions de CO2 et autres gaz à effet de serre que l’on voudrait
87
éviter . Grâce aux corrélations pouvant émerger de l'analyse fine des mégadonnées, les opérateurs de
l'énergie peuvent mieux appréhender les variations fines du gisement des énergies renouvelables et les
croiser avec la demande réelle.

Exemples

En 2009 le Centre national pour la recherche atmosphérique (NCAR) de Boulder dans le


Colorado a lancé un tel système. Il est mi-2016 opérationnel dans huit États américains.
Selon le Xcel Energy (entreprise de services publics basée à Denver, (Colorado) qui dispose
de la première capacité éolienne des États-Unis), cette approche a amélioré la prévision,
assez pour que depuis 2009, les clients aient évité US $ 60 millions/an de dépenses
correctives, et l’émission de plus d'un quart d'un million de tonnes CO2/an grâce à un
87
moindre recours aux énergies fossiles ;
En 2016, l’Allemagne a fait un pas important vers l’internet de l'énergie tel que proposé par
88
le prospectiviste Jeremy Rifkin en expérimentant un processus (EWeLiNE ) d’analyse
automatique du big data énergétique et météorologique.
Contexte : Avec 45 000 mégawatts, la capacité éolienne de l'Allemagne est la 3e au monde,
derrière la Chine et les États-Unis, et seule la Chine rivalise avec l’Allemagne en termes de
capacité solaire. 1/3 de l'électricité est en 2016 d’origine renouvelable et le gouvernement
87
cible au 80 % du total avant 2050 et 35 % avant 2020 . Ceci va demander de développer
un « smartgrid » permettant une répartition et un stockage encore plus intelligent et réactif
de l’énergie.
L'expérimentation : En juin 2016, pour mieux adapter le réseau électrique (« grid ») au
caractère intermittent du solaire et de l'éolien, ainsi qu’aux variations instantanées,
quotidiennes et saisonnières de la demande, et pour limiter l’appel aux énergies fossiles,
l’Allemagne a lancé un processus (EWeLiNE) d’analyse automatique du big data.
87
EWeLiNE associe 3 opérateurs (TSOs Amprion GmbH, TenneT TSO GmbH et 50 Hertz) .
Ils bénéficient de 7 M€ (déboursés par le ministère fédéral des affaires économiques et de
87
l'énergie) . Des logiciels vont exploiter le big data des données météo et des données
d'intérêt énergétique pour prévoir avec une précision croissante la capacité productive
instantanée des ENR (car quand le vent augmente ou qu’un nuage passe au-dessus d'une
ferme solaire, la production augmente ou chute localement et le réseau doit s’adapter).
EWeLiNE doit améliorer la gestion anticipée et en temps réel de la production et de la
consommation grâce à la prévision énergético-météorologique via un système « apprenant »
de prévision statistiquement avancée de la force du vent (au niveau du moyeu d'une turbine)
et de la puissance solaire (au niveau des modules photovoltaïque).
Les grandes éoliennes mesurent souvent elles-mêmes en temps réel la vitesse du vent au
niveau des turbines, et certains panneaux solaires intègrent des capteurs d’intensité
87
lumineuse . EWeLiNE combine ces données avec les données météo classiques (terrestre,
radar et satellitale) et les transfère dans des modèles informatiques sophistiqués
(« systèmes apprenants ») pour mieux prédire la production d'électricité durant les
87
prochaines 48 heures (ou plus) . L'équipe scientifique vérifie ces prévisions de puissance,
et les ordinateurs « apprennent » de leurs erreurs, permettant aux modèles prédictifs d’être
de plus en plus précis.
EWeLiNE a d’abord été testé (en juin 2016) sur quelques réseaux de panneaux solaires et
d'éoliennes équipés de capteurs. À partir de juillet, les opérateurs vont peu à peu étendre le
système en se connectant à un nombre croissant d’installations solaires et éoliennes qui leur
transmettront en temps réel leurs données pour ajuster la quantité d'énergie produite à
87
l’échelle du pays (l’objectif est de le faire en 2 ans) . On s’approchera alors de ce que J
Rifkin a nommé l’internet de l’énergie, si ce n’est qu’il y intègre aussi les usages
domestiques et individuels (ce qui devrait être permis par la diffusion des compteurs
intelligents et de systèmes intelligents et locaux ou mobiles de stockage de l’énergie).
Premiers retours : Les premiers résultats allemands laissent penser que l’approche
fonctionnera, car le travail des modélisateurs allemand avait déjà permis de bonnes
améliorations avant l’accès à ces données. EWeLiNE n’est pas une déclinaison ni une
traduction du systems américain du NCAR ; les modèles météorologiques et les algorithmes
87
convertissant les prévisions météorologiques en prévisions de puissance diffèrent

Perspectives et évolutions
L'un des principaux enjeux de productivité du big data dans son évolution va porter sur la logistique de
l'information, c'est-à-dire sur comment garantir que l'information pertinente arrive au bon endroit au bon
moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la
combinaison entre les approches micro- et macro-économique d'un problème.
89
Selon une étude IDC, les données numériques créées dans le monde atteindraient 40 zettaoctets d'ici 2020 .
À titre de comparaison, Facebook générait environ 10 téraoctets de données par jour au début 2013. Le
développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomènes
simultanément : la pénurie de disques durs suite aux inondations en Thaïlande en 2011, l'explosion du
marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du
cloud-computing de plus en plus proche, grâce à des outils comme Dropbox, amène le big data au centre de
la logistique de l'information.

Afin de pouvoir exploiter au maximum le big data, de nombreuses avancées doivent être faites, et ce en
suivant trois axes.

Modélisation de données

Les méthodes actuelles de modélisation de données ainsi que les systèmes de gestion de base de données ont
été conçus pour des volumes de données très inférieurs. La fouille de données a des caractéristiques
fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il
faudra des modélisations de données et des langages de requêtes permettant :

une représentation des données en accord avec les besoins de plusieurs disciplines
scientifiques ;
de décrire des aspects spécifiques à une discipline (modèles de métadonnées) ;
de représenter la provenance des données ;
de représenter des informations contextuelles sur la donnée ;
de représenter et supporter l’incertitude ;
90
de représenter la qualité de la donnée ;
91
de réaliser l'approximation d'un gros volume de données .

De très nombreux autres thèmes de recherche sont liés à ce thème, citons notamment : la réduction de
modèle pour les EDP, l'acquisition comprimée en imagerie, l'étude de méthodes numériques d'ordre élevé…
Probabilités, statistiques, analyse numérique, équations aux dérivées partielles déterministes et
stochastiques, approximation, calcul haute performance, algorithmique… Une grande partie de la
communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce
thème porteur.

Gestion de données

Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui ne
permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été
déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer
le principe qui veut qu’une requête sur un SGBD fournisse une réponse complète et correcte sans tenir
compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données
fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que le SGBD
puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui
90
permettraient de guider le scientifique dans sa recherche .

Dans le domaine des données clients, il existe également de réels besoins d'exploitation de ces données, en
92
raison notamment de la forte augmentation de leur volume des dernières années . Le big data et les
technologies associées permettent de répondre à différents enjeux tels que l'accélération des temps d’analyse
des données clients, la capacité à analyser l’ensemble des données clients et non seulement un échantillon de
celles-ci ou la récupération et la centralisation de nouvelles sources de données clients à analyser afin
d’identifier des sources de valeur pour l’entreprise.

Outils de gestion des données


Les outils utilisés au debut des années 2010 ne sont pas en adéquation avec les volumes de données
engendrés dans l’exploration du big data. Il est nécessaire de concevoir des instruments permettant de mieux
visualiser, analyser, et cataloguer les ensembles de données afin de permettre une optique de recherche
90
guidée par la donnée . La recherche en big data ne fait que commencer. La quantité de données évolue
beaucoup plus rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prévoit qu'il n y aura
pas suffisamment de scientifiques du data. En 2018, les États-Unis auraient besoin de 140 000 à
78
190 000 scientifiques spécialisés en big data .

Gestion de l'entropie
Le déluge de données qui alimente le big data (et dont certaines sont illégales ou incontrôlées) est souvent
métaphoriquement comparé à la fois à un flux continu de nourriture, de pétrole ou d’énergie (qui alimente
93
les entreprises du data mining et secondairement la société de l’information ) qui expose au risque
43
d’infobésité et pourrait être comparé à l’équivalent d’une « pollution » du cyberespace et de la noosphère
(métaphoriquement, le big data correspondrait pour partie à une sorte de grande marée noire
informationnelle, ou à une eutrophisation diffuse mais croissante et continue du monde numérique pouvant
94
conduire à une dystrophisation, voire à des dysfonctions au sein des écosystèmes numériques) .

Face à cette « entropie informationnelle » quelques réponses de type néguentropique sont nées (Wikipédia
en fait partie en triant et restructurant de l’information déjà publiée).

D’autres réponses ont été la création de moteurs de recherche et d’outils d’analyse sémantique et de fouille
de flots de données, de plus en plus puissants et rapides.

Néanmoins, l'analyse du big data tend elle-même à engendrer du big data, avec un besoin de stockage et de
serveurs qui semble exponentiel.

Bilan énergétique
Parallèlement à la croissance de la masse et du flux de données, une énergie croissante est dépensée d'une
part dans la course aux outils de datamining, au chiffrement/déchiffrement et aux outils analytiques et
d’authentification, et d'autre part dans la construction de fermes de serveurs qui doivent être refroidis ; au
détriment du bilan énergétique et électrique du Web.

Idées reçues
En 2010, les jeux de données produites par l’homme sont de plus en plus complétés par d'autres données,
massivement acquises de manière passive et automatique par un nombre croissant de capteurs électroniques
et sous des formes de plus en plus interopérables et compréhensibles par les ordinateurs. Le volume de
données stockées dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur
internet, les uns voient dans le big data intelligemment utilisé une source d’information qui permettrait de
lutter contre la pauvreté, la criminalité ou la pollution. Et à l'autre extrémité du spectre des avis, d'autres,
souvent défenseurs de la confidentialité de la vie privée, en ont une vision plus sombre, craignant ou
95
affirmant que le big data est plutôt un Big Brother se présentant dans de « nouveaux habits » , « dans des
96
vêtements de l’entreprise » .

En 2011 à l'occasion d'un bilan sur 10 ans d'Internet pour la société, Danah Boyd (de Microsoft Research) et
Kate Crawford (University of New South Wales) dénonçaient de manière provocatrice six problèmes liés à
des idées reçues sur le big data : « L’automatisation de la recherche change la définition du savoir (…) Les
revendications d’objectivité et d’exactitude sont trompeuses (…) De plus grosses données ne sont pas
toujours de meilleures données (…) Toutes les données ne sont pas équivalentes (…) Accessible ne signifie
43
pas éthique (…) L’accès limité aux big data crée de nouvelles fractures numériques » (dont entre pauvres
43
et riches) .

Risques et Problèmes
Plusieurs types de risques d'atteinte à la vie privée et aux droits fondamentaux sont cités par la littérature :

Déshumanisation : dans ce que Bruce Schneier dénomme « l’âge d’or de la surveillance »,


la plupart des individus peuvent se sentir déshumanisés et ils ne peuvent plus protéger les
données personnelles ou non qui les concernent, et qui sont collectées, analysées et
vendues à leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone
ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir échapper à
une surveillance constante où à des pressions visant à les faire consommer, voter, etc.
Faille de sécurité informatique : dans un monde de plus en plus interconnecté et lié à
l’Internet, la sécurité en ligne devient cruciale, pour la protection de la vie privée, mais aussi
pour l'économie (ex. : en cas de problème grave, des risques existent de perte de confiance,
concernant la sécurité des processus d’achat en ligne par exemple ; ils pourraient avoir des
conséquences économiques importantes).
« Vassalisation de la recherche scientifique par des sociétés commerciales et leurs services
43
de marketing » .
43
Apophénie : (déductions indues) : les biais d’accès et d’interprétation sont nombreux (« un
corpus n’est pas plus scientifique ou objectif parce que l’on est en mesure d’aspirer toutes
les données d’un site. D’autant qu’il existe de nombreux biais (techniques avec les API, mais
aussi organisationnels) dans l’accès même à ces données qu’on aurait tort de considérer
comme totales. Cet accès ne repose en effet que sur le bon vouloir de sociétés
43
commerciales et sur les moyens financiers dont disposent chercheurs et universités) » ;
De plus, un biais lié au genre existe : la grande majorité des chercheurs experts en
informatique sont aujourd’hui des hommes, or des historiennes féministes et les philosophes
des sciences ont montré que le sexe de celui qui pose les questions détermine souvent les
97
questions qui seront posées .
Mésinterprétation de certaines données liées à l'altérité, avec d'éventuelles conséquences
sociopsychologiques, par exemple et de mauvaise compréhension ou interprétation de
98
l’autre (« l’autre n’est pas une donnée » rappelle D. Pucheu ).
Un autre risque est celui d'une « raréfaction des occasions d’exposition des individus à des
choses qui n’auraient pas été pré-vues pour eux, et donc un assèchement de l’espace public
(comme espace de délibération, de formation de projets non rabattus sur la seule
concurrence des intérêts individuels), ces choses non pré-vues, étant précisément
99
constitutives du commun, ou de l’espace public » .
Exacerbation de la fracture numérique, car les outils de data mining offrent à quelques
entreprises un accès croissant et presque instantané à des milliards de données et de
documents numérisées. Pour ceux qui savent utiliser ces données, et avec certaines limites,
elles offrent aussi une certaine capacité à produire, trier ou distinguer des informations
jugées stratégiques, permettant alors aussi de retenir ou au contraire de libérer avant
100
d’autres certaines informations stratégiques . Cet accès très privilégié et peu transparent
à l'information peut favoriser des situations de conflits d'intérêt ou des délits d'initiés. Il existe
un risque d'inégalités croissante face aux données et au pouvoir que l'on a sur elles :
Manovich distingue ainsi 3 catégories d’acteurs, foncièrement inégaux face à la donnée :
« ceux qui créent les données (que ce soit consciemment ou en laissant des traces
numériques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compétence de les
analyser »(2011).
Ces derniers sont en faible nombre, mais très privilégiés (ils sont souvent employés par les
entreprises et autres entités du big data et ont donc le meilleur accès à la donnée; ils
contribuent à produire ou orienter les règles qui vont les encadrer et cadrer l’exploitation des
big data. Des inégalités institutionnelles sont a priori inéluctables mais elles peuvent être
minimisées et devraient au moins être étudiées, car elles orientent les données et les types
de recherches et applications qui en découleront.
Appropriation monopolistique de certains jeux de mégadonnées collectées par quelques
grandes entreprises (Google, Facebook…) ou par les outils publics ou secrets de grands
23
États (ex. : PRISM) visant à « capter le réel pour l'influencer » ) ; une énorme quantité de
données est discrètement (et la plupart du temps légalement) collectée par des entreprises
spécialisées ou des agences d’état ou de renseignement, dont sur les comportements
d’achat et de centres d’intérêt sur l’Internet de tous les groupes et d’individus. Ces données
sont stockées, et parfois piratées (Ainsi, en 2003, lors d'une recherche de failles de sécurité
la société Acxiom, l'un des principaux courtiers en données s'est rendu compte que 1,6
milliard d'enregistrements de consommateurs avaient été piratés via 137 attaques
informatiques faites de janvier à juillet 2003 ; les informations volées incluaient des noms,
101, 102, 103, 104
adresses et des adresses e-mail de plusieurs millions d'Américains ). Ces
données sont ensuite plus ou moins mises à jour, et éventuellement louées ou vendues pour
le marketing et la publicité ciblée, des études scientifiques des organismes de sondage, des
groupes d’influence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurs
électeurs potentiels), etc. Les personnes dont les données circulent ainsi n’en sont
généralement pas informées, n’ont pas donné de consentement éclairé et peuvent
difficilement vérifier ces données ou surtout les retirer des bases de données qui les
conservent pour une durée potentiellement illimitée. Des risques de production d’erreur et de
mauvais usages existent (dans le domaine des assurances et prêts bancaires par exemple).
105
D’après le reportage de F Lescalier intitulé « Big Data : les nouveaux devins » , 80 % des
données personnelles mondiales seraient détenues par 4 grands acteurs qui sont (par ordre
alphabétique) : Amazon, Apple, Facebook et Google.
106
Dérives éthiquement insoutenables, déjà constatées dans la partie grise ou sombre de
l’internet, y compris dans les grands réseaux sociaux (dont Facebook et Twitter, qui
collectent un grand nombre de données et informations sur leurs utilisateurs et les réseaux
107, 108 109
dans lesquels ils s’inscrivent ) ; D’autres invitent à l’adoption de bonnes pratiques
110
et de règles éthiques plus strictes pour le data mining et la gestion de ces
111, 112
mégadonnées .
113
Notamment depuis les révélations du lanceur d'alerte américain Edward Snowden ,
certains s’inquiètent de voir outre une surveillance de plus en plus invasive (voire
114 115
pervasive ) de nos activités par les fournisseurs d’accès à Internet , puis fleurir des
législations facilitant (sous prétexte de facilités économiques et/ou de sécurité nationale)
l’usage d’outils de traçage (via les cartes de paiement, de fidélité, de santé, de pointage, les
caméras de surveillance, certains smartgrids ou outils domotiques, certains objets connectés
géolocalisant leur propriétaire, etc.). Certaines de ces législations facilitent ou légitiment
explicitement les écoutes électroniques (écoute et analyse de conversations téléphoniques ;
interception et analyse d’emails et de réseaux) et le suivi général des activités sur le Net, ce
qui leur semble être un contexte pouvant préparer une surveillance orweillienne généralisée
des individus. Ces auteurs dénoncent l’apparition de processus et d’un contexte de plus en
26
plus orweillien intrinsèquement difficiles à contrôler, et insistent sur l’importance de la
116 117, 118
protection de la vie privée , « même quand on n'a rien à cacher » ou (comme B.
119 120
Schneier en 2008 ou Culnan & Williams en 2009 ) rappellent que les notions de
sécurité et de protection de la vie privée et d’autonomie de l’individu ne sont pas opposées.

Critiques

La Commissaire européenne à la Concurrence, Margrethe Vestager, a considéré auprès du Wall Street


Journal que les grandes sociétés pouvaient utiliser des masses gigantesques de données d’utilisateurs pour
121
entraver la concurrence .
Dans un rapport du CIB (Comité International de Bioéthique) sur les mégadonnées et la santé, publié en
122
2015, il est fait état d'une " surestimation et prévisions irréalistes " de l'utilisation des mégadonnées.
L'enthousiasme suscité par ce phénomène risque de s'affaisser car les mégadonnées peuvent entraîner un
déséquilibre des priorités en termes de politiques de santé, notamment dans les pays où l'accès à ces services
essentiels (santé, éducation...) ne sont pas garantis. En conclusion de la proposition 45, le CIB " émet des
doutes élevés sur le risque de négliger le potentiel bénéfique des mégadonnées et de ne pas mettre à profit
leurs avantages ".

Gouvernance et mégadonnées
123
Elle nécessite un débat citoyen constant ainsi que des modes de gouvernance et de surveillance
124
adaptés car des États, des groupes ou des entreprises ayant des accès privilégiés au big data peuvent en
extraire très rapidement un grand nombre de « données personnelles diffuses » qui, par croisement et
analyse, permettent un profilage de plus en plus précis, intrusif et parfois illégal (faisant fi de la protection
de la vie privée) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel,
religieux ou professionnel (exemple du programme PRISM de la NSA), de leurs activités personnelles, leurs
habitudes de déplacement, d’achat et de consommation, ou encore de leur santé. Cette question renvoie
directement à la Déclaration Universelle des droits de l'Homme qui indique, dans l'article 12, que « Nul ne
sera l'objet d'immixtions arbitraires dans sa vie privée, sa famille, son domicile ou sa correspondance, ni
d'atteintes à son honneur et à sa réputation. Toute personne a droit à la protection de la loi contre de telles
125 43
immixtions ou de telles atteintes » .« La montée des big data amène aussi de grandes responsabilités ».
126
En matière de santé publique notamment, des enjeux éthiques forts existent .

Sur la scène européenne, un nouveau règlement a été mis en place dans le courant de l'année 2015: le GDPR
(General Data Protection Regulation). Il s'agit d'un règlement qui modifie le cadre juridique relatif à la
protection des données personnelles au sein de l’union européenne. Le GDPR rappelle que toute personne
physique devrait avoir le contrôle de données à caractère personnel la concernant. Tout opération
économique se doit, de plus, d'être transparente, le règlement en assure la sécurité juridique (article 13).
127
Enfin la protection des données personnelles est garantie par ce nouveau règlement (article 17) .

Virtualisation
La virtualisation des données est un moyen de rassembler des données provenant de plusieurs sources dans
une seule « vue ». L'assemblage est virtuel : contrairement à d'autres méthodes, la plupart des données
128
restent en place et sont extraites des sources brutes à la demande .

Big data temps réel


Les plateformes big data sont conçues pour traiter une quantité de données massive, en revanche elles sont
très rarement conçues pour traiter ces données en temps réel. Les nouveaux usages et les nouvelles
technologies génèrent des données au quotidien et sans interruption, il est donc nécessaire de faire évoluer
ces plateformes pour traiter les données temps réel afin de répondre aux exigences métiers qui demandent
d’aller vers plus de réactivité et de personnalisation. C’est la raison pour laquelle les architectures lambda et
kappa ont vu le jour. Ces architectures permettent de prendre en compte les flux de données temps réel pour
129
répondre à ces nouvelles exigences .

Notes et références
1. Prononciation en anglais standard retranscrite selon la norme API.
2. [PDF] Commission générale de terminologie et de néologie, Journal officiel de la République
française du 22 août 2014 [lire en ligne (https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEX
T000029388087)].
3. « mégadonnées » (http://www.gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26507313), Le
Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le
31 janvier 2019).
4. « Big Data – Mastère Spécialisé® de gestion et analyse des données massives » (http://www.t
elecom-paristech.fr/formation-continue/masteres-specialises/big-data.html), sur École
d'Ingénieurs : Télécom ParisTech (consulté le 13 décembre 2017)
5. CEA, « Conférence : voyage au coeur du Big Data » (http://www.cea.fr/multimedia/Pages/video
s/culture-scientifique/technologies/conference-big-data.aspx), sur CEA/Médiathèque,
5 juillet 2017 (consulté le 4 septembre 2017)
6. (en) Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way
We Think about the World (http://faculty.cord.edu/andersod/The%20Rise%20of%20Big%20Dat
a.docx), The. Foreign Aff., 92, 28.
7. Les médias dans la moulinette du « big data » (https://www.lemonde.fr/sciences/article/2014/0
1/06/les-medias-dans-la-moulinette-du-big-data_4343574_1650684.html), 6 janvier 2014,
consulté 12 janvier 2014.
8. « Le Big Data dans la campagne présidentielle US » (http://123opendata.com/blog/big-data-ca
mpagne-presidentielle-us/), sur 123opendata.com (consulté le 13 décembre 2017)
9. Pierre Delort, « Big Data : un ADN utilisateur séquençable pour moins de 1000 $ », lesechos.fr,
7 mars 2012 (lire en ligne (http://lecercle.lesechos.fr/entreprises-marches/high-tech-medias/inte
rnet/221144150/big-data-adn-utilisateur-sequencable-moins-1/), consulté le
13 décembre 2017)
10. « La sécurité se met résolument au «Big Data» », LeMagIT, mars 2012 (lire en ligne (http://ww
w.lemagit.fr/article/ids-ips-siem/10640/1/la-securite-met-resolument-big-data/), consulté le
13 décembre 2017)
11. Michel Cartier, « Le "Big Data" » (http://www.21siecle.quebec/table-des-matieres-2/le-big-
data/), sur 21e siècle
12. (en-US) « Big data : l’expérience client ultime ? », Tech Page One, 25 janvier 2016 (lire en ligne
(http://www.techpageone.fr/business-fr/big-data-experience-client-ultime/), consulté le
31 mai 2017)
13. (en)CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data (http://ww
w.csail.mit.edu/node/2142), Tackling the Challenges of Big Data, janvier 2014, consulté 2014-
01-12
14. Création au Collège de France d'une Chaire « Sciences des données » en 2018. (https://www.
college-de-france.fr/site/stephane-mallat/index.htm), college-de-france.fr.
15. [PDF]Gouvernement français (2012) - Investissements d’avenir (http://investissement-avenir.go
uvernement.fr/sites/default/files/user/AAP%20Cloud%20Computing%203%20-%20Big%20dat
a.pdf) – Fonds national pour la société numérique, Appel à projets no 3 - Big Data.
16. Big Data Paris, conférence-exposition, 20-21 mars 2012 (http://bigdataparis.com/fr-index.php).
17. (en) « The AI revolution in science », Science | AAAS, 5 juillet 2017 (lire en ligne (http://www.sc
iencemag.org/news/2017/07/ai-revolution-science), consulté le 7 juillet 2017)
18. Non accessible le 31 mars 2019 (http://www.research.ibm.com/visual/projects/chromogram.htm
l), sur ibm.com
19. Watters, Audrey, Visualize Big Data with Flowing Media (http://www.readwriteweb.com/start/20
10/04/visualize-big-data-with-flowing-media.php), ReadWriteWeb. 15 avril 2010
20. (en) The World’s Technological Capacity to Store, Communicate, and Compute Information
tracking the global capacity of 60 analog and digital technologies during the period from 1986
to 2007 (http://www.martinhilbert.net/WorldInfoCapacity.html)
21. (en) Gil Press, « A Very Short History Of Big Data », Forbes, 9 mai 2013 (lire en ligne (https://w
ww.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#69c1ed6465a1),
consulté le 13 décembre 2017)
22. Gil Press (2013) « une très courte histoire du big data » Forbes.com, daté du 5 mai 2013,
23. Tréguier, V. (2014). « Mondes de données et imaginaires: vers un monde cybernétique (http://d
umas.ccsd.cnrs.fr/dumas-01086598/document) » et Résumé (http://dumas.ccsd.cnrs.fr/dumas-
01086598/document) ; Library and information sciences. 2014, [PDF], 53 pages
24. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS:
Crossroads, The ACM Magazine for Students, 19(1), 44-49
25. (en) Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining:
challenges, issues, and opportunities (http://faculty.ksu.edu.sa/mejdl/Publications/big-data-to-bi
g-data-mining.pdf). In Database Systems for Advanced Applications (p. 1-15). Springer Berlin
Heidelberg
26. Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19
(http://www.sciencedirect.com/science/article/pii/S1742684709700138 résumé])
27. (en) Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
28. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks,
and Specters of 1984. Newsweek, Incorporated.
29. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of
Michigan Press.
30. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), janvier 1975, 6-14.
31. (en)hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on
Professor Miller's" The Assault on Privacy (http://scholarship.law.duke.edu/cgi/viewcontent.cgi?
article=1213&context=faculty_scholarship)". University of Pennsylvania Law Review, 970-991.
32. (en) Froomkin, A. M. (2000). The death of privacy ? (http://media.usm.maine.edu/~lenny/privac
y-deathof.pdf) ; Stanford Law Review, 1461-1543.
33. (en) Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
34. Askland, A. (2006).
[http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?
abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault on Privacy (http://paper
s.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid
=3). St. Louis University Public Law Review, 25(33), et résumé (http://papers.ssrn.com/sol3/pa
pers.cfm?abstract_id=1406744)
35. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic
Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring
of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy
Rights, The. Software LJ, 4, 493. résumé]).
36. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
37. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?
PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
38. (en) Michael Minelli, Michele Chambers et Ambiga Dhiraj, Big Data, Big Analytics : Emerging
Business Intelligence and Analytic Trends for Today's Businesses, Wiley, 22 janvier 2013
(ISBN 978-1-118-14760-3)
39. (en) « Application Delivery Strategies » (http://blogs.gartner.com/doug-laney/files/2012/01/ad94
9-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf) [PDF], sur
blogs.gartner.com, 6 février 2001
40. « Les 3 V du Big Data : Volume, Vitesse et Variété », JDN, 31 mai 12 (lire en ligne (http://www.j
ournaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-
variete.shtml), consulté le 13 décembre 2017)
41. (en-US) « Big Data Analytics | IBM Analytics » (http://www-01.ibm.com/software/data/bigdata/),
sur www-01.ibm.com (consulté le 13 décembre 2017)
42. (en) Manovich L (2011) ‘Trending: The Promises and the Challenges of Big Social Data’,
Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press,
Minneapolis, MN.[15 juillet 2011].
43. Big data : la nécessité d’un débat (traduction collaborative d’un essai de Danah boyd et Kate
Crawford présentant “Six provocations au sujet du phénomène des big data”, présenté lors du
Symposium sur les dynamiques de l’internet et de la société : “Une décennie avec Internet”,
organisé par l’Oxford Internet Institute, le 21 septembre 2011) (http://www.internetactu.net/201
1/09/23/big-data-la-necessite-d%E2%80%99un-debat/comment-page-1/), FING,
Internet.Actu.Net
44. « Étude IDC-EMC, « Extracting value from chaos » » (http://www.emc.com/collateral/analyst-re
ports/idc-extracting-value-from-chaos-ar.pdf), sponsorisée par EMC Gartner, citée par Delphine
Cuny sous le titre « "Big data" : la nouvelle révolution », Virginia Rometty, La tribune, no 42, 29
mars au 4 avril 2013, p. 4
45. « The Big Data révolution », Le journal, CNRS, no 28, janvier 2013 (lire en ligne (http://www.cnr
s.fr/fr/pdf/cim/CIM28.pdf)).
46. (en-US) Janet Wiener et Nathan Bronson, « Facebook’s Top Open Data Problems » (https://res
earch.fb.com/facebook-s-top-open-data-problems/), sur Facebook Research, 22 octobre 2014
(consulté le 15 mars 2017)
47. (en) Shaun de Witt, Richard Sinclair, Andrew Sansum et Michael Wilson, « Managing Large
Data Volumes from Scientific Facilities », ERCIM News, avril 2012 (lire en ligne (http://ercim-ne
ws.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities))
48. dataraxy, « Big data : du concept à la mise en œuvre. Premiers bilans. » (http://blog.dataraxy.c
om/post/2013/07/10/Big-data-:-du-concept-%C3%A0-la-mise-en-%C5%93uvre.-Premiers-bilan
s.), sur blog.dataraxy.com, 10 juillet 2013 (consulté le 13 décembre 2017)
49. (en) Lee Gomes, « Data Analysis Is Creating New Business Opportunities », MIT Technology
Review, 2 mai 2011 (lire en ligne (http://www.technologyreview.com/news/423897/data-analysi
s-is-creating-new-business-opportunities/), consulté le 13 décembre 2017)
50. Pierre Brunelle, Déchiffrer le big data, Simplement : Acquérir les outils pour agir, de la réflexion
à l'usage. (French Edition), Sceaux, Pierre Brunelle, 2016, 129 p. (ISBN 978-1-5394-0933-5),
p. 12
51. (en-US) « IBM Understanding Big Data 2017/12/13 15:54:47 » (https://www14.software.ibm.co
m/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&S_CMP=is_bdebook
1_bda), sur www14.software.ibm.com, 24 février 2005 (consulté le 13 décembre 2017)
52. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delo
rt.pdf#13
53. (en-US) « le Blog ANDSI » DSI Big Data » (http://www.andsi.fr/tag/dsi-big-data/), sur
www.andsi.fr (consulté le 13 décembre 2017)
54. Pierre Delort, « Big Data car Low-Density Data ? La faible densité en information comme
facteur discriminant », lesechos.fr, 3 avril 2013 (lire en ligne (http://lecercle.lesechos.fr/entrepre
neur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-co
m), consulté le 13 décembre 2017)
55. Delort, Le Big Data, Paris, Presses Universitaires de France, 2015, 128 p.
(ISBN 978-2-13-065211-3, lire en ligne (http://www.puf.com/Que_sais-je:Le_Big_Data))
56. « Le Big Data - PUF » (http://www.puf.com/Que_sais-je:Le_Big_Data), sur www.puf.com/,
12 avril 2015
57. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-
proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
58. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf]
59. Thierry Lévy-Abégnoli, « Explosion des volumes de données : de nouvelles architectures
s’imposent », ZDNet France, 25 février 2013 (lire en ligne (http://www.zdnet.fr/actualites/explosi
on-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm), consulté
le 13 décembre 2017)
60. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
61. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
62. https://www.hpc-lr.univ-montp2.fr/
63. (en) Michel Sumbul, « HDFS » (http://whatsbigdata.be/hdfs), sur http://whatsbigdata.be/hdfs,
24 juin 2014 (consulté le 28 juillet 2014)
64. (en) « HDFS » (http://whatsbigdata.be/hdfs/), sur http://whatsbigdata.be/hdfs/, 24 juin 2014
(consulté le 28 juillet 2014)
65. (en) « LHC Brochure, English version. A presentation of the largest and the most powerful
particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its
role, characteristics, technologies, etc. are explained for the general public. » (http://cds.cern.c
h/record/1278169?ln=en), CERN-Brochure-2010-006-Eng. LHC Brochure, English version.,
CERN (consulté le 20 janvier 2013)
66. (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron
Collider (LHC) in the form of questions and answers. » (http://cds.cern.ch/record/1092437?ln=e
n), CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le
20 janvier 2013)
67. Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,
19 janvier 2011, p. 282–83 (DOI 10.1038/469282a (https://dx.doi.org/10.1038%2F469282a),
lire en ligne (http://www.nature.com/news/2011/110119/full/469282a.html)).
68. Data, data everywhere Information has gone from scarce to superabundant. That brings huge
new benefits, says Kenneth Cukier (interviewed here)—but also big headaches (http://www.eco
nomist.com/node/15557443), The Economist, publié 25 février 2010
69. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of
growth: Big data analytics and policies (http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf
#page=6), en ligne sur le site de l'OCDE, mis à jour 21 juillet 2014, PDF, 14 p
70. Delort Pierre (2012), Big data (http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.
pdf#page=6), Association Nationale des DSI, PDF 12p
71. (en) « NASA Goddard Introduces the NASA Center for Climate Simulation » (http://www.nasa.g
ov/centers/goddard/news/releases/2010/10-051.html), sur www.nasa.gov (consulté le
13 décembre 2017)
72. Acclimatise (2017) Data philanthropy will drive climate resilient development (http://www.acclim
atise.uk.com/2017/11/27/data-philanthropy-will-drive-climate-resilient-development/) ;
Acclimatise News 27 novembre 2017 Development, Earth Observation & Climate Data
73. Kirkpatrick, R. (2011). Data philanthropy: Public & private sector data Sharing for global
resilience. UN Global Pulse, 16, 2011.
74. Pawelke, A., & Tatevossian, A. R. (2013). Data philanthropy: Where are we now. United
Nations Global Pulse Blog.
75. Kshetri, N. (2014). The emerging role of Big Data in key development issues: Opportunities,
challenges, and concerns (http://journals.sagepub.com/doi/full/10.1177/2053951714564227).
Big Data & Society, 1(2), 2053951714564227.
76. (en) Taylor L (2016). The ethics of big data as a public good: which public ? Whose good ?.
Phil. Trans. R. Soc. A, 374(2083), 2016012 résumé (http://rsta.royalsocietypublishing.org/conte
nt/374/2083/20160126) ; l'un des 15 thèmes traités par ‘The ethical impact of data science (htt
p://rsta.royalsocietypublishing.org/content/374/2083)’ (2016).
77. Non trouvé le 31 mars 2019 (http://bosmol.com/2013/02/how-big-data-analysis-helped-preside
nt-obama-defeat-romney-in-2012-elections.html), sur bosmol.com
78. The GovLab Index: The Data Universe (http://thegovlab.org/govlab-index-the-digital-universe/),
sur thegovlab.org, consulté le 31 mars 2019.
79. http://www.informationweek.com/government/enterprise-applications/image-gallery-
governments-10-most-powerf/224700271.
80. 2012 Energy Summit (http://blog.governor.utah.gov/2012/02/2012-energy-summit/) sur le site
de l'État de l'Utah
81. http://www.innovation2030.org/fr/
82. Le Business Model de la revente de données (https://www.my-business-plan.fr/revente-donnee
s), sur my-business-plan.fr, consulté le 31 mars 2019
83. (en) « Data, data everywhere », The Economist, 25 février 2010 (lire en ligne (http://www.econ
omist.com/node/15557443), consulté le 9 décembre 2012)
84. Non trouvé le 31 mars 2019 (http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-
cas/data-mining-clients.php), sur bayesia.com
85. (en) « When the Art Is Watching You » (https://www.wsj.com/articles/when-the-art-is-watching-y
ou-1418338759?mod=e2tw), sur Wall Street Journal, 11 décembre 2014
86. « Assurances : 5 tendances qui vont bouleverser le secteur » (http://www.frenchweb.fr/assuran
ces-5-tendances-qui-vont-bouleverser-le-secteur/240644), sur Frenchweb, 2 mai 2016
(consulté le 10 mai 2016)
87. Schiermeier, Quirin (2016) Germany enlists machine learning to boost renewables revolution ;
Grids struggle to cope with erratic nature of wind and solar power (http://www.nature.com/new
s/germany-enlists-machine-learning-to-boost-renewables-revolution-1.20251) ; 13 July 2016]
88. Development of innovative weather and power forecast models for the grid integration of
weather dependent energy sources (http://www.projekt-eweline.de/en/index.html), EWeLiNE ,
consulté 2016-07-14
89. Régis Castagné (Interoute) : "Big Data et Cloud Computing seront intimement liés" (http://www.
silicon.fr/regis-castagne-interoute-big-data-cloud-computing-intimement-lies-90528.html),
silicon.fr, 7 novembre 2013.
90. http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
91. (en) Christian Gout, Zoé Lambert et Dominique Apprato, Data approximation : mathematical
modelling and numerical simulations, Paris, EDP Sciences, 2019, 168 p.
(ISBN 978-2-7598-2367-3)
92. Infographie - l’exploitation des données clients à l’ère du Big Data (http://blog.markess.fr/2013/
03/infographie-exploitations-des-donnees-clients-avec-le-big-data.html), blog MARKESS
International
93. Hilbert, M. (2013). Big data for development: From information-to knowledge societies. SSRN
2205145.
94. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World (http://www.
democracynow.org/2015/3/13/data_and_goliath_bruce_schneier_on) et partie 2 (http://www.de
mocracynow.org/blog/2015/3/13/part_2_bruce_schneier_on_the) et transcriptions écrites (en
anglais), par la Chaine « Democracy Now », consulté 2015-05-08
95. Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
96. (en) The Age of Big Data (https://www.nytimes.com/2012/02/12/sunday-review/big-datas-impac
t-in-the-world.html?_r=0), article de STEVE LOHRFEB. Publié le 11, 2012 par le New-York
Times
97. Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women,
knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall,
Boston: Unwin Hyman, 298–320.
98. Pucheu David, « L'altérité à l'épreuve de l'ubiquité informationnelle », Hermès, La Revue
1/2014 (no 68) , p. 115-122 Lien vers Cairn Info (http://www.cairn.info/revue-hermes-la-revue-2
014-1-page-115.htm.)
99. Antoinette Rouvroy. (2014). "Des données sans personne: le fétichisme de la donnée à
caractère personnel à l'épreuve de l'idéologie des big data (http://works.bepress.com/cgi/viewc
ontent.cgi?article=1069&context=antoinette_rouvroy)" Contribution en marge de l'Étude
annuelle du Conseil d'État. Le numérique et les droits et libertés fondamentaux. (résumé (htt
p://works.bepress.com/antoinette_rouvroy/55))
00. Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
01. (en) « Acxiom Hacker Gets Prison Sentence », DMN, 28 mars 2005 (lire en ligne (http://www.d
mnews.com/acxiom-hacker-gets-prison-sentence/article/87117/), consulté le
13 décembre 2017)
02. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott
Levine was sentenced to eight years in prison (http://www.computerworld.com/article/2543400/
cybercrime-hacking/appeals-court--stiff-prison-sentence-in-acxiom-data-theft-case-
stands.html), consulté 2015-05-08
03. en anglais : "largest ever invasion and theft of personal data"
04. (en) John Leyden, « Acxiom database hacker jailed for 8 years », The Register, 23 février 2006
(lire en ligne (https://www.theregister.co.uk/2006/02/23/acxiom_spam_hack_sentencing/),
consulté le 13 décembre 2017)
05. reportage diffusé par Canal+ (http://www.tagtele.com/videos/voir/151950/) « Big Data : les
nouveaux devins »
06. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After
Internet Utopia? (http://www.bcongresos.com/congresos/gestor/ckfinder/userfiles/files/ACOP/Pr
esentaciones/Evgeny%20Morozov.pdf). PublicAffairs, juin 2012
07. Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the
age of Facebook (http://firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/27
75/2432). First Monday, 15(1).
08. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook (htt
p://pages.uoregon.edu/koopman/courses_readings/phil123-net/privacy/hull_context_privacy_f
b.pdf). Ethics and information technology, 13(4), 289-302
09. What Big Data Needs (http://www.technologyreview.com/news/424104/what-big-data-needs-a-
code-of-ethical-practices/)
10. Ethical issues in data mining (http://alexandria.tue.nl/repository/freearticles/612259)
11. Ethics of Big Data. (http://www.ethicsofbigdata.com/)
12. http://www.cio.co.uk/insight/data-management/ethical-questions-around-big-data/ Ethical
Questions around Big Data]
13. Jean-Paul Deléage, « Avec Edward Snowden, l'homme sorti de l'ombre qui voulait éclairer le
monde ! », Écologie & politique 1/2014 (No 48) , p. 5-12 URL : http://www.cairn.info/revue-
ecologie-et-politique-2014-1-page-5.htm. ; DOI : 10.3917/ecopo.048.0005
14. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on
privacy (http://ro.uow.edu.au/cgi/viewcontent.cgi?article=1716&context=infopapers&sei-redir=1
&referer=http%3A%2F%2Fscholar.google.fr%2Fscholar%3Fhl%3Dfr%26q%3DAssault%2Bo
n%2Bprivacy%2B%26btnG%3D%26lr%3D#search=%22Assault%20privacy%22). Faculty of
Informatics-Papers, 711
15. Ohm, P. (2009). The rise and fall of invasive ISP surveillance (http://illinoislawreview.org/wp-co
ntent/ilr-content/articles/2009/5/Ohm.pdf). University of Illinois Law Review, 30 aout 2008
16. Tene, O., & Polonetsky, J. (2012). « Big data for all: Privacy and user control in the age of
analytics”. Nw. J. Tech. & Intell. Prop., 11, xxvii
17. Solove, D. J. (2011). Why privacy matters even if you have ‘nothing to hide’. Chronicle of
Higher Education, 15
18. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?
article=1159&context=faculty_publications I've Got Nothing to Hide' and Other
Misunderstandings of Privacy]. San Diego law review, 44, 745.
19. Schneier, B (2008). What our top spy doesn’t get: Security and privacy aren’t opposites. Wired.
com.
20. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy:
lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé (https://
www.jstor.org/stable/20650322)).
21. La commissaire en chef de la concurrence au sein de l'UE estime que les données massives
affectent négativement la concurrence (https://www.developpez.com/actu/181180/La-commiss
aire-en-chef-de-la-concurrence-au-sein-de-l-UE-estime-que-les-donnees-massives-affectent-n
egativement-la-concurrence/), sur developpez.com du 3 janvier 2018, consulté le 31 mars
2019.
22. « Rapport du CIB sur les mégadonnées et la santé », rapport scientifique, 2015 (lire en ligne (h
ttp://unesdoc.unesco.org/images/0024/002487/248724f.pdf))
23. Laurence Allard, Pierre Grosdemouge et Fred Pailler, « Big Data: la nécessité d’un débat » (htt
p://internetactu.blog.lemonde.fr/2011/10/05/big-data-la-necessite-dun-debat), sur un blog du
Monde, 5 octobre 2011.
24. Maxime Ouellet, André Mondoux, Marc Ménard, Maude Bonenfant et Fabien Richert, "Big
Data", gouvernance et surveillance, Montréal, Université du Québec à Montréal, 2014, 65 p.
(ISBN 978-2-920752-11-5, lire en ligne (http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIER
S_2014-1.pdf)).
25. « Déclaration universelle des droits de l'Homme » (http://www.textes.justice.gouv.fr/textes-fond
amentaux-10086/droits-de-lhomme-et-libertes-fondamentales-10087/declaration-universelle-de
s-droits-de-lhomme-de-1948-11038.html), sur http://www.textes.justice.gouv.fr, 1er août 2001.
26. Vayena, E., Salathé, M., Madoff, L. C., & Brownstein, J.S. (2015). Ethical challenges of big data
in public health (http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003904).
PLoS computational biology, 11(2), e1003904
27. « RÈGLEMENT DU PARLEMENT EUROPÉEN ET DU CONSEIL du 27 avril 2016 relatif à la
protection des personnes physiques à l'égard du traitement des données à caractère personnel
et à la libre circulation de ces données » (http://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?
uri=CELEX:32016R0679&from=FR), sur http://www.eur-lex.europa.eu, 27 avril 2016.
28. Voir Data virtualization (en).
29. « Architecture data temps réel, par où commencer ? » (https://www.nexworld.fr/architecture-dat
a-temps-reel-debuter/), sur Nexworld, 4 janvier 2019 (consulté le 13 mars 2019)

Voir aussi

Articles connexes Sur les autres projets Wikimedia :


mégadonnées, sur le Wiktionnaire
Exploration de données (Data mining)
big data, sur le Wiktionnaire
Liens externes Big data, sur Wikiversity
Dossier sur le Big Data (http://savoirs.ens.f Big data, sur Wikiquote
r/focus_detail.php?id=59) sur SAVOIRS-
ENS (http://savoirs.ens.fr/) les conférences
de l'École normale supérieure.
Le Big Data, c'est quoi ? (https://www.youtube.com/watch?v=M_fjDE7H7BY&index=7&list=P
LmfiCnVD2LL5jPtQxXCFkC2ZvQ9MFDrik), 5e épisode du documentaire d'Arte Do not track
diffusé le 16 février 2016.
Bibliographie
Big data (https://www.pourlascience.fr/sd/science-societe/dossiers-pour-la-science-98-798.p
hp) Dossier spécial de la revue Pour la Science (http://www.pourlascience.fr) ; N° 98 -
Février - Mars 2018

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Big_data&oldid=168420545 ».

La dernière modification de cette page a été faite le 14 mars 2020 à 20:09.

Droit d'auteur : les textes sont disponibles sous licence Creative Commons attribution, partage dans les mêmes
conditions ; d’autres conditions peuvent s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi que les
crédits graphiques. En cas de réutilisation des textes de cette page, voyez comment citer les auteurs et mentionner la
licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le
paragraphe 501(c)(3) du code fiscal des États-Unis.

Vous aimerez peut-être aussi