Introduction
dec 2018- janv 2019
Emmanuelle Jardat
emmanuelle.jardat@centraliens.net
Le big data (il y a 5 ans) : prévoir dans la ville, le corps, la police, la
météo…les bus, les maladies, les attaques, le temps, ….
Le big data il y a 2 ans : la pub, les elections, des cours mieux faits….
Le big data aujourd’hui: des offres packagées pour les PME, des
tableaux à la rembrandt , de la musique à la Bach ….
https://www.huffingtonpost.fr/2016/04/07/n
ouveau-rembrandt-ordinateur-video-
oeuvres-maitre-peinture_n_9631424.html
https://www.numerama.c
om/pop-culture/219959-
est-ce-du-bach-ou-une-
intelligence-artificielle-se-
faisant-passer-pour-le-
genie-du-baroque.html
Un film en IA : accrochez-vous!!….
https://www.lesechos.fr/idees-debats/sciences-
prospective/0302266795433-lintelligence-artificielle-
peut-elle-etre-creative-2210086.php
https://www.youtube.com/watch?time_continue=480&v=LY7x2Ihqjmc
Qu’est-ce que l’IA ne peut pas faire?
Le big data demain : quels métiers?
• Information
• obtenue par interpretation et analyse d’un ensemble de
données dans un contexte donné, dans le but d’en tirer du sens
• peut être utile à la compréhension du monde : ex le changement
climatique, la performance d’un étudiant, d’une entreprise, …
la donnée et les algorithmes
"Content without method leads to fantasy,
method without content to empty sophistry."
Johann Wolfgang von Goethe (Maxims and Reflections, 1892)
et aussi des
nouvelles
technologies :
tout est câblé, pas
de mécanique
avec bras de
lecture
prédiction du futur?
la loi de
Moore
montre que
les
ordinateurs
seront
bientôt aussi
puissant
qu’un
cerveau
humain, et
vers 2048
aussi
puissants
que
l’ensembles
des
cerveaux de
la planète
25 interne Orange
prédiction du futur?
la loi de
Moore
montre que
les
ordinateurs
seront
bientôt aussi
puissant
qu’un
cerveau
humain, et
vers 2048
aussi
puissants
que
l’ensembles
des
cerveaux de
la planète
26 interne Orange
big data : un vocabulaire
incontournable
big data : noSQL
le théorème CAP
• Le théorème CAP ou CDP, aussi connu sous le nom de théorème de
Brewer dit qu'il est impossible sur un système informatique de
calcul distribué de garantir en même temps (c'est-à-dire de manière
synchrone) les trois contraintes suivantes1,2 :
• Cohérence (ou consistance des données) (Consistency en anglais):
tous les nœuds du système voient exactement les mêmes données
au même moment ;
• Disponibilité (Availability en anglais) : garantie que toutes les
requêtes reçoivent une réponse;
• Tolérance au partitionnement (Partition Tolerance en anglais) :
aucune panne moins importante qu'une coupure totale du réseau
ne doit empêcher le système de répondre correctement (ou
encore : en cas de morcellement en sous-réseaux, chacun doit
pouvoir fonctionner de manière autonome).
• d’où l’utilisation de NoSQL : availibility à la place de consistency
les bases de données
http://blog.inovia-conseil.fr/?p=117
big data : hadoop et mapreduce
https://www.youtube.com/watch?v=8wjvMyc01QY
En map/reduce, la donnée
d’entrée n’est pas stokée d’un
coup sur un system à haute
capacité. La donnée existe plutot
en petits bouts et est stockée en
permanence sur des éléments
traditionnel d’ordinateurs. Cela permet des
calculs en parallèle. On ne
déplace pas la donnée puisqu’elle
est déjà prédivisée en petits bouts
sur des noeuds qui calculent de
manière indépendante
ensuite tous les calculateurs
parallèles envoient leur résultats
et déplacent la donnée au besoin
pour continuer leur calcul
A New Software Stack
Analytics tools
Query tools
Resource NoSQL
(e.g. cluster) DBMS Data processing
admin. and frameworks
management
Distributed storage
Data Data
Hadoop Architecture
R (stats), Mahout (machine learning), …
Hive HiveQL
Yarn Hbase
MapReduce
Chunks Chunks
le big data c’est quoi?
37
When big data goes bad
38
The Bad
39
The Bad
41
The Bad (for me)
43
The Ugly
• ce qu’il s’est passé:
Solid Gold Bomb, l’entreprise responsable du Tshirt : n’était pas
même forcément au courant qu’elle l’avait mis en vente : son
business n’est pas de fabriquer des messages cool sur les
tshirts : mais d’avoir codé un programme de recherche de
phrase populaires sur le net, à partir du "Keep Calm and Carry
On," pour en faire des dérivés : et postés automatiquement en
vente sur amazon.
45
la banque
la banque : cas pratique
la distribution
la distribution : cas pratique
le transport
le transport
le transport : cas pratique
la santé
la santé : cas pratique
les médias
les médias : cas pratique
l'énergie et l'industrie
l'énergie et l'industrie: cas pratique
les telecoms
les telecoms : cas pratique
développement
pour le développement : cas pratique
cas d'étude
datavisualisation
google : gap minder / wealth and health of nations
http://www.gapminder.org/world/#$majorMode=chart$is;shi=t;ly=2003;lb=f;il=t;fs=11;al=30;stl=t;st=t;nsl=t;se=t$wst;tts=C$ts;sp=5.59290322580644;ti=2015$z
pv;v=0$inc_x;mmid=XCOORDS;iid=phAwcNAVuyj1jiMAkmq1iMg;by=ind$inc_y;mmid=YCOORDS;iid=phAwcNAVuyj2tPLxKvvnNPA;by=ind$inc_s;uniValue=8.
21;iid=phAwcNAVuyj0XOoBL_n5tAQ;by=ind$inc_c;uniValue=255;gid=CATID0;by=grp$map_x;scale=log;dataMin=194;dataMax=96846$map_y;scale=lin;data
Min=23;dataMax=86$map_s;sma=49;smi=2.65$cd;bd=0$inds=;modified=75
le big data comment ça marche?
TEMOIGNAGES
le big data comment ça marche?
JURISTE
interview jurist
droit sur les données : catastrophe : les gens entre services : imaginent qu’on des
trucs super précieux
« non, vous en prenez rien, vous avez le droit de travailler sur vos données »
gros problèmes : est-ce que c’est personnel ou pas
celui qui détient, celui qui utilise
la nature, la propriété, celui qui a fait des transfo dessus
le flux, la circulation de la donnée : le droit de la donnée primaire amis pas de sa
transformation : cela n’existe pas la production : la nature de la donnée : perso? santé?
= sensible? : on n’a pas les réponses / chaque juriste va développer son propre
raisonnement pour essayer de sécuriser ses clients à sécuriser ce qu’ils font et donner
une existence légale
la portabilité : droit nouveau / difficulté technique
les données vont rentrer dans des systèmes qui vont prendre des décisions? qui va
être responsable? el système, celui a codé? la donnée? celui qui l’a donné?
certains : pour créer confiance : endosse la resp : des boites de voitures automatiques
: disent : c’est moi / on le fait sous forme de charte pour anticiper un cadre juridique
pour ne pas être contraint // les US : avancent un peu plus vite
le big data comment ça marche?
LE DATA SCIENTIST
interview data scientist
big data : des peta de données qui sont
degueulasses : si elles sont formatées, pas de
soucis
ne pas confondre dashboard et tableaux de suivis :
on sait ce qu’on veut obtenir : on recherche de
l’info et on regarde son rapport
big data : on ne sait pas ce qu’on veut obtenir, et
on peut ne rien obtenir / trop de données : qu’on
ne peut pas stocker sur serveur ou cluster normal
et les données : sont parcellaires, pas parfaites : on
ne peut pas extraire de l’info