Vous êtes sur la page 1sur 76

Big Data et IA

Introduction
dec 2018- janv 2019
Emmanuelle Jardat
emmanuelle.jardat@centraliens.net
Le big data (il y a 5 ans) : prévoir dans la ville, le corps, la police, la
météo…les bus, les maladies, les attaques, le temps, ….
Le big data il y a 2 ans : la pub, les elections, des cours mieux faits….
Le big data aujourd’hui: des offres packagées pour les PME, des
tableaux à la rembrandt , de la musique à la Bach ….

https://www.huffingtonpost.fr/2016/04/07/n
ouveau-rembrandt-ordinateur-video-
oeuvres-maitre-peinture_n_9631424.html

https://www.numerama.c
om/pop-culture/219959-
est-ce-du-bach-ou-une-
intelligence-artificielle-se-
faisant-passer-pour-le-
genie-du-baroque.html
Un film en IA : accrochez-vous!!….

https://www.lesechos.fr/idees-debats/sciences-
prospective/0302266795433-lintelligence-artificielle-
peut-elle-etre-creative-2210086.php

https://www.youtube.com/watch?time_continue=480&v=LY7x2Ihqjmc
Qu’est-ce que l’IA ne peut pas faire?
Le big data demain : quels métiers?

Yuval Noah Harari


Homo Deus
D’après vous? Qu’est-ce qui est (plus) facilement automatisable?
Qu’est-ce que l’IA ne peut pas faire?
Qu’est-ce que l’IA ne peut pas faire?
Qu’est-ce que l’IA
ne peut pas faire?
le big data c’est quoi?
Qu’est-ce que la donnée?
Que fait-on avec ces données?
donnée ou information?
• donnée
– définition élémentaire d’un fait
• ex : temperature, note d’examen,
compte de résultat, message, photo,
transaction, etc.
– peut être très simple, et prise de
manière isolée, pas très utile
– mais l’intégration avec d’autres
données devient utile

• Information
• obtenue par interpretation et analyse d’un ensemble de
données dans un contexte donné, dans le but d’en tirer du sens
• peut être utile à la compréhension du monde : ex le changement
climatique, la performance d’un étudiant, d’une entreprise, …
la donnée et les algorithmes
"Content without method leads to fantasy,
method without content to empty sophistry."
Johann Wolfgang von Goethe (Maxims and Reflections, 1892)

• les meilleures sont les données, les meilleurs


seront les rendus des algorithmes
• Exemples
– 1997: IBM Deep Blue bat Garry Gasparov
• Negascout planning algorithm (1983)
• Dataset de 700 parties (1991)
– 2016: Google Alphago bat Lee Sedol (4-1)
• la méthode Monte Carlo (date des années 1940) et algo
basé sur les réseaux de neurones
• Dataset de 30 million de parties de GO
le big data c’est quoi?
D’OU VIENNENT LES DONNEES ?
big data : on prend les données et on
essaie de les utiliser
big data : quelles données?
big data : où sont donc les données?
big data : où sont les données?
open data
• 10 min : aller regarder les données dispos dans
https://www.data.gouv.fr/fr/
le big data c’est quoi?
POURQUOI MAINTENANT
le big data c’est quoi?

selon vous, pourquoi la


techno big data est-elle
un sujet d’aujourd’hui?
(et pas de ma promo)
qu’est-ce qui a changé?
big data : pourquoi maintenant?
des nouveaux
principes de
logiciels : on stocke
différemment, en
indexant
directement, et en
distribuant les
calculs dans le
cloud

et aussi des
nouvelles
technologies :
tout est câblé, pas
de mécanique
avec bras de
lecture
prédiction du futur?

la loi de
Moore
montre que
les
ordinateurs
seront
bientôt aussi
puissant
qu’un
cerveau
humain, et
vers 2048
aussi
puissants
que
l’ensembles
des
cerveaux de
la planète

25 interne Orange
prédiction du futur?

la loi de
Moore
montre que
les
ordinateurs
seront
bientôt aussi
puissant
qu’un
cerveau
humain, et
vers 2048
aussi
puissants
que
l’ensembles
des
cerveaux de
la planète

26 interne Orange
big data : un vocabulaire
incontournable
big data : noSQL
le théorème CAP
• Le théorème CAP ou CDP, aussi connu sous le nom de théorème de
Brewer dit qu'il est impossible sur un système informatique de
calcul distribué de garantir en même temps (c'est-à-dire de manière
synchrone) les trois contraintes suivantes1,2 :
• Cohérence (ou consistance des données) (Consistency en anglais):
tous les nœuds du système voient exactement les mêmes données
au même moment ;
• Disponibilité (Availability en anglais) : garantie que toutes les
requêtes reçoivent une réponse;
• Tolérance au partitionnement (Partition Tolerance en anglais) :
aucune panne moins importante qu'une coupure totale du réseau
ne doit empêcher le système de répondre correctement (ou
encore : en cas de morcellement en sous-réseaux, chacun doit
pouvoir fonctionner de manière autonome).
• d’où l’utilisation de NoSQL : availibility à la place de consistency
les bases de données

http://blog.inovia-conseil.fr/?p=117
big data : hadoop et mapreduce
https://www.youtube.com/watch?v=8wjvMyc01QY

En map/reduce, la donnée
d’entrée n’est pas stokée d’un
coup sur un system à haute
capacité. La donnée existe plutot
en petits bouts et est stockée en
permanence sur des éléments
traditionnel d’ordinateurs. Cela permet des
calculs en parallèle. On ne
déplace pas la donnée puisqu’elle
est déjà prédivisée en petits bouts
sur des noeuds qui calculent de
manière indépendante
ensuite tous les calculateurs
parallèles envoient leur résultats
et déplacent la donnée au besoin
pour continuer leur calcul
A New Software Stack
Analytics tools

Query tools
Resource NoSQL
(e.g. cluster) DBMS Data processing
admin. and frameworks
management
Distributed storage

Data Data
Hadoop Architecture
R (stats), Mahout (machine learning), …

Hive HiveQL
Yarn Hbase
MapReduce

Hadoop Distributed File System (HDFS)

Chunks Chunks
le big data c’est quoi?

selon vous, quels


genres de problèmes
peut apporter le
NoSQL?
Data Science
the good, the bad and the ugly
https://www.amazon.fr/Patrick-Valduriez/e/B00DOEXAP6
The good: Higgs Boson @ CERN
• LHC (Large Hadron Collider)
• Instrument pour étudier les propriétés
des particules fondamentales en
physique des particules
• Produit 15 petabytes / an de données
• jusqu’à 200,000 analyses simultanées

• la découverte du Boson de Higgs


• 2012: le CERN annonce avoir découvert
une particule qui seriat probablement le
Boson de Higgs tel que décrit dans la
physique des particules
• 2014: CERN confirme la découverte
36
The good: Google Sponsored Search Links
• Google Adwords et Adsense
• un Chiffre d’Affaires d’environ $50 billion/an issu du
marketing
• l’utilisateur définit son CPC (cost per click) maximum : le prix
maximum qu’il est prêt à payer pour un click sur sa pub
• les liens sponsorisés utilisent le principe des enchères
• les marquetteurs essaient d’attirer des clickeurs : ils font donc
des comparaisons de models de consommation (est-ce que
l’utilisateur va clicker ou non) et détermine ainsi le bon prix
de l’enchère
• Il y a environ 30 milliards de recherches par mois, 1
trilliards d’événements historiques de recherche à
traiter

37
When big data goes bad

38
The Bad

39
The Bad

• que s’est-il passé:


deux programmes automatiques : l’un lançé par le
vendeur "bordeebook" et l’autre par le vendeur
"profnath," étaient dans un mécanisme d’enchères
itératives de guerre des prix.

une fois par jour, profnath augmente son prix de x fois


le prix de bordeebook. Quelque temsp apèrs, au tour
de bordeebook d’augmenter son prix de y fois celui de
profnath

Problème: un modèle trop simplifié!


40
The Bad (for me)

41
The Bad (for me)

Problème: comment avoir l’info


fausse totalement effacée? 42
The Ugly

43
The Ugly
• ce qu’il s’est passé:
Solid Gold Bomb, l’entreprise responsable du Tshirt : n’était pas
même forcément au courant qu’elle l’avait mis en vente : son
business n’est pas de fabriquer des messages cool sur les
tshirts : mais d’avoir codé un programme de recherche de
phrase populaires sur le net, à partir du "Keep Calm and Carry
On," pour en faire des dérivés : et postés automatiquement en
vente sur amazon.

Problème: un modèle indépendant du


contexte
! 44
le big data DANS LE BUSINESS

45
la banque
la banque : cas pratique
la distribution
la distribution : cas pratique
le transport
le transport
le transport : cas pratique
la santé
la santé : cas pratique
les médias
les médias : cas pratique
l'énergie et l'industrie
l'énergie et l'industrie: cas pratique
les telecoms
les telecoms : cas pratique
développement
pour le développement : cas pratique
cas d'étude
datavisualisation
google : gap minder / wealth and health of nations
http://www.gapminder.org/world/#$majorMode=chart$is;shi=t;ly=2003;lb=f;il=t;fs=11;al=30;stl=t;st=t;nsl=t;se=t$wst;tts=C$ts;sp=5.59290322580644;ti=2015$z
pv;v=0$inc_x;mmid=XCOORDS;iid=phAwcNAVuyj1jiMAkmq1iMg;by=ind$inc_y;mmid=YCOORDS;iid=phAwcNAVuyj2tPLxKvvnNPA;by=ind$inc_s;uniValue=8.
21;iid=phAwcNAVuyj0XOoBL_n5tAQ;by=ind$inc_c;uniValue=255;gid=CATID0;by=grp$map_x;scale=log;dataMin=194;dataMax=96846$map_y;scale=lin;data
Min=23;dataMax=86$map_s;sma=49;smi=2.65$cd;bd=0$inds=;modified=75
le big data comment ça marche?
TEMOIGNAGES
le big data comment ça marche?
JURISTE
interview jurist
droit sur les données : catastrophe : les gens entre services : imaginent qu’on des
trucs super précieux
« non, vous en prenez rien, vous avez le droit de travailler sur vos données »
gros problèmes : est-ce que c’est personnel ou pas
celui qui détient, celui qui utilise
la nature, la propriété, celui qui a fait des transfo dessus
le flux, la circulation de la donnée : le droit de la donnée primaire amis pas de sa
transformation : cela n’existe pas la production : la nature de la donnée : perso? santé?
= sensible? : on n’a pas les réponses / chaque juriste va développer son propre
raisonnement pour essayer de sécuriser ses clients à sécuriser ce qu’ils font et donner
une existence légale
la portabilité : droit nouveau / difficulté technique
les données vont rentrer dans des systèmes qui vont prendre des décisions? qui va
être responsable? el système, celui a codé? la donnée? celui qui l’a donné?
certains : pour créer confiance : endosse la resp : des boites de voitures automatiques
: disent : c’est moi / on le fait sous forme de charte pour anticiper un cadre juridique
pour ne pas être contraint // les US : avancent un peu plus vite
le big data comment ça marche?
LE DATA SCIENTIST
interview data scientist
big data : des peta de données qui sont
degueulasses : si elles sont formatées, pas de
soucis
ne pas confondre dashboard et tableaux de suivis :
on sait ce qu’on veut obtenir : on recherche de
l’info et on regarde son rapport
big data : on ne sait pas ce qu’on veut obtenir, et
on peut ne rien obtenir / trop de données : qu’on
ne peut pas stocker sur serveur ou cluster normal
et les données : sont parcellaires, pas parfaites : on
ne peut pas extraire de l’info

Vous aimerez peut-être aussi