ReducedBigData - CM 1 - 3h - Introduction Vocabulaire - 01022020

Stratégie Big Data
Vers un Smart Data

Introduction
générale
Source majeure : Le Big Data – Que sais-je ? / P.Delort 2018

14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduc)on Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
• La première utilisation du terme « Big Data »

même l’Etat sur la Toile. Les spécialistes tion des smartphones avec toutes les pers- envoyer des offres de « couponing » sur
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
date d’un article présenté au congrès de

la quantité de données envoyées, reçues, pouvoirlesanalyser»,souligneGilbertGre- temps. Mais jusqu’à présent, les opérateurs
stockées toutes les secondes est devenue nié, analyste au cabinet de conseil Pricewa- télécom ne voyaient pas l’intérêt de dépen-
tellement importante qu’il est quasiment terhouseCoopers (PWC). Or «les outils classer des millions d’euros pour envoyer des
impossible de la traiter avec les outils siquesnesuffisentplus»,expliquesoncollè- publicitésciblées», précise YannChevalier.
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
• Il fait ensuite en 2008 et 2010, la couverture de

tects, soit 10 400 milliards de gigaoctets de donnéesdisponiblessur le climat,la géolo-
données déversés tous les mois sur Inter-
net.160000millionsdemilliardslacapaci-
mais aussi gie, la géothermie d’un lieu, on peut, par
exemple, savoir dans quelle direction ira
té du plus cher des iPhone! la démocratisation le vent et orienter son éolienne en fonc-
Les humains ne sont pas les seuls res-
ponsables de ce déluge d’informations. De
des smartphones tion. D’autres exemples existent dans l’ur-
banisation: grâce au croisement des don-
deux des revues de recherche les plus

plus en plus « connectées», les machines ont changé la donne nées de cartographie et de géolocalisation
contribuentaussiàfaireexploserlescomp- des individus, on peut prévoir où seront
teurs. Les stations pétrolières, les voitures Du coup, des éditeurs de logiciels infor- les embouteillages.
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
respectées, Nature et Science

communiquer des informations sur leur « mouliner toutes ces données» de maniè- la vie privée. Trouver l’équilibre entre le
environnement, la température… Certai- re exhaustive. C’est notamment le cas en respect de son intimité et les bénéfices
nes entreprises proposent même d’équi- marketing: « On exploite désormais toutes tirés du big data n’est pas simple. « Le pro-
per les réfrigérateurs et les machines à café les donnéesdont on dispose sur un client, en blème s’est présenté aux Etats-Unis, racon-
de cartes SIM pour les connecter aux les mettant toutes au même niveau, sans te Roxane Edjlali du cabinet Gartner, grâ-
réseaux mobiles. Histoire d’être informé à les hiérarchiser: leur âge, leur profession, ce aux sites Internet visités et aux achats
temps si le lait ou les dosettes de café les boutiques autour de chez eux, cela nous effectués par des jeunes femmes, une
• En avril 2010 l’objet d’une page Wikipédia en

venaient à manquer. Il y a aussi les don- permetd’établir des profilsde clients totale- entreprise américaine a su qu’elles atten-
nées « libérées » par les pouvoirs publics : ment nouveaux », explique Marc Atallah, daient un bébé. Elle a donc envoyé un cou-
horairesdetransportsencommun,statisti- directeur chez Deloitte France. Le but : pon aux domiciles des concernées et a
ques sur les populations… «Savoir quel client viser, quel client garder, appris à un père que sa fille adolescente
« Cela fait quelque temps déjà que le quel client est le plus rentable.» était enceinte… » p
anglais, puis en français à la fin de cette année. Il

nombre de données produites et stockées Yann Chevalier, PDG de la société Inter- Sarah Belouezzane
est important, note Patrice Poiraud, direc- sec, travaille pour les opérateurs de télé- et Cécile Ducourtieux
Traqués par nos données du matin au soir
se répand depuis dans les publications
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
informatiques et enfin grand public…

dez un smartphone et, comme la plupart sés ou des billets d’avion pour le… Cam- recherche de cadeau de Noël pour votre
de données
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
• Fin 2012, Le Monde un article sur le Big Data

réunion vous décidez d’écrire un mail per- 12heures: vous avez un déjeuner de tra- nées sur vous dès que vous êtes arrivé.
sonnel sur Gmail. Vous avez l’intention vail dans un quartier que vous ne connais- Et ce n’est pas fini. 19 h 45 : vous rejoi-
de partir en vacances au Cambodge, alors sez pas. Pas de panique, une recherche sur gnez des amis dans un bar et cette fois En 2011 En 2013
vous demandez des informations à votre l’application Google Maps de votre smart- c’est vous qui indiquez à Facebook où
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
• Les grands concepts sont déjà là

pour les générer pour les générer
PL T
Une pile de DVD La totalité Capacité du nouveau AY
6 millions de la hauteur des données data center
Un morceau Un film de livres de la tour enregistrées de la NSA* prévu
Une page de musique de deux heures numérisés Montparnasse en 2011 en 2013
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
Introduction Chaque seconde, la masse de données créées sur Internet par les smartphones,
P
NS S
U
SU AN

IT
CH
R

RO S
ID
R
SUR ATEU
AND
IS
UTIL


UTILISATEURS
WORDPRESS



CRÉ ITES
DE S
ATI
exaoctets

de données
ON

AP OOG
G
P
O
ST L
E RE E

PL T
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
P
NS S
U
SU AN

IT
CH
R

RO S
ID
R
SUR ATEU
AND
IS
UTIL


UTILISATEURS
WORDPRESS



CRÉ ITES
DE S
ATI
exaoctets

de données
ON

AP OOG
G
P
O
ST L
E RE E

PL T
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
P
NS S
U
SU AN

IT
CH
R

RO S
ID
R
SUR ATEU
AND
IS
UTIL


UTILISATEURS
WORDPRESS



CRÉ ITES
DE S
ATI
exaoctets

de données
ON

AP OOG
G
P
O
ST L
E RE E

PL T
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
Introduc)on Chaque seconde, la masse de données créées sur Internet par les smartphones,
P
NS S
U
SU AN

IT
CH
R

RO S
ID
R
SUR ATEU
AND
IS
UTIL


UTILISATEURS
WORDPRESS



CRÉ ITES
DE S
ATI
exaoctets

de données
ON

AP OOG
G
P
O
ST L
E RE E

PL T
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
P
NS S
U
SU AN

IT
CH
R

RO S
ID
R
SUR ATEU
AND
IS
UTIL


UTILISATEURS
WORDPRESS



CRÉ ITES
DE S
ATI
exaoctets

de données
ON

AP OOG
G
P
O
ST L
E RE E

PL T
de texte Word
5 Mo 1 Go 1 To 1 Po 1,8 Zo 1 Yo
De l’octet 30 ko
au yottaoctet,
l’échelle
des données
1o
20 mai 2014 Presse Marketing
• La presse Marketing démarre un peu plus tard…
• Chère maman - La dernière fois, au téléphone, tu m’as dit que tu

avais lu sans bien les comprendre les articles du Figaro, des
Echos et du New York Times sur cette chose qu’on appelle « Big
Data ». Comme promis, je vais essayer de t’expliquer de quoi il
s’agit.
• …
• PS : si quelqu’un te raconte que les Big Data c’est un super-
compliqué et qu’il commence à te parler choses bizarres comme
Hadoop, MapReduce, ou “les 3 V”, ne l’écoute pas. Dis-lui « je
comprends » en hochant la tête et laisse-le gentiment en plan…
Google Trends vs Scopus
Le Big Data est-il encore « Hype » ?
Hype Cycle = courbe de l’intérêt pour une techno
• Lancement de la technologie / Arrivée sur le marché
mais produits non utilisables, prototypes ou
technologie "prometteuse".
• Pics des attentes exagérées / Emballement
médiatique - aboutit à des attentes exagérées non
réalistes. Des startups se créent pour développer et
commercialiser des produits basés sur cette nouvelle
technologie
• Gouffre des désillusions / Les produits disponibles ne
répondent pas aux espoirs exagérés formulés. Les
médias vouent aux gémonies ce qu'ils ont adoré
précédemment ou on assiste à un krach boursier :
c'est "l'anti-hype".
• Pente de l’illumination / Certaines entreprises
persistent et développent des produits de deuxième
génération. On commence à comprendre les
avantages et pratiques d’application concrètes de la
technologie. On assiste à un développement progressif
et solide du marché.
• Plateau de productivité / La technologie est rodée et
permet le développement de produits de troisième
génération. L'étendue des applications est variable
selon que la technologie est largement applicable ou
ne sert qu'un marché de niche.
L’engouement s’est tassé… Hype
Cycle
Big Data ?
Qu’est-ce qui est Hype en 2020 alors ?
Critiques du Big Data (source wikipedia)
• Déshumanisation
• Faille de sécurité
• « Vassalisation de la recherche scientifique par des sociétés
commerciales et leurs services de marketing »
• Raréfaction des occasions d’exposition des individus à des choses qui
n’auraient pas été pré-vues = assèchement de l’espace public
• Exacerbation de la fracture numérique
• Monopole exclusif ou commercial de certains jeux de mégadonnées
collectées par quelques grandes entreprises (GAFA)
Big Data vs Smart Data or Small Data
• les Big Data, ce sont des yo1aoctets (1024) de données !
• « Si, à la place d’un octet (unité numérique nécessaire pour coder un
caractère) nous prenons une seconde, une kiloseconde (c’est-à-dire 1 000 s)
représente 17 min, soit le temps de cuisson d’un (gros) œuf, une
mégaseconde représente 12 jours, c’est-à-dire les deux Sers du cycle d’une
mouche, d’œuf à adulte, une gigaseconde, 32 ans, soit le Sers d’une –
longue – vie d’humain. La téraseconde, 33 000 ans, nous amène à la dernière
glaciaSon, une pétaseconde à la moiSé de la période nous séparant des
derniers dinosaures, une exaseconde représente 7 fois l’âge de la planète, une
zeYaseconde 2 300 fois l’âge de l’univers, et la yoYaseconde 2,3 millions de
fois… » / P.Delort
• 56% des entreprises US ne savent pas comment <rer par< des Big
Data / Source : Gartner
Smart Data
SMART DATA = données, issues du Big Data et devenues intelligentes, agiles et faciles
à exploiter en respectant le principe des 5S :
• Stratégie
• Définir les bénéfices à venir grâce à une réflexion sur les usages concrets aMendus par les opéraNonnels.
• Sourcer (Si vous n’avez pas un usage iden<fié de vos données, laissez- les là où elles sont !)
• IdenNfier les sources de données : à l’intérieur du système d’informaNon (CRM, Service client, e-commerce-
système de caisse...) ou à l’extérieur (partenaires, open data, third party data..).
• Sélec<onner (choisir c’est s’enrichir !)
• SélecNonner des données réellement uNles et éviter de saturer l’ensemble du système d’informaNons qui
ne seront jamais uNlisées...
• Signifier (Les Datascien/sts = mathéma/ques et créa/vité)
• Transformer les données brutes en indicateurs plus faciles à manipuler grâce à des traitements spécialisés :
data quality, dédoublonnage, textmining, datamining...
• Symboliser
• la DatavisualisaNon permet de représenter des volumétries, des relaNons, des liens parfois abstraits.
Smart Data : se servir des données pour…
• Alimenter le pilotage stratégique
• Améliorer le marketing produit
• Animer le marketing relationnel
• Affiner le parcours client et les recommandations
• Anticiper avec le marketing prédictif
... Et mesurer les résultats pour optimiser l'ensemble du process !

Small Data :A-t-on vraiment besoin
d’autant de données ?
• As a marketer, [Lindstrom] says, you should be
spending time with real people in their own
environments. That, combined with careful
observation, can lead to powerful marketing insights.
• This approach is the human-centric alternative to Big
Data. In each case, one is collecting information to
gain insights into behavior, interests, and so on.
Objectifs du cours
Objec)fs
• Comprendre les concepts et enjeux du Big Data
• Définir le vocabulaire
• Comprendre les liens Big Data / IA
• Découvrir certains des ou`ls
• Envisager les u`lisaòns possibles en Marke`ng
Définitions
3V, 5V… 9V ?
Modèle original : 3V
• Volume :
• le volume des données générées par an est énorme et
en perpétuelle augmentation
• Variété :
• données relationnelles traditionnelles, données brutes,
semi-structurées, voire non structurées
• données complexes provenant de sources multiples: du
web, de bases publiques, de machines ou objets
connectés...
• Les rend difficilement accessibles aux outils du SI
« classique ».
• Vélocité :
• fréquence à laquelle les données sont à la fois
générées, capturées, partagées et mises à jour
Effet COVID ?
Modèle 5V
• 2 nouveaux V sont apparus pour préciser le concept
• Véracité
• fiabilité et à dimension qualitaSve des données.
• Traiter et gérer l’incerStude et les erreurs rencontrées dans certaines
données, représente un challenge de taille.
• Valeur
• les efforts et les invesSssements dans l'uSlisaSon et applicaSon Big Data n’ont
de sens que si elles apportent de la valeur ajoutée
Quand on aime… le modèle des 9V !
• Le Big Data est défini en fonction d’aspects fonctionnels
• Collecte
• Traitement
• Intégrité
• Visualisation
• Potentiel de la donnée
• Le problème de vélocité se retrouve alors à 2 niveaux

• On voit aussi apparaître des concepts nouveaux tels que la véracité
(fiabilité) des données, la volatilité et les problèmes de visualisation
De la déduc)on à l’induc)on
• Avant le Big Data :
• La démarche était de partir d’a priori sur les données afin de les mettre en forme
et les stocker de manière très structurée
• Cela a donné lieu à la mise en forme des Datawarehouses et des Datamarts
• Après le Big Data : Approche fondamentalement différente
• Il faut chercher les modèles dans des données à faible densité en information,
en extraire des faits nouveaux ou de nouvelles relations entre des faits
• Autrement dit, le Big Data consiste à créer en exploratoire et par induction sur
des masses de données à faible densité en information des modèles à capacité
prédictive.
• Les résultats de ces modèles à capacité prédictive peuvent être exploités soit de
manière automatique, soit pour décision > Boom de l’Intelligence Artificielle
Nouveau processus de traitement de l’information
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
hUps://docs.microsoV.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
CEO D’après John Yeung
Valorisation des données par
fonction et par niveau de
Ta
ré
b
CFO CHRO COO CMO
le a
décision
tu
uc
ux
str
de
Prendre des décisions critiques
bo
CDO
No
dont l’issue est incertaine
rd
CIO
Besoins en termes décisionnels
Besoins en infrastructures SI
Managers seniors
Pla
Bu icat stio
nif Ge
sin ion n d
é
tur
es d e u
ruc
s I s SI
nt re
Générer des Affecter les bonnes Développer des Prédire les
-st
ell sso
mi
rapports nouveaux tendances de
ige u
RH au bon poste
Se
nc rce
financiers produits marchés
e s
Managers juniors
Au es d
Ba
to e d
Données sur les objecXfs
s
é
Données financières Données sur les ventes Données marketing
ma o
tur
individuels employés
tis nné
uc
ati es
Str
on
FoncXon financière
RH Production Marketing
et comptables
Répercussions
sur le SI
FORET
Définitions : DataWhat ?
• Datawarehouse
• lieu de stockage intermédiaire des différentes données en vue de la constitution du système
d'information décisionnel (aussi appelé entrepôt de données).
• c’est le lieu unique de consolidation de l'ensemble des données de l'entreprises.
• Selon Bill Inmon, le créateur du concept :
• « Un datawarehouse est une collection de données thématiques, intégrées, non volatiles et historisées pour
la prise de décisions. »
• Datamart
• Le Datamart (littéralement magasin de données) désigne un sous-ensemble du datawarehouse
contenant les données d’un secteur particulier de l'entreprise (département, direction, service,
gamme de produit, etc.).
• On parle ainsi DataMart Marketing, DataMart Commercial, ...
• Datastore
• Un magasin de données est un référentiel générique qui désigne un espace pour stocker et
gérer des collections de données. Inclue non seulement les bases de données, mais également
des données plus simples tels que des fichiers et systèmes de fichiers, des e-mails, etc.
Cri)ques du modèle BI
• La construcSon d’un Datawarehouse est complexe
• il est construit sur mesure pour répondre aux besoins spécifiques des entreprises pour chaque
type de données et pour chaque mé<er.
• Développer une soluSon BI est un travail de longue haleine:
• le temps augmente drasNquement avec les besoins en indicateurs de l’organisaNon
• il faut aOendre jusqu’à plusieurs mois pour bénéficier des atouts de l’informaNque décisionnelle
• Un Datawarehouse est rigide :
• Après l’acquisiNon d’un Datawarehouse, il est rare que les uNlisateurs puissent la modifier à leur
guise pour y travailler de manière différente ou y intégrer de nouvelles foncNonnalités
• Alimenter un Datawarehouse s’avère une tâche complexe :
• pas simple pour les uNlisateurs finaux et elle nécessite des spécialistes :
• développeurs, concepteurs de flux ETL, ges6onnaires de base de données…
• A l’heure du Big Data, la BI, ne permet qu'à un nombre restreint de personnes de

praAquer la transformaAon de données.
Source : La Data Preparation - Un Enjeu Pour La Nouvelle Bi – Synaltic 2016
Répercussions
sur le SI
Définitions : Data Lake
Sources : lebigdata.fr et wikipedia
• C’est un référenXel de données permeUant de stocker une grande quanXté de données dans le format naXf pour
une durée indéterminée :
• BDDR, NoSQL, Fichiers (csv, xml, log, json…), Documents structurés (emails, pdf…), blob (images, audio, vidéo…)
• Toutes les données de l’entreprise y sont stockées :
• données brutes, y compris les copies et historiques des données système source et les données transformées
• Exemple de DataLake →Hadoop !
• Avantages : • Inconvénients :
• capacité de stockage de grosses volumétries de • difficulté de conserver un lac de données propre et
données organisé (chronophage et particulièrement onéreux à
• rapidité de stockage sans pré-traitement des données terme).
brutes • Le risque est de se retrouver avec une masse de données
massives et inexploitables. On parle alors de marécage de
• souplesse et polyvalence pour stocker différents données ou Data Swamp: c'est un état dégradé du Data Lake.
formats et sources de données • difficulté à maintenir une gouvernance des données
• rationalisation du stockage des données efficace
• réduction des coûts de stockage • temps nécessaire au traitement des données stockées à
• réduction du temps et du coût liés à la préparation les l'état brut
données (le format d’origine est conservé) • expertise requise pour rechercher, analyser et traiter les
• permet de : données de manière pertinente et créatrice de valeur,
• Garder un historique des données anciennes sur de longue souvent confiées aux Data Scientists
périodes. • sécurité, confidentialité, et problématiques liées aux
• Faciliter le partage, la mise à jour, l'utilisation des données, données personnelles et au respect des réglementations,
• D’éviter le silotage des données inhérente aux données, est toujours présente et d'autant
• Rechercher, analyser et corréler l'ensemble des données de plus importante que le Lac de données regroupe et
l'entreprise pour une meilleur analyse et création de valeur. conserve des données massives.
Défini)ons : DataHub
Source : datacenter-magazine.fr
• Selon le cabinet Gartner, “les requêtes de clients se référant aux Data Hubs ont augmenté de 20%
entre 2018 et 2019“.
• Le cabinet d’analystes a remarqué que “plus de 25% de ces requêtes relèvent en fait du concepts de data lake“…
• Le Data Hub est à la fois un système de gestion de données, une source de données fiable et un
système de référence pour les processus opérationnels et analytiques.
• Il centralise les données de l’entreprise qui sont essentielles pour toutes les applications et permet
un partage transparent des données entre les différents systèmes de stockage, tout en étant le point
unique de vérité pour l’initiative de gouvernance des données.
• Les data hubs fournissent des données de référence aux applications et aux processus des
entreprises. Ils sont également utilisés pour connecter les applications d’entreprise aux structures
analytiques telles que les Data Warehouses et les Data Lakes.
• Avantages :
• En permettant de regrouper toutes les données de façon centralisée, le hub de données facilite l’accès aux
données et leur utilisation. L’entreprise qui l’utilise gagne donc en flexibilité.
• Le hub de données permet par ailleurs de stocker les données et de les analyser de façon sécurisée. Enfin, au
sein de cette architecture, les données peuvent communiquer dans toutes les directions.
DataWarehouse vs DataLake
vs DataHub
Data Warehouse Data Lake Data Hub
Usage primaire Analytique et reporting Analytique, reporting et Machine Learning Processus Opérationnels
Type de données Structurées Structurées et non structurées Structurées
Gouvernance “après coup” du fait de l’utilisation des Pilier fondamental pour toutes les règles
Gouvernance Peu ou pas de gouvernance.
données opérationnelles existantes. d’application de la gouvernance des données.
Qualité de la donnée Haute Moyenne / faible Très haute
Mono-directionnelle ETL ou ELT en mode batch.

Intégration avec les Mono-directionnelle ETL ou ELT en mode batch. Bi-directionnelle. En temps-réel.
Les données sont déversées sans contrôle dans le
applications Les données transformées et traitées sont rafraîchies Intégration avec les processus métiers existants via
data lake en attendant que le consommateur les
d’entreprise à fréquence basse (heure, jour ou semaine). des APIs.
traite manuellement.
Nécessite un traitement / une préparation des Peut être la principale source de production de
données avant leur utilisation. L’accès aux utilisateurs données clés telles que les données master et les
Propose un accès en lecture seule à des données
Interactions des métier est principalement assuré par des rapports, données de référence. Offre des interfaces
agrégées et rapprochées par le biais de rapports, de
utilisateurs métier des tableaux de bord ou des requêtes ad-hoc. Utilisé ergonomiques pour la création, la gestion et la
tableaux de bord analytiques ou de requêtes ad-hoc.
pour préparer des ensembles de données pour le recherche de données.
Machine Learning.
Référentiel principal pour les données fiables

Processus opérationnels Sert principalement aux processus analytiques et au provenant des processus d’entreprise. Peut être le
Sert principalement aux processus analytiques.
de l’entreprise Machine Learning. coordinateur principal des processus opérationnels
de l’entreprise.
En bref, les Data Warehouses et les Data Lakes sont des dispositifs de collecte de données qui existent pour soutenir l’analyse de données dans l’entreprise tandis que les Data Hubs
servent de médiateurs et de points de partage des données. Les data hubs ne sont pas uniquement axés sur les utilisations analytiques des données.
Exemples
Source majeure : Le Big Data – Que sais-je ? / P.Delort 2018
Séquenceurs d’ADN
• Le génome des humains est cons`tué de deux fois 3,4 milliards de
paires de bases, soit pour 2 bits, 1,7 gigaoctet de données
• Un séquenceur permet de décoder la suite de bases qui cons`tuent
l’ADN. De 2006 à 2016, le coût de séquençage du génome humain est
passé de 10 m $ à 1 k $, soit, divisé par 10 000
• La bataille des données contre le cancer est en cours, le centuplement
du volume stocké entre 2008 et 2013 pour les recherches de l’U900
en donne la mesure
Google et l’indexation de texte
• En 1996, Larry Page, encore à Standford, teste la possibilité de classer des sites web :
• il commence avec 15 millions de pages…
• Il ajoute l’algorithme pagerank dont l’efficacité croît avec le nombre de pages du Web, une analyse
des pages origines des liens retour, ainsi que de certains signaux (fréquence des mots, fonte,
majuscule, Ntre des pages…).
• C’est ceOe technologie qu’il développa avec Serguei Brin.
• N’étant pas parvenus à vendre ceYe technologie, ils créent Google en septembre 1998.
• En janvier 2000, Yahoo sous-traite à Google sa recherche, alors que les serveurs
conSennent déjà plus d’un milliard de pages
• Les données s’accumulant, Google a dû très tôt innover en infrastructure logicielle,
créant une gesSon d’index in-memory et Google File System (GFS) qui divise les fichiers
en segments de 64 Mo réparSs sur au moins trois disques en résilience aux
défaillances, relaSvement fréquentes quand le matériel acheté est le moins cher
possible… C’est l’ancêtre d’hadoop
IoT
• Deux anciens employés de Google ont fondé en 2006 Weatherbill (devenue The Climate Corporation), afin
de valoriser les informations publiées gratuitement par le National Weather Service américain.
• L’idée initiale était de vendre des assurances aux entreprises dont l’activité dépend des conditions météorologiques
• La société a resserré son activité sur les agriculteurs et s’est appuyée sur les 10 000 agents commercialisant
les assurances-récoltes de l’État fédéral.
• Rapidement, le volume des données centralisées par cette société a fortement crû :
• soixante années d’historique sur les récoltes, 15 téraoctets d’information sur la composition des terrains (maillage de 3 km2)
et un million de points relevés par les radars Doppler du réseau d’alerte aux cyclones, etc.
• Toutes ces informations ont permis de prédire avec une précision croissante les récoltes de maïs, soja et blé.
• En 2013, Monsanto, le géant de l’agrochimie et des semences a acquis The Climate Corporation et ajouté ses
téraoctets de données sur des centaines de milliers de semences et leur rendement.
• Monsanto propose aujourd’hui le produit Fieldscript supposé prévoir quelle semence pousse le mieux dans quel champ et
sous quelles conditions. Ce service est couplé avec l’utilisation de machines fabriquées par Precision Planting, firme acquise
par Monsanto en 2012. Ces machines ensemencent les graines adéquates, aux profondeurs et espacements adaptés aux
caractéristiques du sol et aux conditions climatiques… Les rendements pouvant être mesurés à la récolte avec une
moissonneuse également équipée de GPS.
• Sur cet « ensemencement prédictif », les agriculteurs rapportent une augmentation des rendements de 5 %
sur deux ans. Les fournisseurs de semence estiment qu’avec plus de données, certains rendements
pourraient augmenter de 25 %, c’est-à-dire bien davantage qu’avec toute autre technologie.
Google Flu Trends (GFT)
Search query topic Top 45 queries
n Weighted
Influenza complication 11 18.15
Cold/flu remedy 8 5.05
• La grippe tue annuellement entre 250 000 et 500 000 personnes. Le vaccin General influenza symptoms 5 2.60
de la grippe doit constamment s’adapter et, pour être efficace, doit Term for influenza 4 3.74
anXciper les mutaXons ou les suivre le plus rapidement possible. Specific influenza symptom 4 2.54
• Prendre en compte un réassorXment généXque est délicat, et les systèmes Symptoms of an influenza complication 4 2.21
de santé ont dû développer des disposiXfs d’alerte pour idenXfier les Antibiotic medication 3 6.23
épidémies et fabriquer les vaccins le plus rapidement possible. General influenza remedies 2 0.18
Symptoms of a related disease 2 1.66
• En 2009, Google est parXe des 50 millions de recherches (agrégat
hebdomadaire par État) les plus fréquentes. Puis chacun des 50 millions Antiviral medication 1 0.39
d’agrégats de recherche a été comparé à la proporXon de visites de Related disease 1 6.66
malades grippés chez les médecins du réseau SenXnel. Unrelated to influenza 0 0.00
Total 45 49.40
• Les 100 termes de recherche ayant la meilleure corrélaXon de Pearson
avec les données du CDC ont été classés et ont été comparés avec les
modèles en foncXon du nombre de ces requêtes.
• Ce modèle permet ainsi de détecter, en observant la fréquence
d’appariXon de certains termes dans les requêtes Google, le début de la
phase de propagaXon de la grippe en temps quasi réel, et ainsi de gagner
deux semaines sur le présent.
• Ce modèle a des limites :
• les recherches ne sont pas forcément effectuées par les personnes ressentant les
symptômes de la grippe, dès lors ce modèle n’est effec6f que sur une grande
popula6on ;
• pour la même cause, la précision géographique est faible ;
• des fausses alertes, causées par exemple par un rappel de médicament an6grippal,
sont possibles.
Les technologies
Stockage
Les bases de données « classiques »
• Les données sont stockées dans des BdD transac*onnelles qui s’u8lisent avec SQL :
• les données sont stockées par tables composées de lignes et colonnes
• des lignes idenGfiées uniquement par une clé primaire, des index en accélèrent l’accès ;
• des clés primaires et étrangères pour définir des rela9ons entre deux tables ;
• une uGlisaGon mulGuGlisateurs concurrents.
• La qualité des données est améliorée par :
• des contraintes sur les colonnes (valeur nulle interdite…)
• sur les lignes (pas de ligne dupliquée…)
• d’intégrité référenGelle (chaque clé étrangère
doit avoir une clé primaire…)
• et des transac8ons ACID, c’est-à-dire :
• atomique (exécutée en totalité ou pas du tout),
• cohérente (la base revient à un état cohérent),
• isolée (chacune est isolée des autres),
• durable (les logs d’exécuGon sont conservés).
MapReduce : quèsaco ?
• MapReduce, vient de Google et inverse un concept « traditionnel »
• envoyer les données aux unités de traitement
• car il est conçu pour
• envoyer le traitement aux unités de stockage
• MapReduce tire son avantage du faible coût des serveurs standards
• huit serveurs « standards » à huit cœurs et 128 Go de mémoire sont moins coûteux à
l’achat qu’un serveur à 64 cœurs et 1 To, ce qui favorise l’informatique distribuée,
répétitive quasiment à l’infini.
• Les réseaux (même à 10 Gb/s) ont des temps de latence moins bons que la mémoire,
…mais meilleurs que les disques !
• les communications entre serveurs se produisent souvent après agrégation forte des
données (total, moyenne…).
MapReduce (2)
• A permis à Google d’indexer le Web en coordonnant jusqu’à des centaines
de milliers de serveurs sur des tâches simples de comptage et d’agréga8on
en clé-valeur et suivant deux phases, « Map » pour la répar88on du travail
et « Reduce » pour l’agréga8on des résultats, selon le schéma suivant :
• fragmentaGon du fichier de données en M fichiers (de 16 à 64 Mo) et copie du
programme sur les serveurs ;
• l’un d’eux, le Master, assigne aux autres serveurs (les travailleurs), les M tâches Map
d’extracGon des couples clé-valeur du fichier et de transmission aux R tâches Reduce,
pour traitement et stockage.
• MapReduce prend aussi en charge les défaillances de machines :
• le Master interroge régulièrement (ping) les serveurs et, sans réponse, réparGt à
nouveau la tâche qui leur avait été a_ribuée.
• En fin de travail, il réaffecte les tâches des « traînards » éventuels à des travailleurs
de réserve.
• Pour quelques pourcents de serveurs peu uGlisés, cela peut parfois diminuer le délai
total de près de moiGé.
HDFS
• Hadoop est un framework qui s’appuie sur le système de fichier HDFS
(Hadoop Distributed File System)
• Un système de fichier est une façon d’organiser le stockage des informations
sur un support externe à la mémoire principale (en général disque dur)
• Il agit de concert avec les système d’exploitation de la machine à laquelle ce
support est connecté afin d’offrir un niveau basique d’accès aux données
• Il est en général invisible car on y accède via des logiciels intermédiaires :
• Qui connaît le nom du système de fichier de Windows (NTFS ou FAT), Mac (HFS/+/x),
Linux (ext4, zfs, btrfs…) ?
NoSQL
• Le terme Not only SQL (et pas No SQL) regroupe les BdD
organisées de manière structurée, mais autrement que
par des tables relaònnelles
• Elles sacrifient certaines foncSonnalités des BdD classiques
(cohérence interne des données…) au profit de performances
sur forts volumes.
• Taxonomie :
• orientées colonnes (HBase, inspirée de BigTable ou Cassandra)
• orientées <clé-valeur> (Redis ou Memcached)
• orientées document (MongoDB ou CouchDB)
• orientées graphes (GraphBase, FlockDB, Neo4J)
• objet, grille de calcul et cloud, XML (EMC Documentum),
mulSdimensionnelles (Hypertable), mulSvaluées…
NoSQL : orienté colonnes Source : illustraData.com
• Ces BdD NoSQL sont celles se rapprochant le plus des BdD classiques (SGBDR).
• on y retrouve le principe de “table” avec des lignes et des colonnes, mais…
• Les colonnes sont dynamiques
• Au sein d’une même table deux individus peuvent ne pas avoir le même nombre de
colonnes car les valeurs nulles ne sont pas stockées (ce qui est le cas dans les SGBDR
relationnels).
• permet de libérer de la place de stockage et d’améliorer les performances de traitement car la
volumétrie de données à traiter est plus faible.
• on a plus tendance également à ne créer qu’une seule table contenant toutes les données (et donc
colonnes) dont on a besoin et non plus une multitude de tables comme c’est le cas dans les modèles
relationnels.
• Cette absence de ‘jointure’ entre les tables améliore également les performances.
• L’historisation des données se fait à la valeur et non pas à la ligne comme dans
les SGBDR cela empêche le stockage d’informations en doublon et de ce fait
allège considérablement la base de données et les temps de calcul.
NoSQL : orienté colonnes
• Avantages ? • Inconvénients ?
• Flexibilité • Non-adaptée aux données interconnectées
• Temps de traitement • Non-adaptée pour les données non-
• Non-stockage des valeurs null
structurées
• Historisation à la valeur
• Quel usage ?
• particulièrement adaptées pour stocker de très
nombreux évènements mis à jour très
régulièrement.
• Le suivi de colis (de nombreux évènements dont le
statut change : En préparation, en cours de
livraison, livré..)
• La récupération et l’analyse de données en temps
réel issues de capteurs, IOT etc…..
Source : illustraData.com
NoSQL :
• Inconvénients ?
• Pas de requêtes sur le contenu des objets stockés
• Non-conservation des relations entre les
orienté clé-valeur objets (elles ne sont pas faites pour les contextes
où la modélisation métier est complexe)
• Usages
• beaucoup utilisées en tant que cache, pour
• Elles se basent sur le principe de stockage d’une conserver les sessions d’un site web et plus
valeur associée à une clé unique généralement pour toutes les données que l’on ne
• La valeur associée à une clé peut être une simple souhaite conserver que pendant un certain laps de
chaine de caractère comme un document, ou temps, pouvant aller de quelques secondes à
encore un objet beaucoup plus complexe pouvant quelques jours.
contenir une multitude d’information • Exemple :
• Ces bases ne permettent que 4 opérations : • gestion de panier d’achat (Amazon)
• création : créer un nouveau couple (clé,valeur). • collecte d’événements (jeu en ligne
Selon la base choisie, la valeur peut être n’importe
quel objet.
• lecture : lire un objet en connaissant sa clé
• modification : mettre à jour l’objet associé à une clé
• suppression : supprimer un objet connaissant sa clé
• Avantages ?
• simplicité, scalabilité, disponibilité
• très bonnes performances
Source : illustraData
NoSQL : Orienté document
• Repose aussi sur le paradigme clé/valeur, mais celle-ci est un document avec
une structure arborescente :
• il contient une liste de champs, un champs est associé à une valeur qui peut elle même
être une liste…
• Ces documents sont principalement de type JSON ou XML
• Avantages
• Les documents sont structurés mais aucune définition de structure préalable n’est
nécessaire
• On peut requêter et manipuler ces documents, et notamment récupérer, via une seule
clé, un ensemble d’informations structurées de manière hiérarchique. Dans un
environnement relationnel, cette opération nécessite plusieurs jointures qui sont très
coûteuse en ressources.
• Inconvénients
• Elles ne sont ni adaptées pour les données interconnectées ni pour les données non-
structurées
• Usages
• Ce sont parmi les bases NoSQL les plus répandues notamment pour tout ce qui
concerne :
• Les données clients (Stockage de toutes les transactions et information du client au
sein d’un même document (même clef)).
• La gestion catalogue de produits
• Le Web analytics …
• Avantages
NoSQL : Orienté graphes • Adaptées aux objets complexes organisés en réseaux,
aux données présentant des dépendances fortes
• Permet d’appliquer les algorithmes de la théorie des
graphes et la mise en place de visualisa6on de graphes
• L’objectif est de stocker les données en s’appuyant sur des graphes • Beaucoup plus rapides que les autres systèmes de
qui incluent les notions de : stockage pour manipuler les données fortement
• noeuds qui ont chacun leur propre structure connectées
• relations entre les noeuds • Inconvénients
• propriétés (de noeuds ou de relations) • Non adaptées pour tous les autres contextes que celui
des “données fortement connectées”
• Ce modèle facilite la représentation du monde réel, ce qui le rend
particulièrement bien adapté au traitement des données des • Usages
réseaux sociaux et géographiques, et de toutes les données • Modélisa6on des réseaux sociaux (Twifer, Facebook…)
fortement connectées. • Moteur de recommanda6on (vous êtes intéressés par
• Pour récupérer les relations entre les éléments, de nombreuses jointures un objet car vos amis et des amis de vos amis le sont)
entre différentes tables sont nécessaires dans une base relationnelle, ce • Détec6on de la fraude (détec6on de réseaux de
qui complexifie les requêtes à mettre en place et augmente nettement les fraude)
temps de calculs comparé à une base Nosql graphe
• Données géo spa6ales (réseaux ferrés, etc.)
• Web séman6que, Biologie, etc.
Et le cloud dans tout ça ?
• Le cloud computing permet à l'utilisateur ou à l’entreprise d'utiliser
des ressources et services répartis dans le monde entier et liés par un
réseau, sans disposer matériellement de l'infrastructure informatique
correspondante, qui est, elle, hébergée chez le fournisseur de cloud.
• Le cloud computing est donc un service mutualisé et virtualisé, dont
le coût varie en fonction de l’utilisation réelle
• La facturation s’effectue en fonction du nombre de couches de
« services » externes utilisés (c’est pourquoi on trouve « aaS » - as a
Service - à la fin des acronymes définissant ces modèles
commerciaux)
Vocabulaire Cloud Source : Microsoft Azure - Gérez votre Système d'Information dans le Cloud / Philippe Païola
Le vocabulaire du Cloud
• Interne (On-Premise) :
• à part le réseau (internet) toutes les couches fonctionnelles sont
fournies et gérées au sein de l’entreprise
• IaaS :
• C'est le service de plus bas niveau. Il consiste à offrir un accès à
un parc informatique virtualisé. Des machines virtuelles sur
lesquelles le consommateur peut installer un système
d'exploitation et des applications. Le consommateur est ainsi
dispensé de l'achat de matériel informatique.
• PaaS :
• le système d'exploitation et les outils d'infrastructure sont sous
la responsabilité du fournisseur. Le consommateur a le contrôle
des applications et peut ajouter ses propres outils. Les systèmes
sont mutualisés et offrent une grande élasticité - capacité de
s'adapter automatiquement à la demande
• SaaS :
• des applications sont mises à la disposition des consommateurs.
Les applications peuvent être manipulées à l'aide d'un navigateur
Web ou installées de façon locative sur un PC, et le
consommateur n'a pas à se soucier d'effectuer des mises à jour,
d'ajouter des patches de sécurité et d'assurer la disponibilité du
service (exemple Gmail, Office365…)
• Mais encore :
• N(etwork)aaS, D(esktop)aaS, ST(orage)aaSn
C(ommunication)aaS, W(orkplace)aaS, M(obile)B(ackend)aaS
Les Acteurs
Les pionniers
• Les technologies autorisant le Big Data sont nées de la rencontre de besoins
nouveaux, de masses de données à exploiter et des capacités d’innovation
des sociétés majeures d’Internet : Google, Amazon, Facebook…
• Ces sociétés disposaient de données abondantes, générées gratuitement par leurs
utilisateurs et clients, et centrales à leur activité, car concernant souvent la vente ou
caractérisant leurs clients ou utilisateurs.
• Elles connaissaient également une culture d’innovation, car souvent nées
autour – voire dans – des universités de recherche américaines et se lançant
parfois grâce à des technologies qui en étaient issues.
• C’est sans doute pourquoi elles reprirent de nombreux points de management
spécifiques aux systèmes éducatifs comme le partage de ressources communes par des
acteurs autonomes ou un taux d’encadrement très faible.
• Ces points permirent à la culture de l’innovation de perdurer :
• description des logiciels dans des articles, dont forme et fond s’inspirent de la
recherche académique
• don à la communauté Open Source de logiciels, telle la BdD Cassandra que Facebook
donna à la fondation Apache en 2008…
Les suiveurs
• Durant la décennie 2001-2010, à l’exception d’Oracle avec Exadata en
2009, les acteurs majeurs de l’industrie du logiciel (IBM, Microsoft…)
étaient absents du domaine du Big Data.
• Le marché traditionnel des BdD transactionnelles connaissait toujours une
croissance à deux chiffres jusqu’à 2009 et la crise économique, et l’intérêt de
leur base de clientèle ne dépassait pas, pour le Big Data, une curiosité polie.
• Les raisons pour lesquelles ces acteurs historiques ont entamé une
vague de communication et d’acquisition (estimée à 25 Md $, dont 15
pour IBM, Microsoft, Oracle et SAP) au tournant de la décennie
reposent a minima sur la croissance de 10 % par an (double du reste)
du marché des logiciels spécialisés en analyse de données
• SAP acheta Business Objects en 2007 puis Sybase en 2010, KXEN en 2013.
Microsoft acquit Fast Track en 2008, IBM Netezza et EMC Greenplum en 2010,
Teradata Aster Data Systems en 2011, Oracle Endeca Technologies en 2011…
Les tendances
• Se dessine dans l’industrie du logiciel une triple évolution :
• Une amélioration de l’offre matérielle :
• Les firmes possédant une forte et ancienne expertise du matériel, le stockage pour EMC ou des
machines d’analyse de BdD massives pour Teradata, capitalisent sur leur expertise. Les
constructeurs moins focalisés sur le matériel créent des appliances, comme IBM avec sa BdD
DB2 dans Smart Analytics System.
• L’offre logicielle existante s’enrichit par des extensions « Big Data » :
• Les investissements de Microsoft, Oracle et IBM au cours de la vague de rénovation IT initiée en
2005 se chiffrent en milliards de dollars de R&D, marketing, acquisitions… qui sont à rentabiliser.
L’enjeu est double, continuer à vendre et faire évoluer la base installée de leurs produits et
progresser sur le segment en croissance du Big Data, quelle que soit la signification (plutôt large)
qu’ils lui donnent.
• L’offre Open Source, notamment en Machine Learning, devient importante
• avec des bibliothèques Python, comme Scikit-learn incluant outils d’apprentissage automatique
• étroitement connectées avec celles de traitement des données, comme NumPy,
• et les frameworks, comme TensorFlow (créé par Google Brain) ou Apache MXNet, dédiés aux
réseaux de neurones et conçus pour profiter des processeurs graphiques (GPU - Graphics
Processing Unit)
Le cloud du spectacle
• De nouveaux acteurs sont apparus depuis une dizaine
d’années :
• ils proposent, sur une base de services internes (Amazon Web
Services, AWS, largement leader en 2018, et Google Cloud Platform,
GCP) ou créés ad-hoc (Microsoft Azure, IBM, etc.) une offre autour
de machines virtuelles, standardisées, à gestion largement
automatisée – facturation comprise – et… à distance.
• Ces services incluent les « classiques » du Big Data
(MapReduce, etc.), ainsi que des produits jusqu’alors internes
(BigTable ou Spanner pour GCP) et connaissent une
étonnante croissance depuis 2015 sur le Machine Learning,
notamment avec TensorFlow sur GCP et MXNet sur AWS et
Azure.
• Des services plus spécifiques comme de traduction ou de
classification/reconnaissance d’image font partie de ces
offres dans les « nuages ».
• Ils tireront parti d’une formidable concentration de données, de ce
fait en fort volume, ainsi que de leur étiquetage « offert » par les
utilisateurs.
Ecosystèmes
• En pratique, les grands acteurs du Big Data offre un ensemble
cohérents de technologies pour couvrir une grande partie des besoins
fonctionnels liés au Big Data :
• Stockage
• Requêtage
• Analyse
• Visualisation
• On parle alors « d’écosystème » Big Data
Ecosystème Hadoop
• Comme on l’a vu plus tôt, hadoop a
été l’un des pionniers dans les
environnements technologiques de
développement du Big Data
• Il s’est étoffé d’outils au fur et à
mesure pour couvrir tous les besoins
fonctionnels
• En réalité hadoop est un framework
libre sans commercialisation propre
mais via les grands acteurs qui
contribuent à son développement
Ecosystème Amazon
• Amazon fait lui aussi partie des acteurs précoces qui ont développé des
infrastructure pour le Big Data avec des outils propres
Ecosystème IBM
• IBM arrivé plus tard sur le
marché et dans son optique
maintenant ancienne de
s’appuyer sur des briques
existantes en offrant leur propre
infrastructures
Ecosystème Azure
• Microsoft, de son côté a fait le
choix (comme à son habitude)
de développer une solution
propre qui capitalise sur ses
services éprouvés
• Comme c’est acteur majeur et
que nous avons un accord avec
Microsoft au niveau de l’ULR,
c’est cette plateforme que nous
utiliserons pour les TD
Ecosystèmes en interaction
• Il n’y a bien sûr pas de
séparation franche entre ces
différents écosystèmes et ils
agissent souvent en interaction
Pourquoi u<liser le Big Data ?
Intérêt du Big Data pour l’entreprise ? (2019)
Intérêt du Big Data pour l’entreprise ?
Quels bénéfices
clients du big
data en
marketing ?
Beaucoup de données
• IoT :
• Capteurs / RFID / Géolocalisation…
• Contenus :
• photos, vidéos, articles, avis / statuts, tweets
• Référentiels :
• third party data, open data…
• Comportements online anonymes :
• navigations, recherches sur moteurs…
• Comportements identifiés :
• réseaux sociaux, formulaires, jeux concours, transactions, achats e-commerce,
caisses, emailing, cartes de fidélité, SAV…
Bénéfices marketing (1/2)
• Marke<ng prédic<f • Web analy<cs
• Analyse des signaux faibles & cahier • OpSmisaSon de la créaSon de trafic
de tendances • PersonnalisaSon des messages publicitaires
• CréaSon de new business models • PersonnalisaSon de la navigaSon sans
• Veille et pilotage e-réputaSon idenSficaSon
• Compréhension et anScipaSon de • OpSmisaSon des parcours clients web
comportements et de parcours • Calcul de la valeur client & arbitrage des moyens
clients complexes • KPI suivis :
• coût du trafic, taux de conversion, taux de clic,
fréquence d'achats, taux de rebond, CA généré & ROI
des acNons par segment...
Bénéfices marketing (2/2)
• Marke<ng rela<onnel mul<canal

• Connaissance client
• Choix des canaux les plus performants par individu
• SegmentaSon & ciblage plus fins des clients (les plus rentables, les plus à risque...)
• OpSmisaSon des parcours clients cross canaux
• PersonnalisaSon de la navigaSon & des contenus après idenSficaSon
• AutomaSsaSon des ventes addiSonnelles
• Calcul de la valeur client & arbitrage média
Utiles pour les consommateurs
• An9cipa9on des a>entes et des usages
• Innova9on produits
• Reconnaissance et personnalisa9on de la navigaGon & parcours client
• Recommanda9on personnalisée de produits
• Bannières retargetées, ciblées et personnalisées
• OpGmisaGon des segments et ciblages
• Personnalisa9on de la relaGon client : téléphone, courrier, SMS, email, web idenGfié
• Personnalisa9on des canaux et des mécaniques promoGonnelles
• Recommanda9on personnalisée de produits
• Ges9on adaptée de la pression
• Mais a>en9on à respecter les a_entes des consommateurs qui souhaitent :

• Avoir le droit à l’oubli / désabonnement
• Contrôler l’usage de leurs données
• Limiter l’intrusion dans leur vie privée
Générant de la valeur
• An<cipa<on & op<misa<on de l’organisaòn et des moyens
• Nouvelles opportunités business
• Rapidité de réacòn
• Op<misa<on du ROI des acòns de recrutement & conversions & fidélisaòn
• Améliora<on de la rentabilité et du CA des sites web
• Automa<sa<on des acòns
• Op<misa<on du ROI des campagnes de marke`ng relaònnel
• Baisse des coûts liés à la bad data
Scenarii d’usage de
la Data Science ?
Pour un commerçant
Connaissance client • Profiling : analyse des données de vos clients pour mieux les connaitre et les
• Analyser vos contacts et leurs besoins segmenter
• Pression commerciale : contrôle des performances des campagnes
envoyées à vos contacts pour optimiser la pression commerciale
Recommandation • Cross-sell : pousser par email des produits associés au produit que vient
• Pousser des offres pour convertir et d'acheter le consommateur par exemple
des contenus pour augmenter • Articles similaires : recommander des produits similaires à celui que le
l’engagement visiteur est en train de consulter sur le site
• Chatbot : interagir avec le visiteur pour l'aider à trouver le produit dont il a
besoin (par exemple, lui recommander un cadeau pour la fête des mères).
Prévision • Intentionnistes : détecter les personnes susceptibles d'être intéressées par

• Anticiper les comportement de vos votre offre
contacts • Anti-churn : détecter les personnes susceptibles de se désabonner à votre
offre
Optimisation • Conversion : plan de tests pour améliorer la conversion globale du site
• Optimiser les dépenses publicitaires et • Life Time Value (LTV) : définition de la valeur du contact pour ajuster vos
toucher précisément les cibles campagnes de publicité
Pour un média
Connaissance client • Veille et tendances : examen des forums et des réseaux sociaux pour
- Analyser vos contacts et leurs besoins connaitre les sujets en vogue
• Contenu éditorial : analyse des performances des contenus pour se focaliser
sur ce qui marche le mieux
• Contenu inapproprié : analyse des forums et réseaux sociaux pour détecter
les contenus négatifs liés à votre marque
Recommandation • «A lire aussi » : proposer ses contenus à la bonne personne et recommander

- Pousser des offres pour convertir et des du contenu associé
contenus pour augmenter l’engagement • Chatbot « service » : interagir avec le visiteur pour lui proposer le contenu
qui lui correspond (par exemple, proposer une recette en fonction de ce que
la personne a dans son frigo pour un site de recette)
Prévision • Prévision d'audience sur le site : afin de prédire si une campagne de
- Anticiper les comportement de vos publicité sur votre site va fonctionner ou non
contacts
Optimisation • Performance régie : pousser la bonne publicité à la bonne personne sur votre
- Optimiser les dépenses publicitaires et site
toucher précisément les cibles
Pour un vendeur
Connaissance client • Profil de consommation : à partir des données d'achat, croisées avec
- Analyser vos contacts et leurs besoins d'autres types de données si besoin
• Zone de chalandise : détection de la zone de chalandise de vos points de
vente dans des objectifs de geomarketing
Recommandation • Recommandation de produits en magasin :

- Pousser des offres pour convertir et des • Sur tablette a disposition des visiteurs
contenus pour augmenter l’engagement • Vendeur amplifié
Prévision • Prévision trafic en magasin : pour pourvoir ajuster les temps de présence de
- Anticiper les comportement de vos votre équipe et éviter les rushs et les moments « vides »
contacts • Prévision des ventes en fonction de la météo : pour optimiser votre stock
Optimisation • Linéaires et têtes de gondole : analyse croisée des ventes et de la position
- Optimiser les dépenses publicitaires et géographique des produits pour améliorer votre merchandising
toucher précisément les cibles • Impact ISA : analyse des résultats des campagnes print envoyées par voie
postale.
Comment exploiter
les données big data
en marketing
Exploita)on du Big Data en marke)ng
• Constat :
• Je suis loin des bonnes pratiques
• Mes données sont en silos
• Je n’exploite pas les comportements on line
• Le bad data me coûte cher (au R.U. 15% du budget marketing)
• L’efficacité des mes campagne diminue
Bonnes pra)ques
1. Réflexion stratégique
• Définissez votre stratégie Data
• Partagez une vision cible : Data / OuSls / RH /OrganisaSon / Process
• Formalisez une roadmap et un planning
2. Data sourcing (sélecònnez les bonnes données)
• Mon SI (CRM, Achats, LogisSque, Paiements, Cartes, Abonnements, Tickets de caisse…)
• Le Web (Formulaires, Jeux concours, Réseaux sociaux, e-commerce, Parcours client,
NavigaSon…)
• Les retours de campagnes (Clicks, Visites, Coupons, Service client…)
Bonnes pratiques
3. Data quality (améliorer la qualité et enrichir les données)
• Référentiels, Cohérence, Transcodification, Enrichissement, Déduplication, Enregistrement
maître
4. Data Base (regrouper la connaissance client et les résultats des actions)
• Big Base Marketing Unique
5. Data Management (piloter, explorer, exploiter la base)
• Pilotage, reporting, segmentation, export
6. Marketing multicanal (améliorer, sur la durée, le ROI des actions)
• Exécution des campagnes relationnelles multicanal (e-mail, courrier / SMS, Mobile / Social…)
– les client reçoivent des messages personnalisés et interagissent (boucle de retour)
• Personnalisation parcours web (Navigation, Recommandation…)
• Retour vers le SI (données néttoyées)
• Etudes / Datamining (Score, typologie…)
Conclusion ?
Conclusion
• Le Big Data ce n’est pas seulement beaucoup de données mais aussi (et
peut-être surtout) des données variées, en perpétuelle évolu8on.
• Il a fallu adapter le SI à ces nouveaux types et volumes de données et de
nombreux acteurs sont apparus ou ont rejoint le mouvement
• La transforma8on du SI et des données disponibles a permis de susciter des
nouvelles consomma*on des données afin de proposer des services
toujours plus adaptés et générateur de valeurs
• La clef de ces nouveaux usages réside cependant dans la transforma*on
des modèles de données :
• on est passé d’un régime où la structuraGon des données était forte à une approche
inducGve où on essaye de faire « parler » les données grâce à la Data Science
Data Science :
les nouveaux métiers
Big Data Durable
Un oxymore ?
Le Big Data et le développement durable?
Vol. 27, No. 9, September 2018, pp. 1685–1695
ISSN 1059-1478|EISSN 1937-5956|18|2709|1685
DOI 10.1111/poms.12837
© 2017 Production and Operations Management Society
• Stocker et gérer le Big Data
How Sustainable Is Big Data?
Charles J. Corbett
• 2% (~rejets aviation) des émissions de CO2 et en progression…
UCLA Anderson School of Management, 110 Westwood Plaza, Box 951481, Los Angeles, California 90095-1481, USA,
• Big Data ≠ Right Data

charles.corbett@anderson.ucla.edu
he rapid growth of “big data” provides tremendous opportunities for making better decisions, where “better” can be
T defined using any combination of economic, environmental, or social metrics. This essay provides a few examples of
Printed by [Universite De La Rochelle - 079.092.195.198 - /doi/epdf/10.1111/poms.12837] at [02/11/2020].

how the use of big data can precipitate more sustainable decision-making. However, as with any technology, the use of
big data on a large scale will have some undesirable consequences. Some of these are foreseeable, while others are entirely
unpredictable. This essay highlights some of the sustainability-related challenges posed by the use of big data. It does not
intend to suggest that the advent of big data is an undesirable development. However, it is not too early to start asking
• Priorisation de l’acquisition de données ?

what the unwanted repercussions of the big data revolution might be.
Key words: big data; sustainability; energy; operations; life-cycle assessment

History: Received: December 2017; Accepted: December 2017 by Kalyan Singhal, with no revision.
1. Introduction health of watersheds, human health, biodiversity, etc.,
• Véracité des données ?

while social impacts could affect workers, consumers,
Big data is here to stay, but what are some of the envi- communities, societies, or value chain actors.
ronmental and social consequences of the big data
In the past, we may have received periodic updates
revolution? How sustainable is big data? The advent
on climatic conditions, or sporadic insights into the
of big data provides revolutionary new opportunities treatment of workers at vendor facilities. Now, how- Cluster Computing
for increased understanding of the environmental
ever, the real-time monitoring of such phenomena at https://doi.org/10.1007/s10586-019-02958-6
and social impacts of supply chains, with the con-
(0123456789().,-volV)(0123456789().
,- volV)
ever greater granularity results in a much greater vol-

comitant potential for improvement along those
• Big Data ≠ Better Decisions

ume and velocity of data. Now that such data can
dimensions. Big data also gives rise to both known include anything from temperatures to satellite
and unknown environmental and social challenges. images to social media posts, the variety is widening
The purpose of this essay is to highlight some of those
too. The veracity of data also varies widely, depending
challenges. My intention is not to argue that big data
on factors such as whether weather data are observed A survey: ICT enabled energy efficiency techniques for big data
is a phenomenon to be resisted. However, any techno-
logical breakthrough, if adopted on a sufficiently
or extrapolated, or whether worker conditions are applications
self-reported or independently verified.
wide scale, will have far-reaching externalities, both
Although the main purpose of this essay is to high-
positive and negative. Sumedha Arora1 • Anju Bala2
light sustainability-related challenges associated with
• Conséquences sociales et éthiques ?

I use the term big data according to the emerging
big data, I do not want it to sound negative. So, I will
consensus (e.g., Etzion and Aragon-Correa 2016, p. Received: 7 March 2019 / Revised: 25 May 2019 / Accepted: 2 July 2019
first provide a few (unpresentative and unscientifically
148), which holds that big data is not necessarily ! Springer Science+Business Media, LLC, part of Springer Nature 2019
selected) examples of the exciting benefits and opportu-
“big” but rather that it is differentiated from “tradi-
nities that big data already provides or promises.
tional data” by any of the “4Vs”: volume, variety, veloc-
Abstract
ity, and veracity. Goes (2014) argues that the promise
The growth and development of the information and communication technology industry has led to a rapid rise in big data
of big data is the ability to exploit various combina- 2. Examples of Big Data and applications. With the development of cloud data centers, cloud computing serves as an appropriate approach for delivering
tions of these 4Vs.
Sustainable Operations
• Délocalisation des émissions

services to these applications. Such centers are equipped with a large number of servers which consume high energy and
Define sustainability loosely as making decisions
while simultaneously taking into account economic, This section offers a few examples of how big data is, thus energy efficiency has become a major concern. To achieve sustainability, it is imperative to construct green data
environmental, and social considerations. When sus- or can be, used to enhance our understanding of the centers. This paper surveys big data applications and related challenges in the cloud environment. Energy efficiency has
tainability is defined this way, it becomes clear that impacts supply chains have on environmental and been recognised as the prime concern, and the techniques to achieve it have been categorised as infrastructure, storage,
sustainability is inherently intertwined with big data. social conditions, and vice versa. These examples are analytical, networking, scheduling and hybrid. The limitations in each energy saving techniques have been discussed. The
When we seek to measure the environmental and not intended to be comprehensive or representative. importance of performance parameters, along with the energy efficiency, has been highlighted. The article has been
social impact of our decisions, an explosion in both Instead, they are provided to illustrate the wide range concluded with valuable insights for future enhancements.
• Ex : Microsoft Tay, Google Photo, Beauty.AI

the volume and the variety of data naturally results. of (potential) applications of big data to sustainable
Environmental impacts could be on global climate, operations, and to serve as a counterweight to the Keywords Big data ! Applications ! Energy consumption ! Green data centers ! ICT ! Technique ! Cloud computing
1685
1 Introduction The data centers are housed with high computing servers
that consume a large amount of energy. According to a
The Information and Communication Technology (ICT) recent survey, approximately 8 million data centers around
industry has introduced the high resolution wireless sensor the world have been established in 20171. The centers in
technology which collects huge volumes of data every the U.S. consume more than 90 billion kWh of electricity
second [8, 57]. This information is used for large-scale big annually, which is equivalent to the energy obtained from
data applications such as military, astronomy, and health 34 large coal-fired power plants2. The power consumption
• Mais des efforts sont effectués

care. These applications demand enormous computing of the data centers ranges from 75 to 150–200 W/cm2, and
capabilities, which are provided by ICT-enabled cloud data it is projected to reach 200–300 W/cm2 in the coming years
centers. Hosting these applications in cloud data centers [22]. Moreover, 78.7 million metric tons of CO2 is emitted
leads to various challenges which include energy effi- by the data centers, which constitutes 2% of the global
ciency, scalability, fault tolerance and storage. Among emissions. If control measures are not identified, the energy
these issues, energy efficiency has turned into a widely- consumption is expected to reach 8000 terawatt hours
• Pour réduire l’impact énergétique (amélioration des techno)

researched topic. (TWh) by 2030 [29].
Hence, energy efficiency needs to be ensured for the big
data applications in cloud computing. There are many
promising solutions, such as multicore architecture, virtu-
& Sumedha Arora
sarora_phd16@thapar.edu alization, consolidation and energy efficient routing.
However, despite such advances, several open issues need
Anju Bala
• Pour participer à la résolution du problème (télétravail, calculs)

jainanju963@gmail.com
1
1
https://www.datacenterknowledge.com/industry-perspectives/
Department of Computer Science and Engineering, Thapar achieving-data-center-energy-efficiency
Institute of Engineering and Technology, Patiala, India 2
https://www.forbes.com/sites/forbestechcouncil/2017/12/15/why-
2
Department of Computer Science and Engineering, Thapar energy-is-a-big-and-rapidly-growing-problem-for-data-centers/
University, Patiala, India #53e00df25a30
123
Plan
Plan du cours
• 3h CM : intro Big Data
• 4 séances : 1,5h CM + 3h TD
1. Analyse des données (Power BI)
2. Extraction d’information :
1. Apprentissage automatique
2. Règles d’associations
3. Réseaux (sociaux) > J.-L.Guillaume
Vos ques7ons ?

ReducedBigData - CM 1 - 3h - Introduction Vocabulaire - 01022020

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ReducedBigData - CM 1 - 3h - Introduction Vocabulaire - 01022020

Transféré par

Droits d'auteur :

Formats disponibles

Stratégie Big Data

Vers un Smart Data

Source majeure : Le Big Data – Que sais-je ? / P.Delort 2018

• La première utilisation du terme « Big Data »

date d’un article présenté au congrès de

• Il fait ensuite en 2008 et 2010, la couverture de

deux des revues de recherche les plus

respectées, Nature et Science

• En avril 2010 l’objet d’une page Wikipédia en

anglais, puis en français à la fin de cette année. Il

Traqués par nos données du matin au soir

se répand depuis dans les publications

informatiques et enfin grand public…

• Fin 2012, Le Monde un article sur le Big Data

• Les grands concepts sont déjà là

• La première utilisation du terme « Big Data »

date d’un article présenté au congrès de

• Il fait ensuite en 2008 et 2010, la couverture de

deux des revues de recherche les plus

respectées, Nature et Science

• En avril 2010 l’objet d’une page Wikipédia en

anglais, puis en français à la fin de cette année. Il

Traqués par nos données du matin au soir

se répand depuis dans les publications

informatiques et enfin grand public…

• Fin 2012, Le Monde un article sur le Big Data

• Les grands concepts sont déjà là

• La première utilisation du terme « Big Data »

date d’un article présenté au congrès de

• Il fait ensuite en 2008 et 2010, la couverture de

deux des revues de recherche les plus

respectées, Nature et Science

• En avril 2010 l’objet d’une page Wikipédia en

anglais, puis en français à la fin de cette année. Il

Traqués par nos données du matin au soir

se répand depuis dans les publications

informatiques et enfin grand public…

• Fin 2012, Le Monde un article sur le Big Data

• Les grands concepts sont déjà là

• La première utilisation du terme « Big Data »

date d’un article présenté au congrès de

• Il fait ensuite en 2008 et 2010, la couverture de

deux des revues de recherche les plus

respectées, Nature et Science

• En avril 2010 l’objet d’une page Wikipédia en

anglais, puis en français à la fin de cette année. Il

Traqués par nos données du matin au soir

se répand depuis dans les publications

informatiques et enfin grand public…

• Fin 2012, Le Monde un article sur le Big Data

• Les grands concepts sont déjà là

• La première utilisation du terme « Big Data »

date d’un article présenté au congrès de

• Il fait ensuite en 2008 et 2010, la couverture de

deux des revues de recherche les plus

respectées, Nature et Science

• En avril 2010 l’objet d’une page Wikipédia en

anglais, puis en français à la fin de cette année. Il

Traqués par nos données du matin au soir

se répand depuis dans les publications

informatiques et enfin grand public…

• Fin 2012, Le Monde un article sur le Big Data

• Les grands concepts sont déjà là

• La première utilisation du terme « Big Data »