Académique Documents
Professionnel Documents
Culture Documents
O. Boussaid
Mars 2017
T2
O. Boussaid 2017
1
17/03/2017
T3
Les Data Lakes
O. Boussaid 2017
Contexte et motivation
q L'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets
connectés …) produit un impact important sur le monde des affaires.
T4
Les Data Lakes
O. Boussaid 2017
Contexte et motivation
q Les données opérationnelles de l’entreprise sont structurées puis stockées dans des
bases de données (relationnelles).
q Inconvénients :
§ la modification de la structure peut être complexe et coûteuse.
§ Risque de perte de données.
§ Approche mal adaptée si les traitements en aval, ne sont pas connus en amont.
2
17/03/2017
T5
Les Data Lakes
O. Boussaid 2017
Contexte et motivation
T6
Les Data Lakes
O. Boussaid 2017
Contexte et motivation
q Les bases de données ou les entrepôts de données sont des structures verticales
q La structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la
structure.
q Elle n’est pas adaptée aux données non structurées, telles que les données sociales.
q Elle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur
utilisation.
3
17/03/2017
T7
q Les entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’.
q Le données sont conservées sur le même plan. Elles ne nécessitent pas de structure !
Gestion des données massives
q Concept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’.
T8
Les Data Lakes
O. Boussaid 2017
q Les Data Lakes sont une struct ure plate des données qu’on conserve po ur garder
l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer.
q Les données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop)
q C’est au moment de leur analyse, qu’on les regroupe en créant une structure.
Gestion des données massives
q Exemple :
• les logs de sites web,
• les tweets,
• les profiles sociaux,
• les commentaires de blogs,
• les photos
• …
4
17/03/2017
T9
Les Data Lakes
O. Boussaid 2017
T10
Les Data Lakes
O. Boussaid 2017
q La flexibilité du Data Lake pour croiser et analyser les do nnées lui permet de se
distinguer nettement de l’entrepôt de données.
q Le Data Lake se base sur un ‘’Model On Read’’ : le s do nnée s sont stockées sans
traitement préalable.
5
17/03/2017
T11
Les Data Lakes
O. Boussaid 2017
q La DMP sert à segmenter les audience s et les client s, en temps réel, selon leur
comportement, pour leur appliquer des scénarios d’activation, que ce soit par le
média, le social ou les canaux CRM classiques (email, SMS, etc.).
T12
Les Data Lakes
O. Boussaid 2017
6
17/03/2017
qualité de la donnée ; et lie la comprendre les processus métiers. business et les opportunités que
l’organisation devra saisir.
plateforme aux applications externes.
Admin système
Responsable de l’infrastructure du
Data Lake et de la sécurité.
T14
Les Data Lakes
O. Boussaid 2017
qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake),
7
17/03/2017
T15
Les Data Lakes
O. Boussaid 2017
q Un Data Lake est un repository de stockage qui contient une très grande quantité
de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées.
Gestion des données massives
T16
Les Data Lakes
O. Boussaid 2017
8
17/03/2017
KEY
COLUMN VALUE
ROW ID TIME STAMP
Gestion des données massives
qChaque information sur la donnée est matérialisée dans une cellule d’une table de
métadonnées.
KEY
COLUMN
VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY
Source: Booz Allen H amilton
9
17/03/2017
qIl n’est pas nécessaire d’associer tous les tags à chacune des données en amont:
§ A minima: l’identifiant principal (Row ID).
Gestion des données massives
qExemple de recherche:
§ « L’évolution du prix d’une action est-elle liée à la fréquence à laquelle un groupe d’experts aborde
le sujet dans leur tweet ? ».
§ On récupère toutes les cellules contenant le nom des experts dont le tag est “auteur” et le tag
group est “tweet”.
10
17/03/2017
T22 Les Data Lakes Catalogue des données dans le Data Lake
q Exmeple de catalogue des métadonnées :
O. Boussaid 2017
11
17/03/2017
T23
Les Data Lakes
O. Boussaid 2017
q Un data lake est une méthode de stockage des données utilisée par le Big data. Le
principe étant d'avoir dans un lieu des do nnées de natures différentes : fichiers,
blobs… (d’après Wikipedia)
q La Data Lake e st reconnu comme une façon de stocker de très grands volume s de
Gestion des données massives
T24
Les Data Lakes
O. Boussaid 2017
q L’abse nce de schémas des flux e ntrant dans le Data Lake donne une réelle
flexibilité à la donnée et à ses éventuels traitements.
q C’est à l’issue de son (ou ses) traitement.s que la valeur sera créée.
q C’est ainsi que le Data Lake contribue aux cycles d’innovation dans l’entreprise.
12
17/03/2017
T25
Les Data Lakes
O. Boussaid 2017
q La Data Lake absorbe de s flux de do nnées. Ces dernières sont rendues utilisables au
moment de leur exploitation (analyses).
q Ainsi, la transformation des do nnée s ne survient qu’après leur chargeme nt (E.L.T. plutôt
que E.T.L.)
Gestion des données massives
q A chaque utilisate ur (consommateur) d’exprimer son be soin d’analyse et d’y puiser les
données sources nécessaires.
T26
Les Data Lakes
O. Boussaid 2017
q Pour les entrepôts, les données so nt poussées vers l’utilisateur sous forme de data- marts
correspondant à de s besoins spécifiques, selon une str ucturation préalablement
définie.
q Duplication des données de production avant leur inge stion dans une struct ure
multidimensionnelle (Silos de données).
q Dans les Data Lakes, l’analyse des données se fait sur le données opérationnelles.
Gestion des données massives
q Les applications (BI ou autres) peuve nt i nteragir avec les do nnées po ur en créer des
valeurs.
q Les Data Lakes ’’décloisonne nt’’ les do nnées pour être accessibles à to ute sorte
d’application : au contraire des silos de données construits spécifiquement pour la BI.
13
17/03/2017
T28
Les Data Lakes
O. Boussaid 2017
q Les données passent par un pipe pour être cataloguées (métadonnées), tout en
restant non structurées.
q Le ‘’Schema On Read’’ n’impo se aucune struct uration aux donnée s le ur mainte nant
ainsi leur aspect originel. Cette flexibilité assure ai nsi une exploitation de s données soit
Gestion des données massives
q Le traitement des données au sein mê me du Data Lake permet des déclinaison métiers
diversifiées.
14
17/03/2017
T29
Les Data Lakes
O. Boussaid 2017
q Terrains d’applications :
q Le marketing : Collecter de nombreuses données sur le client, se s habit udes, son
profile ; croisement avec d’autres so urces de do nnée s po ur prédire son
comportement futur : vision à 360° du client.
q L’industrie : collecter de nombreuses et diverse s sources de do nnée s liées aux
processus de fabrication de produits, à leurs usages, pour améliorer ces derniers.
T30
Les Data Lakes
O. Boussaid 2017
q Une nouvelle vision de la data par les entreprises : Data Globale platform.
q Disponibilité de produit s sur le cloud (PaaS) permet une utilisatio n du Data Lake plus
rationnelle.
15
17/03/2017
T31
Les Data Lakes
O. Boussaid 2017
q ‘’If you think of a datamart as a store of bottled water – cleansed and packaged and
structured for easy consumption – the Data Lake is a large body of water in a more natural
state. The contents of the Data Lake stream in from a source to fill the lake, and various
users of the lake can come to examine, dive in, or take samples.’’
James Dixon , Pentaho CTO, https://en.wiktionary.org/wiki/data_lake
q J. Dixon propose alors un no uveau concept pour organiser et stocker les Big data : le Data
Lake, qui est un repository centralisé de do nnées massives (Big data), facilement
Gestion des données massives
accessibles.
q Dans un Data Lake, toute s les do nnées sont emmagasi nées, même celles do nt on ignore
comment elles seront utilisées.
q Alors que dans les approches classiques (BI) se uls certains attributs (significatifs) sont
exploités de plus sous une forme agrégée.
T32
Les Data Lakes
O. Boussaid 2017
q Le Data Lake doit être accessible et manipulable au travers d’une infrastruct ure
partagée.
q Celle-ci doit permettre d’interagir avec les données.
q Les sources de données sont ‘’déversées’’ dans le Data Lake.
q La création de la valeur de la do nnée se fait selo n diverses axe s de rechercher (axes
d’observation).
q Avènement du Data Brain.
Gestion des données massives
16
17/03/2017
T33
Les Data Lakes
O. Boussaid 2017
q Un Data Lake est un repo sitory de stockage contenant une très grande quantité de
données originelles dans le urs formats natifs, pouv ant être structurées, semi- structurées ou
non structurées.
La structure de la do nnée et so n traiteme nts (analyse s) ne sont définis qu’au mome nt de
son utilisation.
q La limitation des entrepôts de données est dûe au fait qu’ils stockent de s données
provenant de diverse s sources dans une structure spécifique et statique (silo de données)
Gestion des données massives
et des catégories qui désigne nt le type d’analyses possibles à effectuer sur les do nnées à
partir de n’importe quel point d’entrée.
q Ceci était valable pour la BI durant des décennies. Les analyse s so nt effectuées sur des
BD propriétaires et dont le focus se restreint aux reportings, aux dashboards avec des
chemins d’interactions prédéfinis.
q Pour une data discovery réelle et pertinente, il est essentiel d’avoir une capacité de
naviguer partir de certaines do nnée s (point d’entrée), o u d’un scénario do nné , selon
différentes directions tout en sélectionnant de s données (slicing & dicing) appropriées,
correspondant un raisonnement.
Ø ‘’On so uhaite analyser le total des recettes des ve ntes sur I nternet en France,
durant l’année 2016’’, à partir d’une BD transactionnelle.
Ø On so uhaite décliner ces informations selon les différents département s et les
données socio-professionnelles des acheteurs, à partir d’une BD CRM.
Ø On voudrait procéder à la corrélation avec de s campag nes publicitaires, à partir
d’une plateforme publicitaire.
Ø On voudrait analyser les dépe nse s marketing, et naviguer de là, pour éval uer
l'impact de l'efficacité et des délai s de livraisons (logistique) sur le s ve ntes
effectuées, à partir des données GPS des véhicules.
17
17/03/2017
18
17/03/2017
q Faible accessibilité :
Bien que les données puissent être disponibles, leur valeurs sont limitées si les utilisateurs sont incapables
de trouver les données ou de les comprendre.
Strengths Weaknesses
Lower costs Data management
One-stop data s hopping Security
Opportunities Threats
Gestion des données massives
19
17/03/2017
T39
Les Data Lakes
O. Boussaid 2017
T40
Les Data Lakes
O. Boussaid 2017
Représente une certaine vision et les Pas de valeurs associées aux données à priori.
Objectivité des
priorités de l’entreprise. Les données restent inchangées : préservation
données
Les données sont sélectionnées et traitées. de la fidélité des informations.
Gestion des données massives
20
17/03/2017
2. Data preparation : pour transformer et normaliser les données dans le Data Lake
Gestion des données massives
q La qualification des données e st une nécessité tant sur le ur fiabilité que sur la vale ur
ajoutée.
21
17/03/2017
2. Data preparation : pour transformer et normaliser les données dans le Data Lake
q Les données sont déjà préparées (arborescences, axe s) e n amo nt, pour fluidifier les
Gestion des données massives
analyses.
22
17/03/2017
q La connexion du Data Lake et du data ware house peut po ser des problèmes du fait de
la rigidité de la structure de ce dernier.
q Le Data Lake sert ainsi à des analyses ponctuelles «on demand» et non industrialisées.
23
17/03/2017
De la BI classique à la BI moderne
q "De l’hypothèse et des test s avec les donnée s sélectionnées" à l’exploration de to utes le s
données et l’identification de toutes les corrélations. (Claudio Borlo, DSI, Rexel)
24
17/03/2017
q Les DWH sont conçus po ur résumer (agréger) de grandes quantités de do nnée s po ur fournir
des informations exploitables sur les tendances commerciales ou le marketing.
q Les DWH fournisse nt une fenêtre sur le passé, qu'il s'agisse d'informations quotidiennes,
hebdomadaires ou mensuelles.
qData latency : période de temps nécessaire pour collecter les données à partir de
leurs sources, de les préparer pour l’analyses, et de les sauvegarder dans une
DWH ou un data center.
25
17/03/2017
q Le degré de latence dans un système de BI est l'un des problèmes les plus importants.
q Les sy stèmes BI doivent four nir des informations adéquates au bon format, aux bonnes
personnes, et au bon moment, afin d’optimiser les décisions.
26
17/03/2017
q La
RTBI e xploite de s données opérationnelles avec une late nce nulle et fournit des
moyens pour propager les actions dans les processus métiers en temps réel
q LaBI classique prése nte des données historiques pour l'analyse manuelle, RTBI
compare les événeme nts (business events) actuels avec les données hi storiques po ur
détecter automatiquement les problèmes ou les opportunités.
27
17/03/2017
56
O. Boussaid 2017
28
17/03/2017
Data
Mining
Entrepôt
de
données
E
Méta
T données OLAP
Analyses
L
statistiques
Data Marts
Bases
de
production
Administrateur
OLAP
Reporting
29