1 Cours Data Lakes 2017

17/03/2017
Gestion des données massives

T1
O. Boussaid 2017
Du Data Warehouse au… Data Lake

L’avènement de la Data
O. Boussaid
Mars 2017
T2
O. Boussaid 2017
1°) Contexte et motivation

2°) S tructuration classique des données
3°) Définition intuitive des Data Lakes

4°) Data Lake, DWH, DMP
5°) Data Lake : Définitions
6°) Data Lake : Méthodologie
7°) Data Lake v s Data Warehouse
8°) Data Lake : S tratégie et implémentation
1
17/03/2017
T3
Les Data Lakes
O. Boussaid 2017
Contexte et motivation
q L'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets
connectés …) produit un impact important sur le monde des affaires.
q Il est nécessaire que le s technologies de l’i nformation propose nt de nouvelles

architectures pour acquérir et comprendre l'information.
q Les technologies de l’information doivent proposer de nouvelle approche s de

collecte, d'organisation et d'analyse des Big data.
q Les technologies classiques liées à la BI et aux e ntrepôts de données pe uvent

s’avérer insuffisantes, voire inadaptées aux Big data.
T4
Les Data Lakes
O. Boussaid 2017
La structuration des données est-elle un bien ou une entrave ?
q Les données opérationnelles de l’entreprise sont structurées puis stockées dans des
bases de données (relationnelles).
q Elles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant

d’être stockées.
q La structure facilite la navigation dans les données.

q Cas des données pérennes de gestion, financières...
q Inconvénients :
§ la modification de la structure peut être complexe et coûteuse.
§ Risque de perte de données.
§ Approche mal adaptée si les traitements en aval, ne sont pas connus en amont.
2
17/03/2017
T5
Les Data Lakes
O. Boussaid 2017
q Des bases de données aux entrepôts de données…

q Les entrepôts de données ont permis de centraliser les données structurées dans des
silos de données.
q Les données entreposées sont structurées selon des modèles en étoile.

q Dans un entrepôt, l’information est détaillée selon un niveau de granularité le plus

faible.
q Nombreuses possibilités d’agrégations et donc d’analyses

q Les agrégations sont aussi des regroupements des données : donc une structuration
de l’information
q Le choix de ces regroupements se fait alors au détriment d’autres possibilités.
T6
Les Data Lakes
O. Boussaid 2017
q Les bases de données ou les entrepôts de données sont des structures verticales
q La structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la
structure.
q Déconstruction est alors ardue et complexes en cas de modification d’organisation.

q La modélisation en étoile convient bien à des données structurées et dont on connaît

la finalité (l’usage) bien en avant.
q Elle n’est pas adaptée aux données non structurées, telles que les données sociales.
q Elle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur
utilisation.
3
17/03/2017
T7
Les Data Lakes

O. Boussaid 2017
q Concept évoqué la 1° fois en 1999 par Dorian Pyle

dans son livre ‘’Data preparation for Data mining ’’.
q Mais aussi, par James Dixon, de Penthao.
q Les entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’.
q Le données sont conservées sur le même plan. Elles ne nécessitent pas de structure !
q Et surtout, on ne connaît pas à l’avance leur utilisation.
q La structure n’apparaît qu’au moment de l’analyse.
q Concept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’.
T8
Les Data Lakes
O. Boussaid 2017
q Les Data Lakes sont une struct ure plate des données qu’on conserve po ur garder
l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer.
q Les données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop)
q C’est au moment de leur analyse, qu’on les regroupe en créant une structure.
q Exemple :
• les logs de sites web,
• les tweets,
• les profiles sociaux,
• les commentaires de blogs,
• les photos
• …
4
17/03/2017
T9
Les Data Lakes
O. Boussaid 2017
q C’est un espace de stockage dans lequel on déverse les données provenant de

système s i nternes et externe s pour en tirer de la connaissance, de s prévisions et des
actions.
q Sous la forme de rapports agiles, visuels, co mbinant de multiples sources de

données, ou d’applications métiers
q Pour restituer, directement ou sous forme :

§ de web services (outils de relation clients des vendeurs ou d’un centre d’appels)
§ de recommandations sur un site web,
§ d’alertes
§ de prescriptions à destination des différents métiers.
T10
Les Data Lakes
O. Boussaid 2017
Le Data Lake est-il différent de l’entrepôt de données ?
q Ont-ils des vocations différentes ?
q La flexibilité du Data Lake pour croiser et analyser les do nnées lui permet de se
distinguer nettement de l’entrepôt de données.
q La modélisation des e ntrepôts de donnée s repose sur un ‘’Model On Write’’ : la

manière de stocker et d’organiser la donnée est définie au préalable.
q Le Data Lake se base sur un ‘’Model On Read’’ : le s do nnée s sont stockées sans
traitement préalable.
q Utilisation en cycle agile des données pour traiter un cas d’usage.
5
17/03/2017
T11
Les Data Lakes
O. Boussaid 2017
Le Data Lake est différent de la Data Management Platform (DMP) ?
q La DMP sert à segmenter les audience s et les client s, en temps réel, selon leur
comportement, pour leur appliquer des scénarios d’activation, que ce soit par le
média, le social ou les canaux CRM classiques (email, SMS, etc.).
q Ils sont plutôt complémentaires.

q La DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses
T12
Les Data Lakes
O. Boussaid 2017
Besoin d’une stratégie pour déployer un Data Lake.
q Il faut disposer d’une stratégie Data avant de déployer un Data Lake.

q Une approche en 3 phases :
1. L’identification du cas d’usage

a. Soit améliorer des cas d’usage déjà existants
b. Soit viser une innovation par la data
2. La définition d’une feuille de route

a. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage
3. Le choix de l’infrastructure
a. Coût du stockage
b. Flexibilité d’alimentation
6
17/03/2017
T13 Les Data Lakes

O. Boussaid 2017
Les utilisateurs de Data Lakes
Chef de projet

Conçoit, développe et s’occupe au
quotidien de la plateforme.
C’est le maître d’œuvre du Data Lake.
Data Engineer Data Analyst Data Scientist

Exploite en profondeur l’ensemble des
Connecte le Data Lake à toutes les Définit les KPI et les métriques à des données à des fins de prospection,
sources de données ; s’assure de la fins de reporting, de dahboarding pour pour déterminer les grandes tendances
qualité de la donnée ; et lie la comprendre les processus métiers. business et les opportunités que
l’organisation devra saisir.
plateforme aux applications externes.
Admin système
Responsable de l’infrastructure du
Data Lake et de la sécurité.
T14
Les Data Lakes
O. Boussaid 2017
Les ressources humaines : constitution d’une équipe
qData Engineers (profil IT connaissant les technologies Big Data).
qData Scientists (profil mathématique et statistique).
qData Architects, (concevoir l’architecture technique supportant le Data Lake),

q Experts de la visualisation de données
qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake),
q Administrateurs système (pour maintenir opérationnel les machines, réseaux, services…).
7
17/03/2017
T15
Les Data Lakes
O. Boussaid 2017
Définition… ou plutôt des définitions
q Un Data Lake est un repository de stockage qui contient une très grande quantité
de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées.
q Un Data Lake a une architecture plate po ur le stockage de do nnées. Chaque

donnée à un identifiant unique, et est renseignée par des métadonnées.
T16
Les Data Lakes
O. Boussaid 2017
q Un Data Lake est un repository de do nnées massive s, facilement accessibles,

flexibles et scalables.
q Un Data Lake est une plateforme de manageme nt de données pour l’analyse de s

sources de données disparates (variété) dans leur format natif.
8
17/03/2017
T17 Les Data Lakes

O. Boussaid 2017
Catalogue des données dans le Data Lake
q Le catalogue des métadonnées :
KEY
COLUMN VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY

Source: Booz Allen H amilton
qChaque information sur la donnée est matérialisée dans une cellule d’une table de
métadonnées.
qPeu importe où la donnée est localisée, les tags permettent de l’identifier.

qOn peut également définir les autorisations d’accès sur les fichiers.
T18 Les Data Lakes

O. Boussaid 2017
KEY
COLUMN
VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY
q 4 types de tags permettent de définir chaque cellules:
§ Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant).
§ Le type de donnée (vidéo, tweet, n° de compte…).

§ Groupes d’appartenance (Tag group).
§ Version de la donnée (par la date d’identification).
9
17/03/2017
T19 Les Data Lakes

O. Boussaid 2017
q Exemple de catalogue des métadonnées :
Data Primary Tag Tag Group Time Stamp Row ID

John Doe Name Investor Information 1
5/17/71 Date of Birth Investor Information 1
1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1
200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1
600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1
T20 Les Data Lakes

O. Boussaid 2017
qIl n’est pas nécessaire d’associer tous les tags à chacune des données en amont:
§ A minima: l’identifiant principal (Row ID).
§ Possibilité d’ajouter ou de modifier les tags par

la suite de façon manuelle ou automatique (ex:
reconnaissance des formats de n° de téléphone).
qExemple de recherche:
§ « L’évolution du prix d’une action est-elle liée à la fréquence à laquelle un groupe d’experts aborde
le sujet dans leur tweet ? ».
§ On récupère toutes les cellules contenant le nom des experts dont le tag est “auteur” et le tag
group est “tweet”.
10
17/03/2017
T21 Les Data Lakes

O. Boussaid 2017
q Exmple de catalogue des métadonnées :


John Doe Name Employee 1
202-555-1212 Telephone # Investor Information 1
T22 Les Data Lakes Catalogue des données dans le Data Lake
q Exmeple de catalogue des métadonnées :
O. Boussaid 2017

John Doe Name Employee 1
202-555-1212 Telephone # Investor Information 1

Jame Smith Name Investor Information 2
280 Shares QQWD Stock Purchases Transactions 6/24/2013 11:11 AM 2
917-555-2121 Telaphone # Investor Information 2
11
17/03/2017
T23
Les Data Lakes
O. Boussaid 2017
q Un data lake est une méthode de stockage des données utilisée par le Big data. Le
principe étant d'avoir dans un lieu des do nnées de natures différentes : fichiers,
blobs… (d’après Wikipedia)
q La Data Lake e st reconnu comme une façon de stocker de très grands volume s de
données, où le s sc hémas et les be soins d’analyses (ou d’e xploitation) ne so nt

connus qu’au moment de l’utilisation des données.
T24
Les Data Lakes
O. Boussaid 2017
q Dans un Data Lake la donnée peut être brute ou affinées.
q L’abse nce de schémas des flux e ntrant dans le Data Lake donne une réelle
flexibilité à la donnée et à ses éventuels traitements.
q Dans un Data Lake, la donnée n’a pas de valeur, encore.

q C’est à l’issue de son (ou ses) traitement.s que la valeur sera créée.
q C’est ainsi que le Data Lake contribue aux cycles d’innovation dans l’entreprise.
12
17/03/2017
T25
Les Data Lakes
O. Boussaid 2017
Méthodologie… ou support de stockage ?
q La Data Lake absorbe de s flux de do nnées. Ces dernières sont rendues utilisables au
moment de leur exploitation (analyses).
q Ainsi, la transformation des do nnée s ne survient qu’après leur chargeme nt (E.L.T. plutôt
que E.T.L.)
q La transformation s’effectue en fonction du besoin de l’analyse envisagée.
q A chaque utilisate ur (consommateur) d’exprimer son be soin d’analyse et d’y puiser les
données sources nécessaires.
T26
Les Data Lakes
O. Boussaid 2017
q Pour les entrepôts, les données so nt poussées vers l’utilisateur sous forme de data- marts
correspondant à de s besoins spécifiques, selon une str ucturation préalablement
définie.
q Duplication des données de production avant leur inge stion dans une struct ure
multidimensionnelle (Silos de données).
q Dans les Data Lakes, l’analyse des données se fait sur le données opérationnelles.
q Les flux de données sont ingérés en temps réels.
q Les applications (BI ou autres) peuve nt i nteragir avec les do nnées po ur en créer des
valeurs.
q Les Data Lakes ’’décloisonne nt’’ les do nnées pour être accessibles à to ute sorte
d’application : au contraire des silos de données construits spécifiquement pour la BI.
13
17/03/2017
La Business Intelligence ( BI )

O. Boussaid 2017
v Business Intelligence to Business Analytics
Exploitation des données directement (Business Analytics)

ou indirectement (Business Intelligence)
Socle Big data : intégration en temps réel

des flux de données structurées et non structurées, NoSQL
et relationnelles.
Données sources (internes, externes, structurées,

non structurées)
T28
Les Data Lakes
O. Boussaid 2017
q Les données passent par un pipe pour être cataloguées (métadonnées), tout en
restant non structurées.
q Ces métadonnées sont importantes pour la gouvernance des données.
q Le ‘’Schema On Read’’ n’impo se aucune struct uration aux donnée s le ur mainte nant
ainsi leur aspect originel. Cette flexibilité assure ai nsi une exploitation de s données soit
à des fins d’analyse, soit pour développer des applications.
q Le traitement des données au sein mê me du Data Lake permet des déclinaison métiers
diversifiées.
q L’application de technique s d’exploitation sophistiquée s aux flux entrant dans le Data

Lake rend celui-ci très proactive.
14
17/03/2017
T29
Les Data Lakes
O. Boussaid 2017
Méthodologie… mais pour quelles fins ?
q Evolution de la perception des données au sein des entreprises.
q Gouvernance des données : systématiser la collecte des données qui deviennent

massives, les centraliser sous forme de plateforme fédérative ; en définir une stratégie
data.
q La stratégie data au service des cycles d’innovation des process dans les entreprises.
q Terrains d’applications :
q Le marketing : Collecter de nombreuses données sur le client, se s habit udes, son
profile ; croisement avec d’autres so urces de do nnée s po ur prédire son
comportement futur : vision à 360° du client.
q L’industrie : collecter de nombreuses et diverse s sources de do nnée s liées aux
processus de fabrication de produits, à leurs usages, pour améliorer ces derniers.
T30
Les Data Lakes
O. Boussaid 2017
Méthodologie… mais pour quelles fins ?
q Au défi du stockage et du traitement de s donnée s, s’ajoutent la data visualisation, les

technique s de Machine learning, la go uvernance des données, Traitements en temps
réels.
q Une nouvelle vision de la data par les entreprises : Data Globale platform.
q Besoin de plus de ressources de stockage et de puissance de calcul : Cloud Computing.

q Déploiement d’un Data Lake sur un environnement distribué : le Cloud
q Disponibilité de produit s sur le cloud (PaaS) permet une utilisatio n du Data Lake plus
rationnelle.
q Approche graduelle (Cloud) préférée à une approche ‘’on-premise’’ (locale)
15
17/03/2017
T31
Les Data Lakes
O. Boussaid 2017
Une parabole sur les Data Like
q ‘’If you think of a datamart as a store of bottled water – cleansed and packaged and
structured for easy consumption – the Data Lake is a large body of water in a more natural
state. The contents of the Data Lake stream in from a source to fill the lake, and various
users of the lake can come to examine, dive in, or take samples.’’
James Dixon , Pentaho CTO, https://en.wiktionary.org/wiki/data_lake
q J. Dixon propose alors un no uveau concept pour organiser et stocker les Big data : le Data
Lake, qui est un repository centralisé de do nnées massives (Big data), facilement
accessibles.
q Dans un Data Lake, toute s les do nnées sont emmagasi nées, même celles do nt on ignore
comment elles seront utilisées.
q Alors que dans les approches classiques (BI) se uls certains attributs (significatifs) sont
exploités de plus sous une forme agrégée.
T32
Les Data Lakes
O. Boussaid 2017
Méthodologie d’exploitation des Big data
q Le Data Lake doit être accessible et manipulable au travers d’une infrastruct ure
partagée.
q Celle-ci doit permettre d’interagir avec les données.
q Les sources de données sont ‘’déversées’’ dans le Data Lake.
q La création de la valeur de la do nnée se fait selo n diverses axe s de rechercher (axes
d’observation).
q Avènement du Data Brain.
q On applique à la donnée une ‘’intelligence’’ (o u un savoir-faire) pour en créer la valeur

escomptée.
q On en crée des ‘’modèles de données’’.
q Ces modèles de données sont alors croisé s avec d’autres information pour enge ndrer
une ‘’perspicacité prédictive’’.
q Un Data Brain est un système possédant la capacité de se projeter.
16
17/03/2017
T33
Les Data Lakes
O. Boussaid 2017
Data Lakes vs Data Warehouses
q Un Data Lake est un repo sitory de stockage contenant une très grande quantité de
données originelles dans le urs formats natifs, pouv ant être structurées, semi- structurées ou
non structurées.
La structure de la do nnée et so n traiteme nts (analyse s) ne sont définis qu’au mome nt de
son utilisation.
q La limitation des entrepôts de données est dûe au fait qu’ils stockent de s données
provenant de diverse s sources dans une structure spécifique et statique (silo de données)
et des catégories qui désigne nt le type d’analyses possibles à effectuer sur les do nnées à
partir de n’importe quel point d’entrée.
q Ceci était valable pour la BI durant des décennies. Les analyse s so nt effectuées sur des
BD propriétaires et dont le focus se restreint aux reportings, aux dashboards avec des
chemins d’interactions prédéfinis.
T34 Les Data Lakes

O. Boussaid 2017

q Dans le cas d’un e ntrepôt de do nnée s, on co nnaît déjà les questio ns auxquelles o n veut
répondre, et cela dès sa construction.
q Alors que les véritables questions émergent au cours des analyses.
q Pour une data discovery réelle et pertinente, il est essentiel d’avoir une capacité de
naviguer partir de certaines do nnée s (point d’entrée), o u d’un scénario do nné , selon
différentes directions tout en sélectionnant de s données (slicing & dicing) appropriées,
correspondant un raisonnement.
q Exemple de Big data discovery :

Ø ‘’On so uhaite analyser le total des recettes des ve ntes sur I nternet en France,
durant l’année 2016’’, à partir d’une BD transactionnelle.
Ø On so uhaite décliner ces informations selon les différents département s et les
données socio-professionnelles des acheteurs, à partir d’une BD CRM.
Ø On voudrait procéder à la corrélation avec de s campag nes publicitaires, à partir
d’une plateforme publicitaire.
Ø On voudrait analyser les dépe nse s marketing, et naviguer de là, pour éval uer
l'impact de l'efficacité et des délai s de livraisons (logistique) sur le s ve ntes
effectuées, à partir des données GPS des véhicules.
17
17/03/2017
T35 Les Data Lakes

Silo de données
O. Boussaid 2017

Les Data Lakes

O. Boussaid 2017
Les limites des Data Lakes
q Nécessite beaucoup de ressources :

q complexité des algorithmes et préparation des données
q non adapté à des analys es répétitives où les données doivent être rec alculées à chaque
nouvelle étude.
q Difficultés de mise en place : il faut repenser le fonctionnement des systèmes

de données (qui fait quoi, comment…).
q Sécurité : problèmes liés à l’accès aux données sensibles.
18
17/03/2017
Les Data Lakes

O. Boussaid 2017
Les pièges liés aux Data Lakes
q Absence de gouvernance des données :

Sans une structure et les contrôles n écess aires pour gé rer et maintenir la quali té, la cohérence et la
conformité des données, un Data Lake peut rapidement se transformer en un marécage de données.
q Faible accessibilité :
Bien que les données puissent être disponibles, leur valeurs sont limitées si les utilisateurs sont incapables
de trouver les données ou de les comprendre.
q Mauvaise qualité des données et traçabilité:

Les utilisateurs doivent connaître le contexte des donnée s et savoir d'où elles viennent d’avoir une
confiance complète aux données.
q Manque de sécurité des données :

Les données chargées dans un Data Lake sont sans aucune surveillance. Cela peut entraîner des
risques de conformité
T38 Les Data Lakes

O. Boussaid 2017
Data Lakes à travers un diagramme SWOT
Strengths Weaknesses
Lower costs Data management
One-stop data s hopping Security
Opportunities Threats
Discovery Status quo

Advanced analysis Skills
19
17/03/2017
T39
Les Data Lakes
O. Boussaid 2017
Entrepôts de données Data Lakes

Structurée, semi-structurée, non
Donnée Structurée, traitée
structurée, originelle
Traitement Schema-On-Write Schema-On-Read

Coûteux pour les grands
Stockage Conçus pour un stockage pas coûteux
volumes de données
Hautement agile, configuration et

Agilité Moins agile, structure figée
reconfiguration à volonté.
Sécurité mature En cours de maturation
Utilisateurs Professionnels (BI) Data scientistes et autres.
T40
Les Data Lakes
O. Boussaid 2017
Axe Data Warehouse Data Lake
Pas de modélisation, identification par

Modélisation nécessaire en amont (ETL,
métadonnées.
Intelligence et structuration).
Intelligence : algorithmes de restitution.
Modélisation Intelligence avant la requête.
Idéal lorsque les données ne sont pas
Idéal si les besoins sont connus en avance.
clairement identifiées.
Représente une certaine vision et les Pas de valeurs associées aux données à priori.
Objectivité des
priorités de l’entreprise. Les données restent inchangées : préservation
données
Les données sont sélectionnées et traitées. de la fidélité des informations.
Modification de structure complexe et

Maintenance et Permet des associations nouvelles et sans limite.
coûteuse.
évolution de structure Toute donnée est automatiquement intégrée.
Nécessite de redéfinir la modélisation.
Non standard, plus complexe à mettre en
SQL standard, outils BI accessibles. place mais flexible.
Méthodes d’accès Requêtes par « recherche », complexité Nécessite des compétences.
potentielle dans les jointures. Requête par mise à l’échelle,
focus sur une fenêtre de données.
Possibilités d’interrogations multiples grâces

Dépend du volume de données demandé et
Batch processing aux technologies avancées (optimisation,
de l’algorithme utilisé.
système de transaction, data-marts).
20
17/03/2017
T41 Les Data Lakes : Stratégie d’implémentation

O. Boussaid 2017
Du Data Warehouse au Data Lake : évolution du décisionnel
q Vers l’’’élargissement’’ ou la ’’mutation’’ du patrimoine informationnelle de l’entreprise ?

q Mise en place d’une stratégie d’unification et de qualification du patrimoine des
données dans une approche agile et incrémentale :
1. Mise en œuvre d’un Data Lake
2. Data preparation : pour transformer et normaliser les données dans le Data Lake
3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données
Jean-Louis Haste (Business & Decision)
T42 Les Data Lakes

O. Boussaid 2017
1. Mise en œuvre d’un Data Lake
q La qualification des données e st une nécessité tant sur le ur fiabilité que sur la vale ur
ajoutée.
q Stockage et indexation des données au fil de l’eau (sans transformation) :

Données Ingestion dans le Data Lake
Variées et volumineuses Hébergées et indexées nativement sur des
plateformes Big data (hadoop, Spark…)
Logs, semi-structurées, Utiliser des moteurs d’indexation (Elastic Serachn,

BD NoSQL Splunk…)
Non structurées Utiliser des moteurs d’indexation avec analyse
sémantique NLP (Natural Language Processing)
q Mise en place d’un suivi et une traçabilité des données

21
17/03/2017
T43 Les Data Lakes

O. Boussaid 2017
2. Data preparation : pour transformer et normaliser les données dans le Data Lake
q Il s’agit d’utiliser des outil s de ’’Data preparation’’ po ur qualifier la qualité des

données.
q Utilisation des fonctionnalités de ‘’recommandations’’ ou des routines ré-exécutables
q Transformation des donnés selon une approche ‘’ E – L – T ’’.

q Conserver les donnée s apurées et transformées sur la mê me plateforme que celle
du Data Lake, dans des dossiers distincts.
q Utilisation de fonctions de ’’Data Lineage’’, pour gérer les cycles de transformations

et d’ingestion des données dans le Data Lake.
T44 Les Data Lakes

O. Boussaid 2017
3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes
q Le ‘’Datalab’’ e st un espace dé dié à l’expérime ntation et à la qualification

’’fonctionnelle’’ des données.
q Le ‘’Datalab’’ pe ut se trouver sur une plateforme de calcul distribué (Hadoop,

Spark…)
q Les données sont déjà préparées (arborescences, axe s) e n amo nt, pour fluidifier les
analyses.
q Des connecteurs doivent être positionnées sur l’entrepôt de données et les BD de

production, pour effectuer des analyses croisées.
22
17/03/2017
T45 Les Data Lakes

O. Boussaid 2017
4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données
q La connexion du Data Lake et du data ware house peut po ser des problèmes du fait de
la rigidité de la structure de ce dernier.
q Recours à une modélisation agile de l’entrepôt ; utilisatio n de ‘’Data Vault’’ ou d’

‘’Anchor model’’
q Trouver un équilibre entre les données du Data Lake et celles de l’entrepôt.

q Le Data Lake sert ainsi à des analyses ponctuelles «on demand» et non industrialisées.
q Le data warehouse sert des besoins récurrents et industrialisés.

q La conception i ncrémentale et scalable du Data Lake et l’évolution agile du data
warehouse permettent d’éte ndre l’architecture décisionnelle existante dans une
entreprise.
46 ´ Les Data Lakes

O. Boussaid 2017
Quatre phases importantes pour la création d’un Data Lake
q UN : Prise en charge de données scalables et leur ingestion
q DEUX : Amélioration de la capacité d’analyse
q TROIS : Collaboration DWH et Data Lake
q QUATRE : Pleine adhésion et acquisition de maturité
23
17/03/2017

O. Boussaid 2017
Hadoop : Plateforme de déploiement d’un Data Lake

O. Boussaid 2017
De la BI classique à la BI moderne
q La BI (classique) ne peut pas se cantonner à son rôle (exclusif) de productions de rapports
q "De l’hypothèse et des test s avec les donnée s sélectionnées" à l’exploration de to utes le s
données et l’identification de toutes les corrélations. (Claudio Borlo, DSI, Rexel)
q Le Big Data : opportunité pour l’évolution de la BI (Buisness Analytics)
q La BI moderne devient une architecture de référence. Elle permettra de procéder à :

q L’analyse en libre-service.
q Un accès facile à l’exploration des données à davantage de personnes.
q Elle offre également de sérieux argument s e n terme s de gouvernance (scalabilité,
performances, sécurité).
24
17/03/2017

O. Boussaid 2017
Real Time Data Warehouse or Active Data Warehouse
q Les DWH sont conçus po ur résumer (agréger) de grandes quantités de do nnée s po ur fournir
des informations exploitables sur les tendances commerciales ou le marketing.
q Les DWH fournisse nt une fenêtre sur le passé, qu'il s'agisse d'informations quotidiennes,
hebdomadaires ou mensuelles.
q Les entreprises ont de plus en plus besoin de décisions immédiates.

q La nécessité de disposer d'informations à jour pendant la journée augmente rapidement.

O. Boussaid 2017
Active Data Warehouse ou Real Time Data warehouse
Il y a 3 types de latence dans un processus d’aide à la décision
qData latency : période de temps nécessaire pour collecter les données à partir de
leurs sources, de les préparer pour l’analyses, et de les sauvegarder dans une
DWH ou un data center.
qAnalytic latency : période de temps nécessaire pour accéder et analyser les

données afin de les transformer en information, appliquer des règes d’affaires
(business rules).
qDecisional latency : période de temps nécessaire pour interpréter les analyses,

décider des actions à entreprendre et exécuter ces dernières.
25
17/03/2017

O. Boussaid 2017
Latence dans un processus d’aide à la décision Latence dans une RTBI

O. Boussaid 2017
q Le degré de latence dans un système de BI est l'un des problèmes les plus importants.
q Les sy stèmes BI doivent four nir des informations adéquates au bon format, aux bonnes
personnes, et au bon moment, afin d’optimiser les décisions.
q Right Time plutôt que Real Time.

q Le Right Time implique que différentes sit uations et événeme nts professio nnels
nécessitent des temps de réaction ou d'action appropriés.
qR T B I :Right Time Business Intelligence
26
17/03/2017

O. Boussaid 2017
q La
RTBI e xploite de s données opérationnelles avec une late nce nulle et fournit des
moyens pour propager les actions dans les processus métiers en temps réel
q LaBI classique prése nte des données historiques pour l'analyse manuelle, RTBI
compare les événeme nts (business events) actuels avec les données hi storiques po ur
détecter automatiquement les problèmes ou les opportunités.
qLa RTBI permet ainsi d’automatiser les analyses.
qL’automatisation de s analyse s permet d'initier de s actions correctives et/ou d'ajuster

les règles métier pour optimiser les processus métier.
qLa RTBI, ou le s entrepôt s de

données actifs, c’est une combinai son des technologies
rapides avec des processus métier rapides.

O. Boussaid 2017
Information Difference Research Study, January 2015
27
17/03/2017

O. Boussaid 2017
Information Difference Research Study, January 2015
56
O. Boussaid 2017
28
17/03/2017
La Business Intelligence ( BI )

O. Boussaid 2017
v Architecture d ’un SI Décisionnel
Data Mining
Entrepôt de données
E Méta
T données OLAP
Analyses
L statistiques
Data Marts
Bases
de
production
Administrateur
OLAP
Reporting
29

1 Cours Data Lakes 2017

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Cours Data Lakes 2017

Transféré par

Droits d'auteur :

Formats disponibles

17/03/2017

Gestion des données massives

Du Data Warehouse au… Data Lake

1°) Contexte et motivation

3°) Définition intuitive des Data Lakes

q Il est nécessaire que le s technologies de l’i nformation propose nt de nouvelles

q Les technologies de l’information doivent proposer de nouvelle approche s de

q Les technologies classiques liées à la BI et aux e ntrepôts de données pe uvent

La structuration des données est-elle un bien ou une entrave ?

q Elles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant

q La structure facilite la navigation dans les données.

La structuration des données est-elle un bien ou une entrave ?

q Des bases de données aux entrepôts de données…

q Les données entreposées sont structurées selon des modèles en étoile.

q Dans un entrepôt, l’information est détaillée selon un niveau de granularité le plus

q Nombreuses possibilités d’agrégations et donc d’analyses

q Le choix de ces regroupements se fait alors au détriment d’autres possibilités.

La structuration des données est-elle un bien ou une entrave ?

q Déconstruction est alors ardue et complexes en cas de modification d’organisation.

q La modélisation en étoile convient bien à des données structurées et dont on connaît

Les Data Lakes

q Concept évoqué la 1° fois en 1999 par Dorian Pyle

q Mais aussi, par James Dixon, de Penthao.

q Et surtout, on ne connaît pas à l’avance leur utilisation.

q La structure n’apparaît qu’au moment de l’analyse.

q C’est un espace de stockage dans lequel on déverse les données provenant de

q Sous la forme de rapports agiles, visuels, co mbinant de multiples sources de

données, ou d’applications métiers

q Pour restituer, directement ou sous forme :

Le Data Lake est-il différent de l’entrepôt de données ?

q Ont-ils des vocations différentes ?

q La modélisation des e ntrepôts de donnée s repose sur un ‘’Model On Write’’ : la

manière de stocker et d’organiser la donnée est définie au préalable.

q Utilisation en cycle agile des données pour traiter un cas d’usage.

Le Data Lake est différent de la Data Management Platform (DMP) ?

q Ils sont plutôt complémentaires.

q La DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses

Besoin d’une stratégie pour déployer un Data Lake.

q Il faut disposer d’une stratégie Data avant de déployer un Data Lake.

1. L’identification du cas d’usage

2. La définition d’une feuille de route

T13 Les Data Lakes

Les utilisateurs de Data Lakes

Chef de projet

Data Engineer Data Analyst Data Scientist

Les ressources humaines : constitution d’une équipe

qData Engineers (profil IT connaissant les technologies Big Data).

qData Scientists (profil mathématique et statistique).

qData Architects, (concevoir l’architecture technique supportant le Data Lake),

q Experts de la visualisation de données

q Administrateurs système (pour maintenir opérationnel les machines, réseaux, services…).

Définition… ou plutôt des définitions

q Un Data Lake a une architecture plate po ur le stockage de do nnées. Chaque

Définition… ou plutôt des définitions

q Un Data Lake est un repository de do nnées massive s, facilement accessibles,

q Un Data Lake est une plateforme de manageme nt de données pour l’analyse de s

sources de données disparates (variété) dans leur format natif.

T17 Les Data Lakes

Catalogue des données dans le Data Lake

q Le catalogue des métadonnées :

TAG TAG GROUP VISIBILITY

qPeu importe où la donnée est localisée, les tags permettent de l’identifier.

T18 Les Data Lakes

Catalogue des données dans le Data Lake