Vous êtes sur la page 1sur 31

07/02/2019

Gestion des données massives


T1
O. Boussaid 2018

Du Data Warehouse au… Data Lake


L’avènement de la Data : nouvelles infrastructures de la
donnée, pour une approche data-driven

O. Boussaid
Gestion des données massives

2018-2019

T2
O. Boussaid 2018

Plan
1°) Contexte et motivation
2°) Data Lake : Définitions
3°) Data Lake : Stratégie et implémentation
Gestion des données massives

4°) Data Lake vs Data Warehouse


5°) L’univers des données : ou le Modern Data Management
6°) La BI et son devenir

1
07/02/2019

T3
Les données massives (Big data)
O. Boussaid 2018

Contexte et motivation
q L'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets connectés…)
produit un impact important sur le monde des affaires (Business data).

q En 2015 : 7.9 Zo de données auraient été créées dans le monde, dont 80% non structurées*

q Il est nécessaire que les technologies de l’information proposent de nouvelles architectures


pour acquérir et comprendre l'information.

q Les technologies de l’information doivent proposer de nouvelle approches de collecte,


d'organisation et d'analyse des données massives.
Gestion des données massives

q Les technologies classiques liées à la BI et aux entrepôts de données peuvent s’avérer


insuffisantes, voire inadaptées aux données massives.

* Source : Cap Gemini Consulting, «Big Data : où en est votre entreprise. Vraiment»

T4
Les données massives (Big data)
O. Boussaid 2018

Contexte et motivation
Gestion des données massives

2
07/02/2019

T5
Les données massives (Big data)
O. Boussaid 2018

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Les données opérationnelles de l’entreprise sont structurées puis stockées dans des bases de
données (relationnelles).

q Elles sont dotées de structures : Tables, champs, enregistrements, … , avant d’être stockées.

q La structure facilite la navigation dans les données.


q Cas des données pérennes de gestion, financières...

q Inconvénients :
Gestion des données massives

§ la modification de la structure peut être complexe et coûteuse.


§ Risque de perte de données.
§ Approche mal adaptée si les traitements, en aval, ne sont pas connus en amont.

T6
Les données massives (Big data)
O. Boussaid 2018

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Des bases de données aux entrepôts de données…


q Les entrepôts de données ont permis de centraliser des données structurées dans des
silos de données.

q Les données entreposées sont structurées selon des modèles en étoile.


q Dans un entrepôt, l’information est détaillée selon un niveau de granularité le plus faible.

q Nombreuses possibilités d’agrégations et donc d’analyse


Gestion des données massives

q Les agrégations sont aussi des regroupements de données : donc une structuration de
l’information

q Le choix de ces regroupements se fait alors au détriment d’autres possibilités.

3
07/02/2019

T7
Les données massives (Big data)
O. Boussaid 2018

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Les bases de données ou les entrepôts de données sont des structures verticales
q La structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la structure.

q Déconstruction est alors ardue et complexe en cas de modification de l’organisation.


q La modélisation en étoile convient bien à des données structurées et dont on connaît la finalité
(l’usage) bien en avant.
Gestion des données massives

q Elle n’est pas adaptée aux données non structurées, telles que les données sociales.
q Elle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur utilisation.

La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

T8

Les Data Lakes


O. Boussaid 2018

q Concept évoqué la 1° fois en 1999 par Dorian Pyle


dans son livre ‘’Data preparation for Data mining’’.

q Mais aussi, par James Dixon, de Penthao.

q Les entreprises s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’.

q Le données sont conservées sur le même plan. Elles ne nécessitent pas de structure !
La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

q Et surtout, on ne connaît pas à l’avance leur utilisation.


Gestion des données massives

q La structure n’apparaît qu’au moment de l’analyse.

q Concept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’.

4
07/02/2019

T9
Les Data Lakes
O. Boussaid 2018

q Les Data Lakes sont une structure plate des données qu’on conserve pour garder
l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer.

q Les données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop)

q C’est au moment de leur analyse, qu’on les regroupe en créant une structure.

q Exemple :
• les logs de sites web,

Gestion des données massives

les tweets,
• les profiles sociaux,
• les commentaires de blogs,
• les photos
• …

La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

T10
Les Data Lakes
O. Boussaid 2018

q C’est un espace de stockage dans lequel on déverse les données provenant de


systèmes internes et externes pour en tirer de la connaissance, des prévisions et des
actions.

q Sous la forme de rapports agiles, visuels, combinant de multiples sources de


données, ou d’applications métiers

q Pour restituer, directement ou sous forme :


Gestion des données massives

§ de web services (outils de relation clients des vendeurs ou d’un centre d’appels)
§ de recommandations sur un site web,
§ d’alertes
§ de prescriptions à destination des différents métiers.

5
07/02/2019

T11
Les Data Lakes
O. Boussaid 2018

Caractéristiques d’un Data Lake

q EXHAUSTIVITE : Stocker tous les types de données, au format le plus granulaire, pour
toujours pouvoir accéder au potentiel de leur forme non altérée.

q ACCESSIBILITE : Accéder facilement aux données et les traiter en temps réel ou les
requêter ponctuellement.

q HISTORISATION : Conserver des données dans le temps pour établir des analyses de
tendance ou comparatives.

q CONVERGENCE : Centraliser, joindre et comparer des données provenant de


différentes sources (externes ou internes) pour réaliser des analyses exhaustives et
transversales.
Gestion des données massives

q QUALITATIVITE : Assurer la qualité de la donnée.

T12
Les Data Lakes
O. Boussaid 2018

Le Data Lake est-il différent de l’entrepôt de données ?

q Ont-ils des vocations différentes ?

q La flexibilité du Data Lake pour croiser et analyser les données lui permet de se
distinguer nettement de l’entrepôt de données.

q La modélisation des entrepôts de données repose sur un ‘’Model On Write’’ : la


manière de stocker et d’organiser la donnée est définie au préalable.
Gestion des données massives

q Le Data Lake se base sur un ‘’Model On Read’’ : les données sont stockées sans
traitement préalable.

q Utilisation en cycle agile des données pour traiter un cas d’usage.

6
07/02/2019

13
Les Data Lakes
O. Boussaid 2018

Le Data Lake est différent de la Data Management Platform (DMP) ?

q La DMP sert à segmenter les audiences et les clients, en temps réel, selon leur
comportement, pour leur appliquer des scénarios d’activation, que ce soit par le
média, le social ou les canaux CRM classiques (email, SMS, etc.).

q Ils sont plutôt complémentaires.


données massives

q La DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses


Gestion
Gestion des desmassives
données

T14
Les Data Lakes
O. Boussaid 2018

Besoin d’une stratégie pour déployer un Data Lake.

q Il faut disposer d’une stratégie Data avant de déployer un Data Lake.


q Une approche en 3 phases :

1. L’identification du cas d’usage


a. Soit améliorer des cas d’usage déjà existants
b. Soit viser une innovation par la data
2. La définition d’une feuille de route
Gestion des données massives

a. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage
3. Le choix de l’infrastructure
a. Coût du stockage
b. Flexibilité d’alimentation

7
07/02/2019

T15 Les Data Lakes


O. Boussaid 2018

Les utilisateurs des Data Lakes

Chef de projet
Conçoit, développe et s’occupe au
quotidien de la plateforme.
C’est le maître d’œuvre du Data Lake.

Data Engineer Data Analyst Data Scientist


Exploite en profondeur l’ensemble des
Connecte le Data Lake à toutes les Définit les KPI et les métriques à des données à des fins de prospection,
sources de données ; s’assure de la fins de reporting, de dahboarding pour pour déterminer les grandes tendances
qualité de la donnée ; et lie la comprendre les processus métiers. business et les opportunités que
l’organisation devra saisir.
plateforme aux applications externes.
Gestion des données massives

Admin système
Responsable de l’infrastructure du
Data Lake et de la sécurité.

T16
Les Data Lakes
O. Boussaid 2018

Les ressources humaines : constitution d’une équipe

q Data Engineers (profil IT connaissant les technologies Big Data).

q Data Scientists (profil mathématique et statistique).

q Data Architects, (concevoir l’architecture technique supportant le Data Lake),

q Experts de la visualisation de données


Gestion des données massives

q Data Stewards (pour maintenir les flux de données entrants et sortants du Data Lake),

q Administrateurs système (pour maintenir opérationnel les machines, réseaux, services…).

8
07/02/2019

T17
Les Data Lakes
O. Boussaid 2018

Définition… ou plutôt des définitions

q Un Data Lake est un repository de stockage qui contient une très grande quantité de
données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées.

q Un repository de données massives facilement accessibles, flexibles et scalables.

q une grande plateforme d’entreprise de gestion de données massives pour l’analyse des
sources de données disparates et dans leurs formats natifs.
Gestion des données massives

q Un Data Lake a une architecture plate pour le stockage de données. Chaque donnée à
un identifiant unique, et est renseignée par des métadonnées.

T18 Les Data Lakes


O. Boussaid 2018

Définition… ou plutôt des définitions

q Le catalogue des métadonnées :

KEY

COLUMN VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY
Source: Booz Allen Hamilton
Gestion des données massives

q Chaque information sur la donnée est matérialisée dans une cellule d’une table de
métadonnées.

q Peu importe où la donnée est localisée, les tags permettent de l’identifier.


q On peut également définir les autorisations d’accès sur les fichiers.

9
07/02/2019

T19 Les Data Lakes


O. Boussaid 2018

Catalogue des données dans le Data Lake

KEY
COLUMN
VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY
Source: Booz Allen Hamilton

q 4 types de tags permettent de définir chaque cellule :

§ Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant).

§ Le type de donnée (vidéo, tweet, n° de compte…).

§ Groupes d’appartenance (Tag group).


Gestion des données massives

§ Version de la donnée (par la date d’identification).

T20 Les Data Lakes


O. Boussaid 2018

Catalogue des données dans le Data Lake

q Exemple de catalogue des métadonnées :

Data Primary Tag Tag Group Time Stamp Row ID


John Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1


Gestion des données massives

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

10
07/02/2019

T21 Les Data Lakes


O. Boussaid 2018

Catalogue des données dans le Data Lake


La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

Source: Booz Allen Hamilton

q Il n’est pas nécessaire d’associer tous les tags à chacune des données en amont:
§ A minima: l’identifiant principal (Row ID).
§ Possibilité d’ajouter ou de modifier les tags par la suite de façon manuelle ou automatique (ex:
reconnaissance des formats de n° de téléphone).
Gestion des données massives

q Exemple de recherche:
§ « L’évolution du prix d’une action est-elle liée à la fréquence à laquelle un groupe d’experts aborde
le sujet dans leurs tweets ? ».
§ On récupère toutes les cellules contenant le nom des experts dont le tag est “auteur” et le tag
group est “tweets”.

T22 Les Data Lakes Catalogue des données dans le Data Lake
q Exemple de catalogue des métadonnées :
O. Boussaid 2018

Data Primary Tag Tag Group Time Stamp Row ID


John Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

John Doe Name Employee 1

202-555-1212 Telephone # Investor Information 1

Jame Smith Name Investor Information 2

2/1/76 Date of Birth Investor Information 2


Gestion des données massives

3634-56 Account # Investor Information 2

1200 Shares ABBC Stock Sales Transactions 6/24/2013 8:16 AM 2

280 Shares QQWD Stock Purchases Transactions 6/24/2013 11:11 AM 2

160 Shares XYYZ Stock Purchases Transactions 6/24/2013 2:36 PM 2

917-555-2121 Telaphone # Investor Information 2

11
07/02/2019

T23
Les Data Lakes
O. Boussaid 2018

Une parabole sur les Data Like

q ‘’If you think of a datamart as a store of bottled water – cleansed and packaged and
structured for easy consumption – the Data Lake is a large body of water in a more natural
state. The contents of the Data Lake stream in from a source to fill the lake, and various
users of the lake can come to examine, dive in, or take samples.’’
James Dixon , Pentaho CTO, https://en.wiktionary.org/wiki/data_lake

q J. Dixon propose alors un nouveau concept pour organiser et stocker les Big data : le Data
Lake, qui est un repository centralisé de données massives (Big data), facilement
accessibles.

q Dans un Data Lake, toutes les données sont emmagasinées, même celles dont on ignore
Gestion des données massives

comment elles seront utilisées.

q Alors que dans les approches classiques (BI) seuls certains attributs (significatifs) sont
exploités de plus sous une forme agrégée.

T24
Les Data Lakes
O. Boussaid 2018

Définition… ou plutôt des définitions

q Un data lake est une méthode de stockage des données utilisée pour le Big data.
Le principe étant d'avoir dans un lieu des données de natures différentes : fichiers,
blobs… (d’après Wikipedia)

q Le Data Lake est reconnu comme une façon de stocker de très grands volumes de
données, où les schémas et les besoins d’analyses (ou d’exploitation) ne sont
connus qu’au moment de l’utilisation des données.
Gestion des données massives

12
07/02/2019

T25
Les Data Lakes
O. Boussaid 2018

Définition… ou plutôt des définitions


La partie de l'image avec La partie de l'image avec l'ID de
l'ID de relation rId3 n'a pas relation rId3 n'a pas été trouvé dans le
été trouvé dans le fichier. fichier.

q Dans un Data Lake la donnée peut être brute ou affinées.

q L’absence de schémas des flux entrant dans le Data Lake donne une réelle
flexibilité à la donnée et à ses éventuels traitements.

q Dans un Data Lake, la donnée n’a pas de ‘’valeur’’, encore.

q C’est à l’issue de son (ou ses) traitement.s que la valeur sera créée.
q C’est ainsi que le Data Lake contribue aux cycles d’innovation dans l’entreprise.
Gestion des données massives

T26
Les Data Lakes
O. Boussaid 2018

Méthodologie… ou support de stockage ?

q La Data Lake absorbe des flux de données. Ces dernières sont rendues utilisables au
moment de leur exploitation (analyses).

q Ainsi, la transformation des données ne survient qu’après leur chargement (E.L.T. plutôt
que E.T.L.)

q La transformation s’effectue en fonction du besoin de l’analyse envisagée.


Gestion des données massives

q A chaque utilisateur (consommateur) d’exprimer son besoin d’analyse et d’y puiser les
données sources nécessaires.

13
07/02/2019

T27
Les Data Lakes
O. Boussaid 2018

Méthodologie… ou support de stockage ?

q Pour les entrepôts, les données sont poussées vers l’utilisateur sous forme de data-marts
correspondant à des besoins spécifiques, selon une structuration préalablement
définie.

q Duplication des données de production avant leur ingestion dans une structure
multidimensionnelle (Silos de données).

q Dans les Data Lakes, l’analyse des données se fait sur le données opérationnelles.
q Les flux de données sont ingérés en temps réels.
Gestion des données massives

q Les applications (BI ou autres) peuvent interagir avec les données pour en créer des
valeurs.

q Les Data Lakes ’’décloisonnent’’ les données pour être accessibles à toute sorte
d’application : au contraire des silos de données construits spécifiquement pour la BI.

T28
Les Data Lakes
O. Boussaid 2018

Méthodologie… ou support de stockage ?

q Les données passent par un pipe pour être cataloguées (métadonnées), tout en
restant non structurées.

q Ces métadonnées sont importantes pour la gouvernance des données.

q Le ‘’Schema On Read’’ n’impose aucune structuration aux données leur maintenant


ainsi leur aspect originel. Cette flexibilité assure ainsi une exploitation des données soit
à des fins d’analyse, soit pour développer des applications.
Gestion des données massives

q Le traitement des données au sein même du Data Lake permet des déclinaison métiers
diversifiées.

q L’application de techniques d’exploitation sophistiquées aux flux entrant dans le Data


Lake rend celui-ci très proactive.

14
07/02/2019

T29
Les Data Lakes
O. Boussaid 2018

Méthodologie… mais pour quelles fins ?

q Evolution de la perception des données au sein des entreprises.

q Gouvernance des données : systématiser la collecte des données qui deviennent


massives, les centraliser sous forme de plateforme fédérative ; en définir une stratégie
data.
q La stratégie data au service des cycles d’innovation des process dans les entreprises.

q Terrains d’applications :
q Le marketing : Collecter de nombreuses données sur le client, ses habitudes, son
Gestion des données massives

profile ; croisement avec d’autres sources de données pour prédire son


comportement futur : vision à 360° du client.
q L’industrie : collecter de nombreuses et diverses sources de données liées aux
processus de fabrication de produits, à leurs usages, pour améliorer ces derniers.

T30
Les Data Lakes
O. Boussaid 2018

Méthodologie… mais pour quelles fins ?

q Au défi du stockage et du traitement des données, s’ajoutent la data visualisation, les


techniques de Machine learning, la gouvernance des données, Traitements en temps
réels.

q Une nouvelle vision de la data par les entreprises : Data Globale platform.

q Besoin de plus de ressources de stockage et de puissance de calcul : Cloud Computing.

q Déploiement d’un Data Lake sur un environnement distribué : le Cloud


Gestion des données massives

q Disponibilité de produits sur le cloud (PaaS) permet une utilisation du Data Lake plus
rationnelle.

q Approche graduelle (Cloud) préférée à une approche ‘’on-premise’’ (locale)

15
07/02/2019

T31
Les Data Lakes
O. Boussaid 2018

Méthodologie d’exploitation des Big data

q Le Data Lake doit être accessible et manipulable au travers d’une infrastructure


partagée.
q Celle-ci doit permettre d’interagir avec les données.
q Les sources de données sont ‘’déversées’’ dans le Data Lake.
q La création de la valeur de la donnée se fait selon diverses axes de rechercher (axes
d’observation).
q Avènement du Data Brain.
q On applique à la donnée une ‘’intelligence’’ (ou un savoir-faire) pour en créer la valeur
escomptée.
Gestion des données massives

q On en crée des ‘’modèles de données’’.


q Ces modèles de données sont alors croisés avec d’autres informations pour engendrer
une ‘’perspicacité prédictive’’.
q Un Data Brain est un système possédant la capacité de se projeter.

Gestion des Data Lakes


32
O. Boussaid 2018

´ Ingestion et transformation des données : le déplacement physique des données

´ Catalogage et préparation des données

´ Sécurité des données : profilage des données et masquage des données

´ profilage des données : pour découvrir quelles sont les données sensibles à masquer et protéger

´ masquage des données : masquage statique des données

´ Qualité des données


Gestion des données massives

´ Préparation des données : recherche dans le catalogue, profilage et nettoyage des


données avant les analyses

´ Accès aux données et consommation des données

16
07/02/2019

33
Gestion des Data Lakes
O. Boussaid 2018

Architecture d’un système de gestion de Data Lake

Livre blanc de Bloor : « La gestion de Data Lake », Philip Howard, Janvier 2017

34
Coût Total de Possession
O. Boussaid 2018

De nombreux facteurs contribuent à ce CTP


´ Coûts classiques
´ Frais de Licences
´ coûts d'abonnements
´ frais de maintenance
´ Coûts Matériels
´ Cout de logiciel s’exécutant sur une autre plate-forme
´ Coûts cachés
´ Coûts de déploiement et de développement
´ Coûts liés aux changements de plateforme et aux modifications
´ Coûts d'intégration
´ Coûts d'administration, de mise à niveau et de maintenance
´ Coûts de formation
´ Coût (absence) des fonctionnalités pour optimiser la productivité
´ Coûts relatifs à la simplicité d'utilisation

´ Coûts relatifs à la collaboration

17
07/02/2019

Les Data Lakes


O. Boussaid 2018

Les limites des Data Lakes

q Nécessite beaucoup de ressources :


q complexité des algorithmes et préparation des données
q non adapté à des analyses répétitives où les données doivent être recalculées à chaque
nouvelle étude.

q Difficultés de mise en place : il faut repenser le fonctionnement des systèmes


de données (qui fait quoi, comment…).

q Sécurité : problèmes liés à l’accès aux données sensibles.

Les Data Lakes


O. Boussaid 2018

Les pièges liés aux Data Lakes

q Absence de gouvernance des données :


Sans une structure et les contrôles nécessaires pour gérer et maintenir la qualité, la cohérence et la
conformité des données, un Data Lake peut rapidement se transformer en un marécage de données.

q Faible accessibilité :
Bien que les données puissent être disponibles, leur valeurs sont limitées si les utilisateurs sont incapables
de trouver les données ou de les comprendre.

q Mauvaise qualité des données et traçabilité:


Les utilisateurs doivent connaître le contexte des données et savoir d'où elles viennent d’avoir une
confiance complète aux données.

q Manque de sécurité des données :


Les données chargées dans un Data Lake sont sans aucune surveillance. Cela peut entraîner des
risques de conformité

18
07/02/2019

T37 Les Data Lakes


O. Boussaid 2018

Data Lakes à travers un diagramme SWOT

Strengths Weaknesses
Lower costs Data management
One-stop data shopping Security

Opportunities Threats
Discovery Status quo
Gestion des données massives

Advanced analysis Skills

Les Data Lakes : Stratégie d’implémentation


T38
O. Boussaid 2018

Du Data Warehouse au Data Lake : évolution du décisionnel

q Vers l’’’élargissement’’ ou la ’’mutation’’ du patrimoine informationnel de l’entreprise ?


q Mise en place d’une stratégie d’unification et de qualification du patrimoine des
données dans une approche agile et incrémentale :

1. Mise en œuvre d’un Data Lake

2. Data preparation : pour transformer et normaliser les données dans le Data Lake

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes


Gestion des données massives

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

Jean-Louis Haste (Business & Decision)

19
07/02/2019

Les Data Lakes : Stratégie d’implémentation


T39
O. Boussaid 2018

1. Mise en œuvre d’un Data Lake

q La qualification des données est une nécessité tant sur leur fiabilité que sur la valeur
ajoutée.

q Stockage et indexation des données au fil de l’eau (sans transformation) :


Données Ingestion dans le Data Lake
Variées et volumineuses Hébergées et indexées nativement sur des
plateformes Big data (hadoop, Spark…)
Logs, semi-structurées, Utiliser des moteurs d’indexation (Elastic Serachn,
BD NoSQL Splunk…)
Gestion des données massives

Non structurées Utiliser des moteurs d’indexation avec analyse


sémantique NLP (Natural Language Processing)

q Mise en place d’un suivi et une traçabilité des données


Jean-Louis Haste (Business & Decision)

Les Data Lakes : Stratégie d’implémentation


T40
O. Boussaid 2018

2. Data preparation : pour transformer et normaliser les données dans le Data Lake

q Il s’agit d’utiliser des outils de ’’Data preparation’’ pour qualifier la qualité des
données.

q Utilisation des fonctionnalités de ‘’recommandations’’ ou des routines ré-exécutables


q Transformation des donnés selon une approche ‘’ E – L – T ’’.
q Conserver les données apurées et transformées sur la même plateforme que celles
du Data Lake, dans des dossiers distincts.

q Utilisation de fonctions de ’’Data Lineage’’, pour gérer les cycles de transformations et


Gestion des données massives

d’ingestion des données dans le Data Lake.

Jean-Louis Haste (Business & Decision)

20
07/02/2019

Les Data Lakes : Stratégie d’implémentation


T41
O. Boussaid 2018

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes

q Le ‘’Datalab’’ est un espace dédié à l’expérimentation et à la qualification


’’fonctionnelle’’ des données.

q Le ‘’Datalab’’ peut se trouver sur une plateforme de calcul distribué (Hadoop,


Spark…)

q Les données sont déjà préparées (arborescences, axes) en amont, pour fluidifier les
analyses.

q Des connecteurs doivent être positionnées sur l’entrepôt de données et les BD de


Gestion des données massives

production, pour effectuer des analyses croisées.

Jean-Louis Haste (Business & Decision)

Les Data Lakes : Stratégie d’implémentation


T42
O. Boussaid 2018

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

q La connexion du Data Lake et du data warehouse peut poser des problèmes du fait de
la rigidité de la structure de ce dernier.

q Recours à une modélisation agile de l’entrepôt ; utilisation de ‘’Data Vault’’ ou d’


‘’Anchor model’’

q Trouver un équilibre entre les données du Data Lake et celles de l’entrepôt.

q Le Data Lake sert ainsi à des analyses ponctuelles «on demand» et non industrialisées.
Gestion des données massives

q Le data warehouse sert des besoins récurrents et industrialisés.


q La conception incrémentale et scalable du Data Lake et l’évolution agile du data
warehouse permettent d’étendre l’architecture décisionnelle existante dans une
entreprise.
Jean-Louis Haste (Business & Decision)

21
07/02/2019

Les Data Lakes : Stratégie d’implémentation


43
O. Boussaid 2018

Quatre phases importantes pour la création d’un Data Lake

q UN : Prise en charge de données scalables et leur ingestion

q DEUX : Amélioration de la capacité d’analyse

q TROIS : Collaboration DWH et Data Lake

q QUATRE : Pleine adhésion et acquisition de maturité

Les Data Lakes : Stratégie d’implémentation


44
O. Boussaid 2018

Hadoop : Plateforme de déploiement d’un Data Lake

La partie de l'image avec l'ID de relation rId2 n'a pas été trouvé dans le fichier.

22
07/02/2019

T45
Les Data Lakes
O. Boussaid 2018

Data Lakes vs Data Warehouses


q Un Data Lake est un repository de stockage contenant une très grande quantité de
données originelles dans leurs formats natifs, pouvant être structurées, semi-structurées ou
non structurées.
La structure de la donnée et son traitements (analyses) ne sont définis qu’au moment de
son utilisation.

q La limitation des entrepôts de données est dûe au fait qu’ils stockent des données
provenant de diverses sources dans une structure spécifique et statique (silo de données)
et des catégories qui désignent le type d’analyses possibles à effectuer sur les données à
partir de n’importe quel point d’entrée.
Gestion des données massives

q Ceci était valable pour la BI durant des décennies. Les analyses sont effectuées sur des
BD propriétaires et dont le focus se restreint aux reportings, aux dashboards avec des
chemins d’interactions prédéfinis.

T46 Les Data Lakes


Data Lakes vs Data Warehouses
O. Boussaid 2018

q Dans le cas d’un entrepôt de données, on connaît déjà les questions auxquelles on veut
répondre, et cela dès sa construction.
q Alors que les véritables questions émergent au cours des analyses.

q Pour une data discovery réelle et pertinente, il est essentiel d’avoir une capacité de
naviguer partir de certaines données (point d’entrée), ou d’un scénario donné, selon
différentes directions tout en sélectionnant des données (slicing & dicing) appropriées,
correspondant un raisonnement.

q Exemple de Big data discovery :


Ø ‘’On souhaite analyser le total des recettes des ventes sur Internet en France,
durant l’année 2016’’, à partir d’une BD transactionnelle.
Ø On souhaite décliner ces informations selon les différents départements et les
Gestion des données massives

données socio-professionnelles des acheteurs, à partir d’une BD CRM.


Ø On voudrait procéder à la corrélation avec des campagnes publicitaires, à partir
d’une plateforme publicitaire.
Ø On voudrait analyser les dépenses marketing, et naviguer de là, pour évaluer
l'impact de l'efficacité et des délais de livraisons (logistique) sur les ventes
effectuées, à partir des données GPS des véhicules.

23
07/02/2019

T47
Les Data Lakes
O. Boussaid 2018

Data Lakes vs Data Warehouses

Entrepôts de données Data Lakes


Structurée, semi-structurée, non
Donnée Structurée, traitée
structurée, originelle

Traitement Schema-On-Write Schema-On-Read

Coûteux pour les grands


Stockage Conçus pour un stockage pas coûteux
volumes de données

Hautement agile, configuration et


Agilité Moins agile, structure figée
reconfiguration à volonté.
Gestion des données massives

Sécurité mature En cours de maturation

Utilisateurs Professionnels (BI) Data scientistes et autres.

49 Les Data Lakes


Data Lakes vs Data Warehouses
O. Boussaid 2018

Data warehouse Data Lake


Nature des Stocke uniquement les données déjà Stocke toutes les données, celles utiles
données structurées et considérées comme «utiles» aujourd’hui ou potentiellement dans le futur
à l’entreprise

Modèle des Architecture qui repose sur des tables Architecture flexible sans contrainte de
données relationnelles forme ou de schéma particulier et a priori
Structure peu responsive : espace de Structure évolutive et non figée ou de
stockage très structuré, compliqué et nombreux types et formes de données
Gestion des données massives

chronophage à faire évoluer peuvent cohabiter et venir s’ajouter dans le


Stocke certains types de données - temps
généralement des métriques quantitatives Données stockées quelle que soit leur forme
(brute et structurée ou non structurée)
Finalités Son modèle de donnée très structuré rend Structure agile, les données sont configurées
le datawarehouse adapté à des analyses et traitées selon les besoins, via des
répétitives séquencements parallélisés et
Logique ETL (Extract –Transform –Load) indépendants
Logique ELT (Extract –Load –Transform)
Comprendre les data lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven..
Converteo ADLPerformance, avril 2016

24
07/02/2019

50
Les data Lakes et/ou les Data Warehouses
O. Boussaid 2018

´ Quelle place pour le Data Lake et le Data Warehouse dans l’univers des données ?
Gestion des données massives

« The Future of the Data Warehouse », by Dave Wells, in Data Management, 2017

51
L’univers des données : ou le Modern Data Management
O. Boussaid 2018

´ Quelle place pour le Data Lake et le Data Warehouse dans l’univers des données ?
Gestion des données massives

« The Future of the Data Warehouse », by Dave Wells, in Data Management, 2017

25
07/02/2019

52
Cycle de vie des données dans les Data Lakes
O. Boussaid 2018

´ un cycle de vie de données en six étapes comme principe architectural de base :

´ 1°) – données sources


Gestion des données massives

´ 2°) - données brutes


´ 3°) - données affinées
´ 4°) - données fiables
´ 5°) - données préparées
´ 6°) - données consommées

« The Future of the Data Warehouse », by Dave Wells, in Data Management, 2017

53
Cycle de vie des données dans les Data Lakes
O. Boussaid 2018

´ …

Data Lake
Gestion des données massives

« The Future of the Data Warehouse », by Dave Wells, in Data Management, 2017

26
07/02/2019

54
Cycle de vie des données dans les Data Lakes
O. Boussaid 2018

´ ….
Gestion des données massives

« The Future of the Data Warehouse », by Dave Wells, in Data Management, 2017

T55
BI & Data Lakes
O. Boussaid 2018

Data Lakes vs Data Warehouses

Silo de données

La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.
Gestion des données massives

27
07/02/2019

La Business Intelligence ( BI )
O. Boussaid 2018

v Business Intelligence to Business Analytics


La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

Exploitation des données directement (Business Analytics)


ou indirectement (Business Intelligence)

Socle Big data : intégration en temps réel


des flux de données structurées et non structurées, NoSQL
et relationnelles.

Données sources (internes, externes, structurées,


non structurées)

57
BI & Data Lakes
O. Boussaid 2018

De la BI classique à la BI moderne

q La BI (classique) ne peut pas se cantonner à son rôle (exclusif) de productions de rapports

q "De l’hypothèse et des tests avec les données sélectionnées" à l’exploration de toutes les
données et l’identification de toutes les corrélations. (Claudio Borlo, DSI, Rexel)

q Le Big Data : opportunité pour l’évolution de la BI (Buisness Analytics)

q La BI moderne devient une architecture de référence. Elle permettra de procéder à :


q L’analyse en libre-service.
q Un accès facile à l’exploration des données à davantage de personnes.
q Elle offre également de sérieux arguments en termes de gouvernance (scalabilité,
performances, sécurité).

28
07/02/2019

58
BI & Data Lakes
O. Boussaid 2018

Real Time Data Warehouse or Active Data Warehouse

q Les DWH sont conçus pour résumer (agréger) de grandes quantités de données pour fournir
des informations exploitables sur les tendances commerciales ou le marketing.

q Les DWH fournissent une fenêtre sur le passé, qu'il s'agisse d'informations quotidiennes,
hebdomadaires ou mensuelles.

q Les entreprises ont de plus en plus besoin de décisions immédiates.


q La nécessité de disposer d'informations à jour pendant la journée augmente rapidement.

59
BI & Data Lakes
O. Boussaid 2018

Active Data Warehouse ou Real Time Data warehouse

Il y a 3 types de latence dans un processus d’aide à la décision

q Data latency : période de temps nécessaire pour collecter les données à partir de
leurs sources, de les préparer pour l’analyses, et de les sauvegarder dans un DWH
ou un data center.

q Analytic latency : période de temps nécessaire pour accéder et analyser les


données afin de les transformer en information, appliquer des règes d’affaires
(business rules).

q Decisional latency : période de temps nécessaire pour interpréter les analyses,


décider des actions à entreprendre et exécuter ces dernières.

29
07/02/2019

60
BI & Data Lakes
O. Boussaid 2018

La partie de l'image avec l'ID de relation rId2 n'a pas été trouvé dans le fichier.

La partie de l'image avec l'ID de relation rId2 n'a pas été trouvé dans le fichier.

Latence dans un processus d’aide à la décision Latence dans une RTBI

61
BI & Data Lakes
O. Boussaid 2018

Active Data Warehouse ou Real Time Data warehouse

q Le degré de latence dans un système de BI est l'un des problèmes les plus importants.
q Les systèmes BI doivent fournir des informations adéquates au bon format, aux bonnes
personnes, et au bon moment, afin d’optimiser les décisions.

q Right Time plutôt que Real Time.


q Le Right Time implique que différentes situations et événements professionnels
nécessitent des temps de réaction ou d'action appropriés.

q R T B I : Right Time Business Intelligence

30
07/02/2019

62
BI & Data Lakes
O. Boussaid 2018

Active Data Warehouse ou Real Time Data warehouse

q La RTBI exploite des données opérationnelles avec une latence nulle et fournit des
moyens pour propager les actions dans les processus métiers en temps réel

q La BI classique présente des données historiques pour l'analyse manuelle, RTBI


compare les événements (business events) actuels avec les données historiques pour
détecter automatiquement les problèmes ou les opportunités.

q La RTBI permet ainsi d’automatiser les analyses.


q L’automatisation des analyses permet d'initier des actions correctives et/ou d'ajuster
les règles métier pour optimiser les processus métier.

q La RTBI, ou les entrepôts de données actifs, c’est une combinaison des technologies
rapides avec des processus métier rapides.

63
BI & Data Lakes
O. Boussaid 2018

La partie de l'image avec l'ID de relation rId3 n'a pas été trouvé dans le fichier.

Information Difference Research Study, January 2015

31

Vous aimerez peut-être aussi