Vous êtes sur la page 1sur 29

17/03/2017

Gestion des données massives


T1
O. Boussaid 2017

Du Data Warehouse au… Data Lake


L’avènement de la Data
Gestion des données massives

O. Boussaid
Mars 2017

T2
O. Boussaid 2017

1°)  Contexte  et  motivation


2°)  S tructuration  classique  des  données
Gestion des données massives

3°)  Définition  intuitive  des  Data  Lakes


4°)    Data  Lake,  DWH,  DMP
5°)  Data  Lake  :  Définitions
6°)  Data  Lake  :  Méthodologie  
7°)   Data  Lake  v s  Data  Warehouse
8°)  Data  Lake  :  S tratégie  et  implémentation

1
17/03/2017

T3
Les Data Lakes
O. Boussaid 2017

Contexte et motivation

q L'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets
connectés …) produit un impact important sur le monde des affaires.

q Il est nécessaire que le s technologies de l’i nformation propose nt de nouvelles


architectures pour acquérir et comprendre l'information.
Gestion des données massives

q Les technologies de l’information doivent proposer de nouvelle approche s de


collecte, d'organisation et d'analyse des Big data.

q Les technologies classiques liées à la BI et aux e ntrepôts de données pe uvent


s’avérer insuffisantes, voire inadaptées aux Big data.

T4
Les Data Lakes
O. Boussaid 2017

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Les données opérationnelles de l’entreprise sont structurées puis stockées dans des
bases de données (relationnelles).

q Elles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant


d’être stockées.
Gestion des données massives

q La structure facilite la navigation dans les données.


q Cas des données pérennes de gestion, financières...

q Inconvénients :
§ la modification de la structure peut être complexe et coûteuse.
§ Risque de perte de données.
§ Approche mal adaptée si les traitements en aval, ne sont pas connus en amont.

2
17/03/2017

T5
Les Data Lakes
O. Boussaid 2017

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Des bases de données aux entrepôts de données…


q Les entrepôts de données ont permis de centraliser les données structurées dans des
silos de données.

q Les données entreposées sont structurées selon des modèles en étoile.


Gestion des données massives

q Dans un entrepôt, l’information est détaillée selon un niveau de granularité le plus


faible.

q Nombreuses possibilités d’agrégations et donc d’analyses


q Les agrégations sont aussi des regroupements des données : donc une structuration
de l’information

q Le choix de ces regroupements se fait alors au détriment d’autres possibilités.

T6
Les Data Lakes
O. Boussaid 2017

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

q Les bases de données ou les entrepôts de données sont des structures verticales
q La structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la
structure.

q Déconstruction est alors ardue et complexes en cas de modification d’organisation.


Gestion des données massives

q La modélisation en étoile convient bien à des données structurées et dont on connaît


la finalité (l’usage) bien en avant.

q Elle n’est pas adaptée aux données non structurées, telles que les données sociales.
q Elle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur
utilisation.

3
17/03/2017

T7

Les Data Lakes


O. Boussaid 2017

q Concept évoqué la 1° fois en 1999 par Dorian Pyle


dans son livre ‘’Data preparation for Data mining ’’.

q Mais aussi, par James Dixon, de Penthao.

q Les entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’.

q Le données sont conservées sur le même plan. Elles ne nécessitent pas de structure !
Gestion des données massives

q Et surtout, on ne connaît pas à l’avance leur utilisation.

q La structure n’apparaît qu’au moment de l’analyse.

q Concept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’.

T8
Les Data Lakes
O. Boussaid 2017

q Les Data Lakes sont une struct ure plate des données qu’on conserve po ur garder
l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer.

q Les données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop)

q C’est au moment de leur analyse, qu’on les regroupe en créant une structure.
Gestion des données massives

q Exemple :
• les logs de sites web,
• les tweets,
• les profiles sociaux,
• les commentaires de blogs,
• les photos
• …

4
17/03/2017

T9
Les Data Lakes
O. Boussaid 2017

q C’est un espace de stockage dans lequel on déverse les données provenant de


système s i nternes et externe s pour en tirer de la connaissance, de s prévisions et des
actions.

q Sous la forme de rapports agiles, visuels, co mbinant de multiples sources de


Gestion des données massives

données, ou d’applications métiers

q Pour restituer, directement ou sous forme :


§ de web services (outils de relation clients des vendeurs ou d’un centre d’appels)
§ de recommandations sur un site web,
§ d’alertes
§ de prescriptions à destination des différents métiers.

T10
Les Data Lakes
O. Boussaid 2017

Le Data Lake est-il différent de l’entrepôt de données ?

q Ont-ils des vocations différentes ?

q La flexibilité du Data Lake pour croiser et analyser les do nnées lui permet de se
distinguer nettement de l’entrepôt de données.

q La modélisation des e ntrepôts de donnée s repose sur un ‘’Model On Write’’ : la


Gestion des données massives

manière de stocker et d’organiser la donnée est définie au préalable.

q Le Data Lake se base sur un ‘’Model On Read’’ : le s do nnée s sont stockées sans
traitement préalable.

q Utilisation en cycle agile des données pour traiter un cas d’usage.

5
17/03/2017

T11
Les Data Lakes
O. Boussaid 2017

Le Data Lake est différent de la Data Management Platform (DMP) ?

q La DMP sert à segmenter les audience s et les client s, en temps réel, selon leur
comportement, pour leur appliquer des scénarios d’activation, que ce soit par le
média, le social ou les canaux CRM classiques (email, SMS, etc.).

q Ils sont plutôt complémentaires.


Gestion des données massives

q La DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses

T12
Les Data Lakes
O. Boussaid 2017

Besoin d’une stratégie pour déployer un Data Lake.

q Il faut disposer d’une stratégie Data avant de déployer un Data Lake.


q Une approche en 3 phases :

1. L’identification du cas d’usage


a. Soit améliorer des cas d’usage déjà existants
b. Soit viser une innovation par la data
Gestion des données massives

2. La définition d’une feuille de route


a. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage
3. Le choix de l’infrastructure
a. Coût du stockage
b. Flexibilité d’alimentation

6
17/03/2017

T13 Les Data Lakes


O. Boussaid 2017

Les utilisateurs de Data Lakes

Chef  de  projet


Conçoit, développe et s’occupe au
quotidien de la plateforme.
C’est le maître d’œuvre du Data Lake.

Data Engineer Data Analyst Data Scientist


Exploite en profondeur l’ensemble des
Connecte le Data Lake à toutes les Définit les KPI et les métriques à des données à des fins de prospection,
sources de données ; s’assure de la fins de reporting, de dahboarding pour pour déterminer les grandes tendances
Gestion des données massives

qualité de la donnée ; et lie la comprendre les processus métiers. business et les opportunités que
l’organisation devra saisir.
plateforme aux applications externes.

Admin   système
Responsable de l’infrastructure du
Data Lake et de la sécurité.

T14
Les Data Lakes
O. Boussaid 2017

Les ressources humaines : constitution d’une équipe

qData Engineers (profil IT connaissant les technologies Big Data).

qData Scientists (profil mathématique et statistique).

qData Architects, (concevoir l’architecture technique supportant le Data Lake),


Gestion des données massives

q Experts de la visualisation de données

qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake),

q Administrateurs système (pour maintenir opérationnel les machines, réseaux, services…).

7
17/03/2017

T15
Les Data Lakes
O. Boussaid 2017

Définition… ou plutôt des définitions

q Un Data Lake est un repository de stockage qui contient une très grande quantité
de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées.
Gestion des données massives

q Un Data Lake a une architecture plate po ur le stockage de do nnées. Chaque


donnée à un identifiant unique, et est renseignée par des métadonnées.

T16
Les Data Lakes
O. Boussaid 2017

Définition… ou plutôt des définitions

q Un Data Lake est un repository de do nnées massive s, facilement accessibles,


flexibles et scalables.

q Un Data Lake est une plateforme de manageme nt de données pour l’analyse de s


Gestion des données massives

sources de données disparates (variété) dans leur format natif.

8
17/03/2017

T17 Les Data Lakes


O. Boussaid 2017

Catalogue des données dans le Data Lake

q Le catalogue des métadonnées :

KEY

COLUMN VALUE
ROW ID TIME STAMP
Gestion des données massives

TAG TAG GROUP VISIBILITY


Source:  Booz  Allen  H amilton

qChaque information sur la donnée est matérialisée dans une cellule d’une table de
métadonnées.

qPeu importe où la donnée est localisée, les tags permettent de l’identifier.


qOn peut également définir les autorisations d’accès sur les fichiers.

T18 Les Data Lakes


O. Boussaid 2017

Catalogue des données dans le Data Lake

KEY
COLUMN
VALUE
ROW ID TIME STAMP
TAG TAG GROUP VISIBILITY
Source:  Booz  Allen  H amilton

q 4 types de tags permettent de définir chaque cellules:

§ Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant).

§ Le type de donnée (vidéo, tweet, n° de compte…).


Gestion des données massives

§ Groupes d’appartenance (Tag group).

§ Version de la donnée (par la date d’identification).

9
17/03/2017

T19 Les Data Lakes


O. Boussaid 2017

Catalogue des données dans le Data Lake

q Exemple de catalogue des métadonnées :

Data Primary Tag Tag Group Time Stamp Row ID


John Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1


Gestion des données massives

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

T20 Les Data Lakes


O. Boussaid 2017

Catalogue des données dans le Data Lake

Source:  Booz  Allen  H amilton

qIl n’est pas nécessaire d’associer tous les tags à chacune des données en amont:
§ A minima: l’identifiant principal (Row ID).
Gestion des données massives

§ Possibilité d’ajouter ou de modifier les tags par


la suite de façon manuelle ou automatique (ex:
reconnaissance des formats de n° de téléphone).

qExemple de recherche:
§ « L’évolution du prix d’une action est-elle liée à la fréquence à laquelle un groupe d’experts aborde
le sujet dans leur tweet ? ».
§ On récupère toutes les cellules contenant le nom des experts dont le tag est “auteur” et le tag
group est “tweet”.

10
17/03/2017

T21 Les Data Lakes


O. Boussaid 2017

Catalogue des données dans le Data Lake

q Exmple de catalogue des métadonnées :

Data Primary Tag Tag Group Time Stamp Row ID


John Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1


Gestion des données massives

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

John Doe Name Employee 1

202-555-1212 Telephone # Investor Information 1

T22 Les Data Lakes Catalogue des données dans le Data Lake
q Exmeple de catalogue des métadonnées :
O. Boussaid 2017

Data Primary Tag Tag Group Time Stamp Row ID


John Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

John Doe Name Employee 1

202-555-1212 Telephone # Investor Information 1


Gestion des données massives

Jame Smith Name Investor Information 2

2/1/76 Date of Birth Investor Information 2

3634-56 Account # Investor Information 2

1200 Shares ABBC Stock Sales Transactions 6/24/2013 8:16 AM 2

280 Shares QQWD Stock Purchases Transactions 6/24/2013 11:11 AM 2

160 Shares XYYZ Stock Purchases Transactions 6/24/2013 2:36 PM 2

917-555-2121 Telaphone # Investor Information 2

11
17/03/2017

T23
Les Data Lakes
O. Boussaid 2017

Définition… ou plutôt des définitions

q Un data lake est une méthode de stockage des données utilisée par le Big data. Le
principe étant d'avoir dans un lieu des do nnées de natures différentes : fichiers,
blobs… (d’après Wikipedia)

q La Data Lake e st reconnu comme une façon de stocker de très grands volume s de
Gestion des données massives

données, où le s sc hémas et les be soins d’analyses (ou d’e xploitation) ne so nt


connus qu’au moment de l’utilisation des données.

T24
Les Data Lakes
O. Boussaid 2017

Définition… ou plutôt des définitions

q Dans un Data Lake la donnée peut être brute ou affinées.

q L’abse nce de schémas des flux e ntrant dans le Data Lake donne une réelle
flexibilité à la donnée et à ses éventuels traitements.

q Dans un Data Lake, la donnée n’a pas de valeur, encore.


Gestion des données massives

q C’est à l’issue de son (ou ses) traitement.s que la valeur sera créée.
q C’est ainsi que le Data Lake contribue aux cycles d’innovation dans l’entreprise.

12
17/03/2017

T25
Les Data Lakes
O. Boussaid 2017

Méthodologie… ou support de stockage ?

q La Data Lake absorbe de s flux de do nnées. Ces dernières sont rendues utilisables au
moment de leur exploitation (analyses).

q Ainsi, la transformation des do nnée s ne survient qu’après leur chargeme nt (E.L.T. plutôt
que E.T.L.)
Gestion des données massives

q La transformation s’effectue en fonction du besoin de l’analyse envisagée.

q A chaque utilisate ur (consommateur) d’exprimer son be soin d’analyse et d’y puiser les
données sources nécessaires.

T26
Les Data Lakes
O. Boussaid 2017

Méthodologie… ou support de stockage ?

q Pour les entrepôts, les données so nt poussées vers l’utilisateur sous forme de data- marts
correspondant à de s besoins spécifiques, selon une str ucturation préalablement
définie.

q Duplication des données de production avant leur inge stion dans une struct ure
multidimensionnelle (Silos de données).

q Dans les Data Lakes, l’analyse des données se fait sur le données opérationnelles.
Gestion des données massives

q Les flux de données sont ingérés en temps réels.

q Les applications (BI ou autres) peuve nt i nteragir avec les do nnées po ur en créer des
valeurs.

q Les Data Lakes ’’décloisonne nt’’ les do nnées pour être accessibles à to ute sorte
d’application : au contraire des silos de données construits spécifiquement pour la BI.

13
17/03/2017

La  Business  Intelligence  (  BI  )


O. Boussaid 2017

v Business Intelligence to Business Analytics

Exploitation  des  données   directement  (Business  Analytics)  


ou  indirectement  (Business  Intelligence)

Socle  Big data  :  intégration  en  temps  réel  


des  flux  de  données  structurées  et  non  structurées,  NoSQL
et  relationnelles.

Données   sources  (internes,  externes,  structurées,  


non  structurées)

T28
Les Data Lakes
O. Boussaid 2017

Méthodologie… ou support de stockage ?

q Les données passent par un pipe pour être cataloguées (métadonnées), tout en
restant non structurées.

q Ces métadonnées sont importantes pour la gouvernance des données.

q Le ‘’Schema On Read’’ n’impo se aucune struct uration aux donnée s le ur mainte nant
ainsi leur aspect originel. Cette flexibilité assure ai nsi une exploitation de s données soit
Gestion des données massives

à des fins d’analyse, soit pour développer des applications.

q Le traitement des données au sein mê me du Data Lake permet des déclinaison métiers
diversifiées.

q L’application de technique s d’exploitation sophistiquée s aux flux entrant dans le Data


Lake rend celui-ci très proactive.

14
17/03/2017

T29
Les Data Lakes
O. Boussaid 2017

Méthodologie… mais pour quelles fins ?

q Evolution de la perception des données au sein des entreprises.

q Gouvernance des données : systématiser la collecte des données qui deviennent


massives, les centraliser sous forme de plateforme fédérative ; en définir une stratégie
data.
q La stratégie data au service des cycles d’innovation des process dans les entreprises.
Gestion des données massives

q Terrains d’applications :
q Le marketing : Collecter de nombreuses données sur le client, se s habit udes, son
profile ; croisement avec d’autres so urces de do nnée s po ur prédire son
comportement futur : vision à 360° du client.
q L’industrie : collecter de nombreuses et diverse s sources de do nnée s liées aux
processus de fabrication de produits, à leurs usages, pour améliorer ces derniers.

T30
Les Data Lakes
O. Boussaid 2017

Méthodologie… mais pour quelles fins ?

q Au défi du stockage et du traitement de s donnée s, s’ajoutent la data visualisation, les


technique s de Machine learning, la go uvernance des données, Traitements en temps
réels.

q Une nouvelle vision de la data par les entreprises : Data Globale platform.

q Besoin de plus de ressources de stockage et de puissance de calcul : Cloud Computing.


Gestion des données massives

q Déploiement d’un Data Lake sur un environnement distribué : le Cloud

q Disponibilité de produit s sur le cloud (PaaS) permet une utilisatio n du Data Lake plus
rationnelle.

q Approche graduelle (Cloud) préférée à une approche ‘’on-premise’’ (locale)

15
17/03/2017

T31
Les Data Lakes
O. Boussaid 2017

Une parabole sur les Data Like

q ‘’If you think of a datamart as a store of bottled water – cleansed and packaged and
structured for easy consumption – the Data Lake is a large body of water in a more natural
state. The contents of the Data Lake stream in from a source to fill the lake, and various
users of the lake can come to examine, dive in, or take samples.’’
James Dixon , Pentaho CTO, https://en.wiktionary.org/wiki/data_lake

q J. Dixon propose alors un no uveau concept pour organiser et stocker les Big data : le Data
Lake, qui est un repository centralisé de do nnées massives (Big data), facilement
Gestion des données massives

accessibles.

q Dans un Data Lake, toute s les do nnées sont emmagasi nées, même celles do nt on ignore
comment elles seront utilisées.

q Alors que dans les approches classiques (BI) se uls certains attributs (significatifs) sont
exploités de plus sous une forme agrégée.

T32
Les Data Lakes
O. Boussaid 2017

Méthodologie d’exploitation des Big data

q Le Data Lake doit être accessible et manipulable au travers d’une infrastruct ure
partagée.
q Celle-ci doit permettre d’interagir avec les données.
q Les sources de données sont ‘’déversées’’ dans le Data Lake.
q La création de la valeur de la do nnée se fait selo n diverses axe s de rechercher (axes
d’observation).
q Avènement du Data Brain.
Gestion des données massives

q On applique à la donnée une ‘’intelligence’’ (o u un savoir-faire) pour en créer la valeur


escomptée.
q On en crée des ‘’modèles de données’’.
q Ces modèles de données sont alors croisé s avec d’autres information pour enge ndrer
une ‘’perspicacité prédictive’’.
q Un Data Brain est un système possédant la capacité de se projeter.

16
17/03/2017

T33
Les Data Lakes
O. Boussaid 2017

Data Lakes vs Data Warehouses

q Un Data Lake est un repo sitory de stockage contenant une très grande quantité de
données originelles dans le urs formats natifs, pouv ant être structurées, semi- structurées ou
non structurées.
La structure de la do nnée et so n traiteme nts (analyse s) ne sont définis qu’au mome nt de
son utilisation.

q La limitation des entrepôts de données est dûe au fait qu’ils stockent de s données
provenant de diverse s sources dans une structure spécifique et statique (silo de données)
Gestion des données massives

et des catégories qui désigne nt le type d’analyses possibles à effectuer sur les do nnées à
partir de n’importe quel point d’entrée.

q Ceci était valable pour la BI durant des décennies. Les analyse s so nt effectuées sur des
BD propriétaires et dont le focus se restreint aux reportings, aux dashboards avec des
chemins d’interactions prédéfinis.

T34 Les Data Lakes


O. Boussaid 2017

Data Lakes vs Data Warehouses


q Dans le cas d’un e ntrepôt de do nnée s, on co nnaît déjà les questio ns auxquelles o n veut
répondre, et cela dès sa construction.
q Alors que les véritables questions émergent au cours des analyses.

q Pour une data discovery réelle et pertinente, il est essentiel d’avoir une capacité de
naviguer partir de certaines do nnée s (point d’entrée), o u d’un scénario do nné , selon
différentes directions tout en sélectionnant de s données (slicing & dicing) appropriées,
correspondant un raisonnement.

q Exemple de Big data discovery :


Gestion des données massives

Ø ‘’On so uhaite analyser le total des recettes des ve ntes sur I nternet en France,
durant l’année 2016’’, à partir d’une BD transactionnelle.
Ø On so uhaite décliner ces informations selon les différents département s et les
données socio-professionnelles des acheteurs, à partir d’une BD CRM.
Ø On voudrait procéder à la corrélation avec de s campag nes publicitaires, à partir
d’une plateforme publicitaire.
Ø On voudrait analyser les dépe nse s marketing, et naviguer de là, pour éval uer
l'impact de l'efficacité et des délai s de livraisons (logistique) sur le s ve ntes
effectuées, à partir des données GPS des véhicules.

17
17/03/2017

T35 Les Data Lakes


Silo de données
O. Boussaid 2017

Data Lakes vs Data Warehouses


Gestion des données massives

Les Data Lakes


O. Boussaid 2017

Les limites des Data Lakes

q Nécessite beaucoup de ressources :


q complexité des algorithmes et préparation des données
q non adapté à des analys es répétitives où les données doivent être rec alculées à chaque
nouvelle étude.

q Difficultés de mise en place : il faut repenser le fonctionnement des systèmes


de données (qui fait quoi, comment…).

q Sécurité : problèmes liés à l’accès aux données sensibles.

18
17/03/2017

Les Data Lakes


O. Boussaid 2017

Les pièges liés aux Data Lakes

q Absence de gouvernance des données :


Sans une structure et les contrôles n écess aires pour gé rer et maintenir la quali té, la cohérence et la
conformité des données, un Data Lake peut rapidement se transformer en un marécage de données.

q Faible accessibilité :
Bien que les données puissent être disponibles, leur valeurs sont limitées si les utilisateurs sont incapables
de trouver les données ou de les comprendre.

q Mauvaise qualité des données et traçabilité:


Les utilisateurs doivent connaître le contexte des donnée s et savoir d'où elles viennent d’avoir une
confiance complète aux données.

q Manque de sécurité des données :


Les données chargées dans un Data Lake sont sans aucune surveillance. Cela peut entraîner des
risques de conformité

T38 Les Data Lakes


O. Boussaid 2017

Data Lakes à travers un diagramme SWOT

Strengths Weaknesses
Lower costs Data  management
One-­stop data  s hopping Security  

Opportunities Threats
Gestion des données massives

Discovery Status quo  


Advanced  analysis Skills

19
17/03/2017

T39
Les Data Lakes
O. Boussaid 2017

Data Lakes vs Data Warehouses

Entrepôts de données Data Lakes


Structurée, semi-structurée, non
Donnée Structurée, traitée
structurée, originelle

Traitement Schema-On-Write Schema-On-Read


Coûteux pour les grands
Stockage Conçus pour un stockage pas coûteux
volumes de données
Gestion des données massives

Hautement agile, configuration et


Agilité Moins agile, structure figée
reconfiguration à volonté.

Sécurité mature En cours de maturation

Utilisateurs Professionnels (BI) Data scientistes et autres.

T40
Les Data Lakes
O. Boussaid 2017

Data Lakes vs Data Warehouses

Axe Data Warehouse Data Lake

Pas de modélisation, identification par


Modélisation nécessaire en amont (ETL,
métadonnées.
Intelligence et structuration).
Intelligence : algorithmes de restitution.
Modélisation Intelligence avant la requête.
Idéal lorsque les données ne sont pas
Idéal si les besoins sont connus en avance.
clairement identifiées.

Représente une certaine vision et les Pas de valeurs associées aux données à priori.
Objectivité des
priorités de l’entreprise. Les données restent inchangées : préservation
données
Les données sont sélectionnées et traitées. de la fidélité des informations.
Gestion des données massives

Modification de structure complexe et


Maintenance et Permet des associations nouvelles et sans limite.
coûteuse.
évolution de structure Toute donnée est automatiquement intégrée.
Nécessite de redéfinir la modélisation.
Non standard, plus complexe à mettre en
SQL standard, outils BI accessibles. place mais flexible.
Méthodes d’accès Requêtes par « recherche », complexité Nécessite des compétences.
potentielle dans les jointures. Requête par mise à l’échelle,
focus sur une fenêtre de données.

Possibilités d’interrogations multiples grâces


Dépend du volume de données demandé et
Batch processing aux technologies avancées (optimisation,
de l’algorithme utilisé.
système de transaction, data-marts).

20
17/03/2017

T41 Les Data Lakes : Stratégie d’implémentation


O. Boussaid 2017

Du Data Warehouse au Data Lake : évolution du décisionnel

q Vers l’’’élargissement’’ ou la ’’mutation’’ du patrimoine informationnelle de l’entreprise ?


q Mise en place d’une stratégie d’unification et de qualification du patrimoine des
données dans une approche agile et incrémentale :

1. Mise en œuvre d’un Data Lake

2. Data preparation : pour transformer et normaliser les données dans le Data Lake
Gestion des données massives

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes


4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

Jean-Louis Haste (Business & Decision)

T42 Les Data Lakes


O. Boussaid 2017

1. Mise en œuvre d’un Data Lake

q La qualification des données e st une nécessité tant sur le ur fiabilité que sur la vale ur
ajoutée.

q Stockage et indexation des données au fil de l’eau (sans transformation) :


Données Ingestion dans le Data Lake
Variées et volumineuses Hébergées et indexées nativement sur des
plateformes Big data (hadoop, Spark…)
Gestion des données massives

Logs, semi-structurées, Utiliser des moteurs d’indexation (Elastic Serachn,


BD NoSQL Splunk…)
Non structurées Utiliser des moteurs d’indexation avec analyse
sémantique NLP (Natural Language Processing)

q Mise en place d’un suivi et une traçabilité des données


Jean-Louis Haste (Business & Decision)

21
17/03/2017

T43 Les Data Lakes


O. Boussaid 2017

2. Data preparation : pour transformer et normaliser les données dans le Data Lake

q Il s’agit d’utiliser des outil s de ’’Data preparation’’ po ur qualifier la qualité des


données.

q Utilisation des fonctionnalités de ‘’recommandations’’ ou des routines ré-exécutables

q Transformation des donnés selon une approche ‘’ E – L – T ’’.


q Conserver les donnée s apurées et transformées sur la mê me plateforme que celle
Gestion des données massives

du Data Lake, dans des dossiers distincts.

q Utilisation de fonctions de ’’Data Lineage’’, pour gérer les cycles de transformations


et d’ingestion des données dans le Data Lake.

Jean-Louis Haste (Business & Decision)

T44 Les Data Lakes


O. Boussaid 2017

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes

q Le ‘’Datalab’’ e st un espace dé dié à l’expérime ntation et à la qualification


’’fonctionnelle’’ des données.

q Le ‘’Datalab’’ pe ut se trouver sur une plateforme de calcul distribué (Hadoop,


Spark…)

q Les données sont déjà préparées (arborescences, axe s) e n amo nt, pour fluidifier les
Gestion des données massives

analyses.

q Des connecteurs doivent être positionnées sur l’entrepôt de données et les BD de


production, pour effectuer des analyses croisées.

Jean-Louis Haste (Business & Decision)

22
17/03/2017

T45 Les Data Lakes


O. Boussaid 2017

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

q La connexion du Data Lake et du data ware house peut po ser des problèmes du fait de
la rigidité de la structure de ce dernier.

q Recours à une modélisation agile de l’entrepôt ; utilisatio n de ‘’Data Vault’’ ou d’


‘’Anchor model’’

q Trouver un équilibre entre les données du Data Lake et celles de l’entrepôt.


Gestion des données massives

q Le Data Lake sert ainsi à des analyses ponctuelles «on demand» et non industrialisées.

q Le data warehouse sert des besoins récurrents et industrialisés.


q La conception i ncrémentale et scalable du Data Lake et l’évolution agile du data
warehouse permettent d’éte ndre l’architecture décisionnelle existante dans une
entreprise.
Jean-Louis Haste (Business & Decision)

46 ´ Les Data Lakes


O. Boussaid 2017

Quatre phases importantes pour la création d’un Data Lake

q UN : Prise en charge de données scalables et leur ingestion

q DEUX : Amélioration de la capacité d’analyse

q TROIS : Collaboration DWH et Data Lake

q QUATRE : Pleine adhésion et acquisition de maturité

23
17/03/2017

47 ´ Les Data Lakes


O. Boussaid 2017

Hadoop : Plateforme de déploiement d’un Data Lake

48 ´ Les Data Lakes


O. Boussaid 2017

De la BI classique à la BI moderne

q La BI (classique) ne peut pas se cantonner à son rôle (exclusif) de productions de rapports

q "De l’hypothèse et des test s avec les donnée s sélectionnées" à l’exploration de to utes le s
données et l’identification de toutes les corrélations. (Claudio Borlo, DSI, Rexel)

q Le Big Data : opportunité pour l’évolution de la BI (Buisness Analytics)

q La BI moderne devient une architecture de référence. Elle permettra de procéder à :


q L’analyse en libre-service.
q Un accès facile à l’exploration des données à davantage de personnes.
q Elle offre également de sérieux argument s e n terme s de gouvernance (scalabilité,
performances, sécurité).

24
17/03/2017

49 ´ Les Data Lakes


O. Boussaid 2017

Real Time Data Warehouse or Active Data Warehouse

q Les DWH sont conçus po ur résumer (agréger) de grandes quantités de do nnée s po ur fournir
des informations exploitables sur les tendances commerciales ou le marketing.

q Les DWH fournisse nt une fenêtre sur le passé, qu'il s'agisse d'informations quotidiennes,
hebdomadaires ou mensuelles.

q Les entreprises ont de plus en plus besoin de décisions immédiates.


q La nécessité de disposer d'informations à jour pendant la journée augmente rapidement.

50 ´ Les Data Lakes


O. Boussaid 2017

Active Data Warehouse ou Real Time Data warehouse

Il y a 3 types de latence dans un processus d’aide à la décision

qData latency : période de temps nécessaire pour collecter les données à partir de
leurs sources, de les préparer pour l’analyses, et de les sauvegarder dans une
DWH ou un data center.

qAnalytic latency : période de temps nécessaire pour accéder et analyser les


données afin de les transformer en information, appliquer des règes d’affaires
(business rules).

qDecisional latency : période de temps nécessaire pour interpréter les analyses,


décider des actions à entreprendre et exécuter ces dernières.

25
17/03/2017

51 ´ Les Data Lakes


O. Boussaid 2017

Latence dans un processus d’aide à la décision Latence dans une RTBI

52 ´ Les Data Lakes


O. Boussaid 2017

Active Data Warehouse ou Real Time Data warehouse

q Le degré de latence dans un système de BI est l'un des problèmes les plus importants.
q Les sy stèmes BI doivent four nir des informations adéquates au bon format, aux bonnes
personnes, et au bon moment, afin d’optimiser les décisions.

q Right Time plutôt que Real Time.


q Le Right Time implique que différentes sit uations et événeme nts professio nnels
nécessitent des temps de réaction ou d'action appropriés.

qR T B I :Right Time Business Intelligence

26
17/03/2017

53 ´ Les Data Lakes


O. Boussaid 2017

Active Data Warehouse ou Real Time Data warehouse

q La
RTBI e xploite de s données opérationnelles avec une late nce nulle et fournit des
moyens pour propager les actions dans les processus métiers en temps réel

q LaBI classique prése nte des données historiques pour l'analyse manuelle, RTBI
compare les événeme nts (business events) actuels avec les données hi storiques po ur
détecter automatiquement les problèmes ou les opportunités.

qLa RTBI permet ainsi d’automatiser les analyses.

qL’automatisation de s analyse s permet d'initier de s actions correctives et/ou d'ajuster


les règles métier pour optimiser les processus métier.

qLa RTBI, ou le s entrepôt s de


données actifs, c’est une combinai son des technologies
rapides avec des processus métier rapides.

54 ´ Les Data Lakes


O. Boussaid 2017

Information Difference Research Study, January 2015

27
17/03/2017

55 ´ Les Data Lakes


O. Boussaid 2017

Information Difference Research Study, January 2015

56
O. Boussaid 2017

28
17/03/2017

La  Business  Intelligence  (  BI  )


O. Boussaid 2017

v Architecture  d ’un  SI  Décisionnel

Data  Mining
Entrepôt  de  données

E                   Méta  
T données OLAP

Analyses  
L         statistiques

Data  Marts

Bases  
de  
production

Administrateur
OLAP  
Reporting

29

Vous aimerez peut-être aussi