Vous êtes sur la page 1sur 37

Séance 8

Évolution de l’entrepôt de
données
Architecture de l’information 30-722-17
Agenda — Séance 8
Évolution de l’entrepôt de données
1. Introduction

2. Évolution de l’entrepôt de données

3. Travail en équipe

2 30-722-17
Les séances de formation
30-722-17 Architecture de l’information

Partie 1 Partie 2
Partie 3
Les fondements de la gestion des S'initier aux principaux
composants de l'architecture de Comprendre la gestion des
données et de l'architecture
référence d'information données
d'information

1. Introduction à la gestion des 5. Gestion de métadonnées 9. Les domaines fonctionnels de


données en entreprise d'entreprise. données.

2. Concepts de l'architecture 6. Gestion de données 10. Les fondements de la


d'affaires maîtresses (MDM). gouvernance des données.

3. Fondement de l'architecture 7.Gestion des données 11. La gouvernance des données en


d'information. opérationnelles et de contenu. entreprise.

4. Notions de vue conceptuelle et 12. Les applications de la


8. Évolution de l’entrepôt de
logique de l'architecture de gouvernance et de l’architecture de
données.
l'information. l’information en industrie.

3 30-722-17
Ce que nous allons faire aujourd’hui

Comprendre l’apport des


entrepôts de données ainsi
Partie 2
que leur évolution vers le
S’initier aux principaux « Big Data ».
composants de l’architecture de
référence d’information
Les thèmes abordés seront :
5. Gestion de métadonnées
d’entreprise.
1. L’origine des entrepôts de
données
6. Gestion de données
maîtresses (MDM).
2. Tendances actuelles en
entrepôts de données
7.Gestion des données 3. L’importance de
opérationnelles et de contenu.
l’architecture des
entrepôts de données à
8. Évolution de l’entrepôt de
données. l’ère du Big Data

4 30-722-17
Introduction

Évolution de l’entrepôt de données

30-722-17 5
Gestions des données analytiques

• Permets d’effectuer des


analyses variées.

• Aide à la prise de décisions.

• Augmente la connaissance sur Gestion d’entrepôt de données et


les sujets d’intérêts de Gestion d’analyse décisionnelle
• Architecture
l’entreprise. • Mise en œuvre
• Entraînement et soutien
• Surveillance et affinage

DMBOK

6 30-722-17
Petite histoire des
entrepôts de données et
de l’analytique
Évolution de l’entrepôt de données

30-722-17 7
Petite histoire des entrepôts de données et de
l’analytique
• Fin des années 80 le concept « Business Data Warehouse » est décrit par Barry Devlin et
Paul Murphy [1].
• Se veut une suite logique de l’arrivée des bases de données relationnelles
• Automatisation des opérations dans plusieurs systèmes
• Besoin de rendre les données structurées plus facilement accessibles pour produire des
rapports
• Début des années « 90 »; deux philosophies en émergence
• 1990; Red Brick Warehouse, un système de base de données spécifiquement pour les
entrepôts de données est créé par Ralph Kimball.
• Nouveau type d’index, le Star Index, pour les schémas en étoile (dimensionnel)

• 1991; Prism Warehouse Manager, un logiciel pour le développement d’entrepôt de


données, créé par Bill Inmon.
• Facilitait l’extraction des données des systèmes opérationnels.
• Compatible avec les bases de données relationnelles de l’époque; Oracle, Sybase,
DB2 et… Red Brick

[1] « An architecture for a business and information system », Barry A. Devlin et Paul T. Murphy,
8 IBM System Journal, Vol 27 No.1, 1988 30-722-17
L’entrepôt de données
Deux philosophies d’architecture

Selon Bill Inmon


• Un référentiel global et centralisé de l’entreprise.
• Des données à un niveau détaillé.
• Un modèle de données normalisées, généralement en 3e forme normale

Selon Ralph Kimball


• Dois pouvoir répondre selon un point de vue affaires et départemental
• Plusieurs magasins de données pour l’ensemble de l’entreprise
• Différents niveaux d’agrégation et d’historisation des données
• Modèle de données dimensionnel :
• Dimensions et faits,
• Schéma en étoile et en flocon.
• Dimensions conformes pour l’ensemble de l’entreprise.
Plusieurs entreprises ont choisi une approche hybride et adaptée à leur réalité.

9 30-722-17
Exemple de modélisation de données

NORMALISÉ DIMENSIONNEL

10 30-722-17
Architecture classique d’entrepôt de données et
d’analyse décisionnelle
• Obtenir une seule version de la vérité pour l’entreprise

• Capacités clés :
• Acquisition et consolidation des données structurées
(opérationnelles et externes),
• Conservation des données historiques et détaillées,
• Flexibilité pour la création de magasins de données ayant des
modèles de données variés;
• 3 FN (3e Forme normale),
• Dimensionnel,
• Multidimensionnel.

11 30-722-17
Architecture classique d’entrepôt de données et
d’analyse décisionnelle
Sources de Acquisition de Entrepôt de données Enrichissement Magasins de Accès au
données données (Data Warehouse) données données
(Datamatrs)

Plateforme de
Magasin rapports et
Application A Finance tableaux de
(Données bord
opérationnelles) Staging
Métadonnées

Extraction, Extraction,
Application B Métadonnées
Transformation et Entrepôt de données Transformation et
(Données d’accès
Chargement corporatif Chargement
opérationnelles) Magasin
(ETL) (Données (ETL)
Marketing
analytiques) Métadonnées Data Mining
Métadonnées
ETL ETL
Application C Métadonnées
(Données
opérationnelles)
Métadonnées

Métadonnées
d’accès

Données Traitements pour Données Traitements Données


• Opérationnelles obtenir et • Analytiques spécifiques pour • Analytiques
• Externes transformer les • Entreprise alimenter les • Unité d’affaires
données sources • Historiques magasins de • Historiques
• Détaillées données • Agrégés

12 30-722-17
Architecture classique d’entrepôt de données et
d’analyse décisionnelle

Défis et enjeux
• Difficulté de synchronisation des extractions de données
sources pour maintenir la cohérence.
• La modélisation de données des entrepôts et magasins de
données est variée et complexe.
• Les données sont transportées et recopiées plusieurs fois.
• Latence pouvant être de plusieurs jours entre le moment où est
effectuée une transaction et celui de sa disponibilité pour de
l’analyse décisionnelle.

13 30-722-17
Tendances actuelles en
entrepôts de données

Évolution de l’entrepôt de données

30-722-17 14
Tendances et évolution des entrepôts de données

• L’entrepôt de données et l’analyse décisionnelle doivent


s’adapter.
• Les entreprises sont de plus en plus numériques.
• La faible latence entre les données opérationnelles et analytiques
devient un avantage compétitif.

• Tendances actuelles
• Entrepôt de données dynamique.
• Virtualisation pour créer des entrepôts logiques
• Visualisation et exploration de données.

15 30-722-17
Entrepôt de données dynamique

• Ce qui le caractérise :
• Fournis des analyses en temps voulu selon le contexte d’affaires,
• Extrais et intègre des connaissances provenant de données structurées et
non structurées,
• Mets en force l’architecture d’entreprise d’information (AIE) pour supporter
les divers niveaux de services.

• Capacités clés d’architecture AIE :


• Vitesse de transport et de transformation avec une latence faible,
• Extensibilité des infrastructures,
• Flexibilité pour avoir divers schémas de données tout en respectant les
niveaux de services attendus,
• Aide à la connaissance intégré aux processus d’affaires (analytique
opérationnelle).

16 30-722-17
Exemple d’architecture d’entrepôt de données
dynamique
Services de présentation et distribution
Fournisseurs Applications UI* UI* Collage
UI* Ligne Applications Portails
de données Web Pan Productivité/Col Recherche composite
d’affaires mobiles d’entreprise
tiers entreprises laboration d’entreprise (Mashup)

Services de sécurité et de protection de l’information

Présentation de Services de
Recherche et Services de Services de
Analytique intégré performance Présentation
requête Processus Collaboration
d’affaires (portail & Web)

Connectivité et interopérabilité

Applications analytiques Gestion des données


Applications principales MDM
opérationnelles
Gestion des Données maîtres
métadonnées
Données Données analytiques
opérationnelles Gestion de contenu
(OLTP) Métadonnées

Données non structurées

Intégration de données d’entreprise (EII)


Découvrir Nettoyer Fédérer Transmission en continu

Profiler Transformer Staging Répliquer Déployer

17 30-722-17
Capacités accrues de visualisation et d’exploration de
données

• De nouveaux outils qui se situent entre les capacités BI traditionnelles (rapports et


tableaux de bord) et l’analytique avancé.
• Rendu visuel qui s’apparente aux tableaux de bord.
• Facilité pour l’utilisateur de développer ses propres scénarios de présentation
d’analyse (story-board).

• Capacités clés d’architecture :


• Accès à une variété de données sources,
• Rendu visuel varié et adaptable,
• Partage et publication des scénarios d’analyse.

• Quelques défis :
• Gouvernance du mode exploratoire,
• Perception que ceci remplace les outils BI existants, ce qui n’est pas le cas, et
• Intégration dans les environnements BI existants.
18 30-722-17
Exercice en classe

Nous allons revoir chacun des Scénarios


scénarios afin d’identifier :
• Les rapports,
• Tableaux de bords et A. Achat en ligne
• Modèles d’analyses avancés.

Démarche: B. Réclamation d’assurance


habitation
• Former des petits groupes de
discussion autour de vous (3 à 5
personnes)
• Présentation du cas, puis C. Fabrication et
discussion en groupe (5 min.) assemblage
• Discussion en classe (5 min.)
L’importance de l’architecture
des entrepôts de données à
l’ère du Big Data

Évolution de l’entrepôt de données

30-722-17 20
Le Big Data (mégadonnées)

« Ensemble des données produites en temps réel et en


continu, structurées ou non, et dont la croissance est
exponentielle. » (Office de la langue française, 2015)

• Ensemble de données extrêmement volumineux.


• Difficile de travailler avec des outils classiques de
traitements et d’analyses de données.
• Aujourd’hui, environ 85 % des données produites sont
non structurés (voix, vidéo, texte, capteurs, etc.).

21 30-722-17
Défis relativement à la gestion des données

• Contrôler et gouverner l’apport de nouvelles


données dans l’entreprise :
• Identification et définition,
• Qualification et certification de qualité,
• Requis de sécurité et de protection,
• Variété grandissante de consommateurs de
données.

• Architecture qui se complexifie :


• Plusieurs facettes d’intégrations à considérer,
• Nouveaux concepts de traitement et d’accès aux
données,
• Beaucoup d’innovation, mais encore peu de
maturité.

22 30-722-17
Exemple d’adaptation de l’architecture des entrepôts
de données
Gouvernance de l’information

Sources Données Analytiques Accès Analyse


Rapports et
Applications tableaux de
(Données bord
opérationnelles) Magasin
Entrepôt de données
ETL Données structurées
Finance
Visualisation de

Services d’accès aux données


données
données

Données externes
(structurées)
de données

Magasin
Marketing
Exploration de
données
Journaux de
traitements
Ingestion des

Data Mining
Ingestion

Données
Documents HDFS
structurées
Machine
MapReduce Requêtes Learning
Web et (HiveQL)
Média
sociaux Analytique
ELT géospatiale
Capteurs Traitements Metadata
et Analytique
senseurs
cognitive

Services de sécurité et de protection de l’information


30-722-17 23

Lien Apache Haddop https://hadoop.apache.org/


Big Data et entrepôt de données logique

• Permets d’intégrer divers environnements de données physiques, structurés


et non structurés. On cherche à :
• Bonifier l’environnement analytique avec de nouvelles données structurées et
non structurées,
• Faciliter l’intégration de données de sources variées,
• Réduire et même éviter de recopier plusieurs fois les mêmes données.

• Capacités clés d’architecture AIE


• Fédération de plusieurs bases de données,
• Virtualisation des données,
• Processus distribué.

• Quelques défis :
• Intégrer les entrepôts de données existants,
• Identifier le style de mise en œuvre adéquat pour les besoins de l’entreprise.

24 30-722-17
Style d’entrepôt de données logique

• Consolidation de plusieurs structures de


données
Référentiel • Par exemple, consolider un ODS, un
entrepôt et des magasins de données

• Extrait et traite les données à la demande.


• Utilise un intergiciel de fédération de
Virtualisation données ou encore un composant d’accès
virtuel aux données

• Stocke et traite une variété de données,


Processus structurées et non-structurées
• Les outils analytiques définissent leur propre
distribué schéma de données selon les requis

25 30-722-17
Source Gartner :
« Decision Point for Logical Data Warehouse Implementation Style » — G00250883, Analyste : May Selvage
Composants de l’architecture de l’entrepôt de
données logique [1]
Outils analytiques

Consommation

Entrepôt de données logique

Couche sémantique

métadonnées
Gestion des
Processus
Référentiel Virtualisation
distribué

Couche d’intégration de données

Données sources

26 30-722-17
[1] Source Gartner :
« Decision Point for Logical Data Warehouse Implementation Style » — G00250883, Analyste : May Selvage
Travail en équipe

30-722-17 27
Étude de cas — identifier l’apport de systèmes analytiques.

• Objectif :
• Identifier l’apport de systèmes analytiques dans le contexte de votre
entreprise.

• Durée :
• 30 minutes

• Conseils :
• Identifier 2 à 3 questions importantes, pour la gestion de votre entreprise,
avec lesquelles l’analytique pourra vous aider.
• Décrire comment vos systèmes analytiques vont vous aider à y répondre.

28 30-722-17
Conclusion

30-722-17 29
Points saillants de cette séance (1/2)

• Au départ, deux philosophies.


• Selon Bill Inmon;
• Un référentiel global et centralisé de l’entreprise de données à un
niveau détaillé,
• Un modèle de données normalisées
• Selon Ralph Kimball;
• Point de vue affaires et départemental avec plusieurs magasins de
données pour l’ensemble de l’entreprise,
• Modèle de données dimensionnel (dimensions et faits).

• Architecture classique d’entrepôt de données et d’analyse décisionnelle :


• Obtenir une seule version de la vérité,
• Consolide et traite les données structurées,
• Conservation des données historiques et détaillées.

30 30-722-17
Points saillants de cette séance (2/2)

• Entrepôt de données dynamique


• Fournir des analyses en temps voulu selon le contexte d’affaires

• Visualisation et d’exploration de données


• Nouveaux outils qui se situent entre les capacités BI traditionnelles
(rapports et tableaux de bord) et l’analytique avancé.
• Facilité à développer ses propres scénarios de présentation d’analyse
(story-board).

• Big Data et entrepôt logique


• Intègre divers environnements de données physiques, structurés et non
structurés.

31 30-722-17
Prochaine séance

Nous allons voir les domaines fonctionnels de la gestion des données

Suggestion de lecture préalable


• « DAMA guide to the data management body of knowledge » — chapitres 1 à 3

32 30-722-17
Annexes

30-722-17 33
Démarrer la
vidéo
Une confiance absolue dans le Big Data …

Lien Ted Talk


https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end?language=fr

34 30-722-17
Annexes A — Références

• “The Art of Enterprise information Architecture”


• Chapitre 13

• The DAMA Guide to the Data Management Body of Knowledge


• Auteur : Mosley, Mark
• Éditeur : Technics Publications, LLC
• Date de publication : C2010
• Chapitre 8

35 30-722-17
Annexes A — Autres références

• Recherches Gartner
• « What Data Discovery Means for You »
• Parue le 17 décembre 2014
• Analystes : Joao Tapadinhas, Dan Sommer
• « Magic Quadrant for Business Intelligence and Analytics Platforms »
• Parue le 23 février 2015
• Analystes : Rita L. Sallam, Bill Hostmann, Kurt Schlegel, Joao Tapadinhas, Josh Parenteau, Thomas W. Oestreich
• « Decision Point for Logical Data Warehouse Implementation Style »
• Parue le 13 mai 2013 — G00250883
• Analyste : May Selvage
• Building the Data Warehouse
• Auteur : William H. Inmon
• Parution : 1992
• ISBN: 0471569607
• The Data Warehouse Toolkit
• Auteur : Ralph Kimball
• Parution : 16 février1996
• ISBN 978-0-471-15337-5
• Data Warehouse from Architecture to Implementation
• Auteur : Barry Devlin
• Parution : 4 novembre 1996
• ISBN 0-201-96425

36 30-722-17
Diagramme de vue d’ensemble d’architecture
Architecture Overview Diagram (AOD)

Systèmes des Services de Services de


lignes d’affaires présentation et processus
distribution Fournisseurs Plateforme de
• Suite applicative • Portail • Orchestration de Chaîne
(ERP, CRM,…) de données commerce
• Web processus logistique
• Applications • Collage • Orchestration de tiers électronique
développées sur composite flux de travaux
mesure • Client riche • Modèles
• Applications • Application d’industries
patrimoniales mobile

Connectivité et interopérabilité intégration de services

Services de Services de Services de Services de Services Services Services de


métadonnées données données contenu analytiques infonuagiques sécurité et de
maîtres protection de
Flux de travail Entrepôts de
du contenu • Service partagé l’information
Métadonnées données (OLAP)
Données • Virtualisation
maîtres • Capacité
• Affaires Données • Autorisation
élastique
• Technique • Référence
opérationnelles
Données Analytique • Authentification
• Opération (OLTP) avancée • Audit
• Client non structurées
• Fournisseur • Chiffrement
• Produit • Masquage

Intégration de données d’entreprise (EII)


Traitement en lot — Temps quasi réel Orienté service
37 30-722-17

Vous aimerez peut-être aussi