Vous êtes sur la page 1sur 43

Conception d’entrepôt

De données

1
Plan
Vue d’ensemble sur les entrepôts de données
Architecture des entrepôts de données
Modélisation dimensionnelle
Option de modélisation
Comparaison entre les différentes approches
Conclusion
Bibliographie
Questions

2
Vue d’ensemble

Un système d’information décisionnel est un ensemble de


données organisées de façon spécifique,appropriées à la
prise de décision.
Connaître l’environnement dans lequel on évolue
Finalité d’un système décisionnel : pilotage de l’entreprise
– Outils :
􀂉􀂉 . Data warehouse
􀂉􀂉 . OLAP

3
Vue d’ensemble
Entrepôt de données :
D’après BILL Inmon : “Un ED est une collection de données
thématiques, intégrées, non volatiles et historisées, organisées pour la
prise de décision.”

Thématiques : thèmes par activités majeures ;


Intégrées : divers sources de données ;
Non volatiles : ne pas supprimer les données du DW ;
Historisées : trace des données, suivre l’évolution des
indicateurs.
Pb de volumétrie, de stockage, d’accès.

4
Objectifs de l ’Entrepôt de Données
Accessibilité des informations
facile à comprendre donc à utiliser

Information cohérente
idempotence avec le temps
incomplétude signalée

Manipulation des mesures de l ’activité


combinaison et séparation (tranches et dès)

Ensemble de données et de moyens


requêtes, analyse, présentation, …

Publication de données déjà servies

5
Vue d’ensemble

Qu’est ce que l’Entreposage des données ?

•􀃂 Conception

•􀃂 Construction

•􀃂 Administration

•􀃂 Restitution

6
Vue d’ensemble

Conception

Il s’agit de définir la finalité du ED :


♠ Piloter quelle activité de l’entreprise ;
♠ Déterminer et recenser les données à entreposer
♠ Définir les aspects techniques de la réalisation ;
♠ modèle de données ;
♠ démarches d’alimentation ;
♠ stratégies d’administration ;
♠ définition des espaces d’analyse ;
♠ mode de restitution…
􀂙

7
Vue d’ensemble

Construction (Travail technique.)


♠Extraction des données des différentes BD de
production (internes ou externes)
♠ Nettoyage des données, règles d’homogénéisation des
données sous formes de métadonnées.
♠ Techniques d’alimentation :
􀀸* Chargement des données dans l’ED ;
􀀸 * Fréquences de rafraîchissement :
•􀀹 par applications d’ interfaces entre les sources de données
et l’ED ;
•􀀹 par serveurs de réplication du SGBD ou par outils
spécialisés.
􀂙􀂙
8
Vue d’ensemble

􀂙 Administration

Elle est constituée de plusieurs tâches pour assurer :


♠ la qualité et la pérennité des données aux différents applicatifs ;
♠ la maintenance ;
♠ la gestion de configuration ;
♠ les mises à jour ;
♠ l’organisation, l’optimisation du SI ;
♠ la mise en sécurité du SI.
􀂙􀂙 9
Vue d’ensemble

􀂙
􀂙 Restitution

♠ C’est le but du processus d’entreposage des données.


♠ Elle conditionne le choix de l’architecture de l’ED et de
sa construction.
♠ Elle doit permettre toutes la analyses nécessaires pour
la construction des indicateurs recherchés.
􀂙􀂙

10
Vue d’ensemble

Les Magasins de données sont des entrepôts de données avec une


portée plus étroite et spécifique d'utilisation.

11
Vue d’ensemble

Entrepôt de données Versus base de données relationnelle.

OLTP : "On-Line Transactional Processing ”  

 gérer les importants volumes d'informations contenus dans


leurs systèmes opérationnels

OLAP : "On-Line Analytical Processing”

 répondent aux besoins spécifiques d’analyse


d'informations qui doit se faire de manière interactive et
rapide, pour des données quelconques et historisées

12
Vue d’ensemble

Entrepôt de données Versus base de données relationnelle.

13
Architecture des entrepôts de données

14
Modélisation multidimensionnelle

Considère le sujet analysé comme un point dans un


espace à plusieurs dimensions.

Les données sont organisées de manière à mettre en


évidence le sujet analysé et les différentes perspectives de
l'analyse

Objectif :

 produire des structures de base de données


 formuler des requêtes pour des utilisateurs finaux
 maximiser l'efficacité des requêtes

15
Modélisation multidimensionnelle

Organisation des données


 Les applications conçues pour des opérations
quotidiennes dans les BDs.
 applique en général à la création et à la mise
à jour individuelle des informations.
 Les BD vont de quelques milliers de Mo à des Go.

OLTP (On-Line Transactional Processing)

16
Modélisation multidimensionnelle

Organisation des données


 Les données sont historiées, résumées, consolidées.
 Les EDs contiennent des données sur une longue
période de temps.
 Les EDs vont de centaines de Go à des To (Téra
octets).

OLAP (On-Line Analytical Processing)

17
Modélisation multidimensionnelle

Modes de stockage des données

Il existe trois manière de stocker les données multidimensionnelle.

• MOLAP
– Multidimensionnelle OLAP (1 fichier)
• ROLAP
– Relationnelle OLAP (SGBDR)
• HOLAP
– Hybride OLAP (SGBDR + fichier)

18
Modélisation multidimensionnelle
Modes de stockage

19
Modélisation multidimensionnelle
Modes de stockage

 Les données sont transférées vers le serveur OLAP


 Les données détaillées et les agrégations sont
stockées dans le format serveur OLAP
 Processeur de requête MOLAP très performant
 MOLAP est beaucoup plus rapide
 Ne support pas un grand nombre de données
 Max qq Giga
 Max 1 million de tuple pour la table de fait

20
Modélisation multidimensionnelle
Modes de stockage

 Les données et les agrégats sont stockés dans une


base de données relationnelle
( Interrogeable avec SQL)
 Le SGBD peut recalculer les agrégats
 Temps de réponses plutôt lent
 Pas de limites de taille des données
 Aucune donnée transférée vers le serveur OLAP
 Les index sont créés automatiquement

21
Modélisation multidimensionnelle
Modes de stockage

 La solution intermédiaire
 Les “faits” (facts) sont gardés dans le SGBD/R
 Les agrégations dans le MOLAP
 Utilise le serveur OLAP comme
“accélérateur” de traitement
 Pas de duplication de données

22
Entrepôts, Magasins et Cubes de données

23
Concepts de fait et de dimension
Le fait:
• Modélise le sujet de l'analyse.
• Il est formé de mesures correspondant aux informations
de l'activité analysée.

24
Concepts de fait et de dimension
Dimension:
• Modélise une perspective de l'analyse.
• Elle se compose de paramètres correspondant aux
informations faisant varier les mesures de l'activité..

25
Schéma en étoile

26
Du modèle entité relation aux modèle dimensionnel

Conception des magasins de données basés sur un modèle


de données d'entreprise

27
Du modèle entité relation aux modèle dimensionnel
Étapes de conception

Étape 1: Classification des entités:


 Entités de Transaction;
 Entités Composantes;
 Entités de Classifications.

28
Du modèle entité relation aux modèle dimensionnel
Étapes de conception

Étape 2: Identifications hiérarchiques

Une hiérarchie organise les paramètres d'une dimension selon une


relation "est_plus_fin" conformément à leur niveau de détail  .

29
Du modèle entité relation aux modèle dimensionnel
Étapes de conception

Étape 3: Production du model dimensionnel

Opérateur 1 : La Hiérarchie d'annihilation (Collapsing ).


(Possibilité d’itérer)

30
Du modèle entité relation aux modèle dimensionnel
Étapes de conception

Opérateur 2 : l’agrégation

31
Du modèle entité relation aux modèle dimensionnel
Étapes de conception
Réduire le
nombre de
Étape 4: Évaluation et raffinement schemas en étoile

 Union de tables de Fait Réduire le


 Union de Tables de Dimension nombre de tables
de dimensions
 Relation plusieurs à beaucoup.
 Sous-types de Traitement A cause de l’arret
dans la hiérarchie
• Relation plusieurs à beaucoup.

Solution:
• Ignorer l’entité d’intersection
• Créer une relation primaire

32
Du modèle entité relation aux modèle dimensionnel
Étapes de conception

Sous-types de Traitement
• Relation super type/super type: Conversion directe

33
Option de la modélisation

Option 1 : Schéma Plat  «  Flat »

34
Option de la modélisation

Option 2: Schéma En terrasses « Terraced Schema »

35
Option de la modélisation

Option 3: le Schéma en étoile

36
Option de la modélisation

Schéma de Constellation

Schéma de Galaxie
Plus généralement, un jeu de schémas en étoile ou des
constellations peuvent être combiné ensemble pour former une
galaxie
37
Option de la modélisation

Option 3: le Schéma de Flocon de neige

38
Option de la modélisation

Complexité élevée

Schéma en Flocon de neige


Schéma regroupement en étoile
Schéma en étoile
Schéma en terrasse
Schéma plat

Redondance élevée

39
Comparaison entre les diverses méthodes

Modélisation dimensionnelle vs modélisation Entité-relation:


 Présentation des données à l’utilisateur final d’une façon simple et intuitive
 considération particulière pour le support des requêtes de haut degrés de
performance sur des tables de fait très grandes.

Schéma en étoile:
 L’utilisateur ne manipule pas des structures de dimension complexe (ER).
 Il peut utiliser le modèle dimensionnel sans avoir à apprendre comment
interpréter correctement les schémas ER.

Modélisation temporelle de données :


Problèmes de redondance car une même information est conservée plusieurs fois;
pour résoudre ce problème, le concept de stockage du différentiel (delta) a été
proposé

40
Conclusion
L'entrepôt de données est donc bien différent des bases de données de production car
les besoins pour lesquels on veut le construire sont différents.
Il contient des informations historisées, globalement cohérentes, organisées selon les
métiers de l'entreprise pour le processus de décision.
L'entrepôt n'est pas un produit ou un logiciel mais un environnement.
Il se bâtit et ne s'achète pas.
Les données sont puisées dans les bases de production, nettoyées, normalisées, puis
intégrées.
Des métadonnées décrivent les informations dans cette nouvelle base pour lever toute
ambiguïté quant à leur origine et leur signification.
Chaque approche de modélisation a sa place dans le contexte approprié
Le succès de telle ou telle approche de modélisation d’un entrepôt de données exige
que les techniques soient appliquées dans le bon contexte

« Le défi du datawarehouse, c'est le passage de l'informatique de gestion à


la gestion de l'information ». J.P. Minarro (© Informix).
41
Bibliographie
 Note de cours MGL7115 : Robert Godin
 Data Modeling Techniques for Data Warehousing
Chuck Ballard Dirk Herreman Don Schau Rhonda Bell, Eunsaeng Kim Ann
Valencic
 From Enterprise Models to Dimensional Models:A Methodology for Data
Warehouse and Data Mart Design Daniel L. Moody (Department of Information
Systems ) Mark A.R. Kortink (Simsion Bowles & Associates)
 Conceptual Design of Data Warehouses from E/R SchemesMatteo Golfarelli Dario
Rizzi Maio Stefano, Univ. of Bologna
 Êntrepôt de donnée : Guide pratique du concepteur de data warehouse : Ralph
Kimball Traduction de claude Raymond Edtion Wiley 2001
 Entepôt de données : Synthèse et analyse Edgard Ben'itez-Guerrero, Christine
Collet, Michel Adiba
 Data Warehousing and OLAP Cheung Pui Ling Pauline, Lau Wai Kay Ricky, Lee
Tak Wan Angus,Tsoi Chin Ching Lancelot and Yip Keung Frank.
 http://www.grappa.univ-lille3.fr/polys/fouille/sortie003.html#toc2

42
Questions ?

                     

        

Merci !

43