Vous êtes sur la page 1sur 66

INF3186

2021-2022
Université de
Yaoundé I

INF3186: Business Intelligence


Modélisation
Multidimensionnelle
(Stockage)
Avril 2022

Valéry MONTHE
valery.monthe@facsciences-uy1.cm
Bureau R114, Bloc pédagogique 1
Plan
1.Introduction
2.Limites de la modélisation E/A
3.Modélisation multidimensionnelle
1. Niveau conceptuel
2. Niveau logique
3. Niveau Physique

INF3186 || 2021-2022 Modélisation multidimensionnelle 2


Introduction
• Utilisation de concepts pour :
✓ Optimiser la restitution de la données selon les axes métiers de
l’entreprise
✓ Gérer et visualiser les données de manière rapide et intuitive
✓ Retrouver et analyser rapidement les données à partir de
diverses sources
✓ Intégrer plusieurs bases de données
✓ Grouper, organiser, corréler et transformer les données
✓ Réactivité
• Deux types de modélisations : entité-Relation et
multidimensionnelle

INF3186 || 2021-2022 Modélisation multidimensionnelle 3


Modèles de Données
Système de pilotage

Modèle de Données
Entrepôt de Décisionnel
Système d’information données MDD
décisionnel
(SID)
ETL
Systèmes d’informations

BP BP BP
Système d’information
opérationnel
(SIO) Modèle de Données
Base de Opérationnel
production MDO

Système opérant

INF3186 || 2021-2022 Modélisation multidimensionnelle 4


Limites de la modélisation E-A
• Modèle complexe
✓ Plusieurs tables et jointures mises en œuvre
• Risque de dégradation des performances
• Pas de compréhension pour l’utilisateur
• Données historiques difficilement représentées
• Contraires aux objectifs du DW

INF3186 || 2021-2022 Modélisation multidimensionnelle 5


Niveaux d’abstraction

Sources : F. Ravat, UT1


INF3186 || 2021-2022 Modélisation multidimensionnelle 6
Plan du chapitre
1.Introduction
2.Limites de la modélisation E/A
3.Modélisation multidimensionnelle
1. Niveau conceptuel
2. Niveau logique
3. Niveau Physique

INF3186 || 2021-2022 Modélisation multidimensionnelle 7


Niveau conceptuel
• Description de la base multidimensionnelle
indépendamment des choix d’implantation
• Les concepts :
• Dimension et hiérarchies
• Faits et mesures

INF3186 || 2021-2022 Modélisation multidimensionnelle 8


Concepts de base
Dimension(1)
❑ Axes d’analyse avec lesquels on veut faire l’analyse
• Géographique, temporel, produits, etc.
❑ Chaque dimension comporte un ou plusieurs
attributs/membres
❑ Une dimension est tout ce qu’on utilisera pour faire nos
analyses
❑ Chaque membre de la dimension a des caractéristiques
propres et est en général textuel
❑ Remarque importante :
• Tables de dimension << table de fait

INF3186 || 2021-2022 Modélisation multidimensionnelle 9


Concepts de base
Dimension(2)

Remarque : Une clé de substitution identifie de manière unique


chaque entité de la table de dimensions, quelle que soit sa clé
source naturelle.
INF3186 || 2021-2022 Modélisation multidimensionnelle 10
Concepts de base
Hiérarchie (1)
❑ Les attributs/membres d’une dimension sont organisés
suivant des hiérarchies
• Chaque membre appartient à un niveau hiérarchique (ou niveau
de granularité) particulier
• Exemples :
• Dimension temporelle : jour, mois, année
• Dimension géographique : magasin, ville, région, pays
• Dimension produit : produit, catégorie, marque, etc.

❑ Les attributs définissant les niveaux de granularités sont


appelés paramètres
❑ Les attributs informationnels liés à un paramètre sont dits
attributs faibles
INF3186 || 2021-2022 Modélisation multidimensionnelle 11
Concepts de base
Hiérarchie (2)

INF3186 || 2021-2022 Modélisation multidimensionnelle 12


Concepts de base
Hiérarchie (3)
❑ Hiérarchies multiples dans une dimension
▪ (Plusieurs hiérarchie alternatives pour une même dimension)

INF3186 || 2021-2022 Modélisation multidimensionnelle 13


Concepts de base
Granularité
❑ Niveau de détail de représentation
• Journée > heure du jour
• Magasin > rayonnage

❑ Choix de la granularité

INF3186 || 2021-2022 Modélisation multidimensionnelle 14


Concepts de base
Fait (1)
❑ Sujet analysé
❑ Un ensemble d’attributs appelés mesures
(informations opérationnelles)
▪ Les ventes(chiffre d'affaire, quantités et montants
commandés, volumes des ventes, ...)
▪ les stocks (nombre d'exemplaires d'un produit en stock, ...),
▪ les ressources humaines (nombre de demandes de congés,
nombre de démissions, …).
❑ Un fait représente la valeur d’une mesure, calculée ou
mesurée, selon un membre de chacune des
dimensions

INF3186 || 2021-2022 Modélisation multidimensionnelle 15


Concepts de base
Fait (2)
❑ Un fait est tout ce qu'on voudra analyser.
▪ Exemple : 250 000 FCFA est un fait qui exprime la valeur de la
mesure Coût des travaux pour le membre 2002 du niveau Année
de la dimension Temps et le membre Versailles du niveau Ville de
la dimension Découpage administratif.
❑ La table de fait :
▪ Contient les valeurs des mesures et les clés vers les tables de
dimensions -> traduit une relation (n,m) entre les dimensions
▪ Clé composite référençant des clés primaires des tables de
dimensions
▪ A en général plusieurs lignes et peu de colonnes

INF3186 || 2021-2022 Modélisation multidimensionnelle 16


Concepts de base
Fait (3)

❑ Exemple :
▪ Fait : Montant des ventes, chaque jour pour chaque produit
dans chaque magasin

INF3186 || 2021-2022 Modélisation multidimensionnelle 17


Concepts de base
Fait (4)
❑ Exemple :
▪ Requête : Quels sont les frais de déplacement et le
kilométrage des commerciaux de la région nord ayant des
véhicules de 10 à 14 CV en avril 2018?

INF3186 || 2021-2022 Modélisation multidimensionnelle 18


Concepts de base
Fait (5)
❑ Exemple :
▪ Requête : Quels ont été les revenus sur les ventes de la 33
dans la région du centre durant l’année 2017?

INF3186 || 2021-2022 Modélisation multidimensionnelle 19


Concepts de base
Mesure
❑ Elément de données sur lequel portent les analyses, en fonction
des différentes dimensions
❑ Ces valeurs sont le résultat d’opérations d’agrégation sur les
données.
❑ Exemple :
▪ Coût des travaux
▪ Nombre d’accidents
▪ Chiffre d’affaire
▪ ….

INF3186 || 2021-2022 Modélisation multidimensionnelle 20


Concepts de base
Clés
❑Tables de dimension
▪ Clé primaire
❑Table de fait
▪ Clé composée
▪ Clés étrangères des tables de dimension

INF3186 || 2021-2022 Modélisation multidimensionnelle 21


Modélisation conceptuelle
Il existe 3 modèles de modélisation :
❑Modèle en étoile
❑Modèle en flocon de neige
❑Modèle en constellation

INF3186 || 2021-2022 Modélisation multidimensionnelle 22


Modélisation conceptuelle
Modèle en étoile(1)
❑ Une table centrale : la table de faits
▪ Objets de l’analyse
▪ Taille très importante
▪ Nombreux champs
❑ Des table de périphériques : les tables de dimensions
▪ Dimensions de l’analyse
▪ Taille peu importante
▪ Peu de champs
❑ Les dimensions n’ont pas de liaisons entre elles

INF3186 || 2021-2022 Modélisation multidimensionnelle 23


Modélisation conceptuelle
Modèle en étoile(2)
❑ Avantages :
▪ Structure simple
▪ Facilité de navigation
▪ Nombre de jointures limité: donc plus performantes
❑ Inconvénients :
▪ Redondance dans les dimensions
▪ Toutes les dimensions ne concernent pas les mesures

INF3186 || 2021-2022 Modélisation multidimensionnelle 24


Modélisation conceptuelle
Modèle en étoile(3)
❑ Représentation graphique

INF3186 || 2021-2022 Modélisation multidimensionnelle 25


Modélisation conceptuelle
Modèle en étoile(4)

INF3186 || 2021-2022 Modélisation multidimensionnelle 26


Modélisation conceptuelle
Modèle en flocon de neige(1)
❑ Une évolution du schéma en étoile
❑ Dérivé du modèle en étoile où les tables de dimensions sont
normalisées
▪ La table de faits reste inchangée
❑ Chacune des dimensions décomposée selon sa(ou ses)
hiérarchie(s)
❑ Le fait est conservé et les dimensions sont éclatées
conformément à sa hiérarchie de paramètres
❑ Cela conduit à une normalisation des tables de dimensions:
▪ Structure hiérarchique des dimension
▪ Un niveau inférieur identifie un niveau supérieur
❑ Utilisé lorsque les tables sont très volumineuses

INF3186 || 2021-2022 Modélisation multidimensionnelle 27


Modélisation conceptuelle
Modèle en flocon de neige(2)
❑ Avantages :
▪ Réduction du volume
▪ Réduction de la redondance
▪ Permettre des analyses par palier sur la dimension
hiérarchisée
▪ Maintenance des tables de dimensions simplifiée
❑ Inconvénients:
▪ Navigation difficile
▪ Nombreuses jointures
▪ Requêtes moins performantes

INF3186 || 2021-2022 Modélisation multidimensionnelle 28


Modélisation conceptuelle
Modèle en flocon de neige(3)
❑ Exemple :

INF3186 || 2021-2022 Modélisation multidimensionnelle 29


Modélisation conceptuelle
Modèle en flocon de neige(3)
❑ Exemple :

INF3186 || 2021-2022 Modélisation multidimensionnelle 30


Modélisation conceptuelle
Modèle en flocon de neige(3)
❑ Exemple :

INF3186 || 2021-2022 Modélisation multidimensionnelle 31


Modélisation conceptuelle
Modèle en constellation(1)
❑ Une série d’étoiles
▪ Fusion de plusieurs modèles en étoile qui utilisent des
dimensions communes
▪ Plusieurs tables de fait et tables de dimensions,
communes ou non.

INF3186 || 2021-2022 Modélisation multidimensionnelle 32


Modélisation conceptuelle
Modèle en constellation(2)
❑ Exemple : vente de médicaments dans une pharmacie

❑ Une constellation de 2 schémas en étoile :


▪ L’un analyse les ventes
▪ L’autre les prescriptions des médecins
❑ Les dimensions Temps et Géographie sont partagées
INF3186 || 2021-2022 Modélisation multidimensionnelle 33
Modélisation conceptuelle
Modèle en constellation(3)

INF3186 || 2021-2022 Modélisation multidimensionnelle 34


Identification des dimensions
▪ Formalisme
P1 P2 P3
Dimension

Paramètre 1er niveau Paramètre


initial hiérarchique final

▪ Exemple

Etudiant

Matricule codeDep codeReg


nom nom nom

INF3186 || 2021-2022 Modélisation multidimensionnelle 35


Définition du schéma : Démarche
▪ Etape 1 : Définition de la structure du schéma
• Identification du ou des faits
• Identification des dimensions avec le niveau de granularité le plus bas

INF3186 || 2021-2022 Modélisation multidimensionnelle 36


Définition du schéma : Démarche
▪ Etape 2 : Définition détaillée du fait => dictionnaire des
mesures

Etape 3 : Définition détaillée des dimensions => dictionnaire


des attributs

INF3186 || 2021-2022 Modélisation multidimensionnelle 37


Définition du schéma : Démarche
▪ Etape 4 : Définition des hiérarchie (avec cardinalités)
• Connaissances métier : règles de gestion…

Sources : F. Ravat, UT1

INF3186 || 2021-2022 Modélisation multidimensionnelle 38


Définition du schéma : Démarche
▪ Etape 4 : Définition des hiérarchie (suite)
• Analyse du schéma de la BD source (ED ou BD de production)

Sources : F. Ravat, UT1


INF3186 || 2021-2022 Modélisation multidimensionnelle 39
Définition du schéma : Démarche
▪ Etape 4 : Définition des hiérarchie (suite)
• Analyse des valeurs de la BD source (ED ou BD de production)

Sources : F. Ravat, UT1


INF3186 || 2021-2022 Modélisation multidimensionnelle 40
Définition du schéma : Démarche
▪ Etape 5 : Définition complète du schéma conceptuel
• Analyse des valeurs de la BD source (ED ou BD de production)

Sources : F. Ravat, UT1


INF3186 || 2021-2022 Modélisation multidimensionnelle 41
Plan
1.Introduction
2.Limites de la modélisation E/A
3.Modélisation multidimensionnelle
1. Niveau conceptuel
2. Niveau logique
3. Niveau Physique

INF3186 || 2021-2022 Modélisation multidimensionnelle 42


Modélisation logique
Description de la base multidimensionnelle suivant la
technologie utilisée:
▪ ROLAP (Relationnal-OLAP)
• Tables pour faits et dimensions

▪ MOLAP (Multidimensional-OLAP)
• Un fichier contenant des matrices à plusieurs
dimensions

▪ HOLAP (Hybrid-OLAP)
• Tables pour les données détaillées et fichiers pour
les données agrégées
INF3186 || 2021-2022 Modélisation multidimensionnelle 43
Modélisation logique
ROLAP (1)
▪ Les données sont stockées dans une BD relationnelle
▪ Données obtenues à partir des tables relationnelles
et de jointures entre celles-ci.
▪ Requêtes complexes en fonction de la granularité
▪ Un moteur OLAP permet de simuler le
comportement d’un SGBD multidimensionnel
▪ Requête recalculée à chaque consultation
▪ Langage : SQL

INF3186 || 2021-2022 Modélisation multidimensionnelle 44


Modélisation logique
ROLAP (2)
▪ Avantages :
• Facile à mettre en place
• Peu couteux
• Evolution facile
• Stockage de gros volumes
▪ Inconvénients :
• Moins performant lors des phases de calculs
• Temps de réponse long car sollicitation de la base à chaque
relance d’un rapport
▪ Exemple de moteur ROLAP : Mondrian

INF3186 || 2021-2022 Modélisation multidimensionnelle 45


Modélisation logique
ROLAP (3)

INF3186 || 2021-2022 Modélisation multidimensionnelle 46


Modélisation logique
ROLAP (4)
▪ Principe : Faits et dimensions modélisés au travers
de tables [Kimball 96]
▪ Règles de transformation (données détaillées)
▪ R1 : Toute dimension est transformée en une relation où :
• Attributs = tous les paramètres et attributs faibles
• Clé primaire = paramètre de plus bas niveau
▪ R2 : Tout fait est transformé en une relation où:
• Clé primaire =
✓ Concaténation des clés étrangères référençant les
dimensions
Ou
✓ Clé synthétique
• Attributs = mesures + clés étrangères
INF3186 || 2021-2022 Modélisation multidimensionnelle 47
Modélisation logique
MOLAP (1)
▪ Les données sont stockées comme des matrices à
plusieurs dimensions : Cube[1:m,1:n,1:p] (mesure)
▪ Données stockées dans une base de données
multidimensionnelle appelée CUBE
▪ Pas de relationnel
▪ Tous les croisements possibles sont pré-calculés
▪ Langage : MDX (Multi Dimensional eXpression)
▪ Accès direct aux données dans le cube

INF3186 || 2021-2022 Modélisation multidimensionnelle 48


Modélisation logique
MOLAP (2)
▪ Avantage :
• Rapidité
• Temps de réponse très court : toutes les données et résultats
sont stockées
▪ Inconvénients :
• Difficile à mettre en place
• Formats souvent propriétaires et coût élevé des licences
• Ne supporte pas de très gros volumes de données
▪ Exemple de moteurs MOLAP:
• Microsoft Analysis Services
• Hyperion

INF3186 || 2021-2022 Modélisation multidimensionnelle 49


Modélisation logique
MOLAP (3)

INF3186 || 2021-2022 Modélisation multidimensionnelle 50


Modélisation logique
HOLAP (1)
▪ Solution hybride entre ROLAP et MOLAP
▪ Données de base stockées dans un SGBD relationnel (tables
de faits et de dimensions) + données agrégées stockées dans
un cube
• Accès aux données agrégées avec MOLAP(Cube)
• Accès aux détails avec ROLAP (tables relationnelles)
▪ Avantages
• Temps de réponse assez courts
• Moins couteux que MOLAP
• Bon compromis au niveau des coûts et des performances (les
requêtes vont chercher les données dans les tables et le cube)
▪ Inconvénients :
• Ne pourra pas être utilisé si les rapports sont trop complexes et font
trop de croisements de données.
INF3186 || 2021-2022 Modélisation multidimensionnelle 51
Modélisation logique
HOLAP (2)

INF3186 || 2021-2022 Modélisation multidimensionnelle 52


Synthèse

Source : E. Negre, U Paris Dauphine

INF3186 || 2021-2022 Modélisation multidimensionnelle 53


Réalisation d’un DW
▪ Evolution des données et des sources
• Démarche itérative

▪ 3 techniques :
✓ Top – down [Inmon]
✓ Bottom-up [Kimball]
✓ Middle - out

INF3186 || 2021-2022 Modélisation multidimensionnelle 54


Réalisation d’un DW
Top-Down
▪ Concevoir tout l’entrepôt intégralement
• Il faut donc connaître à l’avance toutes les dimensions et tous les faits.
▪ Objectif : Livrer une solution technologiquement saine basée sur
des méthodes et technologies éprouvées des bases de données.
▪ Avantages :
• Offrir une architecture intégrée : méthode complète
• Réutilisation des données
• Pas de redondances
• Vision claire et conceptuelle des données de l’entreprise et du travail à
réaliser
• Inconvénients :
• Méthode lourde
• Méthode contraignante
• Nécessite du temps

INF3186 || 2021-2022 Modélisation multidimensionnelle 55


Réalisation d’un DW
Bottom-Up (approche inverse)
▪ Créer les datamarts un par un puis les regrouper par des niveaux
intermédiaires jusqu'à obtention d'un véritable entrepôt.
▪ Objectif : Livrer une solution permettant aux usager d’obtenir
facilement et rapidement des réponses à leurs requêtes d’analyse
▪ Avantages :
• Simple à réaliser
• Résultats rapides
• Efficace à court terme
• Inconvénients :
• Pas efficace à long terme
• Le volume de travail d’intégration pour obtenir un entrepôt de données
• Risque de redondances (car réalisations indépendantes)

INF3186 || 2021-2022 Modélisation multidimensionnelle 56


Réalisation d’un DW
Middle-Out(approche hybride)
▪ Concevoir intégralement l’entrepôt de données (toutes les
dimensions, tous les faits, toutes les relations), puis créer des
divisions plus petites et plus gérables.
▪ Avantages :
• Prendre le meilleurs des 2 approches
• Développement d’un modèle de données d’entreprise de manière itérative
• Développement d’une infrastructure lourde qu’en cas de nécessité
• Inconvénients :
• Implique, parfois, des compromis de découpage (dupliquer des dimensions
identiques pour des besoins pratiques)

INF3186 || 2021-2022 Modélisation multidimensionnelle 57


Réalisation d’un DW : Etapes
5 étapes importantes pour la réalisation d’un
DW
▪ Conception
▪ Acquisition des données
▪ Définition des aspects techniques de la
réalisation
▪ Définition des modèles de restitution
▪ Stratégies d’administration, évolution,
maintenance

INF3186 || 2021-2022 Modélisation multidimensionnelle 58


Réalisation d’un DW
1- Conception
▪ Définir la finalité du DW :
o Quelle activité de l’entreprise faut-il piloter?
o Quel est le processus de l’entreprise à modéliser?
o Qui sont les décideurs?
o Quels sont les faits numériques?
▪ Qu’est ce qui va être mesurer?
o Quelles sont les dimensions?
▪ Comment les gestionnaires décrivent-ils des données qui résultent du
processus concerné?
▪ Définir le modèle de données :
o Modèle en étoile/flocon/constellation?
o Et/ou cube?
INF3186 || 2021-2022 Modélisation multidimensionnelle 59
Réalisation d’un DW
2- Acquisition des données
▪ Pour l’alimentation ou la mise à jour de l’entrepôt
o Mise à jour régulière

Besoin d’un outil pour automatiser les chargements de


l’entrepôt : ETL (Extract, Transform, Load)

INF3186 || 2021-2022 Modélisation multidimensionnelle 60


Réalisation d’un DW
3- Aspects techniques
▪ Contraintes
o Logicielles,
o Matérielles,
o Humaines,
o …..

INF3186 || 2021-2022 Modélisation multidimensionnelle 61


Réalisation d’un DW
4- Restitution
▪ But du processus d’entreposage,
▪ Conditionne souvent le choix de l’architecture et
de la construction du DW
▪ Toutes les analyses nécessaires doivent être
réalisables!

▪ Types d’outils de restitution :


o Requêteurs et outils d’analyse
o Outils de data mining

INF3186 || 2021-2022 Modélisation multidimensionnelle 62


Réalisation d’un DW
5- Administration, maintenance

▪ Toutes les stratégies à mettre en place pour


l’administration, l’évolution et la maintenance
o Ex : fréquences des rafraichissements(global
ou plus fin?)

INF3186 || 2021-2022 Modélisation multidimensionnelle 63


Représentation et manipulation de
cube

INF3186 || 2021-2022 Modélisation multidimensionnelle 64


Exercice d’application
On considère un entrepôt de données permettant d’observer les ventes de
produits d’une entreprise. Le schéma des tables est le suivant :
CLIENT (id-client, région, ville, pays, département)
PRODUIT (id-prod, catégorie, coût-unitaire, fournisseur, prix-unitaire, nom-prod)
TEMPS (id-tps, mois, nom-mois, trimestre, année)
VENTE (id-prod, id-tps, id-client, date-expédition, prix-de-vente, frais-de-livraison)

Questions
1.Indiquer quelles sont la (les) table(s) de fait et les tables de dimension de
cet entrepôt.
2.Donner pour chaque dimension, sa (multi-) hiérarchie.
3.Donner la représentation du schéma en étoile de l’entrepôt.
4.On veut transformer ce schéma en schéma en flocon. Donner la nouvelle
représentation de la table TEMPS (ajouter des paramètres / attributs, si
nécessaire)

INF3186 || 2021-2022 Modélisation multidimensionnelle 65


Bibliographie et ressources
Ouvrages recommandés
1. Golfarelli M., Rizzi S., « Data Warehouse Design:Modern Principles and
Methodologies », McGrawHill, 2009.
2. Kimball R., Ross, M., « Entrepôts de données:guide pratique de
modélisation dimensionnelle », 2°édition, Ed. Vuibert, 2003, ISBN:2-
7117-4811-1.
3. Franco J-M., « Le Data Warehouse ». Ed. Eyrolles, Paris, 1997. ISBN 2-212-
08956-2.
4. OLAP Solutions:Building Multidimensional Information Systems, E.
Thomsen
Notes de cours et autres références
1. Elsa NEGRE, Univ Paris-Duaphine, Entrepôts de données
2. F. Boufares, LIPN, Université Paris Nord
3. P. Marcel, LI, Universitéde Tours
4. Bernard Espinasse, Ecole Polytechnique Universitaire de Marseille
5. T. Hamon, Institut Galilée –Université Paris 13
INF3186 || 2021-2022 Modélisation multidimensionnelle 25/04/2022 66

Vous aimerez peut-être aussi