Vous êtes sur la page 1sur 9

06/03/2021

I. Introduction et définition d’un entrepôt de


données
II. Modélisation conceptuelle d'un entrepôt de
données
III. Les agrégats
Mastère Recherche Génie Logiciel IV. Architecture
Enseignant : Mariem Gzara V. Implémentation d’un entrepôt de données
Institut Supérieur d’Informatique et de Mathématique de Monastir VI. Analyse multidimensionnelle et cubes de
2020-2021
données

Modélisation multidimensionnelle
 Problématique
 Le concept de fait et le concept de dimension
 Étapes de la modélisation dimensionnelle
Schéma conceptuel d’un ED
 Schéma en étoile (star schema)
 Schéma en flocon (snowflake schema)
 Schéma en constellation (fact constellation)

3 4

1
06/03/2021

 Les analyses décisionnelles sont basées sur  considérer un sujet analysé comme un point
des traitements OLAP directement. dans un espace à plusieurs dimensions.

 La modélisation de l'information sous une  Les données organisées de manière à mettre


forme conceptuelle proche de la perception en évidence le sujet analysé et les différentes
qu'en a l'analyste. perspectives de l'analyse.

 Vision multidimensionnelle des données.

5 6

 La modélisation normalisée:  Modèle dimensionnels:


◦ La 3NF vise à supprimer les redondances dans les ◦ La différence clés avec modélisation normalisée est
données (modèle entité-relation), le degré de normalisation
◦ Ils organisent les données dans un format dont les
◦ Les traitements opérationnels de mise à jour ne objectifs de conception sont:
touchent la base de données qu’à un seul endroit  l’intelligibilité,
 la performance des requêtes
◦ Les SGBR ne peuvent pas faire des requêtes  et l’aptitude au changement
efficaces sur un modèle normalisé ◦ peuvent être représentés en diagrammes ER (tables
relationnelles jointes)
La Modélisation dimensionnelle est très différente de la
Tables de dimensions et de faits
modélisation en troisième forme normale (3NF)

7 8

2
06/03/2021

 Le terme fait est utilisé pour représenter une  Les faits les plus utiles sont des faits:
mesure économique ◦ Numériques
 Les mesures de performances sont stockées dans ◦ Additifs : les applications de l’entrepôt de données
la table de faits récupèrent presque toujours des centaines, des
 Une mesure de performance est l’intersection de milliers de lignes, millions de lignes  il est utile de
plusieurs dimensions les additionner (exemple: montant vendu en dinars)
 La liste des dimensions définit le grain de la table

Une ligne dans une table de fait correspond à une mesure.


 Les tables de faits tendent à être étroite en
Une mesure est une ligne dans une table de faits. Toutes les nombre de colonnes mais profondes en
mesures figurants dans la table de faits doivent être au même
grain.
nombre de lignes.

9 10

Table de faits des ventes journalières


Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
 Toutes les tables de faits ont deux clés étrangères ou
Mantant des ventes
 Les tables de dimension ont de nombreuses colonnes
plus ou attributs (il n’est pas rare d’avoir de 50 à 100
attributs)
 Ces clés étrangères se connectent aux clés primaires des tables de  Table de dimensions larges et peu profondes (moins
dimensions (intégrité référentielle)
qu’un million de lignes)
 La clé de la table de fait est une clé composite ou clé concaténée.  Chaque dimension est dénotée par une unique clé
primaire
 Éviter les clés nuls dans la table de faits. Une conception correcte
consiste à placer une ligne dans la table de dimension correspondante
 La qualité de l’entrepôt est directement
pour préciser que la dimension ne s’applique pas au fait mesuré proportionnelle à la qualité et à la profondeur des
attributs de dimension
Il n’est pas judicieux de prévoir une clé numéro de ligne pour servir de (montant des ventes par marques, par semaine: semaine et
clé primaire de la table de fait marques doivent être des attributs dans la table dimension)
 Les tables de dimensions sont les points d’entrée
Chaque table de faits d’un modèle dimensionnel a une clé composite et inversement,
toute table qui a une clé composite d’un modèle dimensionnel est une table de fait
dans la table de faits.

11 12

3
06/03/2021

 Des attributs de dimension nombreux permettent de  Conseil : Clés artificielles des dimensions
varier les possibilités d’analyse en tranches et en dès. ◦ L’usage des clés artificielles (clés entières, clés synthétiques, clés
sans signification) est recommandés dans les modèles
dimensionnels
 Les dimensions établissent l’interface ◦ Toutes les jointures entre des tables de dimension et des tables
homme/entrepôt de données. de faits doit se baser sur des clés entières artificielles sans
signification

 Les meilleurs attributs sont des valeurs distinctes, ◦ Clé artificielle est la même mais le code dépend des modifications
textuelles (les appellations utilisées pour les requêtes opérationnelles (les codes des comptes inactifs, des produits
obsolètes sont recyclés) !!!! L’entrepôt de données conservent les
et les états soient cohérentes), des mots véritables et données pendant des années
pas d’abréviations
◦ Les clés artificielle de la dimension date obligatoirement affectées
dans un orde séquentiel. (1er janvier 1, 2ème janvier 2, …)
 Les tables de dimension typiques sont fortement
dénormalisées (priorité à la simplicité)

13 14

Dimension date
Clé date (CP)
Date
Date description complète
Jour de la semaine
Numéro du jour dans l’époque
 Dimension date:  Dimension Date Numéro de semaine dans l’époque
◦ Les entrepôts de données ont toujours une table de Numéro de mois dans l’époque
N° jour dans le mois calendrier
dimension date explicite N° jour dans le mois calendrier
N° jour dans l’année calendrier
Indicateur dernier jour semaine
◦ Il existe de nombreux attributs de date non Indicateur dernier jour du mois
supportés par la fonction date de SQL (les périodes Date de fin de la semaine calendrier
comptables, les saisons de vente, les jours fériés, N° semaine de l’année calendrier
les jours de weekend) Nom du mois du calendrier
N° du mois de l’année du calendrier
Année mois Calendrier (AAAA-MM)
◦ Ces données doivent être intégrer dans une table Trimestre calendrier
Année-trimestre-calendrier
de dimension Semestre calendrier
Année calendaire
Indicateur de jour férié
Saison de vente
15 Évènements majeurs 16

4
06/03/2021

Dimension Produit
Clé produit (CP)
 Dimension Date  Exemples de dimension Description du produit
Numéro US (clé naturelle)
Dimension magasin Description de la marge
Clé magasin (CP) Description sous-catégorie
Nom du magasin Description de la catégorie
N° du magasin Description rayon
Zone commerciale du magasin Description type emballage
Région commerciale du magasin Taille de l’emballage
Date dernière rénovation Contenu matières grasses
Type de régime
Poids
Unités de mesure de poids
Type de stockage
Type de durée sur étagère
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
… et d’autres attributs
17 18

Caractéristiques du schéma en étoile :


Niveau conceptuel :
 schéma de BD relationnelle reflétant la vue de structure simple utilisant le modèle entité-
l'analyste : relation
◦ Multidimensionnelle ◦ une entité centrale : la table des faits :
◦ hiérarchisée
 objets de l'analyse
3 grands types de schémas :
 schéma en étoile (star schema)
 taille très importante
 schéma en flocon (snowflake schema)
 peu de champs
 schéma en constellation (fact constellation) ◦ des entités périphériques : les tables de dimensions
 dimensions de l'analyse
Remarque : le schéma en étoile est souvent  taille peu importante
utilisé pour l'implantation physique  nombreux champs

19 20

5
06/03/2021

Dimension promotion Dimension magasin


Clé promotion (CP) Clé magasin (CP)
… attributs magasin – à définir
 Un modèle en flocon : une évolution du
Attributs promotion ) à définir
schéma en étoile avec :
Faits de transactions TPV ◦ une décomposition des dimensions du modèle en
Clé date (CE)
Premier Clé produit (CE)
étoile en sous hiérarchies.
Schéma Clé magasin (CE) ◦ le fait est conservé et les dimensions sont éclatées
Dimensionnel Clé promotion (CE) conformément à sa hiérarchie des paramètres
Faits - à définir ◦ cela conduit à une normalisation des tables de
dimensions :
Dimension produit Dimension date  structure hiérarchique des dimensions
Clé produit (CP) Clé date (CP)
Attributs produit – à définir … attributs date à définir  un niveau inférieur identifie un niveau supérieur

Quels produits se vendent, dans quels magasins, quels jours, dans


quelles conditions de promotions? Modéliser les ventes au niveau des
TPV (terminaux points de vente) 21 22

Dimension Produit
Clé produit (CP)
Description du produit
Numéro US (clé naturelle)
Clé marque (CE)
 Avantage de cette modélisation : Clé type emballage (CE) Dimension marque
Contenu matières grasses Clé marque (CP)
◦ formaliser une hiérarchie au sein d'une dimension. Poids Description de la marque
◦ maintenance des tables de dimensions simplifiée Unité de mesures de poids Clé catégorie (CE)
Dimension Catégorie
Clé type de stockage (CE) Clé catégorie (CP)
◦ réduction de la redondance Largeur sur étagère Dimension Type emballage Description catégorie
 Inconvénient de cette modélisation : Hauteur sur étagère Clé type emballage (CP) Clé rayon (CE)
Profondeur sur étagère Description type emballage
◦ induit une dénormalisation des dimensions …. Et autres attributs
générant une plus grande complexité en termes de Dimension Type stockage Dimension rayon
lisibilité et de gestion. Faits de transactions TPV Clé type de stockage (CP) Clé rayon(CP)
Clé date (CE) Description type de stockage Description du rayon
◦ navigation coûteuse Clé produit (CE) Clé type durée étagère (CE)
Clé magasin (CE)
Clé promotion (CE)
Numéros TPV Dimension durée étagère
Quantité vendue Clé type durée étagère (CP)
Ventes Description type durée étagère
23 24

6
06/03/2021

Dimension Produit Dimension Produit


produit (CP) Clé produit (CP)
Description du produit Description du produit
Numéro US (clé naturelle) Numéro US (clé naturelle)
Description de la marge Clé marque (CE)
Description sous-catégorie Clé type emballage (CE) Dimension marque Un modèle en constellation :
Description de la catégorie Contenu matières grasses Clé marque (CP)
Description rayon Poids Description de la marque  fusionne plusieurs modèles en étoile qui
Description type emballage
Taille de l’emballage
Unité de mesures de poids
Clé type de stockage (CE)
Clé catégorie (CE) utilisent des dimensions communes.
Contenu matières grasses Largeur sur étagère Dimension Type emballage  comprend en conséquence plusieurs faits et
Type de régime Hauteur sur étagère Clé type emballage (CP)
Profondeur sur étagère Description type emballage des dimensions communes ou non
Unités de mesure de poids …. Et autres attributs
Type de stockage Dimension Type stockage
Type de durée sur étagère Flocon Clé type de stockage (CP)
Largeur sur étagère Éclatement des Description type de stockage
Hauteur sur étagère hiérarchies de la Clé type durée étagère (CE)
Profondeur sur étagère dimension
et d’autres attributs
Dimension durée étagère
Étoile*
Clé type durée étagère
Dénormalisée
Description type durée étagère
Hiérarchisée
26

 Normalisation de la table de faits :  La conception normalisée pour les tables de


 normalisation en Boyce-Codd Normal Form (BCNF) dimension est plus facile à mettre à jour
Rappel : une relation R est en BCNF si :
 Mais:
x y DF définie sur r , x contient une clé de R
◦ La mise à jour est souvent effectuée en revenant à des
soit : chaque attribut non clé dépend règles de normalisation
fonctionnellement de la seule clé de la relation
◦ En plus la mise à jour ne se fait que dans la zone de
 Normalisation des tables de dimensions : préparation, bien avant le chargement dans le schéma
◦ elles représentent une ou plusieurs hiérarchies
dimensionnel de la zone de préparation
◦ elles contiennent des données redondantes
◦ faut-il les normaliser ?  La normalisation des tables de dimensions
 la table des faits constitue l'essentiel du stockage produits des flocons
 pas/peu de mises à jour des dimensions
 la perte d'espace n'est donc pas significative
 Si la dénormalisation est poussée à l’extrême elle
conduit à un schéma en 3NF
! tables de dimensions : non normalisées

27 28

7
06/03/2021

 La multitudes de tables en flocon complexifie la  Table de faits d’un schéma dimensionnel est
présentation
 Les fonctions d’optimisation des SGBD perturbées par
naturellement très normalisé et compacte
la complexité du schéma en flocon  Un nombre très élevé de dimensions:
 Économie d’espace disque est insuffisante (<1% de
l’espace disque requis pour l’ensemble du schéma) ◦ Signe que certaines dimensions ne sont pas
 Réduction de la possibilité de navigation à l’intérieur
complètement indépendantes
d’une dimension (SQL d’apparence simple mais ◦ Donc il faut les combiner en une seule dimension.
difficile)
 Pas d’utilisation d’index sous forme de bitmap
(technique d’amélioration de performances) Représenter les éléments d’une hiérarchie sous
 Les tables de dimension doivent rester des tables forme de dimensions séparées dans la table de faits
physiques plates, facilité d’utilisation et meilleure est contraire aux principes de la modélisation
performance dimensionnelle

29 30

 Processus de modélisation dimensionnelle en 2. Déclarer le grain du processus:


quatre étapes: ◦ spécifier la signification d’une ligne de la table de
faits.
1. Sélectionner: ◦ Le grain représente le niveau de détail de la table
◦ le processus d’entreprise à modéliser, de faits.
◦ se focaliser sur le processus et non sur le service, ◦ Exemples:
◦ mesures de performances,  ticket d’achat d’un client, Quotidien du niveau de
stock de chaque produit dans un entrepôt, Situation
mensuelle de chaque compte client d’une banque
exemple (achat de matières premières, les commandes,
les expéditions, la facturation, la gestion de stock, la NB: à l’étape 3 ou 4, on peut remarquer que la
comptabilité générale déclaration du grains n’est pas satisfaisante alors
revenir à l’étape 2

31 32

8
06/03/2021

3. Choix des dimensions de chaque table de faits Besoins de l'activité

et détermination des attributs distincts de Les deux éléments clés contribuant aux quatre étapes
chaque table de dimension sous forme de texte du processus de modélisation dimensionnelle

« comment les gestionnaires décrivent-ils des données qui Modèle dimensionnel


résultent du processus concerné? » 1. Processus d'entreprise
Exemples de dimensions: date, client, type de 2. Grain
3. Dimensions
transaction et état. 4. Faits

4. Identifier les faits numériques « que mesurons


Données réelles
nous? » mesures de performance de l’activité
Exemple: quantité commandée, coût

33 34

Vous aimerez peut-être aussi