Vous êtes sur la page 1sur 32

COURS D’INFORMATIQUE DÉCISIONNELLE /

BUSINESS INTELLIGENCE

MODULE 2 : MODELISATION MULTIDIMENSIONNELLE

Ecole Supérieure d’Informatique


Salama (ESIS Salama)

A, : MASANGU KABOBA Axel Larry

Date de création : 21 juin 2023

Mise à jour : 21 juin 2023

Version : 1.0
PLAN DU COURS
Module 2 : Modélisation multidimensionnelle

1. Approche de conception
1.1. Introduction
1.2. Méthode GIMSI
1.3. Méthode Ralph Kimball et Marguy Ross
2. Concepts fondamentaux de la modélisation multidimensionnelle
2.1. La Granularité
2.2. Le Fait
2.3. Les différents types de clefs
2.4. Dimension dégénérée
2.5. Dimension conforme
2.6. Architecture en bus
3. Approche Microsoft de conception
4. Quelques exemples
1. Approche de conception
1.1. Introduction

Il existe plusieurs approches de conception dans la modélisation


multidimensionnelle :

• Méthode GIMSI,
• Méthode « historiques », SOCRIDE : invoquer en équipe, Balanced
Scorecard (BSC) ou tableau de bord prospectif,
• Méthode Ralph Kimball et Marguy Ross. Parmi les principaux, nous
aborderons la méthode GIMSI et la méthode Ralph Kimball
1.2. Méthode GIMSI
1.2.1. Définition

Gimsi est une méthode de conception du système de pilotage à base


de tableaux de bord, centrée sur les femmes et les hommes, tous décideurs
confrontés au risque et à la complexité.

La méthode ne se limite pas à la réalisation des tableaux de bord mais couvre


la totalité de la conception du système décisionnel de l'entreprise

1.2.2. Tableau de bord

L’information est devenue le nerf stratégique dans les entreprises, avoir


l’information à temps et au moment opportun est indispensable pour garder
sa place sur un marché hostile et rester concurrent.

Le tableau de bord est un moyen stratégique qui permet au manager d’avoir


une visibilité sur l’activité de son entreprise sur le long et moyen terme. Et ceci
en fournissant les informations les plus pertinentes à la prise de décisions.

Le manager conduit son système selon des objectifs fixés, soumis à des
contraintes, puis il prend des décisions, les ajuste selon les informations remises
par le Tableau de bord.

Le tableau de bord a une grande utilité c’est à dire :


1. Il assure une vision cohérente par rapport aux objectifs
2. Il permet de Mesurer les performances et anticiper les faits
3. Il signale les dysfonctionnements
4. Il assure la Simulation
5. C’est une référence commune aux équipes
6. Il encourage et favorise la communication
7. C’est un outil personnel selon le rôle et le profil de la personne qui va
l’utiliser.

Selon les travaux de G. Miller, un homme ne peut percevoir à la fois, plus de 7


(± 2) informations. La mémoire immédiate ne peut enregistrer que de 5 à 9 «
chunks », selon le terme choisi par Miller. Un chunk est un élément riche en sens.
C’est pourquoi, on préconise de mettre de 7 (+2) Indicateurs (KPI) dans un
tableau de bord.

Le tableau de bord est le dernier outil dans la chaine BI, c’est l’élément de
restitution qui peut être conçu selon plusieurs méthodes parmi elles la méthode
GIMSI [2008] d’Alain FERNANDEZ.

1.2.3. Démarche

La méthode GIMSI stipule une démarche en 4 phases comprenant 10 étapes


au total pour concevoir le système décisionnel de l'entreprise pro-active. Voici
les 4 phases : Identification : le contexte et les axes stratégiques ; Conception :
que faut-il faire ? ; Mise en oeuvre : comment le faire ? ; Suivi dans la durée.

Identification

Quel est le contexte ?

Réalité de l'environnement concurrentiel, forces et faiblesses de


l'organisation, identification concrète des axes stratégiques et des points
d'intervention.

Étape 1 : Environnement de l'entreprise


Analyse de l'environnement économique et de la stratégie de
l'entreprise afin de définir le périmètre et la portée du projet

L’entreprise est analysée en termes de :

1. Marché : quels sont sa clientèle, sa concurrence, son environnement, ses


produits, ses fournisseurs et partenaires… ?
2. Ressources : quelle est sa capacité à intégrer des solutions de haute
technologie ?
3. Management : quel type de management pratique-t-elle et délègue-t-
elle les pouvoirs ?
4. Culture : quels sont les impacts de la culture d’entreprise sur ses structures
?
5. Stratégie : comment se positionne-t-elle sur l’échiquier et comment
envisage-t-elle son devenir ?

En résultat seront identifiés :

1. La portée du projet.
2. Le niveau d’engagement de la direction.
3. Une première appréciation de la difficulté.
4. Une première appréciation du degré de coopération potentielle.

Étape 2 : Identification de l'entreprise

Analyse des structures de l'entreprise pour identifier les processus, activités et


acteurs concernés

L’entreprise est analysée en termes de :

1. Métiers : quels sont les métiers pratiqués par l’entreprise ?


2. Processus : identification des processus concernés par le projet, mise en
évidence des points d’interface sensibles.
3. Activités : identification de l’ensemble des activités de tous les processus
sélectionnés.

En résultat, seront identifiés :

1. Les processus et les activités critiques.


2. Les hommes concernés sur le terrain par le projet.
3. Constitution des groupes de travail.

Figure 1 : Analyse du contexte de l'entreprise.

Conception

Que faut-il faire ?

Une démarche centrée sur le décideur de terrain en situation, point central du


processus de décision et par conséquent du système de pilotage de la
performance.

Étape 3 : Définition des objectifs

Sélection des objectifs tactiques de chaque équipe en fonction de la stratégie


générale.
Chaque objectif sera caractérisé et évalué avant d’être sélectionné selon les
6 critères suivants :

1. Borné : l’objectif est limité dans le temps.


2. Mesurable : définition d’une métrique.
3. Accessible : quels moyens, quelles contraintes, quels risques.
4. Réaliste : quelle méthode d’accès.
5. Fédérateur : adhésion globale.
6. Constructif : contribue aux objectifs globaux.

Étape 4 : Construction du tableau de bord

Définition du tableau de bord de chaque équipe.

Au cours de cette deuxième étape de conception, le tableau de bord est


défini.

Rôle et fonctions du tableau de bord :

• Le tableau de bord assure une perception cohérente de la mesure


de la performance.
• Le tableau de bord ne comporte qu’un nombre d’indicateurs limité:
7±2 indicateurs sont suffisants.
• Le tableau de bord ne comporte que des indicateurs porteurs d’un
sens précis pour son utilisateur.
• Le tableau de bord est un instrument personnel et un outil de
communication.
• Le tableau de bord est intrinsèquement cohérent.

Étape 5 : Choix des indicateurs

Choix des indicateurs en fonction des objectifs choisis, du contexte et des


acteurs concernés.

Chaque indicateur sera caractérisé et évalué avant d’être sélectionné selon


les 5 critères suivants :
• Temps réel: il est rafraîchi suffisamment fréquemment afin de
permettre la prise de décision dans les meilleures conditions.
• Mesure un ou plusieurs objectifs: il mesure la performance selon un ou
plusieurs objectifs.
• Induit l’action: selon l’information portée, il déclenche une ou
plusieurs actions.
• Constructible: c’est le résultat de l’étape suivante.
• Présentable sur le poste de travail: il est « ergonomiquement »
présentable sur le poste de travail de manière à ce que l’information
et le sens porté soient compris le mieux possible.

En résultat, chaque groupe de travail dispose de ses indicateurs pertinents en


fonction de ses objectifs de progrès.

Étape 6 : Collecte des informations

Identification des informations nécessaires à la construction des indicateurs.

Les informations utilisées pour construire les indicateurs sont sélectionnées en


fonction des critères suivants :

◗ Accessible techniquement:

· L’information est disponible physiquement : elle est accessible au sein de


l’infrastructure existante.

· L’information est disponible logiquement : elle est nettoyée, vérifiée et


consolidée.

◗ Disponible « politiquement »: l’acteur produisant ou utilisant habituellement


cette information est prêt à en faire partager les règles d’usage.

◗ Pérenne: elle ne disparaîtra pas sans prévenir.


◗ Degré de confiance: les utilisateurs ont foi en cette information.

◗ Coût: on connaît le coût d’obtention de l’information.

◗ Simplicité de la règle de construction.

En résultat : la liste des informations utilisées pour bâtir les indicateurs.

Étape 7 : Le système de tableau de bord

Construction du système de tableau de bord, contrôle de la cohérence


globale.

Être autonome, ce n’est pas être isolé. Les décideurs partagent et


communiquent, notamment en utilisant des systèmes de messagerie et de
groupware. Ils échangent des informations construites et analysées.

C’est ainsi que chacun enrichit sa compréhension des problèmes. Cette


approche est grandement préférable aux techniques habituelles de reporting
et de consolidation successives qui, au contraire, appauvrissent l’information.
Ces échanges de connaissances se déroulent autant dans le sens horizontal
que vertical.

Une fois le système en activité, pour éviter les dérives et garantir la cohérence
globale avec la stratégie déployée, la direction pourra périodiquement
procéder à des audits dans des conditions clairement définies et acceptées.

Mise en oeuvre

Comment le faire ?

La technologie est au service des utilisateurs de terrain.

Étape 8 : Le choix des progiciels

Élaboration de la grille de sélection pour le choix des progiciels adéquats.

Le système décisionnel se compose des 3 principaux éléments :


◗ La collecte avec notamment les outils d’ETL et les datawarehouse,
datamart.

◗ Le déploiement avec les portails et l’Internet/Intranet.

◗ L’exploitation avec les outils de présentation et d’analyse (OLAP).

Pour sélectionner le produit de présentation adéquat, il est important de


commencer par identifier les critères de choix propres à l’entreprise et à son
besoin. Les produits seront confrontés et comparés sous l’éclairage de cette
grille :

• Le support technique : Pour des produits aussi complexes que les


chaînes décisionnelles, il est recommandé de s’assurer de la qualité
du support dans le pays d’installation et de ne pas limiter la grille de
sélection aux seuls facteurs traitant de la richesse fonctionnelle.
• La souplesse de configuration : Le système décisionnel ne restera pas
figé. Parmi les principaux critères de choix, il sera bon de privilégier les
outils souples et aisément configurables par un non-spécialiste de
l’informatique. Sa liberté d’action en dépend.
• Le coût des licences : Le coût net des licences ne représente pas
toujours la part la plus significative du budget projet. Lorsque les
différences de coûts des licences ne sont pas trop disproportionnées,
il est préférable de ne pas leurs accorder une trop grande
importance et de considérer le projet globalement en intégrant les
coûts annexes.

Étape 9 : Intégration et déploiement

Implantation des progiciels, déploiement à l'entreprise.

Il est bon de tenir compte :


• Des contraintes propres aux produits choisis: formation, adaptations
techniques, configuration et personnalisation des outils…;
• Des contraintes propres à l’entreprise: processus, infrastructure
existante sur le plan physique et logique… ;
• du coût total: en n’oubliant pas l’ensemble des coûts accessoires ;
• de la durée: il est préférable de répéter plusieurs projets courts que
de se lancer dans un projet global.

Amélioration permanente

Le système correspond-il toujours aux attentes ?

Étape 10 : Audit

Suivi permanent du système.

L’audit a pour objet d’analyser la pertinence du système installé et de définir


les actions nécessaires pour l’améliorer. Il comporte 4 opérations principales :

• Identification des axes d’amélioration : réalisée en fonction des


attentes de l’entreprise.
• Interview et collecte des avis : le point de vue valorisé des utilisateurs
pour chaque axe.
• Analyse des résultats : repérage des axes devant être améliorés.
• Définitions des actions d’amélioration.
1.3. Méthode Ralph Kimball et Marguy Ross

Ce point traite des concepts suivants :

• Les 4 étapes de la conception des modèles dimensionnels


• Tables de faits au niveau transaction
• Faits additifs et faits non additifs
• Exemples d’attributs de tables de dimension
• Dimension causales telles que les promotions
• Dimensions degenerées, telles que le numéro de ticket de
transaction ;
• Extension d’un modèle multidimensionnel existant ;
• Attributs de dimension en flocons de neige ;
• Comment éviter le piège « trop de dimension » ;
• Clés artificielles
• Analyse du panier d’achat
1.3.1. Processus de modélisation dimensionnelle en quatre étapes

Etape 1 : Sélectionner le processus d’entreprise à modéliser

Un processus d’entreprise est une activité normale de votre organisation,


généralement assistée par un système source collectant des informations.
Ecouter les utilisateurs est le moyen le plus efficace pour faire cette sélection.
Les mesures de performance qu’ils veulent instamment pouvoir analyser avec
l’entrepôt de données sont le résultat de mesures enregistrées au cours du
processus d’entreprise. Des exemples sont les achats de matières premières, les
commandes, les expéditions, la facturation, la gestion de stock et la
comptabilité générale.

Rappelons que nous ne nous referons pas à un service ou une fonction d’une
organisation quand nous parlons d’un processus d’entreprise. Par exemple,
nous construisons un seul modèle dimensionnel pour les commandes des clients
au lieu de construire des modèles distincts pour les services vente et marketing
qui veulent l’un et l’autre accéder aux données de vente.

Modèle basé sur les services à beaucoup de duplication

Tandis que le modèle à base de processus donne plus de cohérence dans


l’organisation.

La meilleure façon d’assurer la cohérence est de publier les données une seule
fois. Un unique traitement de publication réduit l’effort de développement lié
à l’activité ETC ainsi que la gestion courante des données et la consommation
d’espace disque.

Etape 2 : Déclarer le grain du processus


Déclarer le grain veut dire spécifier exactement ce que représente une ligne
individuelle de table de faits. Le grain représente le niveau de détail des
mesures de la table de faits. Il répond à la question « Comment décrivez-vous
une ligne unique de la table de faits ? »

Voici des exemples de déclarations de grain :

- Une ligne individuelle sur le ticket d’achat d’un client, enregistrée par un
dispositif de saisie électronique.
- Une ligne de prestation de la note d’honoraires d’un médecin ;
- Un instantané quotidien du niveau de stock de chaque produit dans un
entrepôt ;
- Un instantané mensuel de la situation de chaque compte d’une
banque.

Les équipes d’entrepôt de données tentent souvent de sauter cette étape qui
leur paraît inutile. N’en faites surtout pas autant Il est extrêmement important
que tous les membres de l’équipe de conception soient d’accord sur la
granularité des tables de faits. Il est pratiquement impossible d’aller au bout de
l’étape 3 sans avoir déclaré le grain. Nous vous avertissons qu’une déclaration
de grain inadéquate vous hantera tout au long de la réalisation de l’entrepôt
de données.

Etape 3 : Choisir les dimensions qui s’appliquent à chaque ligne de la table de


faits.

Les dimensions résultent de la question « Comment les gestionnaires décrivent-


ils les données qui résultent du processus concerné ? » Nous voulons enrichir nos
tables de faits d’un ensemble fourni de dimensions représentant toutes les
descriptions possibles susceptibles de prendre des valeurs particulières dans le
contexte de chaque mesure. Si le grain est défini de façon claire, les
dimensions peuvent généralement être définies très facilement. Ayant choisi
chaque dimension, nous listons tous les attributs distincts, sous forme de texte,
qui vont étoffer chaque table de dimension. Voici des exemples courants de
dimensions : date, client, type de transaction et état.

Etape 4 : Identifier les faits numériques qui vont renseigner chaque ligne de la
table de faits.

Les faits sont déterminés par la réponse à la question, « Que mesurons-nous ? »


Les utilisateurs sont particulièrement intéressés par l’analyse des mesures de
performances de l’activité. Tous les faits envisagés doivent être au grain défini
à l’étape 2. Les faits qui ont un grain différent doivent figurer dans une autre
table de faits. Les faits typiques sont des données numériques, additives, telles
que quantité commandée ou coût en euros.

Pour décider des dimensions et des faits devant figurer dans le modèle
dimensionnel, nous serons guidés par la vision que les utilisateurs ont de leur
activité et non par les documents. Nous devons tenir compte à la fois des
exigences de nos utilisateurs et de ce qu’il y a effectivement dans nos données
sources.

Figure 2 : Les 2 éléments clés contribuant aux 4 étapes de modélisation


multidimensionnelle

1.3.2. Etude de cas « la distribution »


a. Expression des besoins
Supposons que nous travaillons au siège d’une chaine importante de magasins
d’alimentation. Notre entreprise compte 100 magasins d’alimentation repartis
sur un ensemble de 5 régions. Chacun des magasins est un supermarché
moderne classique pourvu de tous les rayons habituels, notamment l’épicerie,
les surgelés, les produits laitiers, la viande, les fruits et légumes, la boulangerie,
les fleurs et la parapharmacie. Chaque magasin a sur ses étagères environ
60 000 produits individualisés. Les produits indivualisés sont appelés des unités
de stock ou US (en anlais Stock Keeping Units ou SKU). Environ 55 000 US
viennent des fabricants extérieurs et leurs codes à barres sont imprimés sur
l’emballage. Ces codes-barres sont appelés codes universels de produits, CUP
(en anglais Universal Product Codes, UPC). Les CUP sont au même grain que
les US. Chaque variante d’emballage d’un produit correspond à un code CUP
distinct et a donc une US distincte.

Les 5 000 US restants proviennent de rayons tels que viande, les fruits et
légumes, la boulangerie ou les fleurs et n’ont pas de code CUP. Il nous faut
toutefois assigner des codes US à ces produits. Notre chaine de magasins étant
très automatisée, nous collons des étiquettes scannérisables sur la plupart des
articles de ces rayons. Les codes en question ne sont pas des CUP, mais ce sont
néanmoins des US.

La collecte des données peut s’effectuer à plusieurs endroits dans un magasin


d’alimentation. L’endroit le plus adéquat et le plus utilisé est la caisse
enregistreuse. L’immense majorité des magasins modernes scanne les codes à
barres directement au niveau du système TPV (terminaux point de vente, en
anglais Point of Sale ou POV). Le PV, sur l’avant du magasin, est l’endroit où le
client fait ses achats. L’arrière du magasin, où les fournisseurs- livrent les
marchandises, est un autre endroit permettant la collecte des données.

Les préoccupatio,ns du management d’un magasin d’alimentation sont la


logistique des commandes, le stockage et la vente des produits ainsi que
l’obtention d’un profit maximal. Les éléments contribuant au profit sont un prix
le plus élevé possible pour chaque produit, l’abaissement du coût d’acquisition
et des frais de gestion et aussi le fait d’attirer le plus grand nombre possible de
clients dans le contexte d’une forte concurrence axée sur le prix. Les décisions
les plus importantes portent sur les prix et les promotions. Aussi bien les dirigeants
du magasin que ceux de siège passent un temps considérable à ajuster les prix
et à réaliser des promotions. Les promotions d’un magasin comportent des
réductions de prix temporaires, des annonces et des écarts dans les journaux,
des présentations dans le magasin comprenant les présentations sur gondole
et les présentations en tête de gondole, ainsi que les coupons. Le moyen le
plus efficace pour provoquer une brusque augmentation du volume (la
quantité vendue) consiste à réduire le prix de façon spectaculaire. Une
réduction de 50 cents du prix de rouleaux papier absorbant, surtout si elle est
couplée avec une annonce et une présentation peut faire multiplier les ventes
de ces rouleaux de papier par un facteur dix. Malheureusement, une réduction
de cette importance ne peut continuer, les rouleaux étant probablement
vendus à perte. Il résulte de ces diverses considérations que l’analyse des
activités d’un magasin d’alimentation doit prendre en compte toutes les
formes de promotion.

b. Résolution

Etape 1 : Sélection du processus d’entreprise à modéliser

Le premier modèle multidimensionnel construit doit être celui dont l’incidence


est la plus forte. Il doit répondre aux questions les plus pressantes des utilisateurs
et ses données doivent être parmi les plus faciles à extraire.

Dans notre cas le management veut mieux comprendre les achats des clients
saisis par le système de terminaux point de vente.

C’est pourquoi, nous allons modéliser en premier les ventes au niveau des TPV
(terminaux point de vente). Ces données serviront à déterminer quels produits
se vendent, dans quels magasins, quels jours, dans quelles conditions de
promotion.

Etape 2 : Déclaration du grain


Quel niveau de détail doit être rendu disponible dans le modèle
dimensionnel ? D’où la recommandation suivante :

Vous avez intérêt à développer des modèles dimensionnels basés sur les
données les plus atomiques saisies lors d’un processus de l’activité. Les
données atomiques sont les informations les plus détaillées susceptibles d’etre
collectées ; par définition, il n’est pas possible de les diviser davantage.

Un modèle moins granulaire est immédiate vulnérable à des demandes


inattendues d’utilisateurs qui veulent un forage plus profond.

Dans notre étude de cas, la donée la plus granulaire est une ligne individuelle
d’une transaction sasise sur TPV. L’accès aux transactions des terminaux point
de vente nous donne une vue extrement détaillé des ventes du magasin.

Un entrepôt de données exige presque toujours des données exprimées au


niveau du grain le plus fin possible pour chaque dimension, non parce que les
requêtes veulent voir les lignes individuelles de bas niveau, mais parce que les
requêtes on besoin de faire des coups dans les détails de diverses manières
précises

Etape 3 : Choix des dimensions

Une fois le grain de la table de faits choisi, les dimensions temps, produit et
magain s’imposent instantamément, Les autres dimensions attribuer aux
données sont la promotion sous laquelle le produit a été vendu, ou le
fournisseur qui a livré le produit au magasin, ou le nom du responsable du
magasin. D’où le principe suivant :

L’énoncé précis du grain détermine les dimensions principales de la table de


faits. Il est en général possible d’ajouter ensuite des dimensions
supplémentaires, à condition que ces dimensions supplémentaires ne puisse
prendre qu’une seule valeur pour chaque combinaison des dimensions
élémentaires. Si l’on veut une dimension supplémentaire qui détruit le grain
choisi initialement en entraînant la génération de lignes de faits
supplémentaires, il faut alors revoir la définition du grain pour prendre en
compte la dimension supplémentaire.

Dans un premier temps, nous retenons 4 dimensions : date, promotion, magasin


et promotion, ensuite nous procèderons au remplissage des attributs de
dimensions

Etape 4 : Identification des faits

2. Concepts fondamentaux de la modélisation multidimensionnelle


2.1. La Granularité

Prenons l’exemple d’une table de faits Order_facts dont l’objectif est de


rassembler les informations concernant des commandes.
Figure 3 : Schéma en étoile, source : Adamson, Christopher. Star Schema.
Osborne/McGraw-Hill, 2010, page 30

La granularité d’une table de faits est très importante car elle permet de
comprendre la nature des différents faits. De manière plus concrète la
granularité définit la nature d’une ligne de la tables de faits. Sur l’exemple ci-
dessus les faits Quantity Ordered, Order Dollars, Cost Dollars et Margin Dollars
sont calculés par produit (PRODUCT), par vendeur (SALESPERSON), par client
(CUSTOMER) et par date de vente (DAY).

Grain / Granularité
Le grain est ce qui permet de définir le niveau de détail des informations
présentes dans une ligne d’une table de faits. Il est défini par un ensemble
minimal de dimensions.

Ainsi, la granularité d’une table de faits est son niveau de détails :

Elle définit le contexte précis des différents faits.

Elle garantit que tous les faits sont enregistrés avec le même niveau de détail.

La granularité peut être exprimée de 2 manières différentes :

A l’aide d’une définition dimensionnelle en énumérant les dimensions


associées : PRODUCT, SALESPERSON, CUSTOMER, DAY.

A l’aide d’une définition métier, en utilisant des termes issus du domaine métier
sans référence explicite aux dimensions : Ventes de produits effectués par un
vendeur à un client donné, un jour donné.

Attention, le grain correspond à un sous-ensemble de l’ensemble des


dimensions liées à la table de faits : ce n’est pas forcément toujours l’intégralité
des dimensions comme dans l’exemple ci-dessus.

Une table de faits comporte plusieurs faits. Tous ces faits doivent correspondre
à un même contexte. Par exemple, pour une commande, on pourra avoir pour
chacun des produits commandés : la quantité commandée et le montant
total. Dans ce cas, la quantité et le montant sont relatifs à un même contexte
: la commande et le produit.

Il n’est pas possible que la quantité soit celle d’un produit, et que le montant
soit le montant total de la commande.
Lorsque deux faits correspondent à deux grains différents, c’est qu’ils ne
participent pas au même processus, et qu’ils doivent donc être stockés dans
deux tables de faits différentes.

Lorsque deux faits dans deux tables de faits différentes ont la même définition,
la même unité de mesure et le même mode de calcul on dit qu’il s’agit de faits
conformes, même s’ils ne sont pas définis au même grain.

A l’aide d’une définition dimensionnelle en énumérant les dimensions


associées : PRODUCT, SALESPERSON, CUSTOMER, DAY.

A l’aide d’une définition métier, en utilisant des termes issus du domaine métier
sans référence explicite aux dimensions : Ventes de produits effectués par un
vendeur à un client donné, un jour donné.

2.2. Le Fait

Les différentes propriétés d’additivité des faits

Lors du choix des faits il est important de se poser la question de leur propriété
d’additivité :

Fait additif

Un fait additif peut être additionné selon n’importe quelle dimension. Par
exemple, un chiffre d’affaire.

Fait semi-additif

Un fait semi-additif ne peut être additionné selon certaines dimensions. Par


exemple, le nombre de colis restant à livrer à un instant donné n’est pas additif
temporellement mais l’est spatialement.

Fait non-additif
Un fait non-additif ne peut jamais être additionné. La seule chose possible est
d’effectuer des comptages ou des moyennes. Par exemple, le prix unitaire
d’un produit.

Les faits conformes

Faits conformes

Un fait est dit conforme, s’il existe à différents endroits en portant le même nom
et que les définitions et modes de calculs sous-jacents sont les mêmes.
@Kimball2003

2.3. Les différents types de clefs


a. Notions de base

Clef primaire

Une clef primaire définit de manière unique chaque ligne de la table. Chacune
de ses valeurs est unique et non NULL.

Clef étrangère

Une clef étrangère référence un attribut d’une autre table.

Clef composite

Une clef composite est composée de plusieurs attributs.

Clef candidate

Une clef candidate est une clef ayant toutes les propriétés requises pour être
une clef primaire.

Clef alternative

Une clef alternative est une clef candidate pouvant être utilisée à la place de
la clef primaire.
Student_ID (PK) Firstname Lastname Email

R666 Lex Luthor lex.luthor@imt-


atlantique.fr

B613 Olivia Pope olivia.pope@imt-


atlantique.fr

Une clef primaire est un ensemble d’attributs qui détermine fonctionnellement


tous les autres attributs de la table.

Ici Student_ID et Email sont deux clefs candidates. On ne peut pas utiliser la
combinaison de Firstname et Lastname en tant que clef composite car il y a
un risque de doublon. La clef choisie pour être la clef primaire est Student_ID.

b. Notions avancées

Clef naturelle

Une clef naturelle est une clef utilisée pour définir quelque chose du monde
réel.

Clef métier

Une clef métier est une clef primaire d’un système source.

Clef artificielle ou clef de substitution

Une clef artificielle est utilisée en tant que clef dimensionnelle, il s’agit d’une
clef sans signification qui est auto-générée (en général une séquence de
nombres) pour remplacer une clef naturelle.
id (PK) Firstname Lastname Student_ID Email

1 Lex Luthor R666 lex.luthor@imt-atlantique.fr

2 Olivia Pope B613 olivia.pope@imt-


atlantique.fr

Ici Student_ID est une clef métier et naturelle tandis qu’Email est une clef
naturelle. Afin de s’isoler du monde réel et du système source, une clef
artificielle id est créée afin d’avoir la garantie que la clef primaire n’évoluera
pas au cours du temps.

2.4. Dimension dégénérée

Définition

Reprenons l’exemple précédent d’une table de faits Order_facts dont


l’objectif est de rassembler les informations concernants des commandes. Le
grain de cette table de faits est en fait une ligne de la commande : chaque
ligne de la table concerne un produit (PRODUCT) commandé par un client
donné (CUSTOMER) à un commercial donné (SALESPERSON) à une date
donnée (DAY). La commande globale réunissant l’ensemble des produits
commandés par le client (une entreprise) éventuellement auprès de différents
commerciaux.
Figure 4 : Schéma en étoile, source du schéma : Adamson, Christopher.
Osborne/McGraw-Hill, 2010, page 30

Que faire si nous désirions ajouter des attributs dimensionnels qui ne concernent
aucune des tables de dimension identifiées, par exemple un numéro de
commande order_id ou un numéro de ligne de commande (pour un produit
donné) order_line_id ?

La solution (voir image ci-dessous) est d’utiliser une dimension dégénérée, c’est
à dire une dimension que l’on stocke dans la table de faits sous la forme d’un
unique attribut. Il s’agit d’un attribut qui peut servir d’axe d’analyse sans table
de dimension. Parfois, il définit également le grain de la table de faits.
2.5. Dimension conforme

Définition

La notion de dimension conforme est une solution pour permettre de faire des
analyses qui concernent plusieurs processus métiers de l’entreprise tout en
conservant la cohérence des données.

Figure 6 : Collaborative Dimensional Modeling, source : Corr, Laurence, and


Jim Stagnitto. Agile Data Warehouse Design
Intéressons-nous, par exemple, aux requêtes suivantes :

• Par mois et par produit, nombre de commandes et de retours


• Par mois, liste des produits dont le nombre de retours est supérieur à 2

Si notre dimension PRODUCT contient des listes de produits nommés


différemment, il sera impossible de consolider les commandes avec les retours.

Ainsi, pour faire des analyses sur des données provenant de différents processus
(par exemple pour comparer des commandes et les retours sur livraisons ou
comparer des commandes et les expéditions associées), il faut pouvoir faire
des requêtes sur deux tables de faits différentes (la table des commandes et la
table des retours ou la table des commandes et la tables des expéditions).

Ces tables de faits ne sont jamais directement reliées entre-elles. Lorsque des
tables de faits sont reliées, elles le sont par l’intermédiaire de dimensions
communes dites dimensions conformes.

Si les produits, dans la gestion des commandes, n’ont pas les mêmes
caractéristiques que les produits dans la gestion des expéditions, il ne sera pas
possible de faire des requêtes portant sur les produits commandés et expédiés.

Dimensions conformes

Considérons un ensemble de dimensions. Ces dimensions sont dites conformes


s’il existe une dimension D de l’ensemble telle que pour toutes les autres :

• L’ensemble de leurs attributs est un sous-ensemble des attributs de D


(même nom, même type, mêmes valeurs),
• L’ensemble de leurs lignes est un sous-ensemble des lignes de D.

En résumé, les dimensions conformes sont le seul moyen pour :

- Obtenir des analyses cohérentes entre elles.


- Pouvoir faire de l’analyse multi processus (jointures entre tables de faits).
Les dimensions conformes sont donc la pierre angulaire du bus de l’entrepôt
de données.

2.6. Architecture en bus

Définition

Le “bus” en informatique

En informatique, un bus est un mécanisme permettant de


transmettre/partager des informations entre plusieurs composants.

Pourquoi une architecture en bus dans le domaine de la Business Intelligence


?

La modélisation dimensionnelle est une activité de planification stratégique


dans le sens où elle permet de modéliser les besoins des différentes parties
prenantes tout en préservant la cohérence des données entre les différents
datamarts.

Figure 7 : Architecture en bus, source du schéma : Kimball, Ralph, and Ross,


Margy. The Data Warehouse Tooolkit: The Complete Guide to Dimensional
Modeling.
Matrice en Bus

Figure 8 : Source du schéma : Agile Data Warehouse Design: Collaborative


Dimensional Modeling. Laurence Corr and Jim Stagnitto.

La matrice de bus est un moyen de représenter de manière globale toutes les


données du système d’information décisionnel. C’est un document
indispensable pour permettre d’établir un dialogue clair à propos des
données avec un interlocuteur.

Chaque ligne de la matrice représente un processus de l’organisation qui est


associé à un marché d’information (datamart en anglais). En fait le marché
d’information est tout simplement une table de faits entourées de ses
dimensions.

C’est pourquoi chacune des colonnes de la matrice de bus représente les


différentes dimensions présentes dans le système. Lorsqu’une dimension est
utilisée par plusieurs tables de faits, elle est dite conforme.

Architecture en bus
Figure 9 : Source du schéma : Agile Data Warehouse Design: Collaborative
Dimensional Modeling. Laurence Corr and Jim Stagnitto.

Ce schéma représente le flux de transformation de données dans une


architecture en bus. Chaque source de données (event source), subit une
extraction, une transformation dans la zone ETL (interdite d’accès aux
utilisateurs car les données ne sont pas encore mise en cohérence) pour être
finalement chargée dans l’entrepôt de données qui historise et consolide les
données en les mettant en cohérence notamment au moyen des dimensions
conformes.

Nous voyons ici qu’un datamart n’est pas dédié à un service de


l’organisation mais répond à un besoin global qui peut être partagé et
interprété de la même manière par différentes parties prenantes de
l’organisation.

3. Approche Microsoft de conception


4. Quelques exemples
RÉFÉRENCES
I. Livres
1. Les nouveaux tableaux de bord des managers (Le projet business
intelligence clés en main), 2008, édition 4, Alain Fernandez, Eyrolles, 495
pages.
2. Entrépôt de données, Guide pratique de modélisation, 2008, 2° édition,
Ralph Kimball et Marguy Ross
3. Business intelligence avec SQL Server 2019 et Power BI, Maitrisez les
concepts et réalisez un système décisionnel, Editions ENI, Février 2020
II. Webographie
1. https://www.piloter.org/mesurer/methode/concevoir_le_tableau_de_b
ord.htm, consulté le 21 juin 2023
2.

Vous aimerez peut-être aussi