Académique Documents
Professionnel Documents
Culture Documents
Modélisation Entité-Relation
Modélisation Multidimensionnelle
Conception des Data Warehouses : Etapes et Exemple
Modèles d’un Data Warehouse
Aspects Fondamentaux de la Modélisation Multidimensionnelle
Forme normale :
o Type de relation particulier entre les entités
o Permet d’éviter les anomalies transactionnelles dues à une mauvaise
modélisation des données
o Permet de vérifier la robustesse de la conception des modèles de données pour
éviter les problèmes de redondance et de mise à jour du contexte
Dans le modèle OLTP, il existe 8 formes normales
o Elles s’emboitent les unes dans les autres
o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux
inférieurs
o On va présenter les 3 premières (les plus utilisées)
Business Intelligence 30/09/2020
8
Première Forme Normale (1FN)
Ecran Vidéo SA 13 rue Midi Ecran Vidéo SA Hitek LTD 25 rue Bond
Problème Solution
Fournisse Adresse Ville Pays Fournisse Adresse Ville Ville Pays
ur ur
Vidéo SA 13 rue Midi Paris France Paris France
Vidéo SA 13 rue Midi Paris
Hitek LTD 25 rue London England London England
Hitek LTD 25 rue London
Bond Bond
Business Intelligence 30/09/2020
11
Modélisation Entité-Relation
Modèle complexe
o Plusieurs tables et jointures mises en œuvre
Risque de dégradation des performances
Pas de compréhension pour l’utilisateur
Données historiques difficilement représentées
Contraire aux objectifs du DW
Modélisation
Multidimensionn CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
elle
Méthode de conception logique qui vise à présenter les données sous une
forme standardisée, intuitive et qui permet des accès hautement
performants
Permet de considérer un sujet analysé comme point dans un espace à
plusieurs dimensions
Les données sont organisées de manière à mettre en évidence:
o Le Sujet Le Fait
o Les perspectives de l’analyse La table des dimensions
Fait
o Sujet d’analyse
o Grain de mesure de l’activité
o Résultat d’une opération d’agrégation des données
o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général :
une valeur numérique
o Les mesures sont stockées dans la table des faits
Table des faits
o Clé composite référencent des clés primaires des tables de dimensions
o Contient les valeurs des mesures et des clefs vers les tables de dimensions traduit une
relation (n,m) entre les dimensions
o Plusieurs tables de fait dans un DW
o Les faits les plus utiles d’une table des faits sont numériques et additifs
Business Intelligence 30/09/2020
16
Faits – Table des Faits
Exemple:
o Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin
A en général plusieurs lignes et peu de colonnes
Produit
Contient une clé primaire unique qui correspond à l’un des
composants de la clé multiple de la table des faits Clé Produit
Description produit
Les tables dimensionnelles sont les points d’entrée de Description marque
l’entrepôt de données Description catégorie
Description type emballage
Les dimensions Taille emballage
Poids
o Thème (ou axe) selon lequel les données sont analysées Unité de mesure du poids
o En général sous forme textuelle Type de stockage
Type de durée rayon
o Parfois discrète (ensemble limité de valeurs): couleurs, Largeur sur étagère
Hauteur sur étagère
parfums Profondeur sur étagère
A en général plusieurs colonnes et peu de lignes
Exemple 1:
o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux
de la région nord ayant des véhicules de 10 à 14 CV en avril 2004?
o Vue: Région
Faits
Frais de déplacement Employé
Clé Employé
Kilométrage Nom Clé Véhicule
Fonction
Clé Région
Par Employé (fonction)
Clé Mois Mois
Par Véhicule (puissance)
Véhicule Frais de déplacement
Marque Kilométrage
Par Région Puissance
Par Mois
Business Intelligence 30/09/2020
20
Vue
Exemple 2:
o Requête: Quelles sont les marges sur les ventes du produit ‘P023’ pour le client
Ben Salah Ahmed à Hammamet durant le mois de Janvier?
Client Région
o Vue:
Nom
Marge Fonction
Produit
Vue 1
Client Marge
Produit Mois
Région Nom
Mois
Business Intelligence 30/09/2020
21
Vue
Exemple 3:
o Requête: Quels sont les revenus sur les ventes de la marque ‘Teams’ en Tunisie
durant l’année 2011?
Marque
o Vue:
Revenu Vue 2 Année
Marque
Pays Revenu
Pays
Année
Exemple 4:
o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2
pour la région du nord ?
Gamme
o Vue:
Quantité
Vue 3 Trimestre
Gamme
Région Quantité
Trimestre
Région
Domaine
o Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
o Implique un vocabulaire commun et une manière commune
d’appréhender l’information
Contexte
o Ensemble de faits et dimensions assemblées selon des critères
sémantiques formels de cohérence
o Caractérisé par une association unique, groupant tous les faits relevés
dans les vues
En opérant une relation superficielle entre les trois vues des exemples 2, 3 et
4, on détecte deux sortes d’éléments de rapprochement
o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues
o Certaines entités, appartenant à des vues différentes, sont
fonctionnellement liées les unes aux autres.
o On peut intégrer ces vues en un seul contexte comportant une
association porteuse des faits: Marge, Revenu, Quantité, qui comporte
neuf entités distinctes
Année
Vue 1
Trimestre
Produit Marge Mois
Mois Client
Marque
Marge
Vue 2 Année Revenu
Produit Quantité Région
Revenu
Pays
Gamme Pays
Gamme
Marque
Vue 3 Trimestre
Quantité
Région
30/09/2020
26
Hiérarchie
Région Pays
… Territoire
Client Catégorie
… Client
Business Intelligence 30/09/2020
28
Granularité
Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette
dimension
o Le grain de la dimension Temps est Mois
o Le grain de la dimension Territoire est Région
L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur
une ou plusieurs dimensions
Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu toutes les dimensions.
Marque
Territoire
Produit
Business Intelligence 30/09/2020
31
Modélisation Multidimensionnelle:
Caractéristiques
Lisibilité
Performances (chargement + exécution des requêtes)
Évolutivité
Redondances envisageables
o Pas de mise à jour en ligne (chargement uniquement)
o Pas de problème d’intégrité des données (contrôles à l’acquisition)
o Privilégier l’accessibilité plutôt que la normalisation
Requêtes ensemblistes, portant sur de gros volumes de données
o Projections, restrictions, regroupements, agrégations
o Adaptation du modèle pour des requêtes ad-hoc
o Techniques d’optimisation basées sur les chemins d’accès
Pré-calcul de certains agrégats + dé-normalisation
Business Intelligence 30/09/2020
32
Modélisation Multidimensionnelle:
Avantages
Structure prévisible et standardisée
Diminution du nombre de tables et de jointures
Modèle évolutif qui peut être modifié sans peine
o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents
avec la granularité de la table des faits existante
o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est
définie pour chaque enregistrement factuel existant
o Ajout d’attributs dimensionnels nouveaux
o Changement de granularité: Décomposition des enregistrements d’une dimension existante
en un niveau de détail plus fin à partir d’une date déterminée
Id_produit Produit
Produit Id_produit
Id_produit
Id_région Id_produit
Id_mois région
Id_mois Id_client
Id_client Marge
Marge Revenu
Région
Revenu Quantité
Quantité
Business Intelligence 30/09/2020
38
Règles de Normalisation
Dimensionnelle
Règle 2:
o Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les
combinaisons dimensionnelles de ce contexte
o Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent
l’éclatement du contexte
Exemple:
Mois Id_produit Produit
Id_région Id_produit
Id_mois
La marge des achats ne correspond
Id_client
pas à un client et région. Il faut donc
Marge_ventes
l’intégrer dans un autre contexte
Marge_achats Région
Client
Revenu
Quantité
Business Intelligence 30/09/2020
39
Règles de Normalisation
Dimensionnelle
Règle 3:
o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension
Règle 4:
o Le graphe de chaque dimension doit être acyclique
o Conséquence: Il faut rompre les cycles
Produit Produit
Id_produit Id_produit
Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition
de conserver une définition unique
Pour ces raisons pratiques, il est préférable de représenter les contextes sous une
forme déconnectée
Modèles d’un
Data CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
Warehouse
Modèle en étoile
Modèle en constellation
Produit
Code_pdt Ventes
Description
Couleur Code_produit Magasin
Marque Code_période
Créateur Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour
Marque
Code_marque Produit
Nom
Description
Code_pdt Ventes
Description
Créateur
Couleur Code_produit Magasin
Code_marque Code_période Code_ma
Code_Magasin g
Nom_mag
Ville
Période Unités_vendues Téléphone
Code_per Montant_ventes Manager
Année
Trimestre
Montant_coût
Mois
Jour
Fournisseur Produit
Code_four Achats
Code_pdt Ventes
Description
Nom
Adresse Code_produit Couleur Code_produit Magasin
Marque Code_période
Catégorie Code_période Code_ma
Créateur
Code_fournisseur Code_Magasin g
Nom_mag
Ville
Période Unités_vendues
Unités_achetées Téléphone
Code_per Montant_ventes Manager
Montant_achats Année
Montant_remises Trimestre
Montant_coût
Mois
Jour
Modèle en étoile
o Taille de dimension plus grosse
Modèle en flocon de neige
o Jointures pour reconstruire
Modèle en étoile >> Modèle en flocon
o car tables de dimension << tables de fait
Aspects
Fondamentaux
de la CHP3: MODÉLISATION DES
MultiDimensionn
elle
Une mesure est un élément de donnée sur lequel portent les analyses, en fonction
des différentes dimensions
o Ex : coût des travaux, nombre d’accidents, ventes
Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre
de chacune des dimensions
Exemple :
o « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le
membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du
niveau « ville » de la dimension « découpage administratif »
Fait additif :
o Additionnable suivant toutes les dimensions
o Exemples: quantité vendue, chiffre d’affaire, coût
Fait semi-additif :
o Additionnable selon certaines dimensions
o Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients
(excepté sur la dimension produit)
Fait non-additif :
o Non additionnable
o Exemple: attribut ratio (marge brute = 1- Coût/CA)
OLAP relationnel
Données obtenues à partir de tables relationnelles et de jointures entre celles-ci
En fonction de la granularité, la requête générée est plus ou moins complexe
A chaque consultation, la requête est recalculée
o Les résultats ne sont pas stockés
Langage : SQL
Avantages
o Faible coût (car tire partie des ressources existantes)
Inconvénients
o Temps de réponse long car sollicitation de la base à chaque relance d’un rapport
OLAP multi-dimentionnel
Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o Exemple : Essbase…
Plus de relationnel!
Tous les croisements possibles sont précalculés
o Restitution des données instantanée
Langage : MDX
Avantages
o Temps de réponse très court (toutes les données et résultats sont stockés)
Inconvénients
o Coût élevé des licences pour les bases multi-dimentionnelles
o Coût élevé de développement des cubes
o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés
Avantages
o Temps de réponse assez court
o Moins coûteux que MOLAP car moins de développement
Inconvénients
o Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données
Conception
d’un Data
Warehouse: CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES
Étapes et
Exemples
Étape 1
o Choisir le processus à modéliser
Étape 2
o Choisir le grain des faits
o Décider de ce que représente une ligne de la table de faits
Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…
Étape 3
o Identifier les dimensions qui s’appliquent aux lignes de la table des faits
Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…
Étape 4
o Identifier les mesures de fait qui renseignent la table de faits
De préférence des quantités numériques additives
Processus :
o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)
o Modéliser les ventes au niveau des TPV
Etape 1 : Le premier modèle dimensionnel
o Doit répondre aux questions les plus pressantes de l’utilisateur
o Ses données doivent être les plus faciles à extraire
o Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles
conditions de promotion?
Etape 2 :
o Quel niveau de détail doit être disponible dans le modèle?
o Principe: Obtenir un schéma basé sur les données les plus atomiques
o Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux
anticiper les requêtes ad-hoc des utilisateurs
Etape 3 :
o Choix des dimensions
o Principe: l’énoncé précis du grain détermine les dimensions principales
o Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique
pour chaque combinaison de valeurs des dimensions principales
o Produit
Clé Date Clé Produit
Attributs
Clé Magasin
o Magasin
Clé Promotion Promotion
o Promotion Produit … Clé Promo
Clé Produit Attributs
Attributs
Business Intelligence 30/09/2020
72
Conception d’un Data Warehouse
Exemple : La Distribution
Produit
Clé Produit
Description produit
Etape 3 (Suite): Description marque
Description catégorie
o Dimension Produit Description type emballage
Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
…
Supports de Cours
o Karima Tekaya – « Informatique Décisionnelle » - INSAT
o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT
o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier
o E. Grislin-Le Strugeon – « Systèmes d’information décisionnels (Data Warehouse / Data
Mining) » - Université de Valenciennes