Vous êtes sur la page 1sur 72

2

Modélisation des
Décisionnelle
Données
s
 Utilisation de concepts pour :
o Optimiser la restitution de données selon les axes métiers de l’entreprise
o Gérer et visualiser les données de manière rapide et intuitive
o Retrouver et analyser rapidement les données à partir de diverses
sources
o Intégrer plusieurs bases de données
o Extraire, grouper, organiser et corréler et transformer les données
 Deux types de modélisations: Entité-Relation et Multidimensionnelle

Business
Intelligence
Modèles de 3
Données

Business
Intelligence
4
Plan du
Chapitre
 Modélisation Entité-Relation
 Modélisation Multidimensionnelle
 Conception des Data Warehouses : Etapes et Exemple
 Modèles d’un Data Warehouse
 Aspects Fondamentaux de la Modélisation
Multidimensionnelle

Business
Intelligence
5

Modélisation CHP3: MODÉLISATION DES

Entité- DONNÉES
DÉCISIONNELLES

Relation

Business
Intelligence
6
Modélisation Entité-
Relation
 Discipline permettant d’éclairer les relations microscopiques entre les
données
o Supprimer la redondance des données
o Simplifier le traitement des transactions
o Aider le concepteur dans la répartition des propriétés entre les entités
 Principes
o Notion d’identifiant
o Dépendance fonctionnelle
o Décomposition
o Formes normales

Business
Intelligence
7
Normalisation dans les
BDR
 Forme normale :
o Type de relation particulier entre les entités
o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation
des données
o Permet de vérifier la robustesse de la conception des modèles de données pour éviter
les problèmes de redondance et de mise à jour du contexte
 Dans le modèle OLTP, il existe 8 formes normales
o Elles s’emboitent les unes dans les autres
o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux
inférieurs
o On va présenter les 3 premières (les plus utilisées)

Business
Intelligence
8
Première Forme Normale
(1FN)
 Relation dont tous les attributs :
o Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs
sous- valeurs dépendant également individuellement de la clé primaire)
o Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans
un seul attribut).
o Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que
l'âge).

Produit Problème Fournisseur Produit Solution


Fournisseur
Téléviseur Vidéo SA, Hitek LTD Téléviseur Vidéo SA
Téléviseur Hitek LTD

Business
Intelligence
9
Deuxième Forme Normale
(2FN)
 Les attributs d'une relation sont divisés en deux groupes :
o Le premier groupe est composé de la clé (une ou plusieurs).
o Le deuxième groupe est composé des autres attributs (éventuellement vides).
 Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-
ensemble (strict) d'attribut(s) du premier groupe.
o « Un attribut non clé ne dépend pas que d'une partie de la clé »

Problèm Solutio
Pd eFournisseu Adresse Produ Fournisseun Fournisseu Adress
t r Fournisse it r r e
ur Télé Vidéo Vidéo 13 rue
Télé Vidéo 13 rue
SA Midi SA SA Midi
Ecran Vidéo 13 rue Ecran Vidéo Hitek 25 rue
SA Midi SA LTD Bond
Télé Hitek 25 rue Télé Hitek
LTD Bond LTD
10
Troisième Forme Normale
(3FN)
 Les attributs d'une relation sont divisés en deux groupes :
o Le premier groupe est composé de la clé (une ou plusieurs).
o Le deuxième groupe est composé des autres attributs (éventuellement vides).
 Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-
ensemble (strict) d'attribut(s) du deuxième groupe.
o « Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la
clé ».

Fournis Adresse
Problème Ville Pays Fournisse Adresse Solution
Ville
se Ville Pays
ur ur
Vidéo SA 13 rue Midi Paris France Paris France
Vidéo SA 13 rue Midi Paris
Hitek LTD 25 London England Hitek 25 rue
London England
rue LTD London Bond
Business
Bond
Intelligence
1
Modélisation Entité- 1
Relation
 Le succès du traitement des transactions dans les BDR est essentiellement dû
à
l’apport de la modélisation entité/relation
 Exemple une
o
o simple rechercheest
Cette recherche dans une table
contrôlée parprincipale d'adresses
une clé d'adresse clients.
client, qui définit l'unicité de
l'enregistrement et permet une recherche indexée extrêmement rapide.
o Le respect des formes normales fait que cette mise à jour soit faite en une itération,
sans risque d’oublier des enregistrements

Business
Intelligence
1
Limites de la Modélisation 2
E/R
 Modèle complexe
o Plusieurs tables et jointures mises en œuvre
 Risque de dégradation des performances
 Pas de compréhension pour l’utilisateur
 Données historiques difficilement
représentées
 Contraire aux objectifs du DW

Business
Intelligence
1
3

Modélisation
Multidimensionn CHP3: MODÉLISATION DES
DONNÉES

elle DÉCISIONNELLES

Business
Intelligence
1
Modélisation 4
Multidimensionnelle
Notions de :
Base
 Méthode de conception logique qui vise à présenter les données sous une
forme
standardisée, intuitive et qui permet des accès hautement performants
 Permet de considérer un sujet analysé comme point dans un espace à
plusieurs dimensions
 Les données
o Le Sujet
sont organisées de manière à mettre en évidence:
 Le Fait
o Les perspectives de  La table des
l’analyse dimensions

Business
Intelligence
1
Faits – Table des 5
Faits
 Fait
o Sujet d’analyse
o Grain de mesure de l’activité
o Résultat d’une opération d’agrégation des données
o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général :
une valeur numérique
o Les mesures sont stockées dans la table des faits
 Table des faits
o Clé composite référencent des clés primaires des tables de dimensions
o Contient les valeurs des mesures et des clefs vers les tables de dimensions  traduit une
relation (n,m) entre les dimensions
o Plusieurs tables de fait dans un DW
o Les faits les plus utiles d’une table des faits sont numériques et additifs
Business
Intelligence
16
Faits – Table des
Faits
 Exemple:
o Fait: Montant des ventes, chaque jour pour chaque produit dans chaque
magasin
 A en général plusieurs lignes et peu de colonnes

Ventes Journalières Table des Faits


Date
Clé Date Magasin
Clé Produit
Dimensions Clé
Produit Magasin
Quantité vendue Fait
Montant des s

Business
ventes
Intelligence
17
Table des
Dimensions
Produi
 Contient une clé primaire unique qui correspond à l’un t
des Clé Produit
composants de la clé multiple de la table des faits Description produit
Description marque
 Les tables dimensionnelles sont les points d’entrée Description
de l’entrepôt de données catégorie
Description type
 Les dimensions emballage Taille
emballage
o Thème (ou axe) selon lequel les données sont Poids
analysées Unité de mesure du
poids Type de stockage
o En général sous forme textuelle Type de durée rayon
o Parfois discrète (ensemble limité de valeurs): couleurs, Largeur sur étagère
Hauteur sur étagère
parfums
Profondeur sur
 A en général plusieurs colonnes et peu de lignes étagère
Business
Intelligence
1
Vue 8

 Représentation d’une ou plusieurs requêtes de l’utilisateur du SID


o À une requête correspond une et une seule vue
o À une vue peuvent correspondre plusieurs requêtes
 Une vue correspond également à un hyper-cube dont :
o Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces
entités
o Les propriétés de l’association sont des faits ou mesures
o Les propriétés des entités intervenant dans la vue sont des conditions
 Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits,
comme une combinaison de valeurs numériques peut déterminer la position d’un point dans
l’espace
 Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé
par l’association des conditions
Business
Intelligence
19
Vue

 Exemple 1:
o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de
la région nord ayant des véhicules de 10 à 14 CV en avril 2004?
o Vue:
Faits Région
 Frais de déplacement
 Kilométrage
Employé Clé Employé
Nom Clé
 Par Employé (fonction) Fonctio
n
Véhicule
 Par Véhicule Clé Région Mois
(puissance) Véhicule Clé Mois
 Par Région Marque Frais de
Puissanc
 Par Mois
e
déplacement
Kilométrage
Business
Intelligence
2
Vue 0

 Exemple 2:
o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben
Salah Ahmed à Hammamet durant le mois de Janvier?

Client
o Vue:
Région
Nom
 Marge Fonction
 Produi Vue
t
1


Client
Région Produit Marge Moi
Nom s
 Mois

Business
Intelligence
2
Vue 1

 Exemple 3:
o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie
durant l’année 2011?
Marque
o Vue:
 Revenu
Vue Année
Marque
2

 Pays Pays Revenu


 Année

Business
Intelligence
2
Vue 2

 Exemple 4:
o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le
Trimestre 2 pour la région du nord ?
Gamme
o Vue:
 Quantité Vue Trimestr
e
 Gamme
3
 Trimestr Région Quantité
e
 Région

Business
Intelligence
2
Domaine et 3
Contexte
 Domaine
o Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
o Implique un vocabulaire commun et une manière commune d’appréhender
l’information

 Contexte
o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de
cohérence
o Caractérisé par une association unique, groupant tous les faits relevés dans les vues

Business
Intelligence
2
Contexte : Activité des 4
Ventes
 En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on
détecte deux sortes d’éléments de rapprochement
o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues
o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les
unes aux autres.
o On peut intégrer ces vues en un seul contexte comportant une association porteuse des
faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes

Business
Intelligence
2
Contexte : Activité des 5
Ventes
 Contexte : Activité des
Ventes
Client Région Année
Vue
1 Trimestre
Produit Marge Mois

Mois Client
Marque

Marge
Vue Année Revenu
2Revenu Produit Quantit Région
Pays é
Gamm Pay
Gamm e s
e
Marque
Vue Trimest
re
3
Quantité
Régio
n
2
Hiérarchie 6

 Élément fondamental dans la structure d’un contexte


 Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)
 Chaque niveau est représenté par une entité
 Certaines entités sont rattachées à d’autres par des liens d’appartenance ou
de regroupement hiérarchique
 Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent
être repérés par une analyse précise du vocabulaire des utilisateurs
(Produit, Gamme, Marque)

Business 27/02/201
Intelligence 4
2
Hiérarchie : Activité des 7
Ventes
Mois Trimestre Année
… Temp
s

Produit Gamme Marque


… Produi
t

Région Pays
… Territoir
e

Clien Catégorie
… t Clien
t
Business 27/02/201
Intelligence 4
2
Granularité 8

 Le « grain » d’une dimension est le niveau de sélection le plus fin possible de


cette
dimension
o Le grain de la dimension Temps est Mois
o Le grain de la dimension Territoire est Région
 L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain
sur
une ou plusieurs dimensions
 Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la
plus sélective et la plus fine possible mettant en jeu toutes les dimensions.

Business 27/02/201
Intelligence 4
2
Granularité 9
(Exemple)
 Grain du contexte: combinaison Produit-Mois-Client-Région
o S’applique à tous les faits
 Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce
contexte
o Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un
sens à tous les niveaux.
o Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le
sont par
Région et par Trimestre, il y aurait décalage de grain entre les faits
o Décalage  les faits n’appartiennent pas tous au même contexte 
facteur d’incohérence

Business 27/02/201
Intelligence 4
3
Grain du contexte 0
Vente
Temp
s Année
Clien
Trimestre Catégorie
t

Mois Produit Client


Région
Mois
Client
Marge
Produit Revenu Région
Quantité
Gamm Pays
e
Marque
Territoir
e
Produi
t
Business 27/02/201
Intelligence 4
3
Modélisation 1
Caractéristiques
Multidimensionnelle:

 Lisibilité
 Performances (chargement + exécution des requêtes)
 Évolutivité
 Redondances envisageables
o Pas de mise à jour en ligne (chargement uniquement)
o Pas de problème d’intégrité des données (contrôles à l’acquisition)
o Privilégier l’accessibilité plutôt que la normalisation
 Requêtes ensemblistes, portant sur de gros volumes de
données
o Projections, restrictions, regroupements, agrégations
o Adaptation du modèle pour des requêtes ad-hoc
o Techniques d’optimisation basées sur les chemins d’accès
 Pré-calcul de certains agrégats + dé-normalisation

Business 27/02/201
Intelligence 4
3
Modélisation 2
Avantages
Multidimensionnelle:

 Structure prévisible et standardisée


 Diminution du nombre de tables et de jointures
 Modèle évolutif qui peut être modifié sans peine
o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont
cohérents avec la granularité de la table des faits existante
o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la
dimension est
définie pour chaque enregistrement factuel existant
o Ajout d’attributs dimensionnels nouveaux
o Changement de granularité: Décomposition des enregistrements d’une
dimension existante en un niveau de détail plus fin à partir d’une date
déterminée
Business 27/02/201
Intelligence 4
3
Modélisation 3
Multidimensionnelle:
Inconvénients

 Tables plus volumineuses

 Fréquence d’accès très variable aux contenus des


tables

Business 27/02/201
Intelligence 4
3
Règles d’Élaboration et 4
des
d’Intégration
Vues
 La structure des vues externes se déduit directement des requêtes des
utilisateurs, non des connexions possibles entre les entités
 Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre
elles par des critères de cohérence sémantique et structurelles.  Contextes
 La liste exhaustive des vues n’est jamais figée
 La normalisation du MDD permet d’anticiper et d’intégrer automatiquement
dans chaque contexte le plus grand nombre possible de vues probables
d’après la structure vue connues.
 Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin
de navigation sémantique et ce chemin doit être le plus court possible

Business 27/02/201
Intelligence 4
3
Démarche de Synthèse des 5
Contextes
Vues-

 Identifier les faits de l’association


 Identifier les liens de dépendance entre les entités
 Regrouper les entités dépendantes dans une même dimension
 Nommer les dimensions
o Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions
fortes »
o Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »
 La structure d’une dimension douteuse peut varier à terme

Business 27/02/201
Intelligence 4
3
Normalisation des 6
Contextes
 Un contexte regroupant un nombre élevé de dimensions a peu de chances de
correspondre à une réalité et serait d’un maniement trop complexe
o En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions
o Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus
en plus importante
 Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une
signification
dans le domaine de l’utilisateur

Business 27/02/201
Intelligence 4
37
Règles de
Dimensionnelle
Normalisation
 Règle 1:
o Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à
des
dimensions différentes d’un même contexte
o Conséquence: Regroupement des entités dépendantes dans une même dimension
 Exemple: Si les produits sont organisés par région, on doit intégrer l’entité
Région dans la dimension Produit
Id_produi Produit
Produit Id_produi
Id_produi
t Id_produit
t Id_mois t région
Id_région Id_client
Id_mois Marge
Id_client Revenu
Région
Marge Quantité
Revenu
Business
Quantité 27/02/201
Intelligence 4
38
Règles de
Dimensionnelle
Normalisation
 Règle 2:
o Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes
les
combinaisons dimensionnelles de ce contexte
o Conséquence: Les faits qui ne sont valables que pour certaines dimensions
nécessitent l’éclatement du contexte
 Exemple:
Mois Id_produit Produit
Id_région Id_produit
Id_mois
La marge des achats ne correspond
Id_client
pas à un client et région. Il faut
Marge_ventes
donc l’intégrer dans un autre
Clien Région contexte
Marge_achat
Revenu
t
s
Quantité
Business 27/02/201
Intelligence 4
39
Règles de
Dimensionnelle
Normalisation
 Règle 3:
o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
 Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
 Le grain d’une dimension est le niveau de sélection le plus fin possible de cette
dimension

 Règle 4:
o Le graphe de chaque dimension doit être acyclique
o Conséquence: Il faut rompre les cycles
Gamme Marque Gamme Marque Pays

Produit Produit
Id_produit Id_produit

Région Pay Région Pay


s s
Business 27/02/201
Intelligence 4
4
Forme Dimensionnelle 0
Normale
 Le MDD correspond à un domaine qui se présente sous forme d’une constellation
ou
galaxie dans laquelle chaque étoile correspond à un contexte

 Une même entité ou un même fait peut appartenir à plus d’un contexte, à
condition de conserver une définition unique

 Pour ces raisons pratiques, il est préférable de représenter les contextes sous
une forme déconnectée

Business 27/02/201
Intelligence 4
4
1

Modèles
d’un Data CHP3: MODÉLISATION DES
DONNÉES

Warehouse DÉCISIONNELLES

Business 27/02/201
Intelligence 4
4
Modèles d’un 2
DataWarehouse

 Modèle en étoile

 Modèle en flocon de
neige

 Modèle en constellation

Business 27/02/201
Intelligence 4
4
Modèle 3
Étoile
 Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs
mesures
 Plusieurs tables de dimension dé-normalisées: descripteurs des
dimensions.
 Les tables de dimension n'ont pas de lien entre elles.
 Avantages
o Facilité de navigation.
o Performances : nombre de jointures limité ; gestion des données creuses.
o Gestion des agrégats
 Inconvénients
o Redondances dans les dimensions.
o Alimentation complexe..
Business 27/02/201
Intelligence 4
44
Modèle en Étoile -
Exemple
Produit
Code_pdt Ventes
Descriptio
n Couleur Code_produit Magasin
Marque Code_période
Créateur Code_ma
Code_Magasi g
n Nom_ma
g Ville
Période Unités_vendues Téléphon
Code_pe Montant_vente e
r Année Manager
Trimestre
s
Mois Montant_coût
Jour

Business 27/02/201
Intelligence 4
4
Modèle en Flocon de 5
Neige
 Dérivé du schéma en étoile où les tables de dimensions sont
normalisées
o La table des faits reste inchangée
 Chacune des dimensions est décomposée selon sa (ou ses)
hiérarchie(s)
 Exemple : Commune, Département, Région, Pays, Continent
 Utilisé lorsque les tables sont très volumineuses
 Avantages
o Réduction du volume
o Permettre des analyses par pallier (drill down) sur la dimension
hiérarchisée
 Inconvénients
o Navigation difficile
o Nombreuses jointures
Business 27/02/201
Intelligence 4
46
Modèle en Flocon de Neige -
Exemple
Marque
Code_marqu Produit
e Nom
Description
Code_pdt Ventes
Description
Créateur
Couleur Code_produit Magasin
Code_marque Code_période Code_ma
Code_Magasi g
n Nom_ma
g Ville
Période Unités_vendues Téléphon
Code_pe Montant_vente e
r Année Manager
Trimestre
s
Mois Montant_coût
Jour

Business 27/02/201
Intelligence 4
4
Constellation 7

 Fusionner plusieurs modèles en étoile qui utilisent des dimensions


communes

 Un modèle en constellation comprend donc :


o Plusieurs tables de faits
o Des tables de dimensions communes ou non à ces tables de faits.

Business 27/02/201
Intelligence 4
48
Modèle en Constellation -
Exemple

Fournisseu Produit
rCode_fou Achats
Code_pdt Ventes
Descriptio
rNom
Adress Code_produit n Couleur Code_produit Magasi
Marque Code_période n
C atégori
e Code_période Code_m
Créateur
e
Code_fournisseu Code_Magasi a
g
n Nom_ma
r Vill
g
Période Unités_vendues
Unités_achetées e
Téléphon
Code_pe Montant_vente e
Manager
r Année
Montant_achats Trimestre
s
Mois Montant_coût
Jour
Montant_remis
es
Business 27/02/201
Intelligence 4
4
Synthès 9
e
 Modèle en étoile
o Taille de dimension plus grosse
 Modèle en flocon de neige
o Jointures pour reconstruire
 Modèle en étoile >> Modèle en flocon
o car tables de dimension << tables de
fait

Business 27/02/201
Intelligence 4
5
0

Aspects
Fondamentaux
de la CHP3: MODÉLISATION DES

Modélisation DONNÉES
DÉCISIONNELLES

MultiDimension
n elle

Business 27/02/201
Intelligence 4
5
Dimension 1

 Une dimension peut être définie comme :


o un thème, ou un axe (attributs), selon lequel les seront analysées.
données
 Ex : Temps, Découpage administratif, Produits.
 Une dimension contient des membres organisés en hiérarchie :
o Chacun des membres appartient à un niveau hiérarchique (ou niveau de
granularité) particulier
o Ex : pour la dimension Temps: année –semestre – mois – jour

Business 27/02/201
Intelligence 4
5
Dimensions - 2
Caractéristiques
 Dimension
o Temps, Produit, Géographie, ...
 Niveau : hiérarchisation des dimensions
o Temps : Année, Semestre, Trimestre, Mois,
Semaine, ...
o Produit : Rayon, Catégorie, Nature,...
o Géographie : Région, Département, Ville, Magasin,

o Produit::Rayo : Frais, Surgelé, ... , Liquide
 Membres d'un Niveau
n gorie
: Frais.Laitage, ... , Liquide.Jus
o Produit:: gorie.Natur
: Frais.Laitage.Yaourt, ... ,
o Produit:: e Liquide.Jus.Orange
 Cellule
o Intersection des membres des différentes dimensions
 Formule
o calcul, expression, règle, croisement des dimensions
 Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-
PrixAchat)), ...
Business 27/02/201
Intelligence 4
5
Fait 3
s
 Une mesure est un élément de donnée sur lequel portent les analyses, en
fonction
des différentes dimensions
o Ex : coût des travaux, nombre d’accidents, ventes
 Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un
membre de chacune des dimensions
 Exemple :
o « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux »
pour le membre « 2002 » du niveau année de la dimension « temps » et le membre «
Versailles » du niveau « ville » de la dimension « découpage administratif »

Business 27/02/201
Intelligence 4
5
Faits – Table des 4
Faits
 Fait additif :
o Additionnable suivant toutes les dimensions
o Exemples: quantité vendue, chiffre d’affaire, coût
 Fait semi-additif :
o Additionnable selon certaines dimensions
o Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de
clients (excepté sur la dimension produit)
 Fait non-additif :
o Non additionnable
o Exemple: attribut ratio (marge brute = 1- Coût/CA)

Business 27/02/201
Intelligence 4
5
Dimension 5
Temps
 tout entrepôt
 Relié toute table de
e fait
 2 choix d ’implantation

o Type SQL DATE


o Calendrier + Table Temps
 Informations supplémentaires
 Évènement (match de finale de coupe du
monde)
 Jours fériés, vacances, période fiscale,
 saison haute ou basse, …

Business 27/02/201
Intelligence 4
5
Opérations 6
OLAP
 Drill Up / Drill
Down
 Rotate
 Slicing
 Scoping

Business 27/02/201
Intelligence 4
5
Opérations OLAP - Drill Up/Drill 7
Down

Business 27/02/201
Intelligence 4
5
Opérations OLAP - 8
Rotate

Business 27/02/201
Intelligence 4
5
Opérations OLAP - 9
Slicing

Business 27/02/201
Intelligence 4
6
Opérations OLAP - 0
Scoping

Business 27/02/201
Intelligence 4
6
Stockage 1

 ROLA : Relational
P OLAP

 MOLA : Multi-Dimentional
P OLAP

 HOLA : Hybrid
P OLAP

 DOLA : Desktop
P OLAP

Business 27/02/201
Intelligence 4
6
ROLAP (Relational 2
OLAP)
 OLAP relationnel
 Données obtenues à partir de tables relationnelles et de jointures entre
celles-ci
 En fonction de la granularité, la requête générée est plus ou moins
complexe
 A chaque consultation, la requête est recalculée
o Les résultats ne sont pas stockés
 Langage : SQL
 Avantages
o Faible coût (car tire partie des ressources existantes)
 Inconvénients
o Temps de réponse long car sollicitation de la base à chaque relance d’un rapport
Business 27/02/201
Intelligence 4
6
MOLAP (Multi-Dimentional 3
OLAP)
 OLAP multi-dimentionnel
 Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o Exemple : Essbase…
 Plus de relationnel!
 Tous les croisements possibles sont précalculés
o Restitution des données instantanée
 Langage : MDX
 Avantages
o Temps de réponse très court (toutes les données et résultats sont stockés)
 Inconvénients
o Coût élevé des licences pour les bases multi-dimentionnelles
o Coût élevé de développement des cubes
o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats
précompilés
Business 27/02/201
Intelligence 4
6
HOLAP (Hybrid 4
OLAP)
 Association du ROLAP et du MOLAP
 Concept de Drill-Through
o Accès aux données agrégées avec MOLAP (Cube)
o Accès aux détails avec le ROLAP (tables relationnelles)
 Étapes :
o Données agrégées stockées dans une table multi-dimentionnelle
o Restitution de ces données à partir d’un outil de reporting
 Affichage des données agrégées extraites à partir des tables multi-dimentionnelles
 Affichage des détails des opérations issus des bases relationnelles
 Avantages
o Temps de réponse assez court
o Moins coûteux que MOLAP car moins de développement
 Inconvénients
o Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de
données
Business 27/02/201
Intelligence 4
6
DOLAP (Desktop 5
OLAP)

 Ce n’est pas une technologie de stockage, mais un mode de


fonctionnement.

 Base de donnée OLAP limitée en taille

 Permet à l’utilisateur d’enregistrer une partie de la base de données


multi- dimentionnelle en local

Business 27/02/201
Intelligence 4
6
H- 6
OLAP
 Nouvelles fonctions pour
SQL
o BREAK BY (SAS) un agrégat
o
o RANK
TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons)
o Extension du Group By (SQL99)
 Grouping Sets : Partitionnement selon plusieurs dimensions
 Rollup: réduire progressivement
 Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets
 MS MDX
o Langage d’expression OLAP pour MS SQL Server
o Exemples
 SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media
Type].Members ON ROWS FROM Sales
Business 27/02/201
Intelligence 4
6
7

Conception
d’un Data
Warehouse: CHP3: MODÉLISATION DES
DONNÉES

Étapes et DÉCISIONNELLES

Exemples

Business 27/02/201
Intelligence 4
6
Conception d’un Data 8
Warehouse
 Étape 1
o Choisir le processus à modéliser
 Étape 2
o Choisir le grain des faits
o Décider de ce que représente une ligne de la table de faits
 Niveau de détail : transactions individuelles, récapitulatifs journaliers,
mensuels…
 Étape 3
o Identifier les dimensions qui s’appliquent aux lignes de la table des faits
 Typiquement le temps, le client, le foyer, le produit, magasin, agence,
compte…
 Étape 4
o Identifier les mesures de fait qui renseignent la table de faits
 De préférence des quantités numériques additives

Business 27/02/201
Intelligence 4
6
Conception d’un Data 9
Exemple
Warehouse : La
Distribution
 Processus :
o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)
o Modéliser les ventes au niveau des TPV
 Etape 1 : Le premier modèle dimensionnel
o Doit répondre aux questions les plus pressantes de l’utilisateur
o Ses données doivent être les plus faciles à extraire

o  Quels produits se vendent dans quel magasin, à quel prix, quand, dans
quelles conditions de promotion?

Business 27/02/201
Intelligence 4
7
Conception d’un Data 0
Exemple
Warehouse : La
Distribution

 Etape 2 :
o Quel niveau de détail doit être disponible dans le modèle?
o Principe: Obtenir un schéma basé sur les données les plus atomiques

o  Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour
mieux anticiper les requêtes ad-hoc des utilisateurs

Business 27/02/201
Intelligence 4
71
Conception d’un Data
Exemple
Warehouse : La
Distribution
 Etape 3 :
o Choix des dimensions
o Principe: l’énoncé précis du grain détermine les dimensions principales
o Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur
unique pour chaque combinaison de valeurs des dimensions principales

Faits de Transaction TPV Magasin


 Dimensions Clé magasin
principales Date Clé date Attributs
o Temps Clé Date Clé Produit
Attributs
o Produit Clé
o Magasin
Magasin Promotion
Produit Clé Clé Promo
o Promotion Clé Attributs
Promotion
Attributs
Produit

Business 27/02/201
Intelligence 4
72
Conception d’un Data
Exemple
Warehouse : La
Distribution
Produit

Clé Produit
Description produit
 Etape 3 (Suite): Description marque
Description
o Dimension Produit catégorie
 Attributs obtenus à partir du fichier Produits de l’application ll Description type
opérationne e emballage
Taille emballage
Poids
Unité de mesure du
poids Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur
étagère
Business 27/02/201
Intelligence
… 4
73
Conception d’un Data
Exemple : La Distribution
Warehouse
 Etape 4 : Identifier les faits
o Quantité vendue, montant de la vente en euros, coût standard en euro
o Questions: stocker le bénéfice? La marge brute?
o Principe: pourcentage et ratios sont non-additifs  Ne pas les stocker, mais stocker le
numérateur et dénominateur

Faits de Transaction Magasin


TPV Clé magasin
Date Clé date
Attributs
Clé Date Clé Produit
Attributs Clé
Magasin
Promotion
Produit Clé Promotion Clé Promo
Clé Produit Numéro de trans. Attributs
Attributs TPV Quantité
vendue Montant
Business des ventes Coût
Bénéfice 27/02/2014
Intelligence