Vous êtes sur la page 1sur 35

Chapitre 2 : Modélisation

multidimensionnelle des
entrepôts de données
Vision analytique des données
 Objectif : analyser les performances des activités d’une
entreprise

Comment savoir si mon entreprise est performante ? → ex : chiffre d'affaire


Dans le cas de bonne (ou mauvaise performance) :

Comment savoir

 Quel produit a causé la bonne (ou mauvaise) performance ?


 Quelle période de temps ?

 Quelle région ?

30
…Vision analytique des données
 Les analyses décisionnelles (OLAP) sont directement reliées
à une modélisation de l'information conceptuelle :
 proche de la perception qu'en a l'analyste
 basée sur une vision multidimensionnelle des données

 C'est la modélisation multidimensionnelle


 considère un sujet analysé comme un point dans un espace à
plusieurs dimensions
 les données y sont organisées de façon à mettre en
évidence le sujet analysé et les différentes perspectives de
l'analyse.

31
…Vision analytique des données
 Soit les données relatives aux ventes de 1999 d’une
entreprise de distribution :

 On peut distinguer différentes perspectives pour observer ces


données :
 une dimension relative à la catégorie des produits
 une dimension relative à la région

32
…Vision analytique des données
 Considérons plusieurs tables des ventes de chaque année entre 1997 et 1999 On
peut alors observer les données dans un espace à 3 dimensions :
 la dimension catégories produit
 la dimension régions
 la dimension temps
Chaque intersection de ces dimensions représente une cellule comportant le montant
des ventes :

 La modélisation multidimensionnelle a donné naissance aux concepts de fait et de


dimension

33
Modélisation multidimensionnelle : Concept de fait
 Sujet analysé (vente, stock, ressource humaine…)
 Analysable selon des INDICATEURS appelés MESURES correspondant aux
informations de l'activité analysée.
 Ces mesures sont numériques et généralement valorisées de façon
continue, on peut les additionner, les dénombrer ou bien calculer le
minimum, le maximum ou la moyenne.
 Exemples :
 les ventes (chiffre d'affaire, quantités et montants commandés,
volumes des ventes, ...)
 les stocks (nombre d'exemplaires d'un produit en stock, ...),
 les ressources humaines (nombre de demandes de congés,
nombre de démissions, …).
34
Concept de fait : Exemple

Fait F Vente
Quantité
Mesures du Montant
fait

35
Concept de fait : grain des faits
 Le grain est la définition de l'événement d'affaires produisant les
valeurs du fait (faits);

 Toutes les valeurs doivent avoir le même grain;

 Doit être le plus fin possible (atomique) pour le processus


d'affaires:
 Permet de faire des requêtes plus précises et imprévues;
 Déterminé par les réalités physiques des sources de données.

 Détermine les dimensions du modèle.

36
Concept de fait : additivité de mesures
On distingue 3 types de mesures:
 Mesures additives :
 Peuvent être agrégées sur toutes les dimensions en utilisant SUM
 Ex: prix de vente, bénéfice brut calculé à partir des ventes et des
coûts
 Mesures semi-additives :
 Ne peuvent pas être agrégées sur certaines dimensions -
généralement additives suivant le temps
 Ex: nombre de clients : additif selon le temps ou magasin, non additif
selon le produit
 Mesures non additives :
 Ne peuvent être agrégées sur aucune dimension
 Ex: coût unitaire, pourcentage(s), ratio(s)

37
Modélisation multidimensionnelle : Concept de dimension
 Axe d'analyse avec lesquels on veut faire l'analyse
(Géographique, temporel, produits, etc).
 Fournissent le contexte (qui, quoi, quand, où, pourquoi et
comment) des faits;
 Ex: Dans l'exemple précédent, le fait « Vente » peut être
analysé suivant différentes perspectives correspondant à
trois dimensions : la dimension Temps, la dimension
Geographie et la dimension Categorie.
38
Modélisation multidimensionnelle : Concept de dimension

 Se compose d’attributs hautement corrélés


regroupés selon les objets clés d'une entreprise et
correspondant aux informations faisant varier les
mesures de l'activité.
 Chaque attribut de la dimension a des
caractéristiques propres et est en général textuel.

39
Concept de dimension: Exemples
Dimensions

Temps Géographie Catégorie


Année Région TypeProduit
Trimestre Département Gamme
Saison Ville NomProduit
Mois Couleur
Jour
Attributs de la
dimension
40
Concept de dimension : Hiérarchies de dimensions
 Les attributs d'une dimension sont organisés suivant des
hiérarchies
 Chaque attribut appartient à un niveau hiérarchique (ou niveau
de granularité) particulier.
 Exemples :
 Dimension temporelle : jour<mois<année
 Dimension géographique : magasin<ville<région<pays
 Dimension produit : produit<catégorie<marque.
 Les attributs définissant les niveaux de granularité sont appelés
paramètres

41
Concept de dimension : dimension temporelle
 Centrale car la plupart des faits correspondent à des événements
d'affaires de l'entreprise;

 Mettre toutes ces valeurs même si la plupart peuvent être déduites


des autres.

42
Concept de dimension : dimension temporelle
 Y a-t-il un problème à définir la dimension suivante ?

43
Concept de dimension : dimension temporelle
 Avoir un grain trop fin dans la dimension temporelle (ex:
temps du jour) peut causer l'explosion du nombre de valeurs:
 Ex: 31,000,000 secondes différentes dans une année.

 Solution : mettre le temps du jour (time of day) dans une


dimension séparée:
 Dimension 1: année → mois → semaine → jour;
 Dimension 2: heure → minute → secondes;
 86,400 + 365 valeurs VS 31,000,000 valeurs.

44
Concept de dimension : choix des dimensions
 Demande le jugement et l'intuition du modélisateur;
 Plus on a d'attributs non-corrélés dans une dimension plus
la dimension correspondante aura de valeurs (explosion
combinatoire):
 Ex: 10,000 produits x 100 magasins = 1,000,000 de valeurs dans une
dimension ProduitMagasin.

 Règles:
 Les dimensions sont observables au niveau du grain du fait (font
partie de l’évènement d’affaires);
 Les attributs non-corrélés vont dans des dimensions séparées.

45
Concept de dimension : questions
 Vente: doit on mettre Région comme un attribut de Client ou
une dimension séparée ?

 Enseignement: doit on mettre Département, Professeur et


Cours dans une même dimension ?

46
…Questions
 Quel serait les dimensions et les faits correspondant aux
processus d’affaires suivants d’une entreprise de
télécommunications?

 1. Facturation clients

 2. Gestion du trafic d’appel

 3. Inventaire

47
Modélisation multidimensionnelle : Niveau conceptuel
 Les modèles Entité-Relation ne sont pas très utiles dans la
modélisation des ED
 L’ED est conceptuellement basé sur une vue
multidimensionnelle des données :
 Mais il n'y a toujours aucun accord sur COMMENT développer le
modèle conceptuel

48
Modélisation multidimensionnelle : Niveau conceptuel
 La plupart du temps, la conception des ED est réalisée au
niveau logique : un modèle multidimensionnel (schéma en étoile
/ flocon de neige) est directement conçu:
 Mais un schéma en étoile / flocon de neige n'est rien d'autre qu'un
schéma relationnel
 Il ne contient que la définition d'un ensemble de relations et de
contraintes d'intégrité
 Une meilleure approche:
 1) Concevoir d'abord un modèle conceptuel : Au niveau conceptuel.
 2) qui est ensuite traduit en un modèle logique : Au niveau logique.

49
Conception d’ED : Le modèle DFM

 Le modèle DFM (Data Fact Model) a été proposé par


Golfarelli M., Rizzi S. comme une solution pour la conception
d’ED,

 Le DFM est un modèle conceptuel graphique pour la


conception de MD.

50
Un exemple de DFM

51
Conception d’ED : Le modèle DFM
 Le but du DFM est de :
1. Fournir un support efficace au niveau conceptuel
2. Créer un environnement dans lequel les requêtes des utilisateurs
peuvent être formulées de manière intuitive
3. Rendre la communication possible entre les concepteurs et les
utilisateurs finaux dans le but de formaliser les spécifications des
exigences
4. Construire une plate-forme stable pour la conception logique
(indépendamment du modèle logique cible)
5. Fournir une documentation de conception claire et expressive
52
Modélisation avancée : Fait vide
 Correspondent aux faits qui n'ont pas de mesures
quantifiables,
 Ex: la présence d’un étudiant en classe (vrai ou faux).

 On peut imaginer la mesure d'un tel fait comme un attribut


fictif dont la valeur est toujours à 1;

 Exemple:

présence

53
Modélisation avancée : dimensions conformes
 Également appelées master dimensions ou common
reference dimensions;

 Dimensions potentiellement partagées par des faits


modélisant des processus d'affaires différents;

 Des dimensions peuvent être conformes si les attributs


d'une dimension sont un sous-ensemble des attributs d'une
autre dimension;

54
Modélisation avancée : dimensions conformes

55
Modélisation avancée : questions
 À quoi servent ces attributs?

 Sont elles nécessaires dans le fait?

56
Modélisation avancée : dimension dégénérée
 Correspondent souvent à des identifiants dans les systèmes
sources :
 Ex: no de commande, no de billet, etc.

 Il faut toujours laisser ces attributs dans le fait :


 Permettentde répondre à des questions plus générales
comme "quel est le nombre moyen de lignes correspondant
à une même commande ?";
 Permettent également de retracer la provenance d'une
ligne à une source de données.
57
Modélisation avancée : attributs descriptifs
 Les attributs informationnels liés à un paramètre sont dits
attributs descriptifs ou attributs faibles. Ces attributs ne
peuvent pas être utilisés dans l’agrégation des mesures.

Ex : size : l’agrégation des


ventes selon la taille d’un
produit n’a pas de sens

58
Modélisation avancée : La convergence
 Une convergence a lieu lorsque les attributs d'une hiérarchie sont
connectés par 2 ou plusieurs chemins alternatifs des associations
plusieurs-à-un (graphiquement, utilisation de flèches).
Ex: dans la dimension magasin, les magasins sont regroupés en
régions de vente et aucune relation inclusive n'existe entre les
régions et les états, mais chaque région fait partie d'un seul pays :

Store -> salesDistrict -> country


ou
Store -> storeCity -> state -> country

59
Modélisation avancée : Hiérarchies partagées
 Les hiérarchies partagées existent lorsque la partie entière
des hiérarchies est fréquemment répliquée 2 fois ou plus
dans les schémas de faits. En particulier dans les hiérarchies temporelles,
2 ou plusieurs dimensions de type date avec
différentes significations peuvent facilement
exister dans un même fait (dateCommande,
dateEnvoiDemandé, dateEnvoiRéel), et doivent
construire une hiérarchie mois-année sur
chacune d'elles
Une abréviation est introduite ( calling,
called)
60
Exercice
 La gestion des enseignements de l'université est réalisée au travers une
base de données dont la structure est la suivante :
 Etudiant (idEtu, nom, prenom, dateNaiss,adresse,bac)

 Cours (idC, nom, formation)

 Enseignant(idEns, nom, prenom, specialite)

 TypeExam(idType, type)

 Inscription(idEtu#,idC#,anneeUniv)

 Composer(idEtu#,idC#,idType#,note,date)

 Enseigner(idC#,idEns#,nbH,anneeUniv)

 Responsable(idEns#,idC#,decharge,anneeUniv)

61
…Exercice
Un étudiant est caractérisé par un identifiant idEtu, un nom, un prénom,
une date de naissance (dateN) et une adresse. On connait aussi son origine
au travers de la spécialité du bac qu'il a obtenu. Un cours est caractérisé
par un identifiant idC, un nom et est associe à une et une seule formation.
Un enseignant est caractérisé par un identifiant idEns, un nom, un prénom
et une spécialité. Un étudiant peut s'inscrire à un cours pour une année
universitaire anneeUniv et obtenir une note pour un examen d'un cours à
une date donnée date. Deux types d'examen (type) sont possibles :
contrôle continu et examen terminal. On fera l'hypothèse que chaque
cours sera évalué par un seul contrôle continu et un seul examen terminal.
Un enseignant donne un nombre de cours nbh pour une matière et peut
aussi être responsable d'un cours pour une année universitaire. Cette
responsabilité lui donne droit à une décharge (decharge) d'heures
d'enseignement.
62
…Exercice
 Cahier des charges : on souhaite analyser les enseignements
donnés à l'université selon les indicateurs suivants :
 Les notes moyennes des étudiants pour un cours à une date donnée.
 Le nombre d'heures enseignées pour un enseignant et un cours.
 Le nombre d'heures de décharge pour un enseignant et un cours.
Travail demandé :
 Proposez un schéma multidimensionnel DFM permettant de
répondre au cahier des charges. Identifiez, pour chaque dimension,
les hiérarchies avec leurs niveaux de granularité.

63

Vous aimerez peut-être aussi