Académique Documents
Professionnel Documents
Culture Documents
multidimensionnelle des
entrepôts de données
Vision analytique des données
Objectif : analyser les performances des activités d’une
entreprise
Comment savoir
Quelle région ?
30
…Vision analytique des données
Les analyses décisionnelles (OLAP) sont directement reliées
à une modélisation de l'information conceptuelle :
proche de la perception qu'en a l'analyste
basée sur une vision multidimensionnelle des données
31
…Vision analytique des données
Soit les données relatives aux ventes de 1999 d’une
entreprise de distribution :
32
…Vision analytique des données
Considérons plusieurs tables des ventes de chaque année entre 1997 et 1999 On
peut alors observer les données dans un espace à 3 dimensions :
la dimension catégories produit
la dimension régions
la dimension temps
Chaque intersection de ces dimensions représente une cellule comportant le montant
des ventes :
33
Modélisation multidimensionnelle : Concept de fait
Sujet analysé (vente, stock, ressource humaine…)
Analysable selon des INDICATEURS appelés MESURES correspondant aux
informations de l'activité analysée.
Ces mesures sont numériques et généralement valorisées de façon
continue, on peut les additionner, les dénombrer ou bien calculer le
minimum, le maximum ou la moyenne.
Exemples :
les ventes (chiffre d'affaire, quantités et montants commandés,
volumes des ventes, ...)
les stocks (nombre d'exemplaires d'un produit en stock, ...),
les ressources humaines (nombre de demandes de congés,
nombre de démissions, …).
34
Concept de fait : Exemple
Fait F Vente
Quantité
Mesures du Montant
fait
35
Concept de fait : grain des faits
Le grain est la définition de l'événement d'affaires produisant les
valeurs du fait (faits);
36
Concept de fait : additivité de mesures
On distingue 3 types de mesures:
Mesures additives :
Peuvent être agrégées sur toutes les dimensions en utilisant SUM
Ex: prix de vente, bénéfice brut calculé à partir des ventes et des
coûts
Mesures semi-additives :
Ne peuvent pas être agrégées sur certaines dimensions -
généralement additives suivant le temps
Ex: nombre de clients : additif selon le temps ou magasin, non additif
selon le produit
Mesures non additives :
Ne peuvent être agrégées sur aucune dimension
Ex: coût unitaire, pourcentage(s), ratio(s)
37
Modélisation multidimensionnelle : Concept de dimension
Axe d'analyse avec lesquels on veut faire l'analyse
(Géographique, temporel, produits, etc).
Fournissent le contexte (qui, quoi, quand, où, pourquoi et
comment) des faits;
Ex: Dans l'exemple précédent, le fait « Vente » peut être
analysé suivant différentes perspectives correspondant à
trois dimensions : la dimension Temps, la dimension
Geographie et la dimension Categorie.
38
Modélisation multidimensionnelle : Concept de dimension
39
Concept de dimension: Exemples
Dimensions
41
Concept de dimension : dimension temporelle
Centrale car la plupart des faits correspondent à des événements
d'affaires de l'entreprise;
42
Concept de dimension : dimension temporelle
Y a-t-il un problème à définir la dimension suivante ?
43
Concept de dimension : dimension temporelle
Avoir un grain trop fin dans la dimension temporelle (ex:
temps du jour) peut causer l'explosion du nombre de valeurs:
Ex: 31,000,000 secondes différentes dans une année.
44
Concept de dimension : choix des dimensions
Demande le jugement et l'intuition du modélisateur;
Plus on a d'attributs non-corrélés dans une dimension plus
la dimension correspondante aura de valeurs (explosion
combinatoire):
Ex: 10,000 produits x 100 magasins = 1,000,000 de valeurs dans une
dimension ProduitMagasin.
Règles:
Les dimensions sont observables au niveau du grain du fait (font
partie de l’évènement d’affaires);
Les attributs non-corrélés vont dans des dimensions séparées.
45
Concept de dimension : questions
Vente: doit on mettre Région comme un attribut de Client ou
une dimension séparée ?
46
…Questions
Quel serait les dimensions et les faits correspondant aux
processus d’affaires suivants d’une entreprise de
télécommunications?
1. Facturation clients
3. Inventaire
47
Modélisation multidimensionnelle : Niveau conceptuel
Les modèles Entité-Relation ne sont pas très utiles dans la
modélisation des ED
L’ED est conceptuellement basé sur une vue
multidimensionnelle des données :
Mais il n'y a toujours aucun accord sur COMMENT développer le
modèle conceptuel
48
Modélisation multidimensionnelle : Niveau conceptuel
La plupart du temps, la conception des ED est réalisée au
niveau logique : un modèle multidimensionnel (schéma en étoile
/ flocon de neige) est directement conçu:
Mais un schéma en étoile / flocon de neige n'est rien d'autre qu'un
schéma relationnel
Il ne contient que la définition d'un ensemble de relations et de
contraintes d'intégrité
Une meilleure approche:
1) Concevoir d'abord un modèle conceptuel : Au niveau conceptuel.
2) qui est ensuite traduit en un modèle logique : Au niveau logique.
49
Conception d’ED : Le modèle DFM
50
Un exemple de DFM
51
Conception d’ED : Le modèle DFM
Le but du DFM est de :
1. Fournir un support efficace au niveau conceptuel
2. Créer un environnement dans lequel les requêtes des utilisateurs
peuvent être formulées de manière intuitive
3. Rendre la communication possible entre les concepteurs et les
utilisateurs finaux dans le but de formaliser les spécifications des
exigences
4. Construire une plate-forme stable pour la conception logique
(indépendamment du modèle logique cible)
5. Fournir une documentation de conception claire et expressive
52
Modélisation avancée : Fait vide
Correspondent aux faits qui n'ont pas de mesures
quantifiables,
Ex: la présence d’un étudiant en classe (vrai ou faux).
Exemple:
présence
53
Modélisation avancée : dimensions conformes
Également appelées master dimensions ou common
reference dimensions;
54
Modélisation avancée : dimensions conformes
55
Modélisation avancée : questions
À quoi servent ces attributs?
56
Modélisation avancée : dimension dégénérée
Correspondent souvent à des identifiants dans les systèmes
sources :
Ex: no de commande, no de billet, etc.
58
Modélisation avancée : La convergence
Une convergence a lieu lorsque les attributs d'une hiérarchie sont
connectés par 2 ou plusieurs chemins alternatifs des associations
plusieurs-à-un (graphiquement, utilisation de flèches).
Ex: dans la dimension magasin, les magasins sont regroupés en
régions de vente et aucune relation inclusive n'existe entre les
régions et les états, mais chaque région fait partie d'un seul pays :
59
Modélisation avancée : Hiérarchies partagées
Les hiérarchies partagées existent lorsque la partie entière
des hiérarchies est fréquemment répliquée 2 fois ou plus
dans les schémas de faits. En particulier dans les hiérarchies temporelles,
2 ou plusieurs dimensions de type date avec
différentes significations peuvent facilement
exister dans un même fait (dateCommande,
dateEnvoiDemandé, dateEnvoiRéel), et doivent
construire une hiérarchie mois-année sur
chacune d'elles
Une abréviation est introduite ( calling,
called)
60
Exercice
La gestion des enseignements de l'université est réalisée au travers une
base de données dont la structure est la suivante :
Etudiant (idEtu, nom, prenom, dateNaiss,adresse,bac)
TypeExam(idType, type)
Inscription(idEtu#,idC#,anneeUniv)
Composer(idEtu#,idC#,idType#,note,date)
Enseigner(idC#,idEns#,nbH,anneeUniv)
Responsable(idEns#,idC#,decharge,anneeUniv)
61
…Exercice
Un étudiant est caractérisé par un identifiant idEtu, un nom, un prénom,
une date de naissance (dateN) et une adresse. On connait aussi son origine
au travers de la spécialité du bac qu'il a obtenu. Un cours est caractérisé
par un identifiant idC, un nom et est associe à une et une seule formation.
Un enseignant est caractérisé par un identifiant idEns, un nom, un prénom
et une spécialité. Un étudiant peut s'inscrire à un cours pour une année
universitaire anneeUniv et obtenir une note pour un examen d'un cours à
une date donnée date. Deux types d'examen (type) sont possibles :
contrôle continu et examen terminal. On fera l'hypothèse que chaque
cours sera évalué par un seul contrôle continu et un seul examen terminal.
Un enseignant donne un nombre de cours nbh pour une matière et peut
aussi être responsable d'un cours pour une année universitaire. Cette
responsabilité lui donne droit à une décharge (decharge) d'heures
d'enseignement.
62
…Exercice
Cahier des charges : on souhaite analyser les enseignements
donnés à l'université selon les indicateurs suivants :
Les notes moyennes des étudiants pour un cours à une date donnée.
Le nombre d'heures enseignées pour un enseignant et un cours.
Le nombre d'heures de décharge pour un enseignant et un cours.
Travail demandé :
Proposez un schéma multidimensionnel DFM permettant de
répondre au cahier des charges. Identifiez, pour chaque dimension,
les hiérarchies avec leurs niveaux de granularité.
63