Vous êtes sur la page 1sur 11

 Forme normale :  Une relation est en 1FN si et seulement si tout attribut de la relation

• Type de relation particulier entre les entités contient une valeur atomique (non multiple, non composée) constante
dans le temps.
• Permet d’éviter les anomalies transactionnelles dues à une
mauvaise modélisation des données  Contiennent une valeur atomique non décomposable
Ex : Attribut Adresse « N° Nom rue CP Ville » => 5 attributs différents
• Permet de vérifier la robustesse de la conception des modèles de
données pour éviter les problèmes de redondance et de mise à  Contiennent des valeurs non répétitives. Sinon : choisir le domaine
jour du contexte de valeur liste.
• Détecter et étudier les dépendances fonctionnelles à l’intérieur des  Sont constants dans le temps (utiliser par exemple la date de
tables pour éliminer les informations redondantes et les anomalies naissance plutôt que l'âge).
qui en résultent. Problème Solution
 Dans le modèle OLTP, il existe 8 formes normales (on s’intéresse à 3) Produit Fournisseur Produit Fournisseur
• Elles s’emboitent les unes dans les autres Téléviseur Vidéo SA, Hitek LTD Téléviseur Vidéo SA
• Le respect d’une FN de niveau supérieur implique le respect des Téléviseur Hitek LTD
FN des niveaux inférieurs
Modélisation multidimensionnelle 2021-2022 5 Modélisation multidimensionnelle 2021-2022 6

Exemple 1: Une relation est en 2FN si :


Personne (NumPers, nom, prénom, rue-ville, Prénom-enfants) 1. Elle est en 1FN.
2. Toutes les DF entre la clé et les autres attributs sont élémentaires :
=> Personne n’est pas en 1FN, il faut la décomposer. Tout attribut non clé primaire est dépendant de la clé primaire
Personne (NumPers, nom, prénom, rue, ville) entière.
Prénom-enfants (NumPers, numPrénom)
Problème Solution
Prénom (numPrénom, Prénom)
Produit Fournisseur Adresse Fournisseur Adresse
Exemple 2: Fournisseur Produit Fournisseur
Fournisseur
Télé Vidéo SA 13 Rue Midi Télé Vidéo SA Vidéo SA 13 Rue Midi
Employé (NumEmp, CodeProjet, NomEmp, Durée, Service)
Ecran Vidéo SA 13 Rue Midi Ecran Vidéo SA Hitek LTD 25 Rue Matin
 Décomposition :
télé Hitek LTD 25 Rue Matin télé Hitek LTD
Employé (NumEmp, NomEmp, Service)
Affectation (NumEmp, NumProjet)
Projet (NumProjet , CodeProjet, Durée)
Modélisation multidimensionnelle 2021-2022 7 Modélisation multidimensionnelle 2021-2022 8
Exemple
(+) Succès du traitement des transactions dans les BDR dû à
l’apport de la modélisation relationnelle
Exemple : simple recherche dans une table principale d'adresses
clients.
 Cette recherche est contrôlée par une clé d'adresse client, qui
définit l'unicité de l'enregistrement et permet une recherche
indexée extrêmement rapide.
 Le respect des formes normales fait que cette mise à jour soit
faite en une itération, sans risque d’oublier des enregistrements

Modélisation multidimensionnelle 2021-2022 13 Modélisation multidimensionnelle 2021-2022 14

(-) Modèle complexe Compte(NC, Nom, Prenom, Solde)


 Plusieurs tables et jointures mises en œuvre Comment ajouter l’information sur l’historique?
 Risque de dégradation des performances des requêtes d’analyse Ma table avec historique devient Compte(NC, DateOp, Solde)
 Données historiques difficilement représentées Questions : Quel est le solde courant de mon client 525 ?
SELECT Solde
 Illisibilité du schéma pour un décideur qui souhaite générer des cubes
FROM Compte
d’analyse
WHERE NC=525
 La modélisation n’est pas centré sur le sujet d’affaire (vente par exemple) AND DateOp= (SELECT MAX(DateOp)
FROM Compte
 Représentation aplatie disparate/non multidimensionnelle
WHERE NC=525
 Contraire aux objectifs du DW )
Quels sont les soldes courants de mes clients ?

Modélisation multidimensionnelle 2021-2022 15 Modélisation multidimensionnelle 2021-2022 16


Modélisation Multidimensionnelle :
Méthode de conception qui vise à présenter les données sous une forme
21 standardisée, intuitive et qui permet des accès hautement performants.
Permet de considérer un sujet analysé comme point dans un espace à plusieurs
dimensions.
 Les concepts: Dimension 1 Dimension 2
 Dimensions et hiérarchies
 Faits et mesures
Fait
Niveaux d’abstraction :
 Conceptuel
Niveau conceptuel  Abstraction des aspects techniques Dimension 3
 Analyse des besoins des décideurs
Niveau logique
 Logique : Mode de stockage
Niveau physique  Physique : Processus d’alimentation
Modélisation multidimensionnelle 2021-2022 Modélisation multidimensionnelle 2021-2022 22

Mesure :
 Elément de donnée sur lequel vont porter les analyses, en
23 fonction des différentes dimensions/axes
Ex : coût des travaux, nombre d’accidents, ventes
 Valeurs numériques que l’on compare (ex : montant_ventes,
qte_vendue)
 Résultat d’une opération d’agrégation des données :
⇒stockées dans les tables de fait

Indépendant du choix d’implantation

Modélisation multidimensionnelle 2021-2022 Modélisation multidimensionnelle 2021-2022 24


 Mono-hiérarchie  Hiérarchies multiples : plusieurs alternatives pour une même dimension

Année Pays

Semestre Département Région de ventes

Semaine

Mois Ville Secteur de ventes

Client
Jour

Modélisation multidimensionnelle 2021-2022 29 Modélisation multidimensionnelle 2021-2022 30

Mono- Hiérarchie  Niveau de détail/finesse de représentation


hiérarchie multiple  Journée > heure du jour
année année  Magasin > rayonnage

semestre  Le grain de la dimension Temps est Jour


semestre
semaine  Le grain de la dimension Territoire est Région
mois mois

jour jour  Choix de la granularité

Temps Temps

Attributs définissant les niveaux de granularité sont appelés paramètres


Attributs informationnels liés à un paramètre sont dits attributs faibles
Modélisation multidimensionnelle 2021-2022 31 Modélisation multidimensionnelle 2021-2022 32
Produit
Temps product_key
description
time_key brand
day_of_week category
month
quarter
year Fait de Vente
holiday_flag
time_key
product_key
select p.brand, sum(fv.dollars_sold), sum(fv.units_sold) store_key
 Mesures : dollars_sold Magasin
from faitvente fv, produit p, temps t
• Dépendent d'un événement d'affaires (fait); where fv.productkey = p.productkey (contrainte de
units_sold
sales_amount store_key
store_name
• Ont souvent des valeurs continues (ou un grand nombre de valeurs jointure) customer_numb
adress
and fv.timekey = t.timekey (contrainte de jointure)
discrètes possibles); floor_plan_type
and t.quarter = ‘ 1 Q 97 ’ (contrainte applicative)
• Servent dans le calcul d’indicateurs de performance, d’agrégation; group by p.brand
Ex: montant total et quantité d'une commande. order by p.brand

 Attributs (numériques) de dimension: /////////////////////////////////////////


• Indépendants des événements d'affaires; select p.brand, sum(fv.dollars_sold), sum(fv.units_sold)
• Ont souvent des valeurs discrètes; from (faitvente fv join produit p using (productkey))join temps t using (timekey )
where t.quarter = ‘ 1 Q 97 ’ (contrainte applicative)
• Servent à filtrer ou étiqueter les faits; group by p.brand
Ex: jour et heure d'une transaction, âge d'un client, etc. order by p.brand
Favoriser les jointures avec JOIN au lieu
de filtrage dans la clause WHERE
(Lisibilité et optimisation des requêtes)
Modélisation multidimensionnelle 2021-2022 37 Modélisation multidimensionnelle 2021-2022 38

 Représentation d’une ou plusieurs requêtes de l’utilisateur du SID Exemple 1 :


 À une requête correspond une et une seule vue
Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux
 À une vue peuvent correspondre plusieurs requêtes de la région nord ayant des véhicules de 10 à 14 CV en avril 2004?
 Une vue correspond également à un hypercube
Faits Région
 Chaque dimension est décrite par une entité dont le contenu est décrit par Vue:
l’association de ces entités • Frais de déplacement
Employé Clé Employé
Nom Clé Véhicule
 Les propriétés de l’association sont des faits ou mesures • Kilométrage Fonction
Clé Région
 Les propriétés des entités intervenant dans la vue sont des conditions • Par Employé Clé Temps Temps
Véhicule Frais de déplacement Mois
 Les combinaisons des conditions sont les coordonnées qui
(fonction) Marque Kilométrage Année

déterminent des valeurs de faits, comme une combinaison de valeurs • Par Véhicule Puissance

numériques peut déterminer la position d’un point dans l’espace (puissance)


• Par Région
 Un fait n’est pas seulement un élément du résultat de la requête, mais • Par Mois
il doit être déterminé par l’association des conditions

Modélisation multidimensionnelle 2021-2022 39 Modélisation multidimensionnelle 2021-2022 40


 En opérant une relation superficielle entre les trois vues des
exemples 2, 3 et 4, on détecte deux sortes d’éléments de Client
Nom
Région

rapprochement : Fonction Fusion des 3 vues ?


Vue 1
• Certaines informations (dimensions ou faits) se retrouvent dans Marge
Produit Mois
plusieurs vues Nom

• Certaines dimensions appartenant à des vues différentes sont


Marque
fonctionnellement liées les unes aux autres
Vue 2
• On peut intégrer ces vues en un seul contexte comportant une Année

association porteuse des faits : Marge, Revenu, Quantité, Pays Revenu


comportant 9 dimensions distinctes Gamme

Vue 3
Trimestre

Région Quantité
Modélisation multidimensionnelle 2021-2022 45 Modélisation multidimensionnelle 2021-2022 46

Année
 L’intégration de chaque nouvelle vue est donc susceptible de
modifier le grain sur une ou plusieurs dimensions
Trimestre
 Le grain d’un contexte découle de la combinaison des grains
Mois Client de toutes les dimensions. Il définit le niveau de détail pouvant
Fait de vente être obtenu par la requête la plus sélective et la plus fine
Marge possible mettant en jeu toutes les dimensions.
Revenu
Produit
Quantité
Région
 Après intégration :
 Le grain de la dimension Temps est Mois
Gamme Pays  Le grain de la dimension Territoire est Région

Marque

Modélisation multidimensionnelle 2021-2022 47 Modélisation multidimensionnelle 2021-2022 48


Produit
Code_pdt Ventes
Description
Créateur dépend Couleur
53 de la marque => Marque Code_produit
Code_période
Magasin
modèle non 3FN Créateur Code_mag
Code_Magasin Nom_mag
Ville
Unités_vendues Téléphone
Montant_ventes Manager
Période
Montant_coût
Code_per
Année
Trimestre
Mois
Jour
• Modèle en étoile
• Modèle en flocon de neige
• Modèle en constellation

Modélisation multidimensionnelle 2021-2022 Modélisation multidimensionnelle 2021-2022 54

 Une table de faits comprenant une ou plusieurs mesures


 Plusieurs tables de dimension dénormalisées
 Les tables de dimension n'ont pas de lien entre elles.
 Avantages
 Facilité de navigation.
 Performances : nombre de jointures limité.
 Gestion des agrégats.

 Inconvénients
 Toutes les dimensions ne concernent pas les mesures (expl :
créateur dans la dimension produit)
 Redondances dans les dimensions.
 Alimentation complexe..
Modélisation multidimensionnelle 2021-2022 55 Modélisation multidimensionnelle 2021-2022 56
Modélisation multidimensionnelle 2021-2022 61 Modélisation multidimensionnelle 2021-2022 62

 Modèle en étoile 1. Choisir le processus d'affaires : Doit impliquer les cadres supérieurs
 Taille de dimension plus grosse (dénormalisée) Isoler les faits à étudier ⇒ Schéma des tables de faits
 Modèle en flocon de neige 2. Définir le grain: "à quoi correspond une ligne de la table de faits ?"
 Jointures pour reconstruire (normalisation des dimensions)
3. Identifier les dimensions : Découle directement de la définition du
 Modèle en constellation >> Modèle en étoile grain
 plusieurs tables de faits Définir les dimensions ⇒ Axes d'analyse
4. Identifier les faits ⇒ Dictionnaire des mesures
5. Normaliser les dimensions : Éclater en plusieurs tables liés par
contraintes référentielles (si schéma en flocon)
6. Intégrer l'ensemble : Plusieurs tables de faits partagent quelques
tables de dimension (constellation d’étoiles)

Modélisation multidimensionnelle 2021-2022 63 Modélisation multidimensionnelle 2021-2022 64


Principe : Faits et dimensions modélisés au travers des tables
OLAP
[Kimball 96]
Règles de transformation (données détaillées)
 R1 : Toute dimension est transformée en une relation où :
 Attributs = tous les paramètres et attributs faibles
 Clé primaire = paramètre de plus bas niveau

 R2 : Tout fait est transformé en une relation où :


 Clé primaire =
 Concaténation des clés étrangères référençant les dimensions
 OU Clé synthétique (Surrogate Key)
 Attributs = mesures + clés étrangères

Modélisation multidimensionnelle 2021-2022 69 Modélisation multidimensionnelle 2021-2022 70

 Multidimensional OLAP:
 Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles
natives (les cubes)  Hybride OLAP:
 Les données sont stockées comme des matrices à plusieurs dimensions : Cube[1:m,1:n,1:p]  tables de faits et tables de dimensions stockées dans SGBD
(mesure) relationnel (données de base)
 Accès direct aux données dans le cube  données agrégées stockées dans des cubes
 Indexation rapide des données calculées
 Solution hybride MOLAP et ROLAP : Concept de Drill-Through
 Plus difficile à mettre en place
 Accès aux données agrégées avec MOLAP (Cube)
 Formats souvent propriétaires  Accès aux détails avec le ROLAP (tables relationnelles)
 Conçu exclusivement pour l’analyse multidimensionnelle
 Bon compromis au niveau coût et performance
 Capacité de stockage limitée

 Exemples de moteurs MOLAP:


 Microsoft Analysis Services
 Oracle OLAP
 Hyperion Essbase (racheté par Oracle)
2021-2022 71 Modélisation multidimensionnelle 2021-2022 72
Modélisation multidimensionnelle
0:n 0:n
Un fait : Il a été acheté 3
exemplaires à 1 euro :
 Structure simple utilisant le modèle entité-relation du produit pid3
1:1
par le client cid1
0:n
 une entité/table centrale (table des faits) à la date did3
dans le magasin mid2
 objets de l'analyse 1:1
dans le chariot bid8
1:1
 taille très importante 1:1 correspondant à la
promotion prid1
 beaucoup de champs 1:1
0:n Un élément de la dimension
location :
 des entités/tables périphériques (tables de dimensions) 1:1
store id : mid2
 critères/dimension de l'analyse store name : Auchan
0:n city : Villetaneuse
 taille peu importante
région : Ile de France
 peu de champs country : France

0:n

Modélisation multidimensionnelle 2021-2022 77 Modélisation multidimensionnelle 2021-2022 78

 Attributs de la table des faits Forme Normale de Boyce-codd (BCNF)


 des clés étrangères formant une clé primaire  Une relation est en BCNF , si elle est en 3FN et qu’aucun attribut membre
 des mesures associées à chaque clé primaire de la clé ne dépend fonctionnellement d’un attribut non membre de la clé.
 Association de type (0; n)↔(1; 1) connectant les différentes Exemple :
dimensions aux faits ADRESSE (Ville, Rue, CodePostal)
⇒ Normalisation ? Cette relation présente les DF suivantes :
 Ville, Rue→ CodePostal
 Table des faits en forme normale de Boyce-Codd
 CodePostal →Ville
 Tables de dimensions non normalisées Elle est en 3FN (car elle est en deuxième forme normale, et tout attribut
chaque attribut non clé dépend fonctionnellement de la seule n’appartenant pas à une clé ne dépendra pas d’un attribut non clé).
clé de la relation Cette relation n’est pas en BCNF car l’attribut ‘’Ville’’ (qui fait partie de la
clé) dépend fonctionnellement de CodePostal (qui est un attribut non
membre de la clé).
Modélisation multidimensionnelle 2021-2022 79 Modélisation multidimensionnelle 2021-2022 80
 Plusieurs tables des faits
 Partage de tables de dimensions
En général, on a
 un schéma de constellation de faits pour l'entrepôt
 une étoile de la constellation pour un magasin de données
(Data Mart)

Modélisation multidimensionnelle 2021-2022 85 Modélisation multidimensionnelle 2021-2022 86

 Cours Systèmes d’information décisionnels, E. GRISLIN-‐LE


STRUGEON et D. DONSEZ
 Cours de Entrepôts de données et analyse en ligne, Bernard
ESPINASSE
 http://www.kimballgroup.com/
 SQL Server Microsoft et OLAP
 Cours de Introduction aux systèmes d’information décisionnelle, O.
Boussaid
 Cours Business Intelligence, Modélisation multidimensionnelle,
Lilia Sfaxi, INSAT

Modélisation multidimensionnelle 2021-2022 87

Vous aimerez peut-être aussi