Vous êtes sur la page 1sur 24

Conception,

développement et
exploitation des entrepôts
de données spatiales

Sboui Tarek

L’entrepôt : Contexte

 Nous avons une grande masse de données


 Distribuées
 Hétérogènes
 Très détaillées

 à traiter
 Synthétiser / résumer
 Visualiser
 Analyser

 pour une utilisation par des


 Analystes d’un métier
 Non informaticiens
 Non statisticiens 2

1
L’entrepôt : Contexte

 Comment répondre aux besoins de décideurs afin


d’améliorer les performances décisionnelles de l’entreprise?
 En donnant un accès rapide et simple à l’information
stratégique
 En donnant du sens aux données
 En donnant une vision transversale des données de
l’entreprise (intégration de différentes bases de données)
 En groupant, organisant, corrélant et agrégeant les données

L’entrepôt : Contexte

 Mettre en place une base dédiée aux


applications décisionnelles : un entrepôt de données
(datawarehouse) et un système pour exploiter ces
données (ex. SOLAP : Spatial OLAP)
 Transformer des données de production en informations
stratégiques

2
L’entrepôt de donnés (ED) : Définition

 Le DW est une collection de données orientées sujet,


intégrées, non volatiles et historisées, organisées pour
le support d’un processus d’aide à la décision. W.H.
Inmon (1996)

 C’est une BD à des fins d’analyse stratégique.

ED : Le processus de prise de décision


Exploitation
Ex.SOLAP

Data Cube

3
Data Cube (SOLAP Cube ou, BD
multidimensionnelle )

Cube - Concepts

 Mesure : sujet d’analyse


 Ex. » Vente, coût,...
 Dimension : contexte d’analyse
 » Temps, Produit, Géographie, ...
 Niveau : hiérarchisation des dimensions
 » Temps : Année, Semestre, Trimestre, Mois, Semaine, ...
 » Produit : Rayon, Catégorie, Nature, ...
 » Géographie : Région, Département, Ville, Magasin

4
Cube - Concepts

 Membre d'un Niveau


 » Rayon : Frais, Surgelé, ..., Liquide
 » Rayon.Catégorie: Frais.Laitage, ..., Liquide.Jus
 » Rayon.Catégorie.Nature: Frais.Laitage.Yaourt, ... ,
Liquide.Jus.Jus d’orange
 Cellule
 » intersection des membres des différentes dim.
 Formule
 » calcul, expression, règle, croisement des dim.
 Somme(Qte), Somme(Qte*PrixVente),
 Moyenne(Qte*(PrixVente-PrixAchat)), ...
9

Dimension (1)

 Axes d'analyse avec lesquels on veut faire l'analyse


 Ex. Géographique, temporel, produits, etc.

 Chaque dimension comporte un ou plusieurs attributs, et un ou


plusieurs membres. Ex. "Grand Tunis" est membre de la
dimension Zone géographique.
 Une dimension est tout ce qu'on utilisera pour faire nos analyses.

10

5
Dimension (2)

11

Hiérarchie (1)

 Les attributs/membres d'une dimension sont organisés selon des


hiérarchies
 Chaque membre appartient à un niveau hiérarchique (ou niveau
de granularité) particulier
 Exemples :
 Dimension temporelle : <jour, mois, année >
 Dimension géographique : <magasin, ville, région, pays>
 Dimension produit : <produit, catégorie, marque > etc.

12

6
Hiérarchie (2)

13

Granularité (1)

 Niveau de détail de représentation


 Journée > heure du jour
 Magasin > rayonnage
 Choix de la granularité

14

7
Granularité (2)

15

Fait

16

8
Mesure

17

Clés

18

9
Modélisation

 Faits
Il est formé de mesures correspondant aux données analysées.

 Dimensions
Le contexte d’analyse

19 19

Modélisation : Modèle en étoile (1)

20

10
Modèle en étoile (2)

21

Modèle en étoile (3)

22 22

11
Modélisation : Modèle en constellation

23

Modélisation : Modèle en flocon

24

12
Niveau logique

25

ROLAP (1)

26

13
ROLAP (2)

27

MOLAP (1)

28

14
MOLAP (2)

29

HOLAP (1)

30

15
HOLAP (2)

31

Exercice

L’ED doit fournir le chiffre d’affaires des ventes d’un produit, par
région, date, client, et vendeur, ainsi que toutes les sommations
possibles de chiffre d’affaires dans une année donnée.
Une vente est caractérisée par: région, produit, client, vendeur,
date, prix de vente
 Région: code région, nom, coordonnées, geometrie
• 3 niveaux : Region, Ville et Municipalite
 Produit : code produit, code famille, libellé
• 2 niveaux : Categorie et Detail-produit
 Client : code client, type client
 Vendeur : code vendeur, nom, code service
 Date :
• 3 niveaux : Annee, Mois et Semaine 34

16
 Exercice 1 : On veut analyser la performance de coureurs qui se préparent à des
compétitions sportives à travers les entrainements. Un entrainement consiste à
effectuer plusieurs tours d'un terrain. Un coureur est performant s'il fait beaucoup
de tours de terrain et s'il réalise un temps moyen minimal par tour. Les
entrainements se font dans plusieurs terrains de plusieurs villes où chaque
terrain appartient à une seule ville. Chaque terrain est caractérisé par une
adresse et par une superficie. Chaque coureur possède un nom, un prénom et
une date de naissance et il appartient à un groupe possédant une date de
création. Aussi, chaque coureur peut être classé dans l'une de deux catégories
désignées par «A» si l'âge est compris entre 18 et 40 ans et par «B» si l'âge est
supérieur à 40 ans. Enfin, on veut analyser les entrainements par jour, par mois
et par année.
 1. Représenter le schéma en étoile.
 2. Transformer le schéma précédent en schéma en flocon.
35

Exercice 2 : Soit une chaîne de magasins spécialisée dans la vente


de journaux et de magazines. Sont vendus plusieurs types de
publication (mode, sport, voiture, enfant, ...) d’éditeurs variés. Le type
de magasin varie entre le kiosque de coin de rue et la grande surface.
Chaque soir, le manager de chaque magasin doit faire le bilan de ses
ventes quotidiennes sous forme d’un tableur. Plus précisément, il y
reporte le nombre d’exemplaires de chaque journal ou magazine
vendu. Il envoie ensuite ce fichier `a l’administration centrale. Pour
l’instant, ce mode opératoire est le seul moyen utilisé par
l’administration centrale pour collecter et analyser des données
globales. L’objectif de l’administration centrale est d’améliorer le
processus afin de mieux analyser le nombre de ventes par publication
(et type de publication). A cette fin, un entrepôt de données doit être
développé. Définir le schéma en étoile et le schéma en flocon de cet
ED .
36

17
SOLAP - Exploitation d’une base
multidimensionnelle

Exemple de BD
 » Produit(GENCOD, Designation, Marque, Nature, PrixAchat,
PrixReventeConseille)
 » Vente (GENCOD, NMAG, Date, Qte, PrixVente)
 » Magasin(NMAG, Enseigne, Adresse, Ville, Dept)
 » Nat2Cat(Nature, Categorie)
 » Cat2Ray(Categorie, Rayonnage)
 » Dep2Reg(Dept, Region)

37

SOLAP - Exploitation d’une base


multidimensionnelle

 Montant total des ventes par ville et par produit


 » select ville, produit, sum(qte*prixvente) from vente, produit,
magasin where produit.GENCOD = vente.GENCOD and
vente.NMAG = magasin.NMAG
group by ville, produit
 Montant totale des ventes par région et par catégorie
 » select region, categorie, sum(qte*prixvente) from vente,
produit, magasin, dep2reg, nat2cat where produit.GENCOD =
vente.GENCOD and vente.NMAG = magasin.NMAG and
produit.nature = nat2cat.nature and magasin.dept = dep2reg.dept
group by region, categorie

38

18
SOLAP - Exploitation d’une base
multidimensionnelle
 par région et par catégorie et par année
 » select region, categorie, semestre(date), sum(qte*prixvente) from
vente, produit, magasin, dep2reg, nat2cat where produit.GENCOD =
vente.GENCOD and vente.NMAG = magasin.NMAG and produit.nature
= nat2cat.nature and magasin.dept = dep2reg.dept
group by region, categorie, year(date)
 Remarque : year(date) n’est pas toujours disponible

 par région et par catégorie en 2000


 » select region, categorie, sum(qte*prixvente) from vente, produit,
magasin, dep2reg, nat2cat where produit.GENCOD = vente.GENCOD
and vente.NMAG = magasin.NMAG and produit.nature = nat2cat.nature
and magasin.dept = dep2reg.dept and year(date) = 2000
group by region, categorie
39

Analyse multidimensionnelle

Objectif
 » obtenir des informations déjà agrégées selon les besoins de
l’utilisateur : simplicité et rapidité d’accès
Analyse multidimensionnelle
 » capacité à manipuler des données qui ont été agrégées selon
différentes dimensions
 ex. : analyse des ventes /catégorie de produit 1 dim.
+ /année 2 dim.
+ /département commercial 3 dim.
+ / zone géographique 4 dim.
.... 40

19
Analyse multidimensionnelle - SOLAP

 OLAP : Techniques qui implémentent des fonctionnalités qui


servent à faciliter l’analyse multidimensionnelle : opérations
réalisables sur la base multidimentionnelle (le cube).
 SOLAP : Spatial OLAP = OLAP + SIG

41

Analyse multidimensionnelle - SOLAP


Opérations

 But
 » Visualisation/Utilisation d'un fragment de la base
multidimensionnelle (le cube)
 Opérations OLAP
 » Drill-Up / Drill-Down
 » Rotate
 » Slicing
 » Scoping

42

20
43

Analyse multidimensionnelle - SOLAP


Opérations - Drill Up/Down

Permet d'aller vers les informations détaillées dans une hiérarchie ou au


44
contraire de remonter d'un niveau de granularité.

21
Analyse multidimensionnelle - SOLAP
Opérations - Rotate

Temps Temps

Produit Region

Consiste à effectuer une rotation de l'hypercube afin de présenter une face


45
différente. Il s'agit donc de modifier une dimension de lecture.

Analyse multidimensionnelle - SOLAP


Opérations - Slicing
Produit Region Date Produit Region Date

Consiste à ne travailler que


sur une tranche de
l'hypercube. Une des
dimensions est alors
réduites à une seule valeur
(un seul membre d’ un
niveau) .

46

22
Analyse multidimensionnelle - SOLAP
Opérations - Scoping
Produit Region Date

Consiste à ne
travailler que sur un
sous-cube. On
s'intéressera alors
seulement à une
partie des données.
Il s’agit de spécifier
un (ou plusieurs)
membres de plus
d’une dimension 47

 Indiquer les opérations SOLAP à effectuer pour répondre à


chacune de ces requêtes suivantes :
 Tranche du cube obtenue par prédicats selon une dimension. annee=
"2015".
 Agréger selon une dimension. mois  annee.
 Projection selon un axe. Projeter (ville = "Tunis" ou ville = "Gabes",
categorie-produit = "vetement" ou categorie-produit = "alimentaire").

48

23
Références

 NEGRE Elsa, Entrepôts de données, Université Paris


Dauphine, 2014-2015.

 E. GRISLIN-LE STRUGEON et D. DONSEZ, Systèmes


d’information décisionnels (Data Warehouse / Data Mining).

49

24

Vous aimerez peut-être aussi