Vous êtes sur la page 1sur 48

07/11/2017

Entrepôts de Données Avancés


Partie 2 : Construction d’ED

2017 2018

T1 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits
Omar Boussaïd Powerpoint  Templates
O.  Boussaïd

LE  PROCESSUS  D'ENTREPOSAGE   DES  DONNÉES   (DATA  WAREHOUSING)

a) Généralités  s ur  les  SID


Ø Aide   à  la  d écision
Ø SID  :   architecture
Ø Concepts  d ’un  Entrepôt  d e  D onnées  ( ED)

b) Modélisation
1) Approche  d e  conception  d es  ED
2) Modèles  multidimensionnels  :  étoile  ;  flocons  d e  n eige  ;  constellation
3) Les  h iérarchies    d e   dimensions

c) Le  processus  d’ETL
a) Alimentation  d ’un  ED
b) Systèmes  d ’intégration  d es  d onnées  

d) Administration   d'un  ED

e) Stockage  des  données

T2 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

1
07/11/2017

Aide  à  la  décision  ? ?

Quels sont mes


meilleurs clients? Pourquoi
mon CA a
baissé?

Quels clients
consomment
plus de
produits bio ?

Décideurs  (non  informaticiens) A combien s’élève


mon CA?

T3 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
3

Aide  à  la  décision  ? ?


Quels sont mes
meilleurs clients?
Pourquoi
mon CA a
baissé?

Quels clients
consomment
plus de
produits bio
?

A combien s’élève
Décideurs  (non  informaticiens) mon CA?

T4 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
4

2
07/11/2017

Aide  à  la  décision  ? ?


Quels sont mes
meilleurs clients? Pourquoi mon CA
a baissé?

Quels clients
consomment plus
de produits bio ?

A combien s’élève mon CA?

Décideurs  (non  informaticiens)

Objectifs Technologie Approche

Prendre  des  décisions Système  d’information   Analyser  les  données  


stratégiques et  tactiques décisionnel  (SID) opérationnelles  à  t ravers  
un  accès  efficace

T5 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
5

Système  d’information  d écisionnel  (SID)

¢ SID  e st  d édié  a u  p ilotage  


¢ SID  e st  constitué  d ’un  E ntrepôt  d e  Données  e t/ou  Magasins  de  Données

Données opérationnelles

Magasin  de  Données  (MD)


Ventes

MD Intégration  de  
données  s ource
Magasin  de  Données  (MD)
Achats
Entrepôt  d e  
MD Données  (ED)

T6 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
6

3
07/11/2017

ARCHITECTURE   D’UN  S.I.D.

Analyses OLAP Reporting


Data Mining
statistiques
Analyse

A      d      m      i      n      i      s      t r      a      t i      o      n
Méta
Structuration

données
cubes
Entrepôt …. OLAP
de
Data Marts
Données
Intégration

E                T L        

T7 2017 2018   ….
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits
Bases de production
O.  Boussaïd

Architecture  des  Entrepôts  de  données

Data   staging Area Data   et  Metadata   End  User


Sources  Data  Systems ( O perational Data  Store ) Storage   Area Presentation Tools

DSc1 DWH
DSc2

DSc3 DSc4 O.D.S. DM1


DM2

DScn DM3

T8 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

4
07/11/2017

Architecture  des  Entrepôts  de  données

Data   staging Area Bases   End  User


Sources  Data  Systems ( O perational Data  Store ) multidimensionnelles Presentation Tools

DM1
DSc1 DM3
DSc2
DM2
DSc3
DWH
DSc4
Cubes  
OLAP
DScn
O.D.S.

T9 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Le  Processus  d ’entreposage  d es  d onnées


Qu'est ce qu'un Entrepôt de Données ?

D'après  B ILL  Inmon :

“Un  ED  e st  u ne  collection  d e  d onnées  thématiques,  intégrées,  non  


volatiles et  historisées,  o rganisées  p our  la  p rise  d e  d écision.”

Thématiques : thèmes par activités majeures ;;


Intégrées : divers sources de données ;;
Non volatiles : ne pas supprimer les données du DW ;;
Historisées : trace des données, suivre l'évolution des indicateurs.

☝ Pb  de  volumétrie,  de  stockage,  d'accès.


T10 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

5
07/11/2017

Concepts  d ’un  entrepôt  d e  d onnées


Ø Fait   Année

Mois Famille
Ø Mesure   ville surface
Jour Poids Prix
Ø Dimension ID_Temps
ID_Succursale
Temps ID_Produit
Ø Hiérarchie   Temps
Succursale
Succursale Produit
Produit
Ø Attribut  d e  d imension
VENTE
VENTE
VENTE
Quantité  vendue
Quantité  vendue
Quantité  vendue
Montant  des  ventes
Montant  des  ventes
Montant  des  ventes

Région Client
q Schéma      e n  é toile Région Client
ID  client
ID  région
H_Adresse
ville
pays
pays

T11 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
11

Concepts  d ’un  entrepôt  d e  d onnées


Ø Fait :  C’est  le  sujet  d ’analyse.  Il  p ermet  d ’observer  u ne  a ctivité.  
Il  lui  est  a ssocié  u n  n iveau  d e  g ranularité.
VENTE
Exemple : CA, Qté vendue, Montant des ventes… Quantité  vendue
Montant  des  ventes

Ø Mesure :  C’est  une  valeur  n umérique  e n  g énéral  représentant  


une  métrique  p our  a nalyser  u ne  a ctivité.

Des  opérations  d ’agrégation  p ermettent  d e  l’observer  à  d e  


niveaux  d ifférents.
Exemple : CA mensuel, CA trimestriel, CA annuel…

T12 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
12

6
07/11/2017

Concepts  d ’un  entrepôt  d e  d onnées

Ø Dimension :   Elle  représente  u n  a xe  d ’analyse  selon  lequel  


le  fait  e st  o bservé.  S on  n iveau  d e  g ranularité  d oit  ê tre le   Temps
même  que  celui  d es  faits.  E lle  contient  d es  a ttributs. Succursale Produit

Exemple : CLIENT, PRODUIT, TEMPS, REGION…


VENTE
Quantité  vendue
Montant  des  ventes

Ø Attribut   de  dimension  :  Ceux  sont  d es  d escripteurs   Région Client

textuels  q ui  p ermettent  d e  d écrire  les  faits  à  a nalyser.  


Année
Exemple : CLIENT, PRODUIT, T EMPS, RÉGION…
Mois

Ø Hiérarchie  :  L es  d imensions  p euvent  ê tre  d éployées  e n   Jour

hiérarchies  fonctionnelles,  o rganisationnelles,  spatiales  o u   ID-­Temps

temporelles..   Temps

Exemple : MOIS, T RIMESTRE, S EMESTRE, ANNÉE…

T13 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd
13

des

T14 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

7
07/11/2017

Des  exemples  d e  modèles  multidimensionnels

T15 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Des  exemples  d e  modèles  multidimensionnels

T16 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

8
07/11/2017

Des  exemples  d e  modèles  multidimensionnels

T17 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED

Ascendantes

Mixtes

Concepteur  
(informaticien)

Descendantes

T18 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

9
07/11/2017

Approches  d e  conception  d es  ED  :  ascendantes

Etape
Etape 1  1 ::   Etape 2 : Etape 3 :
Identification  
Identificationddes es   Génération des Génération du
règles  d ’extraction
règles d’extraction MD candidats schéma de l’ED

T19 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  ascendantes

Etape
Etape 1  1 ::   Etape 2 : Etape 3 :
Identification  
Identificationddes es   Génération des Génération du
règles  d ’extraction
règles d’extraction MD candidats schéma de l’ED

SD1 Relationnel
Identifier  des  règles  d’extraction

SD2 Objet

SD3 XML

SDn …

T20 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

10
07/11/2017

Approches  d e  conception  d es  ED  :  ascendantes

Etape
Etape 1  1 ::   Etape 2 : Etape 3 :
Identification  
Identificationddes es   Génération des Génération du
règles  d ’extraction
règles d’extraction MD candidats schéma de l’ED

MD
Source de candidats
données

Magasin 1

Concepteur implante
les règles d’extraction Magasin 2

T21 2017 2018   Magasin n


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  ascendantes

Etape
Etape 1  1 ::   Etape 2 : Etape 3 :
Identification  
Identificationddes es   Génération des Génération du
règles  d ’extraction
règles d’extraction MD candidats schéma de l’ED

Entrepôt de
données

Décideurs
choisissent
leurs besoins
analytiques

T22 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

11
07/11/2017

Approches  d e  conception  d es  ED  :  ascendantes

Etape
Etape 1  1 ::   Etape 2 : Etape 3 :
Identification  
Identificationddes es   Génération des Génération du
règles  d ’extraction
règles d’extraction MD candidats schéma de l’ED

Entrepôt de
données

T23 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

T24 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

12
07/11/2017

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

Interviews Techniques adoptées

Scénario SQL

Orientée buts

T25 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

Interviews
Modèles adoptés

Tableau 2D
Scénario SQL
Patrons M
Requêtes M
Orientée buts
ontologie
Modèle de buts

T26 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

13
07/11/2017

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

Besoins analytiques

Interviews
Tableau 2D
Entrepôt de données
Tableau 2D
Patrons M
Scénario SQL Requêtes M
Règles
ontologie Modèle de buts

Orientée buts Modèle de buts


Ontologie
Règles de
génération
de MD

Patron M
T27 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

Source de Entrepôt de
données données
Interviews
Tableau 2D
SD1
Patrons M
Production Données produits
Scénario SQL Requêtes M

ontologie SD2
Données Clients
Orientée buts Modèle de buts Achat

Règles de SDn
génération
Données vendeurs
ETL
Facturation

T28 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

14
07/11/2017

Approches  d e  conception  d es  ED  :  d escendantes

Etape 11  ::  
Etape Etape 2 : Etape 3 : Etape 4 :
Identification  
Identification Spécification Génération du Génération des
des  
des b esoins
besoins des besoins schéma de l’ED procédures ETL

Interviews Tableau 2D
SD1
Patrons M Production Données
produits

Scénario SQL Requêtes M SD2


Données
ontologie Achat Clients

Modèle de buts
Orientée buts SDn
Données
Facturation vendeurs

T29 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Approches  d e  conception  d es  ED  :  mixtes

Etape 11 ::
Etape Etape 2
Etape 2  ::   Etape 3  
Etape 3 ::  
Approche
Approche Approche  
Approche Confrontation  
Confrontation
ascendante
ascendante descendante
descendante des  résultats
des résultats

T30 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

15
07/11/2017

Approches  d e  conception  d es  ED  :  mixtes

Etape 11 ::
Etape Etape 2
Etape 2  ::   Etape 3  
Etape 3 ::  
Approche
Approche Approche  
Approche Confrontation  
Confrontation
ascendante
ascendante descendante
descendante des  résultats
des résultats

Décideurs et concepteurs
SD1 SD2 SDn

Approche ascendante Confrontation Approche descendante

Schéma Schéma
de l’ED de l’ED

T31 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Méta-­Modèle  d es  b esoins
1 Contrôle
DÉCIDEUR
1
Spécifie
1..n

M ODÈLEBESOINS
1..n
Titre
Auteur
PROCESSUS
DateModification
1
Résumé
Réalise

1..n 1..n
1..n
REQUÊTE INDICATEUR 1
1
BUT

Désignation 1 EstMesuréPar ValeurCible

SIMPLE COMPOSÉE
1..n
2..n
FORMULE

EstAnalyséPar
T32 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

16
07/11/2017

Exemple  d’un  modèle  d e  b esoins


Titre Analyse du processus VENTES
Résumé Ce besoin analyse le processus des ventes par rapport à …..
DateModification 08/05/2017
Auteur Alain Dubois
Décideur Responsable des ventes
Processus Ventes
Désignation Chiffre  d’affaires  (CA)

Fait Formule SUM (quantité vendues * prix)

But 1 Valeur Cible


Indicateur 1 500.000   €
Maximiser  les   Mesures
ventes
(1) Analyser le CA par dési gnation
Requêtes et catégorie d’un PRODUIT .

… Attribut

Paramètre Dimension
T33 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

La  modélisation  des  ED  

v Il  existe  3  formes  de  modèles   multidimensionnels   :

1. Le  modèle  en  étoile  (Star  schema)

2. Le  modèle  en  flocon  d e  n eige  (Snowflaked schema)

3. Le  modèle  en  constellation  (Factflaked schema)

T34 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

17
07/11/2017

Modélisation   multidimensionnelle
v modèle en étoile
Ä Une  ''table''   de  faits  :  identifiants   des  tables  de  dimensions   et  une  ou  plusieurs  
mesures

Ä Plusieurs tables de dimension : descripteurs des dimensions

Ä Une granularité définie par les identifiants dans la table des faits.
Avantages :
♦ Facilité de navigation
♦ Performances : nombre limité de jointures ; gestion des données creuses.
♦ Gestion des agrégats
♦ Fiabilité des résultats
Inconvénients :
♦ Redondances dans les dimensions
♦ Alimentation complexe.

T35 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v Schéma en étoile Dim  TEMPS


Temps_ID Dim  PRODUIT
Dim  MAGASIN Jour
Produit_ID
Magasin_ID Mois
Année Désignation_P
Enseigne Description_P

Type Catégorie
Superficie Description_C
Ville Prix-­‐unitaire
… Fait VENTES Fournisseur
Conditionnement
Client_ID …
Produit-­‐ID
Dim  REGION Temps_ID
Dim  CLIENT
Région_ID
Région_ID Magasin_ID Client_ID
Région Nom_C
Pays Qté vendue Adresse_C
… Montant_Ventes Tph_C
Mail_C

T36 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 36

18
07/11/2017

Modélisation   multidimensionnelle

v Schéma en étoile Dim  TEMPS


Temps_ID Dim  PRODUIT
Dim  MAGASIN Jour
Produit_ID
Magasin_ID Mois
Année Désignation_P
Enseigne Description_P

Type Catégorie
Superficie Description_C
Ville Prix-­‐unitaire
… Fournisseur
Conditionnement
Fait VENTES …
Dim  REGION
Qté vendue Dim  CLIENT
Région_ID Montant_Ventes Client_ID
Région Nom_C
Pays Adresse_C
… Tph_C
Mail_C

T37 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 37

Modélisation   multidimensionnelle

v Schéma en étoile Dim  TEMPS


Temps_ID Dim  PRODUIT
Dim  MAGASIN Jour
Mois Produit_ID
Magasin_ID Année Désignation_P
Enseigne … Description_P
Type Catégorie
Superficie Description_C
Ville Prix-­‐unitaire
… Fournisseur
Fait VENTES Conditionnement

Dim  REGION
Dim  CLIENT
Région_ID Client_ID
Région Qté vendue Nom_C
Pays Montant_Ventes Adresse_C
… Tph_C
Mail_C

T38 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 38

19
07/11/2017

Modélisation   multidimensionnelle

v modèle en étoile
Propriétés  des  mesures

Additivité : somme sur toutes les dimensions


q Quantités vendues, chiffre d’affaire
q Peut être le résultat d’un calcul (Bénéfice = montant vente – coût)

Semi-­‐additivité :  somme  sur  certaines  d imensions


q Solde d’un compte bancaire
q Pas de sens d’additionner les dates (représente des instantanés d’un niveau)

Non  additif   :  fait  n on  a dditionnable  q uelque  soit  la  d imension


q Prix unitaire : l’addition sur n’importe quelle dimension donne un nombre
dépourvu de sens

T39 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v modèle en étoile : Faits


Définition
Un fait est la plus petite information analysable. C'est une information qui
contient les données obse rvables (les fa its) que l'on possède sur un suje t e t que
l'on veut étudier, selon divers axes d'analyse (les dimensions).

Les « faits » dans un e ntre pôt de données , s ont normalement numériques,


puisque d'ordre quantitatif. Il pe ut s'agir du Montant en argent des ventes , du
nombre d'unités vendues d'un produit , etc.

T40 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 40

20
07/11/2017

Modélisation   multidimensionnelle

v modèle en étoile : Faits


Structure   de  base  d'une  ''table''   de  faits  

Fact TABLE

Dim 1  _Id  (FK)


Dim 2  _Id  (FK) Fact TABLE
Clef  étrangères

Dim n _Id  (FK)
Code  Dim  dégén.  1  (DD)
Code  Dim  dégén.  2  (DD)
Clef  de   dimensions  dégénérées

Mesure  1
Code  Dim  dégén.  m  
(DD) Mesure  2

Mesure  p
Mesure   1
Mesure   2 Mesures

Mesure   p

T41 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v modèle en étoile : Dimensions

Définition
Ø Une dime nsion est une ''table'' qui représente un axe d'analyse selon
lequel on veut étudier des données obse rvables (les fa its) qui, soumises à
une analyse multidimens ionne lle, donnent aux utilisateurs des
renseignements nécessaires à la prise de décision.

Ø Exemples de ''dimens ion'' : Il peut s'agir des Clients ou des Produits d'une
Entreprise, d'une Période de tem ps comme un exercice financier, des
activités menées au sein d'une société, etc.

T42 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 42

21
07/11/2017

Modélisation   multidimensionnelle

v modèle en étoile : Dimensions


Structure  d e  b ase  d 'une  dimension

Dim  DIMENSION

Clef  primaire  (PK) Clef  de  substitution  (Surrogate key)


Clef  naturelle  (PK) Clef  d’affaire  (business  key  or  natural key)

Attributs   1
Attributs   1
… Attributs  de  dimension
Attributs   1

Clef  spéciale   1
Clef  spéciale   2 Clef  spéciales  (Gestion  de  l ’historique  de  l a  dimension)

Clef  spéciale   m

T43 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v modèle en étoile : Dimensions


q Surrogate key (ou  clé  de  substitution)

Exemple
Dim  PRODUIT

Produit_ID Surrogate Key  (clé    de  substitution   )


Désignation_P
Description_P
Catégorie
Description_C PRODUIT
Sous  Catégorie Code_Produit Clef  naturelle  (clé    artificielle)
Famille  Produit Désignation
Prix-­‐unitaire Description
Fournisseur Prix-­‐unitaire
Conditionnement …

-­ Table  d'une  BD  multidimensionnelle -­ Table  d'une  BD  de  production

T44 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

22
07/11/2017

Modélisation   multidimensionnelle
v modèle en étoile : Dimensions
q Clef  spéciales
Date effective : Date à la quelle l'enregistrement à été créé,
de préférence dans le système Dim  PRODUIT
d'enregistrements (System of records). Produit_ID Surrogate Key
Désignation_P (clé    de  substitution  )

Date retrait : Date à laquelle l'enregistrement a été retiré Description_P


Catégorie
du système d'enregistrements.
Description_C Attributs
Sous  Catégorie (descripteurs   )
Indicateur effectif : En général est 'O' si l'enregistrement Famille  Produit
est toujours actif (Date retrait est nulle), 'N' Prix-­‐unitaire
sinon. …
Date  effective
Date  retrait Clés  spéciales
Indicateur  effectif

T45 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Degenerate dimension    (Dimension   dégénérée)  

La dimension dégénérée est une clé de dimension dans la ''ta ble'' de faits qui
est en général sans attribut.
Exemple : N ° de bon de Cde, N ° d'interruption de service ...

Fait VENTES Fait VENTES

VentesR-­‐I D VentesR_ID
Dim  VENTES_REALISEES Client_ID Dim  VENTES_REALISEES Client_ID
Produit-­‐I D Produit-­‐I D
VentesR_ID Temps_ID VentesR_ID Temps_ID
Région_ID Région_ID
Magasin_ID Magasin_ID

Qté vendue Qté vendue


Montant_Ventes Montant_Ventes

T46 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

23
07/11/2017

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Junk  dimension  

Une dimens ion « Junk dimension » contient toute sorte de flags, de statuts,
de codes…, qui ne font partie d'aucune dimension régulière.

Exemple :

Dans le domaine d e l a distribution de l'én ergie, une interruption de service p eut être
de type «Basse tension» ou «Moyenne tension» .

Ce genre de code est donc stocké dans une table spéciale appelée « Junk dimension».

T47 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Dimension   à  évolution   lente  (SCD  :  Slowly Changing


Dimension)

Une  dimension   peut  subir  des  changements  de  description   des  ses  membres  :
•  Un  client   peut  changer  d'adresse,  se  marier,   ...
•  Un  produit   peut   changer  de  noms,  de  formulations   ;  
Exemple : «Tree's» en «M&M» ; «Raider» en «Twix» ; «Yaourt à la vanille»
en «Yaourt saveur Vanille»

Cette  situation   peut-­‐être   gérée  en  choisissant   entre  3  solutions   :      


•  Écrasement  de  l'ancienne  valeur  
•  V ersionnement
•  Valeur   d'origine   /  v aleur  courante
Remarque : Dans certain cas la transition n'est pas immédiate : il reste pendant un
certain temps des anciens produits en rayon. Il est alors conseillé de les
traiter comme deux membres différents .
T48 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

24
07/11/2017

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Dimension   à  évolution   rapide  (RCD  :  Rapid  Changing


Dimension)

Une  dimension   à  changement   rapide est  une  dimension  qui   subit  des  changements  
très  fréquents   des  attributs   dont   on  v eut  préserver  l'historique.

q Solution : isoler  les  a ttributs  q ui  changent  rapidement

Exemple : Si l'on veut préserver l'historique des changements d'adresses dans la dimension
«C LIENTS» dans un pays où 70% de la population déménage une fois par année
(le 1ier juillet par exemple au Canada)

La  dimension   «CLIENTS»  devient  dans  ce  cas  une  dimension   à  évolution  rapide  (RCD)

T49 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Dimension   à  évolution   rapide  (RCD  :  Rapid  Changing


Dimension)

Exemple

T50 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

25
07/11/2017

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Dimension   causale


Il s'agit d'une dimension qui provoque des faits.

Exemple : la dimension PROMOTION peut provoquer des ventes, en général.

Autre exemple dans le domaine de la dis tribution de l'énergie , la dime nsion


C ONDITION CLIMATIQUE peut provoquer des Interruptions de service.

La dimension C ONDITION CLIMATIQUE est donc une dimension causale.

T51 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 51

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Dimension   Conforme  (Conformed Dimension)

Une  dimension   conforme (ou  partagée)  est  une  dimension  utilisée   par  les  faits  de  
plusieurs   data-­‐marts.  

Exemple :  la dimension PRODUIT est utilisée par les différents data-marts
«FINANCE», «MARKETING » …

T52 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

26
07/11/2017

Modélisation   multidimensionnelle

v Types  de  dimensions  :  Mini Dimension

Dans  tout  entrepôt  d e  d onnées,  il  existe  au  moins  u ne  grande  d imension,  q ue  ce  s oit  en  
terme   d'enregistrements   ou  d 'attributs .  
Exemple : La dimension CLIENTS d'un système de distribution d'énergie contient
plusieurs millions d'enregistrements, dont les attributs sont :

ü ID client (Identifiant du client, surrogate key)


ü Code du client (La clé d'affaire du client, provenant du système source)
ü Nom du client
ü Adresse du client
ü Transformateur associé (transformateur électrique qui alimente le client)
ü Code incidence (code d'incidence du client : Ma pour Majeur, Mo pour Moyen, Mi
pour mineur, Ge pour Grande Entrepris)
ü …

Nous   créons  donc   une  mini  dimension   qui  contient  les  colonnes  suivantes  :
ü ID SCD Client
ü Transformateur associé
ü Code d'incidence
T53 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle

v Caractéristiques  des  dimensions  


q Les  dimensions  dans  un  modèle  multidimensionnel  s ont  orthogonales.  Elles  ne  
doivent  pas  avoir  de  relations  entre  elles.

q Si  des  éléments  de  dimensions  différentes  ont  des  liens,  il  f aut  les  regrouper  dans  
une  même  dimension.

q Tous  les  f aits  s ont  décrits  par  l’ensemble  des  dimensions  du  modèle.  Autrement,  la  
table  de  faits  doit  être  éclatée.

q Les  dimensions  doivent  avoir  le  même   niveau  de  granularité  ainsi  qu’avec  c elui  des  
faits.
T54 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

27
07/11/2017

Modélisation   multidimensionnelle

v modèle en flocons de neige


q Le modèle de l’ED doit être simple à comprendre
q On peut augmenter sa lisibilité en regroupant certaines dimensions
q On définit ainsi des hiérarchies
q Celles-ci peuvent être géographiques, temporelles, organisationnelles,
fonctionnelles…
q Elles représentent des chemins de consolidation des faits, en agrégeant les
mesures selon des niveaux hiérarchiques
q Chaque niveau d’une hiérarchie est un pallier d’observation des faits
correspondant à une granularité donnée

T55 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 55

Modélisation   multidimensionnelle

v modèle en flocons de neige


q La granularité d’une dimension correspond à un niveau de représentation
représentant le niveau de sélection le plus fin des données de la dimension
q Dans un modèle multidimensionnel, tous les faits ont un même niveau de
granularité quelque soit les dimensions choisies
Exemple : Pour la dimension TEMPS : c’est le jour ; pour un fait : c’est le
montant de ventes d’’un produit…

Précision des analyses

- F ines se +

Taille de l’entrepôt

T56 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

28
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige
Dim  TEMPS Dim  MOIS Dim  A NNEE
Mois_ID Année_ID
Temps_ID
Dim  CLIENT Année_ID …
Jour

Client_ID Mois_ID
Nom_C Dim  PRODUIT
Adresse_C …
Produit_ID
Tph_C
Désignation_P
Mail_C Dim  SS_CATEGORIE
Description_P Dim  CATEGORIE
… Catégorie SSCat_ID
SSCat_ID Catégorie_ID Catégorie_ID
Fait VENTES Description_C
Prix-­‐unitaire …
… Fourniss_ID
Dim  REGION …
Dim  MAGASIN

Région_ID Magasin_ID
Région Qté vendue Enseigne Dim  TYPE Dim  TYPE Dim  F OURNISSEUR
Pays Montant_Ventes Superficie
… Type_ID Type_ID Type_ID Fourniss_ID
Ville_ID Ville_ID …
… …

T57 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle
v Schéma en flocons de neige

Modèle multidimensionnel en arbre d'attributs

Dim  CLIENT Dim  TEMPS


Mois Année

Fait VENTES Dim  PRODUIT


Dim  REGION
Sous  catégorie Catégorie Fourniseur

Dim  MAGASIN
Qté vendue
Montant_Ventes TYPE VILLE

T58 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

29
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige

Modèle multidimensionnel en arbre d'attributs


  ANNEE
COMMANDE
Famille  MARQUE
SEMESTRE VENTES
Id  Cde
Id  Client PRODUIT
SEMAINE MOIS DATE Id  Vendeur SOUS-­‐CATEGORIE CATEGORIE
Id  Produit
Id  Date
CLIENT Id  Ville VILLE DEPARTEMENT REGION PAYS
JOUR MAGASIN
Quantité
Prix  total
VENDEUR ZONE  GEO.

T59 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle
v Schéma en flocons de neige

Modèle en flocons de neige = Modèle en étoile + normalisation des dimensions


Ø Lorsque les tables sont trop volumineuses
Ø Pour créer de nouveaux paliers d’observation

Avantages :
• réduction du volume
• permettre des analyse par pallier (drill down)

Inconvénients :
• navigation difficile
• nombreuses jointures

T60 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

30
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies strictes et simples

Dim  PRODUIT
Sous  catégorie Catégorie Fourniseur

F7 M1
F2 F3 F4

F1 F6 M3
F1
F1

M2
F5
F8

T61 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd 61

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies strictes, simples et symétriques

FAMILLE MARQUE

PRODUIT

SOUS  CATEGORIE CATEGORIE

T62 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

31
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies strictes, simples et non symétriques

FAMILLE MARQUE FOURNISSEUR

PRODUIT

SOUS  CATEGORIE CATEGORIE

T63 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies strictes, simples et non couvrante

MAGASIN VILLE DEPARTEMENT REGION ETAT PAYS

T64 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

32
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies à multiples alternatives

ANNEE

SEMESTRE
SEMAINE

MOIS

JOUR DATE

T65 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies parallèles indépendantes

FAMILLE MARQUE

PRODUIT

SOUS  CATEGORIE CATEGORIE

T66 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

33
07/11/2017

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies

v Les hiérarchies parallèles dépendantes

TAUX TVA

PRODUIT

SOUS  CATEGORIE CATEGORIE DOMAINE  PRODUITS FOURNISSEUR

T67 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation   multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
v Les hiérarchies non strictes

PRODUIT FAMILLE MARQUE

PRODUIT FAMILLE MARQUE F7 M1


F2 F4
F3
F1 F6 F1 M3
F1

T68 2017 2018   M2


F5
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits
F8

O.  Boussaïd

34
07/11/2017

Modélisation   multidimensionnelle
v Schéma en constellation (ou en flocons de faits)
Fait
PRODUCTION

Dim  TEMPS Dim  MOIS Dim  A NNEE


Mois_ID Année_ID
Temps_ID
Dim  CLIENT Année_ID …
Jour Qté produites

Client_ID Mois_ID
Nom_C Dim  PRODUIT
Adresse_C …
Produit_ID
Tph_C
Désignation_P
Mail_C Dim  SS_CATEGORIE
Description_P Dim  CATEGORIE
… Catégorie SSCat_ID
SSCat_ID Catégorie_ID Catégorie_ID
Fait VENTES Description_C
Prix-­‐unitaire …
… Fourniss_ID
Dim  REGION …
Dim  MAGASIN

Région_ID Magasin_ID
Région Qté vendue Enseigne Dim  TYPE Dim  TYPE Dim  F OURNISSEUR
Pays Montant_Ventes Superficie
… Type_ID Type_ID Type_ID Fourniss_ID
Ville_ID Ville_ID …
… …

T69 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

T70 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

35
07/11/2017

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données
þ Le principe de l'entreposage des données est de
rassembler de multiples données sources qui souvent
sont hétérogènes en les transformant pour les rendre
applicables à l’analyse.

þ Ce travail s’effectue à l’aide de processus d’intégration de


données.

þ Il existe plusieurs sortes de processus d’intégration : ETL,


EAI, EII…

T71 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

7
O.  Boussaïd
1

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données
Définitions
þ L’intégration   des  données,   telle  que   par  l’ETL,  (data   pumping),   se  déploie   à  l’aide  d’une  
technologie   informatique   permettant   d'effectuer   des  synchronisations   massives  
d'information   d'une  source   de  données   vers  une  base   cible.  

þ Elle  repose  sur  des  connecteurs servant   à  exporter  ou  importer  les  données   dans   les  
applications,   des  transformateurs qui  manipulent   les  données ( agrégations,  filtres,  
conversions …),  et  des  mises  en  correspondance   ( mapping).    

þ L'objectif   est  l'intégration   ou  la  ré-­exploitation de  données   d'un  réservoir  source  dans   un  
réservoir  cible. ( source  Wikipedia)

þ L’intégration   de  données   est  un  processus   qui  permet  de  transférer des  données   brutes  
d'un  système  source,   de  les  préparer pour  une   utilisation  en  aval  et  de  les  envoyer vers  une  
base   cible  (un  entrepôt   de  données   ou  un  serveur  cible).  
(http://www.lemagit.fr)

T72 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

7
O.  Boussaïd
2

36
07/11/2017

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données

þ Il existe plusieurs sortes de processus d’intégration de données :

Ø Extract-­Transform-­Load (ETL)    
Ø Entreprise  I nformation  I ntegration (EII)
Ø Enterprise  Applications  I ntegration (EAI).
Ø Enterprise  Service  Bus  (ESB)    

Ø …

T73 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

7
O.  Boussaïd
3

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données
Ø ETL – EAI – EII
ETL EAI EII

T74 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits Source  IBM  Software  G roup)

7
O.  Boussaïd
4

37
07/11/2017

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données
Ø ETL – EAI – EII
ETL EAI EII
Vocation Transformation   ponctuelle   Transformations   et  Echanges   de   Une   couche   d'accès  et  de  
orientée   vers  la   migration,   transactions   basées   sur   transformation   de  données   optimisée   et  
la  consolidation   et   messages, point-­a-­point   ou  point-­ transparente   fournissant   une   interface  
l'entreposage   de   données. à-­hub)   entre  applications relationnelle   unique   sur  toutes  les  
données   d'entreprise
But Conçu   pour   traiter  de  très   Echanges   entre   applications au   Intégration   de  données   structurées  et  
grandes   quantités   de   sein   d’une   entreprise non   structurées
données
Caractéristiqu es -­ Productivité   améliorée   - Focus  sur  l'intégration   à  la  fois   - Fournir   un  accès  en   temps  réel  en  
(réutilisation   d'objets   et   des  processus   et  des  données   lecture   et  en  écriture
de  transformations) aux  niveaux   des  entreprises - Transformer  les  données   pour  
-­ Méthode   stricte -­ Focus  sur  la  réutilisation   et  la   l'analyse   commerciale   et  l'échange  
-­ Meilleur   support  de   distribution   des  processus   de  données
métadonnées   avec   métier  et  des  données - Gérer  le  placement   de  données   pour  
analyse   d'impact -­ Focus  sur  la  simplification   de   la  performance,   et la  disponibilité.
l'intégration   des  applications

T75 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits Source  IBM  Software  G roup)

7
O.  Boussaïd
5

Construction  d’un   Entrepôt  de  Données


v Alimentation d’un entrepôt de données

þ Le processus d’ETL :

Ø Basé  s ur  des  dictionnaires  de  métadonnées  et  des  moteurs  ETL


Ø Moteurs  ETL  parallèles  offrant  performance  et  s calalbilité
Ø Piloté  par  événement  ou  c alendairement
Ø Moteur  de  f lux  de  données  liés  aux  processus  métier

T76 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

7
O.  Boussaïd
6

38
07/11/2017

Construction  d’un   Entrepôt  de  Données


v Alimentation   d’un  entrepôt   de  données  
þ Le processus d’ETL
Ø Principales  f orces  de  l'ETL
q Optimisé  pour  les  s tructures  de  données
q Périodique,  par  lots  (batch)
q Déplacer  de  gros  v olumes  de  données  en  une  seule  étape
q Transformations  de  données  c omplexes   (calculs,  agrégations…)  
q Planification  c ontrôlée  par  l'administrateur
q Nombreux  outils  avec  API  pour  accroître  la  productivité
q Réutilisation  des  objets  et  des  t ransformations  ETL

T77 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits Source  IBM  Software  G roup)

O.  Boussaïd

Construction  d’un   Entrepôt  de  Données


v Alimentation   d’un  entrepôt   de  données  
þ Le processus d’ETL
Ø ETL  Principaux  défis
q Commercialisation  des  outils  lente
q Gestion  des  c hangements
q Données  transférées  indépendamment  du  besoin  réel
q Sollicite  beaucoup  les  s ystèmes  de  s tockage
q Données  de  la  source  d'origine  deviennent  indépendantes  une  f ois  dans  l’ED  
q Grandes  exigences  pour  la  s taging area
q Flux  de  données  unidirectionnels  (de  la  s ource  v ers  la  c ible)
q Pas  de  support  de  mise  à  jour  de  multi-­sites

T78 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits Source  IBM  Software  G roup)

7
O.  Boussaïd
8

39
07/11/2017

T79 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Administration  d ’un  ED

q L'ED  est  un  aspect  physique  du  SI  de  l'entreprise.  I l  doit  être  par  c onséquent  évolutif.    
(Les  données   doivent   donc   changer :  gérer  l'actualisation   des  données)

q Des  outils  prennent  en  c harge  les  t âches  de  rafraîchissement  des  données  

q Ils  procèdent  par  réplication  pour  propager  dans  l'ED  les  maj  effectuées  dans  les  BD

q Mécanisme  de  réplication  :  c opie  de  données  d'une  BD  vers  1  ou  plusieurs  autres  BD

q Réplications  :  asymétriques  s ynchrones  ou  asynchrones    ou  s ymétriques  s ynchrones  


ou  asynchrones.

q Rafraîchissement  des  données  :  s e  f aire  également  par  des  processus  de  


transformation  qui  exploitent  les  métadonnées.

T80 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

40
07/11/2017

Administration  d ’un  ED

q Fonction d'administration : porte sur un aspect fonctionnel (qualité et


pérennité des données) mais aussi sur un aspect technique (maintenance,
optimisation, sécurisation,...)

q Concerne l'ensemble des tâches du processus d'entreposage, de la sélection des


données de production à la mise à disposition pour construire les espaces
d'analyse.

q L'administrateur de l'ED doit maîtriser la gestion des données (données , leur


provenance, métadonnées…).

q Les données agrégées sont aussi une production (information) de l'entreprise,


comme les données de production (ERP), doivent être entreposées.

q Les requêtes portent plus souvent sur les agrégats que sur les données de base
(80% -­ 20%)

T81 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Administration  d ’un  ED


v Rôles  et  responsabilités
Ø Kimball  (2004)  a  définit  8  rôles  dont  les  plus     importants  s ont  :  

1. Gestionnaire  E TL  
Ø Gérer  quotidiennement   l'équipe   ETL
Ø Définir  les  standard   et  procédures   de  l'environnement   de  développement   ETL  ( Règles  de  
nomenclature,  Meilleures  pratiques …)  
Ø Superviser  le  développement,   les  tests   et  l'assurance  qualité

2. Architecte  E TL
Ø Concevoir  l'architecture  et  l'infrastructure  de  l'environnement   ETL  
Ø Concevoir  le  mappage   logique   de   données
Ø Livrer  les  routines   ETL  en  production
Ø Appréhender   les  besoins  métiers
Ø Connaître   les  systèmes  source  
Ø Résoudre   les  problèmes  techniques   complexes

T82 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

41
07/11/2017

Administration  d ’un  ED


v Rôles  et  responsabilités
3. Développeur   ETL  
Ø Développer   les  routines   ETL  
Ø Tester  les  routines  ETL
Ø S'assurer  que   les  résultats   du  processus  ETL  répondent   aux  besoins   métiers  ( Collaboration  
étroite  avec  l'architecte  ETL)
4. Analyste  système
Ø Rassembler  des  besoins   métiers  
Ø Documenter   les  besoins   métiers  
Ø Travailler  en  collaboration   avec   toute   l'équipe  de  l’ED  ( Non  seulement  celle  du  système  E TL)  
5. Spécialiste  qualité  de  données
Ø S'assurer  de  la  qualité   des  données   dans  l'entrepôt   de  données   en  entier.
Ø S'assurer  que   les  règles  métiers  sont  bien  implantées   par  les  processus   ETL  ( en  
collaboration  avec  l'analyste  système  et  l'architecte  ETL)  

6. DBA
Ø Installer,  configurer,  migrer  et  maintenir  la  base  de  données  
Ø Traduire  le  modèle   logique   de  données   en  modèle  physique

T83 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

des

T84 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

42
07/11/2017

Stockage  d es  entrepôt  d e  d onnées

q Il existe plusieurs modes de stockage des données d’un entrepôt :


Ø relationnel
Ø tableaux
Ø hybrides
Ø et parfois en local (Desktop)

q Les données sont perçues à travers plusieurs dimensions ( schéma multidimensionnel).


Elles sont qualifiées de multidimensionnelles, indépendamment de leur support (tables
relationnelles ou tableaux à plusieurs dimensions…)

T85 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Stockage  d es  entrepôt  d e  d onnées


v Mode  relationnel  (R-­OLAP)
Données multidimensionnelles en relationnel
Produit Fournisseur Ventes
Shampoing   Ste  AUROR 5 000
Shampoing   Ste  H ygieno 6 000
Ø Les données sont stockées dans des tables relationnelles
Shampoing   Alpha-­‐Centre 10 000
Shampoing   ALL 21 000 Ø Utilisation du Langage SQL
Ampoules Ste  AUROR 9 000
Ampoules Ste  H ygieno 12 000 Ø Un  moteur   OLAP  permet  de  simuler  le  comportement  
Ampoules Alpha-­‐Centre 14 000 d’un  SGBD  multidimensionnel  
Ampoules ALL 35 000
Piles Ste  AUROR 40 000 Ø Avantages :
Piles Ste  H ygieno 70 000
§ Peu  couteux
Piles Alpha-­‐Centre 80 000
Piles ALL 190 000 § Implémentation   facile
Pâtes   alimentaires Ste  AUROR 2 000 § Stockage   de  gros  volumes
Pâtes   alimentaires Ste  H ygieno 1 000
Pâtes   alimentaires Alpha-­‐Centre 3 000 Ø Inconvénients :
Pâtes   alimentaires ALL 6 000 § Performance   faible  lors  des  calculs  
ALL Ste  A UROR 56 000
ALL Ste  H ygieno 89 000
ALL Alpha-­‐Centre 107 000
ALL ALL 252 000

T86 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

43
07/11/2017

Stockage  d es  entrepôt  d e  d onnées


v Mode  relationnel  (R-­OLAP)

Ø L'opérateur  c ube  est  une  généralisation     N-­dimensionnelle de  f onctions  


d'agrégations  s imples .  C'est  un  opérateur  relationnel.

Select Magasin, date, Rayon, Sum(CA Ventes)


From VENTES
Group-by Cube Magasin, Date, Rayon ;

Ø Opérateurs  d'agrégation :      Group  by  cube,  Group   by  rollup

T87 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Stockage  d es  entrepôt  d e  d onnées


v Mode  Multidimensionnel  (M-­OLAP)
Ø Les données sont stockées dans des tableaux à plusieurs dimensions, pouvant être
éparses

Ø On y stocke les mesures (valeurs à observer) dans les cellules ; les données
représentant les dimensions sont les coordonnées de ces valeurs :
f = ( d1, d2, … dn, m1, m2, … mp )
Ø L’accès aux données est direct
Ø Avantages :
§ Temps  de  calcul  très  rapides
Ø Inconvénients :
§ Mise  en  place   difficile
§ Ne  supporte   pas  les  gros  volumes
§ Formats  propriétaires

T88 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

44
07/11/2017

Stockage  d es  entrepôt  d e  d onnées


v Mode  Multidimensionnel  (M-­OLAP)
v Base de Données Multidimensionnelle éparse
Ø Plus on a de dimensions plus on a de cellules. Seulement une partie des produits
peut être vendue ð des cellules sans valeur : données éparses.
Exemple :
On dispose de 100 000 données (eq. tuples) ; 4 dimensions ayant une cardinalité de 30
modalités chacune :
30 * 30 * 30 * 30 = 810 000 cellules ; (dont 710 000 vides : 12,3% seulement sont pleines)

𝑁𝑜𝑚𝑏𝑟𝑒  𝑑𝑒  𝑐 𝑒𝑙𝑙𝑢𝑙𝑒𝑠  𝑟𝑒𝑚𝑝𝑙𝑖𝑒𝑠


𝑇𝑎𝑢𝑥  𝑑’é𝑝𝑎𝑟𝑠𝑖𝑡é   =
𝑁𝑜𝑚𝑏𝑟𝑒  𝑡𝑜𝑡𝑎𝑙  𝑑𝑒  𝑐 𝑒𝑙𝑙𝑢𝑙𝑒𝑠
Ø Une BD est considérée comme éparse : si elle a moins de 40% de ses cellules “peuplées”.

Ø Techniques de compression des données

T89 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Stockage  d es  entrepôt  d e  d onnées


v Mode  Multidimensionnel  (M-­OLAP)
Ø Mode  de  stockage   propriétaire  pour   les  tables   d'agrégat   et  les  tables   intermédiaires  
Ø Mode  relationnel   pour   les  tables   avec  les  données   fines.  

1 Pays

BDM
5 Régions

500 Villes

500 000 Clients


BDR

T90 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

45
07/11/2017

Entrepôts de Données Avancés


FIN

2017 2018

T91 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits
Omar Boussaïd Powerpoint  Templates
O.  Boussaïd

FIN

T92 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

46
07/11/2017

LE  PROCESSUS  D'ENTREPOSAGE   DES  DONNÉES   (DATA  WAREHOUSING)


Similar to  information  s ystems,  r equirements engineering and  conceptual
modeling are  t he  most important  phases  within the  DW   systems’  life  c ycle.  

In  the  requirements elicitation step:  t he  proposed approach should assist both


decision-­makers and  requirements analysts.

On  the  one  hand,  decision-­makers often lack multidimensional modeling knowledge,  


and  there-­fore  t hey cannot express  t heir expectations  in  t erms of  information  t hat
should be stored in  t he  DW  system.  

On  the  other hand,  requirements an-­alysts often lack domain knowledge,  i.e.,  t he  
domain where the  DW   will be deployed (e.g.,  medical,  accountancy,  e-­learning,  
insurance,  f inance,  etc.);;  
consequently,  t hey cannot help  decision-­makers in  identifying the  relevant  
information  t o  s upport  t heir decision-­making process.  

T93 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

LE  PROCESSUS  D'ENTREPOSAGE   DES  DONNÉES   (DATA  WAREHOUSING)

In  t he  r equirement specification step:


requirements should be specified using decision-­making concepts in  order to  
facilitate their understanding by  t he  decision-­makers.  This  ease of  understanding
is crucial  s ince it will enhance the  decision-­makers involvement,  and

This  avoids producing a  DW  that does not  meet the  decision-­makers
expectations.  

Nonetheless,  t he  s pecified requirements should be formal and  machine-­readable


to  allow automatic multidimensional schema generation.  

In  t he  multidimensional schema design  step:  the  proposed approach should


provide the  designer  with a  s et  of  explicit  and  f ormal rules that automatically
extract the  multidimensional concepts  f rom the  requirements specification.  This  
approach should also propose  a  stepwise process that helps the  designer  
organize the  extracted concepts  into a  multidimensional schema.  

T94 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

47
07/11/2017

LE  PROCESSUS  D'ENTREPOSAGE   DES  DONNÉES   (DATA  WAREHOUSING)

• Kimball’s approach follows a top-down framework to derive the logical star schema.

• First, the authors suggest the use of in-terviews to elicit the business processes that
decision-makers want to analyze.

• Each identified business process represents a subject of interest and will give rise to a
DM.

• The authors argue that interviews should focus on identifying the usual decisions and
current reports used in decision-making.
Requirements analysis and  specification:   the   designer   should ask the  decision-­makers to  
choose the  strategic/relevant   database attributes,   and   to  indicate the   purpose of  using them as  
measures or  dimensions.  The  out-­come   requirements are  specified according to  a  tabular
format  that includes all  relevant   attributes along with their multidimensional purpose.  
Additionally,   the  designer   may specify the   analysis tasks by  enriching the  table   with analytical
queries written in  free  natural language.

T95 2017 2018  


Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits

O.  Boussaïd

Modélisation  logique  des  entrepôt  de  données


v Les  requêtes  d écisionnelles

La valeur ALL remplace une colonne ou une valeur d'agrégats.


Magasin Date Rayon CA Ventes
Mag1 1/2/96 010 3500
Mag1 6/2/96 010 2500
Mag1 10/2/96 010 2900
Mag1 ALL 010 8900
Mag2 … … …

S'il y a N attributs concourant à la construction du cube, il y aura :

2N-1 agrégations
Soit C1, C2, … ,CN les cardianlités des N attributs, le cube aura :

∏(Ci +1) enregistrements


T96 2017 2018  
Pour  plus   de  modèles   :  Modèles  Powerpoint   PPT  gratuits
Dans la tables VENTES si on a : 2*3*3 = 18 enregistrements
O.  Boussaïd
dans le cube on aura : 3*4*4* = 48 enregistrements 96

48

Vous aimerez peut-être aussi