Académique Documents
Professionnel Documents
Culture Documents
2017 2018
T1 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
Omar Boussaïd Powerpoint Templates
O. Boussaïd
b) Modélisation
1) Approche
d e
conception
d es
ED
2) Modèles
multidimensionnels
:
étoile
;
flocons
d e
n eige
;
constellation
3) Les
h iérarchies
d e
dimensions
c) Le
processus
d’ETL
a) Alimentation
d ’un
ED
b) Systèmes
d ’intégration
d es
d onnées
T2 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
1
07/11/2017
Quels clients
consomment
plus de
produits bio ?
T3 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
3
Quels clients
consomment
plus de
produits bio
?
A combien s’élève
Décideurs (non informaticiens) mon CA?
T4 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
4
2
07/11/2017
Quels clients
consomment plus
de produits bio ?
T5 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
5
Données opérationnelles
MD Intégration de
données s ource
Magasin de Données (MD)
Achats
Entrepôt d e
MD Données (ED)
T6 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
6
3
07/11/2017
A
d
m
i
n
i
s
t r
a
t i
o
n
Méta
Structuration
données
cubes
Entrepôt …. OLAP
de
Data Marts
Données
Intégration
E T L
T7 2017 2018 ….
Pour plus de modèles : Modèles Powerpoint PPT gratuits
Bases de production
O. Boussaïd
DSc1 DWH
DSc2
DScn DM3
T8 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
4
07/11/2017
DM1
DSc1 DM3
DSc2
DM2
DSc3
DWH
DSc4
Cubes
OLAP
DScn
O.D.S.
T9 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
O. Boussaïd
5
07/11/2017
Mois Famille
Ø Mesure ville surface
Jour Poids Prix
Ø Dimension ID_Temps
ID_Succursale
Temps ID_Produit
Ø Hiérarchie Temps
Succursale
Succursale Produit
Produit
Ø Attribut d e d imension
VENTE
VENTE
VENTE
Quantité vendue
Quantité vendue
Quantité vendue
Montant des ventes
Montant des ventes
Montant des ventes
Région Client
q Schéma e n é toile Région Client
ID client
ID région
H_Adresse
ville
pays
pays
O. Boussaïd
11
O. Boussaïd
12
6
07/11/2017
temporelles.. Temps
O. Boussaïd
13
des
O. Boussaïd
7
07/11/2017
O. Boussaïd
O. Boussaïd
8
07/11/2017
O. Boussaïd
Ascendantes
Mixtes
Concepteur
(informaticien)
Descendantes
O. Boussaïd
9
07/11/2017
Etape
Etape 1 1 :: Etape 2 : Etape 3 :
Identification
Identificationddes es Génération des Génération du
règles d ’extraction
règles d’extraction MD candidats schéma de l’ED
O. Boussaïd
Etape
Etape 1 1 :: Etape 2 : Etape 3 :
Identification
Identificationddes es Génération des Génération du
règles d ’extraction
règles d’extraction MD candidats schéma de l’ED
SD1 Relationnel
Identifier des règles d’extraction
SD2 Objet
SD3 XML
SDn …
O. Boussaïd
10
07/11/2017
Etape
Etape 1 1 :: Etape 2 : Etape 3 :
Identification
Identificationddes es Génération des Génération du
règles d ’extraction
règles d’extraction MD candidats schéma de l’ED
MD
Source de candidats
données
Magasin 1
Concepteur implante
les règles d’extraction Magasin 2
O. Boussaïd
Etape
Etape 1 1 :: Etape 2 : Etape 3 :
Identification
Identificationddes es Génération des Génération du
règles d ’extraction
règles d’extraction MD candidats schéma de l’ED
Entrepôt de
données
Décideurs
choisissent
leurs besoins
analytiques
O. Boussaïd
11
07/11/2017
Etape
Etape 1 1 :: Etape 2 : Etape 3 :
Identification
Identificationddes es Génération des Génération du
règles d ’extraction
règles d’extraction MD candidats schéma de l’ED
Entrepôt de
données
O. Boussaïd
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
O. Boussaïd
12
07/11/2017
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
Scénario SQL
Orientée buts
O. Boussaïd
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
Interviews
Modèles adoptés
Tableau 2D
Scénario SQL
Patrons M
Requêtes M
Orientée buts
ontologie
Modèle de buts
O. Boussaïd
13
07/11/2017
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
Besoins analytiques
Interviews
Tableau 2D
Entrepôt de données
Tableau 2D
Patrons M
Scénario SQL Requêtes M
Règles
ontologie Modèle de buts
Patron M
T27 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
Source de Entrepôt de
données données
Interviews
Tableau 2D
SD1
Patrons M
Production Données produits
Scénario SQL Requêtes M
ontologie SD2
Données Clients
Orientée buts Modèle de buts Achat
Règles de SDn
génération
Données vendeurs
ETL
Facturation
O. Boussaïd
14
07/11/2017
Etape 11 ::
Etape Etape 2 : Etape 3 : Etape 4 :
Identification
Identification Spécification Génération du Génération des
des
des b esoins
besoins des besoins schéma de l’ED procédures ETL
Interviews Tableau 2D
SD1
Patrons M Production Données
produits
Modèle de buts
Orientée buts SDn
Données
Facturation vendeurs
O. Boussaïd
Etape 11 ::
Etape Etape 2
Etape 2 :: Etape 3
Etape 3 ::
Approche
Approche Approche
Approche Confrontation
Confrontation
ascendante
ascendante descendante
descendante des résultats
des résultats
O. Boussaïd
15
07/11/2017
Etape 11 ::
Etape Etape 2
Etape 2 :: Etape 3
Etape 3 ::
Approche
Approche Approche
Approche Confrontation
Confrontation
ascendante
ascendante descendante
descendante des résultats
des résultats
Décideurs et concepteurs
SD1 SD2 SDn
Schéma Schéma
de l’ED de l’ED
O. Boussaïd
Méta-Modèle d es b esoins
1 Contrôle
DÉCIDEUR
1
Spécifie
1..n
M ODÈLEBESOINS
1..n
Titre
Auteur
PROCESSUS
DateModification
1
Résumé
Réalise
1..n 1..n
1..n
REQUÊTE INDICATEUR 1
1
BUT
SIMPLE COMPOSÉE
1..n
2..n
FORMULE
EstAnalyséPar
T32 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
16
07/11/2017
… Attribut
Paramètre Dimension
T33 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
O. Boussaïd
17
07/11/2017
Modélisation multidimensionnelle
v modèle en étoile
Ä Une
''table''
de
faits
:
identifiants
des
tables
de
dimensions
et
une
ou
plusieurs
mesures
Ä Une granularité définie par les identifiants dans la table des faits.
Avantages :
♦ Facilité de navigation
♦ Performances : nombre limité de jointures ; gestion des données creuses.
♦ Gestion des agrégats
♦ Fiabilité des résultats
Inconvénients :
♦ Redondances dans les dimensions
♦ Alimentation complexe.
O. Boussaïd
Modélisation multidimensionnelle
O. Boussaïd 36
18
07/11/2017
Modélisation multidimensionnelle
O. Boussaïd 37
Modélisation multidimensionnelle
O. Boussaïd 38
19
07/11/2017
Modélisation multidimensionnelle
v modèle en étoile
Propriétés
des
mesures
O. Boussaïd
Modélisation multidimensionnelle
O. Boussaïd 40
20
07/11/2017
Modélisation multidimensionnelle
Fact TABLE
O. Boussaïd
Modélisation multidimensionnelle
Définition
Ø Une dime nsion est une ''table'' qui représente un axe d'analyse selon
lequel on veut étudier des données obse rvables (les fa its) qui, soumises à
une analyse multidimens ionne lle, donnent aux utilisateurs des
renseignements nécessaires à la prise de décision.
Ø Exemples de ''dimens ion'' : Il peut s'agir des Clients ou des Produits d'une
Entreprise, d'une Période de tem ps comme un exercice financier, des
activités menées au sein d'une société, etc.
O. Boussaïd 42
21
07/11/2017
Modélisation multidimensionnelle
Dim DIMENSION
Attributs
1
Attributs
1
… Attributs de dimension
Attributs
1
Clef
spéciale
1
Clef
spéciale
2 Clef spéciales (Gestion de l ’historique de l a dimension)
…
Clef
spéciale
m
O. Boussaïd
Modélisation multidimensionnelle
Exemple
Dim PRODUIT
O. Boussaïd
22
07/11/2017
Modélisation multidimensionnelle
v modèle en étoile : Dimensions
q Clef
spéciales
Date effective : Date à la quelle l'enregistrement à été créé,
de préférence dans le système Dim PRODUIT
d'enregistrements (System of records). Produit_ID Surrogate Key
Désignation_P (clé
de
substitution
)
O. Boussaïd
Modélisation multidimensionnelle
La dimension dégénérée est une clé de dimension dans la ''ta ble'' de faits qui
est en général sans attribut.
Exemple : N ° de bon de Cde, N ° d'interruption de service ...
VentesR-‐I D VentesR_ID
Dim VENTES_REALISEES Client_ID Dim VENTES_REALISEES Client_ID
Produit-‐I D Produit-‐I D
VentesR_ID Temps_ID VentesR_ID Temps_ID
Région_ID Région_ID
Magasin_ID Magasin_ID
O. Boussaïd
23
07/11/2017
Modélisation multidimensionnelle
Une dimens ion « Junk dimension » contient toute sorte de flags, de statuts,
de codes…, qui ne font partie d'aucune dimension régulière.
Exemple :
Dans le domaine d e l a distribution de l'én ergie, une interruption de service p eut être
de type «Basse tension» ou «Moyenne tension» .
Ce genre de code est donc stocké dans une table spéciale appelée « Junk dimension».
O. Boussaïd
Modélisation multidimensionnelle
Une
dimension
peut
subir
des
changements
de
description
des
ses
membres
:
•
Un
client
peut
changer
d'adresse,
se
marier,
...
•
Un
produit
peut
changer
de
noms,
de
formulations
;
Exemple : «Tree's» en «M&M» ; «Raider» en «Twix» ; «Yaourt à la vanille»
en «Yaourt saveur Vanille»
O. Boussaïd
24
07/11/2017
Modélisation multidimensionnelle
Une
dimension
à
changement
rapide est
une
dimension
qui
subit
des
changements
très
fréquents
des
attributs
dont
on
v eut
préserver
l'historique.
Exemple : Si l'on veut préserver l'historique des changements d'adresses dans la dimension
«C LIENTS» dans un pays où 70% de la population déménage une fois par année
(le 1ier juillet par exemple au Canada)
La dimension «CLIENTS» devient dans ce cas une dimension à évolution rapide (RCD)
O. Boussaïd
Modélisation multidimensionnelle
Exemple
O. Boussaïd
25
07/11/2017
Modélisation multidimensionnelle
O. Boussaïd 51
Modélisation multidimensionnelle
Une
dimension
conforme (ou
partagée)
est
une
dimension
utilisée
par
les
faits
de
plusieurs
data-‐marts.
Exemple :
la dimension PRODUIT est utilisée par les différents data-marts
«FINANCE», «MARKETING » …
O. Boussaïd
26
07/11/2017
Modélisation multidimensionnelle
Dans
tout
entrepôt
d e
d onnées,
il
existe
au
moins
u ne
grande
d imension,
q ue
ce
s oit
en
terme
d'enregistrements
ou
d 'attributs .
Exemple : La dimension CLIENTS d'un système de distribution d'énergie contient
plusieurs millions d'enregistrements, dont les attributs sont :
Nous
créons
donc
une
mini
dimension
qui
contient
les
colonnes
suivantes
:
ü ID SCD Client
ü Transformateur associé
ü Code d'incidence
T53 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
Modélisation multidimensionnelle
q Si des éléments de dimensions différentes ont des liens, il f aut les regrouper dans
une même dimension.
q Tous les f aits s ont décrits par l’ensemble des dimensions du modèle. Autrement, la
table de faits doit être éclatée.
q Les dimensions doivent avoir le même niveau de granularité ainsi qu’avec c elui des
faits.
T54 2017 2018
Pour plus de modèles : Modèles Powerpoint PPT gratuits
O. Boussaïd
27
07/11/2017
Modélisation multidimensionnelle
O. Boussaïd 55
Modélisation multidimensionnelle
- F ines se +
Taille de l’entrepôt
O. Boussaïd
28
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige
Dim
TEMPS Dim
MOIS Dim
A NNEE
Mois_ID Année_ID
Temps_ID
Dim
CLIENT Année_ID …
Jour
…
Client_ID Mois_ID
Nom_C Dim
PRODUIT
Adresse_C …
Produit_ID
Tph_C
Désignation_P
Mail_C Dim
SS_CATEGORIE
Description_P Dim
CATEGORIE
… Catégorie SSCat_ID
SSCat_ID Catégorie_ID Catégorie_ID
Fait VENTES Description_C
Prix-‐unitaire …
… Fourniss_ID
Dim
REGION …
Dim
MAGASIN
Région_ID Magasin_ID
Région Qté vendue Enseigne Dim
TYPE Dim
TYPE Dim
F OURNISSEUR
Pays Montant_Ventes Superficie
… Type_ID Type_ID Type_ID Fourniss_ID
Ville_ID Ville_ID …
… …
…
O. Boussaïd
Modélisation multidimensionnelle
v Schéma en flocons de neige
Dim
MAGASIN
Qté vendue
Montant_Ventes TYPE VILLE
O. Boussaïd
29
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige
O. Boussaïd
Modélisation multidimensionnelle
v Schéma en flocons de neige
Avantages :
• réduction du volume
• permettre des analyse par pallier (drill down)
Inconvénients :
• navigation difficile
• nombreuses jointures
O. Boussaïd
30
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
Dim
PRODUIT
Sous catégorie Catégorie Fourniseur
F7 M1
F2 F3 F4
F1 F6 M3
F1
F1
M2
F5
F8
O. Boussaïd 61
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
FAMILLE MARQUE
PRODUIT
O. Boussaïd
31
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
PRODUIT
O. Boussaïd
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
O. Boussaïd
32
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
ANNEE
SEMESTRE
SEMAINE
MOIS
JOUR DATE
O. Boussaïd
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
FAMILLE MARQUE
PRODUIT
O. Boussaïd
33
07/11/2017
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
TAUX TVA
PRODUIT
O. Boussaïd
Modélisation multidimensionnelle
v Schéma en flocons de neige : Différents types d’hiérarchies
v Les hiérarchies non strictes
O. Boussaïd
34
07/11/2017
Modélisation multidimensionnelle
v Schéma en constellation (ou en flocons de faits)
Fait
PRODUCTION
Région_ID Magasin_ID
Région Qté vendue Enseigne Dim
TYPE Dim
TYPE Dim
F OURNISSEUR
Pays Montant_Ventes Superficie
… Type_ID Type_ID Type_ID Fourniss_ID
Ville_ID Ville_ID …
… …
…
O. Boussaïd
O. Boussaïd
35
07/11/2017
7
O. Boussaïd
1
þ Elle repose sur des connecteurs servant à exporter ou importer les données dans les
applications, des transformateurs qui manipulent les données ( agrégations, filtres,
conversions …), et des mises en correspondance ( mapping).
þ L'objectif est l'intégration ou la ré-exploitation de données d'un réservoir source dans un
réservoir cible. ( source Wikipedia)
þ L’intégration de données est un processus qui permet de transférer des données brutes
d'un système source, de les préparer pour une utilisation en aval et de les envoyer vers une
base cible (un entrepôt de données ou un serveur cible).
(http://www.lemagit.fr)
7
O. Boussaïd
2
36
07/11/2017
Ø Extract-Transform-Load (ETL)
Ø Entreprise I nformation I ntegration (EII)
Ø Enterprise Applications I ntegration (EAI).
Ø Enterprise Service Bus (ESB)
Ø …
7
O. Boussaïd
3
7
O. Boussaïd
4
37
07/11/2017
7
O. Boussaïd
5
þ Le processus d’ETL :
7
O. Boussaïd
6
38
07/11/2017
O. Boussaïd
7
O. Boussaïd
8
39
07/11/2017
O. Boussaïd
q L'ED est un aspect physique du SI de l'entreprise. I l doit être par c onséquent évolutif.
(Les données doivent donc changer : gérer l'actualisation des données)
q Des outils prennent en c harge les t âches de rafraîchissement des données
q Ils procèdent par réplication pour propager dans l'ED les maj effectuées dans les BD
q Mécanisme de réplication : c opie de données d'une BD vers 1 ou plusieurs autres BD
O. Boussaïd
40
07/11/2017
q Les requêtes portent plus souvent sur les agrégats que sur les données de base
(80% - 20%)
O. Boussaïd
1. Gestionnaire E TL
Ø Gérer quotidiennement l'équipe ETL
Ø Définir les standard et procédures de l'environnement de développement ETL ( Règles de
nomenclature, Meilleures pratiques …)
Ø Superviser le développement, les tests et l'assurance qualité
2. Architecte E TL
Ø Concevoir l'architecture et l'infrastructure de l'environnement ETL
Ø Concevoir le mappage logique de données
Ø Livrer les routines ETL en production
Ø Appréhender les besoins métiers
Ø Connaître les systèmes source
Ø Résoudre les problèmes techniques complexes
O. Boussaïd
41
07/11/2017
6. DBA
Ø Installer, configurer, migrer et maintenir la base de données
Ø Traduire le modèle logique de données en modèle physique
O. Boussaïd
des
O. Boussaïd
42
07/11/2017
O. Boussaïd
O. Boussaïd
43
07/11/2017
O. Boussaïd
Ø On y stocke les mesures (valeurs à observer) dans les cellules ; les données
représentant les dimensions sont les coordonnées de ces valeurs :
f = ( d1, d2, … dn, m1, m2, … mp )
Ø L’accès aux données est direct
Ø Avantages :
§ Temps de calcul très rapides
Ø Inconvénients :
§ Mise en place difficile
§ Ne supporte pas les gros volumes
§ Formats propriétaires
O. Boussaïd
44
07/11/2017
O. Boussaïd
1 Pays
BDM
5 Régions
500 Villes
O. Boussaïd
45
07/11/2017
2017 2018
FIN
O. Boussaïd
46
07/11/2017
On the other hand, requirements an-alysts often lack domain knowledge, i.e., t he
domain where the DW will be deployed (e.g., medical, accountancy, e-learning,
insurance, f inance, etc.);;
consequently, t hey cannot help decision-makers in identifying the relevant
information t o s upport t heir decision-making process.
O. Boussaïd
This avoids producing a DW that does not meet the decision-makers
expectations.
O. Boussaïd
47
07/11/2017
• Kimball’s approach follows a top-down framework to derive the logical star schema.
• First, the authors suggest the use of in-terviews to elicit the business processes that
decision-makers want to analyze.
• Each identified business process represents a subject of interest and will give rise to a
DM.
• The authors argue that interviews should focus on identifying the usual decisions and
current reports used in decision-making.
Requirements analysis and specification: the designer should ask the decision-makers to
choose the strategic/relevant database attributes, and to indicate the purpose of using them as
measures or dimensions. The out-come requirements are specified according to a tabular
format that includes all relevant attributes along with their multidimensional purpose.
Additionally, the designer may specify the analysis tasks by enriching the table with analytical
queries written in free natural language.
O. Boussaïd
2N-1 agrégations
Soit C1, C2, … ,CN les cardianlités des N attributs, le cube aura :
48