Académique Documents
Professionnel Documents
Culture Documents
Riadh BOUSLIMI
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
2
1
Le contexte
Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre
clients?
d’affaire a
baissé?
A combien
Quels français
s’élèvent mes
consomment
ventes
beaucoup de
journalières?
poisson?
3
2
Problématique
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information
stratégique
En donnant du sens aux données
3
Le processus de prise de décision
Prise de
décision
4
Quelques métiers du décisionnel
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
Human Capital Management (gestion de la relation avec les employés)
Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et
9
piloter la stratégie Achat.
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
10
5
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
11
Client
Police
12
6
Les 4 caractéristiques des data warehouse
2. Données intégrées:
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD 13
Ajout
Suppression
Accès
Modification Chargement
14
7
Les 4 caractéristiques des data warehouse
4. Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mai 2015 Image de la base en Juillet 2016
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
BOUSLIMI Jendouba BOUSLIMI Manouba
ABIDI Beja ABIDI Beja
Calendrier Répertoire
Entrepôt Code
CodeNom
Année Ville
Mois
Code Année Mois
de
1 2015 Mai 1 1 BOUSLIMI Paris
Dupont Paris
données
2 2016 Juillet 1 1 ABIDI
Durand Beja
Lyon
15
2 BOUSLIMI Manouba
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analytical R
Clientèle I
Processing
Q
U
16
E
8
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statistiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
17
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
18
9
Datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamarts du
service Marketing
Datamart du
DW de l’entreprise service Ressources
Humaines 19
20
10
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
21
Architecture générale
Zone de
Zone de préparation Zone de stockage présentation
E
X
C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
T Standardisation Visualisation
E
I 3 Data Mining
M
O 3
E
N
N
Sources de Datamart
T
données
22
11
Les flux de données
Flux entrant
Extraction: multi-source, hétérogène
Transformation: filtrer, trier, homogénéiser, nettoyer
Chargement: insertion des données dans l’entrepôt
Flux sortant:
Mise à disposition des données pour les utilisateurs
finaux
23
Normalisation3
Requêtes3
24
12
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
25
Modélisation Entité/Association
Avantages:
Normalisation:
Éliminer les redondances
13
Exemple
Mode
Transporteur
d’expédition
Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin
Famille de
Employé Région de produits
Stock ventes
Fonction Division
Fournisseurs 27
de ventes
Modélisation des DW
Nouvelle méthode de conception autour des
concepts métiers
Ne pas normaliser au maximum
Introduction de nouveaux types de table:
Table de faits
Table de dimensions
Introduction de nouveaux modèles:
Modèle en étoile
Modèle en flocon
28
14
Table de faits
Table principale du modèle dimensionnel
Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)
15
Typologie des faits
Additif: additionnable suivant toutes les dimensions
Quantités vendues, chiffre d’affaire
Peut être le résultat d’un calcul:
Bénéfice = montant vente - coût
Semi additif: additionnable suivant certaines
dimensions
Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates car cela
représente des instantanés d’un niveau
Σ sur les comptes: on connaît ce que nous possédons
en banque
Non additif: fait non additionnable quelque soit la
dimension
Prix unitaire: l’addition sur n’importe quelle dimension donne
un nombre dépourvu de sens 31
32
16
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids 33
34
17
La dimension Temps
Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
Reliée à toute table de Jour
faits Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
35
36
18
Évolution des dimensions
Dimensions à évolution lente
Dimensions à évolution rapide
37
Versionnement
19
Dimensions à évolution lente (1/3)
Écrasement de l’ancienne valeur :
Correction des informations erronées
Avantage:
Facile à mettre en œuvre
Inconvénients:
Perte de la trace des valeurs antérieures des attributs
Perte de la cause de l’évolution dans les faits mesurés
Avantages:
Permet de suivre l’évolution des attributs
Permet de segmenter la table de faits en fonction de
l’historique
Inconvénient:
Accroit le volume de la table
20
Dimensions à évolution lente (3/3)
Ajout d’un nouvel attribut:
Valeur origine/valeur courante
Avantages:
Avoir deux visions simultanées des données :
Voir les données récentes avec l’ancien attribut
42
21
Dimensions à évolution rapide
Changements fréquents des attributs dont on veut garder
l’historique
Clients pour une compagnie d’assurance
Isoler les attributs qui évoluent vite
43
Faits Clé_client
Dim client
Nom Faits
Clé_client Clé_client
3 Prénom Clé_client
Nom
Adresse Clé_démog
Prénom
Date_naissance
Adresse
3
Date_nais
3 Dim_démographique
Revenus Clé_démog
Niveau_étude Revenus
Nb_enfants Niveau_étude
Statut_marital Nb_enfants
Profil_financier Statut_marital
Profil_achat Profil_financier 44
Profil_achat
22
Les types de modèles
Modèle en étoile
Une table de fait centrale et des dimensions
Les dimensions n’ont pas de liaison entre elles
Avantages:
Facilité de navigation
Nombre de jointures limité
Inconvénients:
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les
mesures
46
23
Modèle en étoile
Dimension Temps
ID temps
année
mois
jour Dimension produit
3 ID produit
Dimension Magasin
ID magasin nom
description code
Table de faits Achat prix
ville
ID client poids
surface
ID temps groupe
3
ID magasin famille
ID région 3
ID produit
Quantité achetée
Dimension Region Dimension Client
Montant des achats
ID région ID client
pays nom
description prénom
district vente adresse
3. 3 47
Modèle en flocon
Une table de fait et des dimensions décomposées en sous
hiérarchies
On a un seul niveau hiérarchique dans une table de
dimension
La table de dimension de niveau hiérarchique le plus bas
est reliée à la table de fait. On dit qu’elle a la granularité la
plus fine
Avantages:
Normalisation des dimensions
Économie d’espace disque
Inconvénients:
Modèle plus complexe (jointure)
Requêtes moins performantes 48
24
Modèle en flocon Dimension produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour poids Dimension groupe
ID magasin 3 3 ID groupe
description ID famille
ville Table de faits Achat nom
surface ID client 3
3 ID temps
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID famille
Quantité achetée
pays nom
Montant des achats
description 3
3.
Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description 49
adresse
3.
3
50
25
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
51
52
26
Définition d’un ETL
Offre un environnement de développement
Offre des outils de gestion des opérations et de
maintenance
Permet de découvrir, analyser et extraire les données
à partir de sources hétérogènes
Permet de nettoyer et standardiser les données
Permet de charger les données dans un entrepôt
53
Extraction
Extraire des données des systèmes de production
Dialoguer avec différentes sources:
Base de données,
Fichiers,
Bases propriétaires
Utilise divers connecteurs :
ODBC,
SQL natif,
Fichiers plats
54
27
Transformation
Rendre cohérentes les données des différentes
sources
Transformer, nettoyer, trier, unifier les données
Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA)
Etape très importante, garantit la cohérence et la
fiabilité des données
55
Chargement
Insérer ou modifier les données dans l’entrepôt
Utilisation de connecteurs:
ODBC,
SQL natif,
Fichiers plats
56
28
Aperçu d’un ETL
57
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Accès à l’information
Démonstration
58
29
OLTP VS OLAP
Produits Pays
oranges
Produit poires
Espagne
PK id_produit
pommes Allemagne
Libellé
Famille
Achat France
PK id_achat
FK id_client
id_produit Vente de
client janvier avril pommes en
Quantité
PK id_client Allemagne
février
Temps en avril
Nom
adresse
59
ROLAP
Relational OLAP
Données stockées dans une base de données
relationnelles
Un moteur OLAP permet de simuler le
comportement d’un SGBD multidimensionnel
Plus facile et moins cher à mettre en place
Moins performant lors des phases de calcul
Exemples de moteurs ROLAP:
Mondrian
60
30
MOLAP
Multi dimensional OLAP:
Utiliser un système multidimensionnel « pur » qui
gère les structures multidimensionnelles natives
(les cubes)
Accès direct aux données dans le cube
Plus difficile à mettre en place
Formats souvent propriétaires
Conçu exclusivement pour l’analyse
multidimensionnelle
Exemples de moteurs MOLAP:
Microsoft Analysis Services
61
Hyperion
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockées
dans SGBD relationnel (données de base)
données agrégées stockées dans des cubes
Solution hybride entre MOLAP et ROLAP
Bon compromis au niveau coût et performance
62
31
Le cube
Modélisation multidimensionnelle des données
facilitant l’analyse d’une quantité selon différentes
dimensions:
Temps
Localisation géographique
3
Les calculs sont réalisés lors du chargement ou
de la mise à jour du cube
63
05 06 07 05 06 07
Œuf 221 263 139 Idf 101 120 52
Viande 275 257 116 Ain 395 400 203
64
32
Manipulation des données
multidimensionnelles
Opération agissant sur la structure
Tranchage (slicing): consiste à ne travailler que sur une
tranche du cube. Une des dimensions est alors réduite à une
seule valeur
05 06 07 06
Œuf Idf 220 265 284 Œuf Idf 265
Ain 225 245 240 Ain 245
Viande Idf 163 152 145 Viande Idf 152
Ain 187 174 184 Ain 174
65
66
33
Manipulation des données
multidimensionnelles
Opération agissant sur la granularité
Forage vers le haut (roll-up): « dézoomer »
Obtenir un niveau de granularité supérieur
Utilisation de fonctions d’agrégation
Forage vers le bas (drill-down): « zoomer »
Obtenir un niveau de granularité inférieur
Données plus détaillées
67
Drill-up, drill-down
Roll up
05 06 07
Dimension
Roll up Alim. 496 520 255 Temps
05 06 07
Drill down
Pomme 20 19 22
3 3 3 3
Boeuf 40 43 48 Drill down
Dimension
Produit 68
34
MDX (Multidimensional Expressions)
Langage permettant de définir, d'utiliser et de récupérer
des données à partir d'objets multidimensionnels
Permet d’effectuer les opérations décrites précédemment
Equivalent de SQL pour le monde OLAP
Origine: Microsoft
69
MDX, exemple
Fournir les effectifs d’une société pendant les années 2004
et 2005 croisés par le type de paiement
2004 2005
Heure 3396 4015
Jour 3678 2056 70
35
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Le marché du décisionnel
Démonstration
71
Le marché du décisionnel
72
36
Quelques solutions commerciales
73
Intégré
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI
74
37
Plan
Introduction
Les entrepôts de données
Les datamart
Architecture
Modélisation
Alimentation
Les bases de données multidimensionnelles
Accès à l’information
Démonstration
75
Exemples
Rapports
Sales by customer
Dashboard
Analyse
76
38