Vous êtes sur la page 1sur 77
Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative
Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative
Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative
Les entrepôts de données Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative

Les entrepôts de données

Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative Commons by-nc-nd

Lydie Soler Janvier 2008

U.F.R. d’informatique

Lydie Soler Janvier 2008 U.F.R. d’informatique Document diffusé sous licence Creative Commons by-nc-nd

Document diffusé sous licence Creative Commons by-nc-nd

(http://creativecommons.org/licenses/by-nc-nd/2.0/fr/)

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Le contexte

Le contexte  Besoin: prise de décisions stratégiques et tactiques  Pourquoi: besoin de réactivité 
Le contexte  Besoin: prise de décisions stratégiques et tactiques  Pourquoi: besoin de réactivité 

Besoin: prise de décisions stratégiques et tactiques

Pourquoi: besoin de réactivité

Qui: les décideurs (non informaticiens)

Qui sont mes meilleurs clients?
Qui sont mes
meilleurs
clients?

Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles

Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières?
Pourquoi et
comment le
chiffre
d’affaire a
baissé?
A combien
s’élèvent mes
ventes
journalières?

3

Quels français consomment beaucoup de poisson?
Quels français
consomment
beaucoup de
poisson?

Les données utilisables par les décideurs

Les données utilisables par les décideurs  Données opérationnelles (de production)  Bases de données (Oracle,
Les données utilisables par les décideurs  Données opérationnelles (de production)  Bases de données (Oracle,

Données opérationnelles (de production)

Bases de données (Oracle, SQL Server)

Fichiers, … Paye, gestion des RH, gestion des commandes…

Caractéristiques de ces données:

des commandes…  Caractéristiques de ces données:  Distribuées: systèmes éparpillés 

Distribuées: systèmes éparpillés

Hétérogènes: systèmes et structures de données différents

Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse

Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent

bloquer le système transactionnel

Volatiles: pas d’historisation systématique

Problématique

Problématique  Comment répondre aux demandes des décideurs?  En donnant un accès rapide et simple
Problématique  Comment répondre aux demandes des décideurs?  En donnant un accès rapide et simple

Comment répondre aux demandes des décideurs?

En donnant un accès rapide et simple à l’information stratégique

En donnant du sens aux données

stratégique  En donnant du sens aux données Mettre en place un système d’information dédié aux

Mettre en place un système d’information dédié aux

applications décisionnelles:

un data warehouse

Le processus de prise de décision

Le processus de prise de décision Définir le problème Champs d’application des systèmes décisionnels Rassembler
Le processus de prise de décision Définir le problème Champs d’application des systèmes décisionnels Rassembler

Définir le

problème

Champs d’application des systèmes décisionnels

Champs d’application des systèmes décisionnels Rassembler les données Analyser les données Établir des

Rassembler les données

Analyser les données

Établir des solutions

Décider

Rassembler les données Analyser les données Établir des solutions Décider Temps de prise d’une décision 6

Temps de prise d’une décision

Le processus de prise de décision

Le processus de prise de décision Bases de Data production warehouse Base multi - dimensionnelle Prédiction
Le processus de prise de décision Bases de Data production warehouse Base multi - dimensionnelle Prédiction
Bases de Data
Bases de
Data

production

warehouse

de prise de décision Bases de Data production warehouse Base multi - dimensionnelle Prédiction / simulation
de prise de décision Bases de Data production warehouse Base multi - dimensionnelle Prédiction / simulation

Base multi - dimensionnelle

Prédiction /

simulation

Prise de

décision

Domaines d’utilisation des DW

Domaines d’utilisation des DW  Banque  Risques d’un prêt, prime plus précise  Santé 
Domaines d’utilisation des DW  Banque  Risques d’un prêt, prime plus précise  Santé 

Banque

Risques d’un prêt, prime plus précise

Santé

Épidémiologie

Risque alimentaire

Commerce

Ciblage de clientèle

Déterminer des promotions

Logistique

Adéquation demande/production

Assurance

Risque lié à un contrat d’assurance (voiture)

Quelques métiers du décisionnel

Quelques métiers du décisionnel  Strategic Performance Management  Déterminer et contrôler les indicateurs
Quelques métiers du décisionnel  Strategic Performance Management  Déterminer et contrôler les indicateurs

Strategic Performance Management

Déterminer et contrôler les indicateurs clé de la performance de l’entreprise

Finance Intelligence

Planifier, analyser et diffuser l’information financière. Mesurer et

gérer les risques

Human Capital Management (gestion de la relation avec les employés)

Aligner les stratégies RH, les processus et les technologies.

Customer Relationship Management (gestion de la relation client)

Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing client

Supplier Relationship Management (gestion de la relation fournisseur)

Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

9

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Définition d’un DW

Définition d’un DW  W. H. Inmon (1996): « Le data Warehouse est une collection de
Définition d’un DW  W. H. Inmon (1996): « Le data Warehouse est une collection de

W. H. Inmon (1996):

« Le data Warehouse est une collection de données orientées sujet, intégrées, non

volatiles et historisées, organisées pour le

support d’un processus d’aide à la décision »

Principe: mettre en place une base de données utilisée à des fins d’analyse

Les 4 caractéristiques des data warehouse

Les 4 caractéristiques des data warehouse 1. Données orientées sujet:  Regroupe les informations des différents
Les 4 caractéristiques des data warehouse 1. Données orientées sujet:  Regroupe les informations des différents

1. Données orientées sujet:

Regroupe les informations des différents métiers

Ne tiens pas compte de l’organisation fonctionnelle des données

Ass. Vie

Ass. Auto

Ass. Santé

Client Police
Client
Police

Les 4 caractéristiques des data warehouse

Les 4 caractéristiques des data warehouse 2. Données intégrées:  Normalisation des données  Définition
Les 4 caractéristiques des data warehouse 2. Données intégrées:  Normalisation des données  Définition

2. Données intégrées:

Normalisation des données

Définition d’un référentiel unique

h,f Normalisation des données  Définition d’un référentiel unique 1,0 homme, femme GBP CHF USD h,f

1,0 Normalisation des données  Définition d’un référentiel unique h,f homme, femme GBP CHF USD h,f

homme, femme Normalisation des données  Définition d’un référentiel unique h,f 1,0 GBP CHF USD h,f EUR

Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f

GBP Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme CHF USD h,f

CHF Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP USD h,f

USD Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF h,f

Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f
Normalisation des données  Définition d’un référentiel unique h,f 1,0 homme, femme GBP CHF USD h,f

h,f

EUR

h,f EUR
h,f EUR

13

Les 4 caractéristiques des data warehouse

Les 4 caractéristiques des data warehouse 3. Données non volatiles  Traçabilité des informations et des
Les 4 caractéristiques des data warehouse 3. Données non volatiles  Traçabilité des informations et des

3. Données non volatiles

Traçabilité des informations et des décisions prises

Copie des données de production

Bases de production

Ajout

Ajout Modification Suppression

Modification

Suppression

Entrepôts de données

Chargement Accès

Chargement

Chargement Accès

Accès

Les 4 caractéristiques des data warehouse

Les 4 caractéristiques des data warehouse 4. Données datées  Les données persistent dans le temps
Les 4 caractéristiques des data warehouse 4. Données datées  Les données persistent dans le temps

4. Données datées

Les données persistent dans le temps

Mise en place d’un référentiel temps

Base de production

Entrepôt

de

données

Image de la base en Mai 2005 Répertoire Nom Ville Dupont Paris Durand Lyon
Image de la base en Mai 2005
Répertoire
Nom
Ville
Dupont
Paris
Durand
Lyon
Image de la base en Juillet 2006 Répertoire Nom Ville Dupont Marseille Durand Lyon
Image de la base en Juillet 2006
Répertoire
Nom
Ville
Dupont
Marseille
Durand
Lyon
Calendrier Répertoire Code Code Année Année Mois Mois Code Code Année Année Mois Mois 1
Calendrier
Répertoire
Code Code
Année Année
Mois Mois
Code Code
Année Année
Mois Mois
1 1
2005
2005
Mai Mai
1 1
Dupont Dupont
Paris Paris
2
2006
Juillet
1
1
Durand
Durand
Lyon
Lyon
2 Dupont
Marseille

15

SGBD et DW

SGBD et DW OLTP: On-Line Transactional Processing OLAP: On-Line Analitical Processing Service commercial BD prod Service
SGBD et DW OLTP: On-Line Transactional Processing OLAP: On-Line Analitical Processing Service commercial BD prod Service

OLTP: On-Line

Transactional

Processing

OLAP: On-Line Analitical Processing

Service

commercial

BD prod

Service

Financier

BD prod

Clientèle

Service

livraison

BD prod

Data Warehouse

Clientèle

H

I

S

T

O

R

I

Q

U

E

16

OLTP VS DW

OLTP VS DW OLTP DW Orienté transaction Orienté analyse Orienté application Orienté sujet Données
OLTP VS DW OLTP DW Orienté transaction Orienté analyse Orienté application Orienté sujet Données

OLTP

DW

Orienté transaction

Orienté analyse

Orienté application

Orienté sujet

Données courantes

Données historisées

Données détaillées

Données agrégées

Données évolutives

Données statiques

Utilisateurs nombreux,

Utilisateurs peu nombreux,

administrateurs/opérationnels

manager

Temps d’exécution: court

Temps d’exécution: long

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Datamart

Datamart  Sous- ensemble d’un entrepôt de données  Destiné à répondre aux besoins d’un secteur
Datamart  Sous- ensemble d’un entrepôt de données  Destiné à répondre aux besoins d’un secteur

Sous-ensemble d’un entrepôt de données

Destiné à répondre aux besoins d’un secteur ou

d’une fonction particulière de l’entreprise

Point de vue spécifique selon des critères métiers

 Point de vue spécifique selon des critères métiers DW de l’entreprise Datamarts du service Marketing

DW de l’entreprise

Datamarts du service Marketing

Datamart du service Ressources Humaines

19

Intérêt des datamart

Intérêt des datamart  Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou
Intérêt des datamart  Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou

Nouvel environnement structuré et formaté en

fonction des besoins d’un métier ou d’un usage particulier

Moins de données que DW

Plus facile à comprendre, à manipuler

Amélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définir

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Architecture générale

Architecture générale Zone de préparation E X T R A C T I O N Sources
Architecture générale Zone de préparation E X T R A C T I O N Sources

Zone de préparation

E X T R A C T I O N
E
X
T
R
A
C
T
I
O
N

Sources de données

Transformations:

Nettoyage

Standardisation

C H A R G E M E N T
C
H
A
R
G
E
M
E
N
T

Zone de présentation

Requêtes

Rapports

Visualisation Data Mining

Zone de stockage

Zone de présentation Requêtes Rapports Visualisation Data Mining … Zone de stockage Data warehouse Datamart 22
Data warehouse Datamart
Data
warehouse
Datamart
Zone de présentation Requêtes Rapports Visualisation Data Mining … Zone de stockage Data warehouse Datamart 22

Les flux de données

Les flux de données  Flux entrant  Extraction: multi-source, hétérogène  Transformation: filtrer, trier,
Les flux de données  Flux entrant  Extraction: multi-source, hétérogène  Transformation: filtrer, trier,

Flux entrant

Extraction: multi-source, hétérogène

Transformation: filtrer, trier, homogénéiser, nettoyer Chargement: insertion des données dans l’entrepôt

Flux sortant:

Mise à disposition des données pour les utilisateurs

finaux

Les différentes zones de l’architecture

Les différentes zones de l’architecture  Zone de préparation (Staging area)  Zone temporaire de stockage
Les différentes zones de l’architecture  Zone de préparation (Staging area)  Zone temporaire de stockage

Zone de préparation (Staging area)

Zone temporaire de stockage des données extraites

Réalisation des transformations avant l’insertion dans le DW:

Nettoyage

Normalisation…

Données souvent détruites après chargement dans le DW

Zone de stockage (DW, DM)

On y transfère les données nettoyées

Stockage permanent des données

Zone de présentation

Donne accès aux données contenues dans le DW

Peut contenir des outils d’analyse programmés:

Rapports

Requêtes…

24

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Modélisation Entité/Association

Modélisation Entité/Association  Avantages:  Normalisation:  Éliminer les redondances  Préserver la
Modélisation Entité/Association  Avantages:  Normalisation:  Éliminer les redondances  Préserver la

Avantages:

Normalisation:

Éliminer les redondances

Préserver la cohérence des données

Optimisation des transactions

Réduction de l’espace de stockage

Inconvénients pour un utilisateur final:

Schéma très/trop complet:

Contient des tables/champs inutiles pour l’analyse

Pas d’interface graphique capable de rendre

utilisable le modèle E/A

Inadapté pour l’analyse

26

Exemple

Exemple Mode d’expédition Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client
Exemple Mode d’expédition Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client

Mode

d’expédition

Transporteur

Exemple Mode d’expédition Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client
Exemple Mode d’expédition Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client

Produit

Contrat

Commande

client

Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client Magasin Famille

Groupe de produits

Produit Contrat Commande client Groupe de produits Type de contrat Client Magasin Famille de produits
Produit Contrat Commande client Groupe de produits Type de contrat Client Magasin Famille de produits

Type de

contrat

Commande client Groupe de produits Type de contrat Client Magasin Famille de produits Employé Région de

Client

client Groupe de produits Type de contrat Client Magasin Famille de produits Employé Région de ventes

Magasin

client Groupe de produits Type de contrat Client Magasin Famille de produits Employé Région de ventes

Famille de produits

Employé

Région de ventes

contrat Client Magasin Famille de produits Employé Région de ventes Stock Fournisseurs Fonction Division de ventes

Stock

contrat Client Magasin Famille de produits Employé Région de ventes Stock Fournisseurs Fonction Division de ventes
contrat Client Magasin Famille de produits Employé Région de ventes Stock Fournisseurs Fonction Division de ventes

Fournisseurs

Fonction

Division de ventes

27

Modélisation des DW

Modélisation des DW  Nouvelle méthode de conception autour des concepts métiers  Ne pas normaliser
Modélisation des DW  Nouvelle méthode de conception autour des concepts métiers  Ne pas normaliser

Nouvelle méthode de conception autour des concepts métiers

Ne pas normaliser au maximum

Introduction de nouveaux types de table:

Table de faits

Table de dimensions

Introduction de nouveaux modèles:

Modèle en étoile

Modèle en flocon

Table de faits

Table de faits  Table principale du modèle dimensionnel  Contient les données observables (les faits)
Table de faits  Table principale du modèle dimensionnel  Contient les données observables (les faits)

Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)

Clés étrangères vers les

dimensions

Faits

Table de faits des ventes

Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes

Table de faits (suite)

Table de faits (suite)  Fait:  Ce que l’on souhaite mesurer  Quantités vendues, montant
Table de faits (suite)  Fait:  Ce que l’on souhaite mesurer  Quantités vendues, montant

Fait:

Ce que l’on souhaite mesurer

Quantités vendues, montant des ventes…

Contient les clés étrangères des axes d’analyse

(dimension)

Date, produit, magasin

Trois types de faits:

Additif

Semi additif

Non additif

Typologie des faits

Typologie des faits  Additif: additionnable suivant toutes les dimensions  Quantités vendues, chiffre d’affaire
Typologie des faits  Additif: additionnable suivant toutes les dimensions  Quantités vendues, chiffre d’affaire

Additif: additionnable suivant toutes les dimensions

Quantités vendues, chiffre d’affaire

Peut être le résultat d’un calcul:

Bénéfice = montant vente - coût

Semi additif: additionnable suivant certaines dimensions

Solde d’un compte bancaire:

Pas de sens d’additionner sur les dates car cela

représente des instantanés d’un niveau

Σ sur les comptes: on connaît ce que nous possédons en banque

Non additif: fait non additionnable quelque soit la

dimension

Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens

31

Granularité de la table de faits

Granularité de la table de faits  Répondre à la question :  Que représente un
Granularité de la table de faits  Répondre à la question :  Que représente un

Répondre à la question :

Que représente un enregistrement de la table de faits?

La granularité définit le niveau de détails de la table de faits:

 Exemple: une ligne de commande par produit, par client et par jour Précision des
 Exemple: une ligne de commande par produit, par
client et par jour
Précision des analyses
-
+
Finesse
Taille de l’entrepôt

32

Table de dimension

Table de dimension  Axe d’analyse selon lequel vont être étudiées les données observables (faits) 
Table de dimension  Axe d’analyse selon lequel vont être étudiées les données observables (faits) 

Axe d’analyse selon lequel vont être étudiées les données

observables (faits)

Contient le détail sur les faits

Clé de substitution

Attributs de la dimension

Dimension produit

Clé produit (CP) Code produit

Description du produit Famille du produits

Marque

Emballage

Poids

33

Table de dimension (suite)

Table de dimension (suite)  Dimension = axe d’analyse  Client, produit, période de temps… 
Table de dimension (suite)  Dimension = axe d’analyse  Client, produit, période de temps… 

Dimension = axe d’analyse

Client, produit, période de temps…

Contient souvent un grand nombre de colonnes

L’ensemble des informations descriptives des faits

Contient en général beaucoup moins d’enregistrements qu’une table de faits

La dimension Temps

Commune à l’ensemble du

DW

Reliée à toute table de faits

à l’ensemble du DW  Reliée à toute table de faits Dimension Temps Clé temps (CP)

Dimension Temps

Clé temps (CP) Jour Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année

Granularité d’une dimension

Granularité d’une dimension  Une dimension contient des membres organisés en hiérarchie :  Chacun des
Granularité d’une dimension  Une dimension contient des membres organisés en hiérarchie :  Chacun des

Une dimension contient des membres organisés en hiérarchie :

Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Granularité d’une dimension : nombre de niveaux hiérarchiques

Temps :

année semestre trimestre - mois

Évolution des dimensions

Évolution des dimensions  Dimensions à évolution lente  Dimensions à évolution rapide 37
Évolution des dimensions  Dimensions à évolution lente  Dimensions à évolution rapide 37

Dimensions à évolution lente Dimensions à évolution rapide

Évolution des dimensions

Évolution des dimensions  Dimensions à évolution lente  Un client peut se marier, avoir des
Évolution des dimensions  Dimensions à évolution lente  Un client peut se marier, avoir des

Dimensions à évolution lente

Un client peut se marier, avoir des enfants…

Un produit peut changer de noms ou de formulation:

« Raider » en « Twix »

« yaourt à la vanille » en « yaourt saveur vanille »

Gestion de la situation, 3 solutions:

Écrasement de l’ancienne valeur

Versionnement

Valeur d’origine / valeur courante

Dimensions à évolution rapide

38

Dimensions à évolution lente (1/3)

Dimensions à évolution lente (1/3)  Écrasement de l’ancienne valeur :  Correction des informations erronées
Dimensions à évolution lente (1/3)  Écrasement de l’ancienne valeur :  Correction des informations erronées

Écrasement de l’ancienne valeur :

Correction des informations erronées

Avantage:

Facile à mettre en œuvre

Inconvénients:

Perte de la trace des valeurs antérieures des attributs

Perte de la cause de l’évolution dans les faits mesurés

Clé produit

Description du produit

Groupe de produits

12345

Intelli-Kids

 
 

Logiciel

Description du produit Groupe de produits 12345 Intelli-Kids     Logiciel Jeux éducatifs 39

Jeux éducatifs

Dimensions à évolution lente (2/3)

Dimensions à évolution lente (2/3)  Ajout d’un nouvel enregistrement :  Utilisation d’une clé de
Dimensions à évolution lente (2/3)  Ajout d’un nouvel enregistrement :  Utilisation d’une clé de

Ajout d’un nouvel enregistrement:

Utilisation d’une clé de substitution

Avantages:

Permet de suivre l’évolution des attributs

Permet de segmenter la table de faits en fonction de

l’historique

Inconvénient:

Accroit le volume de la table

Clé produit

Description du produit

Groupe de produits

 

12345

Intelli-Kids

Logiciel

25963

Intelli-Kids

Jeux éducatifs

40

Dimensions à évolution lente (3/3)

Dimensions à évolution lente (3/3)  Ajout d’un nouvel attribut :  Valeur origine/valeur courante 
Dimensions à évolution lente (3/3)  Ajout d’un nouvel attribut :  Valeur origine/valeur courante 

Ajout d’un nouvel attribut:

Valeur origine/valeur courante

Avantages:

Avoir deux visions simultanées des données :

Voir les données récentes avec l’ancien attribut

Voir les données anciennes avec le nouvel attribut

Voir les données comme si le changement n’avait pas eu lieu

Inconvénient:

Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires

Clé produit

Description du

Groupe de

Nouveau groupe de produits

produit

produits

12345

Intelli-Kids

Logiciel

Jeux éducatifs

41

Évolution des dimensions

Évolution des dimensions  Dimensions à évolution lente  Dimensions à évolution rapide  Subit des
Évolution des dimensions  Dimensions à évolution lente  Dimensions à évolution rapide  Subit des

Dimensions à évolution lente Dimensions à évolution rapide

Subit des changements très fréquents (tous les

mois) dont on veut préserver l’historique

Solution: isoler les attributs qui changent rapidement

Dimensions à évolution rapide

Dimensions à évolution rapide  Changements fréquents des attributs dont on veut garder l’historique  Clients
Dimensions à évolution rapide  Changements fréquents des attributs dont on veut garder l’historique  Clients

Changements fréquents des attributs dont on veut garder

l’historique

Clients pour une compagnie d’assurance

Isoler les attributs qui évoluent vite

Dimensions à évolution rapide (suite)

Dim client Clé_client Dim client Faits Nom Faits Clé_client Clé_client Prénom Clé_client Nom … Adresse
Dim client
Clé_client
Dim client
Faits
Nom
Faits
Clé_client
Clé_client
Prénom
Clé_client
Nom
Adresse
Clé_démog
Prénom
Date_naissance
Adresse
Date_nais
Dim_démographique
Revenus
Clé_démog
Niveau_étude
Revenus
Nb_enfants
Niveau_étude
Statut_marital
Nb_enfants
Profil_financier
Statut_marital
Profil_achat
Profil_financier
44
Profil_achat

Les types de modèles

Les types de modèles Modèle en étoile Modèle en flocon 45
Les types de modèles Modèle en étoile Modèle en flocon 45
Les types de modèles Modèle en étoile Modèle en flocon 45
Les types de modèles Modèle en étoile Modèle en flocon 45

Modèle en étoile

Modèle en flocon

Modèle en étoile

Modèle en étoile  Une table de fait centrale et des dimensions  Les dimensions n’ont
Modèle en étoile  Une table de fait centrale et des dimensions  Les dimensions n’ont

Une table de fait centrale et des dimensions

Les dimensions n’ont pas de liaison entre elles

Avantages:

Facilité de navigation

Nombre de jointures limité

Inconvénients:

Redondance dans les dimensions

Toutes les dimensions ne concernent pas les mesures

Modèle en étoile

Dimension Temps ID temps année mois jour Dimension produit … ID produit Dimension Magasin nom
Dimension Temps
ID temps
année
mois
jour
Dimension produit
ID produit
Dimension Magasin
nom
ID magasin
code
description
Table de faits Achat
prix
ville
ID client
poids
surface
ID temps
groupe
ID magasin
ID région
ID produit
Quantité achetée
famille
Montant des achats
Dimension Region ID région pays description district vente ….
Dimension Region
ID région
pays
description
district vente
….
Dimension Client ID client nom prénom adresse …
Dimension Client
ID client
nom
prénom
adresse

47

Modèle en flocon

Modèle en flocon  Une table de fait et des dimensions décomposées en sous hiérarchies 
Modèle en flocon  Une table de fait et des dimensions décomposées en sous hiérarchies 

Une table de fait et des dimensions décomposées en sous

hiérarchies

On a un seul niveau hiérarchique dans une table de dimension

La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine

Avantages:

Normalisation des dimensions

Économie d’espace disque

Inconvénients:

Modèle plus complexe (jointure)

Requêtes moins performantes

48

Modèle en flocon

Dimension produit ID produit Dimension Temps ID groupe ID temps nom annee code mois prix
Dimension produit
ID produit
Dimension Temps
ID groupe
ID temps
nom
annee
code
mois
prix
Dimension Magasin
jour
poids
Dimension groupe
ID magasin
ID groupe
description
ID famille
ville
Table de faits Achat
nom
surface
ID client
…
Dimension Region ID région ID division vente pays description …. Dimension Division vente ID division
Dimension Region
ID région
ID division vente
pays
description
….
Dimension
Division vente
ID division vente
description
….
ID temps ID magasin ID région ID produit Quantité achetée Montant des achats
ID temps
ID magasin
ID région
ID produit
Quantité achetée
Montant des achats
Dimension Client ID client nom prénom adresse …
Dimension Client
ID client
nom
prénom
adresse
Dimension Famille ID famille nom …
Dimension Famille
ID famille
nom

49

Méthodologie: 9 étapes de Kimball

Méthodologie: 9 étapes de Kimball 1. Choisir le sujet 2. Choisir la granularité des faits 3.
Méthodologie: 9 étapes de Kimball 1. Choisir le sujet 2. Choisir la granularité des faits 3.

1.

Choisir le sujet

2.

Choisir la granularité des faits

3.

Identifier et adapter les dimensions

4.

Choisir les faits

5.

Stocker les pré-calculs

6.

Établir les tables de dimensions

7.

Choisir la durée de la base

8.

Suivre les dimensions lentement évolutives

9.

Décider des requêtes prioritaires, des modes de requêtes

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Alimentation/ mise à jour de l’entrepôt

Alimentation/ mise à jour de l’entrepôt  Entrepôt mis à jour régulièrement  Besoin d’un outil
Alimentation/ mise à jour de l’entrepôt  Entrepôt mis à jour régulièrement  Besoin d’un outil

Entrepôt mis à jour régulièrement Besoin d’un outil permettant d’automatiser les chargements dans l’entrepôt

permettant d’automatiser les chargements dans l’entrepôt Utilisation d’outils ETL (Extract, Transform, Load) 52

Utilisation d’outils ETL (Extract, Transform, Load)

Définition d’un ETL

Définition d’un ETL  Offre un environnement de développement  Offre des outils de gestion des
Définition d’un ETL  Offre un environnement de développement  Offre des outils de gestion des

Offre un environnement de développement

Offre des outils de gestion des opérations et de

maintenance

Permet de découvrir, analyser et extraire les données à partir de sources hétérogènes

Permet de nettoyer et standardiser les données

Permet de charger les données dans un entrepôt

Extraction

Extraction  Extraire des données des systèmes de production  Dialoguer avec différentes sources:  Base
Extraction  Extraire des données des systèmes de production  Dialoguer avec différentes sources:  Base

Extraire des données des systèmes de production

Dialoguer avec différentes sources:

Base de données,

Fichiers,

Bases propriétaires

Utilise divers connecteurs :

ODBC,

SQL natif,

Fichiers plats

Transformation

Transformation  Rendre cohérentes les données des différentes sources  Transformer, nettoyer, trier, unifier
Transformation  Rendre cohérentes les données des différentes sources  Transformer, nettoyer, trier, unifier

Rendre cohérentes les données des différentes

sources

Transformer, nettoyer, trier, unifier les données

Exemple: unifier le format des dates

(MM/JJ/AA JJ/MM/AA)

Etape très importante, garantit la cohérence et la fiabilité des données

Chargement

Chargement  Insérer ou modifier les données dans l’entrepôt  Utilisation de connecteurs:  ODBC, 
Chargement  Insérer ou modifier les données dans l’entrepôt  Utilisation de connecteurs:  ODBC, 

Insérer ou modifier les données dans l’entrepôt Utilisation de connecteurs:

ODBC,

SQL natif,

Fichiers plats

Aperçu d’un ETL

Aperçu d’un ETL 57
Aperçu d’un ETL 57
Aperçu d’un ETL 57

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Accès à l’information

Démonstration

OLTP VS OLAP

Produits Pays
Produits
Pays

Produit

PK

id_produit

 

Libellé

Famille

oranges poires pommes Achat PK id_achat FK id_client id_produit Quantité janvier avril février
oranges
poires
pommes
Achat
PK
id_achat
FK
id_client
id_produit
Quantité
janvier
avril
février
id_client id_produit Quantité janvier avril février Temps client PK id_client   Nom adresse
id_client id_produit Quantité janvier avril février Temps client PK id_client   Nom adresse

Temps

client

PK

id_client

 

Nom

adresse

Espagne

Allemagne

France

Vente de pommes en Allemagne

en avril

ROLAP

ROLAP  Relational OLAP  Données stockées dans une base de données relationnelles  Un moteur
ROLAP  Relational OLAP  Données stockées dans une base de données relationnelles  Un moteur

Relational OLAP

Données stockées dans une base de données relationnelles

Un moteur OLAP permet de simuler le

comportement d’un SGBD multidimensionnel

Plus facile et moins cher à mettre en place

Moins performant lors des phases de calcul

Exemples de moteurs ROLAP:

Mondrian

MOLAP

MOLAP  Multi dimensional OLAP:  Utiliser un système multidimensionnel « pur » qui gère les
MOLAP  Multi dimensional OLAP:  Utiliser un système multidimensionnel « pur » qui gère les

Multi dimensional OLAP:

Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube

Plus difficile à mettre en place

Formats souvent propriétaires

Conçu exclusivement pour l’analyse multidimensionnelle

Exemples de moteurs MOLAP:

Microsoft Analysis Services

Hyperion

61

HOLAP

HOLAP  Hybride OLAP:  tables de faits et tables de dimensions stockées dans SGBD relationnel
HOLAP  Hybride OLAP:  tables de faits et tables de dimensions stockées dans SGBD relationnel

Hybride OLAP:

tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)

données agrégées stockées dans des cubes

Solution hybride entre MOLAP et ROLAP

Bon compromis au niveau coût et performance

Le cube

Le cube  Modélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes
Le cube  Modélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes

Modélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions:

Temps

Localisation géographique

Les calculs sont réalisés lors du chargement ou de la mise à jour du cube

Manipulation des données multidimensionnelles

Manipulation des données multidimensionnelles  Opération agissant sur la structure  Rotation (rotate):
Manipulation des données multidimensionnelles  Opération agissant sur la structure  Rotation (rotate):

Opération agissant sur la structure

Rotation (rotate): présenter une autre face du cube

 

05

06

07

Œuf

221

263

139

Viande

275

257

116

Œuf 221 263 139 Viande 275 257 116   05 06 07 Idf 101 120 52
Œuf 221 263 139 Viande 275 257 116   05 06 07 Idf 101 120 52
Œuf 221 263 139 Viande 275 257 116   05 06 07 Idf 101 120 52
 

05

06

07

Idf

101

120

52

Ain

395

400

203

139 Viande 275 257 116   05 06 07 Idf 101 120 52 Ain 395 400

Manipulation des données multidimensionnelles

Manipulation des données multidimensionnelles  Opération agissant sur la structure  Tranchage (slicing):
Manipulation des données multidimensionnelles  Opération agissant sur la structure  Tranchage (slicing):

Opération agissant sur la structure

Tranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeur

 

05

06

07

Œuf

Idf

220

265

284

Ain

225

245

240

Viande

Idf

163

152

145

Ain

187

174

184

Idf 163 152 145 Ain 187 174 184   06 Œuf Idf 265 Ain 245 Viande
Idf 163 152 145 Ain 187 174 184   06 Œuf Idf 265 Ain 245 Viande
 

06

Œuf

Idf

265

Ain

245

Viande

Idf

152

Ain

174

Ain 187 174 184   06 Œuf Idf 265 Ain 245 Viande Idf 152 Ain 174

65

Manipulation des données multidimensionnelles

Manipulation des données multidimensionnelles  Opération agissant sur la structure  Extraction d’un bloc de
Manipulation des données multidimensionnelles  Opération agissant sur la structure  Extraction d’un bloc de

Opération agissant sur la structure

Extraction d’un bloc de données (dicing): ne travailler que sous un sous-cube

 

05

06

07

Œuf

Idf

220

265

284

Ain

225

245

240

Viande

Idf

163

152

145

Ain

187

174

184

Idf 163 152 145 Ain 187 174 184   05 06 07 Œuf Idf 220 265
Idf 163 152 145 Ain 187 174 184   05 06 07 Œuf Idf 220 265
Idf 163 152 145 Ain 187 174 184   05 06 07 Œuf Idf 220 265
 

05

06

07

Œuf

Idf

220

265

284

Ain

225

245

240

Ain 187 174 184   05 06 07 Œuf Idf 220 265 284 Ain 225 245

66

Manipulation des données multidimensionnelles

Manipulation des données multidimensionnelles  Opération agissant sur la granularité  Forage vers le haut
Manipulation des données multidimensionnelles  Opération agissant sur la granularité  Forage vers le haut

Opération agissant sur la granularité

Forage vers le haut (roll-up): « dézoomer »

Obtenir un niveau de granularité supérieur

Utilisation de fonctions d’agrégation

Forage vers le bas (drill-down): « zoomer »

Obtenir un niveau de granularité inférieur

Données plus détaillées

Drill-up, drill-down

Drill-up, drill-down Roll up     05   06 07   Dimension   Roll up Alim.
Drill-up, drill-down Roll up     05   06 07   Dimension   Roll up Alim.

Roll up

 
 

05

 

06

07

 

Dimension

 

Roll up

Alim.

496

520

255

Temps

 

05-07

05

   

06

07

1S05

2S05

1S06

2S06

1S07

Fruits

623

Fruits

221

 

263

139

Fruits

100

121

111

152

139

Viande

648

Viande

275

 

257

116

Viande

134

141

120

137

116

 

05

 

06

07

 

Drill down

 

Pomme

 

20

 

19

22

 

 

Boeuf

40

 

43

48

 

Drill down

 

Dimension

Produit

68

MDX (Multidimensional Expressions)

MDX (Multidimensional Expressions)  Langage permettant de définir, d'utiliser et de récupérer des données à
MDX (Multidimensional Expressions)  Langage permettant de définir, d'utiliser et de récupérer des données à

Langage permettant de définir, d'utiliser et de récupérer

des données à partir d'objets multidimensionnels

Permet d’effectuer les opérations décrites précédemment

Equivalent de SQL pour le monde OLAP

Origine: Microsoft

MDX, exemple

MDX, exemple  Fournir les effectifs d’une société pendant les années 2004 et 2005 croisés par
MDX, exemple  Fournir les effectifs d’une société pendant les années 2004 et 2005 croisés par

Fournir les effectifs d’une société pendant les années 2004 et 2005 croisés par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,

{[Pay].[Pay Type].Members} ON ROWS

ON COLUMNS, {[Pay].[Pay Type].Members} ON ROWS Dimensions, axes d’analyse Cube FROM RH WHERE

Dimensions, axes d’analyse

Type].Members} ON ROWS Dimensions, axes d’analyse Cube FROM RH WHERE ([Measures].[Count])   2004 2005

Cube

FROM RH

ON ROWS Dimensions, axes d’analyse Cube FROM RH WHERE ([Measures].[Count])   2004 2005  

WHERE ([Measures].[Count])

 

2004

2005

 

Heure

3396

4015

Jour

3678

2056

70

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Le marché du décisionnel

Démonstration

Le marché du décisionnel

Le marché du décisionnel 72
Le marché du décisionnel 72
Le marché du décisionnel 72

Quelques solutions commerciales

Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73
Quelques solutions commerciales 73

Quelques solutions open source

ETL

Entrepôt

OLAP

Reporting

Data Mining

de données

Octopus

MySql

Mondrian

Birt Open Report Jasper Report JFreeReport

Weka

Kettle

Postgresql

Palo

R-Project

CloverETL

Greenplum/Biz

Orange

Talend

gres

Xelopes

Intégré

Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI

Plan

Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 
Plan  Introduction  Les entrepôts de données  Les datamart  Architecture  Modélisation 

Introduction

Les entrepôts de données

Les datamart

Architecture

Modélisation

Alimentation

Les bases de données multidimensionnelles

Accès à l’information

Démonstration

Exemples

Exemples  Rapports  Sales by customer  Dashboard  Analyse 76
Exemples  Rapports  Sales by customer  Dashboard  Analyse 76

Rapports

Sales by customer Dashboard

Analyse

77
77
77
77
77