Vous êtes sur la page 1sur 77

Les entrepts de donnes

Lydie Soler
Janvier 2008
U.F.R. dinformatique

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
2

Le contexte

Besoin: prise de dcisions stratgiques et tactiques


Pourquoi: besoin de ractivit
Qui: les dcideurs (non informaticiens)
Comment: rpondre aux demandes danalyse des donnes, dgager
des informations qualitatives nouvelles
Qui sont mes
meilleurs
clients?

Quels franais
consomment
beaucoup de
poisson?

Pourquoi et
comment le
chiffre
daffaire a
baiss?
A combien
slvent mes
ventes
journalires?
3

Les donnes utilisables par les dcideurs


Donnes oprationnelles (de production)
Bases de donnes (Oracle, SQL Server)
Fichiers,
Paye, gestion des RH, gestion des commandes
Caractristiques de ces donnes:
Distribues: systmes parpills
Htrognes: systmes et structures de donnes diffrents
Dtailles: organisation des donnes selon les processus
fonctionnels, donnes surabondantes pour lanalyse
Peu/pas adaptes lanalyse : les requtes lourdes peuvent
bloquer le systme transactionnel
Volatiles: pas dhistorisation systmatique
4

Problmatique
Comment rpondre aux demandes des dcideurs?
En donnant un accs rapide et simple linformation
stratgique
En donnant du sens aux donnes

Mettre en place un systme dinformation ddi aux


applications dcisionnelles:
un data warehouse

Le processus de prise de dcision


Champs dapplication des
systmes dcisionnels
Dfinir le Rassembler Analyser les tablir des Dcider
solutions
problme les donnes donnes
Temps de prise dune dcision

Le processus de prise de dcision

Prise de
dcision

Bases de
production

Data
warehouse

Base multi dimensionnelle

Prdiction /
simulation

Domaines dutilisation des DW


Banque
Risques dun prt, prime plus prcise
Sant
pidmiologie
Risque alimentaire
Commerce
Ciblage de clientle
Dterminer des promotions
Logistique
Adquation demande/production
Assurance
Risque li un contrat dassurance (voiture)

8

Quelques mtiers du dcisionnel


Strategic Performance Management

Dterminer et contrler les indicateurs cl de la performance de


lentreprise
Finance Intelligence
Planifier, analyser et diffuser linformation financire. Mesurer et
grer les risques
Human Capital Management (gestion de la relation avec les employs)
Aligner les stratgies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
Amliorer la connaissance client, identifier et prvoir la
rentabilit client, accroitre lefficacit du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
Classifier et valuer lensemble des fournisseurs. Planifier et
9
piloter la stratgie Achat.

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
10

Dfinition dun DW
W. H. Inmon (1996):

Le data Warehouse est une collection de


donnes orientes sujet, intgres, non
volatiles et historises, organises pour le
support dun processus daide la dcision
Principe: mettre en place une base de donnes

utilise des fins danalyse

11

Les 4 caractristiques des data warehouse


1. Donnes orientes sujet:
Regroupe les informations des diffrents mtiers
Ne tiens pas compte de lorganisation fonctionnelle
des donnes
Ass. Vie

Ass. Auto

Ass. Sant
Client
Police

12

Les 4 caractristiques des data warehouse


2. Donnes intgres:
Normalisation des donnes
Dfinition dun rfrentiel unique
h,f
1,0

h,f

homme, femme
GBP
CHF

USD

EUR

13

Les 4 caractristiques des data warehouse


3. Donnes non volatiles
Traabilit des informations et des dcisions prises
Copie des donnes de production
Bases de production

Entrepts de donnes

Ajout
Suppression
Accs
Modification

Chargement
14

Les 4 caractristiques des data warehouse


4. Donnes dates
Les donnes persistent dans le temps
Mise en place dun rfrentiel temps
Image de la base en Mai 2005

Image de la base en Juillet 2006


Rpertoire

Rpertoire

Base de
production

Nom

Ville

Nom

Ville

Dupont

Paris

Dupont

Marseille

Durand

Lyon

Durand

Lyon

Rpertoire

Calendrier

Entrept
de
donnes

Code Anne

Mois

Code Anne

Mois

2005

Mai

Dupont

Paris

2006

Juillet

Durand

Lyon
15

Dupont

Marseille

SGBD et DW
OLTP: On-Line
Transactional
Processing

Service
commercial

Service
Financier

Service
livraison

BD prod

BD prod

BD prod

Clientle

Data Warehouse
OLAP: On-Line
Analitical
Processing

Clientle

H
I
S
T
O
R
I
Q
U
E

16

OLTP VS DW
OLTP

DW

Orient transaction

Orient analyse

Orient application
Donnes courantes

Orient sujet
Donnes historises

Donnes dtailles
Donnes volutives

Donnes agrges
Donnes statiques

Utilisateurs nombreux,
Utilisateurs peu nombreux,
administrateurs/oprationnels manager

Temps dexcution: court

Temps dexcution: long


17

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
18

Datamart
Sous-ensemble dun entrept de donnes

Destin rpondre aux besoins dun secteur ou

dune fonction particulire de lentreprise


Point de vue spcifique selon des critres mtiers
Datamarts du
service Marketing

DW de lentreprise

Datamart du
service Ressources
Humaines

19

Intrt des datamart


Nouvel environnement structur et format en

fonction des besoins dun mtier ou dun usage


particulier
Moins de donnes que DW

Plus facile comprendre, manipuler


Amlioration des temps de rponse

Utilisateurs plus cibls: DM plus facile dfinir

20

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
21

Architecture gnrale
Zone de stockage

Zone de prparation
E
X
T
R
A
C
T
I
O
N

Sources de
donnes

Transformations:
Nettoyage
Standardisation

C
H
A
R
G
E
M
E
N
T

Data
warehouse

Zone de
prsentation

Requtes
Rapports
Visualisation
Data Mining

Datamart

22

Les flux de donnes


Flux entrant

Extraction: multi-source, htrogne


Transformation: filtrer, trier, homogniser, nettoyer
Chargement: insertion des donnes dans lentrept

Flux sortant:

Mise disposition des donnes pour les utilisateurs


finaux

23

Les diffrentes zones de larchitecture


Zone de prparation (Staging area)
Zone temporaire de stockage des donnes extraites
Ralisation des transformations avant linsertion dans le DW:
Nettoyage
Normalisation
Donnes souvent dtruites aprs chargement dans le DW
Zone de stockage (DW, DM)
On y transfre les donnes nettoyes
Stockage permanent des donnes
Zone de prsentation
Donne accs aux donnes contenues dans le DW
Peut contenir des outils danalyse programms:
Rapports
Requtes
24

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
25

Modlisation Entit/Association
Avantages:
Normalisation:
liminer les redondances
Prserver la cohrence des donnes
Optimisation des transactions
Rduction de lespace de stockage
Inconvnients pour un utilisateur final:
Schma trs/trop complet:
Contient des tables/champs inutiles pour lanalyse
Pas dinterface graphique capable de rendre
utilisable le modle E/A
Inadapt pour lanalyse

26

Exemple
Mode
dexpdition

Transporteur

Produit

Contrat
Type de
contrat

Commande
client
Groupe de
produits

Client
Magasin
Employ
Stock

Fonction

Fournisseurs

Rgion de
ventes
Division
de ventes

Famille de
produits

27

Modlisation des DW
Nouvelle mthode de conception autour des

concepts mtiers

Ne pas normaliser au maximum

Introduction de nouveaux types de table:

Table de faits
Table de dimensions

Introduction de nouveaux modles:

Modle en toile
Modle en flocon
28

Table de faits
Table principale du modle dimensionnel
Contient les donnes observables (les faits) sur le sujet

tudi selon divers axes danalyse (les dimensions)

Cls trangres
vers les
dimensions
Faits

Table de faits des ventes


Cl date (CE)
Cl produit (CE)
Cl magasin (CE)
Quantit vendue
Cot
Montant des ventes
29

Table de faits (suite)


Fait:

Ce que lon souhaite mesurer

Contient les cls trangres des axes danalyse


(dimension)

Quantits vendues, montant des ventes

Date, produit, magasin

Trois types de faits:

Additif
Semi additif
Non additif
30

Typologie des faits


Additif: additionnable suivant toutes les dimensions
Quantits vendues, chiffre daffaire
Peut tre le rsultat dun calcul:

Bnfice = montant vente - cot

Semi additif: additionnable suivant certaines

dimensions

Solde dun compte bancaire:


Pas de sens dadditionner sur les dates car cela
reprsente des instantans dun niveau
sur les comptes: on connat ce que nous possdons

en banque
Non additif: fait non additionnable quelque soit la
dimension
Prix unitaire: laddition sur nimporte quelle dimension donne
31
un nombre dpourvu de sens

Granularit de la table de faits


Rpondre la question :

Que reprsente un enregistrement de la table de


faits?

La granularit dfinit le niveau de dtails de la

table de faits:

Exemple: une ligne de commande par produit, par


client et par jour

Prcision des analyses

Finesse

Taille de lentrept
32

Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes

observables (faits)
Contient le dtail sur les faits

Cl de substitution

Attributs de la
dimension

Dimension produit
Cl produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Emballage
Poids

33

Table de dimension (suite)


Dimension = axe danalyse
Client, produit, priode de temps
Contient souvent un grand nombre de colonnes
Lensemble des informations descriptives des faits
Contient en gnral beaucoup moins

denregistrements quune table de faits

34

La dimension Temps
Commune lensemble du

DW
Relie toute table de
faits

Dimension Temps

Cl temps (CP)
Jour
Mois
Trimestre
Semestre
Anne
Num_jour_dans_anne
Num_semaine_ds_anne

35

Granularit dune dimension


Une dimension contient des membres organiss

en hirarchie :

Chacun des membres appartient un niveau


hirarchique (ou niveau de granularit) particulier
Granularit dune dimension : nombre de niveaux
hirarchiques
Temps :
anne semestre trimestre - mois

36

volution des dimensions


Dimensions volution lente

Dimensions volution rapide

37

volution des dimensions


Dimensions volution lente

Un client peut se marier, avoir des enfants


Un produit peut changer de noms ou de
formulation:
Raider en Twix
yaourt la vanille en yaourt saveur vanille
Gestion de la situation, 3 solutions:
crasement de lancienne valeur
Versionnement
Valeur dorigine / valeur courante

Dimensions volution rapide

38

Dimensions volution lente (1/3)


crasement de lancienne valeur :
Correction des informations errones
Avantage:
Facile mettre en uvre
Inconvnients:
Perte de la trace des valeurs antrieures des attributs
Perte de la cause de lvolution dans les faits mesurs

Cl produit Description du produit Groupe de produits

12345

Intelli-Kids

Logiciel
Jeux ducatifs
39

Dimensions volution lente (2/3)


Ajout dun nouvel enregistrement:
Utilisation dune cl de substitution
Avantages:
Permet de suivre lvolution des attributs
Permet de segmenter la table de faits en fonction de
lhistorique
Inconvnient:
Accroit le volume de la table

Cl produit Description du produit Groupe de produits


12345

Intelli-Kids

Logiciel

25963

Intelli-Kids

Jeux ducatifs
40

Dimensions volution lente (3/3)


Ajout dun nouvel attribut:

Valeur origine/valeur courante

Avantages:

Avoir deux visions simultanes des donnes :

Voir les donnes rcentes avec lancien attribut


Voir les donnes anciennes avec le nouvel attribut

Voir les donnes comme si le changement navait pas eu lieu

Inconvnient:

Inadapt pour suivre plusieurs valeurs dattributs intermdiaires

Cl produit Description du Groupe de


produit
produits
12345
Intelli-Kids
Logiciel

Nouveau groupe
de produits
Jeux ducatifs 41

volution des dimensions


Dimensions volution lente

Dimensions volution rapide

Subit des changements trs frquents (tous les


mois) dont on veut prserver lhistorique
Solution: isoler les attributs qui changent
rapidement

42

Dimensions volution rapide


Changements frquents des attributs dont on veut garder

lhistorique

Clients pour une compagnie dassurance

Isoler les attributs qui voluent vite

43

Dimensions volution rapide (suite)


Dim client
Dim client

Faits

Cl_client

Cl_client

Cl_client

Nom

Faits

Nom

Prnom

Cl_client

Adresse

Cl_dmog

Prnom
Adresse
Date_nais

Date_naissance

Dim_dmographique

Revenus

Cl_dmog

Niveau_tude

Revenus

Nb_enfants

Niveau_tude

Statut_marital

Nb_enfants

Profil_financier

Statut_marital

Profil_achat

Profil_financier
Profil_achat

44

Les types de modles

Modle en toile

Modle en flocon
45

Modle en toile
Une table de fait centrale et des dimensions

Les dimensions nont pas de liaison entre elles


Avantages:

Facilit de navigation
Nombre de jointures limit

Inconvnients:

Redondance dans les dimensions


Toutes les dimensions ne concernent pas les
mesures
46

Modle en toile

Dimension Magasin
ID magasin
description
ville
surface

Dimension Region
ID rgion
pays
description
district vente
.

Dimension Temps
ID temps
anne
mois
jour

Table de faits Achat


ID client
ID temps
ID magasin
ID rgion
ID produit
Quantit achete
Montant des achats

Dimension produit
ID produit
nom
code
prix
poids
groupe
famille

Dimension Client
ID client
nom
prnom
adresse

47

Modle en flocon
Une table de fait et des dimensions dcomposes en sous

hirarchies
On a un seul niveau hirarchique dans une table de
dimension
La table de dimension de niveau hirarchique le plus bas
est relie la table de fait. On dit quelle a la granularit la
plus fine
Avantages:

Normalisation des dimensions


conomie despace disque

Inconvnients:
Modle plus complexe (jointure)
Requtes moins performantes

48

Modle en flocon
Dimension Magasin
ID magasin
description
ville
surface

Dimension Temps
ID temps
annee
mois
jour

Dimension Region
ID rgion
ID division vente
pays
description
.
Dimension
Division vente
ID division vente
description
.

Dimension produit
ID produit
ID groupe
nom
code
prix
poids

Table de faits Achat


ID client
ID temps
ID magasin
ID rgion
ID produit
Quantit achete
Montant des achats
Dimension Client
ID client
nom
prnom
adresse

Dimension groupe
ID groupe
ID famille
nom

Dimension Famille
ID famille
nom

49

Mthodologie: 9 tapes de Kimball


1.

2.
3.
4.

5.
6.
7.
8.
9.

Choisir le sujet
Choisir la granularit des faits
Identifier et adapter les dimensions
Choisir les faits
Stocker les pr-calculs
tablir les tables de dimensions
Choisir la dure de la base
Suivre les dimensions lentement volutives
Dcider des requtes prioritaires, des modes de requtes

50

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
51

Alimentation/ mise jour de lentrept


Entrept mis jour rgulirement
Besoin dun outil permettant dautomatiser les chargements

dans lentrept
Utilisation doutils ETL (Extract, Transform, Load)

52

Dfinition dun ETL


Offre un environnement de dveloppement
Offre des outils de gestion des oprations et de

maintenance
Permet de dcouvrir, analyser et extraire les donnes
partir de sources htrognes
Permet de nettoyer et standardiser les donnes
Permet de charger les donnes dans un entrept

53

Extraction
Extraire des donnes des systmes de production
Dialoguer avec diffrentes sources:
Base de donnes,
Fichiers,
Bases propritaires
Utilise divers connecteurs :
ODBC,
SQL natif,
Fichiers plats
54

Transformation
Rendre cohrentes les donnes des diffrentes

sources

Transformer, nettoyer, trier, unifier les donnes


Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA)

Etape trs importante, garantit la cohrence et la

fiabilit des donnes

55

Chargement
Insrer ou modifier les donnes dans lentrept
Utilisation de connecteurs:

ODBC,
SQL natif,
Fichiers plats

56

Aperu dun ETL

57

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Accs linformation
Dmonstration
58

OLTP VS OLAP
Produits
oranges
poires

Produit
PK id_produit

Espagne
Allemagne

pommes

Libell
Famille

Pays

Achat

France

PK id_achat

FK id_client

client
PK

id_client
Nom

id_produit
Quantit

janvier

avril
fvrier

Temps

Vente de
pommes en
Allemagne
en avril

adresse
59

ROLAP
Relational OLAP

Donnes stockes dans une base de donnes


relationnelles
Un moteur OLAP permet de simuler le
comportement dun SGBD multidimensionnel

Plus facile et moins cher mettre en place


Moins performant lors des phases de calcul

Exemples de moteurs ROLAP:

Mondrian
60

MOLAP
Multi dimensional OLAP:
Utiliser un systme multidimensionnel pur qui
gre les structures multidimensionnelles natives
(les cubes)
Accs direct aux donnes dans le cube
Plus difficile mettre en place
Formats souvent propritaires
Conu exclusivement pour lanalyse

multidimensionnelle
Exemples de moteurs MOLAP:

Microsoft Analysis Services


Hyperion

61

HOLAP
Hybride OLAP:

tables de faits et tables de dimensions stockes


dans SGBD relationnel (donnes de base)
donnes agrges stockes dans des cubes

Solution hybride entre MOLAP et ROLAP


Bon compromis au niveau cot et performance

62

Le cube
Modlisation multidimensionnelle des donnes

facilitant lanalyse dune quantit selon diffrentes


dimensions:

Temps
Localisation gographique

Les calculs sont raliss lors du chargement ou

de la mise jour du cube

63

Manipulation des donnes


multidimensionnelles
Opration agissant sur la structure
Rotation (rotate): prsenter une autre face du cube

uf

05 06 07
221 263 139

Viande 275 257 116

05 06 07
Idf 101 120 52
Ain 395 400 203

64

Manipulation des donnes


multidimensionnelles
Opration agissant sur la structure
Tranchage (slicing): consiste ne travailler que sur une
tranche du cube. Une des dimensions est alors rduite une
seule valeur

uf

05 06 07
Idf 220 265 284
Ain 225 245 240

Viande Idf 163 152 145


Ain 187 174 184

uf

06
Idf 265
Ain 245

Viande Idf 152


Ain 174

65

Manipulation des donnes


multidimensionnelles
Opration agissant sur la structure
Extraction dun bloc de donnes (dicing): ne travailler que
sous un sous-cube

uf

05 06 07
Idf 220 265 284
Ain 225 245 240

Viande Idf 163 152 145


Ain 187 174 184

05 06 07
uf Idf 220 265 284
Ain 225 245 240

66

Manipulation des donnes


multidimensionnelles
Opration agissant sur la granularit

Forage vers le haut (roll-up): dzoomer

Obtenir un niveau de granularit suprieur


Utilisation de fonctions dagrgation

Forage vers le bas (drill-down): zoomer

Obtenir un niveau de granularit infrieur


Donnes plus dtailles

67

Drill-up, drill-down
Roll up
05

07

Dimension
Temps

Alim. 496 520 255

Roll up
05-07
Fruits

06

623

Viande 648

05

Fruits

06

07

221 263 139

Viande 275 257 116

1S05 2S05 1S06 2S06 1S07

Fruits

100

121

111

152

139

Viande 134

141

120

137

116

05 06 07
Pomme

20 19 22

Boeuf

40 43 48

Dimension
Produit

Drill down

Drill down
68

MDX (Multidimensional Expressions)


Langage permettant de dfinir, d'utiliser et de rcuprer

des donnes partir d'objets multidimensionnels

Permet deffectuer les oprations dcrites prcdemment

Equivalent de SQL pour le monde OLAP


Origine: Microsoft

69

MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004

et 2005 croiss par le type de paiement


SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,
{[Pay].[Pay Type].Members} ON ROWS
FROM RH

Dimensions,
axes danalyse

Cube

WHERE ([Measures].[Count])
2004 2005

Heure 3396 4015


Jour
3678 2056

70

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Le march du dcisionnel
Dmonstration
71

Le march du dcisionnel

72

Quelques solutions commerciales

73

Quelques solutions open source


ETL

Entrept
de donnes

OLAP

Octopus

MySql

Mondrian Birt

Weka

Kettle

Postgresql

Palo

R-Project

CloverETL Greenplum/Biz

Talend

gres

Reporting

Open Report

Data Mining

Jasper Report Orange

JFreeReport

Xelopes

Intgr
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI

74

Plan
Introduction

Les entrepts de donnes


Les datamart
Architecture
Modlisation
Alimentation
Les bases de donnes multidimensionnelles
Accs linformation
Dmonstration
75

Exemples
Rapports

Sales by customer
Dashboard

Analyse

76

77