Vous êtes sur la page 1sur 77

Les entrepts de donnes

Lydie Soler Janvier 2008


U.F.R. dinformatique Document diffus sous licence Creative Commons by-nc-nd (http://creativecommons.org/licenses/by-nc-nd/2.0/fr/)

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
2

Le contexte

Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients? Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
3

Quels franais consomment beaucoup de poisson?

Les donnes utilisables par les dcideurs


Donnes oprationnelles (de production) Bases de donnes (Oracle, SQL Server) Fichiers, Paye, gestion des RH, gestion des commandes Caractristiques de ces donnes: Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
4

Problmatique
Comment rpondre aux demandes des dcideurs? En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes

Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse

Le processus de prise de dcision


Champs dapplication des systmes dcisionnels Dfinir le Rassembler Analyser les tablir des Dcider solutions problme les donnes donnes Temps de prise dune dcision

Le processus de prise de dcision

Prise de dcision

Bases de production

Data warehouse

Base multi dimensionnelle

Prdiction / simulation

Domaines dutilisation des DW


Banque Risques dun prt, prime plus prcise Sant pidmiologie Risque alimentaire Commerce Ciblage de clientle Dterminer des promotions Logistique Adquation demande/production Assurance Risque li un contrat dassurance (voiture)
8

Quelques mtiers du dcisionnel


Strategic Performance Management

Dterminer et contrler les indicateurs cl de la performance de lentreprise Finance Intelligence Planifier, analyser et diffuser linformation financire. Mesurer et grer les risques Human Capital Management (gestion de la relation avec les employs) Aligner les stratgies RH, les processus et les technologies. Customer Relationship Management (gestion de la relation client) Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit du marketing client Supplier Relationship Management (gestion de la relation fournisseur) Classifier et valuer lensemble des fournisseurs. Planifier et 9 piloter la stratgie Achat.

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
10

Dfinition dun DW
W. H. Inmon (1996):

Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision
Principe: mettre en place une base de donnes

utilise des fins danalyse

11

Les 4 caractristiques des data warehouse


1. Donnes orientes sujet: Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes
Ass. Vie Ass. Auto Ass. Sant Client Police

12

Les 4 caractristiques des data warehouse


2. Donnes intgres: Normalisation des donnes Dfinition dun rfrentiel unique
h,f 1,0 homme, femme GBP CHF USD
EUR

h,f

13

Les 4 caractristiques des data warehouse


3. Donnes non volatiles Traabilit des informations et des dcisions prises Copie des donnes de production
Bases de production Ajout Suppression Accs Modification Chargement
14

Entrepts de donnes

Les 4 caractristiques des data warehouse


4. Donnes dates Les donnes persistent dans le temps Mise en place dun rfrentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Rpertoire

Base de production

Rpertoire

Nom
Dupont Durand
Calendrier

Ville
Paris Lyon

Nom Dupont Durand


Rpertoire

Ville Marseille Lyon

Entrept de donnes

Code Anne 1 2 2005 2006

Mois Mai Juillet

Code Anne 1 1 2 Dupont Durand Dupont

Mois Paris Lyon


15

Marseille

SGBD et DW
OLTP: On-Line Transactional Processing Service commercial
BD prod

Service Financier
BD prod

Service livraison
BD prod

Clientle
H I S T O R I Q U E

Data Warehouse
OLAP: On-Line Analitical Processing Clientle

16

OLTP VS DW
OLTP
Orient transaction Orient application Donnes courantes

DW
Orient analyse Orient sujet Donnes historises

Donnes dtailles Donnes volutives Utilisateurs nombreux, administrateurs/oprationnels Temps dexcution: court

Donnes agrges Donnes statiques Utilisateurs peu nombreux, manager Temps dexcution: long
17

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
18

Datamart
Sous-ensemble dun entrept de donnes

Destin rpondre aux besoins dun secteur ou

dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Datamarts du service Marketing

DW de lentreprise

Datamart du service Ressources Humaines

19

Intrt des datamart


Nouvel environnement structur et format en

fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW

Plus facile comprendre, manipuler Amlioration des temps de rponse

Utilisateurs plus cibls: DM plus facile dfinir

20

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
21

Architecture gnrale
Zone de prparation
E X T R A C T I O N

Zone de stockage C H A R G E M E N T

Zone de prsentation

Transformations: Nettoyage Standardisation

Data warehouse

Requtes Rapports Visualisation Data Mining

Sources de donnes

Datamart

22

Les flux de donnes


Flux entrant

Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept Mise disposition des donnes pour les utilisateurs finaux

Flux sortant:

23

Les diffrentes zones de larchitecture


Zone de prparation (Staging area) Zone temporaire de stockage des donnes extraites Ralisation des transformations avant linsertion dans le DW: Nettoyage Normalisation Donnes souvent dtruites aprs chargement dans le DW Zone de stockage (DW, DM) On y transfre les donnes nettoyes Stockage permanent des donnes Zone de prsentation Donne accs aux donnes contenues dans le DW Peut contenir des outils danalyse programms: Rapports Requtes 24

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
25

Modlisation Entit/Association
Avantages: Normalisation: liminer les redondances Prserver la cohrence des donnes Optimisation des transactions Rduction de lespace de stockage Inconvnients pour un utilisateur final: Schma trs/trop complet: Contient des tables/champs inutiles pour lanalyse Pas dinterface graphique capable de rendre utilisable le modle E/A Inadapt pour lanalyse

26

Exemple
Transporteur Mode dexpdition

Contrat

Produit
Commande client Client Magasin Employ Stock Rgion de ventes Division de ventes Famille de produits Groupe de produits

Type de contrat

Fonction

Fournisseurs

27

Modlisation des DW
Nouvelle mthode de conception autour des

concepts mtiers

Ne pas normaliser au maximum Table de faits Table de dimensions Modle en toile Modle en flocon
28

Introduction de nouveaux types de table:


Introduction de nouveaux modles:


Table de faits
Table principale du modle dimensionnel

Contient les donnes observables (les faits) sur le sujet

tudi selon divers axes danalyse (les dimensions) Table de faits des ventes Cls trangres vers les dimensions Faits Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes
29

Table de faits (suite)


Fait:

Ce que lon souhaite mesurer

Quantits vendues, montant des ventes

Contient les cls trangres des axes danalyse (dimension)

Date, produit, magasin Additif Semi additif Non additif


30

Trois types de faits:


Typologie des faits


Additif: additionnable suivant toutes les dimensions Quantits vendues, chiffre daffaire Peut tre le rsultat dun calcul:

Bnfice = montant vente - cot

Semi additif: additionnable suivant certaines

dimensions

reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons en banque Non additif: fait non additionnable quelque soit la dimension Prix unitaire: laddition sur nimporte quelle dimension donne 31 un nombre dpourvu de sens

Solde dun compte bancaire: Pas de sens dadditionner sur les dates car cela

Granularit de la table de faits


Rpondre la question :

Que reprsente un enregistrement de la table de faits?

La granularit dfinit le niveau de dtails de la

table de faits:

Exemple: une ligne de commande par produit, par client et par jour

Prcision des analyses Taille de lentrept

Finesse

32

Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes

observables (faits) Contient le dtail sur les faits


Dimension produit Cl produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids

Cl de substitution

Attributs de la dimension

33

Table de dimension (suite)


Dimension = axe danalyse Client, produit, priode de temps Contient souvent un grand nombre de colonnes Lensemble des informations descriptives des faits Contient en gnral beaucoup moins

denregistrements quune table de faits

34

La dimension Temps
Commune lensemble du

Dimension Temps Cl temps (CP) Jour Mois Trimestre Semestre Anne Num_jour_dans_anne Num_semaine_ds_anne

DW Relie toute table de faits

35

Granularit dune dimension


Une dimension contient des membres organiss

en hirarchie :

Chacun des membres appartient un niveau hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps :

anne semestre trimestre - mois

36

volution des dimensions


Dimensions volution lente

Dimensions volution rapide

37

volution des dimensions


Dimensions volution lente

Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation: Raider en Twix yaourt la vanille en yaourt saveur vanille Gestion de la situation, 3 solutions: crasement de lancienne valeur Versionnement Valeur dorigine / valeur courante
38

Dimensions volution rapide

Dimensions volution lente (1/3)


crasement de lancienne valeur : Correction des informations errones Avantage: Facile mettre en uvre

Inconvnients: Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs

Cl produit Description du produit Groupe de produits


12345 Intelli-Kids Logiciel Jeux ducatifs
39

Dimensions volution lente (2/3)


Ajout dun nouvel enregistrement: Utilisation dune cl de substitution Avantages: Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique Inconvnient: Accroit le volume de la table

Cl produit Description du produit Groupe de produits 12345 Intelli-Kids Intelli-Kids Logiciel Jeux ducatifs
40

25963

Dimensions volution lente (3/3)


Ajout dun nouvel attribut:

Valeur origine/valeur courante


Avoir deux visions simultanes des donnes :

Avantages:

Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut

Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre plusieurs valeurs dattributs intermdiaires

Inconvnient:

Cl produit Description du Groupe de produit produits 12345 Intelli-Kids Logiciel

Nouveau groupe de produits Jeux ducatifs 41

volution des dimensions


Dimensions volution lente

Dimensions volution rapide


Subit des changements trs frquents (tous les mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement

42

Dimensions volution rapide


Changements frquents des attributs dont on veut garder

lhistorique

Clients pour une compagnie dassurance

Isoler les attributs qui voluent vite

43

Dimensions volution rapide (suite)


Dim client Dim client Cl_client Nom Prnom Adresse Date_nais Faits Cl_client Nom Prnom Adresse Date_naissance Dim_dmographique Cl_dmog Revenus Niveau_tude Nb_enfants Statut_marital Profil_financier Profil_achat
44

Cl_client

Faits Cl_client Cl_dmog

Revenus Niveau_tude Nb_enfants Statut_marital Profil_financier Profil_achat

Les types de modles

Modle en toile

Modle en flocon
45

Modle en toile
Une table de fait centrale et des dimensions

Les dimensions nont pas de liaison entre elles


Avantages:

Facilit de navigation Nombre de jointures limit Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures
46

Inconvnients:

Modle en toile
Dimension Temps ID temps anne mois jour

Dimension Magasin ID magasin description ville surface

Dimension Region ID rgion pays description district vente .

Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats

Dimension produit ID produit nom code prix poids groupe famille


Dimension Client ID client nom prnom adresse

47

Modle en flocon
Une table de fait et des dimensions dcomposes en sous

hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:

Normalisation des dimensions conomie despace disque

Inconvnients: Modle plus complexe (jointure) Requtes moins performantes

48

Modle en flocon
Dimension Magasin ID magasin description ville surface Dimension Temps ID temps annee mois jour

Dimension produit ID produit ID groupe nom code prix poids

Dimension Region ID rgion ID division vente pays description . Dimension Division vente ID division vente description .

Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats Dimension Client ID client nom prnom adresse

Dimension groupe ID groupe ID famille nom

Dimension Famille ID famille nom

49

Mthodologie: 9 tapes de Kimball


1. 2. 3. 4. 5. 6. 7. 8. 9.

Choisir le sujet Choisir la granularit des faits Identifier et adapter les dimensions Choisir les faits Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes prioritaires, des modes de requtes

50

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
51

Alimentation/ mise jour de lentrept


Entrept mis jour rgulirement

Besoin dun outil permettant dautomatiser les chargements

dans lentrept

Utilisation doutils ETL (Extract, Transform, Load)

52

Dfinition dun ETL


Offre un environnement de dveloppement

Offre des outils de gestion des oprations et de

maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept

53

Extraction
Extraire des donnes des systmes de production

Dialoguer avec diffrentes sources: Base de donnes, Fichiers, Bases propritaires


Utilise divers connecteurs : ODBC, SQL natif, Fichiers plats
54

Transformation
Rendre cohrentes les donnes des diffrentes

sources

Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)

Etape trs importante, garantit la cohrence et la

fiabilit des donnes

55

Chargement
Insrer ou modifier les donnes dans lentrept

Utilisation de connecteurs:

ODBC, SQL natif, Fichiers plats

56

Aperu dun ETL

57

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation

Dmonstration
58

OLTP VS OLAP
Produits Pays
Espagne Allemagne

Produit
PK id_produit Libell

oranges poires pommes

Famille

Achat
PK id_achat FK id_client id_produit

France

client
PK id_client Nom adresse

Quantit

janvier

avril

fvrier

Temps

Vente de pommes en Allemagne en avril

59

ROLAP
Relational OLAP

Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel

Plus facile et moins cher mettre en place

Moins performant lors des phases de calcul


Exemples de moteurs ROLAP:

Mondrian
60

MOLAP
Multi dimensional OLAP: Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse

multidimensionnelle Exemples de moteurs MOLAP:


Microsoft Analysis Services Hyperion

61

HOLAP
Hybride OLAP:

tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes

Solution hybride entre MOLAP et ROLAP Bon compromis au niveau cot et performance

62

Le cube
Modlisation multidimensionnelle des donnes

facilitant lanalyse dune quantit selon diffrentes dimensions:


Temps Localisation gographique

Les calculs sont raliss lors du chargement ou

de la mise jour du cube

63

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure Rotation (rotate): prsenter une autre face du cube

05

06

07

05

06

07

uf 221 263 139 Viande 275 257 116

Idf 101 120 52 Ain 395 400 203

64

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite une seule valeur

uf

05 06 07 Idf 220 265 284

uf

06 Idf 265

Ain 225 245 240 Viande Idf 163 152 145 Ain 187 174 184

Ain 245 Viande Idf 152 Ain 174

65

Manipulation des donnes multidimensionnelles


Opration agissant sur la structure Extraction dun bloc de donnes (dicing): ne travailler que sous un sous-cube

uf

05 06 07 Idf 220 265 284

Ain 225 245 240 Viande Idf 163 152 145 Ain 187 174 184

05 06 07 uf Idf 220 265 284

Ain 225 245 240

66

Manipulation des donnes multidimensionnelles


Opration agissant sur la granularit

Forage vers le haut (roll-up): dzoomer


Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation Obtenir un niveau de granularit infrieur Donnes plus dtailles

Forage vers le bas (drill-down): zoomer


67

Drill-up, drill-down
Roll up
05 06 07

Roll up
05-07 Fruits 623

Alim. 496 520 255 05 Fruits 06 07 Fruits

Dimension Temps
1S05 2S05 1S06 2S06 1S07 100 121 141 111 120 152 137 139 116 Viande 134

221 263 139

Viande 648

Viande 275 257 116 05 06 07 Pomme Boeuf 20 19 22 40 43 48

Drill down

Drill down
68

Dimension Produit

MDX (Multidimensional Expressions)


Langage permettant de dfinir, d'utiliser et de rcuprer

des donnes partir d'objets multidimensionnels

Permet deffectuer les oprations dcrites prcdemment

Equivalent de SQL pour le monde OLAP

Origine: Microsoft

69

MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004

et 2005 croiss par le type de paiement


SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,

{[Pay].[Pay Type].Members} ON ROWS


FROM RH
Cube Dimensions, axes danalyse

WHERE ([Measures].[Count]) 2004 2005 Heure 3396 4015 Jour 3678 2056

70

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel

Dmonstration
71

Le march du dcisionnel

72

Quelques solutions commerciales

73

Quelques solutions open source


ETL
Octopus Kettle Talend

Entrept de donnes
MySql Postgresql

OLAP

Reporting

Data Mining
Weka R-Project Xelopes

Mondrian Birt Palo Open Report JFreeReport

CloverETL Greenplum/Biz

Jasper Report Orange

gres

Intgr
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI

74

Plan
Introduction Les entrepts de donnes Les datamart

Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation

Dmonstration
75

Exemples
Rapports

Sales by customer Dashboard

Analyse

76

77