Vous êtes sur la page 1sur 36

Data Warehouse

El Mostafa YASSINE
Sommaire

Historique
Dfinitions
Pr requis
Modlisation

2
Data Warehouse: Historique

Annes 1960 :
Genral Mills et lUniversit Dartmouth, dans un projet conjoint, crent les termes "faits" et "dimensions".
1983 :
Teradata introduit dans sa base de donnes managriale un systme exclusivement destin la prise de dcision
1988 :
Barry Devlin et Paul Murphy publient l'article "Une architecture pour les systmes d'information financiers" ("An architecture
for a business and information systems") o ils utilisent pour la premire fois le terme "Datawarehouse".
1990 :
Red Brick Systems cre Red Brick Warehouse, un systme spcifiquement ddi la construction de l'Entrept de donnes.
1991 :
Bill Inmon publie Building the Data Warehouse (Construire l'Entrept de Donnes).
1995 :
Le Data Warehousing Institute, une organisation but lucratif destine promouvoir le datawarehousing, est fond.
1996 :
Ralph Kimball publie The Data Warehouse Toolkit (La bote outils de l'Entrept de donnes).

3
Data warehouse : Dfinition

W.B.Inmon :

Le DataWarehouse est une collection de donnes orientes sujet, intgres, non volatiles et
historises, organises pour le support dun processus daide la dcision.

4
Data warehouse :Objectifs

On dispense de beaucoup de donnes, mais on ne sait pas comment y accder.

On veut faire des manipulations OLAP sur nos donnes

On veut faciliter la vie des analystes, en leur permettant daccder directement aux donnes

Montrez moi ce qui est important

Deux personnes dans diffrents dpartements me montre la mme mesures avec des valeurs
diffrentes

On veut que nos managers prennent des dcisions semi structures bases sur nos donnes
oprationnelles

5
L'objectif de la Business Intelligence est d'optimiser les processus dcisionnels en transformant les
donnes de l'entreprise en informations pertinentes

L'objectif est de raccourcir la dure en mettant la disposition du dcideur


du processus de dcision ... des informations pertinentes
Rendre les donnes utiles accessibles au dcideur malgr les Donnes
difficults : dispersion, complexit structurelle, volatilit, Texte, fichier
Donnes
son, image
inadaptation de la donne brute au problme pos de caisse
message BI
Rendre le dcideur autonome
Transformer la donne en information pertinente, au Information
niveau requis (stratgique ou tactique) Toute linformation
Base de donnes
sur un client
ne pas noyer le dcideur rapport, tableau
BI
lui permettre cependant dexplorer les dtails
lui offrir une vision dynamique, adaptable interactivement Connaissance Liste des
Permettre au dcideur de prendre des dcisions de plus en plus Rsultats dune bons clients
analyse sur
rapidement linformation
pour rester comptitif sur le march
Grer les connaissances cest organiser la transformation
pour rpondre aux nouveaux besoins des clients

Action

Pour les entreprises, l'enjeu est important car une prise de dcision plus rapide permet une meilleure ractivit aux
volutions de leur cosystme

6
Laide la dcision rpond des besoins diffrents dans lentreprise

Explorateurs de donnes
Jean - Je souhaite raliser
Synthse de Besoins frquents et rguliers des requtes et analyser
ces informations pour
Cration de leur propres rapports
donnes comprendre les volutions
de mon chiffre d'affaire
Utilisent des outils statistiques
Besoins irrguliers
Donnes synthtiques
Anne - Je cre souvent des
Formats prdfinis rapports et analyses et les met
disposition de mes Luc -J'ai besoin de
collaborateurs raliser des prvisions
Arthur- Je rafrachis
et analyse mes avec mon client pour
requtes et tableaux comprendre les impacts
de bords d'ventuelles campagnes
marketing

Herbert - Je regarde mon top


10 des meilleurs clients sur
mon email Pascale - Je ralise des
requtes prdfinies et les
analyses sous Excel

Visualisateur de donnes
Franois - J'analyse mes Besoins frquents et rguliers
indicateurs prdfins de Rafrachissement de rapports prdfinis
vente
Demandes aux autres acteurs de raliser de
nouveaux rapports et des analyses
sophistiques

7
Les applications dcisionnelles couvrent toutes les activits de lentreprise

Les clients
Profitabilit client Satisfaction Analyse comportement,
Life time value client segmentation, ciblage

Gestion de la relation client,


Optimisation des ventes

Cross-sell Efficacit des forces de vente, Efficacit des campagnes


Analyse canaux distribution
Les salaris
Performance des Prvision de la Gestion du temps
fournisseurs demande de travail

Gestion ressour-ces
Performance de Formation
Analyse des cots &
Optimisation

la production et de recrutement
des achats

marges
La logistique
Fidlisation des

humaines
Optimisation Optimisation des salaris
des dlais Processus oprationnels
Gestion des affectations

Les fournisseurs Analyse des


cots fournisseurs
Lentreprise

Consolidation CPM Marketing Gestion des


risques

Prvision Simulation Gestion des Analyse de la Les actionnaires


budgtaire Planning actionnaires valeur
8
Systme dcisionnel

Sources Zone de Consolidation Analyse


travail Stockage Restitution
Bases
externes

Dictionnaire de donnes Outils d'analyse OLAP


Rfrentiel MOLAP, ROLAP, HOLAP

Mainframe Mtadonnes
Garde la trace des donnes, de leur origine
et de l'exploitation faite

OLAP

ERP
ODS
Datamart 1 Consultation/Interrogation
Tableaux de bord - EIS
Tableur
Spcifique Requteurs
Data
Warehouse

Simulation/Prdiction
Datamart n Statistiques
Fichiers Plats Datamining


Retour infos de pilotage Outil d'alimentation - ETL
9
Dfinitions et domaines dapplication - 1

ODS : Operational Data Store


Zone tampon permettant daccder lensemble des donnes sources (dans un modle physique trs proche de
leur modle dorigine) au sein dune base de donnes unique,
Objectifs :
Limiter les impacts performances sur les bases transactionnelles,
Se dtacher du format dchange (aujourdhui fichier plat, demain DB Link),
Effectuer des agrgations multi-source performantes.

Data Warehouse
En Franais : Entrept de donnes
Collection de donnes intgres, contenant lhistorique de lentreprise,
Modle organis pour le support dun processus daide la dcision
Gestion des erreurs

10
Dfinitions et domaines dapplication - 2

Data Mart
Collection de donnes organises pour rpondre une problmatique dfinie daide la dcision
Formats de stockage les plus utiliss : toile / flocon (ROLAP) ou MOLAP / HOLAP

OLAP
Base de donnes proposant un format de stockage multidimensionnel (ROLAP, MOLAP, HOLAP)
Avantages :
Performances daccs,
Rgles dagrgation (mme complexes) inclues dans la dfinition du cube,
Gestion de la scurit,
Vision mtier simplifie lors de la conception,
Outil danalyse spcifique
Inconvnients :
Temps de gnration du cube ou de re-calcul lors de lajout de nouvelles donnes,
Non-matrise lespace de stockage et de swap ncessaire,
Utilisation avec un outil danalyse non-propritaire souvent problmatique ou limite

11
OLAP Dfinition suite

- Quelles est le volume de cahiers vendus aux magasins carrefour durant les 6 derniers mois ? -
Les cubes multidimensionnels Les cubes multidimensionnels
permettent de rpondre des questions stockent chaque information lmentaire
suivants des axes et des indicateurs l'intersection de tous les axes d'analyse
dfinis lavance (plan dtaill)

Quoi? Dimension
Dimension
Temps
Produit Produit
O?
Magasin

Combien?
Chaque case
Qui? stocke une valeur

Quel montant?
lmentaire :
Client Volume vendu de
cahiers Clairefontaine,
Carrefour Montreuil,
le 16 mai 2006

Dimension
Comment? Quand?
Magasin
Commande Temp L'outil de restitution peut fournir
lensemble des ventes de
s cahiers clairefontaine,
Carrefour Montreuil,
durant les 6 derniers mois glissants

12
Dfinitions et domaines dapplication - 3

ETL Extract, Transform and Load


Progiciel vou au transfert de donnes dun source quelconque vers une cible quelconque.
2 grandes familles :
Moteurs,
Gnrateurs de code
Gestion et gnration des mta-donnes associes chaque flux
Contrairement aux EAI, progiciels optimiss pour le transfert batch de gros volumes

Mtadonnes
Dfinition des donnes
Description du process dalimentation
Permettent des analyses dimpact trs pousses (de la source au rapport final impact)
Peuvent englober la partie gestion des erreurs pour suivre les causes de rejet et lhistorique des flux dalimentation
(nb de lignes insres, mises jours, rejetes, date de chargement, )

13
4 rservoirs de donnes pour 4 types de besoins

Donnes des progiciels ERP / CRM / spcifiques


Bases de donnes Organises pour les processus transactionnels (rapidit de mise jour)
de production Donnes htrognes et distribues, internes et externes

Donnes destines laide la dcision ou au reporting


Organisation souvent trs proche de celle des bases oprationnelles
Operational Rpond au besoin de capture dinformations volatiles ou de synchronisation de flux
Data Store Peu ou pas d'historique : quels contrats ai-je sign hier ?
Projets dinfrastructure

Donnes modlises spcifiquement pour optimiser lextraction et la fourniture de donnes (Notion de


Gisement de Donnes)
Data Organisation privilgiant lenrichissement (insert, pas dupdate)
Warehouse Gestion fonctionnelle et technique de l'historique

Donnes modlises spcifiquement pour l'aide la dcision rpondant des objectifs fonctionnels ou
organisationnels cibls mtier (datawarehouse dpartemental)
Datamart Usage tous publics (y compris externe, e.g. extranet)

14
Data Warehouse: Concept

Oriente sujet Donnes intgres

DATA WAREHOUSE

Donnes non volatiles Donnes dates

15
Data Warehouse: Concept

Donnes orientes sujet :


Regroupe les informations des diffrents mtiers
Ne tiens pas compte de lorganisation fonctionnelle des donnes

Ass. Vie Ass. Auto Ass. Sant

Client
Police

16
Data Warehouse: Concept

Donnes intgres :
Normalisation des donnes
Dfinition dun rfrentiel unique

h,f

1,0 h,f

homme, femme

GBP
EUR
CHF

USD
17
Data Warehouse: Concept

Donnes non volatiles :


Traabilit des informations et des dcisions prises
Copie des donnes de production

Bases de production Entrepts de donnes

Ajout
Suppression

Accs
Modification Chargement

18
Data Warehouse: Concept

Donnes historises:
Les donnes persistent dans le temps
Mise en place dun rfrentiel temps

Image de la base en Mai 2005 Image de la base en Juillet 2006


Rpertoire Rpertoire
Base de Nom Ville Nom Ville
production
Dupont Paris Dupont Marseille
Durand Lyon Durand Lyon
Rpertoire
Calendrier
Entrept Code Anne Mois
Code Anne Mois
de 1 Dupont Paris
donnes 1 2005 Mai
1 Durand Lyon
2 2006 Juillet
2 Dupont Marseille
19
Data Warehouse: aspect technique

Les bases de donnes OLAP

OLAP (On-Line Analitical Processing)


Cest un mode de stockage prvu pour lanalyse statistique des donnes
contenues dans la base;
Il est appliqu un modle virtuel de reprsentation de donne
appel cube ou hypercube OLAP.

20
Data Warehouse: aspect technique

Les bases de donnes OLTP

OLTP (On-Line Transactional Processing)

Cest un mode de stockage fait pour les systmes oprationnels;


Ils supportent trs bien une utilisation transactionnelle de la base de
donnes;
ce mode de stockage est associ des requtes type courtes et ne
demandant pas beaucoup de ressource du ct du serveur de la base de
donnes.

21
Donnes oprationnelles vs Donnes dcisionnelles

Donnes oprationnelles Donnes dcisionnelles


Orientes application, dtailles, prcises au Oriente activit (thme, sujet), condenses,
moment de laccs reprsentes des donnes historiques
Mise jour interactive possible de la part des Pas de mise jour interactive de la part des
utilisateurs utilisateurs
Accdes de faon unitaires par une personne la Utilises par lensemble des analystes, gres par
fois sous-ensemble
Cohrence atomique Cohrence globale
Haute disponibilit en continu Exigence diffrente, haute disponibilit ponctuelle

Uniques (pas de redondance en thorie) Peuvent tre redondantes


Structure statique, contenu variable Structure flexible
Petite quantit de donnes utilises par un traitement Grande quantit de donnes utilise par les
traitements
Ralisation des oprations au jour le jour Cycle de vie diffrent
Forte probabilit daccs Faible probabilit daccs
Utilises de faon rptitive Utilise de faon alatoire

22
Data Warehouse: Pr requis

Besoins fonctionnels
Expectations sur les donnes, sources de donnes, entretiens avec les
utilisateurs finaux, limites et complexits
Pr requis de conformit
Copies archives, donnes stockes, flux de donnes, algorithmes pour
lajustement de donnes, scurit en ligne et copies des donnes hors ligne.
Data Profiling
qualit, primtre, contexte des sources de donnes, donnes manquantes ou
nulles, intervention humaine, suppression des donnes, planification de
dveloppement pragmatiques.

23
Data Warehouse: Pr requis

Pr requis de scurit
un paradoxe:
Entrept de donnes: publier largement les donnes
Scurit: restriction des donnes pour ceux qui en auront besoin

Pour les applications finales, une scurit bas sur les rles (pas de grant
ou revoke au niveau du SGBD)

scurit pour les dveloppeurs (sparation sous rseaux subnets), backups


(bandes, disques)

24
Data Warehouse: Pr requis

Donnes Intgres
Les 360 degrs de la vue du mtier

Spcifique lentrept de donnes: Etablir des attributs communs (conformit des


dimensions), tablir des mesures communes (Faits conformes) pour permettre des
calculs communs

25
Data Warehouse: Pr requis

Accs aux donnes


Avec quelle latence les utilisateurs finaux accderont ils linformation
Plus de performance en utilisant du pipelining, paralllisme, partitionning etc

Archivage and Lignage


Formule de calcul changeante
Conformit de lgalit
Utilisateur final
rapports, OLAP

26
Data Warehouse: Pr requis

Architecture
Outil ETL vs. dveloppement spcifiques
Automatiser lordonnancement
Qualit des donnes/Nettoyage des donnes
Mtadonnes
scurit
staging

27
Data Warehouse: Pr requis

Modliser les interfaces par les systmes oprationnels


Modliser lentrept de donnes
Approche itrative de la modlisation de lentrept, par lot

28
Data Warehouse: Modlisation

Les tables de dimensions


Elles contiennent les donnes qui permettent de dfinir un axe dune
tude.
Ce type de tables joue le rle de rfrentiel au DATA WAREHOUSE.
Les tables de faits

Comme leur nom lindique, Ces tables contiennent uniquement les


donnes factuelles du DATA WAREHOUSE.

29
Data Warehouse: Modlisation

Les tables d'agrgats


Ces tables sont spciales, elles permettent de simplifier le travail de
restitution des logiciels danalyse;
Elles contiennent des donnes un niveau de granularit plus grand que
dans les tables de faits;

30
Data Warehouse: Les types de modle

Modle en toile

PRODUIT
Id Produit Facts table FOURNISSEUR

Dimension 1 Lib Produit


Code EAN
Id Fournisseur
Raison Sociale Four Dimension 3
Gamme Type Fournisseur
Resp Produit
Couleur
Prix HT VENTES
Id Fournisseur
Id Client
Date
TEMPS Id Produit CLIENT
Date CA Id Client
Jour semaine Quantit Nom

Dimension 2 Jour ouvr


Semaine
Marge Num Tl
Dpartement
Dimension 4
Mois Rgion
Trimestre Pays
Anne Age

31
Data Warehouse: Les types de modle

Modle en toile

Une table de fait centrale et des dimensions


Les dimensions nont pas de liaison entre elles
Avantages
Facilit de navigation
Nombre de jointures limit
Inconvnients
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les mesures

32
Data Warehouse: Les types de modle

RESP PRODUIT
Id Responsable
Nom
Prnom TYPE FOURNISSEUR
Id Type Fournisseur
Lib Type Fournisseur
GAMME
Id Gamme
Gamme PRODUIT
Id Produit FOURNISSEUR
Id Responsable Id Fournisseur
Id Gamme Id Type Fournisseur
COULEUR
Id Couleur Raison Sociale Four
Id Couleur
Lib Produit
Couleur
Code EAN
Prix HT VENTES
Id Fournisseur
Id Client
SEMAINE Date
Id Produit CLIENT
Id Semaine
TEMPS CA
Semaine Id Dpartement
Date Quantit Id Client
Id Semaine Marge Nom
Id Mois Num Tl DEPARTEMENT
MOIS Jour semaine Age Id Dpartement
Id Mois Jour ouvr
Id Rgion
Id Trimestre
Dpartement
Mois REGION
TRIMESTRE
Id Rgion
Id Trimestre
Id Pays
Id Anne PAYS
Rgion
Trimestre
ANNEE Id Pays
Id Anne Pays
Anne
Modle en flocon
33
Data Warehouse: Les types de modle

Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies.
On a un seul niveau hirarchique dans une table de dimension.
La table de dimension de niveau hirarchique le plus bas est relie la table de fait.
On dit quelle a la granularit la plus fine.
Avantages
Normalisation des dimensions
conomie despace disque
Inconvnients
Modle plus complexe (jointure)
Requtes moins performantes

34
Data Warehouse: Les types de modle

Dimension magasin Faits Ventes Dimension temps

Date Date
Id_magasin Id_produit Mois
Nom_magasin Id_magasin Trimestre
Enseigne Quantit Anne
Ville Montant

Dimension fournisseur Faits Achats


Dimension produit

Date
Id_produit Id_produit
Id_fournisseur libell
Nom_fournisseur Id_fournisseur
Quantit taille
Adresse_fournisseur catgorie
Cot

Dimension entrept Faits Stocks

Id_entrept Id_produit
Nom_entrept Id_entrept
Adresse_entrept Quantit

Dimensions partages
35
Data Warehouse: Les types de modle

Magasin Aggregates Produit


Code magasin Code produit
Enseigne Code EAN
Adresse
Ventes journalires
Libell produit
Surface Par produit Code gamme
Code rgion Et par magasin Libell gamme
Rgion Code responsable
Jour
Date
Jour de la semaine
Mois

Gamme Anne

Code gamme Ventes journalires


Libell gamme
par gamme

Mois
Rgion
Id_mois
Code rgion Ventes mensuelles Mois
Rgion
par rgion Anne

The tables Ventes mensuelles par rgion , ventes journalires par gamme ,
Gamme , Rgion et Mois are aggregates tables
36