Vous êtes sur la page 1sur 22

12/11/2015

Les Entrepts de Donnes


(Data Warehouses)
Pr. O mar B oussaid
Dpartement d'Informatique et de Statistique - ICOM
Universit Lyon2 France
2015-2 016

Les Entrepts de Donnes


1. Gnralits, sur le dcisionnel
2. Le processus d'entreposage des donnes (Data warehousing)
a) Modlisation multidimensionnelle
b) Intgration des donnes (E.T.L.)
3. L'analyse en ligne (OLAP)
a) Diffrentes approches OLAP
b) Oprateurs OLAP

2015-2016-- O. Boussaid

12/11/2015

La Business Intelligence ( BI )

Ere de l'information .

Dfi : Transformer une partie de leur systme


d'information en un SI dcisionnel dont la
vocation de pilotage devient majeure.

2015-2016-- O. Boussaid

Des donnes aux d cisions


Donne Information Connaissance - Dcision

Donnes

C.A. , Lieux d es s upermarchs, Nombre d employs

Informations

Dominique D upont est responsable d es ventes chez Carrefour.


Cest une femme

Connaissances

Dans la g rande d istribution, Lorsquun cadre est u ne femme, elle


occupe u n p oste d e responsabilit d e catgorie A.

Dcisions

A chaque fte religieuse lancer u ne p romotion de p roduits


associs lvnement.

Th . Estier - HEC Lau san ne

12/11/2015

Types d e d onnes
q Donnes dtailles c ourantes
rplication des donnes oprationnelles (des s ystmes transactionnels)
q Donnes dtailles anciennes
idem mais plus ges (parfois archives)
q Donnes faiblement agrges
pour mieux rpondre aux questions des gestionnaires
quilibre entre dtails et agrgats
quels attributs doivent tre agrgs?
Avec quelle unit de temps?

q Donnes fortement agrges


idem, encore plus agrgs (genre EIS pour cadres presss)
q Mta-donnes
donnes s ur les donnes
rpertoire, rgles d extraction et de conversion, rgle d agrgation, ...
Th. Es tier - H EC L aus anne

BI & donnes massives


Evolution des units de v olumtrie des donnes :
Unit

Sym
bole

Valeur

Observation

Octet

Octet

KiloOctet

Ko

1 0 00 (1024)

30 Ko : une page de texte


100 Ko : image numrique basse rsolution

MegaOctet

Mo

10 6

5 Mo : un morceau de m usique
500 Mo :un CD-Rom

GigaOctet

Go

10 9

1 G o : 1 film de 2 heures
500 Go un HD de PC

TeraOctet

To

10 12

1 To : 6 m illions de livres ; la moitis du catalogue de la BN de France


10 To : presque la volumtrie de la bibliothque du Congrs Amricain

PetaOctet

Po

10 15

1 Po : 2 m illiards de photos numriques de rsolution moyenne


8 Po : trs grande partie de l'information sur Internet

ExaOctet

Eo

10 18

5 Eo : Toutes les informations produites jusqu 2003

ZettaOctet

Zo

10 21

1,8 Zo : La totalit des informations produites jusqu 2011

YottaOctet

Yo

10 24

1 Yo : Cest ce que pourra traiter un data c enter simultanment

1 o reprsente un caractre d'imprimerie


(8 bits)

12/11/2015

De la d onne laction

Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

De la d onne laction

Processus de BI

Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

12/11/2015

De la d onne laction

Cycle de la BI

Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

Systme d'Info. de Production

Systme d'Info. Dcisionnel

Orientation : Gestion

BD
Fournisseurs

Flux de
donnes
externes

Orientation : Pilotage

BD
Clients

BD
Compta

Entrept de
Donnes

BD
DRH
BD
Magasins
BD
Marketing
BD
Produits

2015-2016-- O. Boussaid

12/11/2015

La Business Intelligence ( BI )
Un systme d 'information d cisionnel (S.I.D.) est un
ensemble de donnes organis de faon spcifique, appropri
la prise de dcision.

Connatre l'environnement dans lequel on volue


Finalit d'un systme dcisionnel :

Pilotage de l'entreprise
2015-2016 -- O. Boussaid

La Business Intelligence ( BI )

S.I.D. : pilotage de l'entreprise :

Outils : Entrepts de donnes ; OLAP


2015-2016-- O. Boussaid

12/11/2015

Business Intelligence ( BI )
q Business Intelligence (BI) :

Technologie pour comprendre le p ass et p rdire le futur


Une large catgorie de technologies p ermettant d e :
o Collecter, stocker, accder & analyser les donnes pour une meilleure prise de dcision
o Analyser la performance de l'entreprise travers un aperu pilot par les donnes (data-driven)

q Une large catgorie dapplications qui inclut les activits de :

S.I.A.D. (D.S.S.)
Requtage et Reporting
Analyse en ligne ( OLAP)
Analyses s tatistique, P rvisions et D ata mining

q Les applications BI peuvent tre :

Mission critique faisant p artie intgrale d es activits d 'une entreprise ou p eut tre
occasionnelle p our rpondre u ne d emande p articulire
A lchelle dune entreprise, ou locales u ne d ivision, u n d partement, ou d 'un p rojet
Inities de faon centrale ou la d emande dun u tilisateur
2015-2016-- O. Boussaid

La Business Intelligence ( BI )
Besoin a ccru d e d onnes d 'horizons multiples e t d ivers : rorganisation d u
SI ractivit ncessaire
Les systmes de gestion sont ddis aux mtiers ; tandis que les
systmes dcisionnels sont ddis au pilotage de l'entreprise
L'entreprise ne doit pas seulement avoir une vue verticale de ses mtiers
(Systme de gestion) mais une vue transversale (Systme Dcisionnel)

Les donnes peuvent tre supportes par des outils spcialiss


permettant le pilotage de l'entreprise

2015-2016-- O. Boussaid

12/11/2015

Passage des donnes de production a ux donnes dcisionnelles

Les bases de production : toutes les sources de donnes


(lgales, juridiques, fiscales, p olitiques, techniques, marketing)
Comment organiser ces diffrentes donnes dans un ensemble
cohrent afin de procder toutes les analyses ncessaires
pour construire les indicateurs indispensables au pilotage
de l'entreprise ?

Par un p rocessus d'entreposage de d onnes

(Data Warehousing)
2015-2016-- O. Boussaid

Architecture Dcisionnelle
Data Mining

Entrept de donnes

E
T
L

Mta
donnes

OLAP
Analyses
statistiques
Data Marts

Bases
de
production
OLAP
Reporting

Administrateur

2015-2016-- O. Boussaid

12/11/2015

Architecture Dcisionnelle
Data Mining

Entrept de donnes

E
T
L

Mta
donnes

OLAP
Analyses
statistiques
Data Marts

Bases
de
production
OLAP
Reporting

Administrateur

2015-2016-- O. Boussaid

Qu'est ce que l'Entreposage des donnes ?


Phase ETL

Phase Structuration

Phase OLAP

Data Mining

Entrept de donnes

E
T
L

Mta
donnes

OLAP
Analyses
statistiques
Data Marts

Bases
de
production

Administrateur
2015-2016-- O. Boussaid

OLAP
Reporting

12/11/2015

v Phase ETL
Travail technique.

Extraction des donnes des diffrentes BD de production


(internes ou externes)

Nettoyage des donnes, rgles d'homognisation des


donnes sous formes de mtadonnes.

Techniques d'alimentation :
Chargement des donnes dans l'ED ;
Frquences de rafrachissement :
par d es a pplications sur les sources d e d onnes e t l'ED ;
par d es serveurs d e rplication d u SGBD o u p ar d es o utils
spcialiss.
2015-2016-- O. Boussaid

v Phase Structuration
Il s'agit de dfinir la finalit de l'ED :

Cibler l'activit de l'entreprise piloter ;


Dterminer et recenser les donnes entreposer ;
Dfinir les aspects techniques de la ralisation ;
Modle de donnes ;
Dfinir des dmarches d'alimentation ;
Arrter des stratgies d'administration ;
Dfinir des espaces d'analyse ;
Choisir un mode de restitution

2015-2016-- O. Boussaid

10

12/11/2015

v Phase (transversale) Administration


Elle est constitue de plusieurs tches pour assurer :

la qualit e t la p rennit d es d onnes aux d iffrents a pplicatifs ;


la maintenance ;
la gestion d e configuration ;
les mises jour ;
l'organisation, l'optimisation d u S ID ;
la mise en scurit d u S ID.

2015-2016-- O. Boussaid

v Phase OLAP
C'est le but du processus d'entreposage des donnes.
Elle conditionne le choix de l'architecture de l'ED et de sa
construction.

Elle doit permettre toutes les analyses ncessaires pour la


construction des indicateurs recherchs.

2015-2016-- O. Boussaid

11

12/11/2015

Analyse en ligne (OLAP)

OLAP (On-Line Analytical Processing ) est dfini comme tant :


... le nom donn l'analyse dynamique requise pour c rer, manipuler, animer et
synthtiser l'information par des modles d'analyse de donnes exgtiques,
contemplatifs et s elon des f ormules (Codd et al., 1993).

En d'autres termes, il s'agit d'applications de modlisation


descriptive et d'analyse exploratoire des donnes, conues
des fins de prise de dcision.

2015-2016-- O. Boussaid

v OLAP
Nigel Pendse a uteur d e OLAP Report (www.olapreport.com/fasmi.htm) rcapitule la
dfinition d e l'OLAP e n cinq mots :

Fast Analysis of Shared Multidimensional Information (FASMI)


traduit en f ranais c omme s uit :

''Analyse Rapide d'Information Multidimensionnelle Partage''


(http://www.linux-france.org/prj/jargonf/F/FASMI.htm)
Critres retenus pour s implifier les rgles de Codd et f aciliter l'valuation des outils
OLAP.

2015-2016-- O. Boussaid

12

12/11/2015

v Phase OLAP
Les combinaisons possibles des dimensions, avec les mesures qui en
dcoulent, f orment les faits. I l est possible d'appliquer des fonctions agrgatives
(somme, moyenne, mdiane, etc.) pour obtenir les mesures partir des donnes
transactionnelles ou de mesures de membres de niveau infrieur.

Ainsi, on peut c alculer une v aleur pour un f ait c aractris par les membres d'une
dimension du niveau hirarchique infrieur qui s 'agrgent v ers un membre d'un
niveau s uprieur (ex. la population du Canada est la s omme de la population de chacune de ses
provinces ).

Un jeu de donnes multidimensionnelles est nomm cube ou hypercube :


l'organisation des f aits s elon des axes dimensionnels.

2015-2016-- O. Boussaid

v Phase OLAP

2015-2016-- O. Boussaid

13

12/11/2015

v Data warehouse : Dfinition


(ou entrept de donnes)
q Un ED est une structure informatique dans laquelle est centralis un volume
important de donnes consolides partir des diffrentes sources de
renseignements d'une entreprise (notamment les BDs internes) et qui est conue
de manire que les personnes intresses aient accs rapidement l'information
stratgique dont elles ont besoin. (daprs B. Devlin, Journal of Data Warehouses, nov. 1997)

q Dans un ED , les donnes sont : slectionnes et prpares (pour rpondre aux


questions vitales de l'entreprise), intgres ( partir des diffrentes sources de
renseignements) et dates (elles gardent la trace de leur origine).
q Le terme entrept de donnes supplante ceux de dpt de donnes et de
centrale de donnes (se rapproche de magasin de donnes) .
2015-2016-- O. Boussaid

v Data warehouse : Dfinition


Bill I nmon a propos les t ermes de :
Entreprise Data warehouse (EDW) ou
Corporate Information Factory (CIF)

Le DWH est orient sujets : les donnes c ollectes doivent tre orientes
''mtier'' et donc t ries par t hme
Le DWH est c ompos de donnes intgres : un ' 'nettoyage'' pralable des
donnes est ncessaire dans un s ouci de rationalisation et de normalisation
Les donnes du DWH sont non volatiles : une donne entre dans l'entrept
l'est pour de bon et n'a pas v ocation tre s upprime ;
Les donnes du DWH doivent tre historises, donc dates
2015-2016-- O. Boussaid

14

12/11/2015

Qu'est ce qu'un Entrept de Donnes ?


D'aprs B ILL Inmon :

Un ED est une collection de donnes thmatiques,


intgres, non volatiles et historises, organises pour la
prise de dcision.

Thmatiques : thmes par activits majeures ;


Intgres : divers sources de donnes ;
Non volatiles : ne pas supprimer les donnes du DW ;
Historises : trace des donnes, suivre l'volution des indicateurs.

Pb de volumtrie, de stockage, d'accs.


2015-2016-- O. Boussaid

v Architecture de Data warehouse


Sources Data Systems

DSc1

DSc3

Data staging Area

( O perational Data Store )

Data et Metadata
Storage Area

DWH

DSc2
DSc4
DScn

End User
Presentation Tools

O.D.S.

DM1

DM2
DM3

2015-2016-- O. Boussaid

15

12/11/2015

v Architecture de Data warehouse

Staging area

: C'est une zone tem poraire qui sert stocker l es donnes extraites des
systmes sourc es. C'est l que s'effec tuent les diffrentes transformati ons : le nettoyage des
donnes, l e merge, la standardis ation, le dduplication des donnes . Les donnes dans le
staging area sont dtruites une fois le chargement des data-marts termin.

Data warehouse

: Les donnes du s taging area s ont transfres v ers le DWH. Les


mtadatas sont aussi stockes dans le DWH. Ce der nier est c entr al et devrait contenir toutes
les donnes de l'entreprise.

Zone prsentation

: A partir du DWH, les utilisateurs peuvent y acc der pour excuter


leurs requtes ad hoc, programmer les rapports, analyser et visualiser l'information...

2015-2016-- O. Boussaid

v Architecture de Data warehouse


Architecture prne par Bill I nmon

L'ODS : est l'acronyme pour Operational

Data Store ou ( Magasin de donnes oprationnelles ). Il

joue deux rles :


1. sert stocker les donnes extraites des systmes sources ( donnes transactionnelles).
2. intgre les donnes sources dans le but de prsenter toute l'information ncessaire
prendre des dcisions tactiques.

L'Entreprise Data warehouse : Les donnes de l'ODS sont transfres vers le DWH.
Ce dernier est central (d'o son appellation Entreprise Data Warehouse (EDW)). Il contient
toutes les donnes de l'entreprise.

Les Data marts dpendants : Ils peuvent tre aliments soit de l'EDW soit de l'ODS.
La zone prsentation : Une fois les donnes charges dans le Data warehouse

et les
Data marts dpendants, les utilisateurs peuvent y accder pour excuter leurs requtes Ad
hoc, programmer les rapports, analyser et visualiser l'information

2015-2016-- O. Boussaid

16

12/11/2015

v Oparational Data Storage (ODS)


Il est s ouvent mis en place pour rpondre au moins un des besoins s uivants :
- Intgrer les donnes provenant de plusieurs s ources. Normalement c e genre
d'intgration devrait tre ralis dans les s ystmes s ources, mais parce que c ela
peut c outer c her ( t emps, dispo. et rentabilit) : on met en place un ODS.
- Fournir les donnes pour prendre des dcisions t actiques (reporting)
- Permettre de c onsolider les mises jour communes aux s ystmes s ources.

Un ODS peut s ervir de s taging area pour alimenter un DW, c ependant c ela ne doit
pas tre s a raison d'tre.

2015-2016-- O. Boussaid

v Architecture de Data warehouse


Sources Data Systems

DSc1

DSc3

Data staging Area

( O perational Data Store )

Bases
multidimensionnelles

DM1
DSc2
DSc4
DScn

DWH

O.D.S.

End User
Presentation Tools

DM3

DM2

Cubes
OLAP

2015-2016-- O. Boussaid

17

12/11/2015

Business Intelligence LIKE Business Analytics

Exploitation des donnes


directement (Business Analytics) ou
indirectement (Business Intelligence)

Socle Big data : intgration en


temps rel des flux de donnes
structures et non structures,
NoSQL et relationnelles
Donnes sources (internes,
externes, structures, non
structures)

v Approches de mise en place de DW

Il existe plusieurs approches pour mettre en place un DW.


Par contre seulement trois approches sont communes. il
s'agit de l'approche "Top-Down" prne par Inmon,
l'approche "Bottom-u p" de Kimball et de l'approche
"Hybride" qui drivent des deux premires approches.

2015-2016-- O. Boussaid

18

12/11/2015

vApproches de mise en place de DW


Top-Down de Bill Inmon et le CIF
Caractristiques majeures

L'emphase est mise sur le DW.

Commence par concevoir un modle de DW au niveau de l'entreprise.


Dploies une architecture multi-tiers compose de staging area, de DW et des data- marts
dpendants.

Le staging area est permanent.


Le DW est orient entreprise; les data-marts sont orients processus.
Le DW contient des donnes atomiques ; Les data-marts contiennent les donnes agrges.
Le DW utilise un modle de donnes normalis de toute l'entreprise ; Les data-marts utilisent
des modles multidimensionnels orients sujet.

Les utilisateurs peuvent effectuer des requtes sur le DW et les data-marts.

2015-2016-- O. Boussaid

vApproches de mise en place de DW


Bottom-Up de Ralph Kimball et
le Bus Architecture

L'emphase est mise sur les data-marts.


Commence par concevoir un modle multidimensionnel pour un data-mart.
Utilise une architecture qui consiste en un staging area et des data-marts.
Le staging area est en gnral non permanent, mais il peut devenir permanent pour implanter
l'architecture en BUS ( Dimensions et faits conformes)

Les data-marts contiennent les donnes atomiques et les donnes agrges.


Les data-marts peuvent fournir une vue entreprise ou processus.
Un data-mart consiste en un seul star schema physique.
Les data-marts sont implants d'une faon incrmentale et intgre en utilisant les dimensions
conformes.

Les utilisateurs ne peuvent effectuer des requtes sur le staging area .

2015-2016-- O. Boussaid

19

12/11/2015

vApproches de mise en place de DW


Hybride
L'emphase est sur le DW et les data-marts ; utilise les deux approches top-down et
bottom-up

Commence par concevoir un modle de donnes de l'entreprise en mme temps que les
modles spcifiques.

Cre un modle normalis d'entreprise de haut niveau ; gnre les modles des premiers
data-marts.

Charge les data-marts avec les donnes atomiques en utilisant un staging area
temporaire.

Les modles des data-marts sont composs d'un ou plusieurs star schmas.
Utilise un outil ETL pour charger les data-marts et pour changer les mtadata avec ces
derniers.

Charge le DW partir des data-marts lorsqu'il y'a besoin de faire des requtes travers
plusieurs data-marts en mme temps.
2015-2016-- O. Boussaid

2015-2016-- O. Boussaid

20

12/11/2015

2015-2016-- O. Boussaid

2015-2016-- O. Boussaid

21

12/11/2015

2015-2016-- O. Boussaid

22