Vous êtes sur la page 1sur 41

Le Data Warehouse

et les Systmes
Multidimensionnels

1. Dfinition dun Data warehouse (DW)

Le Data warehouse (entrept de donnes) est une


collection de donnes orientes sujet, intgres, non
volatiles et historises, organises pour le support
d un processus d aide la dcision (Inmon, 94).

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 1 Donnes orientes sujet
Donnes structures par thmes (sujets majeurs de
lentreprise) et non suivant les processus fonctionnels.
Le sujet est transversal aux structures fonctionnelles et
organisationnelles de lentreprise. On peut accder aux
donnes utiles sur un sujet.
Lintgration des diffrents sujets se fait dans une
structure unique.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 1 Donnes orientes sujet
Il n y a pas de duplication des informations communes
plusieurs sujets.
La base de donnes est construite selon les thmes qui
touchent aux mtiers de lentreprise (clients, produits,
risques, rentabilit, ).
Les donnes de base sont toutefois issues des Systmes
dInformation Oprationnels (SIO).
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 2. Donnes intgres
Les donnes, issues de diffrentes applications de
production, peuvent exister sous toutes formes diffrentes.
Il faut les intgrer afin de les homogniser et de leur
donner un sens unique, comprhensible par tous les
utilisateurs.
Elle doivent possder un codage et une description unique.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 2 Donnes intgres
La phase dintgration est longue et pose souvent des
problmes de qualification smantique des donnes
intgrer (synonymie, homonymie, etc).
Ce problme est amplifi lorsque des donnes externes
sont intgrer avec les donnes du SIO.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 3 Donnes non-volatiles
Une information est considre volatile quand les
donnes sont rgulirement mises jour comme dans les
Systmes dInformation Oprationnels.
Dans un SIO, les requtes portent sur les donnes
actuelles. Il est difficile de retrouver un ancien rsultat.
Dans un DW, il est ncessaire de conserver lhistorique
de la donne. Ainsi, une mme requte effectue deux
mois dintervalle en spcifiant la date de rfrence de la
donne, donnera le mme rsultat.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 4 Donnes historises
Dans un SIO, les transactions se font en temps rel, et les
donnes sont mises jour constamment. L historique des
valeurs de ces donnes n est gnralement pas conserv
car il est inutile.
Dans un DW, la donne nest jamais mise jour.
Les donnes du DW s ajoutent aux donnes dj
engranges.=> ajout de couches de donnes successives,
la manire des strates gologiques
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 4 Donnes historises
Le DW stocke donc lhistorique des valeurs que la
donne aura prises au cours du temps.
Un rfrentiel de temps est alors associ la donne afin
dtre capable didentifier une valeur particulire dans le
temps.
Les utilisateurs possdent un accs aux donnes
courantes ainsi qu des donnes historises.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

1. Dfinition dun Data warehouse


1. 5 Support d un processus d aide la dcision
Un DW est un systme d information ddi aux applications
dcisionnelles dont les principales contraintes sont :
des requtes complexes plusieurs niveaux d agrgation
la ncessit de disposer d informations synthtiques
( reporting de gestion, analyse des ventes, gestion de la
masse salariale, etc)
le stockage des donnes sous une forme multidimensionnelle
des mises jour priodiques
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

10

2. Objectifs dun Data warehouse


permet le dveloppement d applications dcisionnelles et de
pilotage de l entreprise et de ses processus
joue un rle de rfrentiel pour l entreprise puisqu il permet de
fdrer des donnes souvent parpilles dans diffrentes bases de
donnes
offre une vision globale et oriente mtier de toutes les donnes que
manipule l entreprise
permet de faire face aux changements du march et de l entreprise
offre une information comprhensible, utile , rapide et jour
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

11

3. Architecture dun Data warehouse

Bases de
production

Dictionnaire

Bases externes

Extraction
Transformation
Chargement
Rafrachissement

Data Warehouse
Outils
dadministration

Bases
multidimensionnelles

Datamarts

Outil ROLAP
Outils
multidimensionnels
MOLAP

Requeteur
ou tableau

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

Outil frontal
OLAP

12

3. Architecture dun Data warehouse


3. 1 Les Bases de Donnes
Bases de donnes internes:
Bases de production de lentreprise
Bases cres par les utilisateurs
Bases de donnes externes lentreprise qui ncessitent
leur identification, leur rapatriement et leur intgration.
Donnes achetes des fournisseurs de donnes
(Nielsen, INSEE, )
Donnes rcupres sur Internet
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

13

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
EXTRACTION
Extraire les donnes de leur environnement dorigine
(bases de donnes relationnelles, fichiers plats, ).
Utiliser une technique approprie pour n extraire que
les donnes ncessaires : donnes cres ou modifies
depuis la dernire opration dextraction.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

14

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
TRANSFORMATION
Une mme donne peut avoir une structure ou une valeur
diffrente en fonction de la base (production, externe,
utilisateurs) dont elle provient.
On peut tre confront des redondances (un mme
client peut apparatre avec diffrents attributs et
proprits selon la source consulte).
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

15

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
TRANSFORMATION
Il faut supprimer certaines donnes aberrantes qui
risqueraient de fausser les analyses.
Il faut donc purer et transformer les donnes.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

16

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
CHARGEMENT/RAFRAICHISSEMENT
Effectuer sur les donnes des oprations de calcul et
dagrgation.
Remplacer certaines bases si aucune
dextraction satisfaisante nest possible.

solution

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

17

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
CHARGEMENT/RAFRAICHISSEMENT
Mettre en place des procdures de chargement et de
restauration (en cas de problme).
Typiquement, la frquence du chargement est quotidienne
et il est effectu en tout dbut de matine.
Si la disponibilit du systme ne peut tre interrompue,
envisager la mise en place de systmes redondants.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

18

3. Architecture dun Data warehouse


3. 2 Oprations sur les donnes
LES OUTILS
On peut automatiser tout ou partie des oprations dcrites.
Des outils sont disponibles : Extract dETI, Genio de
Leonard s Logic, SAS/Warehouse Administrator de
SAS
Le dveloppement doutils spcifiques est envisageable
mais risque d alourdir les tches.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

19

3. Architecture dun Data warehouse


3. 3 Dictionnaire de Donnes
Le dictionnaire de donnes regroupe les mta-donnes.
Une mta-donne reprsente une donne sur les donnes.
Il sagit de lensemble des informations qui permettent de
qualifier une donne, notamment par sa smantique, sa
rgle de calcul, sa provenance, sa qualit, etc
les mta-donnes permettent de prciser de quelle table
provient la donne, quelles dates et heures elle en a t
extraite, ltat de la base cet instant, etc...
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

20

10

3. Architecture dun Data warehouse


3. 3 Dictionnaire de Donnes
Une mta-donne permet de remonter la chane et de
reconstituer lensemble dvnements et donnes qui ont servi
obtenir linformation associe.
Le dictionnaire de donnes contient toutes les informations
permettant dexploiter les donnes.
Cest un rfrentiel destin aux utilisateurs et ladministrateur
du DW.
A ce jour, il nexiste pas de normes en ce qui concerne la
structure et la gestion des dictionnaires de donnes. Chaque outil
propose sa solution et son approche.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

21

3. Architecture dun Data warehouse


3. 4 Les Data Marts
Un data mart (magasin de donnes) est un DW focalis sur un
sujet particulier, souvent au niveau dpartemental ou mtier.
C est donc un mini DW li un mtier particulier de l entreprise
(finance, commercial, ).
Un DW est souvent volumineux (plusieurs centaines de Go voire
quelques To ) avec des performances inappropries (temps de
rponse trop longs). Un Data mart, quant lui, comporte moins
de 50 Go, ce qui permet des performances acceptables.
La cration dun data mart peut tre un moyen de dbuter un
projet de DW (projet pilote).
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

22

11

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.1 Les modles de
donnes
Modles de prsentation
Modles de diffusion
Modles dintgration

Bases de donnes oprationnelles


Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

23

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.1 Les modles de donnes
Le modle d intgration unifie les donnes oprationnelles.
Le modle de diffusion reprsente le modle conceptuel des
donnes. Il correspond aux bases multidimensionnelles (serveur
OLAP).
Le modle de prsentation est un complment au modle
conceptuel. Cest travers ce modle que lutilisateur voit les
donnes. Il correspond diffrents outils physiques : les
tableurs, les requteurs, les outils clients OLAP, etc...
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

24

12

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.2 Les outils OLAP (On-Line Analytical Processing)
OLAP caractrise larchitecture ncessaire la mise en place
d un systme dinformation dcisionnel (SID).
OLAP soppose OLTP (On-Line Transactional Processing)
qui caractrise les SIO.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

25

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.2 Les outils OLAP (On-Line Analytical Processing)

OLAP constitue lensemble des outils multidimensionnels


ncessaires laccs, stockage et la manipulation des donnes
utiles pour un SIAD ou pour un EIS.
OLAP dsigne les outils d analyse sappuyant sur les bases de
donnes multidimensionnelles.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

26

13

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Vue multidimensionnelle : Les donnes sont structures en dimensions
mtiers.
Transparence : L utilisateur doit pouvoir utiliser les logiciels habituels
(tableurs, ) sans percevoir la prsence d un outil OLAP.
Accessibilit : L outil doit se charger d accder aux donnes stockes
dans n importe quel type de bases de donnes (interne + externe) et le
faire simultanment.
Performance continue dans les restitutions : A mesure que le nombre
de dimensions ou la taille de la base augmente, lutilisateur ne doit pas
subir de baisse sensible de performance.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

27

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Architecture client-serveur : Tout produit OLAP doit fonctionner en
mode C/S avec une rpartition des traitements.
Dimension gnrique : Chaque dimension (avec lanalyse) doit
tre quivalent aux autres la fois dans sa structure et dans ses capacits
oprationnelles. Une seule structure logique dans lensemble des
dimensions.
Gestion dynamique des matrices creuses : OLAP doit grer les cellules
non renseignes de manire optimale.
Support multi-utilisateurs : OLAP doit assurer un accs simultan aux
donnes, grer lintgrit et la scurit de ces donnes.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

28

14

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Oprations entre les dimensions : OLAP doit grer des calculs associs
entre les dimensions sans faire appel l utilisateur pour dfinir le
contenu de ces calculs
Manipulation intuitive : Minimiser le recours des menus ou les allers
et retours avec l interface utilisateur
Flexibilit des restitutions : convivialit des tats de gestion ou des tats
de sortie - ergonomie
Nombre de dimensions et niveaux de hirarchie illimit : l outil doit
grer au moins quinze dimensions et ne pas limiter le nombre de niveaux
hirarchiques.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

29

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.4 Fast Analysis of Shared Multidimensional Information (FASMI)
Analyse : fournir des possibilits d analyse (statistiques et autres)
Rapide : l essentiel des rponses doit tre rendu dans un dlai de moins
de cinq secondes
Information : accder l ensemble des donnes indpendamment de
leur localisation
Multidimensionnelle :fournir une vue conceptuelle multidimensionnelle
Partage : tre accessible un grand nombre d utilisateurs et ne pas
limiter le nombre de niveaux hirarchiques.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

30

15

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.5 Les outils relationnels OLAP
Outils relationnels : requteurs, infocentres, jointures complexes
exemple : Business Objects (anciennes versions)
Hypercubes relationnels : les donnes sont stockes dans une BD
relationnelle, mais avec une structure adapte aux donnes multidimensionnelles
exemple : SGBD relationnels
OLAP relationnel (ROLAP) : ces outils utilisent directement le modle
relationnel. Au travers des mta-donnes, ils permettent de transformer
l analyse multidimensionnelle en requtes SQL : distinguent les axes
d analyse et les faits observer (modles en toile ou en flocon)
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

31

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.5 Les outils relationnels OLAP
Interface de
prsentation

Hypercube virtuel

Base de donnes
relationnelle

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

32

16

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.6 Intgration Infocentre Hypercube
y Principe proche de l OLAP relationnel
y Intgration d un outil d infocentre et d un outil d analyse
multidimensionnelle dans une mme interface situe sur le poste
client
y L outil d infocentre assure la gestion d un rfrentiel commun, la
slection des donnes et leur valorisation
y L outil multidimensionnel assure la cration d un hypercube,
l implmentation des fonctionalits OLAP (consolidation, zoom
avant, glisser-dplacer, gestion des seuils, etc.)
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

33

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.6 Intgration Infocentre Hypercube

Hypercubes clients

Table de dimension
Table de dimension

Table de dimension

Serveur relationnel

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

Table de
Faits

Table de dimension

Table de dimension

34

17

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.7 Les outils multidimensionnels MOLAP

y Les BD multidimensionnelles sont propritaires (pas de


standard)
y Les donnes sont dynamiquement structures et compresses
(optimisation de l espace disque)
y Les donnes sont organises en dimensions et hirarchies
y Les formules de calcul sont gnralement complexes
y Les temps de rponse sont constants

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

35

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.7 Les outils multidimensionnels MOLAP
Interface de
prsentation

Serveur matriciel

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

36

18

3. Architecture dun Data warehouse


3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.7 Les outils multidimensionnels MOLAP
y La constitution de la base se fait selon le processus suivant
y extraction des donnes provenant des SGBD ou fichiers
y dcomposition des donnes en dimensions, attributs et variables
y calcul des consolidations
y chargement de l hypercube selon la structure dimensionnelle
choisie
y L interrogation de la base possde les caractristiques suivantes :
y interface graphique (drill down, slice and dice, etc)
y gestion des seuils et des alertes (codage couleurs)
y temps de rponse court et constant
y SQL non implment
y Exemple : Oracle Express
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat
37

3. Architecture dun Data warehouse


3. 6 Les limites du multidimensionnel
y Format et langage propritaire
y Structure fige (lhypercube doit tre construit chaque
modification)
y Accs au dtail difficile
y Peu d outils disponibles
y Outils d administration insuffisants
y Difficult de raliser des slections sur un hypercube
y Pas de standard ni pour la structure physique ni pour
l interrogation
y Manque de souplesse et absence de gestion de mta-donnes

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

38

19

3. Architecture dun Data warehouse


3. 7 Conclusion
y Un march florissant
y nombreux outils (ROLAP,MOLAP,..)
y concentration du nombre d diteurs de logiciels
y Ncessit de mthodologie de conception
y dmarche
y modlisation conceptuelle et logique
y implication des utilisateurs
y Un avenir rel
y linformatique oprationnelle est mature
y la demande des utilisateurs est importante
y la technologie est disponible.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

39

4. Le March du Data warehouse


y Le march du dcisionnel regroupe une trentaine dacteurs
y Les diteurs peuvent tre regroups en quatre catgories
y solutions applicatives
y bases de donnes multidimensionnelles
y client ROLAP
y client OLAP

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

40

20

4. Le March du Data warehouse


4. 1 Les solutions applicatives
y Loffre la plus ancienne
y loffre verticale (spcialise dans un secteur tel que la banque ou
la grande distribution)
y loffre horizontale (consacre une fonction prcise)
y loffre fonde sur un progiciel
y lditeur intgre gnralement dans sa solution une base de
donnes multidimensionnelle

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

41

4. Le March du Data warehouse


4. 1 Les solutions applicatives
y exemples de produits :
Editeur

Produit

Fonction

Comshare

Boost sales and marging planning


Boost sales analysis

Prvision, planification
Analyse des ventes

Hyperion Software
Oracle
SAS Institute

Commander budget

Elaboration budgtaire

Commander FDC

Reporting, consolidation

Hyperion entreprise

Reporting, consolidation

Hyperion Pilar

Elaboration budgtaire

Oracle financial analyser

Elaboration budgtaire

Oracle sales analyser

Analyse des ventes

CFO Vision

Reporting

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

42

21

4. Le March du Data warehouse


4. 2 Bases de donnes multidimensionnelles
y Quatre acteurs principaux rpartis en deux catgories :
y les spcialistes qui fournissent une technologie
multidimensionnelle performante
y les fournisseurs de solutions compltes capables de fournir
en plus de la base de donnes, un environnement de
dveloppement, dinterrogation et dadministration.
Catgorie

Editeur

Produit

Spcialistes

Arbor Software
Aplix

Essbase
TMI

Autres
(environnement intgr)

Oracle
Gentia Software

Express
Gentia

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

43

4. Le March du Data warehouse


4. 3 Client ROLAP

y Offre la plus rcente sur le march


y l information est stocke dans une base de donnes
relationnelle et un dictionnaire permet de faire apparatre
l information sous forme multidimensionnelle
y l administrateur offre l utilisateur un point de vue
multidimensionnel sur une base relationnelle
y les principaux acteurs sont :
Editeur

Produit

Business Objects

Business Objects

Microstrategy

DSS Agent

Information Advantage

Decision Suite

Informix

MetaCube

Platinum Technology

Info Beacon

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

44

22

4. Le March du Data warehouse


4. 4 Client OLAP
y Utilisation d un outil dinfocentre pour interroger les donnes
relationnelles, puis reprsenter linformation rcupre sous
forme multidimensionnelle
y solution propose par les diteurs dinfocentre
y deux outils sont utiliss : lanalyse multidimensionnelle et
linfocentre relationnel
y inconvnients :
y pour alimenter loutil multidimensionnel, il faut rapatrier un
volume de donnes important de la base relationnelle vers
loutil
y le stockage physique des donnes multidimensionnelles
seffectue sur le poste de travail, ce qui entrane une
redondance des donnes
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

45

4. Le March du Data warehouse


4. 4 Client OLAP
y ces systmes sont appels DOLAP, pour Desktop OLAP
y principaux acteurs :
Editeur

Editeur

Fonction

Andyne

GQL
Pablo

Requteur
Analyse OLAP

Cognos

Impromptu
Powerplay

Requteur
Analyse OLAP

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

46

23

5. Dveloppement dun Data warehouse


5. 1 Introduction
5.1.1 Caractristiques d un data warehouse prendre en compte
4 caractristiques du data warehouse jouent un rle fondamental
dans les projets de ce type:
Les volutions technologiques: client-serveur et systmes
ouverts permettent de construire le data warehouse par
intgration des composants les + adapts.
Le lien implicite la stratgie de l entreprise: data
warehouses + proches de la stratgie de l entreprise que les
systmes transactionnels.
Une logique d amlioration continue (volution des
demandes des utilisateurs, nouveaux objectifs de l entreprise)
Un niveau de maturit (acquis dcisionnel) diffrent selon
les entreprises.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

47

5. Dveloppement dun Data warehouse


5. 1 Introduction
5.1.2 Phases du processus de dveloppement
Dmarche propose=dmarche incrmentale: le data warehouse
est construit application par application (dcomposition en sousprojets ou initiatives ).
3 grandes phases dans un projet de data warehouse:
Dcouvrir et dfinir les initiatives : niveau entreprise;
distinction de 2 sous-phases: tude stratgique et laboration
du plan d action.
Dfinition de l infrastructure technique et organisationnelle
du data warehouse, conduite du changement: niveau entreprise.
Mise en uvre incrmentale des applications: niveau
projet.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

48

24

5. Dveloppement dun Data warehouse


5. 2 Phase 1: dcouvrir et dfinir les initiatives
5.2.1 Etude stratgique
Rle fondamental.
Etape 1: sensibilisation, sponsorship , prparation au
changement.
Chaque acteur doit tre convaincu de la ncessit et de
l importance du projet de data warehouse, et de la ncessit de
son implication.
Rle du sponsor du projet.
Etape 2: identification des objectifs mtier/entreprise assigns au
data warehouse.
Effectue par collaboration entre management, quipes
oprationnelles et quipes informatiques.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

49

5. Dveloppement dun Data warehouse


5. 2 Phase 1: dcouvrir et dfinir les initiatives
5.2.1 Etude stratgique
Etape 3: identification des sous-projets (initiatives) permettant
d atteindre les objectifs prcdemment identifis.
Les initiatives sont ordonnances par priorit.
Les initiatives sont indpendantes, bien dlimites, et leur
mise en uvre est relativement courte (moins de 6 mois en
gnral).

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

50

25

5. Dveloppement dun Data warehouse


5. 2 Phase 1: dcouvrir et dfinir les initiatives
5.2.2 Elaboration du plan d action
Etape 1: tude de faisabilit (existence et qualit des donnes,
contraintes techniques et organisationnelles).
Etape 2: analyse cots/bnfices.
Exemples: cot de dveloppement, cot du matriel et du
logiciel
Estimations ne sont pas dtailles.
Estimations sont de moins en moins dtailles selon le niveau
de priorit de l initiative.
Etape 3: squencement et planification des projets.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

51

5. Dveloppement dun Data warehouse


5. 3 Phase 2: dfinition de l infrastructure
5.3.1 Infrastructure technique
Choix du ou des fournisseur(s) de technologies: choix entre un
unique fournisseur et plusieurs fournisseurs
Choix des outils: construire, acheter ou faire avec l existant?
Choix
de
l
architecture
du
data
warehouse:
centralise/distribue/rplique, Intranet
Choix de la structure de stockage: relationnelle,
multidimensionnelle
Choix du matriel
Choix des infrastructures destines l administration des
systmes, la gestion de la scurit

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

52

26

5. Dveloppement dun Data warehouse


5. 3 Phase 2: dfinition de l infrastructure
5.3.2 Infrastructure organisationnelle
Organisation typique des quipes de dveloppement et
d exploitation:
Un 1er centre de comptences responsable de l alimentation
du data warehouse partir des systmes de production.
Un second centre de comptences responsable de la gestion et
du support du data warehouse proprement dit. Rle des
administrateurs de bases de donnes.
Un 3 centre de comptences responsable des flux
d informations entre les utilisateurs et leur poste de travail
d une part, et le data warehouse d autre part.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

53

5. Dveloppement dun Data warehouse


5. 3 Phase 2: dfinition de l infrastructure
5.3.3 Conduite du changement
Rle de la formation.
Rle des sponsors. Il est souvent souhaitable d identifier un
sponsor par initiative, chaque sponsor tant gnralement
associ une entit oprationnelle (marketing, finance,
ressources humaines).

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

54

27

5. Dveloppement dun Data warehouse


5. 4 Phase 3: mise en uvre des applications
5.4.1 Les 5 tapes
Etape 1: tude pralable
Dfinition et planification des tapes suivantes de manire
plus prcise et dtaille que dans les phases prcdentes.
Analyse de l existant
Etude des besoins.
Etape 2: tude dtaille (cf. parties 6 et 7 + loin)
Modlisation conceptuelle des donnes
Modlisation logique multidimensionnelle
Modlisation mathmatique: dfinition des agrgations et des
formules.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

55

5. Dveloppement dun Data warehouse


5. 4 Phase 3: mise en uvre des applications
5.4.1 Les 5 tapes
Etape 3: ralisation
Dfinition de l interface homme-machine
Implmentation physique
Intgration.
Etape 4: dploiement
Etape 5: mesures
Bilan de la mise en uvre de l application de data warehouse
(capitalisation d exprience)
Mesures doivent tre effectues rgulirement.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

56

28

5. Dveloppement dun Data warehouse


5. 4 Phase 3: mise en uvre des applications
5.4.2 Dmarche itrative
Mise en uvre des applications peut s effectuer selon une
approche itrative, de type RAD (Rapid Application
Development).
Phase de mise en uvre des applications dcoupe en deux
sous-phases, avec droulement des 5 tapes chaque fois:
Dveloppement d un prototype (pilote)
Dploiement, gnralisation du pilote.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

57

5. Dveloppement dun Data warehouse

Projet 2
(dploiement)

Itrative inter-projets

Projet 3
(pilote)

Vision
projet

Projet 1
(dploiement)

Projet 2
(pilote)

P3

Itrative inter-projets

Projet 1
(pilote)

P2

Itrative inter-projets

PI

Vision
dentreprise

5. 5 Conclusion: schma gnral du processus

Projet 3
(dploiement)

Vision
dentreprise

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat Incrmentale : multi projet

58

29

6. Modlisation des donnes dun Data warehouse


6. 1 Introduction

6.1.1 Ncessit de techniques de modlisation spcifiques


Systme transactionnel

Data warehouse

Redondances

A minimiser pour prserver la fiabilit


et la cohrence du systme
(normalisation).

Autorises.

Mises jour

Oui

Non. Pas de mises jour en ligne.


Mise jour dans la phase de chargement/
rafrachissement.

Modle de donnes

Utilisateur n accde pas directement au modle Utilisateur a un accs direct au modle


de donnes.
de donnes.

Volumes de donnes

Rsultats des transactions : volumes limits.

Requtes manipulent souvent de gros


volumes de donnes.

Nombre de tables
manipules dans les
requtes

Faible en gnral

Elev en gnral.

Requtes prvisibles

Oui

Non dans de nombreux cas.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

59

6. Modlisation des donnes dun Data warehouse


6. 1 Introduction
6.1.2 Modle multidimensionnel
3 concepts fondamentaux:
Les faits mesurent l activit. Les faits sont toujours
numriques. Les faits les plus importants et les plus utiles
sont valoriss de faon continue et additifs.
Les dimensions sont les axes d analyse. Elles peuvent tre
organises en hirarchies telles que la gographie, le
temps
Les attributs des dimensions qualifient celles-ci.
Typiquement, les attributs sont textuels et discrets (par
opposition aux faits).
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

60

30

6. Modlisation des donnes dun Data warehouse


6. 1 Introduction
6.1.2 Modle multidimensionnel
Oprations fondamentales sur des bases multidimensionnelles:
Drill-down (une donne agrge est visualise un niveau
de dtail plus fin) et consolidation (les donnes sont
visualises un niveau plus agrg). Le drill-down et la
consolidation se fondent sur l utilisation des hirarchies entre
dimensions, et des fonctions agrges (somme, nombre, min,
max, moyenne).
Slicing and dicing: visualisation des donnes selon
diffrentes perspectives.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

61

6. Modlisation des donnes dun Data warehouse


6. 1 Introduction
6.1.2 Modle multidimensionnel

TRIMESTRE

ANNEE

DIMENSION
Attribut de dimension
Fait

CA

JOUR

MOIS

ts n
an oye
t
i
ab m
h at
E re d ach
L
L
VI omb oir d
PRODUIT
- n ouv
e
- libell
-p
ag
m
- prix unitaire
N
h
O c
GI de
R E au x
DE PRODUIT
-t
Copyright J. Akoka - I. Comyn-WattiauTYPE
- N.Prat
Un cube danalyse des ventes

62

31

6. Modlisation des donnes dun Data warehouse


6. 2 Modlisation Conceptuelle des donnes
y La plupart des dmarches proposes aujourdhui font limpasse
sur cette phase
y Seuls Thomsen (Building Multidimensional Information
Systems, Wiley, 1997) et Akoka-Prat (Modlisation logique des
systmes multidimensionnels, Revue des Systmes de Dcision,
1997) proposent une phase conceptuelle.
y Principe :
y tablir un modle conceptuel entit-association
y traduire ce modle sous forme logique multidimensionnelle
par des rgles de mapping
y transformations dcrites plus loin
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

63

6. Modlisation des donnes dun Data warehouse


6. 2 Modlisation Conceptuelle des donnes
y Exemple : SIAD de
mdia-planning

CONSOMMATEUR

N
ACHETE

code_conso
CSP
age
revenu
sexe
ville
etat_civil

unites_par_sem

PRODUIT
code_produit
nom_produit
unite_produit

MEDIA
UTILISE

utilisat_media

code_media
nom_media
prix_insertion
production_media
pourcent_limite
N
EST DU

1
TYPE_MEDIA
type_media
insertion
unite_media

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

64

32

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation logique des donnes
6. 3.1 Lapproche MAP (Akoka-Prat)
y LES CONCEPTS
y Une dimension est une donne lmentaire permettant didentifier
un objet (ex : code d un produit). Cest l axe d analyse
y Une variable permet de grer les donnes multidimensionnelles.
Elle reprsente une quantit mesurable, un fait observ. Elle peut
tre monodimensionnelle ou multidimensionnelle (ex : des units
consommes peuvent tre dimensionnes par un consommateur,
un produit...)
y Une relation caractrise un lien existant entre les dimensions,
deux ou plus (ex : lien entre le code d un mdia et le type du
mdia correspondant)
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

65

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation logique des donnes
6. 3.1 Lapproche MAP (Akoka-Prat)
y LA DEMARCHE
y effectuer la modlisation conceptuelle l aide du modle entitassociation
y simplifier le schma entit-association ainsi obtenu en :
y liminant les associations dordre suprieur 3
y liminant les associations rflexives
y traduire le schma ainsi simplifi en schma multidimensionnel
laide des rgles de transformation suivantes :
y lidentifiant de chaque entit E-A devient une dimension dans
le schma logique multidimensionnel
y les proprits portes par une entit (autres que son identifiant)
deviennent des variables monodimensionnelles lies la
dimension de cette entit
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat
66

33

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation logique des donnes
6. 3.1 Lapproche MAP (Akoka-Prat)
y LA DEMARCHE
y les proprits portes par les associations du schma conceptuel
deviennent des variables multidimensionnelles dont les
dimensions sont les identifiants des entits lies lassociation
y (un lien dhritage entre deux entits est traduit par une relation
dans le schma logique multidimensionnel)

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

67

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation logique des donnes
6. 3.1 Lapproche MAP (Akoka-Prat)
y LA DEMARCHE
y une association dont une des cardinalits maximales au moins est
gale 1 est traduite par une relation dans le modle logique
multidimensionnel
y toute autre association est traduite au moyen dune variable
multidimensionnelle lie lidentifiant de chacune des entits
impliqus dans l association, sauf si l association est porteuse
d au moins une proprit dont la valeur est toujours dfinie.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

68

34

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation Logique des donnes
6.3.2 Le modle en toile
y Le modle en toile se compose de deux type de table :
y les tables de dimensions qui reprsentent les axes d analyse.
Chaque table de dimension possde un ensemble dattributs
permettant de dcrire les aspects importants de cette
dimension. Chaque table est identifie par une cl
y la table de faits concerne lensemble des mesures de
lactivit. Les enregistrements de cette table sont identifis
par une cl compose de la concatnation des cls des tables
de dimension

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

69

6. Modlisation des donnes dun Data warehouse


6.3 Modlisation Logique des donnes
6.3.2 Le modle en toile
y Il s agit d un modle dnormalis. Les tables de dimension sont
plates. Il existe une grande redondance des donnes
Dimension 1

Faits

Dimension 2

Cl Dimension 1 (D1)
Attribut

Cl D1
Cl D2
Cl D3
Mesure

Cl Dimension 2 (D2)
Attribut

Dimension 3
Cl Dimension 3 (D3)
Attribut

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

70

35

CONSOMMATEUR

y Exemple:
SIAD de
planning
y
y

mdia-

On distingue 2 toiles (structure


multitoile)
les relations entre toiles sont
possibles par le biais de
dimensions communes deux
ou plusieurs toiles (ex : la
dimension consommateur est
commune aux 2 toiles)

code_conso
CSP
age
revenu
sexe
ville
etat_civil

PRODUIT
code_produit
nom_produit
unite_produit

ACHETE
code_conso
code_produit
unites_par_sem

CONSOMMATEUR

MEDIA

code_conso
CSP
age
revenu
sexe
ville
etat_civil

code_media
nom_media
prix_insertion
production_media
pourcent_limite
type_media
insertion
unite_media

UTILISE
code_conso
code_media
utilisat_media

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

Rgles de passage ER

71

modle en toile

Rgle 1 : Toute association binaire M-N ou ternaire ou plus


porteuse de proprits devient une table de faits identifie par
les cls des entits participantes.
Rgle 2 : Toute entit participant une association de la rgle 1
devient une table de dimensions relie la table de faits.
Rgle 3 : Toute entit E1 relie une entit E2 de la rgle 2 par
une relation 1:N est transcrite dans la table de dimension de E2.
Rgle 4 : Toute entit E1 relie une entit E2 de la rgle 2 par
un chemin de relations 1:N est transcrite dans la table de
dimensions de E2.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

72

36

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation Logique des donnes
6.3.3 Le modle en flocon
y Ce modle est driv de celui en toile. Toutefois, les tables de
dimensions sont normalises et les redondances limines
TYPE_MEDIA
y exemple : Cas mdia-planning (partiel)
type_media
insertion
unite_media

CONSOMMATEUR
code_conso
CSP
age
revenu
sexe
ville
etat_civil

MEDIA
code_media
nom_media
prix_insertion
production_media
pourcent_limite
type_media

UTILISE

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

code_conso
code_media
utilisat_media

Rgles de passage ER

73

modle en flocon

Rgle 1 : Toute association binaire M-N ou ternaire ou plus


porteuse de proprits devient une table de faits identifie par
les cls des entits participantes.
Rgle 2 : Toute entit participant une association de la rgle 1
devient une table de dimensions relie la table de faits.
Rgle 3 : Toute entit E1 relie une entit E2 de la rgle 2 par
une relation 1:N devient une sous-table de dimensions relie la
table issue de la rgle 2.
Rgle 4 : Toute entit E1 relie une entit E2 traduite en une
sous-table de dimension en devient une sous-table de
dimensions.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

74

37

6. Modlisation des donnes dun Data warehouse


6. 3 Modlisation Logique des donnes
6.3.4 Comparaison des modles en toile et en flocon
y Le modle en flocon offre une vue plus claire de la structure de
linformation permettant notamment de dceler une hirarchie
y la normalisation de ce modle permet de plus de diminuer la
redondance, en rduisant la taille des tables de dimension. A
noter que Kimball a valu le gain de place disque 1 % de
lespace disque total
y Kimball prfre le modle en toile sur la base de deux
arguments :
y la dnormalisation permet d amliorer les performances du
systme lors de l excution des requtes
y le modle est plus facile apprendre par l utilisateur non
informaticien
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

75

7. Modlisation mathmatique. Agrgations et


formules
y Formules : Quatre types de formules
y Descriptive : pour le choix dalternative (ex : rparer un pont ou
en construire un nouveau)
y Prdictive : pour prdire des valeurs non mesures (ex : si le taux
dintrt est corrl avec une augmentation des ventes
domestiques, la formule prdictive dduira d une diminution des
taux d intrt l augmentation future des ventes)
y Exploratoire : reprsentant les relations entre donnes (ex :
lanalyse de rgression statistique)
y Prescriptive : ce sont de simples descriptions, ne comportant pas
de comparaisons (ex : les agrgations)
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

76

38

7. Modlisation mathmatique. Agrgations et


formules
y Agrgations :
y Formules dagrgations : composante cl du modle
multidimensionnel (ex : sommes, moyennes, quations pondres
conditionnelles)
y Formules non agrgatives : formules les plus couramment
utilises (ex : ratios, produits, diffrences)
y Fonctions attaches aux dimensions ou aux rgles : dans le cas de
ratios ou de formules oprations multiples, il est prfrable de
passer par des rgles. Dans le cas dune fonction appliquer par
dfaut avec des exceptions, il est prfrable dattacher la fonction
la dimension
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

77

7. Modlisation mathmatique. Agrgations et


formules
y Agrgations :
y Qualifications : lors de la rdaction de formules, il faut vrifier si
celles-ci sont justes pour la totalit de la hirarchie
y Prcdence des calculs : prciser lordre des calculs entre
diffrentes dimensions lorsque ceux-ci peuvent produire un
rsultat diffrent
y Formules conditionnelles : utilises dans le cas dexceptions
connues

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

78

39

8. Conclusion et perspectives
8. 1 Conclusion
y Le data warehouse est probablement, avec Internet, l une des
tendances rcentes que les entreprises exploiteront de + en +
dans les annes venir. Sujet brlant .
y Le data warehouse est le cur, l ossature du systme
d information dcisionnel.
y % des investissements informatiques consacrs la production
et la gestion devrait s inverser d ici 2003 au profit de
l informatique dcisionnelle (source: Meta Group).
y Systmes d information dcisionnels = lment de
diffrentiation entre les entreprises (par opposition aux systmes
transactionnels avec les ERP).
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

79

8. Conclusion et perspectives
8. 2 Quelques perspectives
y Agents intelligents :
yUn agent agit pour un utilisateur sans solliciter son
intervention explicite.
yUn agent intelligent est capable d apprendre en fonction
d vnements extrieurs.
yTechnique de push ( pull ): L utilisateur est averti
des vnements remarquables (CA en-dessous d un seuil
prdfini).

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

80

40

8. Conclusion et perspectives
8. 2 Quelques perspectives
y Internet:
yComplmentarit Internet/data warehouse.
yInternet=moyen d acquisition de donnes externes.
yIntranet/Extranet=moyen d accs au data warehouse.
y CRM:
yCustomer Relationship Management (Gestion de la Relation
Client)
yUn des domaines d application privilgis du data
warehouse.
Copyright J. Akoka - I. Comyn-Wattiau - N.Prat

81

41