Vous êtes sur la page 1sur 8

Concevoir

et dployer un
data warehouse

Ralph Kimball

ditions Eyrolles
ISBN : 2-212-09165-6

2000
2
Le cycle de vie dimensionnel

Avant dtudier de plus prs les spcificits de la conception, du dveloppement et du dploie-


ment dun data warehouse, nous allons exposer une mthodologie globale tout en prsentant
le cycle de vie dimensionnel. Celui-ci constitue la trame de cet ouvrage et dfinit la marche
suivre. Vous y trouverez des matrices contenant les informations qui seront dtailles dans les
chapitres suivants.
Nous allons dbuter par un historique de lvolution du cycle de vie dimensionnel. Nous
allons en formaliser les tapes et les schmas. Chaque tche de haut niveau ou composant du
cycle de vie dimensionnel seront dcrits. Enfin, nous apporterons les recommandations gn-
rales ncessaires une mise en oeuvre efficace du cycle de vie tout au long dun projet.
Nous conseillons au lecteur de prendre le temps de passer en revue ce chapitre dintroduction,
mme sil ne se sent concern que par un seul aspect du projet de data warehouse. Nous
croyons quil est bnfique toute lquipe dapprhender la mthodologie dans son
ensemble. Nous avons crit ce chapitre pour vous aider prendre du recul. Pour le moment,
nous allons nous intresser la fort : les chapitres venir nous mneront larbre, la
feuille, lcorce, puis aux racines.

volution du cycle de vie


Le cycle de vie dimensionnel prsent dans cet ouvrage a vu le jour chez Metaphor Computer
Systems au milieu des annes 80. Cette socit appartient maintenant au folklore du data
warehouse. Fonde en 1982, elle tait une entreprise pionnire dans la commercialisation de
systmes dcisionnels. cette poque, les produits de Metaphor taient bass sur la techno-
logie LAN (Local Area Network, rseau local) avec une plate-forme de serveur de base de
donnes relationnelle et une interface utilisateur client graphique conviviale. Cela vous dit
quelque chose, nest-ce pas ? Quand Metaphor sest pench sur ce secteur dactivits, il portait
encore le nom de systmes dcisionnels ; la notion de data warehouse a fait son apparition
bien plus tard.
Gestion de projet et valuation des besoins
2 PREMIRE PARTIE

Les auteurs de ce livre travaillaient ensemble chez Metaphor au tout dbut de limplmenta-
tion des solutions dcisionnelles. cette poque, il nexistait ni pratique industrielle optimale,
ni mthodologie officielle. Les auteurs, ainsi que dautres collaborateurs de Metaphor, ont
commenc dvelopper des techniques et des approches destines traiter les particularits
du dcisionnel. Nous avions t forms aux mthodologies de dveloppement traditionnelles ;
nous avons cependant modifi et amlior ces pratiques afin daborder les dfis particuliers
que reprsentaient le fait de mettre la disposition des utilisateurs un accs direct aux donnes
tout en prenant en compte la croissance et lextensibilit.
Au fil des ans, les auteurs se sont trouvs impliqus dans des centaines de projets de data
warehouse. Beaucoup ont t couronns de succs, dautres nont rpondu qu certaines
exigences, et quelques-uns se sont solds par des checs retentissants. Chaque projet a t
riche denseignements. De plus, nous avons tous eu la chance, au cours de ces annes, de nous
instruire au contact dorganisations et de personnes talentueuses. Nos approches et nos tech-
niques, formes et affines au fil du temps, sont aujourd'hui prsentes dans cet ouvrage.
La russite de limplmentation dun entrept de donnes dpend de lintgration adquate de
nombreux composants et tches. Il ne suffit pas de possder le modle de donnes parfait ou
la meilleure technologie ; il sagit de coordonner les multiples facettes du projet de data ware-
house, tout comme un chef dorchestre doit accorder les nombreux instruments qui compo-
sent son orchestre. Un soliste ne peut mener tout un orchestre lui seul. De la mme manire,
les efforts fournis pour limplmentation dun entrept de donnes doivent rvler leur effica-
cit travers tous les aspects du projet. Le cycle de vie dimensionnel sapparente la partition
dun chef dorchestre ; il fait en sorte que les lments du projet soient placs dans le bon
ordre au bon moment.
En dpit des avances technologiques spectaculaires survenues depuis les dbuts de Metaphor
dans les annes 80, les concepts de base du cycle de vie dimensionnel sont rests remarqua-
blement stables. Notre approche de la conception, du dveloppement et du dploiement des
entrepts de donnes est prouve et fiable. Elle a quasiment t teste dans tous les secteurs
dactivits et sur toutes les plates-formes technologiques. Le cycle de vie a fait ses preuves.

Approche par le cycle de vie


Lapproche globale de limplmentation dentrepts de donnes par le cycle de vie est illus-
tre par la figure 2.1. Ce schma reprsente la succession des tches de haut niveau (macro
tches) ncessaires la conception, au dveloppement et au dploiement dentrepts de
donnes efficaces. Il dcrit le cheminement du projet dans son ensemble ; chaque rectangle
sert de poteau indicateur ou de borne.

Planification du projet
Comme on peut sy attendre, le cycle de vie commence par la planification du projet. Celle-ci
aborde la dfinition et ltendue du projet de data warehouse, y compris lapprciation du
niveau de maturit de lorganisation face cet type dapproche et sa justification fonction-
nelle. Certaines tches initiales sont dcisives en raison du fort besoin de visibilit et des cots
associs la plupart des projets de data warehouse. partir de l, la planification du projet se
concentre sur les besoins en terme de ressources et de niveau de qualification, coupls aux
affectations des tches, leur dure et leur squencement. Le planning qui en dcoule iden-
tifie toutes les tches associes au cycle de vie dimensionnel et mentionne les ressources
Le cycle de vie dimensionnel
CHAPITRE 2
3

impliques. Il reprsente la pierre angulaire de la gestion de votre projet de data warehouse au


quotidien. La planification du projet dpend des besoins, comme lindique la flche double
sens reliant ces deux activits.

Dfinition de Installation
l'architecture et slection
technique des produits

Conception et
Dfinition Conception dveloppement Maintenance
Planification Modlisation du modle des lments
des Dploiement et
du projet dimensionnelle physique de la zone de
besoins de prparation croissance
l'entreprise des donnes

Spcification de Dveloppement
l'application de l'application
utilisateur utilisateur

Gestion du projet

Figure 2.1
Schma du cycle de vie dimensionnel.

Dfinition des besoins


Les chances de succs dun entrept de donnes se trouvent considrablement accrues par la
bonne comprhension des utilisateurs et de leurs besoins. Sans elle, le data warehouse devien-
drait rapidement un exercice vain pour lquipe des concepteurs. Lapproche utilise pour iden-
tifier les besoins analytiques des employs diffre de manire significative de la traditionnelle
analyse des besoins pilote par les donnes. Les constructeurs dentrepts de donnes doivent
apprhender les facteurs cls qui conduisent lentreprise vouloir dfinir de manire efficace
ses besoins et les traduire pour les intgrer lors de la conception. Ces besoins constituent le
point de dpart des trois trajectoires parallles que sont la technologie, les donnes et les inter-
faces utilisateur. La collecte des besoins est traite en dtail dans le chapitre 4.

Modlisation dimensionnelle des donnes


La dfinition des besoins dtermine les donnes requises pour rpondre aux besoins danalyse
des utilisateurs. La conception de modles de donnes destins corroborer ces analyses
ncessite une approche diffrente de celle utilise lors de la conception de systmes opration-
nels. Nous commencerons par construire une matrice qui reprsentera les processus mtier
cls et leur dimensionnalit. La matrice fera office de schma directeur pour garantir que
lentrept de donnes sera extensible dans le temps au sein de lorganisation.
partir de l, nous effectuerons une analyse plus dtaille des donnes des systmes source
oprationnels. En couplant cette analyse la comprhension des besoins prcdemment
tablie, nous dvelopperons ensuite un modle dimensionnel. Ce modle identifie la granula-
rit de la table des faits, les dimensions associes, les attributs ainsi que leur hirarchisation.
La conception logique dune base de donnes est complte par les relations appropries entre
Gestion de projet et valuation des besoins
4 PREMIRE PARTIE

les structures des tables et les cls principales et extrieures. Le plan dagrgation prliminaire
sera galement dvelopp. Cet ensemble dactivits sachvera sur le dveloppement dune
mise en correspondance des donnes source et cible.
Les concepts relatifs la modlisation dimensionnelle sont traits dans les chapitres 5 7. Le
chapitre 5 propose une introduction la modlisation dimensionnelle et sa justification, tandis que
le chapitre 6 couvre les sujets plus avancs relatifs la modlisation dimensionnelle. Le chapitre 7
dcrit lapproche recommande du processus de dveloppement dun modle dimensionnel.

Conception du modle physique de donnes


La conception physique dune base de donnes dfinit les structures physiques ncessaires
pour limplmentation de la bases de donnes logique. Les lments fondamentaux du
processus sont la dtermination des rgles de nommage et la mise en place de lenvironne-
ment des bases de donnes. Lindexation prliminaire ainsi que les stratgies de partitionne-
ment sont galement dfinies. La conception du modle physique de donnes est aborde dans
le chapitre 15.

Conception et dveloppement de la zone de prparation des donnes


Le processus de conception et de dveloppement des lments de la zone de prparation des
donnes (data staging) constituent souvent la tche la plus sous-estime du projet de data
warehouse. Le processus de prparation se droule en trois tapes majeures : lextraction, la
transformation et le chargement des donnes. Le processus dextraction rvle toujours des
problmes de qualit des donnes, enfouies au sein des systmes source oprationnels. Or,
la qualit des donnes influence de manire significative la crdibilit de lentrept de
donnes ; il convient donc de rgler ces problmes. Pour compliquer encore la chose, il faut
concevoir et construire deux processus dextraction : le premier pour le peuplement initial de
lentrept de donnes, le second pour les chargements rguliers et incrmentiels. Le dvelop-
pement du processus de prparation des donnes est dcrit en dtail au chapitre 16.

Dfinition de larchitecture technique


Les environnements de data warehouse ncessitent lintgration de nombreuses technologies.
Cette tape de dfinition donne une vision globale de la structure de larchitecture technique
mettre en uvre. Vous devrez prendre simultanment en considration trois facteurs : vos
besoins, lenvironnement technique existant et les orientations techniques stratgiques qui ont
t planifies. Le chapitre 8 propose une introduction larchitecture technique des entrepts
de donnes. Des rflexions portant sur larchitecture des outils de la zone de construction et
des outils de restitution sont respectivement exposes dans les chapitres 9 et 10. Le
chapitre 11 met en vidence les infrastructures de larchitecture et les mtadonnes. Enfin, un
cours avanc sur la scurit des entrepts de donnes et limpact dInternet vous est propos
au chapitre 12.

Choix technologiques et mise en uvre


partir de votre tude darchitecture technique, vous valuerez et slectionnerez les compo-
sants spcifiques, tels que la plate-forme matrielle, le systme de gestion de base de donnes
et les outils de prparation et daccs aux donnes. Un processus dvaluation standard sera
Le cycle de vie dimensionnel
CHAPITRE 2
5

dfini, en mme temps que les facteurs dvaluation spcifiques chaque composant de
larchitecture. Une fois les produits valus et slectionns, ceux-ci devront tre installs et
tests mticuleusement afin de garantir une intgration adquate de bout en bout dans lenvi-
ronnement du data warehouse. Le chapitre 13 traite principalement de larchitecture, de
lvaluation technologique, ainsi que des processus de slection et dinstallation qui en
dcoulent.

Dveloppement de lapplication utilisateur


Nous vous recommandons de dfinir une srie dapplications standard destine lutilisa-
teur final, car tous les utilisateurs nont pas besoin dun accs ad hoc lentrept de
donnes. Les spcifications de lapplication dcrivent les maquettes dtats, les critres
laisss linitiative de lutilisateur et les calculs ncessaires. Elles garantissent que lquipe
de dveloppement et les utilisateurs ont intgr une comprhension commune des applica-
tions qui vont tre livres. Les dtails concernant les spcifications utilisateur final sont
fournis dans le chapitre 17.

Dploiement
Le dploiement est le point de convergence de la technologie, des donnes et des applica-
tions utilisateur accessibles partir du poste de travail. Une planification de grande envergure
est indispensable afin que toutes les pices du puzzle se placent correctement. Il est gale-
ment ncessaire de prvoir une formation des utilisateurs qui intgre tous les aspects de cette
convergence. En outre, avant de permettre lutilisateur daccder lentrept de donnes,
il faut mettre en place les processus de communication, de support utilisateur, et de prise en
compte des demandes d volution ou de correction. Le chapitre 18 met laccent sur limpor-
tance de bien orchestrer le dploiement (celui-ci devra tre report si tous les lments ne
sont pas prts).

Maintenance et croissance
Aprs le dploiement initial de lentrept de donnes, il reste encore beaucoup de travail. Il
faut continuer vous occuper de vos utilisateurs en leur procurant un service de support et
une formation continue. Vous devez galement vous assurer que les processus et les proc-
dures mis en place pour la gestion de la zone de construction vont faire fonctionner
lentrept en continu et efficacement. Pour bien vendre votre entrept de donnes ses
utilisateurs, vous devez songer mesurer priodiquement son acceptation et ses perfor-
mances. Enfin, votre plan de maintenance devra inclure une stratgie de communication de
grande envergure.
Si, jusqu prsent, vous avez utilis le cycle de vie dimensionnel, votre entrept de donnes va
voluer et crotre. la diffrence de certaines initiatives traditionnelles de dveloppement, le
changement devra tre peru comme un facteur de succs et non dchec. Des processus de
hirarchisation des priorits doivent tre mis en place afin de grer la demande de lutilisateur en
termes dvolution et de croissance. Aprs avoir identifi les priorits du projet, nous revenons
au dbut du cycle de vie, en prenant appui sur ce qui a dj t mis en place dans lenvironne-
ment du data warehouse et en nous penchant sur les nouveaux besoins. Le chapitre 19 expose
nos recommandations concernant la sant et la croissance long terme de votre entrept de
donnes.
Gestion de projet et valuation des besoins
6 PREMIRE PARTIE

Gestion du projet
La gestion de projet garantit que les activits du cycle de vie dimensionnel restent sur la bonne
voie et sont bien synchronises. Comme le montre la figure 2.1, les activits de gestion de
projet sont tales tout au long du cycle de vie. Elles concernent le contrle de ltat davan-
cement du projet, la dtection et la rsolution des problmes et le contrle des changements,
afin de rester dans la limite des objectifs et du primtre. Enfin, la gestion de projet inclut le
dveloppement dun plan de communication dtaill, qui aborde la fois les services infor-
matiques et utilisateurs. Une communication suivie est absolument dcisive pour grer les
attentes, et une bonne gestion des attentes est elle-mme absolument dcisive pour que votre
entrept atteigne ses objectifs. Le chapitre 3 dtaille les activits de gestion de projet.

Guide dexploitation du cycle de vie dimensionnel


Le schma du cycle de vie dimensionnel matrialise lenchanement des grandes tapes de
limplmentation dun entrept de donnes. Il identifie le squencement des tches de haut
niveau (macro tches) et souligne les contraintes entre ces diffrentes actions tant au niveau
technologique ainsi quau niveau des donnes et des applications. Par exemple, nessayez pas
dachever la conception physique des donnes et de commencer construire la zone de prpa-
ration des donnes si vous ne possdez pas la fois une bonne comprhension des besoins, de
larchitecture technique globale et des choix techniques spcifiques, et enfin des outils daccs
aux donnes.
Par ailleurs, le cycle de vie dimensionnel ne reflte pas un axe chronologique absolu. Comme
vous lavez probablement remarqu sur la figure 2.1, tous les rectangles ont la mme largeur,
sauf celui de la gestion de projet. Mme avec une exprience rduite du data warehouse, vous
devez savoir que les ressources et le temps ncessaires chaque rectangle du schma ne sont
pas gaux. Le lecteur ne doit surtout pas poser une rgle au bas du schma et diviser les tches
selon un axe chronologique imaginaire gradu en mois. Il doit savoir combiner le squencement
et la simultanit plutt que fixer des chances en valeur absolue.
Comme pour la plupart des outils de mthodologie et de gestion de projet, vous devrez peut-
tre personnaliser le cycle de vie dimensionnel en fonction des besoins particuliers de votre
organisation. Si cest le cas, nous saluons votre adoption de la mthode et votre crativit.
Cette tche est le plus souvent confie des consultants, tels que nous-mmes. travers cet
ouvrage, nous tentons de recenser ce quoi vous devez rflchir lors de la conception, du
dveloppement et du dploiement dun entrept de donnes. Ne vous laissez pas dborder par
le volume des informations. Certains dtails ne sont pas applicables au cycle de vie de votre
projet. Nous sommes conscients que chaque dveloppement dun systme impose des
compromis. Nanmoins, nous savons par exprience que les projets russis devront aborder
toutes les tches : il sagit juste de dterminer quand et comment.
Enfin, comme nous le dcrirons dans le chapitre 3, le cycle de vie dimensionnel est plus fruc-
tueux lorsquil est utilis pour implmenter des projets dont les objectifs sont matriss et clai-
rement dfinis. Il est quasiment impossible de tout rgler en une seule fois ; ne laissez donc
pas les utilisateurs, vos collaborateurs ou vos suprieurs tenter dinflchir cette approche. Par
ailleurs, il est tout fait envisageable de construire, de dvelopper et de dployer un environ-
nement de data warehouse par des phases successives en exploitant le cycle de vie dimen-
sionnel.
Le cycle de vie dimensionnel
CHAPITRE 2
7

Points de repre du cycle de vie dimensionnel : comment utiliser


cet ouvrage
Vous trouverez des rfrences au cycle de vie dimensionnel tout au long de cet ouvrage. Pour
commencer, chaque page portant un titre de chapitre reprend le schma du cycle de vie (voir
figure 2.1). Il vous fournit un point de repre vous permettant de vous situer dans le cycle de
vie. Sachez quil nexiste pas de relation directe entre ces points de repre et les chapitres du
livre. Dans certains cas, un seul chapitre abordera de nombreux points de repre, comme le
chapitre 3, qui couvre la fois la planification et la gestion de projet. Dautres chapitres ne
couvrent quun seul point de repre, comme les chapitres 5 7, qui traitent de la modlisation
dimensionnelle.
En plus de ces points de repre, les chapitres orients sur les processus comprendront, le cas
chant, les lments communs suivants :
La liste dtaille des tches du projet et des responsabilits associes au point de repre.
Ces listes sont regroupes dans lannexe pour former un plan complet et intgr.
Les rles cls de lquipe du projet.
Des estimations. Chaque projet est tellement spcifique quil est pratiquement impossible
de proposer une estimation de dlai pour chaque point de repre. Nous avons donc prfr
vous livrer une liste de variables et de relations dont vous pourrez tenir compte pour attri-
buer une chance chaque point de repre de votre projet.

En rsum
Le cycle de vie dimensionnel propose un cadre permettant dorganiser les nombreuses tches
ncessaires limplmentation russie dun data warehouse. Grce des annes dexp-
riences pratiques, nous lavons fait voluer. Il est fortement ancr dans la ralit
daujourdhui. Maintenant que vous avez fait la connaissance du cycle de vie dimensionnel,
nous pouvons commencer !

Vous aimerez peut-être aussi