Académique Documents
Professionnel Documents
Culture Documents
et dployer un
data warehouse
Ralph Kimball
ditions Eyrolles
ISBN : 2-212-09165-6
2000
Dfinition de
l'architecture
technique
Planification
du projet
Dfinition
des
besoins de
l'entreprise
Modlisation
dimensionnelle
Installation
et slection
des produits
Conception
du modle
physique
Spcification de
l'application
utilisateur
Conception et
dveloppement
des lments
de la zone de
prparation
des donnes
Dploiement
Maintenance
et
croissance
11
Dveloppement
de l'application
utilisateur
Gestion du projet
Infrastructure et mtadonnes
Linfrastructure et les mtadonnes sont les fondations des composantes architecturales que
nous avons dcrites dans les chapitres 8, 9 et 10. Linfrastructure dun entrept de donnes
inclut le matriel, les rseaux et les fonctions de bas niveau, telles que la scurit, que les
composants de haut niveau considrent comme acquises. Les mtadonnes sont un peu moins
concrtes que linfrastructure, mais constituent tout de mme la couche de base des outils
darrire-plan (back room) et frontaux (front room). Ce chapitre identifie et dfinit les principaux composants de linfrastructure et des mtadonnes du data warehouse.
Dans la premire partie de ce chapitre, nous examinons les principaux lments prendre en
compte en matire dinfrastructure des outils darrire-plan (back room). Ensuite, nous aborderons quelques considrations relatives au matriel, aux systmes dexploitation et aux
plates-formes de bases de donnes, en donnant au passage quelques dfinitions de base. Nous
en ferons ensuite de mme pour les outils frontaux (front room). Enfin, pour relier lensemble,
nous voquerons brivement la connectivit et les rseaux.
La seconde partie de ce chapitre examine les mtadonnes sous toutes les coutures. Il sachve
par un exemple dutilisation des mtadonnes et par quelques rflexions sur leur maintenance.
Architecture
PARTIE 3
Bien quassez technique, ce chapitre concerne tous les membres de lquipe ; il est en effet
important que chacun connaisse bien ces pices matresses du data warehouse.
Infrastructure
Plusieurs facteurs doivent tre combins pour dterminer linfrastructure adapte une implmentation donne ; ils ne sont pas forcment tous techniques. Les auteurs de ce livre ne sont
pas des experts en infrastructure. Notre stratgie a toujours consist travailler en troite
collaboration avec les experts en infrastructure de nos clients et les aider bien comprendre
les besoins en infrastructure de lentrept. Cette section identifie et dfinit les principaux
composants de linfrastructure dun data warehouse typique.
volution de linfrastructure
Linfrastructure matrielle de lentrept de donnes englobe les plates-formes matrielles de
chaque magasin de donnes, de chaque serveur dapplications et des postes de travail.
ASTUCE
propos des plates-formes matrielles, il convient de garder lesprit quun entrept de donnes connat
sa croissance la plus significative au cours des dix-huit premiers mois de son existence, la fois en
termes de donnes et dutilisation.
Infrastructure et mtadonnes
CHAPITRE 11
Entrept et
prparation
Petit/dbut
Moyen/
deuxime
phase
Grand/
entreprise
Entrept de
donnes/
data mart
Prparation et
dveloppement
Test/
dveloppement
Zone de
prparation
des donnes
Data mart
de donnes
atomiques
Plusieurs
data marts
Plusieurs
data marts
Serveur
dapplications
Outils
du poste
de travail
Serveur
dapplications
Outils
du poste
de travail
Serveur
dapplications
Serveur
dapplications
Outils
du poste
de travail
Outils
du poste
de travail
Figure 11.1
Chaque boite de cette figure reprsente une machine ou un ensemble de composants physique
de lentrept. Un environnement deux niveaux (2 tiers) suffit pour un projet modeste ou pour
un premier dploiement. Cependant, mme les systmes les plus petits doivent prvoir un
serveur dapplications pour permettre laccs aux donnes via le Web. Dans les entrepts de
donnes plus ambitieux ou arrivs maturit, la zone de prparation des donnes est gnralement spare de lentrept ou du data mart. De nombreuses entreprises commencent directement ce niveau, car elles ont lintention de faire crotre leur data warehouse en vitant
davoir migrer vers une architecture trois niveaux (3 tiers). Au bas de la figure, un entrept
de donnes tendu toute lentreprise est implment sur plusieurs serveurs spars. Bien
entendu, les variantes possibles de ces trois suggestions sont nombreuses ; dans tous les cas,
rappelez-vous que le nombre de serveurs peut augmenter de manire non ngligeable.
Architecture
PARTIE 3
le serveur de la base de donnes est peut-tre la dcision la plus dlicate en matire de matriel.
Voici quelques facteurs valuer pour choisir vos serveurs :
Volumtrie. Le volume de donnes grer est dtermin par les proccupations mtier que
vous avez pour objectif de rsoudre. Si la stratgie de lentreprise est de dvelopper des
relations client one-to-one, le niveau de dtail des transactions devra tre le client. La
plupart des projets dentrept de donnes et de data marts se contentent de 200 gigaoctets
au dpart. Souvent, ils sont mme encore plus modestes et se mettent crotre au fur et
mesure de laccumulation des historiques, de la cration dagrgats et de lapparition de
nouvelles sources de donnes. Toute configuration en de de 200 gigaoctets est facile
administrer. Pour vous aider vous y retrouver, nous qualifierons de petits les entrepts de
donnes dont la capacit est infrieure 100 gigaoctets, de moyens ceux allant de 100
500 gigaoctets et de grands ceux dpassant 500 gigaoctets.
Volatilit. Elle mesure le dynamisme de la base de donnes via la frquence des mises
jour, le volume des donnes modifies ou remplaces chaque mise jour et la taille de la
fentre de chargement. Encore une fois, les besoins mtier fournissent de bonnes indications sur la volatilit. Bien videmment, les donnes quotidiennes sont plus volatiles que
les donnes hebdomadaires ou mensuelles. Les rponses ces questions ont une incidence
directe sur la taille et sur les performances de votre plate-forme matrielle.
Nombre dutilisateurs. Bien videmment, le nombre dutilisateurs, la frquence selon
laquelle ils utilisent le data warehouse, le nombre de connexions simultanes et les pics
dactivit (fin de mois, par exemple) sont autant de facteurs importants dans la slection
dune plate-forme. Pour une entreprise digne de figurer au palmars des 1 000 premires
dans Fortune, leffort initial de data mart/data warehouse devra commencer par 25 50 utilisateurs actifs. Durant les dix-huit premiers mois, ce nombre passera 100 ou 200 ; trois ans
plus tard, on comptera des milliers dutilisateurs, notamment si lentrept est utilis la fois
pour des requtes ad hoc et pour crer des tats standard ou presse-bouton dans une grande
entreprise. La rpartition gographique des utilisateurs est galement importante. Sils sont
dissmins sur toute la plante, le systme devra bien videmment tre disponible 24 heures
sur 24, ce qui a des consquences sur le matriel. Dans un tel cas de figure, si les systmes
oprationnels sont centraliss lentrept de donnes devra probablement ltre galement,
mais le matriel devra autoriser les chargements en parallle ou au compte-gouttes pour
permettre une disponibilit constante. Si les systmes oprationnels sont dcentraliss, il
semble logique de dcentraliser galement les data marts.
Nombre de processus mtier. Le nombre de processus mtier pris en charge par lentrept
influe normment sur sa complexit. Vous pouvez envisager une plate-forme matrielle
par processus si les utilisateurs sont suffisamment nombreux ou si lactivit le justifie.
Cependant, vous aurez peut-tre galement besoin dun gros serveur centralis si les
donnes consolides sont indispensables aux dirigeants de lentreprise et si les mthodes
middleware de consolidation virtuelle sont inadaptes votre situation.
Type dutilisation. Le type dutilisation et les outils frontaux slectionns ont galement
une incidence sur le choix des plates-formes. En effet, une poigne d utilisateurs ad hoc
peut peser lourdement sur les performances de lentrept de donnes. Il est difficile doptimiser un data warehouse pour ce type dutilisation, car les bons analystes compulsent sans
cesse les donnes la recherche de niches. Au contraire, un systme presse-bouton essentiellement destin produire des tats standards peut tre optimis pour ce type
dutilisation ; toutefois, si vous avez lintention den rester aux tats standard, vous ne
Infrastructure et mtadonnes
CHAPITRE 11
tirerez pas le meilleur parti de votre investissement. La plupart des gnrateurs dtats du
march permettent de planifier lexcution dtats prdfinis tt le matin, aprs le chargement des donnes et avant larrive du personnel. Cette dmarche vise mieux rpartir la
charge de traitement en gnrant la plupart des tats standard en dehors des heures de
pointe. Le data mining grande chelle reprsente galement une lourde charge pour le
matriel, tant du point de vue du volume des donnes que de celui des entres-sorties. Il
faudra alors prvoir des btes de course capables dabsorber dnormes volumes de
donnes, de les ratisser au moyen des outils de data mining les plus scrutateurs et de
retourner des rsultats lanalyse et la conduite de lactivit. Il est donc primordial
dtudier les diffrents types de requtes, parce que lutilisation ad hoc, la gnration
dtats et le data mining ont des profils diffrents et que leurs performances varient selon
les plates-formes.
Comptences techniques. Du point de vue de ladministration, lenvironnement serveur
est comparable lenvironnement gros systme sur le plan conceptuel mais trs diffrent
sur le plan de limplmentation. Nesprez pas pouvoir installer un serveur Unix, ni mme
un systme NT important, si lquipe ne compte aucun expert en ressources systme. La
gestion dun serveur implique des tches et des comptences nombreuses : administration
de base du matriel et des logiciels systmes, connectivit (avec les postes de travail et les
systmes source), comptences en administration de donnes, sauvegardes et restaurations,
etc. Malheureusement, dans ltat actuel de lvolution technologique, il nest pas question
de se contenter de mettre en route les serveurs et de ne plus sen occuper. Du moins pas
encore Choisissez donc les plates-formes matrielles en fonction des comptences
internes, la fois en termes qualitatifs et quantitatifs.
Disponibilit logicielle. Il arrive frquemment que lanalyse des besoins mette en vidence
des fonctionnalits manquantes, par exemple un systme dinformation gographique
permettant de situer les informations de lentrept sur des cartes. Le processus de slection
des logiciels peut rvler que le logiciel de cartographie qui rpond le mieux vos besoins
ne fonctionne que sur une plate-forme graphique haut de gamme ; dans un tel cas, la dcision
sera vite prise !
Ressources financires. Le budget allou un projet dpend gnralement des bnfices
attendus. En matire de data warehouse, cest un peu le problme de luf et de la poule.
Dans le chapitre 3, nous avons parl de la justification. Il est ardu de dcrire et de vanter les
mrites dun entrept avant den avoir mis un en uvre. En terme de matriel, la conclusion est simple : choisissez les plus gros serveurs que votre budget vous permet dacqurir.
Plates-formes matrielles et systmes dexploitation
Dans la mesure o un ordinateur ne fonctionne pas sans systme dexploitation, le matriel et
le systme dexploitation forment un tout. Dans les environnements gros systme, vous navez
pas le choix du systme dexploitation. En revanche, dans le monde des systmes ouverts
chaque constructeur de matriel implmente sa propre version dUnix. Mme NT existe en
plusieurs versions, qui nacceptent pas toutes les logiciels Intel/NT de base en natif. Voici les
principales catgories de combinaisons matriel/systme dexploitation :
Gros systmes. Dernirement, une srie darticles a fait tat dapplications qui regagnaient
lenvironnement gros systme aprs avoir subi un chec dans lenvironnement clientserveur. Le data warehouse est certainement le domaine auquel cette observation ne
sapplique pas. En rgle gnrale, le gros systme nest pas la plate-forme idale pour un
Architecture
PARTIE 3
entrept de donnes et les quelques russites en la matire sont des exceptions : il sagit soit
dentrepts de donnes implments sur gros systme depuis longtemps et dont la migration coterait trop cher, soit dentrepts de donnes qui exploitent un excdent de capacit
du gros systme, entranant ainsi des cots marginaux relativement faibles. Cependant, le
data warehousing sur gros systme est en gnral peu rentable. Les cots relatifs ladministration, au matriel et la programmation sont plus levs que ceux des systmes
ouverts, en partie parce que le gros systme dispose dune infrastructure de traitement des
transactions pousse, qui ne prsente aucun intrt dans le cadre du data warehousing.
En outre, tant donn que le gros systme est essentiellement conu pour grer les transactions, il manque de souplesse sur le plan de la programmation. Les outils et les techniques
sont fiables, mais difficiles exploiter. Lajout de nouvelles sources de donnes, ou mme
la maintenance des extractions existantes, peut tre trs pnible.
Enfin, de nombreuses entreprises sont quipes de gros systmes offrant des capacits limites et nenvisagent aucune extension en vue dapplications nouvelles. Alors si vous avez
de la place, occupez-la ; si vous devez envisager un nouvel investissement, optez pour un
environnement serveur.
Serveurs de systmes ouverts. Les serveurs de systmes ouverts, ou Unix, sont
aujourdhui les plates-formes les plus courantes pour les entrepts de donnes de moyenne
et de grande dimension. Unix est gnralement assez robuste pour grer correctement les
applications de production et pratique le traitement parallle depuis plus de dix ans. Le
march des serveurs Unix est relativement accessible. Dun point de vue fonctionnel, Unix
peut sembler trange aux habitus des gros systmes et aux programmeurs PC par exemple,
la plupart des utilitaires ne sont pas standard. Lquipe du data warehouse devra donc
possder les comptences requises par linstallation et la gestion dun environnement Unix.
Veillez la participation active des administrateurs. Lquipe du data warehouse devra
galement connatre les commandes et les utilitaires Unix pour pouvoir dvelopper et grer
lentrept ; prvoyez des formations le cas chant. Gardez surtout lesprit quUnix n'est
pas un environnement standard et que chaque constructeur propose sa propre version du
systme dexploitation, dote de ses propres particularits.
Serveurs NT. Bien qutant de loin le systme dexploitation connaissant la plus forte
croissance sur le march, NT vient seulement datteindre les capacits ncessaires
limplmentation dun entrept de donnes de taille moyenne. Des plates-formes matrielles NT tendues et viables font leur apparition. Les capacits de traitement parallle ont
longtemps t limites des architectures mono-processeurs et les clusters sous serveur NT
sont oprationnels depuis peu. tant donn les antcdents de Microsoft, on peut penser
que NT va devenir une plate-forme dexploitation puissante ; lheure actuelle, ce systme
nest toutefois pas le mieux adapt aux entrepts de donnes de moyenne et de grande
dimension. Il est en revanche rentable dans le cadre de data warehouses modestes ou de
data marts peupls de donnes atomiques.
Architectures de traitement en parallle
Les constructeurs se sont toujours montrs cratifs en matire de sigles et continuent en
inventer rgulirement de nouveaux. Le march des serveurs offre trois architectures matrielles de traitement parallle, illustres par la figure 11.2 : SMP (Symmetric Multiprocessing), MPP (Massive Parallel Processing) et NUMA (Non-Uniform Memory Architecture).
Ces architectures diffrent dans la manire dont les processeurs interagissent avec les disques
Infrastructure et mtadonnes
CHAPITRE 11
durs, avec la mmoire et entre eux. Les frontires entre ces architectures sestompent mesure
que les constructeurs optimisent leurs offres. Les sections qui suivent voquent lapplication
de ces configurations au data warehouse.
SMP
Processeur
Processeur
Processeur
Processeur
MPP
Processeur
Processeur
Processeur
Processeur
NUMA
Processeur
Processeur
Processeur
Processeur
Figure 11.2
Larchitecture en partage intgral rend les machines SMP bien adaptes aux requtes ad hoc. Dans un
environnement ad hoc, les chemins daccs ne sont pas connus par avance. La nature la fois centralise et partage de larchitecture SMP permet au systme dallouer de la puissance de traitement
lensemble de la base de donnes.
Architecture
PARTIE 3
Les systmes MPP sont frquemment employs pour grer les environnements de requtes prdfinies
ou dtats standard ou encore pour alimenter les data marts en donnes atomiques. Leur cot est rput
lev ; leur administration et leur optimisation sont dlicates. Encore une fois, la base de donnes doit tre
conue pour tirer parti de cette structure matrielle (la conception physique adapte un systme MPP
peut tre trs diffrente de celle conue pour un systme SMP).
Infrastructure et mtadonnes
CHAPITRE 11
march du data warehouse. Du point de vue conceptuel, larchitecture NUMA reprend lide
des clusters de machines du SMP, mais avec des connexions plus serres de la bande
passante supplmentaire et une meilleure coordination des nuds. Sil vous est possible de
segmenter votre entrept de donnes en groupes dutilisation relativement autonomes et de placer
chaque groupe sur son propre nud, larchitecture NUMA vous donnera satisfaction.
Considrations gnrales sur les architectures parallles
Quelle que soit la plate-forme, il est conseill de sinterroger sur la disponibilit des logiciels
et sur la complexit de ladministration des systmes. Voici quelques-unes de ces questions :
Quels sont le type et la version du systme dexploitation requis ? Rappelez-vous notamment quUnix nest pas un standard.
Quelles sont les applications disponibles compatibles avec cette version du systme
dexploitation ? Si lditeur du logiciel que vous voulez acheter na pas port son produit
sur le systme dexploitation que vous utilisez, le logiciel ne fonctionnera pas. Vrifiez
galement si ce dernier est compatible avec votre version du SGBDR, avec vos utilitaires
de base de donnes, avec vos serveurs dapplications, etc.
Facteurs stimulant les performances matrielles
En matire de data warehouse, le dbit des disques et de la mmoire sont importants car les
requtes peuvent solliciter fortement les donnes. En rgle gnrale, une requte adresse un
systme transactionnel retourne un enregistrement unique issu dune table optimise de
manire que lenregistrement se trouve dj dans le cache. En revanche, une requte adresse
un entrept de donnes peut ncessiter lagrgation de milliers denregistrements provenant
de plusieurs tables.
Les disques
Les lecteurs de disques influent fortement sur les performances, la flexibilit et lvolutivit
dune plate-forme matrielle. Le prix des serveurs de disques oscille autour de 400 francs le
gigaoctet. Dans les systmes haut de gamme, les lecteurs sont installs sur un ordinateur autonome ou sur un sous-systme ddi la gestion des accs disque. Ces systmes sont rapides,
volutifs et portables (il est possible de les rutiliser sur dautres serveurs ou avec dautres
systmes dexploitation). On peut les configurer conformment aux standards de scurisation
du stockage des donnes RAID (Redundant Array of Inexpensive Disks) 1 ou 5, afin doptimiser la disponibilit de lentrept de donnes. Sachez que les bases de donnes ont besoin de
gros volumes de mmoire temporaire pour effectuer les tris, les jointures et les agrgats. Ce
volume doit rsider sur des lecteurs et des contrleurs performants mais na pas besoin dtre
plac en miroir (ce qui reviendrait plus cher). Ces systmes de lecteurs peuvent tre remplacs
chaud, ce qui rduit la dure dindisponibilit en cas de problme. La redondance et
lchange chaud sont importants dans la mesure o les lecteurs sont les composants les plus
sujets aux pannes. Les sous-systmes de lecteurs de disques cotent plus cher mais sont rentables long terme. Prvoyez au dpart assez despace disque pour un ou deux ans et grez
votre expansion en fonction des besoins et des baisses de prix.
La mmoire
Plus un data warehouse dispose de mmoire, mieux cest ; voici une diffrence supplmentaire entre laide la dcision et le traitement transactionnel. Les requtes sur les transactions
10
Architecture
PARTIE 3
sont gnralement peu gourmandes en mmoire. Les requtes daide la dcision sont plus
exigeantes et impliquent souvent plusieurs passes dans des tables volumineuses. Si la
mmoire contient la totalit de la table interroge, les performances peuvent thoriquement
tre multiplies par un facteur compris entre 10 et 100. Cest lun des gros avantages des
plates-formes 64 bits. Les systmes 32-bits sont limits 2 gigaoctets (parfois 4), tandis que
les processeurs 64-bits sont capables dadresser un espace mmoire plus important. Remarquez au passage que pour que le 64-bits soit effectif, lordinateur, son systme dexploitation
et la base de donnes doivent galement tre en 64-bits.
ASTUCE
La tentation de favoriser la mmoire au dtriment des disques revient rgulirement lordre du jour, en
raison de la diffrence des temps daccs. Un accs disque prend environ 10 millisecondes, tandis quun
accs mmoire est 100 fois plus rapide (0,1 milliseconde). Cependant, le traitement des donnes dune
base en mmoire ne sera pas pour autant 100 fois plus rapide, car de nombreux autres facteurs entrent en
ligne de compte : antlecture de disque et mmoire cache sur le contrleur ou dans le systme dexploitation. Nanmoins, vous pouvez multiplier les performances dun entrept de donnes par un facteur compris
entre 10 et 30 en ajoutant simplement de la mmoire la configuration de la base de donnes.
Infrastructure et mtadonnes
CHAPITRE 11
systmes dexploitation et sur dautres versions dUnix. Bien entendu, il peut tre judicieux
dattendre une nouvelle version ; les premiers acqureurs font office de cobayes
ASTUCE
Plus votre plate-forme sera loigne de celle du produit initial, plus la nouvelle version sera longue
venir ; de plus, le support spcifique dont vous pourrez bnficier sera moindre.
Les serveurs dapplications requirent des plates-formes Unix ou NT. Certains produits
daccs aux donnes sont livrs avec un composant serveur dapplications qui doit obligatoirement sexcuter sur une plate-forme serveur. Si lentrept de donnes comporte dj
des serveurs, les serveurs dapplications peuvent partager la plate-forme existante, ce qui
vous vite dengager des investissements supplmentaires. Lide nest peut-tre pas excellente long terme, mais elle simplifie le dmarrage. Nous voquons galement les serveurs
dapplications dans la section de ce chapitre consacre aux outils frontaux (front room).
Souplesse. Lenvironnement serveur est moins svrement gard que le gros systme,
notamment si le serveur est ddi lentrept de donnes. Lquipe locale pourra accder
directement lentrept de donnes pour tester de nouveaux scnarios, construire de
nouvelles tables, etc., sans dpendre de ressources distantes.
Considrations relatives la plate-forme de la base de donnes
Dans le monde du data warehouse, le choix de la plate-forme de la base de donnes est ultrasensible. Il existe plus dune dizaine de possibilits ; chacune delles offre des exemples
dimplmentations de data warehouses russies et est dfendue par ses supporteurs. En dehors
des produits les plus connus, la plupart des entreprises du secteur des langages de quatrime
gnration (L4G) ont des offres de data warehouse. Certains entrepts sont implments
laide de produits gros systme, dautres au moyen de bases de donnes multidimensionnelles
spcialises nommes moteurs MOLAP (Multidimensional On-Line Analytical Processing).
Les facteurs qui guident votre dcision en matire de matriel sappliquent galement au
choix de la plate-forme de la base de donnes. Notre exprience nous dit que votre dcision
dpend des spcificits de votre situation. Commencez par faire votre choix entre les bases de
donnes relationnelles et leurs homologues multidimensionnelles.
Base de donnes relationnelle ou multidimensionnelle ?
Daprs les chiffres, le dbat principal oppose les bases de donnes relationnelles aux bases
de donnes dimensionnelles, les premires menant la danse. Depuis quelques annes, le
march de laide la dcision est le thtre de discussions visant dterminer lapproche
convenant le mieux au traitement analytique. Le dbat est passionn mais apporte malheureusement peu de rponses.
Le problme devient plus facile apprhender sous langle des besoins mtier. Les bases de
donnes multidimensionnelles, galement baptises moteurs MOLAP, sont apparues pour
rpondre trois besoins essentiels des utilisateurs : simplicit de laccs aux donnes, tats de
type tableau crois et temps de rponse faibles. Certains ont dvelopp des bases de donnes
spcialises parce que les bases de donnes relationnelles standard et leurs anctres taient
incapables de satisfaire ces trois exigences. La majeure partie des produits MOLAP existent
depuis une dizaine dannes. Les sections suivantes mettent en lumire les avantages et les
inconvnients des deux solutions.
11
12
Architecture
PARTIE 3
Si vous avez dcid de fonder votre entrept de donnes sur une plate-forme relationnelle et si votre
projet est de faible ou de moyenne envergure, il serait absurde denvisager des solutions nappartenant
pas la tendance gnrale du march des SGBDR.
De toute faon, il est extrmement intressant de vous renseigner sur les implmentations
existantes et de vous livrer quelques tests. Identifiez quelques tats un peu dlicats, comportant notamment des jointures multiples entre plusieurs tables, et voyez ce quils donnent. En
rgle gnrale, les constructeurs mettent votre disposition des ressources pour vous aider
dans ce processus de test. Profitez des ventuelles expriences internes de slection de
produits acquises dans le cadre de projets informatiques antrieurs.
ASTUCE
Certaines bases de donnes relationnelles sont spcialement conues pour grer les configurations de
bases de donnes et les requtes de type data warehouse. Elles sont plus rapides que les principaux
SGBDR et sont intressantes (presque obligatoires, en fait) pour les entrepts de donnes de grande
envergure.
Partant du principe de la prsence dun data mart de donnes atomiques sur une plate-forme SGBDR,
limplmentation dun moteur MOLAP signifie que vous aurez un environnement distinct administrer et
que celui-ci aura probablement besoin dun serveur ddi.
Le principal avantage du moteur MOLAP rside dans les performances des requtes. Les faits
correspondant toutes les combinaisons de dimensions valides sont prstocks. Les temps de
rponse sont tonnants. En contrepartie, le stockage de tous ces agrgats accrot le volume des
donnes. Or, le volume de donnes quil est possible de stocker dans une base de donnes
multidimensionnelle est, pour des raisons historiques, limit 10 gigaoctets ; les constructeurs font leur possible pour rsoudre ces restrictions portant sur le stockage physique. Une
limitation subsiste nanmoins, impose par la dure ncessaire au chargement de nouvelles
Infrastructure et mtadonnes
CHAPITRE 11
Au moment o nous crivons ces lignes, les fonctionnalits de forage des SGBDR de type SQL via des
moteurs MOLAP peuvent tout au plus tre qualifies de rudimentaires. Ce problme de liaison entre les
moteurs MOLAP et lenvironnement relationnel est la raison pour laquelle nous prconisons le stockage
des donnes dtailles au sein dun modle dimensionnel. Si ces deux niveaux reprsentent des conceptions radicalement diffrentes, il sera difficile de fournir un accs performant aux donnes dtailles.
Mettez en concurrence les diffrents produits MOLAP et confrontez-les aux besoins des utilisateurs en procdant des tests dutilisation. Les solutions postes de travail, lgres, peuvent
sembler intressantes court terme mais risquent de gnrer, au fil du temps, plus de travail
que de valeur ajoute. Lquipe charge du data warehouse doit valuer avec soin les limitations et les fonctionnalits des produits. Lvolutivit doit tre privilgie.
ASTUCE
Sur le plan de lvolutivit, linconvnient majeur des produits MOLAP rside actuellement dans la limitation du volume des donnes en entre pour la table des faits principale et du nombre de lignes dans les
dimensions. Dbut 1998, ces limitations tournaient autour de 5 gigaoctets de donnes en entre et de
300 000 lignes dans la dimension la plus importante.
13
14
Architecture
PARTIE 3
trs nombreux et trs diffrents. La meilleure tactique consiste interroger trs tt les constructeurs sur les dtails de leurs configurations. Voici quelques questions cls poser :
Mmoire. Combien de mmoire faut-il prvoir ? Quel est le temps de formation ncessaire
une utilisation efficace ?
Disque. Quels facteurs dterminent lutilisation du disque ? Quelle capacit faut-il envisager ?
Partage de plate-forme. Est-il possible dexcuter plusieurs services sur la mme plateforme matrielle ? Dans ce cas, comment se comportent les performances ? Quels sont les
compromis envisager ? Certains produits ont-ils une compatibilit rduite ?
Goulets dtranglement. quoi les goulets dtranglement du systme sont-ils dus ?
quoi les ralentissements du systme sont-ils dus ? Le produit est-il rellement multithread ?
Peut-il vraiment excuter plusieurs processus simultanment ? Quels seraient les avantages
de linstallation de plusieurs processeurs ? Combien dutilisateurs simultans le produit
peut-il grer ?
Poste de travail
La puissance du poste de travail dpend de son utilisateur et de ses besoins en matire doutils.
Lutilisateur occasionnel qui se contente de quelques tats HTML quil consulte partir de
son navigateur favori sera satisfait si on lui fournit assez de puissance pour lancer son navigateur Web. lautre extrme, lutilisateur aguerri qui construit des requtes complexes et lance
des analyses personnalises devra tre quip dun ordinateur beaucoup plus puissant. Vous
trouvez ci-dessous des conseils qui vous aideront configurer le poste de travail.
Support inter-plate-forme
Dans certaines entreprises, le service marketing compte encore des inconditionnels du
Macintosh ; dautres socits utilisent des stations de travail Unix pour les tudes et pour la
production. Le support de plates-formes multiples entrane une lourde tche pour lquipe
charge des outils frontaux. Les problmes dinstallation et de support varient dune plateforme lautre et lquipe doit tre comptente dans tous les domaines. Dautre part, les
problmes ne prennent pas fin une fois que les logiciels sont installs. Il est souvent ncessaire
de crer les tats sur chaque plate-forme, ce qui peut multiplier par deux le travail de dveloppement et de maintenance. Les concepteurs doutils frontaux sont peu nombreux supporter
dautres plates-formes que le duo Windows/Intel. Si vous tes oblig de supporter plusieurs
plates-formes poste de travail, le processus de slection des outils daccs aux donnes sen
trouvera simplifi.
Systme dexploitation du poste de travail
Mme si tous les utilisateurs emploient la mme base matrielle, cela ne signifie pas que tous
seront compatibles avec les logiciels client car la version du systme dexploitation peut tre
inadapt. Renseignez-vous sur la version du systme dexploitation requise par vos outils et
vrifiez quelle correspond bien la ralit.
ASTUCE
Dans le monde Windows, si vos utilisateurs ne disposent pas de Windows 95 et versions ultrieures ou de
NT 4 et versions ultrieures, vous pouvez vous attendre des problmes.
Infrastructure et mtadonnes
CHAPITRE 11
15
16
Architecture
PARTIE 3
Connectivit et rseau
La connectivit et le rseau relient les outils darrire-plan (back room) et les outils frontaux
(front room). En rgle gnrale, la connectivit est un composant de linfrastructure. tant
donn quelle constitue un prrequis la mise en uvre de nimporte quel application clientserveur, le travail prparatoire est gnralement dj termin. La plupart des entreprises
possdent un rseau local (LAN) ou un groupe de rseaux locaux interconnects, ainsi quune
quipe charge de les faire fonctionner. Si ce nest pas le cas dans votre socit, il est urgent
de mettre en place un groupe de travail afin dvaluer les besoins. Plusieurs autres problmes
de connectivit que vous risquez de rencontrer sont numrs ci-dessous.
Bande passante
Il est souvent judicieux disoler la base de donnes et les serveurs dapplications sur un rseau
local haut dbit ddi (Ethernet ou FDDI 100 Mo/s). Cette configuration procure la bande
passante ncessaire au transfert de gros volumes de donnes avec des performances optimales.
Accs distance
Si vous avez affaire des utilisateurs distants, il est entendu que ceux-ci devront pouvoir
accder lentrept de la mme manire que les utilisateurs locaux. Prvoyez cet effet une
connexion large bande passante, fiable, entre le rseau local des utilisateurs distants et celui
qui hberge la base de donnes et les serveurs dapplications.
La bande passante prend de limportance en raison de la mutation des outils frontaux. De
nombreux outils permettent prsent de dfinir un sous-ensemble de donnes particulirement
intressant, de le rcuprer et de lanalyser en local. Une telle opration reprsente un flux de
donnes descendant assez considrable. Aprs avoir valu les besoins, contactez lquipe
rseau afin de dterminer si la bande passante prvue pour ces connexions est suffisante.
Si vos utilisateurs distants ne sont pas regroups en rseau local, vous devrez mettre en place
un accs par les lignes tlphoniques. Effectuez des tests de performances pousss et lisez
attentivement le chapitre 12, qui traite de la scurit.
Passerelles
La plupart des constructeurs de bases de donnes proposent des passerelles, qui permettent
dtablir des liens avec les bases de donnes concurrentes et avec les sources de donnes de
production. La mise en uvre dune passerelle sera par exemple trs utile pour accder aux
donnes localises dans dautres base de donnes de lentrept. Certains middleware offrent
galement ce type de connectivit et y ajoutent la possibilit de combiner les donnes en
provenance de plusieurs sources au moyen de jointures htrognes. Ces passerelles ont
tendance tre assez lentes ; elles rendent particulirement service dans le cadre des importations batch et de recherches dans les petites tables. Faites des tests grandeur nature pour vrifier
quelles ne seffondrent pas.
Transfert de fichiers
Il existe un large ventail de protocoles de transfert de fichiers et de programmes chargs de
les implmenter. Le principal est le protocole FTP (File Transfer Protocol), qui est un utilitaire de transfert de donnes universel. FTP remonte aux dbuts de lInternet ; il offre des
services de transfert de fichiers entre les ordinateurs relis lInternet, quel que soit leur type.
Infrastructure et mtadonnes
CHAPITRE 11
Ses fonctionnalits de base sont ltablissement des connexions entre ordinateurs et le transfert de fichiers squentiels via cette connexion. Lun des protocoles les plus rcents, SSL
(Secure Sockets Layer), mane de Netscape. Il prsente lavantage dinclure une fonction de
cryptage des donnes transmises, qui permet de scuriser les informations sensibles. SSL est
trs largement implant dans le monde Unix, dans lequel il scurise les transactions entre les
navigateurs Web et les serveurs. SSL a t soumis lIETS (Internet Engineering Task Force)
afin quil soit dclar protocole standard.
Connectivit des bases de donnes
La connectivit des bases de donnes fait gnralement partie de loffre des outils frontaux.
La plupart des fournisseurs proposent plusieurs possibilits de connexion, dont, pour presque
toutes les bases de donnes, le mode natif. Il existe toutefois quelques standards en matire de
connectivit de base de donnes, notamment ODBC (Open Database Connectivity), originellement dvelopp par Microsoft, et JDBC (Java Database Connectivity), initialement conu
par JavaSoft. ODBC est une mthode standard daccs aux bases de donnes qui permet
daccder nimporte quel type de base de donnes depuis nimporte quelle application.
ODBC insre une couche charge de traduire les requtes en provenance de lapplication en
commandes comprhensibles par la base de donnes. Historiquement, ODBC est devenu un
pilote de connectivit de second ordre parce que beaucoup dimplmentations spcifiques
nont pas donn daussi bons rsultats que lutilisation du mode natif. Toutefois, des pilotes
plus puissants existent aujourdhui et la popularit dODBC augmente. JDBC a profit de
lvolution dODBC et est de plus en plus employ.
Entre-temps, le march volue. Microsoft a cr une nouvelle srie de standards de connectivit sous le sigle OLE DB, qui promettent damliorer encore la connectivit des bases de
donnes.
Service dannuaire
Votre infrastructure de rseau doit prvoir des fonctionnalits destines attribuer des noms
aux htes et assurer lindpendance des adresses. Au dpart, lInternet et/ou les intranets
dpendent dun DNS (Domain Name Service), qui recherche un nom dans une liste et
retourne ladresse IP (Internet Protocol) correspondante. Cela vous permet dassigner un nom
ladresse IP de votre serveur de base de donnes et de configurer vos outils frontaux de
manire quils se servent de ce nom. Le nom du serveur est ensuite dynamiquement converti
en adresse IP, celle de lordinateur o rside la base de donnes. Si vous dplacez la base sur
un autre ordinateur, il suffit de modifier lentre correspondante dans la liste du DNS. Cette
conversion se produit chaque fois que vous utilisez un navigateur Web pour vous rendre sur
un site quelconque. Lorsque vous tapez www.nomdusite.com, ce nom est converti en adresse IP
par un serveur DNS avant que la demande de page soit envoye au site concern.
Il existe des services dannuaire plus complexes : les annuaires X.500 ou LDAP (Lightweight
Directory Access Protocol). Ils hbergent des informations bien plus riches que les simples
adresses IP. Ils peuvent concerner plusieurs types de donnes : noms et adresses, adresses email, listes tlphoniques et annuaires de matriel (imprimante, ordinateur, etc.). Ces
annuaires peuvent servir de liste dinventaire pour le recensement des serveurs, dannuaire des
utilisateurs pour la mise disposition des donnes, de listes de diffusion pour les tats standard, etc. Dans le chapitre 12, nous vous incitons centraliser ladministration de votre configuration ( logons , etc.) au moyen dun serveur dannuaire LDAP.
17
18
Architecture
PARTIE 3
Infrastructure et mtadonnes
CHAPITRE 11
19
20
Architecture
PARTIE 3
Infrastructure et mtadonnes
CHAPITRE 11
Mtadonnes SGBD
Aprs avoir transfr les donnes dans le SGBD du data warehouse ou du data mart, un autre
groupe de mtadonnes entre en scne :
contenu des tables du SGBD ;
paramtres de partitionnement ;
index ;
spcifications de rpartition des donnes sur plusieurs disques ;
priorits de traitement
droits et privilges daccs au SGBD ;
dfinition des vues ;
procdures stockes et scripts dadministration SQL ;
tat des sauvegardes du SGBD, procdures de sauvegarde et scurit des sauvegarde.
21
22
Architecture
PARTIE 3
Infrastructure et mtadonnes
CHAPITRE 11
Figure 11.3
Outil de
modlisation
(1) Modle de
lentrept
Figure 11.4
Capture de la dfinition
des sources et rapprochement avec les cibles.
Outil de
modlisation
(1) Modle de
lentrept
(2) Dfinitions
des sources
Modle
logique
Dfinitions
des sources
Rapprochements
source/cible
(3) Dfinitions
des tables
Systmes
source
(4) Rapprochements
source/cible
Outil de
prparation
des
donnes
23
24
Architecture
PARTIE 3
Notez que le processus de cration de ces rapprochements, ltape 3, consiste essentiellement dfinir des relations entre des mtadonnes existantes. Le plus gros du travail a t
accompli lors de la construction du modle de donnes ; nous pouvons mettre en place autant
de rapprochements que nous le souhaitons et les stocker dans le catalogue des mtadonnes.
Lorsque toutes ces dfinitions sont compltes, nous pouvons commencer charger les
donnes, comme le montre la figure 11.5. Au cours de ltape 5, loutil de prparation des
donnes interroge les mtadonnes afin de rcuprer les informations requises : type et
localisation des donnes source, type et localisation des donnes cible, rapprochements
entre les deux.
Figure 11.5
tapes 5 8 :
extraction, transformation et chargement.
Outil de
modlisation
(1) Modle de
lentrept
(2) Dfinitions
des sources
Modle
logique
Dfinitions
des sources
Rapprochements
source/cible
Outil de
prparation
des
donnes
Data
warehouse
Infrastructure et mtadonnes
CHAPITRE 11
Nous pouvons galement interroger la base de donnes cible au cours de ltape 5a pour rcuprer des informations sur ltat physique du systme, notamment sur lespace disque disponible. Au cours de ltape 6, nous procdons lextraction proprement dite des sources de
donnes brutes et dans ltape 7, nous chargeons les donnes transformes dans lentrept.
Ltape 8 capture des statistiques et des informations de surveillance relatives la charge et
les enregistre dans le catalogue des mtadonnes.
Nous avons donc russi charger des donnes ; les utilisateurs brlent dimpatience de les
exploiter, mais il faudrait quils disposent dindications sur leur contenu. Heureusement,
lensemble des informations de lentrept est dcrit dans le modle des donnes. Tout y est :
nom des colonnes et des tables, descriptions et exemples de valeurs. Toutefois, avant douvrir
grand les portes, il convient de donner lentrept un abord plus mtier . Une liste des
tables et des colonnes classes par ordre alphabtique ne suffira pas, car lutilisateur raisonne
en types dactivits et non par ordre alphabtique Les regroupements oprer dcoulent de
la table des faits. Les outils frontaux et les serveurs dapplications permettent habituellement
de gnrer ces mtadonnes.
Les mtadonnes utilisateur sont maintenant prtes ; ltape 9 montre lintrt dun outil Web
destin exploiter les mtadonnes. Lutilisateur peut consulter les types dactivits, identifier
les tables qui appartiennent tel ou tel type dactivit et mme consulter leur contenu. En
outre, laide dun simple outil de recherche, lutilisateur peut rechercher les noms ou les
descriptions de colonnes et de tables contenant par exemple le mot vente ou le mot recette.
Quand les utilisateurs ont trouv les donnes quils recherchent, ils peuvent formuler une
requte et la soumettre la base de donnes (tape 10). Remarquez au passage que la requte
sappuie aussi sur les descriptions physiques des tables et des colonnes, rcupres ltape 9,
pour gnrer la syntaxe correcte. Ltape 11 envoie le rsultat lutilisateur ; ltape 12 est
prise en charge par un bon outil de requte capable de gnrer un certain nombre dinformations relatives lutilisation.
Cette progression illustre le rle central du catalogue des mtadonnes dans le contexte dun
entrept de donnes simple. Vous remarquerez par ailleurs que sur les douze tapes dcrites,
seulement trois impliquent les donnes ; toutes les autres concernent les mtadonnes. Remarquez galement que, dans certains cas, des composants dune seule et mme mtadonne
apparaissent en diffrents endroits. Par exemple, le modle que nous avons cr dans ltape 1
contient les dfinitions des tables physiques. Loutil daccs aux donnes sen sert lors du
rapprochement source/cible puis, plus tard, pour transformer et charger les donnes. Enfin,
loutil de requte et le serveur dapplications ont besoin de connatre les dfinitions des tables
physiques pour formuler de bonnes requtes.
La liste des mtadonnes et lexemple de flux ont finalement russi vous donner une vue
densemble de ces fameuses mtadonnes. Mais est-il vraiment ncessaire de suivre un tel
cheminement ? Nous pensons que oui. Cette liste de mtadonnes est la charpente de votre
entrept de donnes. Le simple fait den laborer la liste apporte une aide. La liste est longue,
mais elle permet didentifier le type, lintrt et le lieu de stockage de chaque mtadonne.
La modration est toutefois de mise. En effet, la plupart de ces mtadonnes doivent rsider
sur des ordinateurs situs prs des lieux o les tches se droulent. Les programmes, les paramtres et les spcifications qui pilotent les processus doivent connatre des destinations
certaines et des formats certains, et cela ne va pas changer dans les prochains temps.
25
26
Architecture
PARTIE 3
Outil de
modlisation
(1) Modle de
lentrept
(2) Dfinitions
des sources
Modle
logique
Dfinitions
des sources
Rapprochements
source/cible
(9) Descriptions
mtier (noms
et contenu
des tables et
des colonnes,
exemples de
valeurs, etc.)
(4) Rapprochements
source/cible
(5) Informations de
rapprochement et
de transformation
Systmes
source
(8) Statistiques de
chargement
Outil de
prparation
des
donnes
Outils
frontaux
(11) Donnes
Data
warehouse
Figure 11.6
Infrastructure et mtadonnes
CHAPITRE 11
lentrept, du modle initial la navigation et laccs aux donnes en passant par les extractions rcurrentes et les processus de chargement, devraient faire appel au catalogue des mtadonnes. Malheureusement, une mise en uvre aussi parfaite est impossible lheure
actuelle ; nous considrerons donc le catalogue des mtadonnes comme un concept logique
rparti dans plusieurs emplacements physiques.
ASTUCE
Procurez-vous un outil pour cataloguer et suivre toutes ces mtadonnes. Il ne sera probablement pas
capable de lire et dcrire toutes les mtadonnes directement mais, tant donn leur parpillement, il
vous aidera au moins grer.
Il existe heureusement une catgorie doutils, judicieusement nomms outils pour catalogues
de mtadonnes, qui se consacrent cette tche. Le site Web de Larry Greenfield en fournit
une liste intressante ladresse http :/pwp.starnetinc.com/larry/catalog.html.
Lquipe du data warehouse doit envisager lacquisition doutils de maintenance en vue
dadministrer les mtadonnes du catalogue non gres par les outils et les services en place.
Par exemple, les commentaires saisis par les utilisateurs, les hirarchies personnalises ou les
spcifications qui accompagnent les data marts personnels peuvent ne pas tre pris en charge
par les produits existants et ncessiter la mise en place dun service spcifique.
Dans lenvironnement du catalogue des mtadonnes, une autre fonctionnalit pourra tre
mise en uvre afin de crer des RPC (Remote Procedure Calls), qui procureront aux systmes
source et aux outils de navigation un accs direct aux mtadonnes.
Enfin, les services de prparation et daccs aux donnes doivent tre en mesure dexploiter
les mtadonnes relatives la scurit. Celles-ci doivent tre dveloppes et maintenues au
moyen dun outil ou dune fonction quelconque. Il sagit dajouter et de supprimer des utilisateurs et des groupes dutilisateurs, dassigner des droits daccs ces utilisateurs et ces
groupes, etc. Ces mtadonnes doivent galement tre intgres aux tables de scurit de la
plate-forme de la base de donnes (encore des mtadonnes !).
La maintenance du catalogue des mtadonnes implique un certain nombre de fonctions et de
services :
intgration et fusion des informations du catalogue (depuis le modle de donnes vers la
base de donnes, puis vers les outils frontaux) ;
administration des mtadonnes (suppression des entres inutilises ou obsoltes) ;
capture des mtadonnes existantes (DDL du gros systme ou autres sources) ;
gestion et prsentation de graphiques et de tableaux illustrant le contenu du catalogue des
mtadonnes (le navigateur de mtadonnes) ;
maintenance des profils utilisateur au profit des applications et de la scurit ;
scurit du catalogue des mtadonnes ;
gestion locale ou centralise du catalogue des mtadonnes.
Ayant pris les premires dispositions pour regrouper et contrler nos mtadonnes, pouvonsnous esprer nous tourner vers des outils encore plus puissants qui rassembleront les mtadonnes en un lieu unique et qui seront capables de les lire et de les crire ? Ce type doutil nous
apporterait une interface utilisateur uniformise, apprciable dans un cadre aussi disparate, et
nous permettrait en outre de prendre des instantans cohrents de toutes les mtadonnes dun
seul coup (puis de les sauvegarder, de les scuriser et de les restaurer en cas de besoin).
27
28
Architecture
PARTIE 3
notre avis, ce type doutil nest pas prs dinonder le march. Le problme est trs
complexe ; la prise en compte de toutes les formes de mtadonnes requiert un type dintgration entre les systmes qui nexiste pas encore. Nous sommes convaincus que la Metadata
Coalition (un groupe de constructeurs qui sest attel la rsolution du problme des mtadonnes) ralisera des progrs intressants dans la dfinition dune syntaxe et dune smantiques communes pour les mtadonnes. Signalons toutefois que ce groupe a vu le jour en
1995 Malheureusement, Oracle et Microsoft, qui sont les deux grands du SGBD, ont dcid
de ne pas sassocier cette initiative et ont fait la promesse de publier leurs propres standards
de mtadonnes propritaires. Si les avantages de ces standards sont assez importants pour
attirer dautres fournisseurs, nous pouvons esprer que le problme des mtadonnes sera
rsolu une bonne fois pour toutes.
En rsum
Linfrastructure et les mtadonnes sont les fondations du data warehouse. Une infrastructure
insuffisante ou des mtadonnes trop limites et ngliges risquent daffaiblir lentrept entier.
Il ne sert rien de produire des donnes parfaites si vous ne parvenez pas les acheminer
jusquau poste de travail de lutilisateur sous une forme fiable, comprhensible et prvisible.