Vous êtes sur la page 1sur 18

1

1
Le Data
Le Data
Warehouse
Warehouse
et les Systmes
et les Systmes
Multidimensionnels
Multidimensionnels
Copyright J. Akoka - I. Comyn-Wattiau
2
1. Dfinition dun Datawarehouse (DW)
Le Datawarehouse est une collection de donnes
orientes sujet, intgres, non volatiles et historises,
organises pour le support d un processus d aide
la dcision (Inmon, 94).
2
Copyright J. Akoka - I. Comyn-Wattiau
3
1. Dfinition dun Datawarehouse
1. 1 Donnes orientes sujet
Donnes structures par thmes (sujets majeurs de
lentreprise) et non suivant les processus fonctionnels.
Le sujet est transversal aux structures fonctionnelles et
organisationnelles de lentreprise. On peut accder aux
donnes utiles sur un sujet.
Lintgration des diffrents sujets se fait dans une
structure unique.
Copyright J. Akoka - I. Comyn-Wattiau
4
1. Dfinition dun Datawarehouse
1. 1 Donnes orientes sujet
Il n y a pas de duplication des informations communes
plusieurs sujets.
La base de donnes est construite selon les thmes qui
touchent aux mtiers de lentreprise (clients, produits,
risques, rentabilit, ).
Les donnes de base sont toutefois issues des Systmes
dInformation Oprationnels (SIO).
3
Copyright J. Akoka - I. Comyn-Wattiau
5
1. Dfinition dun Datawarehouse
1. 2. Donnes intgres
Les donnes, issues de diffrentes applications de
production, peuvent exister sous toutes formes diffrentes.
Il faut les intgrer afin de les homogniser et de leur
donner un sens unique, comprhensible par tous les
utilisateurs.
Elle doivent possder un codage et une description unique.
Copyright J. Akoka - I. Comyn-Wattiau
6
1. Dfinition dun Datawarehouse
1. 2 Donnes intgres
La phase dintgration est longue et pose souvent des
problmes de qualification smantique des donnes
intgrer (synonymie, homonymie, etc).
Ce problme est amplifi lorsque des donnes externes
sont intgrer avec les donnes du SIO.
4
Copyright J. Akoka - I. Comyn-Wattiau
7
1. Dfinition dun Datawarehouse
1. 3 Donnes non-volatiles
Une information est considre volatile quand les
donnes sont rgulirement mises jour comme dans les
Systmes dInformation Oprationnels.
Dans un SIO, les requtes portent sur les donnes
actuelles. Il est difficile de retrouver un ancien rsultat.
Dans un DW, il est ncessaire de conserver l historique
de la donne. Ainsi, une mme requte effectue deux
mois dintervalle en spcifiant la date de rfrence de la
donne, donnera le mme rsultat.
Copyright J. Akoka - I. Comyn-Wattiau
8
1. Dfinition dun Datawarehouse
1. 4 Donnes historises
Dans un SIO, les transactions se font en temps rel, et les
donnes sont mises jour constamment. L historique des
valeurs de ces donnes sont conserves car elles sont
inutiles.
Dans un DW, la donne nest jamais mise jour.
Les donnes du DW s ajoutent aux donnes dj
engranges.
5
Copyright J. Akoka - I. Comyn-Wattiau
9
1. Dfinition dun Datawarehouse
Le DW stocke donc lhistorique des valeurs que la
donne aura prises au cours du temps.
Un rfrentiel de temps est alors associ la donne afin
dtre capable didentifier une valeur particulire dans le
temps.
Les utilisateurs possdent un accs aux donnes
courantes ainsi qu des donnes historises.
1. 4 Donnes historises
Copyright J. Akoka - I. Comyn-Wattiau
10
1. Dfinition dun Datawarehouse
1. 5 Support d un processus d aide la dcision
Un DW est un systme d information ddi aux applications
dcisionnelles dont les principales contraintes sont :
des requtes complexes plusieurs niveaux d agrgation
la ncessit de disposer d informations synthtiques
( reporting de gestion, analyse des ventes, gestion de la
masse salariale, etc)
le stockage des donnes sous une forme multi-
dimensionnelle
des mises jour priodiques
6
Copyright J. Akoka - I. Comyn-Wattiau
11
2. Objectifs dun Datawarehouse
permet le dveloppement d applications dcisionnelles et de
pilotage de l entreprise et de ses processus
joue un rle de rfrentiel pour l entreprise puisqu il permet de
fdrer des donnes souvent parpilles dans diffrentes bases de
donnes
offre une vision globale et oriente mtiers de toutes les donnes que
manipule l entreprise
permet de faire face aux changements du march et de l entreprise
offre une information comprhensible, utile et rapide
Copyright J. Akoka - I. Comyn-Wattiau
12
3. Architecture dun Datawarehouse
Bases
multidimensionnelles
Datamarts
Outil frontal
OLAP
Outils
multidimensionnels
MOLAP
Requeteur
ou tableau
Outil ROLAP
Bases de
production Extraction
Transformation
Chargement
Rafrachissement
Bases externes
Data Warehouse Dictionnaire
Outils
dadministration
7
Copyright J. Akoka - I. Comyn-Wattiau
13
3. Architecture dun Datawarehouse
3. 1 Les Bases de Donnes
Bases de production de lentreprise
Bases cres par les utilisateurs
Bases de donnes externes lentreprise (Nielsen,
INSEE, ) qui ncessitent leur identification, leur
rapatriement et leur intgration.
Copyright J. Akoka - I. Comyn-Wattiau
14
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
Extraire les donnes de leur environnement dorigine
(bases de donnes relationnelles, fichiers plats, ).
Utiliser une technique approprie pour n extraire que
les donnes ncessaires : donnes cres ou modifies
depuis la dernire opration dextraction.
EXTRACTION
8
Copyright J. Akoka - I. Comyn-Wattiau
15
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
Une mme donne peut avoir une structure ou une valeur
diffrente en fonction de la base (production, externe,
utilisateurs) dont elle provient.
On peut tre confront des redondances (un mme
client peut apparatre avec diffrents attributs et
proprits selon la source consulte).
TRANSFORMATION
Copyright J. Akoka - I. Comyn-Wattiau
16
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
Il faut supprimer certaines donnes aberrantes qui
risqueraient de fausser les analyses.
Il faut donc purer et transformer les donnes.
TRANSFORMATION
9
Copyright J. Akoka - I. Comyn-Wattiau
17
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
Effectuer sur les donnes des oprations de calcul et
dagrgation.
Remplacer certaines bases si aucune solution
dextraction satisfaisante nest possible.
CHARGEMENT/RAFRAICHISSEMENT
Copyright J. Akoka - I. Comyn-Wattiau
18
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
Mettre en place des procdures de chargement
(nocturnes?) et de restauration (en cas de problme).
Si la disponibilit du systme ne peut tre interrompue,
envisager la mise en place de systmes redondants.
CHARGEMENT/RAFRAICHISSEMENT
10
Copyright J. Akoka - I. Comyn-Wattiau
19
3. Architecture dun Datawarehouse
3. 2 Oprations sur les donnes
On peut automatiser tout ou partie des oprations dcrites.
Des outils sont disponibles : Extract dETI, Genio de
Leonard s Logic,
Le dveloppement doutils spcifiques est envisageable
mais risque d alourdir les tches.
LES OUTILS
Copyright J. Akoka - I. Comyn-Wattiau
20
3. Architecture dun Datawarehouse
3. 3 Dictionnaire de Donnes
Le dictionnaire de donnes regroupe les mta-donnes.
Une mta-donne reprsente une donne sur les donnes.
Il sagit de lensemble des informations qui permettent de
qualifier une donne, notamment par sa provenance, sa
qualit, etc
les mta-donnes permettent de prciser de quelle table
provient la donne, quelles dates et heures elle en a t
extraite, ltat de la base cet instant, etc...
11
Copyright J. Akoka - I. Comyn-Wattiau
21
3. Architecture dun Datawarehouse
3. 3 Dictionnaire de Donnes
Une mta-donne permet de remonter la chane et de
reconstituer lensemble dvnements et donnes qui ont servi
obtenir linformation associe.
Le dictionnaire de donnes contient toutes les informations
permettant dexploiter les donnes.
Cest un rfrentiel destin aux utilisateurs et ladministrateur
du DW.
A ce jour, il nexiste pas de normes en ce qui concerne la
structure et la gestion des dictionnaires de donnes. Chaque outil
propose sa solution et son approche.
Copyright J. Akoka - I. Comyn-Wattiau
22
3. Architecture dun Datawarehouse
3. 4 Les Data-Marts
Un data-mart est un DW focalis sur un sujet particulier, souvent
au niveau dpartemental ou mtier.
C est donc un mini DW li un mtier particulier de l entreprise
(finance, commercial, ).
Un DW est souvent volumineux (plusieurs centaines de Go voire
quelques To ) avec des performances inappropries (temps de
rponse trop longs). Un Data-mart, quant lui, comporte moins
de 50 Go, ce qui permet des performances acceptables.
La cration dun data-mart peut tre un moyen de dbuter un
projet de DW (projet pilote).
12
Copyright J. Akoka - I. Comyn-Wattiau
23
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.1 Les modles de
donnes
Modles de prsentation
Modles de diffusion
Modles dintgration
Bases de donnes oprationnelles
Copyright J. Akoka - I. Comyn-Wattiau
24
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.1 Les modles de donnes
Le modle d intgration unifie les donnes oprationnelles.
Le modle de diffusion reprsente le modle conceptuel des
donnes. Il correspond aux bases multidimensionnelles (serveur
OLAP).
Le modle de prsentation est un complment au modle
conceptuel. Cest travers ce modle que lutilisateur voit les
donnes. Il correspond diffrents outils physiques : les
tableurs, les requteurs, les outils clients OLAP, etc...
13
Copyright J. Akoka - I. Comyn-Wattiau
25
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.2 Les outils OLAP (On-Line Analytical Processing)
OLAP caractrise larchitecture ncessaire la mise en place
d un systme d information dcisionnel.
OLAP soppose OLTP (On-Line Transactional Processing)
qui caractrise les SIO.
Copyright J. Akoka - I. Comyn-Wattiau
26
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.2 Les outils OLAP (On-Line Analytical Processing)
OLAP constitue lensemble des outils multidimensionnels
ncessaires laccs, le stockage et la manipulation des donnes
utiles pour un SID ou pour un EIS.
OLAP dsigne les outils d analyse sappuyant sur les bases de
donnes multidimensionnelles.
14
Copyright J. Akoka - I. Comyn-Wattiau
27
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Vue multidimensionnelle : Les donnes sont structures en dimensions
mtiers.
Transparence : L utilisateur doit pouvoir utiliser les logiciels habituels
(tableurs, ) sans percevoir la prsence d un outil OLAP.
Accessibilit : L outil doit se charger d accder aux donnes stockes
dans n importe quel type de bases de donnes (interne + externe) et le
faire simultanment.
Performance continue dans les restitutions : A mesure que le nombre
de dimensions ou la taille de la base augmente, lutilisateur ne doit pas
subir de baisse sensible de performance.
Copyright J. Akoka - I. Comyn-Wattiau
28
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Architecture client-serveur : Tout produit OLAP doit fonctionner en
mode C/S avec une rpartition des traitements.
Dimension gnrique : Chaque dimension (avec lanalyse)doit
tre quivalent aux autres la fois dans sa structure et dans ses capacits
oprationnelles. Une seule structure logique dans lensemble des
dimensions.
Gestion dynamique des matrices creuses : OLAP doit grer les cellules
non renseignes de manire optimale.
Support multi-utilisateurs : OLAP doit assurer un accs simultan aux
donnes, grer lintgrit et la scurit de ces donnes.
15
Copyright J. Akoka - I. Comyn-Wattiau
29
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.3 Les 12 rgles de E.F. CODD (1993)
Oprations entre les dimensions : OLAP doit grer des calculs associs
entre les dimensions sans faire appel l utilisateur pour dfinir le
contenu de ces calculs
Manipulation intuitive : Minimiser le recours des menus ou les allers
et retours avec l interface utilisateur
Flexibilit des restitutions : convivialit des tats de gestion ou des tats
de sortie - ergonomie
Nombre de dimensions et niveaux de hirarchie illimit : l outil doit
grer au moins quinze dimensions et ne pas limiter le nombre de niveaux
hirarchiques.
Copyright J. Akoka - I. Comyn-Wattiau
30
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.4 Fast Analysis of Shared Multidimensional Information (FASMI)
Analyse : fournir des possibilits d analyse (statistiques et autres)
Rapide : l essentiel des rponses doit tre rendu dans un dlai de moins
de cinq secondes
Information : accder l ensemble des donnes indpendamment de
leur localisation
Multidimensionnelle :fournir une vue conceptuelle multidimensionnelle
Partage : tre accessible un grand nombre d utilisateurs et ne pas
limiter le nombre de niveaux hirarchiques.
16
Copyright J. Akoka - I. Comyn-Wattiau
31
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.5 Les outils relationnels OLAP
Outils relationnels : requteurs, infocentres, jointures complexes
exemple : Business Objects
Hypercubes relationnels : les donnes sont stockes dans une BD
relationnelle, mais avec une structure adapte aux donnes multi-
dimensionnelles
exemple : SGBD relationnels
OLAP relationnel (ROLAP) : ces outils utilisent directement le modle
relationnel. Au travers des mta-donnes, ils permettent de transformer
l analyse multidimensionnelle en requtes SQL : distinguent les axes
d analyse et les faits observer (modles en toile ou en flocon)
Copyright J. Akoka - I. Comyn-Wattiau
32
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.6 Intgration Infocentre Hypercube
Principe proche de l OLAP relationnel
Intgration d un outil d infocentre et d un outil d analyse
multidimensionnelle dans une mme interface situe sur le poste
client
L outil d infocentre assure la gestion d un rfrentiel commun, la
slection des donnes et leur valorisation
L outil multidimensionnel assure la cration d un hypercube,
l implmentation des fonctionalits OLAP (consolidation, zoom
avant, glisser-dplacer, gestion des seuils, etc.)
17
Copyright J. Akoka - I. Comyn-Wattiau
33
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.7 Les outils multidimensionnels MOLAP
Les BD multidimensionnelles sont propritaires (pas de
standard)
Les donnes sont dynamiquement structures et compresses
(optimisation de l espace disque)
Les donnes sont organises en dimensions et hirarchies
Les formules de calcul sont gnralement complexes
Les temps de rponse sont constants
Copyright J. Akoka - I. Comyn-Wattiau
34
3. Architecture dun Datawarehouse
3. 5 Les bases multidimensionnelles et les outils OLAP
3.5.7 Les outils multidimensionnels MOLAP
La constitution de la base se fait selon le processus suivant
extraction des donnes provenant des SGBD ou fichiers
dcomposition des donnes en dimensions, attributs et variables
calcul des consolidations
chargement de l hypercube selon la structure dimensionnelle
choisie
L interrogation de la base possde les caractristiques suivantes :
interface graphique (drill down, slice and dice, etc)
gestion des seuils et des alertes (codage couleurs)
temps de rponse court et constant
SQL non implment
Exemple : Oracle Express
18
Copyright J. Akoka - I. Comyn-Wattiau
35
3. Architecture dun Datawarehouse
3. 6 Les limites du multidimensionnel
Format et langage propritaire
Structure fige
Accs au dtail difficile
Peu d outils disponibles
Outils d administration insuffisants
Difficult de raliser des slections sur un hypercube
Pas de standard ni pour la structure physique ni pour
l interrogation
Manque de souplesse et absence de gestion de mta-donnes
Copyright J. Akoka - I. Comyn-Wattiau
36
3. Architecture dun Datawarehouse
3. 7 Conclusion
Un march florissant
nombreux outils (ROLAP,MOLAP,..)
concentration du nombre d diteurs de logiciels
Ncessit de mthodologie de conception
dmarche
modlisation conceptuelle et logique
implication des utilisateurs
Un avenir rel
l informatique oprationnelle est mature
la demande des utilisateurs est importante
la technologie est disponible.

Vous aimerez peut-être aussi