Vous êtes sur la page 1sur 22

Le Data Warehouse et les

Systmes Multidimensionnels
Le Data

Warehouse et les Systmes Multidimensionnels

ELABORER PAR :
Mr. ER-RIFAI Youssef
Mr. YAMANE Achraf
Mr. EL ASRI Salim
ENCADRE PAR :
Mr. Boulfdlour

Sommaire :
INRODUCTION
I-Dfinition et construction
II-Objectifs dun Datawarehouse
III-Principe de fonctionnement
IV-Architecture dun Data warehouse
123-

4-

Les Bases de Donnes


Oprations sur les donnes
Les Data-Marts
Les bases multidimensionnelles et les outils OLAP

V- Autour de l'entrept de donnes


VI-Comparatif entre les bases de donnes de
l'entreprise

VII-Etudes de cas
1-Cas dune compagnie dassurance
2-Cas dune banque

INTRODUCTION
De nos jours, lvolution des technologies, la
mondialisation des marchs et le raccourcissement du
cycle de vie des produits rendent la concurrence
toujours plus rude.
Il devient trs difficile pour une entreprise de conserver
sa part de march en se basant uniquement sur les prix
et les produits.
La communication bidirectionnelle ainsi que la
circulation de linformation sont des donnes
primordiales pour laborer une stratgie CRM. Il est
effectivement indispensable pour lentreprise de
comprendre ce que veut le client, ce dernier tant plac
au centre des proccupations. Les connaissances que
lentreprise se doit davoir du march sur lequel elle se
trouvent ainsi que lacquisition des informations
rcoltes sur le client chaque contact avec celui-ci,
vont permettre lentreprise, pour autant quelles
soient utilises bon escient, doptimiser la satisfaction
de sa clientle.
Comme nous le verrons plus tard dans le travail, la
technologie revt un rle essentiel dans le CRM. Elle va
permettre dextraire des connaissances partir de
donnes stockes et gres dans un entrept de
donnes, puis analyses grce aux outils OLAP et au
data mining.

I-Dfinition et construction
(data werhouse) ou Entrept de donnes est une base de
donnes regroupant une partie ou l'ensemble des donnes
fonctionnelles d'une entreprise. Il entre dans le cadre de
l'informatique dcisionnelle ; son but est de fournir un
ensemble de donnes servant de rfrence unique, utilise
pour la prise de dcisions dans l'entreprise par le biais
de statistiques et de rapports raliss via des outils
de reporting. D'un point de vue technique, il sert surtout
'dlester' les bases de donnes oprationnelles des
requtes pouvant nuire leurs performances.
D'un point de vue architectural, il existe deux manires de
l'apprhender :

L'architecture de haut en bas : selon Bill Inmon,


l'entrept de donnes est une base de donnes au niveau
dtail, consistant en un rfrentiel global et centralis de
l'entreprise. En cela, il se distingue du Datamart, qui
regroupe, agrge et cible fonctionnellement les donnes.

L'architecture de bas en haut : selon Ralph Kimball,


l'entrept de donnes est constitu peu peu par
les Datamarts de l'entreprise, regroupant ainsi diffrents
niveaux d'agrgation et d'historisation de donnes au sein
d'une mme base.

La dfinition la plus communment admise est un


mlange de ces deux points de vue. Le terme Data
warehouse englobe le contenant et le contenu : il dsigne
d'une part la base dtaille qui est la source de donnes
l'origine des Datamarts, et d'autre part l'ensemble
constitu par cette base dtaille et ses Datamarts. De la
mme manire, les mthodes de conception actuelles
prennent en compte ces deux approches, privilgiant
certains aspects selon les risques et les opportunits
inhrents chaque entreprise.

II-Objectifs dun Datawarehouse


permet le dveloppement dapplications dcisionnelles et
de pilotage de lentreprise et de ses processus
joue un rle de rfrentiel pour lentreprise puis quil
permet de fdrer des donnes souvent parpilles dans
diffrentes bases de donnes
offre une vision globale et oriente mtiers de toutes les
donnes que manipule lentreprise
permet de faire face aux changements du march et de
lentreprise
offre une information comprhensible, utile et rapide

III-Principe de fonctionnement
Intgration
Dans les faits, les donnes alimentant l'Entrept de donnes
sont htrognes, issues de diffrentes applications de
production, voire de fichiers dits "plats" (fichiers Excel, fichiers
texte, XML...). Il sagit alors de les intgrer, de les
homogniser et de leur donner un sens unique
comprhensible par tous les utilisateurs. La transversalit
recherche sera dautant plus efficace que le systme
dinformation sera rellement intgr dans sa globalit. Cette
intgration ncessite notamment :

une forte activit de normalisation et de


rationalisation, oriente vers la qualit ;

une bonne gestion des rfrentiels, incluant une


vrification constante de leur intgrit ;

une parfaite matrise de la smantique et des rgles de


gestion des mtadonnes manipules.
La problmatique de l'intgration repose sur la
standardisation de donnes internes l'entreprise, mais aussi
des donnes externes (provenant par exemple de clients ou de
fournisseurs).
Ce nest quau prix dune intgration pousse que lon peut
offrir une vision homogne et vritablement transverse de
lentreprise. Ceci suppose que le systme dinformation de
lentreprise en amont soit bien structur, bien matris, et
bnficie dj dun niveau dintgration suffisant. Si tel n'est
pas le cas, la mauvaise qualit des donnes peut empcher la
mise en uvre de l'entrept de donnes.

Historisation
L'historisation d'un Datawarehouse repose sur le principe de
conservation des donnes (ou de non-volatilit des donnes).
Afin de conserver la traabilit des informations et des
dcisions prises, les donnes une fois entres dans l'Entrept
sont stables, en lecture seule, non modifiables par les
utilisateurs. Une mme requte lance plusieurs fois
diffrents moments doit ainsi restituer les mmes rsultats.
Ds quune donne est qualifie pour tre introduite dans
l'Entrept de donnes, elle ne peut donc plus tre altre,
modifie ou supprime (jusqu' un certain dlai de purge). Elle
devient, de fait, partie intgrante de lhistorique de
lentreprise.
Le principe de non-volatilit tranche avec la logique des
systmes de production, qui bien souvent remettent jour les
donnes par annule et remplace chaque nouvelle
transaction. Chaque donne collecte se voit affecter une date
ou un numro de version pour viter de recouvrir une
information dj prsente dans la base de donnes, et
permettre de suivre son volution au cours du temps. Il y a de
cette manire conservation de l'historique.
Dun point de vue fonctionnel, cette proprit permet de suivre
dans le temps lvolution des indicateurs et de raliser des
analyses comparatives (par exemple, les ventes d'une anne
sur l'autre). De ce fait, dans un entrept de donnes, un
rfrentiel de temps unique est ncessaire.

Organisation fonctionnelle
L'Entrept de donnes intgre au sein d'une mme base les
informations provenant de multiples applications
oprationnelles. On passe ainsi dune vision verticale de
lentreprise, dicte par des contraintes techniques, une

vision transversale, dicte par le besoin mtier, qui permet de


croiser fonctionnellement les informations. Lintrt de cette
organisation est de disposer de lensemble des informations
utiles sur un sujet le plus souvent transversal aux structures
fonctionnelles (services) de lentreprise. On dit que l'Entrept
de donnes est orient mtier , en rponse aux diffrents
mtiers de lentreprise dont il prpare lanalyse.
D'un point de vue conceptuel, les donnes d'un Data
warehouse sont interprtables sous forme
d' indicateurs rpartis selon des axes (ou dimensions) : par
exemple, le nombre de clients (indicateur) rparti par jour de
vente, magasin ou segment de clientle (axes).
Techniquement, la modlisation de l'Entrept de donnes peut
matrialiser cette organisation sous forme de tables de fait ou
et de tables de rfrentiel.
L'Entrept de donnes a une structure de donnes qui peut en
gnral tre reprsente par un modle de
donnes normalis 3FN ((en)3NF) pour les donnes de dtail
et/ou en toile ou en flocon pour les donnes agrges et ce
dans un SGBD relationnel (notamment lorsqu'il s'agit
de donnes lmentaires ou unitaires non agrges). La
traduction technique de ce modle se fait souvent au sein d'un
cube OLAP.
L'Entrept de donnes est conu pour contenir les donnes en
adquation avec les besoins de lorganisation, et rpondre de
manire centralise tous les utilisateurs. Il nexiste donc pas
de rgle unique en matire de stockage ou de modlisation.
Ainsi, ces donnes peuvent donc tre conserves :

de prfrence, sous forme lmentaire et dtaille


(exemple : pour une banque, chaque opration sur chaque
compte de chaque client) si la volumtrie le permet.
Lesdonnes lmentaires prsentent des avantages vidents
(profondeur et niveau de dtail, possibilit d'appliquer de
nouveaux axes d'analyse et mme de revenir a posteriorisur le

pass ) mais reprsentent un plus grand volume et


ncessitent donc des matriels plus performants.

ventuellement, sous forme agrge selon les axes ou


dimensions d'analyse prvus (mais ces agrgations sont plutt
ralises dans les datamarts que dans les entrepts de
donnes proprement dits). Les donnes agrges prsentent
d'autres avantages (facilit d'analyse, rapidit d'accs,
moindre volume). Par contre, il est impossible de retrouver le
dtail et la profondeur des indicateurs une fois ceux-ci
agrgs : on prend le risque de figer les donnes selon une
certaine vue avec les axes d'agrgation retenus, et de ne plus
pouvoir revenir sur ces critres si l'on n'a pas conserv le
dtail (par exemple, si l'on a agrg les rsultats par mois, il
ne sera plus possible de faire une analyse par journe).

IV-Architecture dun Data warehouse


1- Les Bases de Donnes
Bases de production de lentreprise
Bases cres par les utilisateurs
Bases de donnes externes lentreprise (Nielsen, INSEE, )
qui ncessitent leur identification, leur rapatriement et leur
intgration.
2- Oprations sur les donnes
EXTRACTION

Extraire les donnes de leur environnement dorigine


(bases de donnes relationnelles, fichiers plats, ).

Utiliser une technique approprie pour n extraire que


les donnes ncessaires : donnes cres ou modifies depuis

la dernire opration dextraction.


TRANSFORMATION

Une mme donne peut avoir une structure ou une


valeur diffrente en fonction de la base (production, externe,
utilisateurs) dont elle provient.

On peut tre confront des redondances (un mme client


peut apparatre avec diffrents attributs et proprits selon la
source consulte).

Il faut supprimer certaines donnes aberrantes qui


risqueraient de fausser les analyses.
Il faut donc purer et transformer les donnes.

CHARGEMENT/RAFRAICHISSEMENT

Effectuer sur les donnes des oprations de calcul et


dagrgation.

Remplacer certaines bases si


dextraction satisfaisante nest possible.

aucune

solution

Mettre en place des procdures de chargement (nocturnes?) et


de restauration (en cas de problme).
Si la disponibilit du systme ne peut tre interrompue,
envisager la mise en place de systmes redondants.

LES OUTILS
On peut automatiser tout ou partie des oprations dcrites.
Des outils sont disponibles : Extract dETI, Genio de Leonard s
Logic,

Le dveloppement doutils spcifiques est envisageable mais


risque d alourdir les tches.
3- Les Data-Marts
Un data-mart est un DW focalis sur un sujet particulier,
souvent au niveau dpartemental ou mtier.
C est donc un mini DW li un mtier particulier de l
entreprise (finance, commercial, ).
Un DW est souvent volumineux (plusieurs centaines de Go
voire quelques To ) avec des performances inappropries
(temps de rponse trop longs). Un Data-mart, quant lui,
comporte moins de 50 Go, ce qui permet des performances
acceptables.
La cration dun data-mart peut tre un moyen de dbuter un
projet de DW (projet pilote).

4-Les bases multidimensionnelles et les outils OLAP


1-Les modles de donnes
Le modle d intgration unifie les donnes oprationnelles.
Le modle de diffusion reprsente le modle conceptuel des
donnes. Il correspond aux bases multidimensionnelles
(serveur OLAP).
Le modle de prsentation est un complment au modle
conceptuel. Cest travers ce modle que lutilisateur voit les
donnes. Il correspond diffrents outils physiques : les
tableurs, les requteurs, les outils clients OLAP, etc

Processing)

2-Les outils OLAP (On-Line Analytical

OLAP caractrise larchitecture ncessaire la mise en place d


un systme d information dcisionnel.
OLAP soppose OLTP (On-Line Transactional Processing) qui
caractrise les SIO.

3 -Les outils relationnels OLAP


Outils relationnels : requteurs, infocentres, jointures
complexes exemple : Business Objects
Hypercubes relationnels : les donnes sont stockes dans
une BD relationnelle, mais avec une structure adapte aux
donnes multi-dimensionnelles
exemple : SGBD relationnels
OLAP relationnel (ROLAP) : ces outils utilisent directement
le modle relationnel. Au travers des mta-donnes, ils
permettent de transformer
lanalyse multidimensionnelle en requtes SQL : distinguent les
axes
d analyse et les faits observer (modles en toile ou en
flocon)

V-Autour de l'entrept de donnes :


En amont
En amont de l'entrept de donnes se place toute la logistique
d'alimentation des donnes de l'entrept :

extraction des donnes de production, transformations


ventuelles et chargement de l'entrept (c'est l'ETL ou Extract,
Transform and Load ou encore datapumping).
au passage les donnes sont pures ou transformes
par :

un filtrage et une validation des donnes (les


valeurs incohrentes doivent tre rejetes)

un codage (une donne reprsente diffremment


d'un systme de production un autre impose le choix d'une
reprsentation unique pour les futures analyses)

une synchronisation (s'il y a ncessit d'intgrer


en mme temps ou la mme date de valeur des
vnements reus ou constats de manire dcale)

une certification (pour rapprocher les donnes de


l'entrept des autres systmes lgaux de l'entreprise
comme la comptabilit ou les dclarations rglementaires).
Cette alimentation de l'entrept de donnes se base sur
les donnes sources issues des systmes transactionnels de
production, sous forme de :

compte-rendu d'vnement ou compte-rendu


d'opration : c'est le constat au fil du temps des oprations
(achats, ventes, critures comptables, ...), le film de l'activit
de l'entreprise ou flux ;

compte-rendu d'inventaire ou compte-rendu de stock :


c'est l'image photo prise un instant donn ( une fin de
priode : mois, trimestre, ...) de l'ensemble du stock (clients,
contrats, commandes, encours...).
La mise en place d'un systme d'alimentation fiable de
l'entrept de donnes est souvent le poste budgtaire le plus
coteux dans un projet d'informatique dcisionnelle.

En aval

En aval de l'entrept de donnes (et/ou des datamarts) se


place tout l'outillage de restitution et d'analyse
des donnes (en anglais : Business Intelligence) :

outils de requtage ou de reporting

cubes ou hypercubes multidimensionnels

data mining.
La conception d'entrepts de donnes est donc un processus
en perptuelle volution. Sous cet angle, on peut finalement
voir l'entrept de donnes comme une architecture
dcisionnelle capable la fois de grer l'htrognit et le
changement et dont l'enjeu est de transformer les donnes en
informations directement exploitables par les utilisateurs du
mtier concern.

VI-Comparatif entre les bases de donnes


de l'entreprise

Caractristique

Base de donnes de

Data warehouses

Datamarts

production
Opration

Modle de

gestion courante,

rfrentiel,

analyse rcurrente, outil

production

analyse

de pilotage, support la

ponctuelle

dcision

3NF, toile, flocon

toile, flocon de neige

entit/relation

donnes
Normalisation

de neige
frquente

maximum

rare (redondance
d'information)

Donnes

actuelles, brutes,

historises,

dtailles

dtailles

historises, agrges

Mise jour

souvent diffre,

souvent diffre,

priodique

priodique

faible

faible

Elev

Perception

verticale

transverse

Horizontale

Oprations

lectures, insertions,

lectures,

lectures, insertions, mises

mises jour,

insertions, mises

jour, suppressions

suppressions

jour

en gigaoctets

en traoctets

Niveau de

immdiate, temps rel

consolidation

Taille

en gigaoctets

Ces diffrences tiennent au fait que les Entrepts permettent


des requtes qui peuvent tre complexes et qui ne reposent
pas ncessairement sur une table unique. On peut rsumer les
consquences de la transformation d'un Data warehouse en
Datamart comme suit : un gain de temps de traitement et une
perte de puissance d'utilisation.
Exemples de requtes OLAP :

Quel est le nombre de paires de chaussures vendues


par le magasin OnVendDesChaussuresIci en mai 2003 ET
Comparer les ventes avec le mme mois de 2001 et 2002

Quelles sont les composantes des machines de


production ayant eu le plus grand nombre dincidents
imprvisibles au cours de la priode 1992-97 ?
Les rponses aux requtes OLAP peuvent prendre de quelques
secondes plusieurs minutes, voire plusieurs heures.

Histoire
Les principales dates retenir construisant l'histoire de
l'entrept de donnes sont les suivantes :

Annes 1960 - General Mills et l'Universit


Dartmouth, dans un projet conjoint, crent les
termes faits et dimensions.

1983 - Teradata introduit dans sa base de donnes


managriale un systme exclusivement destin la prise
de dcision.

1988 - Barry Devlin et Paul Murphy publient


l'article Une architecture pour les systmes d'information
financiers (An architecture for a business and information
systems) o ils utilisent pour la premire fois le
terme Datawarehouse.

1990 - Red Brick Systems cre Red Brick


Warehouse, un systme spcifiquement ddi la
construction de l'entrept de donnes.

1991 - Bill Inmon publie Building the Data


Warehouse (Construire l'entrept de donnes).

1995 - Le Data Warehousing Institute, une


organisation but lucratif destine promouvoir le data
warehousing, est fond.

1996 - Ralph Kimball publie The Data Warehouse


Toolkit (La bote outils de l'entrept de donnes).

VII-Etudes de cas
I-

Cas dune compagnie dassurance


Une compagnie dassurance de biens (automobile, immobilier,
responsabilit civile) possde une application transactionnelle
de production permet de grer les polices (contrats) de ses
clients ainsi que les sinistres (accidents) dclars par ces
clients.
Gestion des polices :
Pour grer les polices, les agents dassurance peuvent
effectuer les transactions suivantes :
Crer, mettre jour ou supprimer une police dassurance
Crer, mettre jour ou supprimer un risque (pour une police
donne)
Crer, mettre jour ou supprimer des biens assurs (voiture,
maison) sur un risque
Chiffrer ou refuser le risque
Valider ou refuser la police

On enregistre dans ces transactions un grand nombre


dinformations, et notamment : date dcriture
(date de la transaction), date deffet (date de dbut
dassurance), client (personne(s) prive(s),
personne morale), oprateur (employ, agent: chiffrage,
vrificateur : validation), risque (produit
vendu par la compagnie dassurance), couverture (description
des biens assurs), police (numro de police, note de la
police ou du risque,) , transaction (code transaction).

Gestion des sinistres


Pour grer les sinistres dclars par les clients, les agents
dassurance ont leur disposition les
transactions suivantes :
Crer, mettre jour ou supprimer une dclaration de sinistre
Crer, mettre jour ou supprimer une expertise
Crer, mettre jour ou supprimer des paiements
Clore le sinistre
Ces transactions comportent notamment : date dcriture
(date de la transaction), date deffet (date de dclaration),
client, oprateur, risque, biens sinistrs, police, les tiers
impliqus dans le sinistre, les montants financiers (limites, dj
pay, reste payer, ), code transaction.

Conception

A partir de cette application transactionnelle, on veut crer un


Datawarehouse permettant de rpondre aux questions
suivantes :
Pour chaque bien assur, on veut connatre le montant de la
prime (somme annuelle paye par
le client pour assurer le bien) associe au bien assur, et le
nombre de transactions du mois pour ce bien.
De mme on veut pouvoir sortir des tableaux de bord par
sinistre avec le total pay dans ler mois et le total reu dans le
mois pour ce sinistre.

1. Faire le schma en toile dun Datamart Police ne


prenant pas en compte les sinistres.
2. De mme, faire le schma en toile dun Datamart Sinistre
.
3. Faire un seul Datawarehouse de ces deux Datamarts. Anne
Acadmique 2009-2010
Cours & TD Datawarehouse

II-Cas dune banque

Une banque distribue une carte de paiement carte de crdit


ses clients. Elle dcide de raliser un Datawarehouse (DW)
afin de faire le suivi des paiements suivants effectus avec la
carte :
a. Voyages en avion,
b. Locations de voiture,
c. Htellerie.
Elle veut faire un suivi indpendant de chacun des paiements
a, b ou c, mais aussi avoir la possibilit dun suivi global.
A chaque dplacement en avion, la compagnie arienne lui
envoie un fichier contenant les lments suivants:
identification de la carte de paiement, coordonnes du client
et de la compagnie arienne; ville de dpart, ville darrive, n
du vol, date du vol, n du billet, classe du sige, distance
parcourue, date dachat et prix pay.
Les loueurs de vhicule transmettent aprs chaque location:
identification de la carte de paiement, coordonnes du client
et de la socit de location de vhicules, catgorie du
vhicule, date de dbut de location, date de fin de location,
nombre de jours, distance parcourue, date de rservation et
prix pay.
Lhtel transmet chaque sjour: identification de la carte de
paiement, coordonnes du client et de lhtel, catgorie de
chambre, date de dbut de sjour, date de fin de sjour,
nombre de nuites, date de rservation, prix de lhbergement
et prix de la restauration.
1. Un premier DW ne concerne que les dplacements en avion.
Etablir le modle dimensionnel. Faire clairement apparatre les
dimensions et les indicateurs. Ce

DW doit permettre de rpondre aux questions suivantes : quel


est le chiffre daffaires (CA) par
Client , par date de voyage (et par mois, trimestre et anne),
par compagnie arienne, par ville de
destination ?
2. De mme, tablir deux autres modles dimensionnels, lun
pour les locations de voiture, lautre
pour lhtellerie. Dans le cas de la location de voiture, on
souhaite diter le CA, le nombre de jours de location, et le
kilomtrage pour chaque: client, date de rservation, ville,
loueur, et catgorie de vhicule.
Dans le cas de lhtellerie, on veut des tableaux de bord par
client, htel, ville, date de dbut de
sjour, catgorie de chambre, faisant apparatre le nombre de
nuites, le prix total pay.
3. On veut maintenant regrouper ces trois DW en un seul, afin
de rpondre aux questions
supplmentaires suivantes :
Quel est le CA total induit par un dplacement en avion ?
Quelle est la dure du sjour ? Quel est le CA en location de
voiture ? En htellerie ? On dsire ici pouvoir diter les dtails
de CA par
priode de temps et par client, ville de destination, ville de
location (si diffrente), ville dhbergement (si diffrente),
compagnie arienne, loueur et htelier, et faire tous les
regroupements utiles.
Figurer le modle dimensionnel dun tel DW, en faisant
clairement apparatre les dimensions et les indicateurs.