Vous êtes sur la page 1sur 6

J.-F.

Desnos

Entrept de donnes - Introduction

Entrept de donnes 1
(data warehouse)

Introduction
1 Prsentation
Le concept dentrept de donnes a t formalis pour la premire fois en 1990 par Bill Inmon. Il
sagissait de constituer une base de donnes oriente sujet, intgre et contenant des informations
historises, non volatiles et exclusivement destines aux processus daide la dcision.
En effet, la simple logique de production (produire pour rpondre une demande) ne suffit plus pour
prenniser l'activit d'une entreprise. Elle est un systme ouvert sur son environnement au coeur des
systmes d'informations confronte des phnomnes conomiques et sociaux lourd de consquences.
Pour faire face aux nouveaux enjeux, lentreprise doit collecter, traiter, analyser les informations de son
environnement pour anticiper. Mais cette information produite par l'entreprise est surabondante, non
organise et parpille dans de multiples systmes oprationnels htrognes et peut provenir de toutes
les places de marchs (mondialisation des changes).
Il devient fondamental de rassembler et dhomogniser les donnes afin de permettre l'analyse des
indicateurs pertinents pour faciliter la prise de dcisions. Lobjet de lentrept de donnes est de dfinir
et dintgrer une architecture qui serve de fondation aux applications dcisionnelles.
Dfinition :
Un entrept de donnes est une collection de donnes thmatiques, intgres,
non volatiles et historises pour la prise de dcisions (Bill Inmon)

Linfrastructure technique mise en uvre est capable dintgrer, dorganiser, de stocker et de coordonner
de manire intelligible des donnes produites au sein du Systme dInformation (issues des applications de
production) ou importes depuis lextrieur du SI (loues ou achetes) dans lesquelles les utilisateurs
finaux puisent des informations pertinentes laide doutils de restitution et danalyse (OLAP2,
Datamining3 ).
Les points clefs garantissant le succs d'un entrept de donnes sont les suivants :
- Les informations d'un entrept de donnes doivent tre accessibles et fiables (de qualit).
- La conception d'un entrept de donnes doit rpondre un besoin de ROI4 lev.
- La rponse aux demandes trs diverses des utilisateurs.
- Lentrept de donnes doit voluer avec les besoins des utilisateurs et du systme d'information.

1 On utilise souvent le nom anglais : data warehouse.


Remerciements Fabien Angot Intgration de donnes autour dun entrept de donnes Projet CNAM 2004
2 OLAP : On-Line Analytical Processing. Dsigne une catgorie d'applications et de technologies permettant de
collecter, stocker, traiter et restituer des donnes multidimensionnelles, des fins d'analyse.
3 Datamining : Dsigne une catgorie doutils dexploitation dun entrept de donnes permettant deffectuer des
fouilles " mining " ou dextraire des connaissances permettant de faire apparatre des corrlations jusqualors caches
entre les donnes.
4 ROI : Return On Investment, retour sur investissement

J.-F. Desnos

Entrept de donnes - Introduction

2 Les donnes du systme d'information


Les donnes permettant la prise de dcisions diffrent des donnes oprationnelles :
Donnes oprationnelles

Donnes dcisionnelles

Orientes application, dtailles, prcises au


moment de laccs

Orientes activit (thme, sujet), condenses,


reprsentent des donnes historiques

Mise jour interactive possible de la part des


utilisateurs

Pas de mise jour interactive de la part des utilisateurs

Accdes de faon unitaire par une personne


la fois

Utilises par lensemble des analystes, gres par sousensemble

Haute disponibilit en continu

Exigence diffrente, haute disponibilit ponctuelle

Uniques (pas de redondance en thorie)


Petite quantit de donnes utilises par un
traitement
Ralisation des oprations au jour le jour
Forte probabilit daccs
Utilises de faon rptitive

Peuvent tre redondantes


Grande quantit de donnes utilise par les traitements
Cycle de vie diffrent
Faible probabilit daccs
Utilise de faon alatoire

Tableau 1 : Diffrences entres les donnes oprationnelles et les donnes dcisionnelles


Donnes orientes sujet
Lentrept de donnes est organis autour des sujets majeurs et des mtiers de l'entreprise. Les donnes
sont organises par thme, contrairement aux donnes des systmes de production, organises par
processus fonctionnels.
Lavantage de cette reprsentation demeure dans le fait qu'il devient possible de raliser des analyses sur
des sujets transversaux aux structures fonctionnelles et organisationnelles de l'entreprise. Et ainsi, de
pouvoir analyser un processus dans le temps diffrentes tapes de sa conception au sein du SI. Cette
orientation permet galement de faire des analyses par itration, sujet aprs sujet. L'intgration dans une
structure unique est indispensable pour viter aux donnes concernes par plusieurs sujets d'tre
dupliques. Dans la pratique il existe galement des Datamart5 pouvant supporter l'orientation sujet.

Donnes intgres
Un Entrept de donnes est un projet d'entreprise et concerne les diffrents services et mtiers de
l'entreprise. Lintgration de donnes, au sein dun entrept de donnes, est donc un processus dterminant
sur la qualit et la quantit dinformations disponibles aux utilisateurs pour le processus de dcision.
Cette phase, que nous verrons plus en dtail avec les outils ETL6, implique que les donnes doivent tres
mises en forme et unifies afin d'avoir un tat cohrent. Pour parfaire cette cohrence, lintgration
5 Datamart ou Magasin de donnes : petit entrept de donnes, en gnral spcialis dans un domaine mtier
6 ETL : acronyme de Extract Transform and Load

J.-F. Desnos

Entrept de donnes - Introduction

ncessite une forte normalisation de donnes. Mais aussi la matrise de la smantique, la prise en compte
des contraintes rfrentielles et des rgles de gestion. Ces notions sont nonces, dtailles et administres
au sein des mtadonnes de lentrept de donnes.
C'est ainsi que l'on pourra donner une bonne vision de l'entreprise via l'utilisation d'indicateurs.
Donnes historises
L'historisation est ncessaire pour suivre dans le temps l'volution des diffrentes valeurs des indicateurs
analyser. Ainsi, un rfrentiel temps doit tre associ aux donnes afin de permettre l'identification dans la
dure de valeurs prcises.
Donnes non volatiles
Afin de conserver la traabilit des informations et des dcisions prises, les informations stockes au sein
de lentrept de donnes ne peuvent tre supprimes.

3 Les classes de donnes


Un entrept de donnes peut se structurer en quatre classes de donnes organises selon un axe historique
et un axe de synthse.
Les donnes agrges
Les donnes agrges correspondent des lments danalyse reprsentant les besoins des utilisateurs.
Elles constituent dj un rsultat danalyse et une synthse de linformation contenue dans le systme
dcisionnel, et doivent tre facilement accessibles et comprhensibles.
Les donnes dtailles
Les donnes dtailles refltent les vnements les plus rcents. Les intgrations rgulires des donnes
issues des systmes de production vont habituellement tre ralises ce niveau.
Les mtadonnes
Les mtadonnes constituent l'ensemble des donnes qui dcrivent des rgles ou processus attachs
d'autres donnes. Ces dernires constituent la finalit du systme d'information.
Les donnes historises
Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit pas les anciennes
valeurs, mais cre une nouvelle occurrence de la donne.

Modlisation de donnes

La modlisation par sujet

J.-F. Desnos

Entrept de donnes - Introduction

Un entrept de donnes est gnralement bas sur un SGBD relationnel.


La modlisation par sujet est une technique de conception logique qui vise organiser et classifier les
informations des bases lgataires en donnes classes par sujet fonctionnel. Elle est base sur la
modlisation " Entit/Relation " et est prliminaire la modlisation dimensionnelle. Chaque sujet
correspond une table gre au sein de lentrept. Il faut isoler les donnes stratgiques, dterminer les
informations de dtails ncessaires (profondeur, granularit) et conserver les mtadonnes.
La modlisation dimensionnelle
La modlisation dimensionnelle (modle multidimensionnel) souvent appele modlisation OLAP (Codd
1993) se prsente comme une alternative au modle relationnel. Elle correspond mieux aux besoins du
dcideur tout en intgrant la modlisation par sujet.
Cest une mthode de conception logique qui vise prsenter les donnes sous une forme standardise
intuitive et qui permet des accs hautement performants. Elle aboutit prsenter les donnes non plus sous
forme de tables mais de cube7 centr sur une activit. Un cube de dimension n (n > 3) est aussi dit hyper
cube.
Faits, indicateurs et dimensions
La table de faits est la clef de vote du modle dimensionnel o sont stocks les indicateurs de
performances. Le concepteur sefforce de considrer comme indicateurs les informations dun processus
dentreprise dans un systme dinformation. Les indicateurs tant les donnes les plus volumineuses dun
systme dinformation, on ne peut se permettre de les dupliquer dans dautres tables mais de les
rationaliser au sein de la table de faits.
La table de faits
Table de faits des ventes journalires
Cl date (CE)
Cl produit (CE)
Cl magasin (CE)
Quantit vendue
Montant des ventes ()
Tableau 2 : Modle conceptuel dune table de faits
Le terme de fait est utilis pour reprsenter une mesure conomique. Pour exemple, lors de la vente de
produits sur un march, on comptabilise les types de produits vendus, leur quantit et le montant de
chaque vente au jour le jour et ce, pour chaque produit et pour chaque magasin.
La mesure des quantits et des prix est ralise lintersection de toutes les dimensions (produit, magasin,
temps). Le nombre des dimensions dtermine la finesse, la granularit de la table et indique la porte de
lindicateur.
Additivits des indicateurs

7 Cube : Une construction multidimensionnelle forme de la conjonction de plusieurs dimensions. Chaque cellule est
dfinie par une seule valeur de chaque dimension.

J.-F. Desnos

Entrept de donnes - Introduction

Les indicateurs les plus utiles dune table de faits sont numriques et additifs. Ladditivit des attributs
dune table de faits est cruciale pour les outils dcisionnels. Les utilisateurs demandent rarement lanalyse
dune seule ligne. Dans notre exemple, constater les ventes de produits sur une anne pour les magasins
dune rgion demande l'analyse de plusieurs milliers de lignes la fois.
Pour autant, tous les attributs utiles ne sont pas additifs. Certains sont semi additifs et ne peuvent tre
additionns que pour certaines dimensions.
Dautres sont non additifs et ne peuvent pas tre additionns par dimensions. Pour cette dernire catgorie,
on utilise des fonctions d'agrgations tel que, le calcul de moyenne, le ratio ou le comptage de lignes.
Les dimensions
Les tables de dimensions sont les entits complmentaires la conception de la table de faits. Elles
contiennent, autant que possible, des attributs sous forme de descriptions textuelles permettant de qualifier
ou dexpliquer lactivit.
Des attributs de dimensions, nombreux, permettent de varier les possibilits danalyse (par tranches ou en
ds). Ces attributs rendent utilisables et intelligible les donnes de lentrept de donnes. Ils tablissent, en
quelque sorte une interface homme/entrept de donnes.
En gnral, les tables de dimensions tendent tre peu profondes mais elles sont larges (l'inverse de la
table de faits), en dautres termes elles ont peu de lignes mais beaucoup de colonnes.
Tables de dimension "Produit"
Cl produit (CP)
Description du produit
Numro US (cl naturelle)
Description de la marque
Description de la catgorie
Description du rayon
Description du type d'emballage
et bien d'autre attributs

Tableau 1-3 : Modle conceptuel dune table de dimension

Structure de la base de donnes


Au sein de lentrept de donnes les donnes sont redondantes et dnormalises, nous sommes loin de la
modlisation en troisime forme normale (3NF) et pour cause, cela permet de faciliter lutilisation et
damliorer les performances lors de l'analyse des donnes.
Trois types de schmas sont frquemment rencontrs, le schma en toile, le schma en flocon et le
schma en constellation de faits.
Le schma en toile
Dans un schma en toile, une table centrale de faits contenant les faits analyser, rfrence les tables de
dimensions par des clefs trangres. Chaque dimension est dcrite par une seule table (feuille de larbre de
tables) dont les attributs reprsentent les diverses granularits possibles.

J.-F. Desnos

Entrept de donnes - Introduction

Le schma en flocon
Dans un schma en flocon, cette mme table de faits, rfrence les tables de dimensions de premier
niveau, au mme titre que le schma en toile. La diffrence rside dans le fait que les dimensions sont
dcrites par une succession de tables ( laide de clefs trangres) reprsentant la granularit de
l'information. Ce schma vite les redondances dinformation mais ncessite des jointures lors des
agrgats de ces dimensions.
Les schmas en constellation de faits
Dans un schma en constellation, plusieurs modles dimensionnels se partagent les mmes dimensions,
c'est--dire, les tables de faits ont des tables de dimensions en commun.
Pour conclure, les diffrences entre ces trois modles sont faibles et ne peuvent donner lieu des
comparaisons de performance. Ce sont des schmas issus de la modlisation dimensionnelle utiliss par
les outils dcisionnels.