1 Etat de L'art - 3 DWH

C.
Le data warehouse
1. définition
Bill Inmon, père fondateur du data warehouse en donne une définition cf livre « using the data
warehouse » 1994
« Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à la décision »
a. données thématiques
La vocation du data warehouse est de prendre des décisions autours des activités majeures de
l’entreprise. Les données sont ainsi structurées autour de thèmes ce qui facilite l’analyse
transversale. Pour éviter le doublonages des données, on regroupe les différents sujets dans
une structure commune. Si le sujet client contient des informations dans les sujets maketing,
ventes, analyse financière ; alors on regroupera ces trois sujets au sein du thème client. Dès
lors, chaque donnée n’est présente qu’à un endroit, le data warehouse joue bien un rôle de
point focal.
Image 1.4.1 dwh - données orientées sujet

b. données intégrées
Les données sont mises en forme selon un standard afin d’obtenir la transversalité recherchée.
Cela nécéssite une forte normalisation, une bonne gestion des référentiels et de la cohérence,
une parfaite maitrise de la sémantique et des règles de gestion des données manipulées.
Voici le contexte dans lequel s’inscrit l’intégration des données : lors de l’alimentation des
données, ces dernieres sont hétérogènes et proviennent de systèmes opérationnels différents
(ETL, Best of Breed). Il faut doter ces données d’une codification unique et pertinente afin
qu’elles puissent aisément s’intégrer dans le data warehouse. Il faudra donc faire appel à des
conventions de nomage, des structures de codage, qualifier les mesures et réaliser
l’intégration de la sémantique.
Exemple d’unification de codage : la donnée Homme ou Femme a diverses codifications
selon les sources. Cette notion sopulève le problème de la granularité des données : le niveau
de détail des bases de données de production n’est pas celui du data warehouse. Ce sujet sera
traité dans le seconde partie de ce mémoire dans la partie extraction des données verif si c
bonne partie
c. données non volatiles

Les données intégrées dans l’entrepot le sont Ad Vitam Eternam et ne peuvent subir aucune
altération. Cela se justifie pour assurer la fiabilité des résultats des requêtes. Ainsi, une même
requête lancée à plusieurs mois d’intervalle donnera toujours les mêmes résultats. Cela permet
au data warehouse d’acquérir au cours du temps un historique détaillé de l’activité de
l’entreprise. Ceci s’oppose fondamentalement à la logique des systèmes de production qui
remettent à jour les données : elles sont de nature volatiles.
d. données historisées
L’ensemble des données qui sont intégrées dans l’entrepot contiennent un ensemble de
caractéristiques qui sont datées. Ceci permet de pouvoir comparer l’évolution des résultats
d’un élément (par exemple : les ventes de tel magasin). Si tel n’était pas le cas, cette analyse
ne serait pas possible, le suivi de l’évolution non plus. Cela rejoint la notion de non volatilité
expliqué précédemment.
2. Structure des données

Au sein du Data Warehouse, les données sont organisées en quatre classes selon un axe
historique et un axe synthétique : les données détaillées, agrégés, historisées et les méta
données
Mettre image structure dwh (differentes types données)
a. les données détaillées
Elles constituent le socle de l’entrepot de données et sont directement issues des systèmes de
production. Elles correspondent aux évènements les plus récents. Même si elles sont
détaillées, elles ne sont pas forcément identiques de celles des bases de production. En effet,
le niveau d’agrégation entre ces deux bases de données n’est pas le même : les progiciels
fonctionnement avec des données exhaustives et éparpillés. En revanche, l’entrepot n’a pas
besoin d’avoir un niveau de détail si élevé : c’est pourquoi il faudrat définir des règles
d’agrégation. Par exemple en grande distribution, les bases de production raisonnent en
référence produit alors qu’en décisionnel, la référence de base est le ticket de caisse. Ce
niveau d’analyse permet de réaliser des comparaisons avec les périodes antérieures.
b.données agrégées
a revoir car copier collé d’un mémoireElles correspondent à des éléments d’analyse
représentatifs des besoins utilisateurs.
Elles constituent déjà un résultat d’analyse et une synthèse de l’information
contenue dans le système décisionnel, et doivent être facilement accessibles et
compréhensibles. La facilité d’accès est apportée par des structures
multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données
suivant une logique intuitive, avec des performances optimales. (Certains SGBD du
marché sont conçus pour faciliter la mise en place des agrégations et la navigation
au sein de celles-ci).
La définition complète de l’information doit être mise à la disposition de
l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information
est composée du contenu présenté (moyenne des ventes, …) et de l’unité (par mois,
par produit,…).
c. Les métadonnées
A revoir Le contenu du data warehouse nécéssite un suivi administratif afin de controler son
contenu lors de son alimentation, sa mise à jour et son utilisation. En effet, l’alimentation est
réalisée depuis des sources de nature diverses et l’actualisation nécéssite au système
d’identifier les données concernées afin de conserver la fiabilité des données de l’entrepot.
Les métadonnées sont des « informations que l’on donne sur les données ». Elles permettent
de décrire les règles ou les process liées aux données.
Les métadonnées sont des « informations que l’on donne sur les données ». Ces précisions
sont de plusieurs natures :
Les méta données techniques comprenent l’ensemble des informations produites par le
processus de transformation de la donnée brute en information. Il s'agit des informations liées
à la structure de la donnée (nom, format, taille, date de création,...)
Les méta données fonctionnelles comprennent l’ensemble des caractéristiques différenciant la
donnée brute de l’information finale. On compte en particulier les règles d'agrégation, de
consolidation et les dates de mise à jour.
Enfin les métadonnées opérationnelles comprenent l’ensemble des caractéristiques liées à
l’usage qui est fait de l’information : la fréquence de consultation, les utilisateurs, la
sécurité,...
vérif quelle est la bonne def meta données - Comme évoqué précedemment, les données
sources sont hétérogènes car elles proviennent des bases de données relationnelles des
systèmes sources. Pour assurer l’intégration des données, il est nécéssaire d’avoir un
dictionnaire des données qui définit
d. Les données historisées

a revoir car proche du bouquin
Comme évoqué précedemment, les données au sein du data warehouse comportent toutes une
date à laquelle se rattache une combinaison d’attributs et des données chiffrées : les ratios.
Sachant que l’ensemble des données sont conservées, on peu pour les données anciennes les
rassembler afin qu’elles soient moins volumineuses. On pourra stocker ces données sur des
supports moins couteux et consultables sur demande.
3. Les datamarts ou magasin de données

Le risque d’echec du data warehouse est sa difficulté d’utilisation : l’attention est portée sur sa
problématique technique. En revanche, le Data Mart minimise la compléxité informatique et
se concentre sur les besoins utilisateurs.
Le Data Mart est une base de données qui se grephe au data warehouse et qui reprend les
données qu’il contient. Son approche est plus simple car elle est centrée sur un objectif
commun à un groupe relativement limité d’utilisateurs.
Les données du data warehouse peuvent être dupliquées dans plusieurs data marts, ce qui
représente une différence fondamentale avec l’entrepot. Le magasin de données ne contient
que les données dont les utilisateurs ont besoin ; il devient alors très simple d’exploiter son
contenu.
Data Warehouse Data Mart
Cible utilisateur Toute l’entreprise Département
Implication service informatique Elevée faible ou moyen

SQL milieu de gamme, bases
Base de données d'entreprise SQL type serveur
multidimensionnelles
Modèles de données A l'échelle de l'entreprise Département
Champ applicatif molti sujets, neutre quelques sujets, spécifique
sources de données multiples quelques unes
stockage Bases de données Plusieures bases distribuées

De centaines de Go à des
Taille Centaines de Go
dixaines de To
Temps de mise en place 9 à 18 mois 6 à 12 mois
Les Data Marts sont petits
Les Data Marts sont moins complexes et plus facile à déployer que les
data warehouses
Les Data Marts peuvent évoluer facilement vers un Data Warehouse
Les différents Data Marts indépendants peuvent être dynamiquement

couplés pour se métamorphoser en Data Warehouse
Les Data Marts ne se résument qu’à une seule information métier
(exemple: les ventes)
Les Data Marts sont plus flexibles que les Data Warehouse
Les Data Marts sont un nouveau concept
Les Sept Mythes du Data Mart

source Gartner Groupe
4. Les cubes
5. La navigation OLAP

1 Etat de L'art - 3 DWH

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Etat de L'art - 3 DWH

Transféré par

Droits d'auteur :

Formats disponibles

C.

Image 1.4.1 dwh - données orientées sujet

c. données non volatiles

2. Structure des données

d. Les données historisées

3. Les datamarts ou magasin de données

Data Warehouse Data Mart

Cible utilisateur Toute l’entreprise Département

Implication service informatique Elevée faible ou moyen

Champ applicatif molti sujets, neutre quelques sujets, spécifique

sources de données multiples quelques unes

stockage Bases de données Plusieures bases distribuées

Les Data Marts sont petits

Les Data Marts peuvent évoluer facilement vers un Data Warehouse

Les différents Data Marts indépendants peuvent être dynamiquement

Les Data Marts sont un nouveau concept

Les Sept Mythes du Data Mart

Vous aimerez peut-être aussi