Académique Documents
Professionnel Documents
Culture Documents
Le data warehouse
1. définition
Bill Inmon, père fondateur du data warehouse en donne une définition cf livre « using the data
warehouse » 1994
« Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à la décision »
a. données thématiques
La vocation du data warehouse est de prendre des décisions autours des activités majeures de
l’entreprise. Les données sont ainsi structurées autour de thèmes ce qui facilite l’analyse
transversale. Pour éviter le doublonages des données, on regroupe les différents sujets dans
une structure commune. Si le sujet client contient des informations dans les sujets maketing,
ventes, analyse financière ; alors on regroupera ces trois sujets au sein du thème client. Dès
lors, chaque donnée n’est présente qu’à un endroit, le data warehouse joue bien un rôle de
point focal.
d. données historisées
L’ensemble des données qui sont intégrées dans l’entrepot contiennent un ensemble de
caractéristiques qui sont datées. Ceci permet de pouvoir comparer l’évolution des résultats
d’un élément (par exemple : les ventes de tel magasin). Si tel n’était pas le cas, cette analyse
ne serait pas possible, le suivi de l’évolution non plus. Cela rejoint la notion de non volatilité
expliqué précédemment.
b.données agrégées
a revoir car copier collé d’un mémoireElles correspondent à des éléments d’analyse
représentatifs des besoins utilisateurs.
Elles constituent déjà un résultat d’analyse et une synthèse de l’information
contenue dans le système décisionnel, et doivent être facilement accessibles et
compréhensibles. La facilité d’accès est apportée par des structures
multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données
suivant une logique intuitive, avec des performances optimales. (Certains SGBD du
marché sont conçus pour faciliter la mise en place des agrégations et la navigation
au sein de celles-ci).
La définition complète de l’information doit être mise à la disposition de
l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information
est composée du contenu présenté (moyenne des ventes, …) et de l’unité (par mois,
par produit,…).
c. Les métadonnées
A revoir Le contenu du data warehouse nécéssite un suivi administratif afin de controler son
contenu lors de son alimentation, sa mise à jour et son utilisation. En effet, l’alimentation est
réalisée depuis des sources de nature diverses et l’actualisation nécéssite au système
d’identifier les données concernées afin de conserver la fiabilité des données de l’entrepot.
Les métadonnées sont des « informations que l’on donne sur les données ». Elles permettent
de décrire les règles ou les process liées aux données.
Les métadonnées sont des « informations que l’on donne sur les données ». Ces précisions
sont de plusieurs natures :
Les méta données techniques comprenent l’ensemble des informations produites par le
processus de transformation de la donnée brute en information. Il s'agit des informations liées
à la structure de la donnée (nom, format, taille, date de création,...)
Les méta données fonctionnelles comprennent l’ensemble des caractéristiques différenciant la
donnée brute de l’information finale. On compte en particulier les règles d'agrégation, de
consolidation et les dates de mise à jour.
Enfin les métadonnées opérationnelles comprenent l’ensemble des caractéristiques liées à
l’usage qui est fait de l’information : la fréquence de consultation, les utilisateurs, la
sécurité,...
vérif quelle est la bonne def meta données - Comme évoqué précedemment, les données
sources sont hétérogènes car elles proviennent des bases de données relationnelles des
systèmes sources. Pour assurer l’intégration des données, il est nécéssaire d’avoir un
dictionnaire des données qui définit
Les Data Marts sont moins complexes et plus facile à déployer que les
data warehouses
Les Data Marts sont plus flexibles que les Data Warehouse
4. Les cubes
5. La navigation OLAP