Vous êtes sur la page 1sur 7

Avant de poursuivre notre voyage vers la prise de décision finale, faisant le point sur notre

dernière station d’aire de repos qui est l’ETL d’une façon beaucoup plus détaillée (Extract
Transform Load) pour les francophones (Extraire Transformer et Charger), ci-dessous un
schéma bref récapitulatif :

Il s’agit tout simplement d’un logiciel qui va nous permettre d’extraire les données que nous
avons collectées auparavant provenant des diverses sources, les nettoyer, transformer et
puis les charger ou de les rafraichir dans l’entrepôt de données, c’est dont on va parler dans
ce chapitre.

Stockage et Phase de Modélisation

Métadonnées

Dans le Niveau le plus haut on trouve les métadonnées qui sont des informations définissant
et décrivant les structures, opérations et le contenu du système de BI qu’on peut subdiviser
selon trois types :

• Métadonnées techniques :
– ETL : sources et cibles pour les transferts de données, transformations, règles d’affaires…
– Stockage : tables, champs, types, indexes, partitions, dimensions, etc.
– Présentation : modèle de données, rapports, cédules, privilèges d’accès, etc.

• Métadonnées d’affaires :
– Décrit le contenu de l’entrepôt en termes compréhensibles par les utilisateurs d’affaires ;

• Métadonnées de processus :
– Décrit le résultat de diverses opérations du système de BI ;
Data Warehouse DW ou Entrepôt de données :
Il englobe à la fois le contenant et le contenu, ce dernier est aperçu comme une base de
données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Il entre dans le cadre de l'informatique décisionnelle.

Son but est de fournir un ensemble de données servant de référence unique, utilisée pour la
prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des
outils de REPORTING. D'un point de vue technique, il sert surtout à 'délester' les bases de
données opérationnelles des requêtes pouvant nuire à leurs performances. Le Data
Warehouse doit suivre plusieurs principes clés :

Être orienté métier : La structure du data Warehouse doit être conçue en fonction des
besoins des utilisateurs.

Non volatile : Les données ne doivent jamais être réécrites ou supprimées ; elles sont
statiques et les utilisateurs n’y ont accès qu’en lecture seule

Intégré : Le data Warehouse contient la plupart, voire l’ensemble des données de


l’entreprise, et celles-ci doivent être fiables et cohérentes entre elles

Historisé : Tous les ajouts/modifications dans le data Warehouse doivent être enregistrés
et datés

Il existe trois approches pour faire la conception d’une base de données :

Approche Top-Down :
Elle consiste en la conception de tout l’entrepôt (toutes les étoiles), puis en la réalisation de
ce dernier.
Avantage : offrir une vision très claire et très conceptuelle des données de l’entreprise ainsi
que du travail à faire.
Inconvénient : savoir à l’avance toutes les dimensions et tous les faits de l’entreprise, puis
les réaliser tous.

Approche Bottom-Up :
Elle consiste à créer les étoiles une par une, puis les regrouper par des niveaux
intermédiaires jusqu’à l’obtention d’un véritable entrepôt pyramidal avec une vision
d’entreprise.
Avantage : Simple à réaliser (une Etoile à la fois) tandis que l’inconvénient est le volume de
travail d’intégration pour obtenir un entrepôt de données ainsi que la possibilité de
redondances entre les étoiles (car elles sont faites indépendamment les unes des autres).

Approche Middle-Out (Hybride) :


La plus conseillée du BI ; elle consiste en la conception totale de l’entrepôt de données
(concevoir toutes les dimensions, tous les faits et toutes les relations), puis créer des
divisions plus petites et plus gérables et le mettre en œuvre. Cela équivaut à découper notre
conception par éléments en commun et réaliser les découpages un par un.

Etant donné que les DW sont en général très volumineux et très complexes à concevoir
même avec les approches ci-dessus il a été décidé de les diviser en éléments plus faciles à
créer et à entretenir, de plus, les DW sont utilisés pour stocker l’ensemble des données sans
pour autant avoir une partition ou une spécification or la majorité des entreprises traitent
des sujets ou plutôt des problèmes spécifiques (ventes, achat…) d’où la nécessité d’une
organisation.

Datamart :

Un datamart est un sous-ensemble d’un entrepôt de données destiné à fournir des données
aux utilisateurs, et souvent spécialisé vers un groupe ou un type d'affaire. Il s’agit d’une
forme simple de Data Warehouse centré sur un seul sujet ou fonction, comme les ventes, le
marketing ou la finance. Ils permettent d'améliorer le temps de réponse des utilisateurs
grâce au catalogage des données spécifiques.
Il s’agit de petits « magasins » de données dont l’ensemble forme le datawarehouse. Ils sont
un sous-ensemble d’un entrepôt de données destiné à fournir des données aux utilisateurs,
et souvent spécialisé vers un groupe ou un type d'affaire. Ils suivent donc les même principes
clés.

La différence entre les deux est que le datamart répond à un besoin métier plus spécifique
que le data Warehouse.

En matière de modélisation des Data Warehouse, il existe principalement deux approches de


pensées bien distinctes :

o La méthode Kimball : Approche dite ascendante dans laquelle on forme d’abord les
datamarts en fonction des activités ou entités de l’entreprise. Il pourrait donc y avoir
un datamart pour la finance, un pour les ventes et un autre pour les ressources
humaines. L’information au sein de ces datamarts n’est pas standardisée. On conçoit
ensuite le datawarehouse, qui est la combinaison de différents datamarts.

o La méthode Inmon : Approche dite descendante dans laquelle le datawarehouse est


formé en premier avec l’ensemble des données disponibles de l’entreprise. Les
datamart sont conçus dans un second temps en fonction des domaines d’activités ou
des entités de l’entreprise.

Maintenant on arrive au point le plus essentiel c’est que voilà les données sont bien stockées
bien organisées, Comment peut-on savoir les ventes du produit X pendant l’année Y dans
la région Z ? On comprend rapidement qu’il s’agit d’une analyse multidimensionnelle
irréalisable avec les bases de données classiques (les tables à deux dimensions), c’est quoi
alors la solution ?

OLAP (Online Analytical Processing)


Les bases de données OLAP facilitent les requêtes d’aide à la société. OLAP est une
technologie de base de données optimisée pour les requêtes et les rapports, plutôt que pour
le traitement des transactions. Les données sources pour OLAP sont des bases de données
OLTP (Online Transactional Processing) généralement stockées dans des entrepôts de
données. Les données OLAP sont dérivées de ces données historiques et agrégées dans des
structures qui autorisent une analyse sophistiquée. Les données OLAP sont également
organisées de manière hiérarchique et stockées dans des cubes au lieu de tables. Il s’agit
d’une technologie sophistiquée qui utilise des structures multidimensionnelles pour fournir
un accès rapide aux données à des fins d’analyse.

Cette organisation permet aux rapports de tableau croisé dynamique ou de PivotChart


d’afficher facilement des résumés de haut niveau, tels que le total des ventes dans un pays
ou une région entière, et d’afficher les détails des sites pour lequel les ventes sont
particulièrement fortes ou faibles.
Les bases de données OLAP sont conçues pour accélérer l’extraction des données.

Afin de mieux assimiler le schéma présente à la fin voici des définitions de certains
composants :

Cube : Un cube OLAP est une structure de données multidimensionnelle stockant les faits
indexés par plusieurs dimensions. Ainsi, chaque cellule d’un cube représente la mesure ou
valeur quantitative d’un fait sur le croisement de plusieurs dimensions.

Fait : ce sur quoi va porter l’analyse, ce sont des tables qui contiennent des informations
opérationnelles et qui relatent la vie de l’entreprise. Un fait est tout ce qu’on voudra
analyser !

Dimension : ensemble d’une ou plusieurs hiérarchies de niveaux organisées dans un cube


qu’un utilisateur comprend et utilise comme base pour l’analyse des données.

Mesure : ensemble de valeurs dans un cube qui sont basées sur une colonne dans la table
de faits du cube et qui sont généralement des valeurs numériques. Les mesures sont les
valeurs centrales du cube qui sont prétraitées, agrégées et analysées.
Etoile : une façon de mettre en relation les dimensions et les faits dans un entrepôt de
données. Le principe est que les dimensions sont directement reliées à un fait.

Flocon : un autre modèle de mis en relation des dimensions et des faits dans un entrepôt
de données. Le principe étant qu’il peut exister des hiérarchies de dimensions et qu’elles
sont reliées ce qui donne une ressemblance a un flocon
Constellation : une série d’étoiles ou de flocons relies entre eux par des dimensions en
commun.

Operations sur les bases de données OLAP :

Roll-Up (forage vers le haut) : représente les données a un niveau de granularité supérieur
selon la hiérarchie de la dimension désirée c’est-à-dire du plus particulier vers le général.

Drill-Down (forage vers le bas) : représente les données a un niveau de granularité


inferieur c’est-à-dire du plus général vers le particulier.

Slice (sélection) : obtenir des tranches de cubes selon une et une seule dimension.
Dice (sélection) : même chose que slice mais sur plusieurs dimensions.
Pivot (rotation) : tourner le cube pour visualiser une face différente.
Nest (rotation) : imbrique des membres issus de dimensions différentes.
Push (enfoncement) : combine les membres d’une dimension aux mesures.

Vous aimerez peut-être aussi