Vous êtes sur la page 1sur 4

Modélisation conceptuelle d’un DW

La modélisation de l'information est basée sur une vision multidimensionnelle des


données.
La modélisation multidimensionnelle consiste à considérer un sujet analysé comme un
point dans un espace à plusieurs dimensions.
Les données sont organisées de manière à mettre en évidence le sujet analysé et les
différentes perspectives de l'analyse.
Ci-dessous l'analyse des ventes selon Produits , Fournisseurs et Années.

Le concept de Fait
Un fait :

modélise le sujet de l'analyse


est formé de mesures correspondants aux informations de l'activité analysée.
Ces mesures sont numériques et généralement valorisées de façon continue. On peut
les additionner, les dénombrer ou bien calculer le minimum, le maximum ou la
moyenne.

Le fait de « Vente » peut être constitué des mesures d'activités suivantes :


Qantité et montant

Concept de dimensions
Le sujet analysé, c'est à dire le fait, est analysé suivant différentes
perspectives correspondant à une catégorie utilisée pour caractériser les mesures
d'activité analysées : On parle de dimensions.

Concept de dimensions
Le sujet analysé, c'est à dire le fait, est analysé suivant différentes
perspectives correspondant à une catégorie utilisée pour caractériser les mesures
d'activité analysées : On parle de dimensions.
Une dimension :
modélise une perspective de l'analyse
se compose de paramètres correspondant aux informations faisant varier les mesures
de l'activité.
Dans l’exemple précédent , le fait vente peut être analysé suivant 3 perspectives
correspondant à trois dimensions:

Dimension Temps,
Dimension Produits,
et Dimension Fournisseurs.

Hiérarchie des dimensions


Lors du processus OLAP, les données sont généralement analysées en partant d'un
faible niveau de détail vers des données plus détaillées pour "forer vers le bas".

Pour définir ces différents niveaux de détail, chaque dimension est munie d'une (ou
plusieurs) hiérarchie(s) de paramètres.

La hiérarchie :
sert lors des analyses pour restreindre ou accroître les niveaux de détail de
l'analyse.
organise les paramètres d'une dimension conformément à leur niveau de détail.
Les paramètres sont ordonnés par une relation hiérarchique "est plus fin" et notée
P1--->P2.

Par exemple, si on a la Dimension Geographie.

Schéma en étoile
Caractéristiques du schéma en étoile :

structure simple utilisant le modèle *entité-relation

une entité centrale : la table des faits :

objets de l'analyse
taille très importante
nombreux champs

des entités périphériques : les tables de dimensions :

dimensions de l'analyse
taille peu importante
peu de champs

Normalisation
Normalisation de la table de faits :
normalisation en Boyce-Codd Normal Form (BCNF) soit chaque attribut non clé dépend
fonctionnellement de la seule clé de la relation.

Normalisation des tables de dimensions :


Elles représentent une ou plusieurs hiérarchies.
Elles contiennent des données redondantes.
tables de dimensions : non normalisées

Avantages et inconvénients
Avantage
La table des faits est reliée à chaque table de dimensions par une seule et unique
relation, une seule et unique jointure.
Cela simplifie considérablement les requêtes et en améliore le temps d’exécution.

Inconvénients
La modélisation en étoile a un gros inconvénient : la redondance.
A cause de cette redondance, la modélisation en étoile utilise plus d’espace de
stockage que les autres modèles.

Schéma en flocon
Un modèle en flocon est une évolution du schéma en étoile avec :

une décomposition des dimensions du modèle en étoile en sous hiérarchies.


conservation du fait et éclatement des dimensions conformément à sa hiérarchie des
paramètres.
Cela conduit à une normalisation des tables de dimensions :
* structure hiérarchique des dimensions
* un niveau inférieur identifie un niveau supérieur
Avantages et inconvénients
Avantages
La formalisation d'une hiérarchie au sein d'une dimension.
La maintenance des tables de dimensions simplifiée.
La réduction de la redondance.
Inconvénients
Le risque de dénormalisation des dimensions générant une plus grande complexité en
termes de lisibilité et de gestion.
La navigation coûteuse (Requêtes complexes).

Schéma en constellation
Un modèle en constellation :
fusionne plusieurs modèles en étoile qui utilisent des dimensions communes.
comprend en conséquence plusieurs faits et des dimensions communes ou non
Schéma en constellation: Exemple
Exemple : Ventes de médicament dans des pharmacies
une constellation est constituée de 2 schémas en étoile :
l'un correspond aux ventes effectuées dans les pharmacies et
l'autre analyse les prescriptions des médecins
les dimensions Temps et Geographie sont partagées par les faits Prescriptions et
Vente.

Processus d’alimentation d’un Data Warehouse


Après avoir conçu le modèle des données, comment alimenter l’ED ?

Problématique de l’ETL: Extract, Transform, Load

Il s'agit d'une technologie informatique middleware permettant d'effectuer des


synchronisations massives d'information d'une source de données (le plus souvent
une base de données) vers une autre.

Les 04 étapes sont les principales actions du processus.

Sélection des données sources


Extraction des données
Nettoyage et Transformation
Chargement

L'Extraction des données


Un extracteur (wrapper) est associé à chaque source de données :

Il sélectionne et extrait les données.


Il les formate dans un format cible commun.
Il utilise des interfaces comme ODB, OCI, JDBC.
Il est à noter que le format cible est en général le modèle Relationnel.

Le nettoyage des données


L'objectif principal du nettoyage est de résoudre le problème de consistance des
données au sein de chaque source.

Types d’inconsistances :

La présence de données fausses dès leur saisie :


fautes de frappe
différents formats dans une même colonne
texte masquant de l’information (e.g., “N/A”)
valeur nulle
incompatibilité entre la valeur et la description de la colonne
duplication d’information, …

La persistance de données obsolètes.

Le chargement des données


La dernière étape du process est le chargement des données nettoyées et préparées
dans l’ED.
C'est une opération mécanique qui risque d'être assez longue.
Cela dit, elle ne présente aucune complexité de réalisation.

Il est nécessaire de définir et mettre en place :


* des stratégies pour assurer de bonnes conditions à sa réalisation.
* une politique de rafraîchissement.

Vous aimerez peut-être aussi