Vous êtes sur la page 1sur 44

Chapitre 2 :

Cours Les entrepôts de données


Data Warehouses

Prof. CHRAYAH Mohamed


Les entreprises passent à l’ ère de l’information.

Défi : Transformer leur système d’information qui


avait une vocation de production à un SI décisionnel
Dont la vocation de pilotage devient majeure.
Definition d’un Data warehouse
(DW)
La Data warehouse (entrepôt de données) est une
collection de données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le support
d ’un processus d ’aide à la décision (Inmon, 94).
Definition d’un Data warehouse
(DW)
1-Données orientées sujet
• Données structurées par thèmes (sujets majeurs de
l’entreprise) et non suivant les processus fonctionnels.
• Le sujet est transversal aux structures fonctionnelles
et organisationnelles de l’entreprise. On peut accéder
aux données utiles sur un sujet.
• L’intégration des différents sujets se fait dans une
structure unique.
Definition d’un Data warehouse
(DW)
1-Données orientées sujet
• Il n ’y a pas de duplication des informations
communes à plusieurs sujets.
• La base de données est construite selon les thèmes
qui touchent aux métiers de l’entreprise (clients,
produits, risques, rentabilité, …).
• Les données de base sont toutefois issues des
Systèmes d’Information Opérationnels (SIO).
Definition d’un Data warehouse
(DW)
2 Données intégrées

• Les données, issues de différentes applications de


production, peuvent exister sous toutes formes
différentes.
• Il faut les intégrer afin de les homogénéiser et de
leur donner un sens unique, compréhensible par
tous les utilisateurs.
• Elle doivent posséder un codage et une description
unique.
Definition d’un Data warehouse
(DW)
3 Données non-volatiles
• Une information est considérée volatile quand les
données sont régulièrement mises à jour comme dans
les Systèmes d’Information Opérationnels.
• Dans un SIO, les requêtes portent sur les données
actuelles. Il est difficile de retrouver un ancien résultat.
• Dans un DW, il est nécessaire de conserver l’historique
de la donnée. Ainsi, une même requête effectuée à deux
mois d’intervalle en spécifiant la date de référence de
la donnée, donnera le même résultat.
Definition d’un Data warehouse
(DW)
4 Données historisées
• Dans un SIO, les transactions se font en temps réel,
et les données sont mises à jour constamment.
L ’historique des valeurs de ces données n ’est
généralement pas conservé car il est inutile.
• Dans un DW, la donnée n’est jamais mise à jour.
• Les données du DW s ’ajoutent aux données déjà
engrangées.=> ajout de couches de données
successives, à la manière des strates géologiques
Definition d’un Data warehouse
(DW)
4 Données historisées

• Le DW stocke donc l’historique des valeurs que la


donnée aura prises au cours du temps.
• Un référentiel de temps est alors associé à la donnée
afin d’être capable d’identifier une valeur
particulière dans le temps.
• Les utilisateurs possèdent un accès aux données
courantes ainsi qu’à des données historisées.
Definition d’un Data warehouse
(DW)
5 Support d ’un processus d ’aide à la décision

Un DW est un système d ’information dédié aux


applications décisionnelles dont les principales
contraintes sont :
• des requêtes complexes à plusieurs niveaux d ’agrégation
• la nécessité de disposer d ’informations synthétiques («
reporting » de gestion, analyse des ventes, gestion de la
masse salariale, etc)
• le stockage des données sous une forme multi-
dimensionnelle
• des mises à jour périodiques
Objectifs d’un Data warehouse
• permet le développement d ’applications décisionnelles et
de pilotage de l ’entreprise et de ses processus
• joue un rôle de référentiel pour l ’entreprise puisqu ’il
permet de fédérer des données souvent éparpillées dans
différentes bases de données
• offre une vision globale et orientée métier de toutes les
données que manipule l ’entreprise
• permet de faire face aux changements du marché et de l
’entreprise
• offre une information compréhensible, utile , rapide et à
jour
Architecture d’un Data warehouse
Monitor
& OLAP Server
autres Meta-
sources données Integrator
Analyse
BD Requêtes
Extraire
opérationnelles Transformer Rapports
Data
Data mining
Charger Warehouse
Mettre à jour

Data Marts

Sources Stockage OLAP Outils Front-End


Architecture d’un Data
warehouse
1 Les Bases de Données
 Bases de données internes:
•Bases de production de l’entreprise
•Bases créées par les utilisateurs
 Bases de données externes à l’entreprise qui
nécessitent leur identification, leur rapatriement et
leur intégration.
•Données achetées à des fournisseurs de données
•Données récupérées sur Internet
Architecture d’un Data
warehouse
2 Opérations sur les données

EXTRACTION
• Extraire les données de leur environnement
d’origine (bases de données relationnelles, fichiers
plats, …).
• Utiliser une technique appropriée pour n ’extraire
que les données nécessaires : données créées ou
modifiées depuis la dernière opération d’extraction.
Architecture d’un Data
warehouse
2 Opérations sur les données
TRANSFORMATION
• Une même donnée peut avoir une structure ou une valeur différente
en fonction de la base (production, externe, utilisateurs) dont elle
provient.
• On peut être confronté à des redondances (un même client peut
apparaître avec différents attributs et propriétés selon la source
consultée).
• Il faut supprimer certaines données aberrantes qui risqueraient de
fausser les analyses.
• Il faut donc épurer et transformer les données.
Architecture d’un Data
warehouse
2 Opérations sur les données
CHARGEMENT/RAFRAICHISSEMENT
• Effectuer sur les données des opérations de calcul et d’agrégation.
• Remplacer certaines bases si aucune solution d’extraction satisfaisante n’est
possible.
• Mettre en place des procédures de chargement et de restauration (en cas de
problème).
• Typiquement, la fréquence du chargement est quotidienne et il est effectué
en tout début de matinée.
• Si la disponibilité du système ne peut être interrompue, envisager la mise en place
de systèmes redondants.
Architecture d’un Data warehouse
2 Opérations sur les données
LES OUTILS
• On peut automatiser tout ou partie des opérations
décrites.
• Des outils sont disponibles : Extract d’ETI, SIS de
MICROSOFT, SAS/Warehouse Administrator de
SAS…
• Le développement d’outils spécifiques est
envisageable mais risque d ’alourdir les tâches.
Architecture d’un Data warehouse
3 Dictionnaire de Données

• Le dictionnaire de données regroupe les méta-données.


• Une méta-donnée représente une donnée sur les données.
Il s’agit de l’ensemble des informations qui permettent
de qualifier une donnée, notamment par sa sémantique,
sa règle de calcul, sa provenance, sa qualité, etc…
• les méta-données permettent de préciser de quelle table
provient la donnée, à quelles dates et heures elle en a
été extraite, l’état de la base à cet instant, etc...
Architecture d’un Data warehouse
3 Dictionnaire de Données

• Une méta-donnée permet de « remonter la chaîne » et de


reconstituer l’ensemble d’événements et données qui ont servi
à obtenir l’information associée.
• Le dictionnaire de données contient toutes les informations
permettant d’exploiter les données.
• C’est un référentiel destiné aux utilisateurs et à
l’administrateur du DW.
• A ce jour, il n’existe pas de normes en ce qui concerne la
structure et la gestion des dictionnaires de données. Chaque
outil propose sa solution et son approche.
Architecture d’un Data warehouse
4 LES DATA MARTS

• Un data mart (magasin de données) est un DW focalisé sur un


sujet particulier, souvent au niveau départemental ou métier.
• C ’est donc un mini DW lié à un métier particulier de l ’entreprise
(finance, commercial, …).
• Un DW est souvent volumineux (plusieurs centaines de Go voire
quelques To ) avec des performances inappropriées (temps de
réponse trop longs). Un Data mart, quant à lui, comporte moins
de 50 Go, ce qui permet des performances acceptables.
• La création d’un data mart peut être un moyen de débuter un
projet de DW (projet pilote).
LES DATA MARTS
Modélisation d’un Data
warehouse
Table de Faits

Les faits sont ce sur quoi va porter l'analyse. Ce sont des


tables qui contiennent des informations opérationnelles et qui
relatent la vie de l'entreprise. On aura des tables de faits
pour les ventes (chiffre d'affaire net, quantités et montants
commandés, quantités facturées, quantités retournées, volumes
des ventes, etc.)
par exemple ou sur les stocks (nombre d'exemplaires d'un
produit en stock, niveau de remplissage du stock, taux de
roulement d'une zone, etc….
Un fait est tout ce qu'on voudra analyser.
Table de Faits
➢ Comprennent deux types de colonnes:
– Clés étrangères vers des tables de
dimension;
– Valeurs numériques souvent
additives (mesures).
➢ Modélisent des relations de type
plusieurs-à-plusieurs (table de jointure en
relationnel)
Clés primaires:
➢ La clé primaire est typiquement une clé
composée, formée d'un sous-ensemble
des clés étrangères vers les tables de
dimension Ex:
(Code_produit,Clé_date,N_client…).
➢ Clés étrangères: Les clés étrangères ne
devraient jamais être nulles, sinon on
peut violer le principe d'intégrité
référentielle; Utiliser plutôt une valeur
spéciale dans la table de dimension;
Table de dimensions

On entend par dimensions les axes avec lesquels on


veut faire l'analyse. Il peut y avoir une dimension
client, une dimension produit, une dimension
géographie (pour faire des analyses par secteur
géographique).

Une dimension est tout ce qu'on utilisera pour faire


nos analyses.
Table de dimensions
➢ Propriétés des attributs:
– Descriptif (ex: chaînes de caractères);
– De qualité (ex: aucune valeur manquante, obsolète, erronée, etc.);
– Principalement des valeurs discrètes (ex: jour, âge d'un client);
➢ Rôles des attributs:
– Filtrer / restreindre les requêtes (ex: ville, catégorie produit, etc.);
– Étiqueter les résultats (ex: champs descripteurs).

La puissance analytique du Datawarehouse est


proportionnelle à la richesse et la qualité des attributs
dimensionnels
Hiérarchies dimensionnelles
Un ensemble d'attributs ayant une relation hiérarchique
(x est inclus dans y);

Exemple:
– Temps: année→ mois→Trimestre→ semaine → jour →heure;
– Produit: famille→ catégorie→ marque→ produit;
– Lieu: pays→ province→région→ ville→ code→ postal.
Dimension Temps
Centrale car la plupart des faits correspondent à des
événements d'affaires de l'entreprise;
Le modèle en étoile
Le modèle en étoile
➢ Une (ou plusieurs) table(s) de faits : identifiants des tables de
dimension ; une ou plusieurs mesures .
➢ Plusieurs tables de dimension : descripteurs des dimensions.

Avantages :
Facilité de navigation
Performances : nombre de jointures limité .
Gestion des agrégats
Fiabilité des résultats
Inconvénients :
♦ Toutes les dimensions ne concernent pas les mesures
♦ Redondances dans les dimensions
♦ Alimentation complexe.
Propriétés des mesures

Additivité : somme sur toutes les mesures


Exemple : CA ; Quantité vendue, ...
Semi-additivité : somme sur certaine mesures :
Exemple : nbre de contacts clients, Etats des stocks, ...
Non-additivité : pas de somme , recalculer
Exemple : encours moyen fin de mois, plus grand CA
pour l’ensemble des magasins
Mesures <> Attributs
➢ Mesures:
– Dépendent d'un événement d'affaires;
– Ont souvent des valeurs continues (ou un grand nombre de valeurs
discrètes possibles);
– Servent dans le calcul d’indicateurs de performance; –
Ex: montant total et quantité d'une commande.
➢ Attributs (numériques) de dimension:
– Indépendants des événements d'affaires;
– Ont souvent des valeurs discrètes;
– Servent à filtrer ou étiqueter les faits;
Ex: jour et heure d'une transaction, âge d'un client, etc.
Modélisation en étoile

❖ La table de fait contient se qu'on appelle des mesures .


❖ Les tables de dimension contiennent les éléments
qu'utiliseront les décideurs pour voir la table de faits.
❖ On n'utilise JAMAIS la clé d'un système de production
comme clé de dimension.
❖ Chaque ligne de la table de faits doit avoir une relation
avec chacune des tables de dimensions
❖ Il n'existe de relations qu'entre les dimensions et les tables
de faits.
Exemple1
On vous demande de créer un data Mart (une étoile) pour
l'analyse de l'activité des représentants d'une entreprise de
vente d'imprimantes. Le chef d'entreprise veut savoir ce qui
se passe pour ses vendeurs. Les employés font ils leur
travail, quelle est la zone de couverture des vendeurs, ou
sont les endroits où les vendeurs sont le moins efficaces,
quelle est la moyenne de ventes des représentants, etc., etc.
L'entreprise possède un système de gestion de ressources
humaines, un système de gestion des ventes et des feuilles de
routes avec des informations concernant les vendeurs :
kilomètres parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Exemple1
Date Vendeur Produit Zone géographique Client

Années Nom Catégorie Pays Nom

Mois Prénom Type Province Adresse

Jours Salaire Groupe Ville Pays

Heures

Analyse : consommation
d'essence,
Qte
commandée,
Qte précommandée,
kilométrage,nombre de visites,
etc.
Exemple 1
Exemple 2

On vous demande de créer un data Mart (une étoile) pour


l'analyse de l'activité d´un magasins de boissons. Une chaine
nationale fictive de magasins de boissons. Celle-ci vient d´
implémenter un programme carte de fidélité dans les points
de vente. Quoique le programme soit relativement récent et
que les ventes sur carte de fidélité ne représentent encore
que 5% des ventes nationales, la direction désire analyser les
ventes et le marketing au niveau du client et savoir si la
manière d´acheter des clients détenteurs d´une carte de
fidélité diffère du mode de consommation des clients
anonymes.
Exemple 2
Le modèle floconné
Le modèle floconné
Le modèle floconné

 La modélisation en flocon étant une variante de la


modélisation en étoile.

 Le principe de la modélisation en flocon est de créer


des hiérarchies de dimensions, de telle manière à avoir
moins de lignes par dimensions
Le modèle floconné

Modèle floconné = Modèle en étoile + normalisation


des dimension

Lorsque les tables sont trop volumineuses


Avantages :
• réduction du volume,
• permettre des analyses sur la dimension hiérarchisée.
Inconvénients :
• navigation difficile ;
• nombreuses jointures.
Le modèle Constellation

Une constellation est une série d'étoiles ou de flocons


reliées entre eux par des dimensions.
Il s'agit donc d'étoiles avec des dimensions en commun. Un
environnement décisionnel idéal serait une place ou il serait
possible de naviguer d'étoile en étoile, de constellation en
constellation et de Data Mart en DataMart à la recherche
de l'information si précieuse.
Le modèle Constellation

Vous aimerez peut-être aussi