Vous êtes sur la page 1sur 66

Chapitre 2 :

Cours Les entrepôts de données


Data Warehouses

Prof. CHRAYAH Mohamed


Les entreprises passent à l’ ère de l’information.

Défi : Transformer leur système d’information qui


avait une vocation de production à un SI décisionnel
Dont la vocation de pilotage devient majeure.
Definition d’un Data warehouse
(DW)
La Data warehouse (entrepôt de données) est une
collection de données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le support
d ’un processus d ’aide à la décision (Inmon, 94).
Definition d’un Data warehouse
(DW)
1-Données orientées sujet
• Données structurées par thèmes (sujets majeurs de
l’entreprise) et non suivant les processus fonctionnels.
• Le sujet est transversal aux structures fonctionnelles
et organisationnelles de l’entreprise. On peut accéder
aux données utiles sur un sujet.
• L’intégration des différents sujets se fait dans une
structure unique.
Definition d’un Data warehouse
(DW)
1-Données orientées sujet
• Il n ’y a pas de duplication des informations
communes à plusieurs sujets.
• La base de données est construite selon les thèmes
qui touchent aux métiers de l’entreprise (clients,
produits, risques, rentabilité, …).
• Les données de base sont toutefois issues des
Systèmes d’Information Opérationnels (SIO).
Definition d’un Data warehouse
(DW)
2 Données intégrées

• Les données, issues de différentes applications de


production, peuvent exister sous toutes formes
différentes.
• Il faut les intégrer afin de les homogénéiser et de
leur donner un sens unique, compréhensible par
tous les utilisateurs.
• Elle doivent posséder un codage et une description
unique.
Definition d’un Data warehouse
(DW)
3 Données non-volatiles
• Une information est considérée volatile quand les
données sont régulièrement mises à jour comme dans
les Systèmes d’Information Opérationnels.
• Dans un SIO, les requêtes portent sur les données
actuelles. Il est difficile de retrouver un ancien résultat.
• Dans un DW, il est nécessaire de conserver l’historique
de la donnée. Ainsi, une même requête effectuée à deux
mois d’intervalle en spécifiant la date de référence de
la donnée, donnera le même résultat.
Definition d’un Data warehouse
(DW)
4 Données historisées
• Dans un SIO, les transactions se font en temps réel,
et les données sont mises à jour constamment.
L ’historique des valeurs de ces données n ’est
généralement pas conservé car il est inutile.
• Dans un DW, la donnée n’est jamais mise à jour.
• Les données du DW s ’ajoutent aux données déjà
engrangées.=> ajout de couches de données
successives, à la manière des strates géologiques
Definition d’un Data warehouse
(DW)
4 Données historisées

• Le DW stocke donc l’historique des valeurs que la


donnée aura prises au cours du temps.
• Un référentiel de temps est alors associé à la donnée
afin d’être capable d’identifier une valeur
particulière dans le temps.
• Les utilisateurs possèdent un accès aux données
courantes ainsi qu’à des données historisées.
Definition d’un Data warehouse
(DW)
5 Support d ’un processus d ’aide à la décision

Un DW est un système d ’information dédié aux


applications décisionnelles dont les principales
contraintes sont :
• des requêtes complexes à plusieurs niveaux d ’agrégation
• la nécessité de disposer d ’informations synthétiques («
reporting » de gestion, analyse des ventes, gestion de la
masse salariale, etc)
• le stockage des données sous une forme multi-
dimensionnelle
• des mises à jour périodiques
Objectifs d’un Data warehouse
• permet le développement d ’applications décisionnelles et
de pilotage de l ’entreprise et de ses processus
• joue un rôle de référentiel pour l ’entreprise puisqu ’il
permet de fédérer des données souvent éparpillées dans
différentes bases de données
• offre une vision globale et orientée métier de toutes les
données que manipule l ’entreprise
• permet de faire face aux changements du marché et de l
’entreprise
• offre une information compréhensible, utile , rapide et à
jour
Architecture d’un Data warehouse
Monitor
& OLAP Server
autres Meta-
sources données Integrator
Analyse
BD Requêtes
Extraire
opérationnelles Transformer Rapports
Data
Data mining
Charger Warehouse
Mettre à jour

Data Marts

Sources Stockage OLAP Outils Front-End


Architecture d’un Data
warehouse
1 Les Bases de Données
 Bases de données internes:
•Bases de production de l’entreprise
•Bases créées par les utilisateurs
 Bases de données externes à l’entreprise qui
nécessitent leur identification, leur rapatriement et
leur intégration.
•Données achetées à des fournisseurs de données
•Données récupérées sur Internet
Architecture d’un Data
warehouse
2 Opérations sur les données

EXTRACTION
• Extraire les données de leur environnement
d’origine (bases de données relationnelles, fichiers
plats, …).
• Utiliser une technique appropriée pour n ’extraire
que les données nécessaires : données créées ou
modifiées depuis la dernière opération d’extraction.
Architecture d’un Data
warehouse
2 Opérations sur les données
TRANSFORMATION
• Une même donnée peut avoir une structure ou une valeur différente
en fonction de la base (production, externe, utilisateurs) dont elle
provient.
• On peut être confronté à des redondances (un même client peut
apparaître avec différents attributs et propriétés selon la source
consultée).
• Il faut supprimer certaines données aberrantes qui risqueraient de
fausser les analyses.
• Il faut donc épurer et transformer les données.
Architecture d’un Data
warehouse
2 Opérations sur les données
CHARGEMENT/RAFRAICHISSEMENT
• Effectuer sur les données des opérations de calcul et d’agrégation.
• Remplacer certaines bases si aucune solution d’extraction satisfaisante n’est
possible.
• Mettre en place des procédures de chargement et de restauration (en cas de
problème).
• Typiquement, la fréquence du chargement est quotidienne et il est effectué
en tout début de matinée.
• Si la disponibilité du système ne peut être interrompue, envisager la mise en place
de systèmes redondants.
Architecture d’un Data warehouse
2 Opérations sur les données
LES OUTILS
• On peut automatiser tout ou partie des opérations
décrites.
• Des outils sont disponibles : Extract d’ETI, SIS de
MICROSOFT, SAS/Warehouse Administrator de
SAS…
• Le développement d’outils spécifiques est
envisageable mais risque d ’alourdir les tâches.
Architecture d’un Data warehouse
3 Dictionnaire de Données

• Le dictionnaire de données regroupe les méta-données.


• Une méta-donnée représente une donnée sur les
données. Il s’agit de l’ensemble des informations qui
permettent de qualifier une donnée, notamment par sa
sémantique, sa règle de calcul, sa provenance, sa qualité,
etc…
• les méta-données permettent de préciser de quelle table
provient la donnée, à quelles dates et heures elle en a
été extraite, l’état de la base à cet instant, etc...
Architecture d’un Data warehouse
3 Dictionnaire de Données

• Une méta-donnée permet de « remonter la chaîne » et de


reconstituer l’ensemble d’événements et données qui ont
servi à obtenir l’information associée.
• Le dictionnaire de données contient toutes les informations
permettant d’exploiter les données.
• C’est un référentiel destiné aux utilisateurs et à
l’administrateur du DW.
• A ce jour, il n’existe pas de normes en ce qui concerne la
structure et la gestion des dictionnaires de données. Chaque
outil propose sa solution et son approche.
Architecture d’un Data
warehouse
4 LES DATA MARTS

• Un data mart (magasin de données) est un DW focalisé sur un


sujet particulier, souvent au niveau départemental ou métier.
• C ’est donc un mini DW lié à un métier particulier de l ’entreprise
(finance, commercial, …).
• Un DW est souvent volumineux (plusieurs centaines de Go voire
quelques To ) avec des performances inappropriées (temps de
réponse trop longs). Un Data mart, quant à lui, comporte moins
de 50 Go, ce qui permet des performances acceptables.
• La création d’un data mart peut être un moyen de débuter un
projet de DW (projet pilote).
LES DATA MARTS
Modélisation d’un Data
warehouse
Table de Faits

Les faits sont ce sur quoi va porter l'analyse. Ce sont des


tables qui contiennent des informations opérationnelles et qui
relatent la vie de l'entreprise. On aura des tables de faits
pour les ventes (chiffre d'affaire net, quantités et montants
commandés, quantités facturées, quantités retournées, volumes
des ventes, etc.)
par exemple ou sur les stocks (nombre d'exemplaires d'un
produit en stock, niveau de remplissage du stock, taux de
roulement d'une zone, etc….
Un fait est tout ce qu'on voudra analyser.
Table de Faits
➢ Comprennent deux types de colonnes:
– Clés étrangères vers des tables de
dimension;
– Valeurs numériques souvent
additives (mesures).
➢ Modélisent des relations de type
plusieurs-à-plusieurs (table de jointure en
relationnel)
Clés primaires:
➢ La clé primaire est typiquement une clé
composée, formée d'un sous-ensemble
des clés étrangères vers les tables de
dimension Ex:
(Code_produit,Clé_date,N_client…).
➢ Clés étrangères: Les clés étrangères ne
devraient jamais être nulles, sinon on
peut violer le principe d'intégrité
référentielle; Utiliser plutôt une valeur
spéciale dans la table de dimension;
Table de dimensions

On entend par dimensions les axes avec lesquels on


veut faire l'analyse. Il peut y avoir une dimension
client, une dimension produit, une dimension
géographie (pour faire des analyses par secteur
géographique).

Une dimension est tout ce qu'on utilisera pour faire


nos analyses.
Table de dimensions
➢ Propriétés des attributs:
– Descriptif (ex: chaînes de caractères);
– De qualité (ex: aucune valeur manquante, obsolète, erronée, etc.);
– Principalement des valeurs discrètes (ex: jour, âge d'un client);
➢ Rôles des attributs:
– Filtrer / restreindre les requêtes (ex: ville, catégorie produit, etc.);
– Étiqueter les résultats (ex: champs descripteurs).

La puissance analytique du Datawarehouse est


proportionnelle à la richesse et la qualité des attributs
dimensionnels
Hiérarchies dimensionnelles
Un ensemble d'attributs ayant une relation hiérarchique
(x est inclus dans y);

Exemple:
– Temps: année→ mois→Trimestre→ semaine → jour →heure;
– Produit: famille→ catégorie→ marque→ produit;
– Lieu: pays→ province→région→ ville→ code→ postal.
Dimension Temps
Centrale car la plupart des faits correspondent à des
événements d'affaires de l'entreprise;
Le modèle en étoile
Le modèle en étoile
➢ Une (ou plusieurs) table(s) de faits : identifiants des tables de
dimension ; une ou plusieurs mesures .
➢ Plusieurs tables de dimension : descripteurs des dimensions.

Avantages :
Facilité de navigation
Performances : nombre de jointures limité .
Gestion des agrégats
Fiabilité des résultats
Inconvénients :
♦ Toutes les dimensions ne concernent pas les mesures
♦ Redondances dans les dimensions
♦ Alimentation complexe.
Propriétés des mesures

Additivité : somme sur toutes les mesures


Exemple : CA ; Quantité vendue, ...
Semi-additivité : somme sur certaine mesures :
Exemple : nbre de contacts clients, Etats des stocks, ...
Non-additivité : pas de somme , recalculer
Exemple : encours moyen fin de mois, plus grand CA
pour l’ensemble des magasins
Mesures <> Attributs
➢ Mesures:
– Dépendent d'un événement d'affaires;
– Ont souvent des valeurs continues (ou un grand nombre de valeurs
discrètes possibles);
– Servent dans le calcul d’indicateurs de performance; –
Ex: montant total et quantité d'une commande.
➢ Attributs (numériques) de dimension:
– Indépendants des événements d'affaires;
– Ont souvent des valeurs discrètes;
– Servent à filtrer ou étiqueter les faits;
Ex: jour et heure d'une transaction, âge d'un client, etc.
Modélisation en étoile

❖ La table de fait contient se qu'on appelle des mesures .


❖ Les tables de dimension contiennent les éléments
qu'utiliseront les décideurs pour voir la table de faits.
❖ On n'utilise JAMAIS la clé d'un système de production
comme clé de dimension.
❖ Chaque ligne de la table de faits doit avoir une relation
avec chacune des tables de dimensions
❖ Il n'existe de relations qu'entre les dimensions et les tables
de faits.
Exemple1
On vous demande de créer un data Mart (une étoile) pour
l'analyse de l'activité des représentants d'une entreprise de
vente d'imprimantes. Le chef d'entreprise veut savoir ce qui
se passe pour ses vendeurs. Les employés font ils leur
travail, quelle est la zone de couverture des vendeurs, ou
sont les endroits où les vendeurs sont le moins efficaces,
quelle est la moyenne de ventes des représentants, etc., etc.
L'entreprise possède un système de gestion de ressources
humaines, un système de gestion des ventes et des feuilles de
routes avec des informations concernant les vendeurs :
kilomètres parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Exemple1
Date Vendeur Produit Zone géographique Client

Années Nom Catégorie Pays Nom

Mois Prénom Type Province Adresse

Jours Salaire Groupe Ville Pays

Heures

Analyse : consommation
d'essence,
Qte
commandée,
Qte précommandée,
kilométrage,nombre de visites,
etc.
Exemple 1
Exemple 2

On vous demande de créer un data Mart (une étoile) pour


l'analyse de l'activité d´un magasins de boissons. Une chaine
nationale fictive de magasins de boissons. Celle-ci vient d´
implémenter un programme carte de fidélité dans les points
de vente. Quoique le programme soit relativement récent et
que les ventes sur carte de fidélité ne représentent encore
que 5% des ventes nationales, la direction désire analyser les
ventes et le marketing au niveau du client et savoir si la
manière d´acheter des clients détenteurs d´une carte de
fidélité diffère du mode de consommation des clients
anonymes.
Exemple 2
Le modèle floconné
Le modèle floconné
Le modèle floconné

 La modélisation en flocon étant une variante de la


modélisation en étoile.

 Le principe de la modélisation en flocon est de créer


des hiérarchies de dimensions, de telle manière à avoir
moins de lignes par dimensions
Le modèle floconné

Modèle floconné = Modèle en étoile + normalisation


des dimension

Lorsque les tables sont trop volumineuses


Avantages :
• réduction du volume,
• permettre des analyses sur la dimension hiérarchisée.
Inconvénients :
• navigation difficile ;
• nombreuses jointures.
Le modèle Constellation

Une constellation est une série d'étoiles ou de flocons


reliées entre eux par des dimensions.
Il s'agit donc d'étoiles avec des dimensions en commun. Un
environnement décisionnel idéal serait une place ou il serait
possible de naviguer d'étoile en étoile, de constellation en
constellation et de Data Mart en DataMart à la recherche
de l'information si précieuse.
Le modèle Constellation
Le Concept OLAP
L’OLAP ou Online Analytical Processing est une
technique informatique d'analyse multidimensionnelle,
qui permet aux décideurs, d'avoir accès rapidement et
de manière interactive à une information pertinente
présentée sous des angles divers et multiples, selon
leurs besoins particuliers. A titre d’exemple on peut
représenter de façon graphique des informations
contenues dans une base de données, sous la forme
d'un cube à plusieurs dimensions, lequel cube permet
d'analyser ces données sous différents angles, grâce à
l'organisation de celles-ci en axes d'analyses et en
variables à analyser.
Microdonnées

Les microdonnées ou données brutes sont des résultats


immédiats d'observations de variables statistiques qui
n'ont pas été traités au niveau statistique. À titre
d'exemple, on peut dire que les réponses à l'Enquête
nationale sur la santé de la population sont des
microdonnées. Le traitement de ce type de données
nécessite une bonne connaissance de la statistique et des
outils correspondants (logiciel SPSS, logiciel SAS, etc.).
Données agrégées
Contrairement aux microdonnées, les données agrégées
sont mises à la disponibilité des usagers après qu'elles aient
été traitées au niveau statistique. En effet, les données
agrégées sont constituées à partir d'un fichier de
microdonnées et sont le résultat d'une combinaison de
différentes mesures. On les obtient en faisant une addition
ou une moyenne des valeurs individuelles obtenues. Elles
permettent d'obtenir de l'information sur des groupes qui
ont des caractéristiques communes. On peut agréger par
lieux géographiques, par caractéristiques ou par temps.
OLAP et Data Warehouse
Il est important de distinguer les capacités d’un data
warehouse de celles d’un système OLAP.
Contrairement à un data warehouse qui se base le plus
souvent sur une technologie relationnelle, OLAP
utilise des vues multidimensionnelles de données
agrégées afin de permettre un accès rapide à des
informations stratégiques pour une analyse plus fine. "
OLAP et Data Warehouse
OLAP est un mode de stockage prévu pour l’analyse statistique des données. Une base de données
OLAP peut se représenter comme un cube à N dimensions où toutes les
intersections sont pré-calculées.
L’exemple suivant ne possède que trois dimensions pour que l’on puisse le représenter visuellement mais
ce n’est en aucun cas une limite. Il s’agit d’un cube représentant les
ventes de fruits d’une entreprise. Les trois axes représentés sont :
Le pays de vente
Le type de fruit
La période
Le Concept OLAP
Les 12 règles OLAP:
 Vue multidimensionnelle.
 Transparence du serveur OLAP a différents types de logiciels.
 Accessibilité a de nombreuses sources de données.
 Performance du système de Reporting.
 Architecture Client/serveur.
 Dimension génériques.
 Gestion dynamique des matrices creuses.
 Support multi-utilisateurs.
 Calculs a travers les dimensions.
 Manipulation intuitive des données.
 Souplesse et facilité de constitution des rapports.
 Nombre illimité de niveaux d’agrégation et de dimensions
Analyse Multidimentionnelle
Les serveurs OLAP ont été conçus pour s’intégrer dans un environnement
client/serveur afin d’en retirer les possibilités offertes.
TEMPS
1000
4000
8000
7000
CLIENT

12000
4000

PRODUIT
Analyse Multidimentionnelle
1- obtenir des informations déjà agrégées selon les besoins de l’utilisateur.
2- simplicité et rapidité d’accès
3- capacité à manipuler les données agrégées selon différentes dimensions
4- un cube utilise les fonctions classiques d’agrégation : min, max, count, sum,
avg, mais peut utiliser des fonctions d’agrégations spécifiques.
Analyse Multidimentionnelle
Analyse Multidimentionnelle
 LES DIMENSIONS

 LES VARIABLES

L’utilisateur formulera alors ses requêtes en précisant les indicateurs a


analyser(le chiffre d’affaire),les dimensions sur lesquelles ces analyseurs
doivent être projetées (le produit et le client) et la population a observer (le
mois mars 2010)
Cube de données

Date
NumFou 2021 350 600 300
2020 300 500 400

250 200 F2
NumPro 2019
F1
P1 P2 P3
La granularité des dimensions
Temps Jours Mois Trimestres Années

Géographie Villes Régions Pays

Produits Numéros Types Gammes Marques

Le multidimensionnel
Exemple
 Montant des ventes fonction de (Mois, région, Produit)

Granularité des dimensions


:
Type Région Année

Catégorie Pays Trimestre


Produit

Produit Ville Mois Semaine

Magasin Jour

Mois
Le multidimensionnel
La navigation multidimensionnelle
Projection en 2 dimensions Coupe d ’un cube

Produits Produits
pour une région donnée
CA CA

Région
Temps en semaines
Réduction selon 1 dimension
Zoom selon une dimension
Produits
France

CA Est Sud Ouest

Temps en mois Lyon Marseille Nice


Exemple
La figure suivante présente un cube de données forme de montants de vente
en cellules et de trois arêtes graduées respectivement par des catégories de produits, des
villes de magasins et des trimestres. La notion de cube de données ne se limite pas a trois
axes mais se généralise en hyper-cube ou le nombre d’axes est quelconque pouvant aller
jusqu’a plusieurs dizaines.
Structure de visualisation
Il s’agit d’une vision synthétique et précise des données que les décideurs appréhendent
facilement. Elle dérive directement de la métaphore du cube de données puisqu’elle peut
être considérée comme la tranche du cube de données comme l’illustre la figure suivante.
Analyse Multidimentionnelle
Navigation dans les données:
 DRILL-DOWN,DRILL-UP
Le drill-down/up désigne la faculté d’aller du niveau global vers le niveau
détaillé ,et inversement.
Ce mécanisme est totalement basé sur la notion de hiérarchie
 SLIDE AND DICE
Désigne la possibilité de faire pivoter dynamiquement les axes du tableau
d’analyse croisée.
 DATA SURFING
La possibilité laissée a l’utilisateur de circuler librement, de manière intuitive
et ergonomique dans un modèle dimensionnel, l’utilisateur peut alors
modifier dynamiquement ses axes d’analyse ou appliquer un nouveau filtre a
ses données.
LES DIFFERENTS OUTILS OLAP

Deux versions d'OLAP s'affrontent actuellement:

 Les outils MOLAP (Multidimensional OLAP) d'une


part qui s'appuient sur une base de données
multidimensionnelle.
 Les outils ROLAP (Relational OLAP) d'autre part, qui
représente leur équivalent sur une base de données
relationnelle.
LES OUTILS ROLAP

Data Warehouse Moteur ROLAP Aide à la décision

Données Traitements Présentation

Stockage des Génération de plans Rapports


données détaillées (et d'exécution SQL Multi-Dimensionnel
agrégées) et afin d'obtenir des
des méta-données fonctionnalités OLAP.
LES OUTILS ROLAP
L’approche la plus répandue consiste a stocker les bases de données
multidimensionnelles dans un environnement relationnel : on parle de
l’approche ≪ Relational OLAP ≫ (R-OLAP).
Dans le contexte relationnel, la BDM est traduite par des relations. Cette
approche procure de nombreux avantages : reutilisation des
mecanismes de gestion des donnees éprouves depuis des décennies et
capacite a gerer des volumes de donnees tres importants.
LES OUTILS MOLAP
Data Warehouse Moteur MOLAP Aide à la décision

Données Traitements Présentation

Stockage des Rapports


données détaillées (et Multi-Dimensionnel
agrégées)
LES OUTILS MOLAP

Une autre approche consiste a développer une technologie dédiée a la


gestion des structures multidimensionnelles. Cette approche dite ≪
Multidimensionnel OLAP ≫ (M-OLAP) vise a offrir des niveaux élevés
de performance. Les bases M-OLAP stockent les données nativement
sous une forme multidimensionnelle : il s’agit d’une application
physique du concept de cube. Les bases de données de type M-OLAP
restent limitées dans leur capacité a gérer d’importants volumes de
données (au-delà du gigaoctet) et se heurtent a la nécessité de
développer spécifiquement et entièrement tous les mécanismes des
systèmes de gestion de base de données.

Vous aimerez peut-être aussi