Vous êtes sur la page 1sur 51

Data WareHouse

Plan
• Introduction
• Eléments de la théorie des systèmes 
d'informations
• Les entrepôts de données (Datawarehouse)
• Les datamart
• Architecture
• Modélisation 

2
Présentation
• Besoin: prise de décisions stratégiques et tactiques
• Quoi: productivité de l'entreprise, réactivité des hommes, clients
• Qui: le système de pilotage de l'entreprise (Décideurs)

3
Eléments de la théorie des SI
• Référentiel des complexités croissantes
• L'entreprise système.

4
Référentiel des complexités 
croissantes
Objectif: fournir une échelle pour mesurer la complexité 
d'un système
• Niveau 1 : objet passif (une pierre)
• Niveau 2 : actif (ampoule électrique)
• Niveau 3 : actif et régulé, (l’objet refuse certains 
comportements)
L’objet est doté d’un autre processeur chargé de 
cette régulation (la cocotte‐minute).
• Niveau 4 : l’objet s’informe
Le processeur de régulation s’informe sur l’activité du 
processeur actif. Ce modèle représente le schéma de base 
de la cybernétique
5
Référentiel des complexités 
croissantes

6
Référentiel des complexités 
croissantes
• Niveau 5: L’objet décide de son activité
On passe d’un comportement programmé à un comportement imprévisible

•Information Décision

. •Processeur
•décisionnel

•Information représentation

•Processeur
•actif

7
Référentiel des complexités 
croissantes
• Niveau 6: L’objet à une mémoire
Le processeur décisionnel fait appel aux 
informations non seulement de l’état actuel, 
mais aussi aux informations des états passés.

•Processeur
•Décisionnel
•Mémorisation

•Mémoire

•Processeur
•actif

8
Référentiel des complexités 
croissantes
• Niveau 7: L’objet se coordonne
Le processeur actif devient une fédération 
de processeurs coordonnés (système opérant). 

9
Référentiel des complexités 
croissantes
• Niveau 8: L’objet imagine et s’auto organise :
• Elaborer des plans d’actions
• Imaginer l’organisation de ses sous systèmes

10
Référentiel des complexités 
croissantes
Niveau 9 : l’objet est capable de définir ses objectifs.
•Objectifs :

•Système finalisation (le SP est capable de changer


•SP ses objectifs)

•Système imagination conception

•SD

11
L'entreprise système
• Définition: Le SI est une représentation de 
l’activité du SO et/ou du SP, et de ses 
échanges avec l’environnement

12
Typologie des systèmes d'information
• SIP: Systèmes d’information de production: 
Dans ces SI l’information est gérée par le 
SP
SO de l’entreprise.
SD SIC SF
• SIO (systèmes d'information 
opérationnels):Information de 
SIO représentation et de coordination de 
SO
l’activité du SO destiné au sous système de 
régulation dans le SP.

• SID (Systèmes d’information décisionnels).
• SIS : SI à portée stratégique 
• SSI: SI d’aide à la stratégie 
• Autre notation :(Tardieu : Le triangle stratégique, structure et 
technologie de l’information)
• Systèmes d’information‐stratégiques SI‐S
• Systèmes‐d’informations stratégiques S‐IS
13
Informatisation d'un SI
SIO • SIO: Système d'informatisation 
organisationnel, résultat de l’activité de 
SII l’entreprise (Informations, tâches 
humaines/Informatisées)
• SII: Système d'information informatisé.

• Sciences de la gestion  SIO (naturel)
• Disciplines du génie logiciel SII (artificiel)
• L’état actuel des connaissances ne nous permet pas d’avoir une 
méthode de complexité 8 ou 9 (SI auto adaptatif ‐ SI auto exécutif) 
donc les méthodes de conception actuelles modélisent l’entreprise 
uniquement au niveau 7 de complexité. (À organisation stabilisée).
14
Les données pertinentes
• Sources de données
– Sources internes
• Bases de données de production
• Bases créées par les utilisateurs (bases relationnelles, fichiers plats).
– Sources externes
• Internet.
• Organismes 
• Caractéristiques de ces données:
– Dispersées et hétérogènes
– Détaillées
– Peu/pas adaptées à l’analyse
– Volatiles: pas d’historisation systématique

• Données pertinents
– informations dont la variation permet de dévoiler des dysfonctionnements ou même 
prévoir des problèmes futurs
– Types d'indicateurs
• Indicateurs internes: produits, services, fonctionnement, Personnel 
• Indicateurs entrants/sortants: relations clients/fournisseurs
• Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation, 
conjoncture du marché, concurrence, tendance technologique…
15
Le processus de prise de décision

Définir les  Collecter les  Elaborer des  Action de 


Analyser
objectifs données Solutions décision

16
Définition d’un DW
• Le Data warehouse (entrepôt de données) est Une 
collection de données orientées sujet, intégrées, non 
volatiles et qui varie dans le temps, organisées pour le 
support d’un processus d’aide à la décision (Définition:  
[W. H. Inmon] )

– Sujet
• Les données sont structurées par sujet ou par thème (clients, 
produits, personnel…)
– Données intégrées 
• Les données sont issues du SIO de l'entreprise et éventuellement de 
sources externes à l'entreprise.
• Les différents données provenant de sources différentes (BDR, XML, 
fichiers plats,…) et hétérogènes sont intégrés et homogénéisées dans 
une structure unique.
17
Définition d’un DW
• Homogénéisation:
– Synonymie :Par exemple deux attributs  nom_salarié et nom_employe dans 
deux sources différentes désignent la même entité.
– Homonomie: deux noms identiques qui désignent des entités différentes.
– Une même information peut être exprimée dans deux sources avec des 
types ou des unités différentes.
• Les données sont non volatiles et historisées: la portée 
temporelle des données dans un DW et plus longue que 
celle des BDO.
• BDO: valeur courante des données . Les autres données sont soit 
détruites soit archivées.
• DW: les données sont historisées
• En général , dans un DW chaque donnée fait référence au temps.

18
Domaines d'applications
• Déterminer et contrôler la performance de l’entreprise
• Mesurer et gérer les risques financiers.
• Planifier la stratégie Achat.
• Banque
– Risques d’un prêt, prime plus précise
• Assurance
– Risque lié à un contrat d’assurance (voiture)
• Santé
– Épidémiologie
– Risque alimentaire
• Marketing
– Améliorer la connaissance client
– Ciblage de clientèle 
– Déterminer des promotions
• Logistique
– Adéquation demande/production
19
Data Marts ou magasins de données
• C'est un DW spécialisé dans un sujet ou un métier particulier (Finance, 
Marketing,…).
• Intérêt d'un DataMart
– Moins de données à gérer
– Amélioration des temps de réponse
– Plus simple à mettre en œuvre qu'un DW

20
Modèles de données
• Le modèle 
Poste1 Poste2 Poste 3 d'intégration unifie 
les données
• Le modèle de 
Modèle de diffusion modélise 
présentation la structure de 
l'entrepôt de 
Modèle de
données (Serveur 
diffusion OLAP).
• Le modèle de 
Modèle présentation définit  
d'intégration la manière dont les 
données seront 
présentées à 
l'utilisateur.

Base1:Base de données de Base 2:Base de données Base3:Base de données de


production de production production
21
Les outils OLAP
• OLAP (On‐Line Analytical Processing): 
Ensemble des outils  nécessaires pour la mise 
en place d'un Système d'information 
décisionnel (SID)

22
Les 12 règles OLAP
• Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en 
1993).
– Transparence: l'utilisateur doit accéder à la base par des outils standards
– Accessibilité: les sources qui servent à alimenter le système, doivent être 
facilement accessible à travers la structure logique de l'entrepôt
– Vue Dimensionnelle: les données sont structurées en dimensions métiers
– Dimension générique: Toutes les dimensions doivent avoir la même structure
– Architecture client serveur
– Gestion des matrices creuses
– Multi‐utilisateurs
– Simplicité d'utilisation
– Rapports de sortie ergonomiques
– Temps de réponse stable:  le nombre de dimensions et la taille de la base peuvent 
augmenter sans influencer les performances du système.
– Nombre illimité de dimension et de niveaux d'agrégation: 
– Croisement des dimensions: le système doit être capable de gérer les calculs 
associés entre les dimensions sans faire appel à l'utilisateur

23
Les outils OLAP
• Les outils relationnels OLAP (ROLAP)
– Les données sont stockées dans une base de données 
relationnelle, moteur OLAP permet de simuler le comportement 
d’un SGBD multidimensionnel
– .
• Les outils MOLAP
– Utilisent un système multidimensionnel « pur » qui gère les 
structures multidimensionnelles natives (les cubes)
– Accès direct aux données dans le cube
• Les outils HOLAP (Hybrid OLAP)
– tables de faits et tables de dimensions stockées dans SGBD 
relationnel (données de base)
– données agrégées stockées dans des cubes

24
Le cube
• Modélisation multidimensionnelle des données facilitant 
l’analyse d’une quantité selon différentes dimensions:
– Temps
– Localisation géographique
– Produits
– Fournisseurs
– Clients
– …
• Les calculs sont réalisés lors du chargement ou de la mise à 
jour du cube
• Un cube permet de visualiser les données selon plusieurs 
dimensions
• Un cuboïde est un cube de dimension n

25
treillis des cuboïdes

26
Exemple de cube

27
Treillis correspondant 

28
Opérations typiques de l’OLAP
• Roll up : consolider (résumer) les données : 
Passer à un niveau supérieur dans la hiérarchie 
d’une dimension 
• Drill down : l’inverse du Roll‐up : descendre dans 
la hiérarchie d’une dimension 
• Slice et Dice (tranche et extraction): Projection et 
sélection du modèle relationnel 
• Pivot (rotate): Réoriente le cube pour 
visualisation 
29
Modélisation d'un DW 
• Inconvénients du modèle Entité/Relation
– Schéma très/trop complet pour l'analyse des données
– Inapproprié pour l’analyse

• Le modèle multidimensionnelle
– Concepts
• Les faits: mesurent l'activité ( exemple: quantité vendue) 
• Dimensions: Axes d'analyse 
• Attributs des dimensions
– Opérations sur les données
• Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin
• Consolidation: les données sont visualisées à un niveau plus agrégé
• Slicing and Dicing : visualisation des données selon différentes perspectives.
– Principe
• Ne pas trop normaliser les tables

30
Table de faits
• Table principale du modèle dimensionnel
• Contient les données observables (les faits) sur le sujet étudié 
selon divers axes d’analyse (les dimensions)

Table de faits des ventes
Clés étrangères Clé Vendeur 
vers les Clé produit
dimensions Clé Mois
Clé zone 
Quantité vendue
Faits
Montant des ventes
31
Types des faits
• Fait additif: additionnable suivant toutes les dimensions (ex: 
chiffre d’affaire)
• Fait semi additif: additionnable seulement suivant certaines 
dimensions 
– Exemple : nombre de clients, dimension produit (un même client peut 
acheter plusieurs produits) .

• Fait non additif: non additionnable quelque soit la dimension 
(comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un 
produit)

32
Granularité ou finesse la table de faits

• La granularité définit le niveau de détails de la 
table de faits
– mois, jour, heure du jour
– région ,magasin , rayonnage

33
Table de dimension
• Axe d’analyse selon lequel vont être étudiées les faits
• Contient le détail sur les faits
• Dimension = axe d’analyse
– Client, produit, temps…
• Granularité d’une dimension : nombre de niveaux hiérarchiques (ex: 
continent, pays, région, ville)

Dimension produit
Clé primaire Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
34
Hiérarchie des dimensions
Hiérarchie multiple Hiérarchie simple

Continent
Année

Pays
Semestre Saison Semaine

Région

Trimestre
Ville

Mois Date
Quartier

Rue

35
La dimension Date
Dimension Date
• Commune à l’ensemble du  ID Date (CP)
DW
Jour de la semaine
• Reliée à toute table de faits
Jour du mois
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

36
Exemple de modèle en étoile
Dimension Temps
ID temps
année
mois
Dimension produit
Di i d it
jour
Dimension Magasin ID produit

ID magasin nom
description code
Table de faits Achat
bl d f i h
ville prix
ID client
surface poids
ID temps
… groupe
ID magasin
famille
ID région

ID produit
Dimension Region Quantité achetée Dimension Client
ID région Montant des achats ID client
pays nom
description prénom
district vente adresse
…. …
37
Le modèle en flocon
• Dérivé du modèle en étoile
• Les tables de dimension sont normalisées et le 
redondances sont éliminées.
• Comparaison étoile/flocon
– Flocon
• Le modèle en flocon permet de montrer les hiérarchies entre 
dimensions
• La normalisation dans le modèle en flocon permet de réduire la taille 
des tables.
– Etoile
• La dé‐normalisation du modèle permet d'améliorer les performances 
d'exécution des requêtes.
• Le modèle est plus facile à comprendre par l'utilisateur non 
informaticien
• Nombre de jointures limité.

38
Modèle en flocon
• Une table de fait et des dimensions décomposées en sous 
hiérarchies
• On a un seul niveau hiérarchique dans une table de dimension 
• La table de dimension de niveau hiérarchique le plus bas est 
reliée à la table de fait. On dit qu’elle a la granularité la plus fine
• Avantages:
– Normalisation des dimensions
– Économie d’espace disque
• Inconvénients:
– Modèle plus complexe (jointure)
– Requêtes moins performantes

39
Modèle en flocon
Dimension produit
i i d i
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour Dimension groupe
poids
ID magasin … ID groupe

description ID famille
Table de faits Achat
bl d f i h
ville nom
ID client
surface …
ID temps

ID magasin
Dimension Region
ID région Dimension Famille
ID région
ID produit ID  famille
ID division vente
Quantité achetée nom
pays
Montant des achats …
description
…. Dimension Client
Dimension 
ID client
Division vente
nom
ID division vente
prénom
description
adresse 40
Continent

Etapes de modélisation d'un DW
• Choisir les processus métiers à modéliser : 
– Exemple : le processus "vente" .
• Définir la granularité de chaque processus:
– Définir ce que représente chaque enregistrement dans la 
table des faits (exemple : une ligne de ticket de caisse).
• Choisir les dimensions 
– Exemple: date, produit, magasin, promotion
• Identifier les faits numériques:
– Les faits ayant des granularités différentes doivent 
appartenir à des tables de fais différentes.
41
Exemple

Produit
Magasin ID produit
ID magasin nom
description Ventes code
ville ID Date prix
surface ID magasin poids
… ID Promotion groupe
ID produit famille
ID transaction POS …
Promotion Quantité Date
ID région Montant ID client
pays Coût nom
description Bénéfice brut prénom
district vente adresse
…. …
42
Exemple
Produit
ID produit
nom
Catégorie
Marque
Magasin Département
ID magasin Ventes groupe
description ID Date famille
ville ID temps …
surface ID magasin
… ID Promotion Date
ID produit ID Date
ID transaction POS Date
Promotion Quantité Date complète
ID région Montant jour de la semaine
pays Coût Mois
description Bénéfice brut Année
district vente Mois fiscal
…. Férié
Week End 43
Types de dimension
• Dimension dégénérée
• Dimension à évolution lente
• Dimension à évolution rapide

44
Dimension dégénérée (Degenerate
dimension)
• La dimension dégénérée est une clé de 
dimension dans la ‘’table’’ des faits et qui 
n'est pas associée à une table dimension 
(exemples: numéro de POS, numéro de 
commande).

45
Dimensions à évolution lente
• Les attributs d'une dimension peuvent subir des 
changements.
– Un client peut changer d’adresse, avoir des enfants, 
...
– Un produit peut changer de noms, de composition;
3 solutions possibles:
– Écrasement de l’ancienne valeur
– Versionnement
– Valeur d’origine / valeur courante.
46
Dimensions à évolution lente
Solution 1:  Écrasement de l’ancienne valeur 
– Avantage: 
• Facile à mettre en œuvre
– Inconvénients:
• Perte de la trace des valeurs antérieures des attributs
Solution 2: Ajout d’un nouvel enregistrement.
– Avantages:
• Permet de suivre l’évolution des attributs
• Permet de segmenter la table de faits en fonction de l’historique
– Inconvénient:
• Accroit le volume de la table
Solution 3: Ajout d’un nouvel attribut
– Avantages:
• Avoir deux visions simultanées des données :
– Inconvénient:
• Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires

47
Dimension à évolution rapide
• Subit des changements très fréquents (tous les mois) dont on veut préserver 
l’historique
• Solution: isoler les attributs qui changent rapidement et créer une mini‐dimension

Dim client Mini Dimension
Clé_client Clé
Nom Revenus
Prénom Nb_enfants
Adresse

Revenus
Nb_enfants

48
Dictionnaire de données
• C'est un référentiel de métadonnées destiné 
aux utilisateurs et à l'administrateur du DW
– Une métadonnée permet de qualifier une 
données: sémantique, règle de calcul, 
provenance, qualité…
Alimentation d'un DW
• Opérations sur les données
– Extraction
• Cette étape consiste à extraire d'une manière sélective 
les données appropriées.
– Transformation
• Filtrer, trier, homogénéiser, nettoyer
• Une même donnée peut avoir une structure ou une 
valeur différente selon la source (production, 
utilisateurs, externe).
• Une même entité peut apparaître plusieurs fois avec 
différents attributs selon les sources consultées.

50
Alimentation d'un DW
– Chargement dans l'entrepôt
• Opérations de calcul et d'agrégation.
• Définir la fréquence de chargement ( en général 
quotidiennement en début ou en fin de journée)
• ETL
Outil permettant d’automatiser les chargements 
dans l’entrepôt

51