Vous êtes sur la page 1sur 60

Mastère 2I2T

Chapitre 2: Processus d'entreposage des données


 (Datawarehouse)

Dr. Sinda Elghoul

COURS BUSINESS INTELLIGENCE


Introduction 2

Des données aux décisions


 Données
 Points de ventes, géographiques, démographiques, …
 Informations :
 I vit dans R, I est âgé de A, …
 Connaissances :
 Dans X%, le produit Y est vendu en même temps que le produit Z, …
 Décisions
 Lancer la promotion de Y & Z dans R auprès des clients plus âgés que A, ...
Types d’analyse en BI 3

 BI stratégique
 Analyse les tendances d’affaires selon une métrique (ex: ventes);–Concerne les
objectifs à long-terme de l’entreprise;–S’applique surtout aux analystes
d’affaires de l’entreprise
 BI tactique
 Fournit des métriques de performance (ex: scorecards);–Concerne les objectifs
à court-terme de l’entreprise;–S’applique surtout aux gestionnaires et cadres
supérieurs
 BI opérationnel
 Fournit du support informationnel aux points d’affaires de l’entreprise (ex:
support à la clientèle);–Concerne l’état opérationnel de l’entreprise.
Types d’analyse en BI 4
Complexité et utilisation 5
Processus de développement d’un 6

Datawharehouse
 Démarche proposée=démarche incrémentale: le Datawarehouse est
construit application par application (décomposition en sous-projets ou «
initiatives »).
 Trois grandes phases dans un projet de Datawarehouse:
 « Découvrir et définir les initiatives »: niveau entreprise; distinction de 2 sous-
phases: étude stratégique et élaboration du plan d’action.
 Définition de l ’infrastructure technique et organisationnelle du
datawarehouse, conduite du changement: niveau entreprise.
 Mise en œuvre incrémentale des applications:niveau projet.
Datawarehouse: Définitions 7

 1. Le terme entrepôt de données (ou base de données décisionnelle,


ou encore datawarehouse) désigne une base de données utilisée pour
collecter, ordonner, journaliser et stocker des informations provenant
de base de données opérationnelles et fournir ainsi un socle à l'aide a
la décision en entreprise.
 2.Un entrepôt de données (ED) contient des données nombreuses,
homogènes, exploitables, multidimensionnelles, consolidées
 3.Collection de données orientées sujets, intégrées, non volatiles et
historisées, organisées pour le support du processus d’aide à la décision
(Inmon W.-H. (2002, 1990). Building the data warehouse. Wiley Publishing, 3rd edition. )
Datawarehouse: Orientées sujet 8

 Organisées autour de sujets majeurs de l’entreprise


 Données pour l’analyse et la modélisation en vue de
l’aide à la décision, et non pas pour les opérations et
transactions journalières
 Vue synthétique des données selon les sujets
intéressant les décideurs
Datawarehouse: Intégrées 9

 Construit en intégrant des sources de données


multiples et hétérogènes
 BD relationnelles, fichiers, enregistrements de transactions

 Les données doivent être mises en forme et unifiées


afin d’avoir un état cohérent
 Phase la plus complexe (60 à 90 % de la charge totale
d’un projet DW)
Datawarehouse: Historisées 10

 Fourniespar les sources


opérationnelles
 Stockagede l'historique des
données, pas de mise à jour
 Un référentiel temps doit
être associé aux données
Datawarehouse: Non volatiles 11

 Conséquence de l’historisation
 Une même requête effectuée à intervalle de temps, en
précisant la date référence de l’information donnera
le même résultat
 Stockage indépendant des BD opérationnelles
 Pas de mises à jour des données dans le DW
Datawarehouse 12
Datawarehouse

Base de données opérationnelles Entrepôt de données


De ODS vers DW 14

 Chargement Tampon (ODS)


 Tables ODS identique s au
format des sources entrantes
 Prendre le format Varchar par
défaut
 Chargement Tables
Elémentaires (DWH)
 Modèle de données
généralement en 3FN
(normalisation forte)
 Chargement Datamarts /
Tables agrégées (DM)
 Modèle en étoile / flocon
 Tables agrégées
Les éléments d’un Datawarehouse 15

 L’environnement du Data Warehouse est constitué essentiellement de quatre


composantes
 Les applications opérationnelles : ce sont les applications du système opérationnel de l’entreprise et
dont la priorité est d’assurer le fonctionnement de ce dernier et sa performance. Ces applications sont
extérieures au Data Warehouse.
 Préparation des données : la préparation englobe tout ce qu’il y a entre les applications opérationnelles et
la présentation des données. Elle est constituée d’un ensemble de processus appelé ETL, « Extract,
transform and Load », les données sont extraites et stockées pour subir les transformations nécessaires
avant leur chargement.
 Présentation des données : c’est l’entrepôt où les données sont organisées et stockées. Si les données de
la zone de préparation sont interdites aux utilisateurs, la zone de présentation est tout ce que l’utilisateur
voit et touche par le biais des outils d’accès.
 Outils d’accès aux données
Exemple: un DW dans les télécoms 16

Sujets : Sources
 Suivi du marché: lignes installées/  Fichiers clients élaborés par les
désinstallées, services et options choisis, agences
répartition géographique, répartition  Fichiers de facturation
entre public et différents secteurs
d'organisations Requêtes
 Comportement de la clientèle  Comportement clientèle
 Comportement du réseau  Nombre moyen d'heures par
client, par mois et par région
Historique
 Durée moyenne d'une
 5 ans pour le suivi du marché
communication urbaine par ville
 1 an pour le comportement de la  Durée moyenne d'une
clientèle
communication internationale
 1 mois pour le comportement du réseau
Structure des données d’un DataWarehouse17
 Le Data Warehouse a une structure bien définie, selon différents niveaux d’agrégation et
de détail des données.
Structure des données d’un DataWarehouse18

 Données détaillées : ce sont les données qui reflètent les événements les plus
récents, fréquemment consultées, généralement volumineuses car elles sont
d’un niveau détaillé.
 Données détaillées archivées : anciennes données rarement sollicitées,
généralement stockées dans un disque de stockage de masse, peu coûteux, à un
même niveau de détail que les données détaillées.
 Données agrégées : données agrégées à partir des données détaillées.
 Données fortement agrégées : données agrégées à partir des données détaillées,
à un niveau d’agrégation plus élevé que les données agrégées.
Structure des données d’un DataWarehouse
19

 Meta données : ce sont les informations relatives à la structure des


données, les méthodes d’agrégation et le lien entre les données
opérationnelles et celles du Data Warehouse.
 Les métadonnées doivent renseigner sur :
 Le modèle de données,
 La structure des données telle qu’elle est vue par les développeurs,
 La structure des données telle qu’elle est vue par les utilisateurs,
 Les sources des données,
 Les transformations nécessaires,
 Suivi des alimentations,
Datamart 20
 Sous-ensemble d’un entrepôt de données, destiné à répondre aux besoins d’un
secteur ou d’une fonction particulière de l’entreprise
Point de vue spécifique selon des critères métiers
Datamart 21

 Contient une portion du contenu de l’entrepôt de données;


 Se concentre sur 1 sujet d’analyse
 Ex: les ventes OU les livraisons, mais pas les deux
 Sert à faire des analyses simples et spécialisées
 Ex: les fluctuations des ventes par catégorie de produits
 Nombre de sources limitées, provenant la plupart du temps d’un même
département,
 Processus ETL relativement simple
 Même processus de conception que les entrepôts de données, mais demande
moins de ressources.
Datamart 22

Data Mart interconnectés


Les Data Mart sont construits autour de sujets,
interconnectés grâce aux tables des faits contenues
dans le Data Warehouse, ce dernier se compose alors
des Data Mart et ces tables des faits, appelées bus.

Data Mart indépendant


Les Data Mart sont des versions miniaturisées du
Datawarehouse au niveau départemental, alimentées
par le Data Warehouse et basées sur les besoins
départementaux en informations.
DW vs Datamart 23
Architecture Centralisée 24
Architecture Hub-and-spoke 25
Architecture fédérée 26
Architecture en bus de datamart 27
Architecture Datamarts independants 28
Processus du modèle dimensionnel 29
Données multidimensionnelles 30

 Notion de dimension : C’est une catégorie linguistique selon laquelle


les données sont organisées:
Tableau simple
 Nom d’un attribut
 Valeur d’un attribut
Tableau croisé
Données multidimensionnelles 31
Le modèle multidimensionnel 32

 Modèle multidimensionnel est un modèle logique


 Son objectif est l'analyse des données
 le modèle de données le plus populaire pour DW est plus construit dans le
«sens»:
 Ce qui est important
 Ce que nous voulons optimiser
 Les agrégations automatiques permettent une interrogation facile
 est reconnu par les outils OLAP / BI: les outils offrent de puissantes fonctions de
requête basé sur la conception MCD
Modèle dimensionnel 33

On va partir du besoin "client" (quel analyse ?).


 Faits : les faits représentent un sujet d'analyse.
 Ensembles de mesures

 Dimensions : les dimensions sont les critères


selon lesquels on souhaite faire de l'analyse.
 Axes d’analyse
Le modèle multidimensionnel 34

Fait et sujet d’analyse


 Les faits représentent le sujet de l'analyse souhaitée: les «importants» à analyser
 Un fait est le plus souvent identifié via ses valeurs de dimension
 Un fait est une cellule non vide
 Certains modèles donnent aux faits une identité explicite
 En règle générale, un fait doit:
 être attaché à exactement une valeur de dimension dans chaque dimension;
 être attaché uniquement aux valeurs de dimension dans les niveaux inférieurs
 Ex: si la granularité temporelle la plus basse est le jour, pour chaque fait le jour exact doit être spécifié
 certains modèles ne l'exigent pas.
Le modèle multidimensionnel 35
Conception d’un DW 36

 On part du principe que les données sont des faits à analyser


selon plusieurs dimensions. Il est ainsi possible de réaliser une
structure de données simple qui correspond à ce besoin de
modélisation multidimensionnelle.
 Cette structure est constituée du fait central et des dimensions.
 Au niveau logique cela peut se traduire par trois modèles
différents : en étoile, en flocon de neige ou en constellation.
Niveau conceptuel d’un DW 37

Un DW est basé sur une modélisation


multidimensionnelle qui représente les
données dans un cube
Un cube permet de voir les données suivant
plusieurs dimensions:
Tables de dimensions
La table des faits contient les mesures et les
clés des dimensions
Niveau conceptuel d’un DW 38
Niveau conceptuel d’un DW 39

Attribut: Propriété suivant laquelle on désire caractériser l’information,


correspond à un concept modélisé
Hiérarchie: Ensemble d’attributs proposés sur un rapport
Table de référence (ou lookup): Table du modèle contenant des attributs
(cf. code - libelle...)
Colonne de fait: Colonne contenant l’information numérique que l’on
désire exploiter (sur laquelle va se baser l’indicateur)
Table de fait: Table contenant une ou plusieurs colonnes de fait
Dimension: Axe d’étude, d’analyse; regroupement des attributs de même
domaine
Niveau Logique d’un DW 40

 Plusieurs schémas types sont proposés pour représenter


un DW
 Schéma en étoile;
 Schéma en flocon;
 Schéma en constellation
Modèle en étoile 41

 Le centre est la table des faits et les


branches en sont les dimensions.
 Pour une dimension il existe
plusieurs faits.
 La structure est dissymétrique :
 la table des faits est énorme et les tables des
dimensions sont petites.

 Les faits sont généralement


numériques alors que les
dimensions sont qualitatives.
Modèle en étoile 42
Modèle de flocon 43

 Même principe du modèle en


étoile avec des dimensions
décomposées.
 Le but est d'économiser ainsi de
la place. Cela permet également
d'instaurer une hiérarchie au
sein des dimensions.
 Les tables de dimensions sont
normalisées et les redondances
éliminées
 Une complexification du
modèle.
Modèle de flocon 44

 Raffinement du schéma étoile avec des tables normalisées par dimensions


Modèle de constellation 45

 Basé sur le modèle en étoile.


Mais on rassemble plusieurs
tables des faits qui utilisent
les mêmes dimensions.
Structure DW 46

 Directe simple: On fait


des mises à jour du
datawarehouse avec des
laps de temps important.
Structure DW 47

 Cumul Simple: on stocke


les données de chaque mise
à jour, les mises à jour étant
fréquentes (par exemple
tous les jours) on a un
espace occupé important,
mais on ne perd pas
d’information.
Structure DW 48

 Résumé déroulant: à
chaque mise à jour, on
stocke des données
détaillées, et on synthétise
les anciennes données en
fonction de leur âge. Plus
une donnée est vieille,
moins elle est détaillée.
Modèle relationnel 49

 Normalisation (3NF)
 Répond aux besoins transactionnels (OLTP)
 Avantages :
 Réduction de l'entrée de données
 Réduction du nombre d'index
 Ajouts/destructions/modifications plus rapides
 Désavantages :
 Peu efficace pour l'extraction de données analytiques
 Beaucoup de relations
 Trop complexe pour l'utilisateur BI
Modèle relationnel 50
Règles de passage ER modèle en 51

étoile
 Règle 1: Toute association binaire M-N ou ternaire ou plus porteuse de
propriétés devient une table de faits identifiée par les clés des entités
participantes.
 Règle 2: Toute entité participant à une association de la règle 1 devient
une table de dimensions reliée à la table de faits.
 Règle 3: Toute entité E1 reliée à une entité E2 de la règle 2 par une relation
1:N est transcrite dans la table de dimension de E2.
 Règle 4: Toute entité E1 reliée à une entité E2 de la règle 2 par un chemin
de relations 1:N est transcrite dans la table de dimensions de E2.
Règles de passage ER modèle en 52

étoile
BDR en Modèle en étoile 53
Règles de passage ER modèle en 54

flocon
 Règle 1: Toute association binaire M-N ou ternaire ou plus porteuse de
propriétés devient une table de faits identifiée par les clés des entités
participantes.
 Règle 2: Toute entité participant à une association de la règle 1 devient
une table de dimensions reliée à la table de faits.
 Règle 3: Toute entité E1 reliée à une entité E2 de la règle 2 par une relation
1:N devient une sous-table de dimensions reliée à la table issue de la règle
2.
 Règle 4: Toute entité E1 reliée à une entité E2 traduite en une sous-table de
dimension en devient une sous-table de dimensions.
Granularité 55

Dans le modèle de
données:
• Plus on se rapproche de la Année
table de fait sur chaque axe :
Mois
• Le niveau de détail augmente
• La finesse augmente Jour
Granulosité
élevée
• Nombre de lignes affichées Factures
par le rapport augmente
• La granulosité diminue
(le grain devient plus fin) Granulosité
faible
Alimentation de DW 56

 L’alimentation est la procédure qui permet de transférer des données du


système opérationnel vers le DW
 La conception de cette opération est une tâche complexe
 60 à 90 % de la charge totale d’un projet DW
 Elle doit être faite en collaboration avec l’administrateur des bases de
productions
 Il est nécessaire de déterminer:
 Quelles données seront chargées
 Les transformations et les vérifications nécessaires
 La périodicité et le moment de transferts des données
Alimentation de DW 57

 Extraction (Extract)
 Transformation (Transform)
 Filtrer

 Homogénéiser

 Nettoyer

 Etc ...
 Chargement (Loading)
Alimentation de DW 58

Extraction
 Depuis les bases sources
 Périodique et Répétée
 Dater ou marquer les données envoyées
 Difficulté:
 Ne pas perturber les applications OLTP
 Différentes techniques d’extraction:
 Méthode Push: Le système opérationnel qui au fil des transactions alimente le DW
 Méthode Pull : Le système décisionnel cherche périodiquement les données dans les bases
de production
Alimentation de DW 59

Transformation
 C’estune suite d’opérations qui a pour but de rendre les
données cibles homogènes et puissent être traitées de façon
cohérente.
 Unification des modèles
 Convertir / uniformiser les noms des attributs
 Uniformiser les valeurs d ’attributs
 Nettoyer ( Valeurs manquantes, aberrantes...)
Alimentation de DW 60

Chargement
 C’estl’opération qui consiste à charger les données
nettoyées et préparées dans le DW.
 C’est une opération qui peut être longue :
 Mettre en place des stratégies pour assurer de bonnes
conditions à sa réalisation
 Définir la politique de rafraîchissement.
 C’est une phase plutôt mécanique et la moins complexe

Vous aimerez peut-être aussi