Académique Documents
Professionnel Documents
Culture Documents
Conception et réalisation
d’un Entrepôt de données
Cours Magistral : 8h
Chapitre 1: Définitions, intérêts des entrepôts de données
Chapitre 2: Architecture d’un système décisionnel
Chapitre 3: Conception d’un Datawarehouse
Chapitre 4: Analyses avancées des données
Travaux Dirigé : 4h
Travaux Pratiques 12h
3
Chapitre 1: Définitions, intérêts des entrepôts de données
1. Positionnement technologique
2. Motivation et intérêts
4
1. Positionnement Technologique
6
2. Motivations et intérêts
7
2. Motivations et intérêts
Qui sont mes
clients? Quels
Quelles sont les produits achètent-
promotions les plus ils? Quels sont mes
efficaces ? meilleurs
clients?
Quelle est la
Qui sont les
période la plus
clients
lucrative?
insatisfaits?
Pourquoi?
8
3. Définition de la Business Intelligence
BUSINESS INTELLIGENCE
Les SGBD sont des systèmes conçus pour les traitements transactionnels
- ces opérations doivent pouvoir être effectuées très rapidement, et par de nombreux utilisateurs
simultanément.
Les entrepôts sont des systèmes conçus pour l’aide à la prise de décision.
Questions typiques :
Quels sont les produits qui se vendent le mieux dans chaque région,
et quel est l’impact des données démographiques sur ces résultats
de vente ?
13
4. Comparaison des entrepôts de données avec les
SGBD traditionnels
14
Chapitre 2: Architecture d’un système décisionnel
15
1. L’architecture de référence des systèmes décisionnels
Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structurées Reporting
Extraction
Transformation
Les Load
Data Mining
Base de données
opérationnelles
Data Marts
17
Sources de Entrepôt de données OLAP Reporting et
ETL analyses avancée
données
2. Les sources de données
Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load
Data Mining
Base de données
Opérationnelles/ERP
Data Marts
18
Sources de Entrepôt de OLAP Reporting
données ETL
données
2. Les sources de données
Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excels Extraction
Transformation
Les Load
Data Mining
Base de données
Opérationnelles/ ERP
Data Marts
20
Sources de Entrepôt de OLAP Reporting
ETL données
données
3. Le processus ETL :Extraction Transformation et Chargement
UN ETL PERMET DE :
• DÉCOUVRIR, ANALYSER ET EXTRAIRE LES DONNÉES À PARTIR DES RESSOURCES HÉTÉROGÈNES
• NETTOYER ET STANDARDISER LES DONNÉES
• CHARGER LES DONNÉES DANS UN DATAWAREHOUSE
21
3. Le processus ETL :Extraction Transformation et Chargement
EXTRACTION
• EXTRACTION POSSIBLE À PARTIR DE PLUSIEURS PLATEFORMES
• CHARGEMENT INCRÉMENTAL OU COMPLET
TRANSFORMATIONS
• RÉVISIONS DE FORMAT
• TRAITEMENT DES VALEURS NULL
• VALEURS CALCULÉES & DÉRIVÉES
• FUSION DES DONNÉES
• FRACTIONNEMENT DES CHAMPS
• CONVERSION DES UNITÉS DE MESURE
• CONVERSION DES DATES
• DÉDUPLICATION
LOAD
• LES TABLES DU DATAWAREHOUSE/DATAMART 22
3. Le processus ETL :Extraction Transformation et Chargement
RH
Transform
Finance
23
3. Le processus ETL :Extraction Transformation et Chargement
PRINCIPALE MISSION
1. PROBLÈMES DE NORMALISATION
• DIFFÉRENTS ENCODAGES, LANGUES ..
• DIFFÉRENTES ABRÉVIATIONS
• EQUIVALENCE SÉMANTIQUE
• DIFFÉRENTES NORMES & UNITÉS DE MESURES
2. PROBLÈMES DE DONNÉES
• CHAMPS MANQUANTS (ÂGE, ADRESSE, …)
• VALEURS INCORRECTES
• REDONDANCE SÉMANTIQUE
3. INCOHÉRENCES
• INCOHÉRENCE DES CODES 24
• INCOMPATIBILITÉ RÉFÉRENTIELLE
3. Le processus ETL :Extraction Transformation et Chargement
Item Customer
records records
Split Filter
Filter Filter Group by
Date - Join non -
invalid invalid customer
time match
Customer
Facture
balance
Invalid Invalid Invalid
dates /times items customers
25
3. Le processus ETL :Extraction Transformation et Chargement
ETL : UN
MARCHÉ
D’OUTILS
ÉMERGENTS
26
4. ETL VS ELT
27
Source : https://skyvia.com/blog/elt-vs-etl
4. ETL VS ELT
28
Source : https://skyvia.com/blog/elt-vs-etl
4. ETL VS ELT
29
Source : https://skyvia.com/blog/elt-vs-etl
COMPARAISO
N ETL ET ETL
30
Source : https://skyvia.com/blog/elt-vs-etl
5. Le Datawarehouse et les Datamart
Metadata Repository
Analyse
OLAP
Données semi
structurées Data Reporting
Extraction Warehouse
Transformation
Les Load
Data Mining
Base de données
opérationnelles
Data Marts
31
Sources de Entrepôt de OLAP Reporting
ETL
données données
5. 1 Le Datawarehouse
Orienté sujet: Les données stockées fournissent Intégré: Intégration de données provenant de
des informations sur un sujet particulier. multiples sources hétérogènes dans un format
cohérent
Propriétés d’un
Datawarehouse
Non Volatile: Les données ne devraient pas historisée: Les données historiques sont
changer. Le but d'un datawarehouse est de conservés dans un datawarehouse. Il est 32
LES MÉTADONNÉES SONT LES INFORMATIONS RELATIVES À LA STRUCTURE DES DONNÉES, LES MÉTHODES D’AGRÉGATION ET LE
LIEN ENTRE LES DONNÉES OPÉRATIONNELLES ET CELLES DU DATAWAREHOUSE.
33
5.3 les Datamarts
34
5. Le Datawarehouse et les Datamart
DATAWAREHOUSE VS DATAMART
Datawarehouse Data mart
Intègre toutes les sources de données Intègre les informations à partir d'un sujet donné ou
d’un ensemble de systèmes sources
35
5. les approches de conception d’un projet
d’entrepôt de données
DEUX PIONNIERS DES DATA WAREHOUSES, BILL INMON ET RALPH KIMBALL, PROPOSENT DEUX APPROCHES
DIFFÉRENTES DE LA CONCEPTION DE CES ENTREPÔTS DE DONNÉES.
• L’APPROCHE DE RALPH KIMBALL A MIS EN AVANCE L’IMPORTANCE DES DATA MARTS, DES DÉPÔTS DE
DONNES APPARTENANT À DES SECTEURS D’ACTIVITÉ PARTICULIERS. LE DATA WAREHOUSE EST SIMPLEMENT
UNE COMBINAISON DE DIFFÉRENTS DATA MARTS QUI FACILITE LE REPORTING ET L’ANALYSE. CETTE
CONCEPTION DE KIMBALL CORRESPOND À L’APPROCHE ASCENDANTE (« BOTTOM-UP »).
• BILL INMON CONSIDÉRAIT LUI LE DATA WAREHOUSE COMME LE DÉPÔT CENTRALISÉ DE TOUTES LES
DONNÉES DE L’ENTREPRISE. DANS CETTE APPROCHE, UNE ORGANISATION CRÉE D’ABORD UN MODÈLE DE
DATA WAREHOUSE NORMALISÉ. LES DATA MARTS DES DIFFÉRENTS SECTEURS SONT ENSUITE CRÉÉS SUR LA
BASE DU MODÈLE DE L’ENTREPÔT. C’EST CE QU’ON APPELLE UNE APPROCHE DESCENDANTE (OU « TOP-
36
DOWN ») DE L’ENTREPOSAGE DES DONNÉES.
5. les approches de conception d’un projet
d’entrepôt de données
37
Source: https://bennyaustin.com/2010/05/02/kimball-and-inmon-dw-models/
5. les approches de conception d’un projet
d’entrepôt de données
38
Source: https://cdn.ttgtmedia.com/rms/enterpriseApplications/Pros%20and%20Cons%20of%20Both%20Approaches.png
5. Le Datawarehouse et les Data Lakes
• DATA LAKE EST UNE BANQUE DE STOCKAGE SERVANT À CONTENIR UNE IMMENSE
QUANTITÉ DE DONNÉES BRUTES DANS LEUR FORMAT D’ORIGINE JUSQU’À CE QUE
L’ENTREPRISE EN AIT BESOIN.
Data lake Data warehouse
Structure des données Brutes Traitées/transformées
Objet des données À déterminer En service
Utilisateurs Data scientists Spécialistes
Modifications plus complexes et
Accessibilité Accès facile, mises à jour rapides
plus coûteuses
39
CHAPITRE 3 : CONCEPTION D’UN DATAWAREHOUSE
40
1. La modélisation Multidimensionnelle
Schéma Multidimentiel
SCHÉMA RELATIONNEL –
Fait/Dimension
ENTITÉ/RELATION
41
1. La modélisation Multidimensionnelle
MODÉLISATION MULTIDIMENSIONNELLE
TABLE DE FAIT:
LA TABLE DE FAITS CONTIENT LES MESURES ET LES INDICATEURS QUANTITATIVES QUI
PERMETTENT LE BON SUIVI DES ACTIVITÉS ET PROCESS.
TABLE DE DIMENSION:
LES TABLES DE DIMENSION REPRÉSENTENT LES DIFFÉRENTS AXES D’ANALYSES DES
INDICATEURS DE LA TABLE DE FAIT. ELLES CONTIENNENT DES ATTRIBUTS (CHAMPS)
AVEC LESQUELS LES MESURES SONT CALCULÉ DANS LA TABLE DE FAITS. 42
1. La modélisation Multidimensionnelle
GRANULARITÉ: Quantité
Chiffre_Affaires
LE GRAIN DÉTERMINE LE NIVEAU DE DÉTAIL DE LA MESURE DE TABLE DE FAITS.
LE PLUS PETIT NIVEAU DE GRANULARITÉ EST MEILLEUR POUR L’ANALYSE CAR IL
PERMET L’ACCÈS À L’INFORMATION DÉTAILLÉE. TOUTEFOIS, IL N’EST PAS
OPTIMAL POUR LE STOCKAGE NI LA PERFORMANCE DES ANALYSES.
43
1. La modélisation Multidimensionnelle
TABLE DE DIMENSION
HIÉRARCHIE
LES HIÉRARCHIES SONT REPRÉSENTÉES PAR DES RELATIONS DE GROUPEMENT 44
1. La modélisation Multidimensionnelle
• UNE CLÉ NON SIGNIFICATIVE ÉTABLISSANT UN LIEN AVEC LES LIGNES DE LA TABLE DE
FAITS
• UNE CLÉ SIGNIFICATIVE REPRISE D’UNE SOURCE DE DONNÉES OPÉRATIONNELLE OU
EXTERNE
Dimension Produit
Clé non significative
Clé produit
Clé significative
ID produit
Nom produit Attributs
Groupe 45
Marque
Unité
Conditionnement
1. La modélisation Multidimensionnelle
• TYPE 2: CRÉER UNE NOUVELLE LIGNE DE TABLE DE DIMENSION CHAQUE FOIS QUE L'OBJET DE
DIMENSION CHANGE, AVEC TOUTES LES CARACTÉRISTIQUES DE LA DIMENSION AU MOMENT
DU CHANGEMENT.
• APPROCHE LA PLUS COURANTE
47
1. La modélisation Multidimensionnelle
Inconvénient:
Redondance et duplication des données dans les dimensions
Saturation du stockage et performance dégradée des
requêtes 51
3. Schéma Flocon de neige
Jour Magasin
Clé jour Clé magasin Commune
Avantages:
- Amélioration des performances de requête
- Réduction du stockage sur disque et de l'assemblage des tables
Inconvénients:
- Maintenance complexes en raison de
l'augmentation des hiérarchies entre dimensions
- Complexité des requêtes d’analyse
54
3. Schéma Flocon de neige
• La normalisation est le processus qui permet d’éviter les données redondantes dans
les bases de données.
• Cela implique de restructurer les tables pour atteindre successivement des formes
55
plus élevées de normalisation.
3. Schéma Flocon de neige : la normalisation
56
3. Schéma Flocon de neige : la normalisation
EXEMPLE:
LIVRE(ID_LIVRE, AUTEURS)
→APPLICATION DE LA 1FN:
LIVRE(ID_LIVRE, AUTEUR)
57
3. Schéma Flocon de neige : la normalisation
DayOfWeek
Fiscal Year Fiscal Quarter Fiscal Month Fiscal Week
Après
Normalisation:
Date
IsHoliday
4. Le schéma en constellation
61
4. Le schéma en constellation
Fait Vente
Clé période
Clé client
Clé produit
Dimension Magasin Clé magasin Dimension Client
Quantité
Chiffre d’affaires 62
TRAVAUX DIRIGÉES (TD)
63
CHAPITRE 4 : ANALYSES AVANCÉES DES
DONNÉES
1. Les outils OLAP (On Line Analysis Processing)
2. Les opérations OLAP et introduction du langage MDX
3. Les outils de restitutions : Tableaux de bord et rapports
4. Les analyses poussées avec du Datamining
5. L’apprentissage supervisé et non supervisé.
64
1. Les outils OLAP (On Line Analysis Processing)
Rappel architecture:
Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load
Data Mining
Base de données
Opérationnelles/ERP
Data Marts
65
Sources de Entrepôt de OLAP Reporting
données ETL
données
1. Les outils OLAP (On Line Analysis Processing)
Olap effectue une analyse multidimensionnelle des données métier et fournit la possibilité pour les calculs complexes,
l'analyse des tendances et la modélisation des données.
• Technologie utilisée pour effectuer les mises à jour sur les systèmes
opérationnels ou transactionnels
MOLAP est la façon la plus courante de l'analyse OLAP. Dans MOLAP, les données sont stockées dans un cube multidimensionnel.
Les données multidimensionnelles sont stockées dans une base de données relationnelle standard.
HOLAP combine les meilleures caractéristiques de MOLAP et ROLAP dans une architecture unique.
Holap tente de combler le fossé technologique des deux produits en permettant l'accès ou l'utilisation à la fois des base de
68
données multidimensionnelle et des bases de données de datawarehouse relationnelles.
1. Les outils OLAP (On Line Analysis Processing)
69
1. Les outils OLAP (On Line Analysis Processing)
Dimension Région
Région
Vente
Quantité
Dimension
Chiffre d’affaires
Dimension Produit
Mesures et dimensions
JAN FE MAR AVR MAI
Mazda V
BMW
Mesure Fiat
Renault
Stockée dans les tables de faits
Vente Rabat
Exemple: montant des ventes
Tanger
Dimension
Oujda
Stockée dans les tables de dimensions
Exemple: produit, date, géographie Marrakech
71
2.1 Les opérations OLAP
1. Rotate
Rotation des axes du cube pour fournir une vue alternative des données
(Produit , Date) ➔ (Région , Produit)
72
2.1 Les opérations OLAP
ROLL-UP
• REMONTER DANS LA HIÉRARCHIE DE LA DIMENSION SEMAINE ➔ MOIS
DRILL-DOWN
• DESCENDRE DANS LA HIÉRARCHIE DE LA DIMENSION MOIS ➔ SEMAINE
73
2.1 Les opérations OLAP
3. Opération : Slicing
• Extraction d’une tranche d’informations : Sélection d’une dimension pour passer a un
sous-cube
MAZDA BMW MAZDA
JAN 200 86 JAN 200
FEV 178 90 FEV 178
Ville
Mazda
JAN
FEb
74
2.1 Les opérations OLAP
4. OPÉRATION : DICE
EXTRACTION D’UN BLOC DE DONNÉES : SÉLECTION DE DEUX OU PLUSIEURS DIMENSIONS
75
2.2 Introduction au Langage MDX
• MDX a été adopté par une grande majorité de fournisseurs OLAP et est devenu la norme pour les
systèmes OLAP
76
2.2 Introduction au Langage MDX
SYNTAXE
SELECT Requête MDX
MDX VS DAX
• DAX a été initialement conçu pour les modèles de données tabulaires.
• Il existe des mappages intéressants et utiles, et des contraintes, qui doivent être compris lors de
l’utilisation de dax sur des modèles multidimensionnels
• DAX n’est pas un sous-ensemble de MDX. DAX a été initialement conçu pour être similaire au
langage de formule Excel.
• Certaines fonctions DAX, ne sont pas applicables dans la modélisation multidimensionnelle
78
3. Les outils de restitutions
Rappel architecture:
Metadata Repository
Tableaux de bord
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load
Data Mining
Base de données
Opérationnelles/ERP
Data Marts
79
Sources de Entrepôt de OLAP Reporting
données ETL
données
3. Les outils de restitutions
80
3. 1 Les outils de restitutions: Reporting
DÉFINITION REPORTING:
• le reporting consiste à collecter des données à partir de différentes sources et les présenter de manière
compréhensible afin qu’elles soient prêtes à être analysées.
• Dans une certaine mesure, le reporting consiste aussi à présenter des données et des informations, de
sorte qu’il inclut également une analyse, c’est-à-dire que l’audience finale puisse à la fois voir et
comprendre les données, et surtout prendre des décisions d’action en conséquence.
81
3. 1 Les outils de restitutions: Reporting
LES DIFFÉRENTS TYPES DE REPORTING :
• Reporting stratégique:
Il s’agit ici de Reporting axés sur le suivi des stratégies à long terme de
l’entreprise, qui analysent et comparent un large éventail d’informations
critiques, basées sur les tendances.
• Reporting tactique :
C’est un reporting riche en informations, adaptés aux cadres intermédiaires,
qui les aident à formuler des stratégies de croissance basées sur les
tendances, ainsi que les forces et les faiblesses des équipes.
• Reporting opérationnel:
Il s’agit là d’un reporting qui permet de surveiller, mesurer et gérer des
processus ou des opérations avec une échelle de temps plus courte.
• Reporting analytique:
Ce reporting particulier contiennent de nombreuses sources de données qui
permettent aux analystes d’explorer et d’extraire des informations pour
aider l’entreprise à découvrir de nouveaux gisements de valeur.
82
3.2 Les outils de restitutions: tableaux de bord
DÉFINITION TABLEAU DE BORD:
Un tableaux de bord fournit des affichages visuels d'informations importantes consolidées et
organisées sur un seul écran, de sorte que les informations puissent être visualisées d'un seul
coup d'œil et facilement explorées.
83
3.2 Les outils de restitutions: tableaux de bord
CARACTÉRISTIQUES D’UN TABLEAU DE BORD:
Le data mining est la pratique de la recherche automatique dans les grands magasins de données pour découvrir
les modèles et les tendances qui vont au-delà de l’analyse simple. L'exploration de données utilise des techniques
de statistiques et des algorithmes mathématiques sophistiqués pour segmenter les données et pour évaluer la
probabilité d'événements futurs.
85
4. Les analyses poussées avec du Datamining
KNOWLEDGE
DATA
DISCOVERY
PROCESS
86
4. Les analyses poussées avec du Datamining
Datawarehouse VS datamining
87
5. L’apprentissage supervisé et non supervisé
88
https://www.datalyticsbusiness.ca/intelligence-artificielle-vs-science-des-donnees/
TRAVAUX PRATIQUES
89
TP BASES DE DONNÉES
DÉCISIONNELLES
ARCHITECTURE DU SYSTÈME DÉCISIONNEL
OBJECTIF DES TPS
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW
Reporting
Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles
91
TP1 : CRÉATION DU DATAWAREHOUSE
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW
Reporting
Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles
92
TP1 : CRÉATION DU DATAWAREHOUSE
93
TP2 : CRÉATION D’UN PROCESSUS ETL POUR L’ALIMENTATION
DE LA DIMENSION PRODUCT/CUSTOMER/DATE
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW
Reporting
94
TP3 : CRÉATION DU PROCESSUS ETL POUR L’ALIMENTATION DE
LA TABLE DE FAIT
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW
Reporting
95
TP5 : L’EXPLORATION DES DONNÉES DANS UN CUBE
OLAP
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW
Reporting
Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles
96
PROJET DE FIN DU MODULE