Académique Documents
Professionnel Documents
Culture Documents
Quels citoyens
A combien s’élèvent mes
consomment le plus
ventes journalières en Q1?
de poissons? 2
Processus ETL et Entrepôt de données 2021-2022
Données opérationnelles (de production)
Bases de données (Oracle, SQL Server)
Fichiers de tout genre…
Paye, gestion des RH, gestion des commandes…
3
Processus ETL et Entrepôt de données 2021-2022
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information stratégique
⇒Hors BD opérationnel donc
En donnant du sens aux données : Nettoyage, structuration, analyse
exploratoire, fouille de données (datamining)
Mettre en place un système d’information dédié aux
applications décisionnelles: Datawarehouse
Le processus de prise de décision
Analyser
Définir le Rassembler Établir des
les Décider
problème les données solutions
données
Intégration
E Data- Prise de
T
L warehouse décision
Hypercube
Base multi -
dimensionnelle Outils de
Prédiction /
Bases de Staging simulation
production Area Datamarts
Data Sources Data Storage OLAP Engine Front End Tools
5
Processus ETL et Entrepôt de données 2021-2022
1. Sources diverses et disparates;
2. Sources sur différentes plateformes et OS;
3. Applications legacy utilisant des BD et autres technologies
obsolètes;
4. Historique de changement non-préservé dans les sources;
5. Qualité de données douteuse et changeante dans le temps;
6. Structure des systèmes sources changeante dans le temps;
7. Incohérence entre les différentes sources;
8. Données dans un format difficilement interprétable ou ambigu.
6
Processus ETL et Entrepôt de données 2021-2022
Définition : Regroupe les processus par lesquels les données
provenant de différentes parties du SI sont déplacées, combinées et
consolidées. Ils consistent habituellement à extraire des données de
différentes sources, à leur appliquer des transformations (jointures,
lookups, déduplication, calculs, etc.), et à envoyer les données
résultantes vers les systèmes cibles : DWH dans notre cas)
Plusieurs système d’intégration de données :
Médiation au service de l’intégration de données d'entreprise
(EII).
Intégration de données via les applications (EAI).
Intégration de données via les services Web (SOA).
Intégration de données en nuage (Data Cloud).
L'ETL (Extract - Transform - Load) aster 7
Processus ETL et Entrepôt de données 2021-2022
Source: “EII - ETL – EAI What, Why, and How!”, Tom Yu, 2005
ETL EII EAI
Target /
SQL
Data
(or Content)
Warehouse
Application
Interpret
load Data Virtualization Transform
transform Route
Application
extract
Structured Legacy
Data Source Data Source
Data Data
Source Source Application
Caractéristiques:
SQL
Fournit une vue unifiée des données de l'entreprise, où les (or Content)
9
Processus ETL et Entrepôt de données 2021-2022
EII
10
Processus ETL et Entrepôt de données 2021-2022
Avantages Inconvénients
12
Processus ETL et Entrepôt de données 2021-2022
Avantages Inconvénients
Facilite l’interopérabilité des Support limité aux transformations et
agrégations des données
applications
Taille des transactions limitée (en
Permet l’accès en (quasi) nombre de lignes)
temps-réel
Développement complexe
Ne transfère que les données
nécessaires Gestion complexe de l’intégrité
sémantique des données
Contrôle du flot d’information.
Utilise la bande passante du réseau
durant les heures de pointe.
13
Processus ETL et Entrepôt de données 2021-2022
Caractéristiques
ETL
Permet la consolidation des données à l’aide des trois
opérations suivantes: Target /
Data
Extraction: identifier et extraire les données de Warehouse
sources ayant subi une modification depuis la
dernière exécution;
load
Transformation: appliquer diverses
transformations aux données pour les nettoyer, transform
les intégrer et les agréger; extract
Chargement: insérer les données transformées
dans l’entrepôt et gérer les changements aux Data Data
données existantes (ex: stratégies SCD). Source Source
Approche EII:
• Relier un entrepôt (EDW) existant avec des données de sources spécifiques
• Données sources volatiles et accessibles à l’aide de requêtes simples (SQL).
ETL Tool versus Hand Coding (Buy a Tool Suite or Roll Your Own?)
The answer is, “It depends.”
(Kimball, Caserta, 2004, pp10-13)
19
Processus ETL et Entrepôt de données 2021-2022
Les avantages offerts par l'outil ETL sont :
De structurer et de rassembler l'ensemble des morceaux de code
nécessaires aux transferts et aux transformations des données
D'offrir une représentation graphique des flux et opérations
De faciliter la maintenance et l'évolution de l'ETL
D'intégrer la gestion des métadonnées
D'intégrer la gestion des erreurs
Les avantages offerts par une approche ex nihilo (from scratch)
L'homogénéité technologique et la disponibilité interne des
compétences : les équipes utilisent les langages qu'elles maîtrisent
sans apprentissage et médiation d'un outil tiers.
La flexibilité : tout est possible.
Le traitement des fichiers plats (hors BD ) peut être plus simples et
plus performant avec des langages proches des systèmes. 20
Processus ETL et Entrepôt de données 2021-2022
A votre avis, quelles sont les étapes de conception d’un
processus ETL
21
Processus ETL et Entrepôt de données 2021-2022
Dépendent de la ETL des tables de faits
modélisation choisie
ETL des tables de dimension
pour le DWH
Définir les procédures pour le chargement de données
Extraction
Extraction des données de leur
environnement d’origine (base de données
Transformation
relationnelles, fichiers plats…)
Besoin d’outils spécifiques pour accéder aux
bases de production (requêtes sur des BDs
Chargement
hétérogènes)
Besoin d’une technique appropriée pour
n’extraire que les données nécessaires DW
23
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
L’extraction des données peut se faire de trois
façons différentes : Push
Push : la logique de chargement est dans le
système de production, il pousse les données
vers le Staging quand il en a l'occasion. E
Pull T
Pull : le Pull tire les données de la source L
vers le Staging. Push/Pull
Push-Pull : La source prépare les données a
envoyer et prévient le Staging qu'elle est
prête. Le Staging va récupérer les données. Bases de Staging
Si la source est occupée, le Staging fera une production Area
autre demande plus tard.
24
Processus ETL et Entrepôt de données 2021-2022
EXTRACT BD Fichier CSV
Extraction
I. Identification des sources :
1. Énumérer les items cibles (métriques et attributs de
Transformation
dimension) nécessaires à l'entrepôt de données;
2. Pour chaque item cible, trouver la source et l'item
correspondant de cette source;
Chargement
3. Si plusieurs sources sont trouvées, choisir la plus
pertinente;
4. Si l'item cible exige des données de plusieurs DW
sources, former des règles de consolidation;
5. Si l'item source referme plusieurs items cibles (ex: un
seul champs pour le nom et l'adresse du client),
définir des règles de découpage;
6. Inspecter les sources pour des valeurs manquantes.
25
Processus ETL et Entrepôt de données 2021-2022
EXTRACT BD Fichier CSV
Extraction
II. Extraction
1. Extraction complète :
Transformation
Capture l'ensemble des données à un certain
instant (snapshot de l'état opérationnel);
Normalement employée dans deux situations:
Chargement initial des données; Chargement
Rafraîchissement complet des données (ex:
modification d'une source).
Peut être très coûteuse en temps (ex: plusieurs DW
heures/jours).
2. Extraction incrémentale:
Capture uniquement les données qui ont changées
ou ont été ajoutées depuis la dernière extraction;
Peut être faite de deux façons:
Extraction temps-réel;
26
Extraction différée (en lot).
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction temps-réel : S'effectue au moment où les transactions
surviennent dans les systèmes sources.
Systèmes
opérationnels BD sources Journal de
transactions
sources triggers
Option 1:
Capture à l'aide des
journaux detransactions
Fichiers Fichiers
générés par Option 2:
générés par
les triggers Capture à l'aide de
les sources
triggers
Option 3: Zone de préparation
Capture dans les de données
applications sources 27
(staging area)
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction temps-réel :
Option 1: Capture à l'aide du journal des transactions
Pas possible avec les systèmes legacy ou les sources à base de fichiers (il
faut une BD journalisée).
28
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction temps-réel :
Option 2: Capture à l'aide de triggers
Pas possible avec les systèmes legacy ou les sources à base de fichiers.
29
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction temps-réel :
Peut être employé sur des systèmes legacy et les systèmes à base de
fichiers.
30
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction différée: Extrait tous les changements survenus durant une
période donnée (ex: heure, jour, semaine, mois).
Systèmes
opérationnels Extraction Extraction
BD sources d'aujourd'hui d'hier
sources
Programme de
Programme comparaison
Fichiers
d'extraction d'extraction
utilisant les
timestamps Option 2:
Capture par Fichiers
Option 1: comparaison de d'extraction
Capture basée sur Zone de préparation fichiers utilisant la
les timestamps de données comparaison
31
Processus ETL et Entrepôt de données
(staging area) 2021-2022
EXTRACT
II. Extraction
3. Extraction différée:
Option 1: Capture basée sur les timestamps
32
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
II. Extraction
3. Extraction différée:
33
Processus ETL et Entrepôt de données 2021-2022
EXTRACT
Considérations pratiques de l’étape d’extraction :
1. Choisir, pour chaque source, la fenêtre temporelle durant laquelle sera
faite l'extraction;
2. Déterminer la séquence des tâches d'extraction;
3. Déterminer comment gérer les exceptions.
34
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM BD Fichier CSV
Extraction
Transformation des données
Homogénéisation du vocabulaire, structures,
Transformation
valeurs
Suppression et fusion des redondances
Suppression des données incohérentes
Chargement
Transformation dans un format cible
DW
35
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Types de transformation :
1. Révision de format :
Ex: Changer le type ou la longueur de champs individuels.
2. Décodage de champs :
Consolider les données de sources multiples
Ex: ['homme', 'femme'] vs ['M', 'F'] vs [1,2].
Traduire les valeurs cryptiques
Ex: 'AC', 'IN', 'SU' pour les statuts actif, inactif et suspendu.
3. Pré-calcul des valeurs dérivées :
Ex: profit calculé à partir de ventes et coûts.
4. Découpage de champs complexes :
Ex: extraire les valeurs prénom, secondPrénom et nomFamille à partir d'une seule
chaîne de caractères nomComplet.
36
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Types de transformation:
5. Fusion de plusieurs champs:
Ex: information d'un produit
Source 1: code et description;
Source 2: types de forfaits;
Source 3: coût.
6. Conversion de jeu de caractères.
Ex: EBCDIC (IBM) vers ASCII.
7. Conversion des unités de mesure.
Ex: miles to meter.
8. Conversion de dates.
9. Pré-calcul des agrégations.
Ex: Total des ventes par produit par semaine et par région.
10. Déduplication.
Ex: Plusieurs enregistrements pour un même client. 37
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Problème de résolution d'entités:
Même entité se retrouve sur différentes sources, sans qu'on ait la
correspondance entre ces sources;
Ex: clients de longue date avec différent identifiants dans les sources;
L'intégration des données requiert de retrouver la correspondance;
Approches basées sur des règles de résolution
Ex: les entités doivent avoir au moins N champs identiques
Problème des sources multiples:
Survient lorsqu'une entité possède une représentation différente sur
plusieurs sources;
Approches de sélection:
Choisir la source la plus prioritaire;
Choisir la source ayant l'information la plus récente.
38
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Problème des changements dimensionnels
Slowly Changing Dimensions (SCDs)
On parle d'une dimension a évolution lente (slowly changing dimension)
lorsqu'une dimension peut subir des changements de description des
membres.
Un client peut changer d’adresse, se marier, ...
39
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Gestion des changements dimensionnels
SCD Type 0 : Pas de prise en compte des SCDs;
40
Processus ETL et Entrepôt de données 2021-2022
TRANSFORM
Gestion des changements dimensionnels
SCD Type 2: nouvelle ligne ajoutée;
41
Processus ETL et Entrepôt de données 2021-2022
LOAD BD Fichier CSV
Extraction
Etape Critique.
Chargement des données dans l’entrepôt cible
Transformation
en respectant la modélisation des données
choisie (prochain cours)
Des questions qu'il faut se poser lors de cette
Chargement
étape :
Que faire si un chargement échoue ?
DW
Ai-je les moyens de revenir à l'état avant le
chargement ?
Puis-je revenir dans le temps d'un chargement
donné ?
Comment valider mon chargement, comment
détecter les erreurs?
42
Processus ETL et Entrepôt de données 2021-2022
LOAD
Types de chargement :
1. Chargement initial :
• Fait une seule fois lors de l'activation de l'entrepôt de données;
• Peut prendre plusieurs heures.
2. Chargement incrémental :
• Fait une fois le chargement initial complété;
• Tient compte de la nature des changements (ex: SCD Type 1, 2 ou 3);
• Peut être fait en temps-réel ou en lot.
3. Rafraîchissement complet :
• Employé lorsque le nombre de changements rend le chargement
incrémental trop complexe;
Ex: lorsque plus de 20% des enregistrements ont changé depuis le
dernier chargement
43
Processus ETL et Entrepôt de données 2021-2022
LOAD BD Fichier CSV
Extraction
Considérations additionnelles:
Faire les chargements en lot dans une période
Transformation
creuse (entrepôt de données non utilisé);
Considérer la bande passante requise pour le
chargement;
Chargement
Avoir un plan pour évaluer la qualité des
données chargées dans l'entrepôt;
Commencer par charger les données des tables DW
de dimension.
Penser à intégrer les métadonnées dans
l’information à charger
44
Processus ETL et Entrepôt de données 2021-2022
45
Processus ETL et Entrepôt de données 2021-2022
Big Data Integration
46
Processus ETL et Entrepôt de données 2021-2022
ETL ELT
New technology that is more focused
ETL has been in the market for long on cloud-based warehouses.
Technology
=> easier to find developers with vast Searching suitable engineers to
Adoption
experience in designing ETL systems. develop ELT pipelines are as easy as
for ETL.
Data which is required only for analytics Load anything and everything into a
or reporting is being loaded into the warehouse or a data lake from where
Data Availability
warehouse, leaving other unnecessary it can be analyzed at a later point of
data in the source systems as is. time.
Add or remove specific columns while Additional columns are directly
Calculated Fields
transforming the data in the ETL tool. We added to the existing dataset in the
and
can also add calculated columns and warehouse. Usually, there is no
Transformations
load them to the warehouse. modification of the source columns.
The more focus is given towards
analyzing highly variable structured
Transformation Implement much complex data
and unstructured data that is arriving
Complexities transformations as and when required.
at a high pace rather than
complexities.
ETL ELT
Most of the traditional ETL tools need to
Mostly cloud-based and doesn’t
Infrastructure be installed on-premises => lot of cost
require to be installed on the
to the analytics workloads. premises.
In an ETL pipeline, that is installed on-
ELT, since it is cloud-based or
Postproduction
premises, maintenance is frequently serverless, no or very little
Maintenance
required. maintenance is required.
In ELT, the transformations are
The transformations are applied in
applied once the data has been
Transformation memory in a staging layer before the
loaded into the warehouse or a data
Area data is being loaded into the data
lake.
warehouse.
No requirement for a staging layer.
Although an ETL tool can read data ELT is designed to handle all types
Support for semi- from semi-structured or unstructured of data structures from semi-
structured and data sources, it is usually transformed in structured to unstructured data in
unstructured data the staging layer and only stored as a the data lakes which can be further
proper structure in the warehouse. analyzed.
48
Processus ETL et Entrepôt de données 2021-2022
Collecte de Intégration Diffusion Présentation
données : ETL
Metadata
Intégration
E Data- Prise de
T
L warehouse décision
Hypercube
Base multi -
dimensionnelle Outils de
Prédiction /
Bases de Staging simulation
production Area Datamarts
Data Sources Data Storage OLAP Engine Front End Tools
49
Processus ETL et Entrepôt de données 2021-2022
Définition : Données servant à définir ou décrire d’autres données.
Permettent de comprendre les données en leur conférant un contexte.
Correspondent à des marqueurs que l'on introduit dans les fichiers ou
dans des langages de programmation appropriés, comme
les langages de marquage XML.
50
Processus ETL et Entrepôt de données 2021-2022
But
Améliorer l'efficacité des recherches d'information par
rapport aux recherches « plain text ».
Faire interopérer les ressources informatiques. On peut alors
faire communiquer les BDs classiques. Ex : Consolider une
information/item à partir de plusieurs bases.
Prolonger la durée de vie des données en permettant aux
entreprises de les réutiliser à de nombreuses reprises.
Permettre à un utilisateur technique de déterminer quel job
ETL ou processus de base de données est utilisé pour
charger des données dans chaque attribut transformé.
51
Processus ETL et Entrepôt de données 2021-2022
Métadonnées techniques :
– ETL : sources et cibles pour les transferts de données, transformations,
règles d’affaires, etc.
– Stockage : tables, champs, types, indexes, partitions, dimensions, etc.
– Présentation: modèle de données, rapports, cédules, privilèges d’accès,
etc.
Métadonnées d’affaires:
– Décrit le contenu de l’entrepôt en termes compréhensibles par les
utilisateurs d’affaires;
– Ex: descripteurs de tables et champs.
Métadonnées de processus:
– Décrit le résultat de diverses opérations du système de BI;
– Ex: logs ETL (début, fin, écritures disque, …), statistiques sur les
requêtes, …
52
Processus ETL et Entrepôt de données 2021-2022
Bénéfices:
– Découple la dépendance entre la technologie et son
utilisation (ex: reconfigurer dynamiquement le système ETL
pour modifier ou ajouter une source)
– Permet de monitorer l'état et la performance de la solution BI
– Sert de documentation au système
– Permet de déterminer l'impact d'un changement
– Assure l'interopérabilité entre les systèmes et la
maintenabilité du système décisionnel
Idéal:
– Avoir un seul répertoire de métadonnées partagé par toutes
les composantes de la solution BI
53
Processus ETL et Entrepôt de données 2021-2022
54
Client
Police
56
Processus ETL et Entrepôt de données 2021-2022
Les 4 caractéristiques des Datawarehouses
2. Données intégrées:
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD 57
Processus ETL et Entrepôt de données 2021-2022
Les 4 caractéristiques des Datawarehouses
3. Données non volatiles
Traçabilité des informations et des décisions prises
Copie des données de production
Ajout
Suppression
Accès
Modification Chargement
58
Processus ETL et Entrepôt de données 2021-2022
Les 4 caractéristiques des Datawarehouses
4. Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Base de Répertoire Répertoire
Nom Ville Nom Ville
production
Dupont Paris Dupont Marseille
Durand Lyon Durand Lyon
Calendrier Répertoire
Entrepôt de Code Année Mois
Code Nom Ville
données 1 2005 Mai
1 Dupont Paris
1 Durand Lyon
2 2006 Juillet
2 Dupont Marseille 59
Processus ETL et Entrepôt de données 2021-2022
• À quoi sert le plan architecturel d’une solution de BI?
• Quels sont les facteurs pouvant avoir un impact sur
l’architecture de la solution?
6 60
Processus ETL et Entrepôt de données 2021-2022
0
Besoins d’affaires:
« Que doit-on faire ? »
Architecture:
« Comment allons-nous le faire ? »
6 61
Processus ETL et Entrepôt de données 2021-2022
1
Encourage la satisfaction des besoins:
Les besoins techniques dérivent des besoins d’affaires;
Documents d’architecture.
Facilite la communication:
Illustre les différents rôles au sein du système;
Communique la complexité du projet aux cadres supérieurs.
Aide à la planification:
Regroupe tous les détails techniques;
Identifie des dépendances et de nouveaux de besoins.
62
Processus ETL et Entrepôt de données 2021-2022
• L’interdépendance informationnelle entre les unités de
l’entreprise
Ex: bonne intégration (ex: MDM Master Data Management ou
gestion des données de référence) VS silos de données
• Les sources de données
Ex: 1 source VS 10 sources, ERP VS legacy, etc.
• La quantité des données
Ex: gigaoctets VS teraoctets
• La latence des données
Ex: mise-à-jour hebdomadaire VS temps-réel
• L’urgence d’obtenir une solution fonctionnelle
Ex: entrepôt d'entreprise (EDW) VS magasin de données
63
Processus ETL et Entrepôt de données 2021-2022
• Le nombre d'utilisateurs
Ex: 10-50 utilisateurs vs 50-200 utilisateurs
• La nature des tâches des utilisateurs finaux
Ex: rapports simples VS fouille de données
• Les contraintes sur les ressources
Ex: financières, main d'œuvre, biais technologique, etc.
• Les objectifs du projet
Ex: stratégique VS opérationnel
• Autres facteurs
Ex: politiques, habilités du personnel TI, etc.
64
Processus ETL et Entrepôt de données 2021-2022
Quelles sont les différentes architectures d’entrepôts de
données?
65
Processus ETL et Entrepôt de données 2021-2022
1. Magasins de données indépendants
3. Architecture Hub-and-spoke
66
Processus ETL et Entrepôt de données 2021-2022
Datamarts
Systèmes source ETL indépendants Reporting Utilisateurs
Staging
App 1
Area
silos de Staging
App 2
Area
données
Staging
App 3
Area
67
Processus ETL et Entrepôt de données 2021-2022
Caractéristiques:
– Les datamarts sont développés et opèrent de manière indépendante;
– Les données sont disposées en « silos fonctionnels »;
– Pas de dimensions conformes (ou partagées : utilisées par les faits de
+ieurs DMs)
Avantages/inconvénients:
(+) Architecture la plus simple et la moins coûteuse à développer;
(−) Incohérences et redondances entre les datamarts
(−) Il n’y a pas une seule version de la vérité;
(−) Analyse inter-fonctionnelle difficile ou impossible;
(−) Vision limitée, pas extensible.
68
Processus ETL et Entrepôt de données 2021-2022
Datamarts
liés par
Systèmes dimensions
source ETL conformes Reporting Utilisateurs
Infrastructure
de reporting
Staging
Area
Entrepôt de
données
conceptuel
69
Processus ETL et Entrepôt de données 2021-2022
Data-
warehouse
Bottom-Up
DM DM DM
Caractéristiques:
– Approche bottom-up, proposée par R. Kimball;
Data Storage
– Datamarts développés par sujet/processus d’affaires, en se basant sur des
dimensions conformes;
– Modélisation dimensionnelle, au lieu du modèle entité-relation (ex: 3FN);
– Entrepôt conceptuel, formé de datamarts inter-reliés à l’aide d’une couche
d’intergiciels (middleware).
Avantages/inconvénients:
(+) Intégration des données assurée par les dimensions conformes;
(+) Approche incrémentale (processus les plus importants d’abord);
(+) Donne des résultats rapidement;
(−) Itérations futures plus difficiles à planifier;
(−) Performance sous-optimale des analyses impliquant plusieurs datamarts.
70
Processus ETL et Entrepôt de données 2021-2022
Systèmes Entrepôt de Datamarts
ETL Reporting Utilisateurs
source données dépendants
d’entreprise
Infrastructure
de reporting
Staging
DWH
Area
Concentrateur Rayons
(hub) (spokes)
71
Processus ETL et Entrepôt de données 2021-2022
Data-
warehouse
Top-Down
DM DM DM
Caractéristiques:
–Approche top-down, proposée par B. Inmon et al. Data Storage
–Entrepôt (hub) contient les données atomiques (niveau de détail le plus fin) et
normalisées (3FN);
–Les datamarts (spokes) reçoivent les données de l’entrepôt;
–Les données des datamarts suivent le modèle dimensionnel et sont
principalement résumées (pas atomique);
–La plupart des requêtes analytiques sont faites sur les datamarts.
Avantages/inconvénients:
(+) Intégration et consolidation complète des données de l’entreprise;
(+) Approche itérative et potentiellement extensible (spokes);
(−) Peut avoir de la redondance de données entre les datamarts;
(−) Performance sous-optimale des analyses impliquant plusieurs datamarts.
72
Processus ETL et Entrepôt de données 2021-2022
Systèmes Entrepôt de Reporting Utilisateurs
source ETL données
d’entreprise
Infrastructure
de reporting
Staging
DWH
Area
73
Processus ETL et Entrepôt de données 2021-2022
Caractéristiques:
– Similaire à Hub-and-spoke, mais sans les datamarts dépendants;
– Gigantesque entrepôt de données servant l’entreprise entière;
– Les données peuvent être atomiques ou résumées.
Avantages/inconvénients:
(+) Les utilisateurs ont accès à toutes les données de l’entreprise;
(+) Intégration (ETL) et maintenance facile car les données sont à un
seul endroit;
(+) optimale (ex: Appliance warehouse, Teradata).
(−) Long et coûteux à développer;
(−) Pas incrémental;
(−) Extensibilité limitée ou très coûteuse.
74
Processus ETL et Entrepôt de données 2021-2022
Inmon Kimball
76
Processus ETL et Entrepôt de données 2021-2022
Modélisation de données décisionnelles
77
Processus ETL et Entrepôt de données 2021-2022