Académique Documents
Professionnel Documents
Culture Documents
L’information est plus que jamais une donnée stratégique pour des
entreprises évoluant dans un environnement de plus en plus
complexe.
Dans la plupart des entreprises, les données potentiellement utiles
sont inaccessibles ;
Une étude a même révélé que les deux tiers des entreprises retiraient «
peu d'avantages concrets » de leurs données, parfois même « aucun
avantage ».
Les données ont tendance à être enfermées dans des silos cloisonnés,
des systèmes legacy ou des applications rarement utilisées.
1
08/04/2023
Et aujourd'hui :
Données du Web
Twitter
...
2
08/04/2023
3
08/04/2023
4
08/04/2023
• Approche ETL:
– Consolidation d’une grande quantité de données
– Transformations complexes
• Approche EII:
– Relier un entrepôt (EDW) existant avec des données de sources spécifiques
– Données sources volatiles et accessibles à l’aide de requêtes simples (ex: SQL).
• Approche EAI:
– Intégration de transactions
– Requêtes analytiques simples
– Sources non-accessibles directement
5
08/04/2023
Source : Seralia
6
08/04/2023
7
08/04/2023
8
08/04/2023
ETL est le processus qui consiste à rendre ces données disponibles en les collectant
auprès de sources multiples et en les soumettant à des opérations de nettoyage, de
transformation et, au final, d'analytique métier.
Pour ce fait ces données doivent passer par le processus d’Extraction, Transformation
et chargement (ETL) pour qu’elles soient exploitables.
ETL is very time consuming (80% of entire DW project).
Not a single-step process, but needs to be implemented as a sequence of many small steps.
Data quality plays a crucial role in ETL.
Data has almost never good quality, which need to be xed in ETL.
9
08/04/2023
10
08/04/2023
11
08/04/2023
12
08/04/2023
Extraction incrémentale :
Capture des données qui ont changées
Extraction Temps-reel :
S'effectue au moment ou les transactions surviennent dans les systèmes sources
13
08/04/2023
Extraction complète:
– Capture l'ensemble des données à un certain instant
(snapshot de l'état opérationnel);
– Normalement employée dans deux situations:
1. Chargement initial des données;
2. Rafraîchissement complet des données (ex: modification d'une source).
Extraction incrémentale:
– Capture uniquement les données qui ont changées ou ont été
ajoutées depuis la dernière extraction;
– Peut être faite de deux façons:
1. Extraction temps-réel;
2. Extraction différée (en lot).
14
08/04/2023
Extraction temps-réel
S'effectue au moment où les transactions
surviennent dans les systèmes sources.
15
08/04/2023
16
08/04/2023
Extraction différée
Extrait tous les changements survenus durant une
période donnée (ex: heure, jour, semaine, mois).
17
08/04/2023
Types de transformation:
1. Révision de format:
• Ex: Changer le type ou la longueur de champs individuels.
2. Décodage de champs:
• Consolider les données de sources multiples
– Ex: ['homme', 'femme'] vs ['M', 'F'] vs [1,2].
• Traduire les valeurs cryptiques
– Ex: 'AC', 'IN', 'SU' pour les statuts actif, inactif et suspendu.
18
08/04/2023
Types de transformation
5. Fusion de plusieurs champs:
• Ex: information d'un produit
– Source 1: code et description;
– Source 2: types de forfaits;
– Source 3: coût.
8. Conversion de dates:
• Ex: '24 FEB 2011' vs '24/02/2011' vs '02/24/2011'.
10. Déduplication:
• Ex: Plusieurs enregistrements pour un même client.
19
08/04/2023
Matrice de transformation:
Types de chargement:
– Chargement initial:
• Fait une seule fois lors de l'activation de l'entrepôt de données;
• Les indexes et contraintes d'intégrité référentielle (clé étrangères) sont normalement
désactivés temporairement;
• Peut prendre plusieurs heures.
– Chargement incrémental:
• Fait une fois le chargement initial complété;
• Tient compte de la nature des changements (ex: SCD Type 1, 2 ou 3);
• Peut être fait en temps-réel ou en lot.
– Rafraîchissement complet:
• Employé lorsque le nombre de changements rend le chargement incrémental trop
complexe;
• Ex: lorsque plus de 20% des enregistrements ont changé depuis le dernier chargement.
20
08/04/2023
SlowlyChangingDimension Types
ETL = Extracteur+Intégrateur
Extract + Transform + Load
Extraction
Depuis les bases sources ou les
journaux
Différentes techniques
Push = règles (triggers)
Pull = requêtes (queries)
Périodique et répétée
Dater ou marquer les données
envoyées
Difficulté
Ne pas perturber les applications
OLTP
21
08/04/2023
ETL = Extracteur+Intégrateur
Extract + Transform + Load
Extraction
Depuis les bases sources ou les journaux
Différentes techniques
Push = règles (triggers)
Pull = requêtes (queries)
Périodique et répétée
Dater ou marquer les données envoyées
Difficulté
Ne pas perturber les applications OLTP
22