Vous êtes sur la page 1sur 12

L’intégration des

Big Data dans le


processus ETL

 Badria BADRI
 Abd Elkader
BOUSSAHA

Année Universitaire
2023-2024
Plan
1 Introduction

2 Définition des concepts

3 Le processus ETL

4 Les étapes du processus ETL

5 Les Outils ETL

6 Avantages et inconvénients
Introduction 1 2 3 4 5 6

Contexte et problématique

Données
Les données jouent aujourd’hui plus que jamais un rôle
massives
essentiel dans la plupart des activités. Pourtant, de très
nombreuses entreprises ont tendance à enfermer leurs
données en silos cloisonnés. Leurs architectures rendent
très souvent des données potentiellement très utiles
inaccessibles.

Comment
Conséquences, les entreprises n’utilisent qu’une infime ??
partie des données produites et récoltées. Elles en tirent
peu, voire aucun avantage concret. Les données doivent
pouvoir être accessibles, manipulables et exploitables
facilement pour apporter de la valeur à une entreprise
Introduction 1 2 3 4 5 6

Objectif et Solution

L'intégration des données permet de consolider tout type


de données (structurées, non structurées, par lot et par
flux) pour réaliser des opérations très diverses allant de
l'interrogation simple de bases de données d'inventaire à
des analyses prédictives complexes.

Data 1 operation1 operation2 Opération N Data 2

Données
Données utiles
brutes
Definition des concepts 1 2 3 4 5 6

Big Data

Le big
les mégadonnées
data, l'Internet
ou des
les données
objets (IoT),
massives,
les applications
désigne
les ressources
SaaS (Softwared’informations
as a Service) dont
et l'activité
les caractéristiques
dans le cloud,en
termesautres
entre de volume,
choses, defont
vélocité
exploser
et delevariété
nombreimposent
de sources
l’utilisation
de donnéesdeettechnologies
le volume impressionnant
et de méthodes deanalytiques
données
particulières
existantes dans
pourlecréer
monde deentier.
la valeur,
Maisetla
quiplupart
dépassent
de cesen
général les
données ontcapacités
été collectées
d'une et
seule
stockées
et unique
dansmachine
des siloset
nécessitent ou
autonomes desdestraitements
datastores parallélisés.
distincts.

volume vélocité

Big data

variété
Definition des concepts 1 2 3 4 5 6

Intégration des données

Quelles sont les principales approches d’intégration de


L'intégration des données est le processus qui
données:
L'intégration des données
consiste à combiner est le processus
des données provenantquide
consiste
à•différentes
rassembler ces collections
sources
Extract, Transform dans
andunedevue
Load données
unifiéeséparées
(ETL) : de dans
lel'importation
but de générer
au plus de valeur
nettoyage et des insights.
en passant par
•le Entreprise
mapping etinformation
la transformation dans(EII)
Intégration un gisement
cible, pour finalement rendre les données plus
•exploitables
Entreprise et plus utilesintégration (EAI)
Application
Processus ETL 1 2 3 4 5 6

Qu'est-ce que l'ETL ?

un processus automatisé qui prend les données brutes,


extrait l'information nécessaire à l'analyse, la transforme
en un format qui peut répondre aux besoins opérationnels
et la charge dans un Data Warehouse.
Les étapes du processus ETL 1 2 3 4 5 6

Le processus extraction, transformation et chargement


(ETL) fonctionne en déplaçant les données du système
source vers le système de destination à des intervalles
périodiques. Le processus ETL se déroule en trois
phases :

Extraire les données pertinentes de la base de


1
données source

2 Transformer les données afin qu'elles puissent


être parfaitement adaptées pour l'analytique

Charger les données dans la base de données


3
cible
1 2 3 4 5 6
Les Outils ETL
1 2 3 4 5 6
Avantages et inconvénients
Avantages

• Optimiser pour la structure de l’entrepôt de données


• Pouvoir traiter de grandes quantités de données dans
une même exécution (traitement en lot)
• Permettre des transformations complexes et
agrégations sur les données
• Etre contrôlée par l’administrateur
• Permettre la réutilisation des processus et
transformations (ex : Package dans SSIS)
1 2 3 4 5 6
Avantages et inconvénients
inconvénients

• Processus de développement long et coûteux


• Gestion des changements nécessaire
• Exigeance de l’espace disque pour effectuer les
transformations (Staging area)
• Exécution indépendamment du besoin réel
• Latence des données entre la source et l’entrepôt
• Unidirectionnel (des sources vers l’entrepôt de
données)
Click to add title

Vous aimerez peut-être aussi