Vous êtes sur la page 1sur 13

L’intégration des

Big Data en
utilisant le
processus ETL

 Badria BADRI
 Abd Elkader
BOUSSAHA

Année Universitaire
2023-2024
Plan
1 Introduction

2 Définition des concepts

3 ETL définition et fonctionnalité

4 Les étapes du processus ETL

5 Les Outils ETL et exemples d’usage

6 Avantages et inconvénients
Introduction 1 2 3 4 5 6

Contexte et problématique

Données
Les données jouent aujourd’hui plus que jamais un rôle
massives
essentiel dans la plupart des activités. Pourtant, de très
nombreuses entreprises ont tendance à enfermer leurs
données en silos cloisonnés. Leurs architectures rendent
très souvent des données potentiellement très utiles
inaccessibles.

Comment
Conséquences, les entreprises n’utilisent qu’une infime ??
partie des données produites et récoltées. Elles en tirent
peu, voire aucun avantage concret. Les données doivent
pouvoir être accessibles, manipulables et exploitables
facilement pour apporter de la valeur à une entreprise
Introduction 1 2 3 4 5 6

Objectif et Solution

L'intégration des données permet de consolider tout type


de données (structurées, non structurées, par lot et par
flux) pour réaliser des opérations très diverses allant de
l'interrogation simple de bases de données d'inventaire à
des analyses prédictives complexes.

Data 1 operation1 operation2 Opération N Data 2

Données
Données utiles
brutes
Definition des concepts 1 2 3 4 5 6

Intégration des données

Quelles sont les principales approches d’intégration de


L'intégration
données: des données est le processus qui
L'intégration
consiste des données
à combiner
• Extract, Transform des est le processus
données
and Load provenant
(ETL) quide
consiste
à différentes
rassemblersources
ces collections
dans unedevue
données
unifiéeséparées
: de dans
lel'importation
•but de générer
Entreprise au plus de valeur
nettoyage
information et des insights.
en passant
Intégration par
(EII)
le mapping et la transformation dans un gisement
cible, pour finalement
• Entreprise rendre
Application les données
intégration (EAI)plus
exploitables et plus utiles
Processus ETL 1 2 3 4 5 6

Qu'est-ce que l'ETL ?

un processus automatisé qui prend les données brutes,


extrait l'information nécessaire à l'analyse, la transforme
en un format qui peut répondre aux besoins opérationnels
et la charge dans un Data Warehouse.
Les étapes du processus ETL 1 2 3 4 5 6

Le processus extraction, transformation et chargement


(ETL) fonctionne en déplaçant les données du système
source vers le système de destination à des intervalles
périodiques. Le processus ETL se déroule en trois
phases :

Extraire les données pertinentes de la base de


1
données source

2 Transformer les données afin qu'elles puissent


être parfaitement adaptées pour l'analytique

Charger les données dans la base de données


3
cible
1 2 3 4 5 6
Les Outils ETL
1 2 3 4 5 6
Exemple d’utilisation

Exemples de cas d'usage pour les outils


ETL :
• Migrer des données d’un système à un
autre.
• Répliquer des données pour la
sauvegarde ou l'analyse des
redondances.
• Synchronisation des données stockées
dans deux ou plusieurs emplacement
différents.
1 2 3 4 5 6
Avantages et inconvénients
Avantages

• Optimiser pour la structure de l’entrepôt de données


• Pouvoir traiter de grandes quantités de données dans
une même exécution (traitement en lot)
• Permettre des transformations complexes et
agrégations sur les données
• Etre contrôlée par l’administrateur
• Permettre la réutilisation des processus et
transformations (ex : Package dans SSIS)
1 2 3 4 5 6
Avantages et inconvénients
inconvénients

• Processus de développement long et coûteux


• Gestion des changements nécessaire
• Exigeance de l’espace disque pour effectuer les
transformations (Staging area)
• Exécution indépendamment du besoin réel
• Latence des données entre la source et l’entrepôt
• Unidirectionnel (des sources vers l’entrepôt de
données)
M e r c i
v o t r e
de
e n t i o n
a tt
Definition des concepts 1 2 3 4 5 6

Big Data

Le big
les mégadonnées
data, l'Internet
ou des
les données
objets (IoT),
massives,
les applications
désigne
les ressources
SaaS (Softwared’informations
as a Service) dont
et l'activité
les caractéristiques
dans le cloud,en
termesautres
entre de volume,
choses, defont
vélocité
exploser
et delevariété
nombreimposent
de sources
l’utilisation
de donnéesdeettechnologies
le volume impressionnant
et de méthodes deanalytiques
données
particulières
existantes dans
pourlecréer
monde deentier.
la valeur,
Maisetla
quiplupart
dépassent
de cesen
général les
données ontcapacités
été collectées
d'une et
seule
stockées
et unique
dansmachine
des siloset
nécessitent ou
autonomes desdestraitements
datastores parallélisés.
distincts.

volume vélocité

Big data

variété

Vous aimerez peut-être aussi