Vous êtes sur la page 1sur 20

L’intégration des Big Data dans le processus

ETL (Extrat, Transform, Laod)

Réalisé par :
Mme Badria BADRI Année Universitaire
Mr. Abd Elkader BOUSSAHA 2023-2024
Plan de travail
I Introduction
II
Les problèmes des sources de
données
III Big Data

IV Le Processus ETL

V Avantages et inconvénients de l’ETL

VI Quelques Outils ETL 2


Introduction
Introduction
La croissance rapide des données distribuées sur l'Internet et aux entreprises qui sont
arrivées depuis plusieurs sources ( des capteurs utilisés pour collecter les informations
climatiques ou bien des messages sur les médias sociaux facebook, gmail…, images
numériques et vidéos publiées en ligne, enregistrements transactionnels d’achat en
ligne Amazon, eBay…, des signaux GPS de téléphones mobiles…) la définition de ces
données Massives indiquant que Big Data est un volume élevé, à grande vitesse, et /
ou des actifs de haute information diverses qui produit beaucoup d’intérêts dans des
systèmes d'intégration de donnée et qui nécessitent de nouvelles formes de traitement
pour permettre une prise de décision améliorée, les organisations de tous les secteurs
public et privé ont pris la décision stratégique de transformer les données en gros
avantage concurrentiel.

4
Introduction

Le défi consistant à extraire la valeur de Big Data est similaire à bien des égards au
problème de la distillation Business Intelligence à partir de données transactionnelles
séculaire. Au coeur de ce défi est le processus utilisé pour extraire des données
provenant de sources multiples hétérogènes, le transformer pour répondre à vos
besoins analytiques, et le charger dans un entrepôt de données pour une analyse
ultérieure, un processus connu sous le nom "Extract, Transform & Load" (ETL).

5
Les problèmes des sources
de données
Les problèmes des sources de données
Problématique :
Sources diverses et disparates;
Sources sur différentes plateformes et OS;

Applications legacy utilisant des BD et autres technologies obsolètes;


Qualité de données douteuse et changeante dans le temps;

Incohérence entre les différentes sources;


Données dans un format difficilement interprétable ou ambigu.

7
Big Data
Big Data
Définition:

« des données hétérogènes collectées dans des volumes croissants et à une


vitesse toujours plus élevée. C’est ce que l’on appelle les trois « V ».
En d’autres termes, le big data est composé de jeux de données complexes,
provenant essentiellement de nouvelles sources. Ces ensembles de données
sont si volumineux qu’un logiciel de traitement de données traditionnel ne
peut tout simplement pas les gérer. Mais ces énormes volumes de données
peuvent être utilisés pour résoudre des problèmes que vous n’auriez jamais pu
résoudre auparavant.»
selon Oracle

9
Synthèse bibliographique
Les 3V « La quantité de données a son importance. Avec le
• Volume big data, vous devrez traiter des volumes colossaux
de données non structurées et à faible densité. Il
« Las’agir
peut quantité de données
de données a son importance.
de valeur inconnue, comme Avec le
big
«des
data,
flux
La variété
vous
defait devrez
données traiter
Twitter,
allusion aux
destypes
des
nombreux
volumes
flux de colossaux
de clics sur une
données
de données
page Internet
disponibles. non
ou une
Les types structurées
application
de données et àmobile
faibleont
traditionnels densité.
d’un Il
ouété
• Vitesse peut s’agir
structurés et de données
trouvent de valeur
naturellement leur inconnue,
place comme
dans une
appareil équipé d’un capteur. Pour certaines
desdeflux
base de cela
données
entreprises, données Twitter,
relationnelle.
peut
Avecdes flux de clics
l’augmentation
correspondre à des
du sur
big une
dizaines
data,
page lesInternet
données ne ou sont
une pas nécessairement
application structurées.
mobile ou d’un Les
de téraoctets
types de donnéesde nondonnées.
structurésPour d’autres, il peut
et semi-structurés, tels que
le
appareil
s’agir
texte,de
équipé
centaines
l’audio
d’un capteur.
de pétaoctets.»
et la vidéo,
Pour certaines
nécessitent un prétraitement
• Variété entreprises, pour
supplémentaire celaen peut correspondre
déduire à desen
le sens et prendre dizaines
charge
lesde téraoctets de données. Pour d’autres, il peut
métadonnée.»
s’agir de centaines de pétaoctets.»

10
ETL (Extract,
transforlm,Load)
ETL
Définition :

« Les termes « Extract, Transform, Load (ETL) » désignent une séquence


d'opérations portant sur les données : collecte à partir d'un nombre illimité de
sources, structuration, centralisation dans un référentiel unique.»
selon Talend

12
ETL
Les étapes de l’ETL
identifier et extraire les données de sources ayant
• Extract subi une modification depuis la dernière exécution;

appliquer diverses transformations aux données


• Transform pour les nettoyer, les intégrer et les agréger;

• Load insérer les données transformées dans l’entrepôt et


gérer les changements aux données existantes

13
Avantages et inconvinients de
l’ETL
Les avantages ELT
• Maximiser la performance • Efficace : pas de technologie intermédiaire • Rapide :
dialogue en langage natif avec les acteurs mis en jeu • Simplifier et rationaliser
l’architecture • Non intrusif : aucun système supplémentaire à installer • Distribué : la
charge peut être lissée sur l’ensemble du système • Optimiser l’utilisation des
technologies déjà en place • Rentabilité : la puissance disponible des systèmes existants
est utilisée • La connaissance et la maîtrise des systèmes par le client sont mutualisées
• Optimiser pour la structure de l’entrepôt de données
• Pouvoir traiter de grandes quantités de données dans une même exécution
(traitement en lot)
• Permettre des transformations complexes et agrégations sur les données
• Etre contrôlée par l’administrateur
• Permettre la réutilisation des processus et transformations (ex : Package dans
SSIS)
Inconvénients
• il peut être plus complexe à gérer
• Processus de développement long et coûteux
• Gestion des changements nécessaire
• Exigeance de l’espace disque pour effectuer les
transformations (Staging area)
• Exécution indépendamment du besoin réel
• Latence des données entre la source et l’entrepôt
• Unidirectionnel (des sources vers l’entrepôt de données)
Quelques Outils ETL
Les outils ETL
• Microsoft SQL Server Integration Services (SSIS),
• Informatica PowerCenter
• Oracle Data Integrator (ODI).
• Talented
• GeoKettle.
• Scriptella.
• CloverDX.
• Apatar.
• Knowage.
• TIBCO Jaspersoft.
• Pentaho Data Integration.
Merci pour
votre attention
Questions

Vous aimerez peut-être aussi