Académique Documents
Professionnel Documents
Culture Documents
Réalisé par :
Mme Badria BADRI Année Universitaire
Mr. Abd Elkader BOUSSAHA 2023-2024
Plan de travail
I Introduction
II
Les problèmes des sources de
données
III Big Data
IV Le Processus ETL
4
Introduction
Le défi consistant à extraire la valeur de Big Data est similaire à bien des égards au
problème de la distillation Business Intelligence à partir de données transactionnelles
séculaire. Au coeur de ce défi est le processus utilisé pour extraire des données
provenant de sources multiples hétérogènes, le transformer pour répondre à vos
besoins analytiques, et le charger dans un entrepôt de données pour une analyse
ultérieure, un processus connu sous le nom "Extract, Transform & Load" (ETL).
5
Les problèmes des sources
de données
Les problèmes des sources de données
Problématique :
Sources diverses et disparates;
Sources sur différentes plateformes et OS;
7
Big Data
Big Data
Définition:
9
Synthèse bibliographique
Les 3V « La quantité de données a son importance. Avec le
• Volume big data, vous devrez traiter des volumes colossaux
de données non structurées et à faible densité. Il
« Las’agir
peut quantité de données
de données a son importance.
de valeur inconnue, comme Avec le
big
«des
data,
flux
La variété
vous
defait devrez
données traiter
Twitter,
allusion aux
destypes
des
nombreux
volumes
flux de colossaux
de clics sur une
données
de données
page Internet
disponibles. non
ou une
Les types structurées
application
de données et àmobile
faibleont
traditionnels densité.
d’un Il
ouété
• Vitesse peut s’agir
structurés et de données
trouvent de valeur
naturellement leur inconnue,
place comme
dans une
appareil équipé d’un capteur. Pour certaines
desdeflux
base de cela
données
entreprises, données Twitter,
relationnelle.
peut
Avecdes flux de clics
l’augmentation
correspondre à des
du sur
big une
dizaines
data,
page lesInternet
données ne ou sont
une pas nécessairement
application structurées.
mobile ou d’un Les
de téraoctets
types de donnéesde nondonnées.
structurésPour d’autres, il peut
et semi-structurés, tels que
le
appareil
s’agir
texte,de
équipé
centaines
l’audio
d’un capteur.
de pétaoctets.»
et la vidéo,
Pour certaines
nécessitent un prétraitement
• Variété entreprises, pour
supplémentaire celaen peut correspondre
déduire à desen
le sens et prendre dizaines
charge
lesde téraoctets de données. Pour d’autres, il peut
métadonnée.»
s’agir de centaines de pétaoctets.»
10
ETL (Extract,
transforlm,Load)
ETL
Définition :
12
ETL
Les étapes de l’ETL
identifier et extraire les données de sources ayant
• Extract subi une modification depuis la dernière exécution;
13
Avantages et inconvinients de
l’ETL
Les avantages ELT
• Maximiser la performance • Efficace : pas de technologie intermédiaire • Rapide :
dialogue en langage natif avec les acteurs mis en jeu • Simplifier et rationaliser
l’architecture • Non intrusif : aucun système supplémentaire à installer • Distribué : la
charge peut être lissée sur l’ensemble du système • Optimiser l’utilisation des
technologies déjà en place • Rentabilité : la puissance disponible des systèmes existants
est utilisée • La connaissance et la maîtrise des systèmes par le client sont mutualisées
• Optimiser pour la structure de l’entrepôt de données
• Pouvoir traiter de grandes quantités de données dans une même exécution
(traitement en lot)
• Permettre des transformations complexes et agrégations sur les données
• Etre contrôlée par l’administrateur
• Permettre la réutilisation des processus et transformations (ex : Package dans
SSIS)
Inconvénients
• il peut être plus complexe à gérer
• Processus de développement long et coûteux
• Gestion des changements nécessaire
• Exigeance de l’espace disque pour effectuer les
transformations (Staging area)
• Exécution indépendamment du besoin réel
• Latence des données entre la source et l’entrepôt
• Unidirectionnel (des sources vers l’entrepôt de données)
Quelques Outils ETL
Les outils ETL
• Microsoft SQL Server Integration Services (SSIS),
• Informatica PowerCenter
• Oracle Data Integrator (ODI).
• Talented
• GeoKettle.
• Scriptella.
• CloverDX.
• Apatar.
• Knowage.
• TIBCO Jaspersoft.
• Pentaho Data Integration.
Merci pour
votre attention
Questions