Vous êtes sur la page 1sur 24

ETL(Extraction

Transforme
Load)
Préparé par GHRIBI Hayet
What is Traditional ETL?

 ETL stands for Extract, Transform, Load. Traditionally,


it is a batch process used to move data from one
or more sources into a destination system, such as
a data warehouse or a data lake. The process is
typically broken down into three stages:
 ETL signifie Extraire, Transformer, Charger.
Traditionnellement, il s'agit d'un processus par lots
utilisé pour déplacer des données d'une ou
plusieurs sources vers un système de destination,
tel qu'un entrepôt de données ou un lac de
données. Le processus se décompose
généralement en trois étapes :
Extract[2]

 Data is extracted from various sources, such


as databases, files, or APIs. This can include
structured data, such as relational databases,
and unstructured data, such as log files or
social media feeds.
 Les données sont extraites de diverses
sources, telles que des bases de données, des
fichiers ou des API. Cela peut inclure des
données structurées, telles que des bases de
données relationnelles, et des données non
structurées, telles que des fichiers journaux ou
des flux de réseaux sociaux.
Transform[2]

 The extracted data is then transformed, or cleaned


and processed, to make it ready for loading into the
destination system. This can include tasks such as
filtering, sorting, and aggregating the data, as well as
converting it into a format that can be loaded into
the destination system.
 Les données extraites sont ensuite transformées, ou
nettoyées et traitées, pour les rendre prêtes à être
chargées dans le système de destination. Cela peut
inclure des tâches telles que le filtrage, le tri et
l'agrégation des données, ainsi que leur conversion
dans un format pouvant être chargé dans le système
de destination.
Load[2]

 The transformed data is then loaded into


the destination system, such as a data
warehouse or a data lake.
 Les données transformées sont ensuite
chargées dans le système de destination,
tel qu'un entrepôt de données ou un lac
de données.
 ETL est couramment utilisé dans
l'entreposage de données et la business
intelligence, pour intégrer des données
provenant de différentes sources et les
rendre disponibles à des fins de reporting
et d'analyse. Il peut également être utilisé
dans des projets d'intégration de
données, où les données de différents
systèmes doivent être consolidées à des
fins de reporting ou à d'autres fins.
Présentation de ETL[2]

 ETL est un processus qui aide les organisations à


collecter, intégrer et gérer des ensembles de
données volumineux et complexes provenant de
plusieurs sources. Il s'agit d'un élément essentiel
des initiatives d'entreposage de données et de
business intelligence qui permettent aux
organisations de donner un sens à leurs données
et d'obtenir des informations pouvant éclairer les
décisions commerciales. Pendant la phase
d'extraction, les données sont récupérées à partir
de diverses sources telles que des bases de
données, des fichiers plats, des services Web et
d'autres systèmes externes.
 Les données transformées sont ensuite chargées
dans un système de destination, tel qu'un entrepôt
de données ou un lac de données. Cela permet
aux données d'être mises à disposition pour le
reporting, l'analyse et la prise de décision. Le
système de destination utilise généralement un
modèle de données qui organise les données de
manière à faciliter leur accès et leurs requêtes. Les
processus ETL sont généralement automatisés et
exécutés selon un calendrier régulier, par exemple
quotidien ou hebdomadaire, pour garantir que les
données du système de destination sont à jour.
 Pipelines déclenchés par un événement
Le processus peut également être déclenché par
des événements spécifiques, comme l’arrivée d’un
nouveau dossier ou la réalisation d’une transaction.
Avec l'essor du Big Data et de l'IoT, les processus ETL
deviennent plus complexes et sophistiqués, avec des
outils plus puissants et des techniques plus avancées,
comme l'apprentissage automatique et le traitement
du langage naturel, sont utilisées pour automatiser le
processus.
 De nouvelles exigences appellent de nouvelles
solutions modernes
9 Important Considerations

 1. Bibliothèque de connecteurs
 Une exigence clé de l’outil ETL moderne est la capacité de se
connecter à de nombreuses sources de données. Examinez la
bibliothèque de connecteurs Crosser et recherchez parmi les +800
sources prises en charge.
 2. Intégrations basées sur les événements
 L'architecture basée sur les événements vous permet de créer de
puissantes intégrations en temps réel. Au lieu d'attendre une
synchronisation planifiée, vos pipelines doivent être mis à jour
instantanément sur toutes vos applications.
 3. Intelligent et basé sur des règles
 Les pipelines intelligents et basés sur des conditions vous
permettent de mettre à jour les données spécifiques qui doivent
être mises à jour. Cela accélérera vos mises à jour et rendra vos
applications professionnelles plus intelligentes et plus rapides.
 4. Intégration hybride
 Les plateformes modernes peuvent connecter et prétraiter les
données n’importe où. En périphérie, sur site ou dans le cloud. Une
plate-forme hybride augmente votre flexibilité et permet à votre
entreprise de s'intégrer aux systèmes où qu'ils se trouvent.
 5. Fiabilité et rapidité
 La caractéristique la plus importante de votre outil ETL est sans
doute sa fiabilité et sa rapidité de synchronisation. Pour divers cas
d’utilisation, vous disposez probablement de plusieurs
synchronisations provenant du même connecteur.
 6. Facile à utiliser
 Vous devez être capable d'utiliser l'outil, quelle que soit sa
supériorité théorique. Crosser offre un environnement glisser-
déposer low-code, que tout le monde peut maîtriser.
 7. Security
 Your customers expect you to safeguard their sensitive
information and your ETL tool must be build with a strong
Security concept.
 Cost of the Platform
 Easy to understand pricing and the ability to calculate
costs as the business grows is important to most business
managers. Low entry points and a predictable price
ceiling.
Contact us for Pricing →
 9. Support
 Equally crucial is the presence and expertise of the support
team. You need a partner who will assist you in making the
most of the upscaling of your data strategy.
ETL process
 Qu'est-ce qu'un SaaS ?
Le Software as a Service, également connu sous
le nom de SaaS, est un service basé sur le cloud
où, au lieu de télécharger un logiciel que votre
PC de bureau ou votre réseau professionnel
peut exécuter et mettre à jour, vous accédez à
une application via un navigateur internet.
L'application logicielle peut être un logiciel de
bureautique ou de communication unifiée
parmi un large éventail d'autres applications
professionnelles disponibles.
Avantages SaaS
 Accessibilité
 L'un des grands avantages de toute application
SaaS est la possibilité de s'exécuter au moyen d'un
navigateur internet, de sorte que le système
d'exploitation utilisé pour y accéder n'a pas
d'importance. Ainsi, que l'utilisateur essaie
d'exécuter l'application sur des machines
Windows, Mac ou Linux (ou même sur des
smartphones fonctionnant sous Android ou iOS),
l'application reste toujours accessible. Cela rend
les applications SaaS incroyablement polyvalentes
de plusieurs façons.
SaaS: avantages
 Le matériel
 Cela conduit à l'un des autres principaux arguments
de vente du SaaS, à savoir le manque
d'investissement initial nécessaire pour l'utiliser. En ce
qui concerne les logiciels sur site, il arrive que les PC
d'entreprise ou autres ordinateurs de bureau aient
des configurations logicielles et matérielles
compatibles. Mais aussi que des serveurs et des
commutateurs de réseau supplémentaires soient
nécessaires dans le cadre d'un investissement
général dans les services d'infrastructure informatique
nécessaires pour prendre en charge les logiciels dans
toute l'entreprise.
SaaS: avantages
 Économie et stockage
 Le stockage des données sur site signifie la nécessité
d'investir dans des sauvegardes fiables, par exemple par le
biais du stockage en ligne dans le cloud ou d'un autre plan
de reprise après sinistre, afin d'atténuer toute panne
matérielle grave qui pourrait autrement entraîner une perte
importante de données. Cependant, avec le SaaS, les
données sont de toute façon régulièrement sauvegardées
dans le cloud. Ce qui offre ce double avantage, ce n'est
pas seulement l'aspect redondant, mais aussi le fait que les
employés puissent passer d'un appareil à l'autre sans
perdre leur travail ou leurs données, simplement en se
connectant au compte unique, quel que soit l'appareil
utilisé.
SaaS: avantages
 Mises à jour et correctifs
 Un autre avantage clé des applications SaaS
est que, parce qu'elles fonctionnent dans le
cloud, le fournisseur peut mettre à jour son
logiciel de manière centralisée sans nuire aux
opérations commerciales des utilisateurs.
Cela contraste fortement avec les logiciels sur
site qui nécessitent souvent un certain degré
de compatibilité et des tests de sécurité au
niveau des terminaux avant même que les
mises à jour et les correctifs de routine
puissent être appliqués.
SaaS: avantages
 Portée du marché
 Pour les vendeurs, cela signifie être en mesure de
fournir un service logiciel à la majorité du marché,
au lieu de se limiter à un segment de marché
limité et ciblé. Cela signifie que les prix peuvent
être moins chers et plus accessibles aux entreprises
de toutes tailles. Pour les utilisateurs, cela implique
de pouvoir accéder à des services qui ne sont pas
normalement disponibles, ce qui permet à la fois
d'étendre et d'améliorer les services aux
entreprises, la productivité et les possibilités
générales.
SaaS: avantages
 Données et analyses
 Comme tout est géré par une plate-forme
centralisée, il est facile de saisir les données et de les
fournir à des fins d'analyse. Les entreprises qui utilisent
des logiciels SaaS ont généralement accès à des
outils de reporting et d'intelligence et à des
visualisations qui peuvent fournir des informations
précieuses sur les opérations commerciales, ce qui
permet de rationaliser les flux de travail et de réaliser
des économies d'efficacité. Pour le fournisseur,
puisque l'accès dépend d'un abonnement payant, il
n'y a pas lieu de s'inquiéter du piratage qui,
autrement, pourrait lui coûter cher et nuire à la fois
aux modèles d'accès et de tarification.
Data sources
 Web and social media
 Machine generated
 Human generated
 Internal data sources
 Transaction data
 Biometric data
 Via data providers
 Via data originator
Quelques exemples
Références
 [1] https://www.oriongovernance.com/bringing-data-quality-to-life-
lp/?utm_source=GA&utm_medium=CPC&utm_campaign=5G&utm_id=GA0523&utm_term=Data-
Quality&utm_content=2&gad_source=1&gclid=EAIaIQobChMIlfTDh8fFgQMV159oCR0vIQnoEAAYBCA
AEgIgTPD_BwE
 [2] https://crosser.io/platform/next-generation-
etl/?gad_source=1&gclid=EAIaIQobChMIlfTDh8fFgQMV159oCR0vIQnoEAAYAyAAEgJOHPD_BwE
 [3]
 [4]

 BIG DATA ET SCIENCE DE DONNÉES


 INTRODUCTION
 Master 1 Intelligence Artificielle
 Université de M’sila, Département d’Informatique
 Dr Mehenni Tahar
 2020-2021

 https://www.oracle.com/fr/cloud/definition-saas/

Vous aimerez peut-être aussi