Vous êtes sur la page 1sur 4

Depuis la création des big data, le processus ETL (extraire, transformer, charger) est le

moteur qui injecte les informations dans les réseaux d’entreprises. Aujourd’hui, l’ETL
basé dans le cloud est un outil essentiel pour gérer de grands ensembles de données,
et les entreprises y auront recours de plus en plus à l’avenir. La raison en est simple :
dans le contexte actuel de concurrence, les données sont comme le sang – si vous en
manquez, vous mourez.

ETL – Une brève présentation


L’ETL est la norme mondiale pour le traitement de données en masse. L’ETL répartit ce
processus sur un ensemble de processeurs liés qui fonctionnent dans un cadre
commun (par exemple Apache Hadoop). Le processus ETL comprend trois fonctions
distinctes :

 Extraction. Lors de la phase d’extraction, les données brutes sont extraites


d’une variété de sources, y compris des bases de données, des outils de réseau,
du matériel de sécurité et des applications logicielles, entre autres. Ces données
affluent dans les réseaux numériques et sont recueillies pratiquement en temps
réel.
 Transformation. Lors de la phase de transformation du processus ETL, des flux
d’informations sont canalisés sous forme de données exploitables pour les
entreprises. Parallèlement, le moteur ETL réduit le volume des données en
détectant et éliminant les doublons. Les données sont alors normalisées et
formatées pour une utilisation et/ou analyse ultérieure. Enfin, les données sont
triées et vérifiées avant de passer à l’étape suivante.
 Chargement. La dernière étape du processus ETL consiste à déposer les
données dans les emplacements souhaités. Ces emplacements incluent les outils
d’analyse, les bases ou les lacs de données, les serveurs de réseau à froid,
parmi les différentes utilisations possibles.

En quelque sorte, l’ETL existe depuis très longtemps. Toutefois, son utilisation dans la
transformation des données brutes en veille économique n’a pas simplement évolué au
fil du temps. Elle a également contribué à tracer la voie à la technologie cloud.

ETL traditionnel – Collecte locale


Avant l’arrivée de la fibre optique et le développement des ressources cloud à l’échelle
mondiale, les processus ETL étaient gérés localement. Imaginez une vaste salle
informatique bruyante contenant des rangées d’ordinateurs et d’armoires de serveurs,
arpentée par un ou deux techniciens vérifiant les connexions.
À la fin des années 1970, la valeur des bases de données a grimpé en flèche avec la
démocratisation des outils utilisés pour normaliser (ou transformer) les données en
formats courants. On peut citer parmi les projets ETL les plus importants de cette
époque :
 les installations de recherche partageant de grands volumes de données
scientifiques ;
 les premières collaborations de ce qui est devenu le World Wide Web, précurseur
de l’internet moderne ;
 la normalisation d’un protocole de communications (TCP/IP), dont la majeure
partie des données et télécommunications modernes représentent une évolution ;
 l’ancêtre des technologies numériques modernes de marketing qui agrègent les
données des consommateurs et ciblent des tranches de population spécifiques
avec leurs publicités.

Dans l’histoire de l’ETL, ce processus a longtemps été opéré localement, ou


physiquement, à proximité des scientifiques et analystes qui l’employaient. Les données
affluaient dans des installations sécurisées via un système de câbles, avant d’être
extraites au moyen d’algorithmes simples. Les données étaient alors transformées en
un format normalisé ou « propre », et chargées dans des bases de données où des
humains pouvaient les manipuler et en tirer des informations.

Télécharger ETL dans le cloud : ce que ces changements signifient pour vous maintenant


En savoir plus
Nombre des options technologiques et de communication que nous connaissons
aujourd’hui dérivent de cette approche. Malgré son importance, l’ETL traditionnel
présentait des contraintes majeures. Avant le développement de la miniaturisation, le
processus ETL lui-même et les besoins considérables en matière de stockage
représentaient un coût prohibitif. De plus, la conservation de l’ensemble de ces données
précieuses en un seul endroit présentait le risque supplémentaire d’une perte
désastreuse en cas de catastrophe naturelle, de vol ou de défaillance technologique.
Passons maintenant en 2018. Les options économiques de stockage des données, les
réseaux de la fibre et les processeurs toujours plus rapides apportent trois garanties en
termes de données :

1. La quantité de données circulant entre les entreprises modernes continuera


d’augmenter de façon exponentielle.
2. Les données prendront toujours plus de valeur.
3. La puissance informatique requise pour traiter toutes ces données – et le
problème d’une juste utilisation commerciale de celles-ci – signifie que l’ETL basé
dans le cloud jouera un rôle crucial pour les big data de demain.

La transition vers le cloud


Au fur et à mesure que les réseaux nationaux et internationaux gagnaient en vitesse et
capacité, le besoin de stocker des données en masse dans des installations locales
faiblissait.
Le technologue Brian Patrick Eha a retracé l’évolution de la vitesse de l’internet et de
l’impact du cloud sur le transfert de données. Selon lui, une ligne relativement rapide de
transmission de données pouvait en 1984 atteindre des vitesses de transfert de 50
kilobits par seconde (Kbs). En 2013, cette vitesse de transfert atteignait jusqu’à 1
gigaoctet par seconde pour les connexions par fibre optique disponibles sur le marché.
Ce changement radical de vitesse et la prolifération de dispositifs de stockage
économiques et remplaçables, ont été les vecteurs de la transformation de l’ETL d’un
processus local, coûteux et encombrant à l’ETL basé dans le cloud que nous
connaissons aujourd’hui.
Selon un rapport IDG datant de 2018, environ trois quarts des entreprises travaillent
aujourd’hui partiellement ou intégralement dans le cloud, et ce chiffre dépassera les 90
pour cent d’ici 2020.

L’ETL cloud
Aujourd’hui, les processus ETL ont lieu dans le cloud, à l’instar de technologies telles
que le développement d’applications, l’e-commerce et la sécurité informatique. L’ETL
natif cloud suit le processus habituel en trois étapes, mais celles-ci ne se passent plus
de la même manière.
Le cadre Apache Hadoop est devenu la voie de développement de l’ETL basé dans le
cloud. Hadoop répartit les processus informatiques, ce qui signifie que les données
provenant de sources divergentes peuvent être extraites à distance, transformées via un
réseau de ressources informatiques, puis transformées en vue d’une analyse locale.
L’ETL natif cloud s’appuie sur des clusters informatiques partagés. Ceux-ci peuvent être
répartis dans le monde entier. Mais grâce à Hadoop, ils fonctionnent comme des entités
individuelles logiques qui se partagent des tâches informatiques de grande envergure.
Les tâches ETL, autrefois exécutées dans le bureau voisin ou au sous-sol, se retrouvent
désormais traitées par des clusters disséminés via des interfaces cloud.
Le plus remarquable, c’est que tout cela se passe à une échelle et vitesse plus grandes
que l’ETL traditionnel sur site. Les entreprises utilisant toujours un ETL sur site ou dans
un environnement hybride prennent déjà du retard dans une catégorie concurrentielle
primordiale : la vitesse.

Télécharger The Cloud Data Integration Primer maintenant


En savoir plus
Ce processus cloud génère des écrans d’analyse bien connus des professionnels de
l’ETL traditionnel, qui peuvent utiliser des outils fiables pour chercher et extraire les
données comme ils le faisaient il y a quelques années. L’Apache Software
Foundation est la plus importante communauté open-source au monde en matière de
développement et de support ETL et des outils permettant à l’homme d’en bénéficier.
Cependant, le volume considérable des ensembles de données en jeu aujourd’hui, et
leur rythme de croissance continue, posent de nouveaux problèmes dès lors qu’il s’agit
d’obtenir une veille économique utile et hautement personnalisée à partir d’outils ETL
traditionnels. De plus en plus d’entreprises se tournent vers les plateformes de gestion
des données pour répondre à leurs besoins ETL spécifiques.
Ce processus cloud génère des écrans d’analyse bien connus des professionnels de
l’ETL traditionnel, qui peuvent utiliser des outils fiables pour chercher et extraire les
données comme ils le faisaient il y a quelques années. L’Apache Software Foundation
est la plus importante communauté open-source au monde en matière de
développement et de support ETL et des outils permettant à l’homme d’en bénéficier.
Cependant, le volume considérable des ensembles de données en jeu aujourd’hui, et
leur rythme de croissance continue, posent de nouveaux problèmes dès lors qu’il s’agit
d’obtenir une veille économique utile et hautement personnalisée à partir d’outils ETL
traditionnels. De plus en plus d’entreprises se tournent vers les plateformes de gestion
des données pour répondre à leurs besoins ETL spécifiques.

Télécharger ETL dans le cloud : ce que ces changements signifient pour vous maintenant


En savoir plus

Talend : la solution intégrée pour l’ETL cloud


Depuis 2005, Talend aide des organisations de premier plan à résoudre leurs
problèmes d’ETL et d’intégration des données en offrant des solutions hébergées et
conviviales. Grâce à Talend Open Studio for Data Integration et Talend Data
Management Platform, les développeurs et analystes peuvent travailler avec un nombre
quasi infini d’ensembles de données dans n’importe quel format courant pour exploiter
au mieux la puissance de l’ETL et des autres technologies dont dépendent les
entreprises modernes utilisant le cloud.
Mais loin d’être un terrain de jeux pour geeks, Talend met un ETL gérable en temps réel
et ses tâches connexes à la disposition des utilisateurs qui dépendent de la veille
économique actuellement reconnue pour prendre des décisions éclairées. De la vente à
l’expédition, en passant par le service à la clientèle, les interactions commerciales
modernes doivent être rapides, efficaces et économiques. Talend permet de livrer les
données nécessaires aux bonnes personnes, un atout majeur pour n’importe quelle
organisation.
La suite de solutions Talend pour big data résout l’un des soucis les plus courants des
organisations : la pénurie de développeurs qualifiés. Avec Talend, des processus
automatisés et lancés sur l’interface utilisateur graphique réduisent les besoins en
codage manuel à des cas particuliers, pour une gestion ETL et une extraction des
données plus rapide et plus efficace.
Plus important, la plateforme open source Talend continue de s’adapter à la vitesse des
big data, et fait en sorte que même les besoins les plus exigeants et les plus spécifiques
en matière de données soient satisfaits avec une relative facilité.
Essayez-la gratuitement dès aujourd’hui et découvrez pourquoi des organisations parmi
les plus prospères du monde ont choisi Talend pour affranchir leurs données des
infrastructures existantes grâce à une plateforme d’intégration ETL développée pour le
cloud.

Vous aimerez peut-être aussi