Académique Documents
Professionnel Documents
Culture Documents
moteur qui injecte les informations dans les réseaux d’entreprises. Aujourd’hui, l’ETL
basé dans le cloud est un outil essentiel pour gérer de grands ensembles de données,
et les entreprises y auront recours de plus en plus à l’avenir. La raison en est simple :
dans le contexte actuel de concurrence, les données sont comme le sang – si vous en
manquez, vous mourez.
En quelque sorte, l’ETL existe depuis très longtemps. Toutefois, son utilisation dans la
transformation des données brutes en veille économique n’a pas simplement évolué au
fil du temps. Elle a également contribué à tracer la voie à la technologie cloud.
L’ETL cloud
Aujourd’hui, les processus ETL ont lieu dans le cloud, à l’instar de technologies telles
que le développement d’applications, l’e-commerce et la sécurité informatique. L’ETL
natif cloud suit le processus habituel en trois étapes, mais celles-ci ne se passent plus
de la même manière.
Le cadre Apache Hadoop est devenu la voie de développement de l’ETL basé dans le
cloud. Hadoop répartit les processus informatiques, ce qui signifie que les données
provenant de sources divergentes peuvent être extraites à distance, transformées via un
réseau de ressources informatiques, puis transformées en vue d’une analyse locale.
L’ETL natif cloud s’appuie sur des clusters informatiques partagés. Ceux-ci peuvent être
répartis dans le monde entier. Mais grâce à Hadoop, ils fonctionnent comme des entités
individuelles logiques qui se partagent des tâches informatiques de grande envergure.
Les tâches ETL, autrefois exécutées dans le bureau voisin ou au sous-sol, se retrouvent
désormais traitées par des clusters disséminés via des interfaces cloud.
Le plus remarquable, c’est que tout cela se passe à une échelle et vitesse plus grandes
que l’ETL traditionnel sur site. Les entreprises utilisant toujours un ETL sur site ou dans
un environnement hybride prennent déjà du retard dans une catégorie concurrentielle
primordiale : la vitesse.