Vous êtes sur la page 1sur 6

Les logiciels ETL

Cloud vs On-premise vs OpenSource

Saidani Ghazoua | 15-02-2022


1. Les outils ETL cloud :

Les ETL cloud ont l’avantage d’être plus légères et moins coûteuses que les ETL
traditionnels .  De plus en plus de projets data sont montés sur le cloud, en associant
un DWH Cloud et un ETL Cloud. Cette architecture offre en général plus de souplesse,
une plus grande vitesse de processing (real-time), des intégrations plus simples à
mettre en place.

 StitchData :

StitchData est l’un des leaders sur le marché des ETL Cloud. L’un des grands avantages
de Stitch, c’est que l’éditeur a développé un module Open Source (appelé Singer) qui
permet aux utilisateurs de la communauté de développer de nouveaux connecteurs. 
Cela permet d’augmenter continuellement le nombre de connecteurs disponibles.
Stitch met également une API et des web apps à destination de ses clients. Côté prix,
Stitch est l’une des solutions les plus abordables du marché. L’éditeur propose un plan
gratuit jusqu’à 5 millions de lignes par mois et donne accès aux connecteurs gratuits.
C’est l’un des rares éditeurs à proposer un plan gratuit.

 Fivetran :

Fivetran est une solution plus robuste que Stitch. Elle s’intègre avec un plus grand
nombre de sources et de bases cibles (Snowflake, Redshift, BigQuery, Azure). Fivetran
permet d’aller un peu plus loin dans la transformation des données, de délivrer au Data
Warehouse des données plus consistantes et cohérentes. Le support est également
réputé pour être très réactif et très professionnel. Les prix de Fivetran ne sont pas
publics. Ils sont proposés sur-mesure. Une chose est sure, il n’y a pas de plan gratuit
mais en revanche une période d’essai gratuit de 14 jours.

PAGE 1
 Alooma :

Alooma, un ETL qui peut être connecté à à peu près toutes les sources de données et à
peu près tous les services de Data Warehouses. Bon, c’est un peu exagéré, mais malgré
tout Alooma, lancé en 2013, est un excellent outil ETL. Vous pouvez charger les
données dans une dizaine de bases cibles : S3, Redshift, BigQuery, Snowflake, MySQL,
Periscope Data, PostgreSQL, Azure…Nous n’avons pas compté le nombre de bases de
données et d’applicatifs que vous pouvez connecter à Alooma, mais c’est considérable.
Les tarifs sont sur-mesure.

PAGE 2
2. Les outils ETL on premise :

Les logiciels « on-premise » désignent tous les logiciels « à installer ». Ils sont installés
directement sur les serveurs de l’entreprise par opposition aux logiciels Cloud / SaaS
qui sont installés sur des serveurs distants gérés par les éditeurs. Les logiciels on
premise utilisent le modèle de la licence, renouvelée tous les ans, contrairement aux
logiciels SaaS qui utilisent le modèle de l’abonnement (mensualisé ou annualisé).

 Informatica PowerCenter :

Informatica PowerCenter reste LE leader du marché des ETL on premise. L’outil


dispose d’une très grande profondeur fonctionnelle, est entièrement scalable, affiche
des performances de premier de la classe. Il peut être utilisé pour tous les projets liés à
de l’intégration de données : gouvernance des données, migration de données,
entreposage de données, replication et synchronisation de données, Master Data
Management (MDM). Informatica cible les grandes organisations et s’adresse aux
entreprises souhaitant développer de gros projets data.

 IBM InfoSphere DataStage :

IBM InfoSphere DataStage est un produit IBM proposant à la fois un service de Data


Warehousing et un service ETL. Les fonctionnalités d’InfoSphere Data Stage se
répartissent en 4 catégories :

1. Le profiling des sources de données, qui consiste à comprendre et modéliser les


sources de données dans le but de détecter des incohérences, des anomalies et
des problèmes au niveau des données. IBM permet de faire du Machine
Learning.
2. La gestion de la Data Quality : nettoyage, formatage, standardisation,
actualisation, fusion des données.

PAGE 3
3. La Data Transformation : IBM offre d’étonnantes possibilités en matière de
transformation des données.
4. La transmission des données aux utilisateurs finaux.

3. Les outils ETL open source :

Les logiciels ETL open source constituent une alternative intéressante aux solutions
propriétaires – une alternative gratuite (attention toutefois à ne pas oublier les coûts
de déploiement…). Leur développement est associé à celui des solutions de Business
Intelligence open source (OSBI) : Pentaho, SpagoBI, JasperIntelligence. L’utilisation de
ces solutions est en revanche plus complexe que les outils ETL Cloud et la connectivité
est souvent moins développée, même si, open source oblige, libre à vous de développer
des connecteurs spécifiques.

 Talend :

Talend est un éditeur de logiciels français qui développe des solutions propriétaires et
des produits open source, parmi lesquels Open Studio, un logiciel d’intégration des
données qui est aussi le produit historique de la marque. Open Studio permet de
disposer d’un outil ETL relativement simple à implémenter et très complet. Il propose
notamment une belle variété de connecteurs avec des système de gestion de bases de
données (Oracle, Teradata, Microsoft SQL Server…), des logiciels SaaS CRM &
Marketing (Marketo, Salesforce…), des suites (SAP, Microsoft Dynamics, Sugar CRM).

PAGE 4
 Pentaho :

Pentaho Data Integration (PDI), longtemps connu sous le nom de Kettle, est un ETL
open source qui permet de concevoir et d’exécuter des opérations de manipulation et
de transformation de données. Au moment où nous écrivons ces lignes, Pentaho Data
Integration est disponible dans sa version 5.0. Grâce à un modèle graphique à base
d’étapes, il est possible de créer sans programmation des processus composés
d’imports et d’exports de données, et de différentes opérations de transformation telles
que des conversions, des jointures, l’application de filtres, ou même l’exécution de
fonctions JavaScript. PDI dispose de très nombreux connecteurs, à la fois en lecture et
en écriture, lui permettant d’accéder à un grand nombre de bases de données et à tout
type de fichiers.

 SpagoBi :

SpagoBI est une suite complète couvrant l'ensemble des besoins de Business
Intelligence. Sa force est d'offrir à ses utilisateurs un important panel de solutions
analytiques et aux développeurs, testeurs et administrateurs un large éventail d'outils
dans leur travail quotidien. Afin de couvrir les différents besoins fonctionnels propre
au décisionnel SpagoBI s'appuie sur un ensemble de projet Open Source connexes.
SpagoBI est une suite flexible. Elle offre de nombreux moteurs pour un même domaine
d'analyse, permettant aux développeurs de choisir librement leur propre solution.

PAGE 5

Vous aimerez peut-être aussi