Académique Documents
Professionnel Documents
Culture Documents
IUP MIS
RUE YVES MAINGUY
56000 VANNES
Étude comparative
des différents outils d'ETL
(Extract, Transform, Load) du
marché
CHLOÉ FRIGUET
MARIE COUSSEAU
MASTER 1 STAT
2
Mise en contexte
3
o Intégration des données : pour assurer la cohérence globale des données
(modèle unifié) et leur mise à disposition en un point unique (entrepôt),
o Diffusion des données : mise à disposition des applications, sous forme
dimensionnelle, des données puisées dans l'entrepôt,
o Présentation des données : accès aux données organisées (forme
dimensionnelle) par les utilisateurs au moyen de services logiciels. Également
appelée reporting, cette étape se charge de diffuser et de présenter les
informations à valeur ajoutée de telle sorte qu’elles apparaissent de la façon
la plus lisible possible pour le décideur.
Nous allons nous intéresser plus particulièrement aux deux premières
fonctions : collecte et intégration des données. Le Système de Collecte et
d'Intégration des données (SCI) est un sous système d'un SID complexe mais
essentiel : c'est sur lui que repose le SID. En effet, la base d'intégration des données
est l'entrepôt de données lui-même. La diffusion des données se fait à partir de cet
entrepôt.
Le SCI doit avoir un impact minimal sur la fonction opérationnelle mais il doit,
en même temps, permettre le rafraîchissement périodique des données en fonction
des besoins des utilisateurs. Le rôle du SCI est de collecter les données à partir de
différentes sources et de les mettre en forme, conformément à un modèle
(intégration). Un même outil peut effectuer les fonctions de collecte, de
transformation et de chargement des données. C'est le cas des outils ETL.
4
1. Principe de l’alimentation
Transform
5
Les données sont extraites des bases de production à la création de l’entrepôt
et lors des rafraîchissements. À la création de l’entrepôt, un premier chargement est
effectué. Cela consiste à prendre une copie intégrale des données opérationnelles
intéressant le SID. Le rafraîchissement périodique se fait par collecte dynamique, en
ne capturant que les changements qui ont eu lieu dans le système opérationnel
depuis la dernière opération de collecte. Il nécessite un mécanisme de détection des
changements.
L’extraction doit être performante et doit éviter de perturber les
environnements de production.
1.3.Chargement de données
Cette phase consiste à injecter en une seule fois les informations collectées
dans l’entrepôt. Elle permet aussi de stocker les informations de manière correcte
dans les tables de faits correspondantes du datawarehouse, dans le but de rendre
les données disponibles pour l’analyse et le reporting.
6
2. Les outils ETL
orchestre les échanges interroger des sources hétérogènes, les transforme et les
entre les applications. hétérogènes, doté de réinjecte dans une nouvelle base.
fonction de mapping.
1
Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traitées automatiquement
comme si elles étaient entrées au clavier par l'utilisateur, les unes après les autres.
7
3. Le marché des outils ETL
Schéma 3 : Marché mondial des outils ETL - source : Forrester (mars 2005)
8
OFFRE
Plus
Moins
Présence sur
le marché
Nous allons présenter les outils des principaux éditeurs du marché : les
leaders Informatica, Ascential et SAS mais aussi certains outils en pleine évolution
comme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.
2
http://www.informatica.com/fr/products/powercenter/default.htm
9
Grâce à Informatica PowerCenter, il est possible de :
o Intégrer les données pour offrir aux utilisateurs métiers un accès exhaustif aux
données de l’entreprise – des données complètes, exactes et disponibles en
temps voulu.
o Monter en charge de façon à répondre aux besoins croissants d’information
des équipes métiers – Les données sont distribuées dans un environnement
sécurisé et évolutif, garantissant un accès immédiat aux données d’un
nombre illimité de sources hétérogènes.
o Simplifier la conception, la collaboration et la réutilisation pour réduire les
délais de livraison des équipes de développement - Une gestion inégalée des
métadonnées renforce la capacité des équipes à satisfaire des besoins en
constante évolution et toujours plus complexes.
PowerCenter est disponible en deux éditions :
o PowerCenter Standard Edition : Logiciel permettant l'accès, l'intégration et la
distribution de données, PowerCenter Standard Edition est une solution
économique pour exploiter les données issues de tous systèmes vers tous
autres systèmes. PowerCenter Standard Edition peut être installé en moins
de 30 minutes.
o PowerCenter Advanced Edition : En plus des fonctionnalités de PowerCenter
Standard Edition, PowerCenter Advanced Edition couvre tous les besoins
d’intégration de données de l’entreprise avec une seule plate-forme, incluant
de solides fonctionnalités d’analyse de métadonnées et de reporting, des
fonctions économiques de grid computing et des capacités avancées de
développement collaboratif. Avec PowerCenter Advanced Edition, les
entreprises bénéficient pleinement des avantages résultant de l’utilisation
d’une plate-forme unique pour gérer la totalité du cycle de l’intégration de
données : gains de productivité, réduction des coûts de maintenance et
économies substantielles liées à une prise en main immédiate. PowerCenter
Advanced Edition peut être installé en moins d’une heure.
PowerCente PowerCenter
Caractéristiques et fonctionnalités r Standard Advanced
Edition Edition
Plate-forme principale X X
PowerCenter Data Server (serveur de données) X X
Référentiel de métadonnées X X
Outils de conception et de gestion X X
Librairie complète d’objets de transformation X X
Serveur de référentiel avec import/export XML X X
Outils de sécurité (rôles et authentification) et intégration LDAP X X
Planification et contrôle centralisés de workflows X X
Traitement des données relationnelles natives, XML et
X X
hiérarchiques
Extensibilité totale des transformations personnalisées X X
Clients développeurs et administrateurs à usage illimité X X
Ensemble d’API ouvertes pour l’intégration avec des outils tiers X X
Intégration totale avec Informatica PowerExchange X X
Support des sources XML et fichiers plats X X
10
PowerCente PowerCenter
Caractéristiques et fonctionnalités r Standard Advanced
Edition Edition
Documentation complète sur la plate-forme X X
Connecteurs pour sources standards (2) X X
Connecteurs pour cibles standards (2) X X
Reporting prêt à l’emploi (PowerAnalyzer) : X
• Création de rapports X
• Mesures et alertes en temps réel X
• Reporting ad hoc et rapports pré-configurés X
• Intégration avec Excel X
Analyse des métadonnées (SuperGlue) : X
• Généalogie intelligente de l'information au niveau du
X
champ
• Reporting interactif sur l’utilisation des métadonnées X
• Fonctions de recherche et options de personnalisation
X
web
• Métamodèle extensible et ouvert basé sur le standard
X
OMG/CWM
• Connectivité préconfigurée pour un grand nombre de
X
métadonnées
Développement collaboratif X
Grid computing X
Fonctionnalités supplémentaires
Data Cleansing (nettoyage de données) Option Option
Data Profiling (profilage de données) Option Option
Metadata Exchange Option Option
Partitioning (partitionnement) Option Option
PowerCenter Connect Option Option
Real-time (temps réel) Option Option
Tableau 3 : Caractéristiques de PowerCenter - source : Informatica
3
http://www.sas.com/offices/europe/france/software/technologies/etl.html
11
o de fonctions paramétrables de détection et de correction de la qualité des
données,
o d’un ordonnanceur intégré avec gestion événementielle permettant d’exploiter
les traitements sur plusieurs serveurs.
Le serveur ETL de SAS a été spécialement conçu pour supporter des charges
de traitements lourdes et s’appuie sur la technologie « multithreading » du serveur
SAS pour l’extraction, la transformation et la préparation des grandes bases de
données décisionnelles.
Il intègre directement des fonctions de vérification et standardisation des
informations, qui assurent leur exactitude et leur qualité. Cette étape du traitement
des données, souvent négligée, s’avère fondamentale pour pouvoir créer une réelle
valeur à partir des données.
Il a été spécialement conçu pour supporter l’alimentation des données des
applications analytiques comme la connaissance du comportement des clients ou le
reporting dynamique des ventes qui nécessitent des transformations spécifiques
telles que la transposition ou l’agrégation des données transactionnelles.
12
d’intégration des données, au sein d’une suite unique de produits, totalement
intégrée.
DataStage TX
Ascential DataStage® TX supporte les standards du marché et répond à des
exigences de connectivité, en permettant de résoudre les problèmes stratégiques en
temps réel. L'architecture orientée solutions de DataStage TX est ouverte et
évolutive. La mise en oeuvre est accélérée, les risques réduits et l'efficacité accrue.
DataStage TX permet d'automatiser facilement et de façon transparente de gros
volumes de transactions complexes sans codage additionnel.
Grâce à son architecture ouverte et extrêmement évolutive, DataStage TX 6.7 offre
un retour sur investissement beaucoup plus rapide.
Avantages de DataStage TX
o Intégration rapide et transparente d'un grand nombre des applications, bases
de données et systèmes de messagerie les plus utilisés ;
o Prise en compte rapide et souple des exigences de gestion stratégiques à
évolution rapide ;
o Exploitation de la valeur de vos systèmes et applications d'entreprise ;
Respect des besoins en matière de solutions d'intégration complètes ou basées sur
des projets.
3.2.Les challengers
13
Avantages de Transformation Server
o Intégration de données sûre et dynamique, sans aucune programmation,
o Solution souple et adaptable à presque tous les environnements
informatiques,
o Partage dynamique des informations en temps réel, à travers toute
l’entreprise et au-delà,
o Visualisation et surveillance faciles des réseaux d’intégration complexes, à
l’aide de représentations graphiques,
o Identification et résolution rapides des problèmes de réseau, grâce à une
surveillance centralisée,
o Performances et efficacité opérationnelles accrues, grâce à un solide
gestionnaire des communications,
o Optimisation du retour sur investissement, grâce à une mise en place rapide
et des coûts de maintenance réduits.
6
http://www.cognos.com/fr/products/business_intelligence/data_preparation/
14
3.2.3. Microsoft : Data Transformation Services
Les Services de Transformation des Données (DTS) permettent d’importer et
d’exporter des clés primaires et étrangères entre des produits de base de données
pris en charge, de programmer la récupération de données en plusieurs étapes et
d’enregistrer des lots DTS sous forme de code Visual Basic.
Cet outil ETL est uniquement intégré à SQL Server.
15
et ce dans le cadre d'une grande variété de projets du type datawarehouses,
datamarts, etc.
Hummingbird ETL est capable d'assurer toutes les opérations d'échange de
données quels que soient le format, la syntaxe, la source ou la cible de ces données
(depuis le support XML jusqu'à la connectivité mainframe, depuis les SGBD
relationnels jusqu'à l'OLTP multidimensionnel).
Dans tous les types de projets ETL, Hummingbird ETL garantit une étroite
intégration avec n'importe quel environnement d'entreprise, offrant un support et une
connectivité en natif, c'est-à-dire sans aucune programmation ni préparation des
données. Cette solution permet ainsi à l'entreprise d'économiser du temps et des
ressources en pérennisant son environnement informatique hétérogène.
Hummingbird ETL permet de connecter n'importe quelle source de données à
n'importe quel système cible à travers toute l'entreprise, aidant ainsi les
organisations à exploiter plus efficacement leurs données en vue d'accélérer et
d'optimiser leur processus stratégique de prise de décision.
9
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm
16
Real-Time ETL10
Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en temps
réel. Grâce à son architecture innovante qui optimise l'exécution des processus de
manière distribuée, l’outil est performant même pour des transformations complexes,
sans compromettre sa facilité d'utilisation. Parce que seules certaines informations -
et non toutes - doivent être analysées et restituées en temps réel, l'approche de
Sunopsis Real-Time ETL permet de gérer les processus de transfert de données à
la fois en batch et en temps réel.
Avec la fonction intégrée "Changed Data Capture", cet outil ETL détecte les
changements en temps réel sur toutes les bases sources. Les transformations sur
les données sont effectuées à la volée. L'information est propagée en temps réel sur
les systèmes cibles, via une connectivité directe ou en utilisant le MOM intégré
Sunopsis MQ.
Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il génère pour les
moteurs de base de données déployés dans le système d'information pour exécuter
les processus ETL, et utilise pleinement les fonctionnalités de manipulation de
données de ces moteurs. Ceci donne un avantage unique à Sunopsis ETL : des
agrégations aux statistiques en passant par les outils de chargement natifs, il utilise
entièrement les fonctions les plus appropriées pour chaque processus à réaliser.
10
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm
17
4. Les caractéristiques11
11
Voir annexe 1 : Tableau récapitulatif – classement des éditeurs d'outils ETL en fonction des
différentes caractéristiques.
18
Tous les processus ont lieu sur le serveur et non sur les systèmes sources. Il
peut donc être nécessaire d’acheter un serveur pour héberger l’application, ce qui
augmente les coûts. Cependant, l’apprentissage est très rapide.
Pourtant, cette architecture n'apporte pas la flexibilité ou la liberté de créer
d'autres transformations sur les données, nécessitées par certains projets.
19
Les outils ETL générateurs de code s'orientent vers un fonctionnement TEL
ou ELT, c'est-à-dire que la phase de transformation à lieu avant ou après celles
d’extraction et de chargement des données.
Avec un outil ELT, le SGBD sert de moteur des transformations : les données
sources sont chargées en masse directement des bases de production vers
l'entrepôt de données et les transformations sont exécutées en bloc par le SGBD
cible de l'entrepôt. Les transformations de données se font à l'aide d'outils
graphiques, puis l'outil génère du code SQL contenant les instructions des
transformations et qui sera exécuté par le SGBD de l'entrepôt de données.
20
4.1.5. Comparaison des différentes approches
Outil
Avantages Inconvénients
ETL
•Prise en charge de •Environnement graphique moins
Générateur de code
21
Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone mais
proposent des modules de traitement des données en temps réel.
Les outils ETL peuvent donc fonctionner en deux modes : temps réel
(synchrone) ou batch (asynchrone).
22
Ce dictionnaire des métadonnées à pour vocation de devenir le dictionnaire
de référence pour l'ensemble des outil d'analyse et de restitution.
Pour assurer la performance des outils, certaines caractéristiques du
dictionnaire de métadonnées sont importantes, parmi lesquelles :
o Personnalisation : possibilité d’ajouter des modifications, que l’éditeur n’avait
pas prises en compte.
o Format de stockage libre pour pouvoir intégrer des informations avec d’autres
produits.
o Partage des métadonnées avec d’autres applications…
La stratégie du dictionnaire de métadonnées étendu à toute l'entreprise ne
s'appuie pas sur une alimentation en temps réel. Il deviendrait une sorte d'interface
entre tous les dictionnaires de métadonnées des applications du système
d'information. Son rôle serait alors de coordonner et de donner une vision cohérente
des concepts présents dans l'entreprise, en facilitant le dialogue entre les
applications.
4.4.Autres caractéristiques
23
Prix faible Prix moyen Prix élevé
Moins de $40K De $50K à $90K De $105K à $360K
Business Objects Ascential ETI
DataMirror Group 1 Informatica
IBM Hummingbird SAS
Petite iWay Oracle
configuration
Microsoft
Oracle
Pervasive
Sunopsis
Tableau 5 : Prix des outils ETL en fonction de leur configuration – source : Forrester
24
Conclusion
Avantages de l’ETL
Les grandes forces des ETL sont :
o leur souplesse : ils sont fortement paramétrables
o leur facilité d’utilisation : utilisables par des non informaticiens après formation
o leur facilité de maintenance et leur pérennité
Les bases de données comprennent souvent des outils d’alimentation qui
peuvent extraire des données, effectuer des transformations basiques et charger
des données. Mais ces outils n’ont pas les avantages d’un ETL et sont souvent
difficilement paramétrables, pas ergonomiques et n’offrent pas beaucoup de
possibilité de transformation de données.
Limites de l’ETL
Coûts en ressources matérielles et en temps :
Ils font subir différents traitements à de gros volumes de données. Un outil
ETL nécessite donc un fort besoin en machines, débit et maintenance. Les
traitements étant très gourmands, l’alimentation s’exécute souvent la nuit, pour ne
pas impacter les ressources machine et réseau pendant les heures de bureau.
Temps réel :
La durée des traitements et le temps machine consommé est tel que cela est
difficilement compatible avec des traitements en temps réel. La plupart des éditeurs
d'ETL essaye d’évoluer dans ce sens en développant leur propres outils, ou en
passant des accords avec des acteurs du marché de l'EAI. Cependant, au-delà des
considérations stratégiques et technologiques, on peut se demander si une
application décisionnelle gagnerait en pertinence avec un datawarehouse actualisé
en permanence.
Évolution de l’ETL
Au cours de ces dernières années, le marché de l'ETL a considérablement
évolué.
Le créneau des ETL pourrait avoir à subir une nouvelle révolution dans les
années qui viennent à la faveur de l’émergence de trois nouveaux concepts touchant
au traitement des données :
o la création d'un référentiel de métadonnées commun à l'ensemble des
applications du système d'information, sans nécessiter la centralisation au
préalable des contenus à traiter : le MDM12 (Master Data Management).
o les technologies d'intégration en temps réel et l’EAI. En effet, dans un
contexte où la plupart les responsables seront aidés dans leurs prises de
12
Voir annexe 3 : Master Data Management (MDM)
25
décision, les entreprises gagnantes seront celles capables de réagir au plus
vite. La plupart des outils ETL ne fonctionnent pas en temps réel mais les
éditeurs intègrent les fonctionnalités des EAI afin de pouvoir prendre en
compte les données en temps réel. La tendance sera donc plutôt de fusionner
les outils ETL et EAI en un seul produit.
26
Bibliographie
Ouvrages
La construction du datawarehouse – Du datamart au dataweb
JF Goglin, Hermès - 2ème édition (2001)
Publications
Le Monde Informatique (dec 2004 – janv 2005)
Pages Internet
LE LIVRE BLANC EAI - MEDIADEV
http://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf
01Informatique – plusieurs articles sur le thème du décisionnel
http://www.01net.com/
Les sites des différents outils ETL étudiés
Sunopsis : www.sunopsis.com
Informatica : www.informatica.com
Ascential : www.ascential.fr/
Hummingbird : www.hummingbird.com/international/france
SAS : www.sas.com
Cognos : www.cognos.com/fr/
Business Objects : www.france.businessobjects.com/
…
The Evolution of ETL - Wayne Eckerson
http://tdwi.org/research/display.aspx?ID=6716
Will SQL become the industry standard language for ETL? – John Rauscher
http://databasedadvisor.com/doc/14213
Panorama des outils d'ETL
http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
[JargonF - dictionnaire informatique] Définition de ETL
http://www.linux-france.org/prj/jargonf/E/ETL.html
Formation : Présentation et panorama des outils ETL
http://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils
_etl/
How to evaluate enterprise ETL – P. Russom (12/2004)
http://eu.informatica.com/AAFB/mailer.asp
27
Glossaire
28
Annexes
29
Annexe 1.Tableau récapitulatif
SAS x x x
Ascential
x x x
(IBM)
DataMirror x x x ?
Cognos x x x
Microsoft x
Oracle x
Business
x x x x
Objects
Sunopsis x x x x
ELT
Solutions x x
Ltd
30
Annexe 2.Principaux outils ETL du marché
Prix
Éditeur Produit Caractéristiques
(à partir de...)
31
Prix
Éditeur Produit Caractéristiques
(à partir de...)
13
http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c
32
Annexe 3.Master Data Management (MDM)
29 Novembre 2004
> Que recouvre le concept de Master Data Management ?
En général, une entreprise dispose de plusieurs bases de données rangées chacune
au sein d'un système d'information ou derrière une application métier particulière
(gestion comptable, ventes, gestion des ressources humaines, serveur de suivi de
production, etc.). C'est notamment le cas pour des structures ayant opté pour une
approche best-of-breed à l'inverse d'une politique technologique articulée autour d'un
progiciel de gestion intégrée.
Dans cette logique, les processus de mise à jour de données sont réalisés
parallèlement par des équipes différentes par le biais d'outils hétérogènes. Un
contexte structurel qui engendre des risques d'incohérences entre applicatifs. D'où
l'importance de s'attacher à l'harmonisation des données. C'est bien là l'objectif de la
méthode de "Gestion des données de base" (MDM - pour Master Data Management
en anglais).
> Comment fonctionne cette méthode ?
Comme son nom l'indique, elle consiste à regrouper l'ensemble des données dites
"de base" de l'entreprise (Master Data). Un référentiel standardisé qui a pour but de
jouer le rôle de pré requis lors de la mise à jour de tel ou tel système.
Concrètement, ce référentiel contient l'ensemble des objets essentiels à la vie de
l'entreprise et décrit les liens qu'ils entretiennent entre eux : numéros de référence
clients, fournisseurs, partenaires, etc. Grâce à cette couche généralement associée
à des mécanismes de contrôle et de validation, les objets sont modifiés de façon
cohérente et les doublons évités. Au final, ce dispositif a pour but de garantir la
qualité des données métier en phase de production.
> Quels sont les champs d'intervention du Master Data Management ?
Cette démarche présente un intérêt dans de nombreux domaines. Ici, on peut
notamment évoquer la mise en oeuvre d'une démarche de communication
multicanal. Une approche qui nécessite de bénéficier d'une certaine cohérence entre
contenus diffusés quel que soit le moyen de communication utilisé (site Internet,
centre de contacts, etc.). Autre champ généralement évoqué : celui de l'analyse
décisionnelle et du reporting qui peut impliquer des fonctions de contrôle des
données manipuler pour assurer la régularité des rapports de résultats.
> Quelle différence avec les fonctions d'ETL et d'EII ?
Comme on l'a vu, le Master Data Management fournit une brique de référence pour
contrôler l'homogénéité des données du système d'information. De leur côté, les
mécanismes d'ETL (pour extraction, transfert et chargement de données) et d'EII (ou
intégration des informations d'entreprise) prennent en charge leur manipulation.
14
http://solutions.journaldunet.com/0411/041129_mdm.shtml
33