Etl Overview Iup Vannes

UNIVERSITÉ DE BRETAGNE-SUD
IUP MIS
RUE YVES MAINGUY
56000 VANNES
Étude comparative
des différents outils d'ETL
(Extract, Transform, Load) du
marché
ETUDE RÉALISÉE DANS LE CADRE DU COURS

DE SYSTÈME DÉCISIONNEL
CHLOÉ FRIGUET
MARIE COUSSEAU
MASTER 1 STAT
SOUTENANCE : 12 MAI 2005

Mise en contexte..............................................................................................3
1.Principe de l’alimentation.............................................................................5
1.1.Extraction des données......................................................................................5
1.2.Transformation des données.............................................................................6
1.3.Chargement de données....................................................................................6
2.Les outils ETL................................................................................................7
3.Le marché des outils ETL.............................................................................8
3.1.Les leaders du marché.....................................................................................10
3.1.1.Informatica : PowerCenter....................................................................................10
3.1.2.SAS : ETL Serveur...............................................................................................12
3.1.3.Ascential : Datastage et Datastage TX.................................................................12
3.2.Les challengers................................................................................................13
3.2.1.DataMirror : Transformation Server......................................................................13
3.2.2.Cognos : DecisionStream.....................................................................................14
3.2.3.Microsoft : Data Transformation Services............................................................15
3.2.4.Oracle : Data Integration.......................................................................................15
3.2.5.BusinessObjects : Data Integrator........................................................................15
3.2.6.Hummingbird : Genio............................................................................................16
3.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16
4.Les caractéristiques....................................................................................19
4.1.Transformation des données : plusieurs approches........................................19
4.1.1.Les serveurs ETL..................................................................................................19
4.1.2.Utilisation de fonctions intégrées..........................................................................20
4.1.3.Les outils générateurs de code.............................................................................20
4.1.4.Développement manuel d’un outil ETL.................................................................21
4.1.5.Comparaison des différentes approches..............................................................22
4.2.Temps réel / Batch ..........................................................................................22
4.2.1.Temps réel – mode synchrone.............................................................................23
4.2.2.Mode batch – mode asynchrone...........................................................................23
4.3.ETL et gestion des métadonnées....................................................................23
4.4.Autres caractéristiques.....................................................................................24
4.4.1.Architecture et environnement technique.............................................................24
4.4.2.Prix des outils en fonction des configurations choisies.........................................24
4.4.3.Interfaces graphiques............................................................................................25
Conclusion......................................................................................................26
Bibliographie..................................................................................................28
Glossaire.........................................................................................................29
Annexes...........................................................................................................30
2
Mise en contexte
Un Système d'Information Décisionnel (SID) est un outil destiné à recueillir,

organiser, mettre en forme et diffuser des données de manière à en faire des
informations. Un SID est un dispositif à double face : il combine des données
d'origines diverses (opérationnelles ou externes) et les met à disposition des
utilisateurs selon des objectifs informationnels.
Schéma 1 : Représentation schématique d'un datawarehouse
Les Systèmes Décisionnels se caractérisent par :

o d'importants volumes de données qui évoluent rapidement,
o des exigences de temps d'accès,
o l'absence de mises à jour transactionnelles,
o des besoins évolutifs,
o des requêtes imprévisibles et pouvant rapprocher des données "éloignées".
En général, les données sources, qui peuvent représenter un gros volume, ne
sont ni cohérentes sémantiquement, ni liées entre elles d'une manière adaptée à la
perspective décisionnelle. De plus, les environnements d'où proviennent ces
données sont conçus et organisés d'une manière qui se prête mal à l'implémentation
d'applications décisionnelles. Ces contraintes sont à prendre en compte lors de la
mise en place d'un entrepôt de données.
D'une manière générale, la mise à disposition des données implique quatre
étapes :
o Collecte des données : approvisionnement du SID en données (à partir des
bases de production (opérationnelles) ou de l'extérieur),
3
o Intégration des données : pour assurer la cohérence globale des données
(modèle unifié) et leur mise à disposition en un point unique (entrepôt),
o Diffusion des données : mise à disposition des applications, sous forme
dimensionnelle, des données puisées dans l'entrepôt,
o Présentation des données : accès aux données organisées (forme
dimensionnelle) par les utilisateurs au moyen de services logiciels. Également
appelée reporting, cette étape se charge de diffuser et de présenter les
informations à valeur ajoutée de telle sorte qu’elles apparaissent de la façon
la plus lisible possible pour le décideur.
Nous allons nous intéresser plus particulièrement aux deux premières
fonctions : collecte et intégration des données. Le Système de Collecte et
d'Intégration des données (SCI) est un sous système d'un SID complexe mais
essentiel : c'est sur lui que repose le SID. En effet, la base d'intégration des données
est l'entrepôt de données lui-même. La diffusion des données se fait à partir de cet
entrepôt.
Le SCI doit avoir un impact minimal sur la fonction opérationnelle mais il doit,
en même temps, permettre le rafraîchissement périodique des données en fonction
des besoins des utilisateurs. Le rôle du SCI est de collecter les données à partir de
différentes sources et de les mettre en forme, conformément à un modèle
(intégration). Un même outil peut effectuer les fonctions de collecte, de
transformation et de chargement des données. C'est le cas des outils ETL.
4
1. Principe de l’alimentation
L’alimentation d’un entrepôt de données se déroule en trois étapes :

l’extraction des données à partir des bases sources, leur transformation puis le
chargement dans l’entrepôt.
Transform
Schéma 2 : Alimentation d'un datawarehouse
1.1.Extraction des données
La première phase de la construction d’un entrepôt de données consiste à

extraire les données utiles des systèmes opérationnels, sans pour autant perturber
les environnements de production. Ces données sont dans de nombreux cas
hétérogènes, complexes et diffuses :
o Hétérogènes : on rencontre plusieurs SGBD différents et parfois plusieurs
méthodes d’accès
o Complexes : les données sont organisées en vue de traitements
transactionnels
o Diffuses : les données proviennent de plusieurs environnements matériels,
voire de différents sites connectés par un réseau
L'extracteur est un composant logiciel simple dont le but est de prélever un
flux de données à partir des systèmes de production pour alimenter le système
décisionnel. Son rôle est prédominant dans la capacité du système décisionnel à se
préserver des évolutions structurelles des systèmes en amont. On réalise un
extracteur par nature de flux à prélever sur les applications opérationnelles.
L'extracteur met à disposition du système d'information décisionnel un flux de
données au format fixe, validé en phase de spécification.
L'extraction peut être de deux types :
o totale : on extrait la globalité du flux à chaque traitement. Technique adaptée
dans le cas d'une volumétrie réduite.
o incrémentale ou "Delta" : on ne traite que les enregistrements créés,
modifiés ou supprimés depuis la dernière extraction.
5
Les données sont extraites des bases de production à la création de l’entrepôt
et lors des rafraîchissements. À la création de l’entrepôt, un premier chargement est
effectué. Cela consiste à prendre une copie intégrale des données opérationnelles
intéressant le SID. Le rafraîchissement périodique se fait par collecte dynamique, en
ne capturant que les changements qui ont eu lieu dans le système opérationnel
depuis la dernière opération de collecte. Il nécessite un mécanisme de détection des
changements.
L’extraction doit être performante et doit éviter de perturber les
environnements de production.
1.2.Transformation des données
Les bases de production peuvent contenir des données de mauvaise qualité

(données manquantes, incomplètes, aberrantes, en double, obsolètes…). Cette
mauvaise qualité a plusieurs origines : manque de contrôle dans la saisie des
données, incident de transfert lors du processus de collecte des informations, retard
dans les mises à jour…
Les conséquences de la mauvaise qualité des données peuvent être
importantes : remise en cause des indicateurs de performance, décrédibilisation du
système d’information, perte financière…
La deuxième phase du processus d’alimentation de l’entrepôt consiste donc à
transformer les données extraites de manière à obtenir un ensemble homogène. Les
données subissent un filtrage, pour éliminer les données manquantes ou aberrantes
par exemple, et un formatage afin de normaliser les informations (unification du
codage). Les doublons doivent être détectés pour assurer la cohérence de
l’entrepôt.
Les données de l'entrepôt ne sont pas simplement copiées depuis les bases
de production mais sont même en général créées par agrégation ou calcul.
1.3.Chargement de données
Cette phase consiste à injecter en une seule fois les informations collectées
dans l’entrepôt. Elle permet aussi de stocker les informations de manière correcte
dans les tables de faits correspondantes du datawarehouse, dans le but de rendre
les données disponibles pour l’analyse et le reporting.
6
2. Les outils ETL
Afin d’effectuer ces différentes opérations, un outil appelé ETL (Extract,

Transform, Load) est apparu, chargé d’automatiser les traitements et de les rendre
facilement paramétrables. Il doit être capable d’extraire des données décrites sous
des formats susceptibles de changer dans le temps et stockées sur des systèmes
amenés à évoluer. Contrairement aux EII (Enterprise Information Integration) qui
interrogent plusieurs sources en temps réel mais sans déplacer les données, les
outils ETL les déplacent en général en mode asynchrone vers une nouvelle base.
L’outil ETL fait parti d’un sous-ensemble des EAI (Enterprise Application
Integration), domaine plus général regroupant toutes les formes d'intégration entre
des applications, des processus ou/et des interfaces. L'ETL se positionne sur
l'intégration des données.
Après avoir été paramétré suivant les besoins du décisionnel, avec les
données en entrée, les données en sortie et les processus de transformation à
effectuer, l’ETL effectue l’alimentation généralement en mode batch1. Les mêmes
processus de transformation sont appliqués de manière récurrente lors de chaque
alimentation.
EAI EII ETL
•Bus inter applicatif qui •Hub de données pour •Extrait les données sources
Avantages Description
orchestre les échanges interroger des sources hétérogènes, les transforme et les
entre les applications. hétérogènes, doté de réinjecte dans une nouvelle base.
fonction de mapping.
•Fonctionne en mode •Fonctionne en mode •Nettoyage et transformation des

synchrone. synchrone. données.
•Traite des charges •Centralise l’accès à des •Une seule source de données
importantes. sources hétérogènes. interrogée par l’outil de restitution,
gage de performance.
•Pas de fonctions de •Pas de fonctions de •Fonctionne en mode
Inconvénients
transformation. transformation. asynchrone.

•Coûts d’acquisition et •Peu performant sur les •Flexibilité moindre sur les
de mise en œuvre requêtes complexes. modifications.
élevés.
Tableau 1 : Trois méthodes phares du décisionnel - source : 01Informatique (03/05)
1
Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traitées automatiquement
comme si elles étaient entrées au clavier par l'utilisateur, les unes après les autres.
7
3. Le marché des outils ETL
Le marché des outils ETL se compose de plusieurs éditeurs qui ont

développé des solutions aux caractéristiques variées.
Schéma 3 : Marché mondial des outils ETL - source : Forrester (mars 2005)
Les principaux outils sont :
Éditeur Solution ETL Version date

Informatica PowerCenter 7.1.1 08/2004
SAS ETL Server 9.1.3 08/2004
Ascential (IBM) DataStage 7.5 07/2004
DataMirror Transformation Server 5.1 04/2003
Cognos DecisionStream ? ?
SQL Server module DTS
Microsoft (Data Transformation 2000 SP3 08/2000
Services)
Oracle Warehouse Builder 10.1.0.2.0 05/2004
Business Objects ActaWorks – Data Integrator 6.5 04/2004
Hummingbirg Genio 5.1 09/2004
Sunopsis Sunopsis ETL 3.2 06/2003
ELT Solutions Ltd Transformation Manager
? ?
(TM)
Tableau 2 : Les principaux éditeurs et leur solution ETL
8
OFFRE
Plus
Moins
Présence sur
le marché
Moins STRATEGIE Plus
Schéma 4 : La performance des outils ETL - Source : Forrester
Nous allons présenter les outils des principaux éditeurs du marché : les
leaders Informatica, Ascential et SAS mais aussi certains outils en pleine évolution
comme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.
3.1.Les leaders du marché
3.1.1. Informatica : PowerCenter2

Informatica PowerCenter fournit une plate-forme d’intégration de données à
l’échelle de l’entreprise qui permet d’accéder aux données d’une large gamme de
systèmes, de les transformer, de les intégrer et de les mettre à disposition d’autres
systèmes transactionnels, processus métiers temps réel et collaborateurs de
l’entreprise. En rendant possible la création un référentiel d’information unique,
cohérent et partagé par toute l’organisation, PowerCenter aide les entreprises à
réduire les coûts et la complexité de leurs systèmes d’information, facilite l’adoption
de nouvelles technologies et contribue à l’amélioration globale de leurs
performances.
2
http://www.informatica.com/fr/products/powercenter/default.htm
9
Grâce à Informatica PowerCenter, il est possible de :
o Intégrer les données pour offrir aux utilisateurs métiers un accès exhaustif aux
données de l’entreprise – des données complètes, exactes et disponibles en
temps voulu.
o Monter en charge de façon à répondre aux besoins croissants d’information
des équipes métiers – Les données sont distribuées dans un environnement
sécurisé et évolutif, garantissant un accès immédiat aux données d’un
nombre illimité de sources hétérogènes.
o Simplifier la conception, la collaboration et la réutilisation pour réduire les
délais de livraison des équipes de développement - Une gestion inégalée des
métadonnées renforce la capacité des équipes à satisfaire des besoins en
constante évolution et toujours plus complexes.
PowerCenter est disponible en deux éditions :
o PowerCenter Standard Edition : Logiciel permettant l'accès, l'intégration et la
distribution de données, PowerCenter Standard Edition est une solution
économique pour exploiter les données issues de tous systèmes vers tous
autres systèmes. PowerCenter Standard Edition peut être installé en moins
de 30 minutes.
o PowerCenter Advanced Edition : En plus des fonctionnalités de PowerCenter
Standard Edition, PowerCenter Advanced Edition couvre tous les besoins
d’intégration de données de l’entreprise avec une seule plate-forme, incluant
de solides fonctionnalités d’analyse de métadonnées et de reporting, des
fonctions économiques de grid computing et des capacités avancées de
développement collaboratif. Avec PowerCenter Advanced Edition, les
entreprises bénéficient pleinement des avantages résultant de l’utilisation
d’une plate-forme unique pour gérer la totalité du cycle de l’intégration de
données : gains de productivité, réduction des coûts de maintenance et
économies substantielles liées à une prise en main immédiate. PowerCenter
Advanced Edition peut être installé en moins d’une heure.
PowerCente PowerCenter
Caractéristiques et fonctionnalités r Standard Advanced
Edition Edition
Plate-forme principale X X
PowerCenter Data Server (serveur de données) X X
Référentiel de métadonnées X X
Outils de conception et de gestion X X
Librairie complète d’objets de transformation X X
Serveur de référentiel avec import/export XML X X
Outils de sécurité (rôles et authentification) et intégration LDAP X X
Planification et contrôle centralisés de workflows X X
Traitement des données relationnelles natives, XML et
X X
hiérarchiques
Extensibilité totale des transformations personnalisées X X
Clients développeurs et administrateurs à usage illimité X X
Ensemble d’API ouvertes pour l’intégration avec des outils tiers X X
Intégration totale avec Informatica PowerExchange X X
Support des sources XML et fichiers plats X X
10
PowerCente PowerCenter
Caractéristiques et fonctionnalités r Standard Advanced
Edition Edition
Documentation complète sur la plate-forme X X
Connecteurs pour sources standards (2) X X
Connecteurs pour cibles standards (2) X X
Reporting prêt à l’emploi (PowerAnalyzer) : X
• Création de rapports X
• Mesures et alertes en temps réel X
• Reporting ad hoc et rapports pré-configurés X
• Intégration avec Excel X
Analyse des métadonnées (SuperGlue) : X
• Généalogie intelligente de l'information au niveau du
X
champ
• Reporting interactif sur l’utilisation des métadonnées X
• Fonctions de recherche et options de personnalisation
X
web
• Métamodèle extensible et ouvert basé sur le standard
X
OMG/CWM
• Connectivité préconfigurée pour un grand nombre de
X
métadonnées
Développement collaboratif X
Grid computing X
Fonctionnalités supplémentaires
Data Cleansing (nettoyage de données) Option Option
Data Profiling (profilage de données) Option Option
Metadata Exchange Option Option
Partitioning (partitionnement) Option Option
PowerCenter Connect Option Option
Real-time (temps réel) Option Option
Tableau 3 : Caractéristiques de PowerCenter - source : Informatica
3.1.2. SAS : ETL Serveur3

Le serveur ETL de SAS permet de concevoir, développer et exploiter les
traitements d’alimentation périodique des systèmes décisionnels et se compose :
o d’un environnement de développement ETL intégrant les phases de
développement, test et production,
o d’un générateur de traitement réduisant la programmation au stricte minimum,
o d’un langage décisionnel spécialisé comportant plusieurs milliers de fonctions,
o d’un environnement de métadonnées pour conserver la traçabilité des
données,
o de connecteurs natifs aux SGBD/R et fichiers séquentiels indexés, texte,
bureautique, log web, etc. soit plusieurs dizaines de sources de données,
o de connecteurs natifs et de dictionnaire métier des principaux ERP,
3
http://www.sas.com/offices/europe/france/software/technologies/etl.html
11
o de fonctions paramétrables de détection et de correction de la qualité des
données,
o d’un ordonnanceur intégré avec gestion événementielle permettant d’exploiter
les traitements sur plusieurs serveurs.
Le serveur ETL de SAS a été spécialement conçu pour supporter des charges
de traitements lourdes et s’appuie sur la technologie « multithreading » du serveur
SAS pour l’extraction, la transformation et la préparation des grandes bases de
données décisionnelles.
Il intègre directement des fonctions de vérification et standardisation des
informations, qui assurent leur exactitude et leur qualité. Cette étape du traitement
des données, souvent négligée, s’avère fondamentale pour pouvoir créer une réelle
valeur à partir des données.
Il a été spécialement conçu pour supporter l’alimentation des données des
applications analytiques comme la connaissance du comportement des clients ou le
reporting dynamique des ventes qui nécessitent des transformations spécifiques
telles que la transposition ou l’agrégation des données transactionnelles.
3.1.3. Ascential : Datastage et Datastage TX4

DataStage
DataStage, le module de gestion des mouvements de données de la Suite
d’Intégration de données, est totalement adapté à la problématique d'extraction, de
transformation, d'intégration et de chargement de données (ETL) car il est fondé sur
des composants ouverts, optimisés et réutilisables permettant :
o Le développement de processus de mouvement et de transformation des flux
de données par modélisation graphique ;
o La réutilisation naturelle des environnements existants (modèles, flux,
programmes, etc.)
La famille de produits DataStage constitue une solution ETL performante aux
capacités de montée en charge illimitées.
Elle est offre des fonctions de gestion de métadonnées et d’assurance de la
qualité des données pour la gestion et l’intégration des applications stratégiques.
Avantages de DataStage
o Les décisions business sont basées sur des données complètes et
pertinentes.
o Les temps de développement et le retour sur investissement des applications
d’entreprise sont accélérés.
o L'intégration de grands volumes de données quelle que soit la complexité des
structures de ces données est assurée.
Cette offre ETL s'appuie sur une expérience réussie auprès de plus de 2200
clients dans le monde et plus de 350 en France.
Ascential est capable de simplifier et d’assurer le déploiement réussi
d’applications d’entreprise intensives en données en intégrant la gamme complète
de profiling et de nettoyage de données, de gestion des metadonnées et
4
http://www.ascential.fr/produits/datastage.html
12
d’intégration des données, au sein d’une suite unique de produits, totalement
intégrée.
DataStage TX
Ascential DataStage® TX supporte les standards du marché et répond à des
exigences de connectivité, en permettant de résoudre les problèmes stratégiques en
temps réel. L'architecture orientée solutions de DataStage TX est ouverte et
évolutive. La mise en oeuvre est accélérée, les risques réduits et l'efficacité accrue.
DataStage TX permet d'automatiser facilement et de façon transparente de gros
volumes de transactions complexes sans codage additionnel.
Grâce à son architecture ouverte et extrêmement évolutive, DataStage TX 6.7 offre
un retour sur investissement beaucoup plus rapide.
Avantages de DataStage TX
o Intégration rapide et transparente d'un grand nombre des applications, bases
de données et systèmes de messagerie les plus utilisés ;
o Prise en compte rapide et souple des exigences de gestion stratégiques à
évolution rapide ;
o Exploitation de la valeur de vos systèmes et applications d'entreprise ;
Respect des besoins en matière de solutions d'intégration complètes ou basées sur
des projets.
3.2.Les challengers
3.2.1. DataMirror : Transformation Server5

Elément central d’Intégration Suite de DataMirror, Transformation Server™
est une solution d’intégration de données hautement performante et « Peer-to-Peer
» qui permet aux entreprises de gagner du temps et d’économiser des ressources en
leur fournissant l’intégration de données sans aucun besoin de programmation, dans
tous leurs systèmes informatiques. Transformation Server étend la fonctionnalité
ETL en permettant aux entreprises de capturer, de transformer et de transférer des
données commerciales et d’entreprise, en temps réel, entre DB2 UDB, Microsoft
SQL Server, Oracle, PointBase, Sybase, Teradata et XML vers de multiples plates-
formes informatiques.
La technologie de Transformation Server pour la capture, la transformation et

le transfert des données (CTF) améliore l’efficacité opérationnelle et fait gagner du
temps et des ressources en supprimant les transferts de données redondants et en
économisant la bande passante du réseau. Que les données soient intégrées en
temps réel ou à intervalles réguliers, seules les données modifiées sont capturées
puis transférées du système source vers le système cible. Supportant en natif les
principales bases de données, Transformation Server est idéal pour mettre en
oeuvre des applications de gestion en temps réel et ‘on demand’, telles que la
distribution de données, l’intégration d’applications d’entreprise, l’e-Business, la
business intelligence, le CRM (Customer Relationship Management) et le BAM
(Business Activity Monitoring).
5
http://www.datamirror.com/fr/products/tserver/default.aspx
13
Avantages de Transformation Server
o Intégration de données sûre et dynamique, sans aucune programmation,
o Solution souple et adaptable à presque tous les environnements
informatiques,
o Partage dynamique des informations en temps réel, à travers toute
l’entreprise et au-delà,
o Visualisation et surveillance faciles des réseaux d’intégration complexes, à
l’aide de représentations graphiques,
o Identification et résolution rapides des problèmes de réseau, grâce à une
surveillance centralisée,
o Performances et efficacité opérationnelles accrues, grâce à un solide
gestionnaire des communications,
o Optimisation du retour sur investissement, grâce à une mise en place rapide
et des coûts de maintenance réduits.
3.2.2. Cognos : DecisionStream6

Le logiciel ETL (extraction, transformation et chargement) DecisionStream
rassemble des données disparates en une base unifiée de Business Intelligence
pour exécuter rapidement rapports et analyses à partir des données d'exploitation
disponibles.
Les entrepôts de données dimensionnels constituent une base cohérente,
précise et réutilisable en rendant conformes les principales dimensions de
l'entreprise (temps, produit, client, etc.) pour autoriser le reporting à l'échelle des
différents services de l'entreprise.
Un environnement visuel intuitif vous permet de concevoir rapidement et
facilement le cadre de vos données sans programmation. Cognos DecisionStream
offre un accès rapide aux données BI en générant toutes les métadonnées requises
pour développer un environnement de Business Intelligence et le maintenir.
Avantages de DecisionStream
o Les entrepôts de données dimensionnels organisent les données par
sujet/service (ventes, finances) et par catégorie (client, produit).
o Le moteur ETL, basé sur serveur et multi plate-forme, traite de gros volumes
de données dans des fenêtres de mise à jour, sans investissement matériel
important.
o L'interface graphique intuitive rend les processus de transformation simples et
rapides pour l'utilisateur.
o Le cadre dimensionnel flexible s'adapte aux changements et peut évoluer
d'une solution dédiée à un département, par exemple, à un service de plate-
forme d'entreprise.
o Intégration parfaite des meilleurs logiciels de Business Intelligence au monde,
les logiciels Cognos d'analyse, de reporting, de tableau de bord et de
scorecarding.
6
http://www.cognos.com/fr/products/business_intelligence/data_preparation/
14
3.2.3. Microsoft : Data Transformation Services
Les Services de Transformation des Données (DTS) permettent d’importer et
d’exporter des clés primaires et étrangères entre des produits de base de données
pris en charge, de programmer la récupération de données en plusieurs étapes et
d’enregistrer des lots DTS sous forme de code Visual Basic.
Cet outil ETL est uniquement intégré à SQL Server.
3.2.4. Oracle : Data Integration

L’architecture de Warehouse Builder génere du code pour la base de
données cible Oracle9i. Le code généré garantit une haute performance du
processus de chargement des données et offre les fonctionnalités d’un outil ETL
évolutif. Warehouse Builder dispose d’un environnement graphique pour créer les
transformations à appliquer aux données (Mapping Editor).
Cet outil ETL est uniquement intégré au SGBD Oracle9i.
3.2.5. BusinessObjects : Data Integrator7

BusinessObjects Data Integrator est une plate-forme d’intégration de données
productive et évolutive. Avec Data Integrator, un outil ETL complet, il est facilement
possible d’explorer, d’extraire et d’alimenter les bases décisionnelles avec la
fréquence de son choix. Data Integrator garantit que les utilisateurs disposent
toujours d’informations précises et fiables au jour le jour.
L'intégration des processus ETL et des fonctions BI permet de disposer
d'avantages essentiels en matière de gestion des métadonnées, d'analyse d'
impacts, d'optimisation des cycles de vie des systèmes décisionnels et de réduction
des coûts de maintenance. Les utilisateurs peuvent se fier à leurs rapports BI dans
la mesure où ils peuvent en établir l'origine et obtenir une traçabilité jusqu'au
système source.
Data Integrator permet de définir très facilement des process de traitements
des données à l’aide d’une interface graphique et de puissantes fonctions de
transformation. Cet ETL se connecte à l’ensemble des sources de données et
possède des connecteurs natifs sur des ERP tels que SAP.
Data Integrator propose une riche interface graphique à partir de laquelle il est
possible de définir les processus ETL d'extraction, de transformation et de
chargement, d’assurer l'intégrité des données, de collaborer avec les développeurs
et de déployer des applications dans tous les types d'environnement.
Business Objects Data Integrator est un outil d'intégration de données batch
et temps réel conçu pour simplifier et accélérer les flux de données et leur partage
dans toute l'entreprise.
3.2.6. Hummingbird : Genio8

Hummingbird ETL est une solution d'intégration de données recouvrant les
domaines fonctionnels de l'ETL (extraction, transformation, chargement de données)
et de l'EAI (intégration des applications d'entreprise). Cette solution permet de
transformer, nettoyer et enrichir l'information pour ensuite la diriger à travers tout
l'éventail des systèmes décisionnels et des applications stratégiques de l'entreprise -
7
http://www.france.businessobjects.com/produits/dataintegration/dataintegrator/default.htm
8
http://www.hummingbird.com/international/france/products/etl/overview.htm
15
et ce dans le cadre d'une grande variété de projets du type datawarehouses,
datamarts, etc.
Hummingbird ETL est capable d'assurer toutes les opérations d'échange de
données quels que soient le format, la syntaxe, la source ou la cible de ces données
(depuis le support XML jusqu'à la connectivité mainframe, depuis les SGBD
relationnels jusqu'à l'OLTP multidimensionnel).
Dans tous les types de projets ETL, Hummingbird ETL garantit une étroite
intégration avec n'importe quel environnement d'entreprise, offrant un support et une
connectivité en natif, c'est-à-dire sans aucune programmation ni préparation des
données. Cette solution permet ainsi à l'entreprise d'économiser du temps et des
ressources en pérennisant son environnement informatique hétérogène.
Hummingbird ETL permet de connecter n'importe quelle source de données à
n'importe quel système cible à travers toute l'entreprise, aidant ainsi les
organisations à exploiter plus efficacement leurs données en vue d'accélérer et
d'optimiser leur processus stratégique de prise de décision.
3.2.7. Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL

ETL9
Sunopsis ETL permet une distribution optimisée des processus et offre
d'excellentes performances sur les gros volumes, même avec des transformations
complexes. Comparé aux approches ETL traditionnelles, typiquement des scripts
manuels ou des outils à moteur centralisé, Sunopsis ETL permet d'économiser
jusqu'à 90% du temps et des coûts d'implémentation et de maintenance. Avec le
support, par défaut, de toutes les sources de données grâce aux standards de
connectivité, Sunopsis ETL couvre tous les besoins avec la même flexibilité.
L'architecture distribuée de Sunopsis ETL génère du code natif SQL pour tirer
parti des composants existants du système d'information, comme les moteurs de
bases de données sur lesquels les applications et les data warehouses sont
installés. Cette architecture apporte un double avantage à l'entreprise : en l'absence
de serveur dédié et de moteur de transformation à installer, les coûts de la solution
ETL sont considérablement réduits. Et parce que les moteurs de base de données
sont extrêmement fiables et optimisés pour traiter de larges volumes de données et
des transformations complexes, les processus ETL bénéficient de ces mêmes
avantages.
9
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm
16
Real-Time ETL10
Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en temps
réel. Grâce à son architecture innovante qui optimise l'exécution des processus de
manière distribuée, l’outil est performant même pour des transformations complexes,
sans compromettre sa facilité d'utilisation. Parce que seules certaines informations -
et non toutes - doivent être analysées et restituées en temps réel, l'approche de
Sunopsis Real-Time ETL permet de gérer les processus de transfert de données à
la fois en batch et en temps réel.
Avec la fonction intégrée "Changed Data Capture", cet outil ETL détecte les
changements en temps réel sur toutes les bases sources. Les transformations sur
les données sont effectuées à la volée. L'information est propagée en temps réel sur
les systèmes cibles, via une connectivité directe ou en utilisant le MOM intégré
Sunopsis MQ.
Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il génère pour les
moteurs de base de données déployés dans le système d'information pour exécuter
les processus ETL, et utilise pleinement les fonctionnalités de manipulation de
données de ces moteurs. Ceci donne un avantage unique à Sunopsis ETL : des
agrégations aux statistiques en passant par les outils de chargement natifs, il utilise
entièrement les fonctions les plus appropriées pour chaque processus à réaliser.
10
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm
17
4. Les caractéristiques11
4.1.Transformation des données : plusieurs approches
Les différents outils ETL du marché peuvent être classés en plusieurs

catégories. Nous allons en présenter trois, qui sont celles retenues par les principaux
éditeurs :
o Les transformations sont exécutées sur un serveur ETL de manière
centralisée (engine-based),
o Les transformations sont réalisées à l’aide de fonctions intégrées dans la
base de données (database- embedded),
o Une description des transformations est utilisée afin de générer du code qui
pourra être déployé sur tout autre système (code-generators).
Les entreprises peuvent aussi choisir de développer elles-mêmes leur propre
outil ETL.
4.1.1. Les serveurs ETL

Cette approche est l’approche traditionnelle, utilisée dès les années 90. Avec
ce type d’architecture, l’information est extraite des sources de production,
transformée, ligne par ligne, sur un serveur en utilisant un langage propriétaire puis
chargée dans la base de données cible.
Schéma 5 : transformation des données - approche traditionnelle
11
Voir annexe 1 : Tableau récapitulatif – classement des éditeurs d'outils ETL en fonction des
différentes caractéristiques.
18
Tous les processus ont lieu sur le serveur et non sur les systèmes sources. Il
peut donc être nécessaire d’acheter un serveur pour héberger l’application, ce qui
augmente les coûts. Cependant, l’apprentissage est très rapide.
Pourtant, cette architecture n'apporte pas la flexibilité ou la liberté de créer
d'autres transformations sur les données, nécessitées par certains projets.
4.1.2. Utilisation de fonctions intégrées

Plusieurs éditeurs de SGBD intègrent des fonctions ETL dans leurs produits,
ce qui réduit les coûts, et permet de simplifier l'environnement décisionnel. Le SGBD
est utilisé comme moteur pour effectuer les transformations et les agrégations.
On peut donc se demander pourquoi acheter un outil ETL alors que le SGBD
peut réaliser les mêmes fonctions à moindre coût. En effet, les éditeurs de SGBD
proposent des fonctions qui, à la fois, concurrencent et appuient les outils ETL
indépendants.
Il y a encore quelques années, les SGBD ne permettaient que des
transformations basiques. Depuis le milieu des années 90, les éditeurs ont
considérablement augmenté le nombre et amélioré les fonctions ETL des SGBD.
Ces outils ETL fonctionnent comme des générateurs de code et montrent que SQL
peut suffire pour exécuter les transformations, même les plus complexes.
Il faut cependant noter que toutes les fonctions des outils ETL ne font pas
forcément partie de cette solution même si les nouvelles versions incluent toujours
plus de fonctions. De plus, ces outils demandent du codage manuel et l'évolution
entre deux versions successives reste faible : la productivité et les possibilités
techniques ne sont donc pas optimisées. Le défaut le plus important de cette
solution est que le code ne peut être utilisé que sur le SGBD de l'éditeur lui-même.
4.1.3. Les outils générateurs de code

Cette solution s'appuie sur le principe que l'outil ETL peut utiliser le SGBD
comme moteur mais en résolvant le principal problème des fonctions intégrées :
l'utilisation de l'outil indépendamment du SGBD lui-même.
La description des processus d'alimentation aboutit à la génération
automatique de code qui sera ensuite intégrée dans les chaînes d'exploitation. Une
interface graphique permet de créer un diagramme qui représente l'extraction depuis
la source, les transformations pertinentes puis le chargement dans les tables cibles.
La génération de code est l’approche la plus flexible car le code ainsi généré
peut s’intégrer dans toutes les architectures, ne requiert pas de serveur additionnel
et est indépendante de toute base de données propriétaire. En général, le code
généré est du code SQL : ce langage s'est beaucoup développé ces dernières
années et permet aujourd'hui d'effectuer plus de tâches en étant plus riche et plus
performant. L'avantage de cette architecture est qu'il n’y a pas besoin de coder
manuellement, ni d’installer de serveur dédié ou de moteur de transformations. Les
coûts engendrés par le choix d'une telle solution sont donc moindres.
Par ailleurs, les outils générateurs de code permettent l’intégration des
données en batch ou en temps réel.
Cette approche supporte des processus plus complexes que les serveurs ETL
et peut donc effectuer des traitements eux aussi plus complexes. Cependant,
l'utilisation de ces outils est moins intuitive que ceux utilisant l'approche
traditionnelle.
19
Les outils ETL générateurs de code s'orientent vers un fonctionnement TEL
ou ELT, c'est-à-dire que la phase de transformation à lieu avant ou après celles
d’extraction et de chargement des données.
Avec un outil ELT, le SGBD sert de moteur des transformations : les données
sources sont chargées en masse directement des bases de production vers
l'entrepôt de données et les transformations sont exécutées en bloc par le SGBD
cible de l'entrepôt. Les transformations de données se font à l'aide d'outils
graphiques, puis l'outil génère du code SQL contenant les instructions des
transformations et qui sera exécuté par le SGBD de l'entrepôt de données.
Schéma 6 : une autre approche (Approche ELT par Sunopsis)
4.1.4. Développement manuel d’un outil ETL

Avant les outils ETL spécialisés, des solutions de transformation de données
existaient déjà, développées au sein même des services informatiques de
l'entreprise.
Cette solution, aujourd'hui, est généralement choisie lorsque le projet ne
concerne qu’un volume de données peu important (jusqu’à 20 tables environ). Pour
cette tâche, l’achat d’un outil ETL représenterait un coût financier important, ainsi
que des coûts de formation.
Cependant, le développement manuel d’un outil ETL prend du temps et
demande des compétences spécifiques en programmation (développement du
programme, maintenance et mise à jour du code…). De plus, le code manuel ne
permet pas toujours d'effectuer les transformations les plus complexes et de gérer
un contrôle de qualité des données.
Le codage manuel reste néanmoins un moyen qui perdure, malgré la maturité
atteinte par les outils ETL du marché.
20
4.1.5. Comparaison des différentes approches
Outil
Avantages Inconvénients
ETL
•Prise en charge de •Environnement graphique moins
Générateur de code
transformations complexes intuitif

•Production de code compilé
compatible avec de nombreuses
plateformes
•Pas d’achat de matériel ni de
formation sur un logiciel
propriétaire
•Coût moindre
•Possibilité de configurer le •Nécessité d'acheter un serveur plus
serveur pour optimiser les performant
Serveur
performances •Le serveur peut être un goulot

•Pas d’interférence avec d’autres d’étranglement
applications •Utilisation de langages et de logiciels
•Interface graphique intuitive propriétaires
•Pas d’achat de matériel •Qualités et fonctionnalités variables
Fonction ETL intégrée
•Coûts réduits •Transformations de complexité

•Environnement simplifié moindre
•Utilisation limitée au SGBD de
l'éditeur
•Nécessité de codage manuel
Tableau 4 : Comparaison des différentes approches
4.2.Temps réel / Batch
L’approche en temps réel montre peu d’impact sur la phase de restitution

(reporting, tableau de bord…), qui se contente de croiser les données qui lui sont
fournies. Tout se joue au niveau du processus d’interrogation des données.
L’analyse se pratique en général en mode asynchrone, pour des raisons de
performance et de cohérence des données.
Les outils ETL fonctionnent principalement en mode asynchrone (batch), et
souvent la nuit pour ne pas avoir d'impact sur les ressources machine et réseau
pendant les heures de bureau. Ils sont capables d’apporter de la cohérence aux
informations et de consolider les données dans un entrepôt, en garantissant les
performances.
Cependant, l’évolution des architectures permet aux outils ETL de détecter les
modifications survenues dans les bases de production afin d’alimenter l’entrepôt au
fur et à mesure.
21
Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone mais
proposent des modules de traitement des données en temps réel.
Les outils ETL peuvent donc fonctionner en deux modes : temps réel
(synchrone) ou batch (asynchrone).
4.2.1. Temps réel – mode synchrone

Aujourd'hui, les besoins d'analyse et de reporting en temps réel restent
marginaux alors que la demande d’application en temps réel est de plus en plus
importante, particulièrement dans des domaines tels que les télécoms ou le secteur
bancaire, par exemple. Cependant, les outils de requêtes multi-sources en temps
réel (EAI par exemple) ne gèrent pas la qualité des données (cohérence,
transformation…) par manque d’un référentiel global.
Ce mode de traitement des données se base sur un détecteur de
modification, qui propage à l'entrepôt de données les changements des bases de
production.
Le raccourcissement des délais de rafraîchissement des données implique
des serveurs plus robustes, donc plus chers. De plus, les différentes couches de
l’architecture décisionnelle doivent dialoguer en permanence pour fonctionner en
mode synchrone.
Malgré la complexité et le surcoût entraîné par le fonctionnement en temps
réel, les éditeurs d’ETL intègrent des modules de traitement des données en mode
synchrone dans leur outil.
4.2.2. Mode batch – mode asynchrone

Les outils asynchrones sont ceux permettant de faire transiter l’information au
fil de l’eau entre les applications sans impliquer leur disponibilité immédiate mais en
garantissant le traitement de l’événement.
Les outils batch, qui effectuent le traitement des données par lot, sont conçus
pour traiter de gros volumes de données.
4.3.ETL et gestion des métadonnées
Les outils ETL orientés métadonnées permettent de s'assurer que les

données lues et écrites répondent aux contraintes de l'intégrité des données. Cela
permet de constituer une architecture particulièrement adaptée aux environnements
multi-utilisateurs. L'objectif est de concevoir un environnement unique avec un
dictionnaire unique. Les rapports d'analyses se basant sur un entrepôt de données
construit à l'aide d'un outil orienté métadonnées sont fiables, puisque on peut établir
l'origine des données et effectuer une traçabilité jusqu'au système source.
Le dictionnaire des métadonnées comporte des informations sur les données
sources / cibles, sur les transformations…:
o Description des données sources et cibles (description technique,
fonctionnelle, métier, administrative…)
o Description des processus d'alimentation
o Règles de gestion (contrôles qualitatifs, calculs d'indicateurs, règles de
transformation…)
o Comptes-rendus d'exécution (historique des alimentations …)
22
Ce dictionnaire des métadonnées à pour vocation de devenir le dictionnaire
de référence pour l'ensemble des outil d'analyse et de restitution.
Pour assurer la performance des outils, certaines caractéristiques du
dictionnaire de métadonnées sont importantes, parmi lesquelles :
o Personnalisation : possibilité d’ajouter des modifications, que l’éditeur n’avait
pas prises en compte.
o Format de stockage libre pour pouvoir intégrer des informations avec d’autres
produits.
o Partage des métadonnées avec d’autres applications…
La stratégie du dictionnaire de métadonnées étendu à toute l'entreprise ne
s'appuie pas sur une alimentation en temps réel. Il deviendrait une sorte d'interface
entre tous les dictionnaires de métadonnées des applications du système
d'information. Son rôle serait alors de coordonner et de donner une vision cohérente
des concepts présents dans l'entreprise, en facilitant le dialogue entre les
applications.
4.4.Autres caractéristiques
4.4.1. Architecture et environnement technique

Les outils disposent d’architecture compatible avec celle des données
existantes. Ils sont compatibles avec les plateformes serveur et de conception, les
bases de données sources/cibles usuelles.
4.4.2. Prix des outils en fonction des configurations choisies

Le prix d’un outil ETL est important, d’autant plus qu’il est difficile d’évaluer le
gain réel qu’il va apporter à l’entreprise. Il s’agit donc de déterminer l’outil ETL dont
le prix correspondra au budget et dont les performances seront adaptées au projet,
c’est-à-dire celui qui aura le meilleur rapport performance/prix. On peut donc classer
les outils ETL du marché en fonction de leur configuration (solution plus ou moins
complète) et de leur prix :
Prix faible Prix moyen Prix élevé

De $80K à $150K De $200K à $450K De $8000K à $1.4M
Business Objects DataMirror Ascential
Configuration Hummingbird ETI Informatica
complète IBM Group 1 Oracle
Pervasive iWay SAS
Sunopsis Microsoft
De $40K à $90K De $100K à $255K De $350K à $500K
Business Objects Ascential Informatica
DataMirror ETI SAS
Configuration Hummingbird Group 1
intermédiaire IBM iWay
Microsoft Oracle
Pervasive
Sunopsis
23
Prix faible Prix moyen Prix élevé
Moins de $40K De $50K à $90K De $105K à $360K
Business Objects Ascential ETI
DataMirror Group 1 Informatica
IBM Hummingbird SAS
Petite iWay Oracle
configuration
Microsoft
Oracle
Pervasive
Sunopsis
Tableau 5 : Prix des outils ETL en fonction de leur configuration – source : Forrester
4.4.3. Interfaces graphiques

La plupart des outils ETL disposent d’interfaces graphiques pour que les
utilisateurs puissent effectuer les transformations des données sources de façon
plus intuitive, rapide et conviviale, en utilisant le principe du glisser-déposer. Des
assistants automatisés peuvent guider les développeurs tout au long du processus
de création de l’entrepôt et de l’intégration des données dans celui-ci.
Interface graphique – PowerCenter (Informatica)
24
Conclusion
Avantages de l’ETL
Les grandes forces des ETL sont :
o leur souplesse : ils sont fortement paramétrables
o leur facilité d’utilisation : utilisables par des non informaticiens après formation
o leur facilité de maintenance et leur pérennité
Les bases de données comprennent souvent des outils d’alimentation qui
peuvent extraire des données, effectuer des transformations basiques et charger
des données. Mais ces outils n’ont pas les avantages d’un ETL et sont souvent
difficilement paramétrables, pas ergonomiques et n’offrent pas beaucoup de
possibilité de transformation de données.
Limites de l’ETL
Coûts en ressources matérielles et en temps :
Ils font subir différents traitements à de gros volumes de données. Un outil
ETL nécessite donc un fort besoin en machines, débit et maintenance. Les
traitements étant très gourmands, l’alimentation s’exécute souvent la nuit, pour ne
pas impacter les ressources machine et réseau pendant les heures de bureau.
Temps réel :
La durée des traitements et le temps machine consommé est tel que cela est
difficilement compatible avec des traitements en temps réel. La plupart des éditeurs
d'ETL essaye d’évoluer dans ce sens en développant leur propres outils, ou en
passant des accords avec des acteurs du marché de l'EAI. Cependant, au-delà des
considérations stratégiques et technologiques, on peut se demander si une
application décisionnelle gagnerait en pertinence avec un datawarehouse actualisé
en permanence.
Évolution de l’ETL
Au cours de ces dernières années, le marché de l'ETL a considérablement
évolué.
Le créneau des ETL pourrait avoir à subir une nouvelle révolution dans les
années qui viennent à la faveur de l’émergence de trois nouveaux concepts touchant
au traitement des données :
o la création d'un référentiel de métadonnées commun à l'ensemble des
applications du système d'information, sans nécessiter la centralisation au
préalable des contenus à traiter : le MDM12 (Master Data Management).
o les technologies d'intégration en temps réel et l’EAI. En effet, dans un
contexte où la plupart les responsables seront aidés dans leurs prises de
12
Voir annexe 3 : Master Data Management (MDM)
25
décision, les entreprises gagnantes seront celles capables de réagir au plus
vite. La plupart des outils ETL ne fonctionnent pas en temps réel mais les
éditeurs intègrent les fonctionnalités des EAI afin de pouvoir prendre en
compte les données en temps réel. La tendance sera donc plutôt de fusionner
les outils ETL et EAI en un seul produit.
26
Bibliographie
Ouvrages
La construction du datawarehouse – Du datamart au dataweb
JF Goglin, Hermès - 2ème édition (2001)
Publications
Le Monde Informatique (dec 2004 – janv 2005)
Pages Internet
LE LIVRE BLANC EAI - MEDIADEV
http://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf
01Informatique – plusieurs articles sur le thème du décisionnel
http://www.01net.com/
Les sites des différents outils ETL étudiés
Sunopsis : www.sunopsis.com
Informatica : www.informatica.com
Ascential : www.ascential.fr/
Hummingbird : www.hummingbird.com/international/france
SAS : www.sas.com
Cognos : www.cognos.com/fr/
Business Objects : www.france.businessobjects.com/
…
The Evolution of ETL - Wayne Eckerson
http://tdwi.org/research/display.aspx?ID=6716
Will SQL become the industry standard language for ETL? – John Rauscher
http://databasedadvisor.com/doc/14213
Panorama des outils d'ETL
http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
[JargonF - dictionnaire informatique] Définition de ETL
http://www.linux-france.org/prj/jargonf/E/ETL.html
Formation : Présentation et panorama des outils ETL
http://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils
_etl/
How to evaluate enterprise ETL – P. Russom (12/2004)
http://eu.informatica.com/AAFB/mailer.asp
27
Glossaire
DATA WAREHOUSE ou ENTREPOT DE DONNÉES

Le Data Warehouse, ou Entrepôt de Données, est une base spécifiquement
constituée pour procéder à des analyses décisionnelles. Il est constitué puis
alimenté à l'aide d'outils ETL qui y chargent les données de production régulièrement
remises à jour. Les datamarts ou magasins sont des sous ensembles du DWH (ED)
qui rassemblent les données spécifiques à un métier dans l'entreprise. Ces bases
sont interrogées et manipulées à l'aide d'outils de requête et d'analyse
multidimensionnelle.
DÉCISIONNEL
Ce terme regroupe les outils ou techniques permettant de trier, de croiser et
de manipuler à des fins d'analyse les données gérées par le systèmes d'information
de l'entreprise. L'analyse décisionnelle soutient les prises de décision stratégiques
en permettant de visualiser les données notamment à l'aide d'indicateurs métier.
EAI (Enterprise Application Integration)
Intégration des applications dans l'entreprise. Le but est de faire fonctionner
ensemble (en particulier en matière d'échange transparent de données) les
programmes existant dans une entreprise, en vérifiant leur interopérabilité, et gérer
l'hétérogénéité générale. Ce sont des logiciels qui permettent la compatibilité entre
des applications déjà existantes, non compatibles à l’origine.
ETL (Extract Transform Load)
Les outils ETL sont utilisés pour la constitution des entrepôts de données. Ils
servent à extraire les données des différentes bases de production, à leur donner
une présentation homogène et fiable pour l'analyse (nettoyage des données,
suppression des doublons…) et à les charger dans l'entrepôt de données.
MÉTADONNÉE
Information sur une information. Les métadonnées sont cruciales pour le
fonctionnement et la maintenance d'un datawarehouse.
SID (Système d’Information Décisionnel)
Le système d'information décisionnel est un ensemble de données organisées
de façon spécifique, facilement accessible et appropriées à la prise de décision ou
encore une représentation intelligente de ces données au travers d'outils spécialisés.
La finalité d'un système décisionnel est le pilotage de l'entreprise.
28
Annexes
Annexe 1.Tableau récapitulatif......................................................................31

Annexe 2.Principaux outils ETL du marché.................................................32
Annexe 3.Master Data Management (MDM).................................................34
29
Annexe 1.Tableau récapitulatif
Fonctio Gestion des

Générateu Serveu Temps Mode
Éditeur n métadonnée
r de code r réel batch
intégrée s
Informatica x x x x
SAS x x x
Ascential
x x x
(IBM)
DataMirror x x x ?
Cognos x x x
Microsoft x
Oracle x
Business
x x x x
Objects
Sunopsis x x x x
ELT
Solutions x x
Ltd
30
Annexe 2.Principaux outils ETL du marché
Prix
Éditeur Produit Caractéristiques
(à partir de...)
Intégré à l'offre SQL

Data
Alimentation en mode batch interprété (moins Server (100
Microsoft Transformation
rapide). euros/utilisateur +
Services
5000 euros)
Éditeur indépendant, Informatica a

progressivement développé une offre de BI
(outils de restitution) et évolue aujourd'hui
vers le dictionnaire de métadonnées. 155 000 euros par
Informatica PowerCenter serveur de
PowerCenter est également capable de se production
connecter sur le bus EAI de WebMethods
pour récupérer des informations en temps
réel.
Petit dernier arrivé sur le marché de l'ETL,

Sunopsis propose un kit de développement
plus qu'un moteur d'ETL proprement dit.
Sunopsis Sunopsis v3.2 30 000 euros
Il permet de générer les processus
d'alimentation qui sont ensuite exécutés par
un serveur d'application J2EE
Leader sur le marché de l'ETL, Ascential

évolue vers le dictionnaire de métadonnées
avec le rachat des technologies MetaRecon
250 000 euros pour
(analyse et documente les données avec des
l'offre complète
Ascential DataStage metadonnées) et Integrity (nettoyage et
(50 000 euros par
qualification des données par matching,
module environ)
scoring, etc.). Offre déclinée en plusieurs
modules capables de s'interfacer avec les
MOM et bus EAI du marché.
Apparu il y a environ un an, DecisionStream a

DecisionStrea clairement été conçu pour la suite BI de
Cognos
m Cognos. Accords avec Iway sur la
connectivité
Spécialiste de la connectivité, Hummingbird a

développé une offre de BI basée sur le rachat
Genio
Hummingbir du produit Genio côté ETL. La V8 prévue vers 46 000 euros par
(Hummingbird
d la fin de l'année s'interfacera avec la plate- CPU
ETL)
forme de Tibco et MQSeries. Genio gère un
dictionnaire de métadonnées étendu.
Conçu pour la suite BI d'Oracle, Oracle9i

Datawarehouse Builder bénéficie des
technologies de clustering du leader du
Oracle9i
marché de la base de données. Apparu avec 4985 euros par
Oracle Datawarehous
la restructuration de l'offre BI d'Oracle, utilisateur
e Builder
Datawarehouse Builder a été classé comme
le meilleur ETL pour la transformation des
données par le MetaGroup.
31
Prix
Éditeur Produit Caractéristiques
(à partir de...)
Intégré à Business Objects Enterprise Suite

6, l'ETL de BO est issu du rachat de la
Business Business Data société Acta qui disposait d'une technologie
nc
Objects Integrator originale basée sur un serveur de cache; ce
dernier nettoie les données avant de les
injecter dans un datamart.
Tableau 6 : Principaux outils ETL du marché 13
13
http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c
32
Annexe 3.Master Data Management (MDM)
MDM pour Master Data Management14

Gérer la qualité et la cohérence des données contenues dans les bases et systèmes de
l’entreprise, telle est la vocation de cette méthode applicative.
29 Novembre 2004
> Que recouvre le concept de Master Data Management ?
En général, une entreprise dispose de plusieurs bases de données rangées chacune
au sein d'un système d'information ou derrière une application métier particulière
(gestion comptable, ventes, gestion des ressources humaines, serveur de suivi de
production, etc.). C'est notamment le cas pour des structures ayant opté pour une
approche best-of-breed à l'inverse d'une politique technologique articulée autour d'un
progiciel de gestion intégrée.
Dans cette logique, les processus de mise à jour de données sont réalisés
parallèlement par des équipes différentes par le biais d'outils hétérogènes. Un
contexte structurel qui engendre des risques d'incohérences entre applicatifs. D'où
l'importance de s'attacher à l'harmonisation des données. C'est bien là l'objectif de la
méthode de "Gestion des données de base" (MDM - pour Master Data Management
en anglais).
> Comment fonctionne cette méthode ?
Comme son nom l'indique, elle consiste à regrouper l'ensemble des données dites
"de base" de l'entreprise (Master Data). Un référentiel standardisé qui a pour but de
jouer le rôle de pré requis lors de la mise à jour de tel ou tel système.
Concrètement, ce référentiel contient l'ensemble des objets essentiels à la vie de
l'entreprise et décrit les liens qu'ils entretiennent entre eux : numéros de référence
clients, fournisseurs, partenaires, etc. Grâce à cette couche généralement associée
à des mécanismes de contrôle et de validation, les objets sont modifiés de façon
cohérente et les doublons évités. Au final, ce dispositif a pour but de garantir la
qualité des données métier en phase de production.
> Quels sont les champs d'intervention du Master Data Management ?
Cette démarche présente un intérêt dans de nombreux domaines. Ici, on peut
notamment évoquer la mise en oeuvre d'une démarche de communication
multicanal. Une approche qui nécessite de bénéficier d'une certaine cohérence entre
contenus diffusés quel que soit le moyen de communication utilisé (site Internet,
centre de contacts, etc.). Autre champ généralement évoqué : celui de l'analyse
décisionnelle et du reporting qui peut impliquer des fonctions de contrôle des
données manipuler pour assurer la régularité des rapports de résultats.
> Quelle différence avec les fonctions d'ETL et d'EII ?
Comme on l'a vu, le Master Data Management fournit une brique de référence pour
contrôler l'homogénéité des données du système d'information. De leur côté, les
mécanismes d'ETL (pour extraction, transfert et chargement de données) et d'EII (ou
intégration des informations d'entreprise) prennent en charge leur manipulation.
14
http://solutions.journaldunet.com/0411/041129_mdm.shtml
33

Etl Overview Iup Vannes

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Etl Overview Iup Vannes

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITÉ DE BRETAGNE-SUD

ETUDE RÉALISÉE DANS LE CADRE DU COURS

SOUTENANCE : 12 MAI 2005

Un Système d'Information Décisionnel (SID) est un outil destiné à recueillir,

Schéma 1 : Représentation schématique d'un datawarehouse

Les Systèmes Décisionnels se caractérisent par :

L’alimentation d’un entrepôt de données se déroule en trois étapes :

Schéma 2 : Alimentation d'un datawarehouse

1.1.Extraction des données

La première phase de la construction d’un entrepôt de données consiste à

1.2.Transformation des données

Les bases de production peuvent contenir des données de mauvaise qualité

Afin d’effectuer ces différentes opérations, un outil appelé ETL (Extract,

•Fonctionne en mode •Fonctionne en mode •Nettoyage et transformation des

transformation. transformation. asynchrone.

Tableau 1 : Trois méthodes phares du décisionnel - source : 01Informatique (03/05)

Le marché des outils ETL se compose de plusieurs éditeurs qui ont

Les principaux outils sont :

Éditeur Solution ETL Version date

Moins STRATEGIE Plus

Schéma 4 : La performance des outils ETL - Source : Forrester

3.1.Les leaders du marché

3.1.1. Informatica : PowerCenter2

3.1.2. SAS : ETL Serveur3

3.1.3. Ascential : Datastage et Datastage TX4

3.2.1. DataMirror : Transformation Server5

La technologie de Transformation Server pour la capture, la transformation et

3.2.2. Cognos : DecisionStream6

3.2.4. Oracle : Data Integration

3.2.5. BusinessObjects : Data Integrator7

3.2.6. Hummingbird : Genio8

3.2.7. Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL

4.1.Transformation des données : plusieurs approches

Les différents outils ETL du marché peuvent être classés en plusieurs

4.1.1. Les serveurs ETL

Schéma 5 : transformation des données - approche traditionnelle

4.1.2. Utilisation de fonctions intégrées

4.1.3. Les outils générateurs de code

Schéma 6 : une autre approche (Approche ELT par Sunopsis)

4.1.4. Développement manuel d’un outil ETL

transformations complexes intuitif

performances •Le serveur peut être un goulot

•Coûts réduits •Transformations de complexité

Tableau 4 : Comparaison des différentes approches

4.2.Temps réel / Batch

L’approche en temps réel montre peu d’impact sur la phase de restitution

4.2.1. Temps réel – mode synchrone

4.2.2. Mode batch – mode asynchrone

4.3.ETL et gestion des métadonnées

Les outils ETL orientés métadonnées permettent de s'assurer que les

4.4.1. Architecture et environnement technique

4.4.2. Prix des outils en fonction des configurations choisies

Prix faible Prix moyen Prix élevé

4.4.3. Interfaces graphiques

Interface graphique – PowerCenter (Informatica)

DATA WAREHOUSE ou ENTREPOT DE DONNÉES

Annexe 1.Tableau récapitulatif......................................................................31

Fonctio Gestion des

Intégré à l'offre SQL

Éditeur indépendant, Informatica a

Petit dernier arrivé sur le marché de l'ETL,

Leader sur le marché de l'ETL, Ascential

Apparu il y a environ un an, DecisionStream a