Académique Documents
Professionnel Documents
Culture Documents
Pour que des données sources soient exploitables, il est nécessaire de les
agréger et de les nettoyer de tous les éléments non indispensables aux
utilisateurs finaux.
L'adaptation était alors une priorité pour ne pas avoir à modifier les outils
existants
Cette opération d’extraction et d’homogénéisation des données est
assurée par la technologie ETL (Extraction, Transformation and Loading).
L’ETL se charge de récupérer les données et de les centraliser dans
l’entrepôt de données.
La réalisation de l'ETL constitue 70% d'un système d’information
décisionnel en moyenne
Architecture BI 3
L'intégration de données 4
L'intégration de données regroupe les processus par lesquels les données provenant de
différentes parties du système d'information sont déplacées, combinées et consolidées.
Ces processus consistent habituellement à extraire des données de différentes sources
(bases de données, fichiers, applications, Services Web, emails, etc.), à leur appliquer
des transformations (jointures, lookups, déduplication, calculs, etc.), et à envoyer les
données résultantes vers les systèmes cibles.
Il existe plusieurs système d'intégration de données :
La médiation au service de l'intégration de données d'entreprise (EII): Intégration Virtuelle
L'intégration de données via les applications (EAI): Integration d’application
L'intégration de données via les services Web (ESB, SOA).
L'intégration de données en nuage (Data Cloud).
L'ETL (Extract - Transform - Load) Integration matérialisée
L'intégration de données 5
EII - Entreprise Information Integration 6
Enterprise Information Integration (EII) est une approche d'architecture
permettant d'obtenir une vue unifiée des données informatiques de
l'entreprise.
7
8
9
10
11
12
EII - Entreprise Information Integration 13
Avantages:
Accès relationnel à des sources non-relationnelles;
Permet d’explorer les données avec la création du modèle de l’entrepôt de données;
Accélère le déploiement de la solution;
Peut être réutilisé par le système ETL dans une itération future;
Aucun déplacement de données.
Inconvénients:
Requiert la correspondance des clés d’une source à l’autre;
Consolidation des données plus complexe que dans l’ETL;
Surtaxe les système sources;
Plus limité que l’ETL dans la quantité de données pouvant être traitée;
Transformations limitées sur les données;
Peut consommer une grande bande passante du réseau.
EAI - Entreprise Application Integration 16
ETL ne se contente pas de charger les données, il doit les faire passer par un tas de moulinettes pour
les dénormaliser, les nettoyer, les contextualiser, puis de les charger de la façon adéquate,
Dénormalisation : dans un DW (Data Warehouse), avoir des doublons n'est pas important, avoir un schéma
en troisième forme normale est même déconseillé. Il faut que les données apparaissent là où elles doivent
apparaître ;
Nettoyage : dans un système de production, les utilisateurs entrent les données . Les risques d'erreurs sont là :
entrer la rue au lieu du pays, écrire Canoda au lieu de Canada. Ces erreurs ont des répercussions directes sur
les analyses (les commandes avec Canoda comme pays ne feront pas partie des commandes faites au Canada).
Il faut pouvoir détecter et corriger ces erreurs ;
Contextualisation : imaginez un système de production où les informations sur l'activité du personnel sont
enregistrées, et un système de RH ou les informations personnelles, comptables des employés sont stockées.
Un entrepôt de données possède une vision universelle, un employé est un employé, et il n'y aura qu'une seule
dimension « Employé » avec toutes les informations le concernant ;
Chargement en DW : c'est l'étape la plus complexe, il s'agit ici d'ajouter les nouvelles lignes, voir si des lignes
ont été modifiées et faire une gestion d'historique, voir si des lignes ont été supprimées et le mentionner dans
l'entrepôt, tout en faisant attention de ne pas charger des données en double.
ETL 21
Avantages:
Optimisé pour la structure de l’entrepôt de données;
Peut traiter de grandes quantités de données dans une même exécution (traitement en lot);
Permet des transformations complexes et agrégations sur les données;
La cédule (programme) d’exécution peut être contrôlée par l’administrateur;
La disponibilité d’outils GUI sur le marché permet d’améliorer la productivité;
Permet la réutilisation des processus et transformations (ex: packages dans SSIS).
Inconvénients:
Processus de développement long et coûteux;
Gestion des changements nécessaire;
Exige de l’espace disque pour effectuer les transformations (stagingarea);–Exécuté indépendamment du besoin réel;
Latence des données entre la source et l’entrepôt;
Unidirectionnel (des sources vers l’entrepôt de données).
Cycle de vie de ETL
Conception d’un ETL 23
Les éléments à prendre en compte dans le choix de votre ETL sont les suivants :
taille de l'entreprise : j'entends par là taille des structures. S'il s'agit d'une multinationale avec des
milliers de succursales à travers le monde, on ira plus pour une solution complète et, en général, très
coûteuse. Si on est une PME, on optera plutôt pour des solutions payantes (comme Microsoft
Integration Services) assurant un certain niveau de confort sans impliquer des mois de
développement ;
taille de la structure informatique : une entreprise avec une grosse structure informatique pourra se
permettre d'opter pour une solution Open Source et la personnaliser selon les besoins de l'entreprise.
Une PME ne pourra sûrement pas faire cela ;
culture d'entreprise : évidement, si une entreprise à une culture de l'Open Source très prononcée,
l'application d'une solution payante risquera fortement de subir un phénomène de rejet ;
maturité des solutions : il existe des solutions bien rodées, qui fonctionnent bien et qui bénéficient
d'un bon retour d'expérience, c'est en général les plus chères (Business Objects, Oracle, SAP). Il existe
d'autres solutions, moins matures, bénéficiant d'un « effet de mode » et qui semble offrir de très
bonnes performances (Microsoft). Enfin, il existe des solutions Open Source qui, de par leur jeunesse,
n'offrent pas autant de flexibilité et de facilité de mise en œuvre que les solutions précédemment
citées. Il faudra compter avec le temps pour que ces solutions émergent et arrivent à un niveau de
maturité acceptable…
ELT: Extract, Load and Transform 31
BusinessObjects,
Data Integrator, http://
www.businessobjects.fr/
Oracle
Corporation, Warehouse builder, http://
www.oracle.com/technology/products/warehouse/index.h
tml/
IBM, Websphere Datastage ,
http://www.ascential.com/products/datastage.html
Couche de préparation de données
Couche de stockage de données (presentation)
Couche de restitution de données
Approches de conception des ED : 40
ascendantes
Approches de conception des ED : 41
descendantes
Approches de conception des ED : 42
descendantes