Académique Documents
Professionnel Documents
Culture Documents
Cours ETL DW CH2 Partie1
Cours ETL DW CH2 Partie1
De nombreux types de fichiers peuvent également être lus ou écrits: Csv, Excel, Txt, Xml,
La plupart des ETL disposent d'une interface graphique permettant l'élaboration des
différents scénarios d'intégration.
Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception
que de la maintenance des traitements de données.
ETL: Extract – Transform – Load
Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre
l'alimentation des datawarehouses (entrepôts de données).
Ces derniers servent de supports pour l'analyse des données sous plusieurs formes :
•Rapports et états,
•Tableaux de bords (dashboards, balanced scorecard),
•Indicateurs de performance (« KPIs »),
•Analyse multi-dimensionnelle (OLAP) ,
•Analyse exploratoire (Data-Mining).
ETL: Extract – Transform – Load
Depuis quelques années, des ETL Open Source ont fait leur apparition au milieu de la multitude
des ETL propriétaires.
Ces ETL ont notamment profité de l'émergence de l'OSBI (« Open Source Business Intelligence
») et de l'apparition de nouvelles solutions décisionnelles Open Source ambitieuses et déjà
matures.
Des sociétés telles que Pentaho (www.pentaho.fr), SpagoBI , Talend ont ainsi,
JasperIntelligence contribué à l'émergence et la démocratisation de ces ETL Open Source.
ETL: Extract – Transform – Load
Accès aux
composants
Espace de modélisation qui permet de
Le référentiel contient tous les concevoir graphiquement les business
éléments techniques du models et les jobs. Job:
projet informations
sur le job
sélectionné.
Composant:
Configuration
du composant
sélectionné
Aperçu du code et du schéma job ou
du business model
Talend Open Studio: Vues
1. Un business model c’est quoi?
Décision: Représente une condition if dans le flux de données. Permet de prendre des mesures
contextuelles.
Action: Tout type d'action, notamment, transformation, traduction ou format par exemple.
Document: Ajoute un objet document qui peut servir en entrée ou en sortie pour fournir les données à
traiter.
Liste: Répertorie les données extraites sous la forme d'une liste. Cette dernière peut être paramétrée pour
ne contenir que les données d'une certaine nature.
Base de données: Ajoute un objet base de données qui peut servir en entrée ou en sortie du traitement de
données.
Transformation: Cette forme d'engrenage est généralement utilisée pour illustrer les morceaux de code et
moulinettes développés manuellement et qui pourraient être remplacés par des Jobs Talend par exemple.
Talend Open Studio: Vues
Une des phases essentielles de la conception d'un Business Model consiste à mettre en place
les relations entre les formes source et cible.
Talend Open Studio: Vues
Le Job Talend est l’implémentation technique d’un business model. Il traduit les besoins métier en
code et programmes et se charge de les exécuter.
Un job Talend est la représentation graphique d’un ou plusieurs composants reliés entre eux. Il
regroupe un ensemble de tâches et permet d’exécuter des processus de flux de données.
Les jobs peuvent être réutilisés, synchronisés entre eux et hiérarchisés en jobs principaux et sous-jobs.
Talend Open Studio: Vues
Un composant est un sous-ensemble d'un job qui effectue une opération définie. Par exemple : lire un
fichier, filtrer des données ou encore extraire des données.
Un composant est composé d’un extrait de code Java généré automatiquement. Le but des composants
est de gagner du temps en évitant le codage manuel pour effectuer les opérations de traitement de
données courantes.
Talend propose une multitude de composants prêts à l’emploi regroupés un répertoire. Il est possible
de développer des composants sur-mesure si Talend ne propose aucun composant répondant à votre
besoin.
Talend Open Studio: Vues
Talend permet d’appeler des méthodes écrites en JAVA à partir de n’importe quel autre composant (ou
presque !!), ces méthodes sont appelées routines sous Talend, et stockées sous le nœud «Code» du
designer.
Talend Open Studio: Vues
Les métadonnées définissent l’ensemble des données et connexions traitées par le studio Talend.
Elles regroupent les informations concernant les fichiers, les bases de données, les systèmes dont vous
avez besoin pour créer vos Jobs : nom, type, emplacement, date de création, taille.
Talend Open Studio: Vues
Gérer les métadonnées = Spécifier les sources de données + les données cibles
- Dans le Référentiel, clic droit sur Metadonnées/ Connexion BD/ Créer connexion
(Spécifier le type de la base, sa version, l serveur, le nom de la base, son utilisateur et mot de passe, jar de
connexion…)
Gérer les métadonnées = Spécifier les sources de données + les données cibles
En fonction de l’élément choisi des schémas, talend demande de spécifier le type de composant d’entrée ou
de sortie qui lui correspond.
Talend Open Studio: Vues
6. Un composant de transformation?
- tAggregateRow
Le tAggregateRow reçoit un flux et l'agrège en fonction d'une ou plusieurs colonnes. Pour chaque ligne
de sortie, sont fournis la clé d'agrégation et le résultat pertinent des opérations d'ensemble (min, max,
somme ...).
Il aide à fournir un ensemble de mesures basées sur des valeurs ou des calculs.
Talend Open Studio: Vues
Talend Open Studio: Vues
6. Un composant de transformation?
- tConvertType
Le tConvertType permet des conversions spécifiques à l'exécution d'un type Java Talend à un autre.
Il aide à convertir automatiquement un type Java Talend en un autre et ainsi éviter les erreurs de compilation.
Talend Open Studio: Vues
6. Un composant de transformation?
- tJoin
Le tJoin joint deux tables en faisant une correspondance exacte sur plusieurs colonnes. Il compare les colonnes du
flux principal avec les colonnes de référence du flux de recherche et génère les données du flux principal et / ou
les données rejetées.
Ce composant aide à garantir la qualité des données de toutes les données source par rapport à une source de
données de référence.
Talend Open Studio: Vues
Talend Open Studio: Vues
6. Un composant de transformation?
- tMap
Le tMap est un composant avancé, qui s'intègre comme plugin à Talend Studio.
Le tMap transforme et achemine les données de sources uniques ou multiples vers des destinations uniques ou
multiples.
Talend Open Studio: Vues
Talend Open Studio: Vues
Exemple d’application: