Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 26

Mise au point

Données à partir de ETL: Alimenter DW Dimensions/Faits OLAP: Analyser en temps réel


sources hétérogènes une grande masse de données
Axes d’analyses/ Mesures/Indicateurs
ETL: Extract – Transform – Load

ETL est l'acronyme de « Extract - Transform -Load ».

Un ETL permet ainsi l' Extraction, la Transformation et le Chargement de données


depuis des sources diverses (bases de données, fichiers) vers des cibles préalablement
définies.

De nombreux systèmes de gestion de bases de données sont supportés nativement en


lecture/écriture (Oracle, MS Sql Server, DB2, Postgresql, MySql,...).

De nombreux types de fichiers peuvent également être lus ou écrits: Csv, Excel, Txt, Xml,

La plupart des ETL disposent d'une interface graphique permettant l'élaboration des
différents scénarios d'intégration.

Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception
que de la maintenance des traitements de données.
ETL: Extract – Transform – Load

Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre
l'alimentation des datawarehouses (entrepôts de données).

Ces derniers servent de supports pour l'analyse des données sous plusieurs formes :
•Rapports et états,
•Tableaux de bords (dashboards, balanced scorecard),
•Indicateurs de performance (« KPIs »),
•Analyse multi-dimensionnelle (OLAP) ,
•Analyse exploratoire (Data-Mining).
ETL: Extract – Transform – Load

Depuis quelques années, des ETL Open Source ont fait leur apparition au milieu de la multitude
des ETL propriétaires.

Ces ETL ont notamment profité de l'émergence de l'OSBI (« Open Source Business Intelligence
») et de l'apparition de nouvelles solutions décisionnelles Open Source ambitieuses et déjà
matures.

Des sociétés telles que Pentaho (www.pentaho.fr), SpagoBI , Talend ont ainsi,
JasperIntelligence contribué à l'émergence et la démocratisation de ces ETL Open Source.
ETL: Extract – Transform – Load

Objectif 1: Intégration opérationnelle :


• Partage de données entre applications avec
transformation ou non
• Flux temps réels entre applications ;
• Réplication de base de données ;
• Migration de données ;
• Lien avec des partenaires (fournisseurs clients, …)

Objectif 2: Intégration décisionnelle


• Chargement des schémas du datawarehouse
• Transformation des données entre les différentes
couches du datawarehouse
Talend Open Studio: Vues
Barre d’outils et menus

Accès aux
composants
Espace de modélisation qui permet de
Le référentiel contient tous les concevoir graphiquement les business
éléments techniques du models et les jobs. Job:
projet informations
sur le job
sélectionné.
Composant:
Configuration
du composant
sélectionné
Aperçu du code et du schéma job ou
du business model
Talend Open Studio: Vues
1. Un business model c’est quoi?

• Un business model permet de modéliser avec des composants graphiques, le


processus à mettre en place.

• Comme exemple de système décisionnel, il s’agit de mettre en place le


processus suivant :

- Spécifier les données sources (composant sources de données)


- Définir les jobs qui vont les traiter (composant Transformation) pour remplir
l’entrepôt (composant sources de données).
- Un datamart (composant sources de données) sera créé ensuite à partir de
l’entrepôt.
- Les utilisateurs (composant Acteur) accèderont à l’entrepôt ou au datamart
par le biais de leur PC grâce aux outils de restitution (composant Terminal).

Formes= objets + relations=pourquoi et quand appliquer cette tâche


Talend Open Studio: Vues
1. Un business model c’est quoi?

Décision: Représente une condition if dans le flux de données. Permet de prendre des mesures
contextuelles.

Action: Tout type d'action, notamment, transformation, traduction ou format par exemple.

Terminal: Tout type de terminal de sortie.

Données: Tout type de données numériques ou alphanumériques.

Document: Ajoute un objet document qui peut servir en entrée ou en sortie pour fournir les données à
traiter.

Input: Ajoute un objet d'entrée permettant à l'utilisateur ou l'utilisatrice de saisir ou de fournir


manuellement les données à traiter.
Talend Open Studio: Vues

1. Un business model c’est quoi?

Liste: Répertorie les données extraites sous la forme d'une liste. Cette dernière peut être paramétrée pour
ne contenir que les données d'une certaine nature.

Base de données: Ajoute un objet base de données qui peut servir en entrée ou en sortie du traitement de
données.

Acteur: Représente schématiquement tous les acteurs du décisionnel à l'implémentation technique.

Ellipse: Ajoute une forme elliptique.

Transformation: Cette forme d'engrenage est généralement utilisée pour illustrer les morceaux de code et
moulinettes développés manuellement et qui pourraient être remplacés par des Jobs Talend par exemple.
Talend Open Studio: Vues

1. Un business model c’est quoi?

Une des phases essentielles de la conception d'un Business Model consiste à mettre en place
les relations entre les formes source et cible.
Talend Open Studio: Vues

2. Un job c’est quoi?

Le Job Talend est l’implémentation technique d’un business model. Il traduit les besoins métier en
code et programmes et se charge de les exécuter.

Un job Talend est la représentation graphique d’un ou plusieurs composants reliés entre eux. Il
regroupe un ensemble de tâches et permet d’exécuter des processus de flux de données.

Les jobs peuvent être réutilisés, synchronisés entre eux et hiérarchisés en jobs principaux et sous-jobs.
Talend Open Studio: Vues

3. Un composant c’est quoi?

Un composant est un sous-ensemble d'un job qui effectue une opération définie. Par exemple : lire un
fichier, filtrer des données ou encore extraire des données.

Un composant est composé d’un extrait de code Java généré automatiquement. Le but des composants
est de gagner du temps en évitant le codage manuel pour effectuer les opérations de traitement de
données courantes.

Talend propose une multitude de composants prêts à l’emploi regroupés un répertoire. Il est possible
de développer des composants sur-mesure si Talend ne propose aucun composant répondant à votre
besoin.
Talend Open Studio: Vues

3. Une routine c’est quoi?

Talend permet d’appeler des méthodes écrites en JAVA à partir de n’importe quel autre composant (ou
presque !!), ces méthodes sont appelées routines sous Talend, et stockées sous le nœud «Code» du
designer.
Talend Open Studio: Vues

4. Les métadonnées c’est quoi?

Les métadonnées définissent l’ensemble des données et connexions traitées par le studio Talend.
Elles regroupent les informations concernant les fichiers, les bases de données, les systèmes dont vous
avez besoin pour créer vos Jobs : nom, type, emplacement, date de création, taille.
Talend Open Studio: Vues

5. Gestion des métadonnées c’est quoi?

Gérer les métadonnées =


Spécifier les sources de données + les données cibles
Talend Open Studio: Vues

5. Gestion des métadonnées c’est quoi?

Gérer les métadonnées = Spécifier les sources de données + les données cibles

• Définir les connexions aux bases de données

- Dans le Référentiel, clic droit sur Metadonnées/ Connexion BD/ Créer connexion
(Spécifier le type de la base, sa version, l serveur, le nom de la base, son utilisateur et mot de passe, jar de
connexion…)

• Récupérer les schémas des tables


- Clic droit sur la connexion
- Récupérer le schéma
- Sélectionner les tables nécessaires au projet.
- Pour chaque table, il y a le type de chaque colonne dans la base de données sources (DB Type) et sa
traduction dans Talend (Type).
Talend Open Studio: Vues

5. Gestion des métadonnées c’est quoi?

Gérer les métadonnées = Spécifier les sources de données + les données cibles

• Récupérer le schéma d’un fichier

- Clic droit sur métadonnées


- Choisir le type du fichier et le créer

En fonction de l’élément choisi des schémas, talend demande de spécifier le type de composant d’entrée ou
de sortie qui lui correspond.
Talend Open Studio: Vues

6. Un composant de transformation?

- tAggregateRow

Le tAggregateRow reçoit un flux et l'agrège en fonction d'une ou plusieurs colonnes. Pour chaque ligne
de sortie, sont fournis la clé d'agrégation et le résultat pertinent des opérations d'ensemble (min, max,
somme ...).

Il aide à fournir un ensemble de mesures basées sur des valeurs ou des calculs.
Talend Open Studio: Vues
Talend Open Studio: Vues

6. Un composant de transformation?

- tConvertType

Le tConvertType permet des conversions spécifiques à l'exécution d'un type Java Talend à un autre.

Il aide à convertir automatiquement un type Java Talend en un autre et ainsi éviter les erreurs de compilation.
Talend Open Studio: Vues

6. Un composant de transformation?

- tJoin

Le tJoin joint deux tables en faisant une correspondance exacte sur plusieurs colonnes. Il compare les colonnes du
flux principal avec les colonnes de référence du flux de recherche et génère les données du flux principal et / ou
les données rejetées.

Ce composant aide à garantir la qualité des données de toutes les données source par rapport à une source de
données de référence.
Talend Open Studio: Vues
Talend Open Studio: Vues

6. Un composant de transformation?

- tMap

Le tMap est un composant avancé, qui s'intègre comme plugin à Talend Studio.

Le tMap transforme et achemine les données de sources uniques ou multiples vers des destinations uniques ou
multiples.
Talend Open Studio: Vues
Talend Open Studio: Vues

Exemple d’application:

Important voir vidéo avec les détails des définitions

Vous aimerez peut-être aussi