Vous êtes sur la page 1sur 23

Principes de base de Talend Studio

Création d'un Job


Présentation Un Job Talend est un ensemble d'éléments qui forment des routines et
Fenêtre des programmes assurant la gestion des flux de données et l'intégration
principale des données. Une fois le projet en place, vous êtes prêt à créer le Job
Nouveau Job qui manipulera les données clients. Suivez les étapes ci-dessous.
Examinez la fenêtre principale du studio Talend. (Cliquez sur une
zone de l'illustration ci-dessous pour afficher les informations
correspondantes) :

Pour la plupart, ces zones sont alimentées uniquement lorsqu'un


Job est ouvert.
1. Pour créer votre premier Job, dans l'arborescence Repository,
cliquez-droit sur Job Designs, puis cliquez sur Create job. La
fenêtre New Job s'affiche :
Prise en main de Talend Open Studio

2. Saisissez « UpperCase » dans la zone Name, ainsi que le texte


de votre choix dans les zones Purpose et Description :
Principes de base de Talend Studio

Bien que seul le nom soit requis, il est conseillé de remplir


les champs restants pour faciliter la documentation du Job. 3.
Cliquez sur Finish pour terminer la tâche. Le nouveau Job
s'ouvre :

Remarquez les modifications dans l'espace de modélisation,


la Palette et les vues de configuration.
Etape Une fois le Job en place, vous pouvez commencer à ajouter la logique
Prise en main de Talend Open Studio

suivante qui permettra d'identifier votre source de données.


Principes de base de Talend Studio

Lecture des entrées


Présentation Vous créez des Jobs Talend à partir de composants individuels
Ajouter un qui exécutent des tâches spécifiques. L'exemple de cette leçon
composant permet de lire les lignes d'un fichier CSV contenant des données
clients fictives. Suivez les étapes ci-dessous pour ajouter un
composant permettant de lire le fichier d'entrée.
1. Dans la Palette, cliquez sur File, puis sur Input, et faites
défiler vers le bas jusqu'à ce que vous trouviez le
composant tFileInputDelimited :

Dans la Palette, les composants sont regroupés par


fonction. Ce composant permet de lire les entrées à partir
d'un fichier délimité.
2. Dans la Palette, cliquez sur tFileInputDelimited, puis cliquez
dans l'espace de modélisation pour placer le composant :

Notez que vous cliquez et placez le composant sans avoir à le

14
Prise en main de Talend Open Studio

faire glisser. Remarquez également le triangle jaune avec un


point d'exclamation (!) au-dessus du composant, il indique
un avertissement.
3. Placez le pointeur de la souris sur le triangle pour ouvrir une
fenêtre comportant des informations sur le problème.
Configurer 1. Double-cliquez sur le composant pour ouvrir la
vue Component sous l'espace de modélisation :

C'est ici que vous indiquez toutes les informations nécessaires


pour que le composant exécute ses tâches. Notez que les
onglets de gauche, tels que Advanced settings et View, vous
permettent d'accéder à d'autres paramètres de configuration.
2. Près de la zone File name/Stream, cliquez sur le bouton [...]
pour rechercher le fichier d'entrée :

3. Accédez au fichier Custs.csv sous C:\Student Files,


puis cliquez sur Open :
4. Dans la vue Component, changez la valeur de la zone Field
Separator en "," (y compris les guillemets) pour indiquer
Principes de base de Talend Studio

qu'une virgule sépare les valeurs des colonnes dans le


fichier, puis changez la valeur de la zone Header en 1 pour
indiquer que la première ligne du fichier d'entrée contient les
Définir le noms des colonnes.
schéma
1. Cliquez sur le bouton Edit schema symbolisé par [...].
La fenêtre Schema s'affiche :

C'est ici que vous définissez le format des données du


fichier Custs.csv.
2. Cliquez sur le bouton marqué d'un signe plus pour ajouter
une nouvelle colonne au schéma :
Prise en main de Talend Open Studio

3. Remplacez newColumn par « First », puis saisissez « 15 »


dans la colonne Length :

4. Ajoutez les cinq autres colonnes suivantes :


• Last, 15
• Number, 10
• Street, 20
• City, 20
• State, 2
Au final, votre schéma doit ressembler à ceci :

Comme vous pouvez le voir à partir de ce schéma, le fichier


Custs.csv contient des informations d'identité et d'adresse de
Principes de base de Talend Studio

base pour un groupe de clients fictifs.


Définir 1. Cliquez sur OK pour finaliser le schéma. La vue
l'affichage Component doit maintenant ressembler à ceci :
Lire les
avertissements

2. Cliquez sur l'onglet View à gauche, puis saisissez «


Customers File » dans la zone Label format :

Cet ensemble de paramètres affecte la manière dont le


composant s'affiche dans l'espace de modélisation. Notez
que le texte que vous avez saisi ici est dupliqué dans
l'espace de modélisation :

Cliquez sur la vue Problems, puis cliquez pour développer


Warnings :
Prise en main de Talend Open Studio

La vue Problems est l'emplacement où vous pouvez trouver des


informations sur les problèmes du Job ou des différents composants.
Dans ce cas, les avertissements vous expliquent que votre composant
Etape suivante d'entrée doit être relié à une sortie.
L'étape suivante consiste à envoyer les données du fichier d'entrée
vers un composant qui met les caractères en majuscules.
Principes de base de Talend Studio

Transformation des données


Présentation Votre Job UpperCase possède un composant pour fournir les données
d'entrée. Vous devez maintenant ajouter un composant pour assurer
la transformation : conversion du code des Etats de minuscules en
majuscules.
Ajouter un 1. Saisissez « tMap » dans la zone de texte près du haut de
composant la Palette, puis cliquez sur le bouton en forme de torche
ou appuyez sur Entrée :

Vous pouvez utiliser la fonction de recherche de la Palette pour


accéder rapidement à un composant, même si vous ne
vous souvenez que d'une partie du nom du composant.
2. Placez le composant tMap dans l'espace de modélisation, à
droite du composant existant :

Il est conseillé de disposer vos composants dans l'espace de


modélisation de façon à représenter le flux de données, de la
gauche vers la droite et du haut vers le bas. Le composant tMap
Se connecter établit une correspondance entre l'entrée et la sortie. Il a aussi la
capacité d'assurer différentes transformations des données. Il
sera bien souvent la pièce centrale dans la plupart de vos Jobs
Talend Data Integration.
Cliquez-droit sur le composant Customers File, cliquez sur Row, puis
sur Main, et enfin cliquez sur le composant tMap. Vous établissez ainsi
une connexion entre les deux composants.
Prise en main de Talend Open Studio

Une ligne (ou un lien) permet aux données de circuler d'un


composant à un autre. La flèche indique le sens du flux. Remarquez
l'avertissement affiché pour le composant tMap. Le composant
Composant tMap transforme les données ; il faut donc préciser une destination
de sortie de sortie.
1. Accédez au composant tFileOutputDelimited dans la
Palette, puis placez-le dans l'espace de modélisation :

Mapper les
Comme l'indique son nom, un composant tFileOutputDelimited
écrit des lignes vers un fichier au format délimité.
2. Pour créer une connexion, cliquez-droit sur tMap et faites
glisser ce composant vers tFileOutputDelimited :

Cette fenêtre vous demande de donner un nom à la


connexion de sortie.

3. Saisissez « CappedOut » (les espaces sont interdits) dans la


zone de texte, puis cliquez sur OK.

La nouvelle connexion est une ligne de type Main, tout comme


la connexion d'entrée.
1. Double-cliquez sur le composant tMap pour ouvrir la fenêtre de
Principes de base de Talend Studio

lignes configuration :
Construire
l'expression

Dans la mesure où le composant tMap offre beaucoup de


fonctionnalités, cette fenêtre comporte beaucoup d'éléments.
Repérez la table de gauche, libellée row1, et la table de
droite, libellée CappedOut. Ces tables représentent le
schéma des connexions d'entrée et de sortie, les noms
correspondant aux liens. Le schéma pour row1 est copié du
composant d'entrée et doit vous paraître familier.
Le but de ce Job est de transmettre toutes les données de
row1 vers CappedOut afin de mettre en majuscules les codes
des Etats.
2. Cliquez en tenant la touche Maj enfoncée pour
sélectionner toutes les colonnes de row1, puis faites-les
glisser vers CappedOut :

Prenez note tout d'abord des flèches indiquant le mapping des


colonnes d'un schéma à l'autre. Ensuite, dans la table
CappedOut, remarquez l'Expression, qui définit les données,
et donc les noms des colonnes. A ce stade, les données et les
noms de colonnes correspondent parfaitement à ceux de la
table row1 (l'expression row1.name spécifie les données de la
colonne name de row1).
1. Puisque vous souhaitez modifier les données de la colonne
State, cliquez sur row1.State dans CappedOut, puis cliquez sur
le bouton [...] qui apparaît. L'outil Expression Builder s'ouvre :
Prise en main de Talend Open Studio

L'outil Expression Builder vous permet de construire des


expressions en utilisant la syntaxe d'expression Java. Vous
pouvez saisir l'expression vous-même, mais si vous n'êtes pas
très à l'aise avec la syntaxe, cet outil facilite le processus.
2. Dans la liste Categories, cliquez sur StringHandling, puis
cliquez sur la fonction UPCASE dans la liste Functions :

Cette zone de l'outil Expression Builder vous permet d'accéder


facilement à toute une variété de fonctions. La zone Help vous
donne une explication détaillée de chaque fonction.
3. Double-cliquez sur UPCASE pour insérer la syntaxe suivante
dans l'expression :

Cette fonction convertit en majuscules la chaîne entre


parenthèses. Dans l'exemple par défaut, la fonction contient la
chaîne littérale « Hello ». Vous cherchez non pas à convertir
une chaîne littérale, mais le contenu de la colonne State.
4. Remplacez « Hello » dans l'expression par row1.State :

Désormais, l'expression agit sur le texte approprié.


5. Cliquez sur Ok. La nouvelle expression apparaît dans la
table CappedOut :
Principes de base de Talend Studio

Enregistrer
Configurer la
sortie
1. Vous avez fini de configurer votre composant, vous pouvez
donc cliquer sur Ok. Un message d'invite s'affiche :

Vous avez apporté des modifications au schéma de la connexion


de sortie. Ce message vous demande si vous souhaitez appliquer
ces modifications dans le schéma du composant à l'autre
extrémité de la connexion.
2. Cliquez sur Yes.
1. Double-cliquez sur le composant de sortie pour ouvrir la
vue Component :
2. Remplacez le nom du fichier de sortie par "C:/Student
Files/CappedOut.csv", choisissez la virgule comme séparateur
dans la zone Field Separator, puis cochez la case Include
Header pour inclure les noms de colonnes dans la première
ligne du fichier de sortie :

3. Cliquez sur le bouton Edit schema :


Prise en main de Talend Open Studio

Le schéma du composant correspond au schéma de la connexion


d'entrée (CappedOut).
Etape 4. Il n'y a aucune modification à apporter, alors cliquez sur OK.
suivante
Votre Job est terminé. Vous êtes désormais prêt à l'exécuter.
Principes de base de Talend Studio

Exécution d'un Job


Présentation Votre Job est terminé. Vous êtes désormais prêt à l'exécuter et
Exécuter à étudier les résultats.
1. Cliquez sur la vue Run :

Cette fenêtre vous permet d'exécuter un Job. Remarquez


que, dans l'espace de modélisation, le nom du Job dans
l'onglet du haut est précédé d'un astérisque. Cela signifie
que des modifications n'ont pas été enregistrées.
2. Cliquez sur le bouton Run :

Le studio Talend enregistre le Job, le construit et l'exécute. Le


Job se termine rapidement, affichant des messages dans la
vue Run :
Prise en main de Talend Open Studio

Remarquez également que des statistiques relatives à


l'exécution du Job s'affichent dans l'espace de modélisation :

3. Cliquez sur Open Files dans le menu File pour accéder au


fichier de sortie (CappedOut.csv) et l'ouvrir. Si vous y êtes
invité, choisissez l'application Notepad ou WordPad pour
ouvrir le fichier. Notez que tous les codes des Etats se
présentent désormais sous forme de chaînes en majuscules
(ils ont été affichés en rouge afin de les faire ressortir) :

Etape
suivante
Félicitations ! Vous venez de créer et d'exécuter votre premier Job
Talend Data Integration. Comme nous l'avons déjà dit, le composant
tMap propose un grand nombre de fonctionnalités de
transformation. Votre prochaine étape consiste donc à découvrir
certains types de transformations..
Principes de base de Talend Studio

Combinaison des colonnes


Présentation Le composant tMap permet d'exécuter diverses fonctions de mapping
Modifier le et de transformation des données. Imaginez que dans votre magasin
schéma de données de destination, le nom et le prénom doivent être combinés
Combiner les en une seule colonne. Pour ce faire, suivez les étapes ci-dessous.
colonnes
3. Double-cliquez sur le composant tMap.
4. Cliquez sur l'expression row1.Last dans la table CappedOut :

Remarquez que la même colonne est sélectionnée dans l'éditeur


de schémas en bas de la fenêtre :

Comme vous allez combiner les données de deux colonnes


en une seule, cette colonne n'est plus nécessaire.
5. Cliquez sur le bouton Remove selected items, marqué d'un X
rouge, pour supprimer la colonne Last du schéma de sortie :

Notez que la colonne a également disparu de la table


CappedOut en haut de la fenêtre.
1. Faites glisser la colonne Last de la table row1 située à gauche,
pour la déplacer dans la colonne First de la table CappedOut :
Prise en main de Talend Open Studio

Notez que l'expression contient désormais les références


aux deux colonnes de la table row1.
2. Insérez un signe plus (« + ») entre les deux références :

Comme les deux colonnes contiennent des chaînes, le signe


plus concatène les valeurs.
3. Pour inclure un espace entre le nom et le prénom, insérez " "
+ après le premier signe plus.
4. Dans l'éditeur de schémas en bas de la fenêtre, cliquez
sur First et remplacez-le par « Name » :

Le nom de la colonne du schéma de la table CappedOut


est désormais Name au lieu de First :

5. Cliquez sur Ok pour enregistrer vos modifications,


Exécuter puis propagez-les quand vous y êtes invité.
Etape
suivante 2. Exécutez le Job, puis observez les messages sur la console.
3. Ouvrez le fichier de sortie pour examiner les résultats.
Vous avez atteint la fin de cette leçon. Faites les exercices pour
renforcer vos connaissances des sujets abordés. Important :
vous devez faire les exercices pour passer au tutoriel suivant.
Principes de base de Talend Studio

Exercices
Présentation Ces exercices vous aident à bien comprendre le rôle de tMap dans
la transformation des données. Cliquez sur Solutions pour obtenir
les solutions possibles de ces exercices.
Combiner les Modifiez le Job UpperCase pour que la sortie combine les numéros et
colonnes les noms de rue en une seule colonne intitulée Address. Conseil :
consultez la leçon Combinaison des colonnes pour voir comment vous
avez déjà réalisé cette action.
Ajouter une Modifiez à nouveau le Job pour ajouter à la sortie une nouvelle
colonne colonne nommée « id » contenant une valeur d'index générée
automatiquement. Conseil : lorsque vous ajoutez la colonne à partir
de la fenêtre de configuration de tMap, ouvrez l'outil Expression
Builder et recherchez parmi les fonctions de la catégorie Numeric
celle qui génère un numéro séquentiel.