Académique Documents
Professionnel Documents
Culture Documents
5.3.0
Convient la version 5.3.0. Annule et remplace toute version antrieure du Guide de prise en main. Date de publication : 25 avril 2013
Copyleft
Cette documentation est mise disposition selon les termes du Contrat Public Creative Commons (CPCC). Pour plus dinformations concernant votre utilisation de cette documentation en accord avec le Contrat CPCC, consultez : http://creativecommons.org/licenses/by-nc-sa/2.0/
Mentions lgales
Tous les noms de marques, de produits, les noms de socits, les marques de commerce et de service sont la proprit de leurs dtenteurs respectifs.
Prface
1. Informations gnrales
1.1. Objectif
Sauf mention contraire, dans ce guide, les termes "studio Talend" et "studio" font rfrence tout studio Talend contenant des spcificits Big Data.
Le prsent Guide de prise en main explique comment utiliser les fonctions spcifiques Big Data du studio Talend dans un contexte oprationnel normal. Les informations contenues dans ce document s'appliquent la version 5.3.0 du studio Talend.
Remarques et Support
2. Remarques et Support
Votre opinion nous intresse, nhsitez pas nous faire part de vos remarques, suggestions, requtes concernant la documentation ou le produit, et obtenez le support de notre quipe Talend, sur le Forum Talend (en anglais) disponible ladresse : http://talendforge.org/forum
vi
Les trois diffrents types de blocs fonctionnels sont dfinis comme suit : au moins un studio partir duquel vous pouvez crer des Jobs Big Data tirant parti de la plateforme Apache Hadoop afin de grer de grands volumes de donnes. Ces Jobs peuvent tre excuts localement ou dploys, planifis et excuts sur une grille (Grid) Hadoop via le systme d'ordonnancement Oozie de workflows intgr dans le studio. un systme d'ordonnancement de workflows intgr dans le studio, travers lequel vous pouvez dployer, planifier et excuter des Jobs Big Data dans une grille Hadoop et monitorer le statut d''excution, ainsi que les rsultats des Jobs. Une grille (Grid) Hadoop indpendante du systme Talend pour grer d'importants ensembles de donnes.
2.1.1.1. Dfinir les dtails de la connexion HDFS dans la vue Oozie scheduler
Afin de configurer les dtails de la connexion HDFS dans la vue Oozie scheduler procdez comme suit : 1. Cliquez sur la vue Oozie scheduler en bas de l'espace de modlisation graphique.
2.
3.
Renseignez les informations dans les champs correspondants et cliquez sur OK pour fermer la bote de dialogue.
Description Distribution Hadoop laquelle vous connecter. Cette distribution hberge le systme de fichiers HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop personnalise, cliquez sur le bouton pour ouvrir la bote de dialogue [Import custom definition]. Dans cette bote de dialogue, importez les fichiers Jars requis par la distribution personnalise. Pour plus d'informations, consultez la section Se connecter une distribution Hadoop personnalise.
Version de la distribution Hadoop distribution laquelle vous connecter. Cette liste disparat si vous slectionnez Custom dans la liste Hadoop distribution. Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant aux informations stockes dans Kerberos. Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.
Champ/Option Job tracker end point Oozie end point Hadoop Properties
Description URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job. Si vous devez utiliser une configuration personnalise pour la distribution d'Hadoop qui vous intresse, renseignez cette table avec la ou les proprit(s) personnaliser. Lors de l'excution, les proprits personnalises crasent celles prcdemment dfinies dans votre distribution Hadoop. Pour plus d'informations concernant les proprits requises par Hadoop, consultez la documentation de Hadoop. Les paramtres configurs dans cette table sont effectifs dans le Job pour lequel ils on t dfinis.
Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Oozie scheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernant le paramtrage des prfrences d'Oozie, consultez la section Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences. Une fois configur le chemin de dploiement dans la vue Oozie scheduler, vous pouvez planifier les excutions de votre Job, ou l'excuter immdiatement sur le serveur HDFS.
2.1.1.2. Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences
Afin de configurer les dtails de la connexion HDFS dans les paramtres des prfrences du studio, procdez comme suit : 1. 2. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la fentre [Preferences]. Dveloppez le nud Talend puis cliquez sur Oozie pour afficher la fentre des prfrences d'Oozie.
3.
Description Distribution Hadoop laquelle vous connecter. La distribution hberge le systme de fichiers HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop personnalise, vous devez cliquer sur le bouton pour ouvrir la bote de dialogue [Import custom definition]. Dans cette bote de dialogue, vous pouvez importer les fichiers Jar requis par la distribution personnalise. Pour plus d'informations, consultez section Se connecter une distribution Hadoop personnalise.
Version de la distribution Hadoop laquelle vous connecter. Cette liste disparat si vous slectionnez Custom dans la liste Hadoop distribution. Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant aux informations stockes dans Kerberos. Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.
User Name Name node end point Job tracker end point Oozie end point
Nom d'utilisateur. URI du nom du nud, le cur du systme de fichier HDFS. URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job.
Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Oozie scheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernant la vue Oozie scheduler, consultez la section Excuter un Job distance dans un serveur HDFS.
Guide de prise en main de Talend Open Studio for Big Data 9
2.
Vrifiez que la case Oozie est coche. Cela vous permet d'importer les fichiers Jar correspondants dans Oozie et HDFS. Cliquez sur OK, puis, dans la fentre d'avertissement, cliquez sur Yes pour accepter d'craser toute configuration personnalise des fichiers Jar prcdemment implmente pour cette connexion. La bote de dialogue [Custom Hadoop version definition] devient active.
3.
4. Si vous devez encore ajouter des fichiers Jar, cliquez sur le bouton [Select libraries]. pour ouvrir la bote de dialogue
10
5.
Si ncessaire, dans le champ du filtre au-dessus de la liste Internal libraries, saisissez le nom du fichier Jar utiliser, afin de vrifier si le fichier est fourni dans le studio. Slectionnez l'option External libraries pour ouvrir sa vue.
6.
7. 8.
Cliquez sur le bouton Browse... et parcourez votre systme jusqu'au fichier Jar importer. Cliquez sur OK Pour valider les modifications et fermer la bote de dialogue [Select libraries]. Le fichier Jar slectionn apparat dans la liste de l'onglet Oozie.
11
Vous pouvez rpter cette procdure pour importer d'autres fichiers Jar. Si vous souhaitez partager les fichiers Jar avec un autre studio, vous pouvez exporter cette connexion personnalise partir de la bote de dialogue [Custom Hadoop version definition], en cliquant sur le bouton .
2.
Les donnes de votre Job sont zippes, envoyes et dployes sur le serveur HDFS selon les paramtres de connexion du serveur et sont automatiquement excutes. Selon votre connectivit, l'opration peut prendre du temps. La console affiche le statut du dploiement et de l'excution du Job. Pour arrter l'excution du Job avant sa fin, cliquez sur le bouton Kill.
2.
12
3.
Dans le champ Frequency, saisissez un entier et slectionnez une unit de temps dans la liste Time Unit afin de configurer la frquence d'excution du Job. Cliquez sur le bouton [...] ct du champ Start Time pour ouvrir la bote de dialogue [Select Date & Time] et slectionnez la date, l'heure, la minute et la seconde. Cliquez sur OK pour configurer l'heure de dbut de l'excution du Job. De la mme manire, configurez l'heure de fin d'excution du Job.
4.
5.
Cliquez sur OK pour fermer la bote de dialogue et commencer les excutions planifies de votre Job. Le Job s'excute automatiquement selon les paramtres dfinis. Pour arrter le Job, cliquez sur Kill.
13
Pour afficher les informations dtailles d'un Job particulier, cliquez sur l'un des champs du Job, pour ouvrir une page spare affichant les dtails du Job.
14
15
Interface du tPigMap
Le Map Editor se compose de diffrentes zones : La zone d'entre (Input), gauche de l'diteur. Elle offre une reprsentation graphique de tous les flux de donnes (Main et Lookup). Les donnes sont regroupes dans plusieurs colonnes des schmas Input. Notez que le nom de la table reflte le nom du lien Main ou Lookup dans lespace de modlisation graphique du Job. La zone de sortie (Output), droite de l'diteur. Elle permet de mapper des donnes et des champs des tables d'entre vers les lignes de sortie correspondantes. Les deux panneaux du bas sont les descriptions des schmas d'entre et de sortie. L'onglet Schema editor offre une vue du schma, comprenant les colonnes des tables d'entre et de sortie dans leur panneau respectif.
18
L'onglet Expression editor est l'outil d'dition pour toutes les cls d'expression des donnes d'entre/de sortie ou les conditions de filtre. Le nom des tables d'entre/de sortie dans le Map Editor reflte le nom des flux entrant(s) et sortant(s) (liens Row). Cet diteur Map Editor est un diteur Talend de mapping typique, comme celui du tMap. Afin de comprendre compltement le fonctionnement d'un composant de mapping basique, il est recommand de lire le chapitre de rfrence dcrivant comment le studio Talend mappe les flux de donnes, dans le Guide utilisateur de votre studio d'intgration.
Valeur Inner Join ; Left Outer Join ; Right Outer Join ; Full Outer Join. L'option de jointure par dfaut est Left Outer Join lorsque vous n'activez pas les paramtres des options en affichant le panneau. Ces options
19
Valeur effectuent une jointure de deux flux ou plus, selon la valeur des champs communs. Lorsque plusieurs tables de rfrence (lookup) ncessitent une jointure, le flux d'entre principal active la jointure partir du premier flux Lookup et utilise le rsultat pour effectuer une jointure sur la deuxime, etc, de la mme manire, jusqu' ce que le dernier flux Lookup ait une jointure.
Join Optimization
None ; Replicated ; Skewed ; Merge. L'option de jointure par dfaut est None lorsque vous n'activez pas les paramtres des options en affichant le panneau. Ces options sont utilises pour effectuer des oprations de jointure plus efficaces. Par exemple, si vous utilisez le paralllisme des diffrentes tches Reduce, la jointure Skewed peut tre utilise pour rquilibrer les donnes traiter, si elles sont rparties de manire asymtrique. Chacune de ces options est sujette aux contraintes prsentes dans la documentation Apache concernant Pig Latin.
Custom Partitioner
Saisissez le nom du Partitioner Hadoop utiliser pour contrler le partitionnement des cls des map-sorties intermdiaires. Par exemple, saisissez, entre guillemets doubles,
org.apache.pig.test.utils.SimpleCustomPartitioner
pour utiliser le Partitioner SimpleCustomPartitioner. Le fichier Jar de ce Partitioner doit avoir t enregistr dans la table Register jar dans la vue Advanced settings du composant tPigLoad li au tPigMap utiliser. Pour plus d'informations concernant le code de ce SimpleCustomPartitioner, consultez la documentation Apache concernant Pig Latin. Increase Parallelism Saisissez le nombre de tches Reduce pour les Jobs Hadoop Map/Reduce gnrs par Pig. Pour plus d'informations concernant les fonctionnalits de paralllisation, consultez la documentation Apache concernant Pig Latin.
20
Valeur True ; False. Cette option, une fois active, vous permet de capturer les enregistrements rejets par un filtre dfini dans la zone approprie.
True ; False. Cette option, une fois active, vous permet de capturer les enregistrements rejets, par la jointure Inner Join effectue sur les flux d'entre.
21
Si vous avez cr une fonction Pig utilisateur (Pig UDF), une option Pig UDF Functions apparat automatiquement dans la liste Categories. Vous pouvez la slectionner pour diter l'expression de mapping utiliser. Vous devez utiliser l'lment Pig UDF sous le nud Code de la vue Repository pour crer une fonction Pig UDF. Mme si vous devez savoir crire une fonction Pig l'aide de Pig Latin, une fonction Pig UDF est cre de la mme manire qu'une routine Talend. Pour plus d'informations concernant les routines, consultez le chapitre dcrivant la gestion des routines, dans le Guide utilisateur de votre studio d'intgration. Pour ouvrir la vue Expression editor, 1. 2. Dans la partie infrieure de l'diteur, cliquez sur l'onglet Expression editor pour ouvrir la vue correspondante. Cliquez sur la colonne pour laquelle vous souhaitez paramtrer les expressions et modifiez ces expressions dans la vue Expression editor.
22
Si vous devez paramtrer des conditions de filtre pour un flux d'entre ou de sortie, cliquez sur le bouton puis ditez les expressions dans la zone affiche ou en utilisant la vue Expression editor ou dans la bote de dialogue [Expression Builder].
23
3.
26
2.
Dans les listes correspondantes, slectionnez la distribution Hadoop ainsi que sa version. Dans cet exemple, utilisez les paramtres par dfaut : distribution HortonWorks avec le numro de version HortonWorks Data Platform V1. Renseignez, entre guillemets doubles, le nom de l'hte ou l'adresse IP de votre serveur Templeton ainsi que le port de Templeton. Dans la liste Operation on, slectionnez Database. Dans la liste Operation, slectionnez Create. Dans le champDatabase, saisissez un nom pour la base de donnes que vous crez, talenddb_hadoop dans cet exemple. Dans le champ Username, saisissez l'identifiant d'authentification la base de donnes. Dans le champ Database location, saisissez l'emplacement du fichier de base de donnes crer dans HDFS.
3.
4. 5.
6. 7.
27
2.
Comme dans le premier tHCatalogOperation, spcifiez votre distribution et sa version, l'hte ou l'adresse IP de Templeton, ainsi que son port. Dans la liste Operation on, slectionnez Table. Dans la liste Operation, slectionnez Create. Lorsque vous travaillez sur une table, HCatalog vous demande de dfinir un schma pour cette table. Ce schma, cependant, n'intervient pas dans les oprations suivantes, vous pouvez donc simplement cliquer sur le bouton [...] et ajouter une colonne au schma. Donnez-lui un nom diffrent de celui que vous allez utiliser pour la colonne de partition.
3.
4.
Spcifiez la mme base de donnes et le mme identifiant que dans le premier composant tHCatalogOperation. Dans le champ Table, saisissez un nom pour la table crer, weblog dans cet exemple. Cochez la case Set partitions et cliquez sur le bouton [...] ct du champ Edit schema afin de configurer une partition et un schma de partition. Notez que le schma de partition ne doit contenir aucun nom de colonne dfini dans le schma de la table. Dans cet exemple, la colonne du schma de partition se nomme ipaddresses.
5. 6.
28
2.
3.
4. 5.
2.
29
3.
Cliquez sur le bouton [...] pour vrifier que le schma a bien t propag depuis le composant prcdent. Si ncessaire, cliquez sur le bouton Sync columns afin de rcuprer le schma. Pour les renseignements suivants, utilisez les mmes informations que dans le premier Job : Distribution et version de Hadoop Hte ou adresse IP de Templeton et numro de son port Table de la base de donnes HCatalog et identifiant
4.
5. 6. 7. 8.
Dans le champ NameNode URI, saisissez l'URI du NameNode de HDFS. Dans le champ File name, spcifiez le chemin d'accs et le nom du fichier de sortie dans HDFS. Dans la liste Action, slectionnez Create poru crer le fichier, ou Overwrite si le fichier existe dj. Dans le champ Partition, saisissez la paire de partition nom-valeur, ipaddresses='192.168.1.15' dans cet exemple. Dans le champ File location, saisissez l'emplacement o sauvegarder les donnes, /user/hcat/access_log dans cet exemple.
9.
30
2.
Cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema] et dfinir le schma d'entre. Dans cet exemple, copiez simplement le schma du composant tApacheLogInput ou tHCatalogOutput. Pour toutes les autres options, utilisez les mmes paramtres que dans le composant tHCatalogOutput. Dans la vue Basic settings du tLogRow, slectionnez le mode Vertical afin d'afficher pour chaque ligne la cl et la valeur, l'excution du Job.
3. 4.
31
32
2.
Dans la vue Basic settings du composant tPigFilterRow, cliquez sur le bouton [+] pour ajouter une ligne la table Filter configuration et configurez les paramtres de filtre, afin de supprimer les enregistrements contenant le code 404 et de passer les autres enregistrements dans le flux de sortie : Dans le champ Logical, slectionnez AND. Dans le champ Column, slectionnez la colonne code du schma. Cochez la case NOT Dans le champ Operator, slectionnez equal. Dans le champ Value, saisissez 404.
3.
Dans la vue Basic settings du tPigFilterColumns, cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema]. Dans le panneau Output, configurez deux colonnes, host et count, stockant les informations des adresses IP ainsi que le nombre de visites sur le site Web, respectivement.
33
4. 5.
Dans la vue Basic settings du composant tPigAggregate, cliquez sur le bouton Sync columns afin de rcuprer le schma du composant prcdent et propagez-le au composant suivant. Configurez les paramtres suivants afin de compter le nombre d'occurrences de chaque adresse IP : Dans la zone Group by, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Column. Dans la zone Operations, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Additional Output Column, slectionnez count dans la fonction Function et slectionnez la colonne host dans le champ Input Column.
6.
Dans la vue Basic settings du composant tPigSort, configurez les paramtres de tri, afin de trier les donnes passer : Cliquez sur le bouton [+] pour ajouter une ligne la table Sort key.
34
Dans le champ Column, slectionnez count pour dfinir la colonne count comme cl. Dans le champ Order, slectionnez DESC pour trier les donnes en ordre descendant.
7.
Dans la vue Basic settings du tPigStoreResult, configurez les proprits du composant afin de charger les donnes de rsultats l'emplacement spcifi dans le systme Hadoop : Vrifiez le schma, rcuprez-le du composant prcdent si ncessaire. Dans le champ Result file, saisissez le chemin d'accs au fichier de rsultats. Dans la liste Store function, slectionnez PigStorage. Si ncessaire, cochez la case Remove result directory if exists.
35
2.
Pour les options suivantes, utilisez les mmes paramtres que dans le Job prcdent : Le schma doit contenir deux colonnes, host et count, selon la structure du fichier charg dans HDFS via la chane Pig dans le Job prcdent. La distribution et la version de Hadoop, HortonWorks et HortonWorks Data Platform V1. URI du NameNode, hdfs://talend-hdp:8020/.
3. 4. 5. 6.
Dans le champ User name, saisissez un identifient pouvant accder au fichier dans HDFS. Dans le champ File Name, saisissez le chemin d'accs et le nom du fichier dans HDFS. Dans la liste Type, slectionnez le type de fichier lire, Text File dans cet exemple. Dans la vue Basic settings du tLogRow, slectionnez l'option Table.
36
Aprs avoir configur les quatre Jobs, vous pouvez les excuter un par un. Aprs russite de l'excution du dernier Job, la console systme affiche les adresses IP ainsi que les appels de services correctement excuts et le nombre de visites sur le site Web pour chaque adresse IP.
37