TalendOpenStudio BigData GettingStarted 5.3.0 FR

Talend Open Studio for Big Data
Guide de prise en main
5.3.0
Talend Open Studio for Big Data
Convient la version 5.3.0. Annule et remplace toute version antrieure du Guide de prise en main. Date de publication : 25 avril 2013
Copyleft
Cette documentation est mise disposition selon les termes du Contrat Public Creative Commons (CPCC). Pour plus dinformations concernant votre utilisation de cette documentation en accord avec le Contrat CPCC, consultez : http://creativecommons.org/licenses/by-nc-sa/2.0/
Mentions lgales
Tous les noms de marques, de produits, les noms de socits, les marques de commerce et de service sont la proprit de leurs dtenteurs respectifs.
Table des matires

Prface ................................................. v
1. Informations gnrales . . . . . . . . . . . . . . . . . . . . . . . v 1.1. Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 1.2. Public vis . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 1.3. Conventions typographiques . . . . . . . . . . v 2. Remarques et Support . . . . . . . . . . . . . . . . . . . . . . . vi
chapitre 1. Introduction aux solutions Big Data de Talend ................................ 1

1.1. Hadoop et studio Talend . . . . . . . . . . . . . . . . . . . . 2 1.2. Architecture fonctionnelle des solutions Big Data de Talend . . . . . . . . . . . . . . . . . . . . 2
chapitre 2. Gestion des Jobs dans le studio Talend ........................................ 5

2.1. Excuter un Job distance dans un serveur HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.1. Configurer les informations de la connexion HDFS . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.2. Excuter un Job sur le serveur HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.3. Planifier les excutions d'un Job . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.4. Monitorer le statut des excutions de Job . . . . . . . . . . . . . . . . . . . . . . . . 14
chapitre 3. Mapping de flux Big Data ...... 17

3.1. Interface du tPigMap . . . . . . . . . . . . . . . . . . . . . . 3.2. Prsentation du fonctionnement du tPigMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Configurer les oprations de jointure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Capturer les enregistrements rejets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. Editer les expressions . . . . . . . . . . . . . 18 19 19 20 21
annexe A. Exemple de Jobs Big Data....... 25

A.1. Rassembler des informations concernant le trafic Web l'aide d'Hadoop. . . . . . 26 A.1.1. Dcouvrir le scnario . . . . . . . . . . . . . 26 A.1.2. Transformer le scnario en Jobs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Guide de prise en main de Talend Open Studio for Big Data
Prface
1. Informations gnrales
1.1. Objectif
Sauf mention contraire, dans ce guide, les termes "studio Talend" et "studio" font rfrence tout studio Talend contenant des spcificits Big Data.
Le prsent Guide de prise en main explique comment utiliser les fonctions spcifiques Big Data du studio Talend dans un contexte oprationnel normal. Les informations contenues dans ce document s'appliquent la version 5.3.0 du studio Talend.
1.2. Public vis

Ce guide sadresse aux utilisateurs et aux administrateurs du studio Talend.
Dans ce document, linterface prsente par le biais des captures dcran peut tre lgrement diffrente de la vtre.
1.3. Conventions typographiques

Ce guide utilise les conventions typographiques suivantes : texte en gras : boutons et champs dune fentre ou dune bote de dialogue, touches du clavier, menus et options des menus ; texte en [gras] : titre des fentres, assistants et botes de dialogue ; texte en courier : paramtres systme renseigns par lutilisateur ; texte en italique : nom des fichiers, schmas, colonnes, lignes ou variables dont il est question dans les exemples utiliss. Licne introduit un paragraphe apportant une information supplmentaire sur un point important. Elle introduit galement les commentaires relatifs un tableau ou une image. Licne introduit un message apportant une information relative aux modalits dexcution, ou des recommandations particulires. Elle est galement utilise pour attirer lattention de lutilisateur sur certaines informations ou situations particulirement importantes.
Remarques et Support
2. Remarques et Support
Votre opinion nous intresse, nhsitez pas nous faire part de vos remarques, suggestions, requtes concernant la documentation ou le produit, et obtenez le support de notre quipe Talend, sur le Forum Talend (en anglais) disponible ladresse : http://talendforge.org/forum
vi
Chapitre 1. Introduction aux solutions Big Data de Talend

Les collections de donnes des entreprises sont de plus en plus volumineuses et complexes, particulirement l're d'Internet. Il est de plus en plus difficile de traiter des ensembles de donnes si volumineux et si complexes, l'aide des outils de gestion traditionnels disponibles. Pour rpondre cette difficult, une nouvelle plateforme d'outils "Big Data" a t cre, afin de grer de manire cohrente de trs grandes quantits de donnes, comme la plateforme Apache Hadoop Big Data Platform. Construit sur les solutions d'intgration de donnes de Talend, les solutions Big Data de Talend fournissent un outil puissant permettant aux utilisateurs d'accder aux donnes volumineuses, de les transformer, dplacer et de les synchroniser, en tirant parti de la plateforme Apache Hadoop Big Data et en facilitant l'utilisation de cette plateforme. Ce guide traite uniquement des fonctionnalits Big Data de votre studio Talend. Par consquent, avant de commencer travailler avec des Jobs Big Data dans le studio, il recommand de lire le Guide utilisateur afin de vous familiariser avec votre Studio.
Hadoop et studio Talend
1.1. Hadoop et studio Talend

Lorsque des spcialistes en informatique parlent de Big Data, ils font gnralement rfrence des ensembles de donnes si volumineux et si complexes qu'ils ne peuvent tre traits par les outils traditionnels de gestion de donnes. Ces grands volumes de donnes sont produits pour de nombreuses raisons. Des flux de donnes peuvent tre gnrs automatiquement (rapports, logs, vidosurveillance, etc.) ou peuvent rsulter d'analyses dtailles du comportement des clients (donnes relatives la consommation), des recherches scientifiques (le grand collisionneur de hadrons) ou de la consolidation de diffrentes sources de donnes. Ces rfrentiels de donnes, contenant souvent des ptabytes et exabytes de donnes, sont difficiles analyser, car les systmes traditionnels de bases de donnes ne sont pas assez puissants. Les Big Data doivent tre analyses dans des environnements massivement parallles, dans lesquels la puissance de calcul est rpartie entre des milliers d'ordinateurs et les rsultats transfrs dans un emplacement central. La plateforme Open source Hadoop est devenue la plus utilise pour l'analyse de donnes volumineuses. Ce systme de fichiers distribu divise les informations en plusieurs blocs de donnes et rpartit ces blocs dans diffrents systmes du rseau (cluster Hadoop). En rpartissant cette puissance de calcul, Hadoop assure un haut niveau de disponibilit et de redondance. Un "nud matre" gre le stockage de fichiers ainsi que les requtes. Hadoop est une plateforme de calcul trs puissante permettant de travailler avec des donnes volumineuses. Elle accepte les requtes externes, les rpartit dans des ordinateurs individuels dans le cluster puis les excute en parallle sur les nuds individuels. Les rsultats sont retourns vers un emplacement central, o ils peuvent tre analyss. Cependant, afin de tirer parti des avantages de Hadoop, les analystes de donnes doivent trouver un moyen de charger les donnes dans Hadoop et de les extraire de ce systme Open source. C'est l qu'intervient le studio Talend. Construit sur les solutions d'intgration de donnes de Talend, le studio permet aux utilisateurs de grer facilement des Big Data en tirant parti de Hadoop, de ses bases de donnes ou de ses technologies, notamment HBase, HCatalog, HDFS, Hive, Oozie et Pig. Le studio Talend est un environnement de dveloppement graphique permettant les interactions avec des sources et des cibles Big Data, sans ncessit d'apprendre ou d'crire du code. Une fois qu'une connexion Big Data est configure, le code sous-jacent est automatiquement gnr et peut tre dploy en tant que service, excutable ou Job standalone s'excutant nativement dans votre cluster Big Data - HDFS, Pig, HCatalog, HBase, Sqoop ou Hive. Les solutions Big Data de Talend fournissent un support complet de toutes les plateformes principales de Big Data. Les composants Big Data de Talend fonctionnent avec les distributions majeures de Hadoop, notamment Cloudera, Greenplum, Hortonworks et MapR. Talend offre un support cl en main d'un grand nombre de plateformes Big Data des principaux vendeurs d'appliances, comme Greenplum, Netezza, Teradata et Vertica.
1.2. Architecture fonctionnelle des solutions Big Data de Talend

L'architecture fonctionnelle des solutions de Big Data de Talend est un modle architectural identifiant les fonctions, les diffrentes interactions et les ressources informatiques ncessaires. Larchitecture globale isole les diffrentes fonctionnalits et les schmatise sous forme de blocs fonctionnels. Le diagramme suivant illustre les principaux blocs fonctionnels concernant la gestion des Big Data dans le studio.
Architecture fonctionnelle des solutions Big Data de Talend
Les trois diffrents types de blocs fonctionnels sont dfinis comme suit : au moins un studio partir duquel vous pouvez crer des Jobs Big Data tirant parti de la plateforme Apache Hadoop afin de grer de grands volumes de donnes. Ces Jobs peuvent tre excuts localement ou dploys, planifis et excuts sur une grille (Grid) Hadoop via le systme d'ordonnancement Oozie de workflows intgr dans le studio. un systme d'ordonnancement de workflows intgr dans le studio, travers lequel vous pouvez dployer, planifier et excuter des Jobs Big Data dans une grille Hadoop et monitorer le statut d''excution, ainsi que les rsultats des Jobs. Une grille (Grid) Hadoop indpendante du systme Talend pour grer d'importants ensembles de donnes.
Chapitre 2. Gestion des Jobs dans le studio Talend

Ce chapitre introduit les procdures de gestion de Jobs dans votre studio Talend, permet de tirer parti de la plateforme Big Data de Hadoop et de travailler avec des ensembles de donnes volumineux. Pour des procdures gnrales de cration, excution et gestion de Jobs Talend d'intgration de donnes, consultez le Guide utilisateur de votre studio Talend. Avant de commencer travailler sur un Job dans le studio, vous devez vous tre familiaris avec son interface graphique. Pour plus d'informations, consultez les lments relatifs l'interface graphique dans l'annexe du Guide utilisateur de votre studio d'intgration.
Excuter un Job distance dans un serveur HDFS
2.1. Excuter un Job distance dans un serveur HDFS

Votre studio Talend fournit un Oozie scheduler, une fonctionnalit qui vous permet de planifier les excutions d'un Job que vous avez cr ou de l'excuter directement sur un serveur distant Hadoop Distributed File System (HDFS) et de monitorer le statut d'excution de votre Job. Plus plus d'informations concernant Apache Oozie et Hadoop, consultez http://oozie.apache.org/ et http://hadoop.apache.org/ (en anglais).
Si la vue Oozie scheduler ne s'affiche pas, cliquez sur Window > Show view et slectionnez Talend Oozie dans la bote de dialogue [Show view] afin de l'afficher dans la zone des onglets de configuration.
2.1.1. Configurer les informations de la connexion HDFS

Avant d'excuter ou de planifier les excutions d'un Job sur un serveur HDFS, vous devez d'abord configurer les dtails de la connexion HDFS, soit dans la vue Oozie scheduler, soit dans les prfrences du studio, puis spcifier l'emplacement o sera dploy votre Job.
2.1.1.1. Dfinir les dtails de la connexion HDFS dans la vue Oozie scheduler
Afin de configurer les dtails de la connexion HDFS dans la vue Oozie scheduler procdez comme suit : 1. Cliquez sur la vue Oozie scheduler en bas de l'espace de modlisation graphique.
2.
Cliquez sur Setting pour ouvrir la bote de dialogue de la connexion.
Configurer les informations de la connexion HDFS
Les paramtres de connexion affichs ci-dessus sont donns titre d'exemple.
3.
Renseignez les informations dans les champs correspondants et cliquez sur OK pour fermer la bote de dialogue.
Champ/Option Hadoop distribution
Description Distribution Hadoop laquelle vous connecter. Cette distribution hberge le systme de fichiers HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop personnalise, cliquez sur le bouton pour ouvrir la bote de dialogue [Import custom definition]. Dans cette bote de dialogue, importez les fichiers Jars requis par la distribution personnalise. Pour plus d'informations, consultez la section Se connecter une distribution Hadoop personnalise.
Hadoop version Enable kerberos security
Version de la distribution Hadoop distribution laquelle vous connecter. Cette liste disparat si vous slectionnez Custom dans la liste Hadoop distribution. Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant aux informations stockes dans Kerberos. Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.
User Name Name node end point
Nom d'utilisateur. URI du nom du nud, le cur du systme de fichier HDFS.

Guide de prise en main de Talend Open Studio for Big Data 7
Champ/Option Job tracker end point Oozie end point Hadoop Properties
Description URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job. Si vous devez utiliser une configuration personnalise pour la distribution d'Hadoop qui vous intresse, renseignez cette table avec la ou les proprit(s) personnaliser. Lors de l'excution, les proprits personnalises crasent celles prcdemment dfinies dans votre distribution Hadoop. Pour plus d'informations concernant les proprits requises par Hadoop, consultez la documentation de Hadoop. Les paramtres configurs dans cette table sont effectifs dans le Job pour lequel ils on t dfinis.
Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Oozie scheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernant le paramtrage des prfrences d'Oozie, consultez la section Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences. Une fois configur le chemin de dploiement dans la vue Oozie scheduler, vous pouvez planifier les excutions de votre Job, ou l'excuter immdiatement sur le serveur HDFS.
2.1.1.2. Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences
Afin de configurer les dtails de la connexion HDFS dans les paramtres des prfrences du studio, procdez comme suit : 1. 2. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la fentre [Preferences]. Dveloppez le nud Talend puis cliquez sur Oozie pour afficher la fentre des prfrences d'Oozie.
Les paramtres Oozie affichs ci-dessus sont donns titre d'exemple.
3.
Renseignez les informations dans les champs correspondants :
Champ/Option Hadoop distribution
Description Distribution Hadoop laquelle vous connecter. La distribution hberge le systme de fichiers HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop personnalise, vous devez cliquer sur le bouton pour ouvrir la bote de dialogue [Import custom definition]. Dans cette bote de dialogue, vous pouvez importer les fichiers Jar requis par la distribution personnalise. Pour plus d'informations, consultez section Se connecter une distribution Hadoop personnalise.
Hadoop version Enable kerberos security
Version de la distribution Hadoop laquelle vous connecter. Cette liste disparat si vous slectionnez Custom dans la liste Hadoop distribution. Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant aux informations stockes dans Kerberos. Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.
User Name Name node end point Job tracker end point Oozie end point
Nom d'utilisateur. URI du nom du nud, le cur du systme de fichier HDFS. URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job.
Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Oozie scheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernant la vue Oozie scheduler, consultez la section Excuter un Job distance dans un serveur HDFS.
Guide de prise en main de Talend Open Studio for Big Data 9
Se connecter une distribution Hadoop personnalise

Dans la bote de dialogue [Import custom definition], procdez comme suit pour importer les fichiers Jar requis : 1. Slectionnez l'option Import from existing version (Importer depuis une version existante) ou Import from zip (Importer depuis un fichier .zip) pour importer les fichiers Jar requis depuis la source approprie.
2.
Vrifiez que la case Oozie est coche. Cela vous permet d'importer les fichiers Jar correspondants dans Oozie et HDFS. Cliquez sur OK, puis, dans la fentre d'avertissement, cliquez sur Yes pour accepter d'craser toute configuration personnalise des fichiers Jar prcdemment implmente pour cette connexion. La bote de dialogue [Custom Hadoop version definition] devient active.
3.
4. Si vous devez encore ajouter des fichiers Jar, cliquez sur le bouton [Select libraries]. pour ouvrir la bote de dialogue
10
5.
Si ncessaire, dans le champ du filtre au-dessus de la liste Internal libraries, saisissez le nom du fichier Jar utiliser, afin de vrifier si le fichier est fourni dans le studio. Slectionnez l'option External libraries pour ouvrir sa vue.
6.
7. 8.
Cliquez sur le bouton Browse... et parcourez votre systme jusqu'au fichier Jar importer. Cliquez sur OK Pour valider les modifications et fermer la bote de dialogue [Select libraries]. Le fichier Jar slectionn apparat dans la liste de l'onglet Oozie.
11
Excuter un Job sur le serveur HDFS
Vous pouvez rpter cette procdure pour importer d'autres fichiers Jar. Si vous souhaitez partager les fichiers Jar avec un autre studio, vous pouvez exporter cette connexion personnalise partir de la bote de dialogue [Custom Hadoop version definition], en cliquant sur le bouton .
2.1.2. Excuter un Job sur le serveur HDFS

Pour excuter un Job sur le serveur HDFS, procdez comme suit : 1. Dans le champ Path, dans l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveur HDFS. Cliquez sur le bouton Run pour commencer le dploiement et l'excution du Job sur le serveur HDFS.
2.
Les donnes de votre Job sont zippes, envoyes et dployes sur le serveur HDFS selon les paramtres de connexion du serveur et sont automatiquement excutes. Selon votre connectivit, l'opration peut prendre du temps. La console affiche le statut du dploiement et de l'excution du Job. Pour arrter l'excution du Job avant sa fin, cliquez sur le bouton Kill.
2.1.3. Planifier les excutions d'un Job

La fonctionnalit Oozie scheduler intgre dans le studio Talend vous permet de planifier les excutions de votre Job sur le serveur HDFS. Votre Job est excut selon la frquence dfinie, durant le laps de temps configur. Pour configurer la planification du Job, procdez comme suit : 1. Dans le champ Path de l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveur HDFS, si le chemin de dploiement n'est pas encore dfini. Cliquez sur le bouton Schedule de l'onglet Oozie scheduler pour ouvrir la bote de dialogue de planification.
2.
12
Planifier les excutions d'un Job
3.
Dans le champ Frequency, saisissez un entier et slectionnez une unit de temps dans la liste Time Unit afin de configurer la frquence d'excution du Job. Cliquez sur le bouton [...] ct du champ Start Time pour ouvrir la bote de dialogue [Select Date & Time] et slectionnez la date, l'heure, la minute et la seconde. Cliquez sur OK pour configurer l'heure de dbut de l'excution du Job. De la mme manire, configurez l'heure de fin d'excution du Job.
4.
5.
Cliquez sur OK pour fermer la bote de dialogue et commencer les excutions planifies de votre Job. Le Job s'excute automatiquement selon les paramtres dfinis. Pour arrter le Job, cliquez sur Kill.
13
Monitorer le statut des excutions de Job
2.1.4. Monitorer le statut des excutions de Job

Pour monitorer le statut et les rsultats des excutions de Job, cliquez sur le bouton Monitor de l'onglet Oozie scheduler. L'URI de l'endpoint Oozie s'ouvre dans votre navigateur Web, affichant les informations d'excution des Jobs sur le serveur HDFS.
Pour afficher les informations dtailles d'un Job particulier, cliquez sur l'un des champs du Job, pour ouvrir une page spare affichant les dtails du Job.
14
Monitorer le statut des excutions de Job
15
Chapitre 3. Mapping de flux Big Data

Lors du dveloppement de processus ETL pour Big Data, il est courant de mapper des donnes d'une ou plusieurs source(s) vers des donnes stockes dans le systme cible. Mme si Hadoop fournit un langage de script, Pig Latin et un modle de programmation, Map/Reduce, permettant de simplifier le dveloppement des processus de transformation et de routage pour Big Data, leur apprentissage et leur comprhension requiert quand mme un gros effort de codage. Talend fournit des composants de mapping optimiss pour l'environnement Hadoop, afin de mapper visuellement les flux d'entre de donnes et de sortie. En se basant sur le tPigMap comme exemple, le chapitre donne des informations concernant la thorie derrire l'utilisation de ces composants de mapping. Pour plus d'exemples pratiques d'utilisation de ces composants, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data. Avant de commencer un processus dintgration de donnes, vous devez vous tre familiaris avec linterface graphique de votre studio. Pour plus d'informations, consultez l'annexe dcrivant les lments de l'interface, dans le Guide utilisateur.
Interface du tPigMap
3.1. Interface du tPigMap

Pig est une plateforme utilisant un langage de script permettant de dfinir des flux de donnes. Elle permet de programmer des oprations tape par tape pour transformer des donnes l'aide de Pig Latin, nom du langage utilis par Pig. Le tPigMap est un composant avanc mappant les flux de donnes d'entre et de sortie grs par un processus Pig (un ensemble de composants Pig). Il requiert un tPigLoad pour lire des donnes du systme source et un tPigStoreResult pour crire de donnes dans une source cible. A partir de ce processus basique compos d'un tPigLoad, d'un tPigMap et d'un tPigStoreResult, vous pouvez dvelopper visuellement un processus Pig trs complexe en utilisant d'autres composants Pig autour du tPigMap. Comme ces composants gnrent du code Pig, le Job dvelopp est alors optimis pour un environnement Hadoop. Vous devez utiliser un diteur de mapping pour configurer le tPigMap. Ce Map Editor est un outil tout en un vous permettant de dfinir tous les paramtres ncessaires au mapping, aux transformations, et au routage vos flux de donnes via une interface graphique pratique. Vous pouvez minimiser et restaurer le Map Editor et toutes les tables du Map Editor l'aide des icnes de la fentre.
Le Map Editor se compose de diffrentes zones : La zone d'entre (Input), gauche de l'diteur. Elle offre une reprsentation graphique de tous les flux de donnes (Main et Lookup). Les donnes sont regroupes dans plusieurs colonnes des schmas Input. Notez que le nom de la table reflte le nom du lien Main ou Lookup dans lespace de modlisation graphique du Job. La zone de sortie (Output), droite de l'diteur. Elle permet de mapper des donnes et des champs des tables d'entre vers les lignes de sortie correspondantes. Les deux panneaux du bas sont les descriptions des schmas d'entre et de sortie. L'onglet Schema editor offre une vue du schma, comprenant les colonnes des tables d'entre et de sortie dans leur panneau respectif.
18
Prsentation du fonctionnement du tPigMap
L'onglet Expression editor est l'outil d'dition pour toutes les cls d'expression des donnes d'entre/de sortie ou les conditions de filtre. Le nom des tables d'entre/de sortie dans le Map Editor reflte le nom des flux entrant(s) et sortant(s) (liens Row). Cet diteur Map Editor est un diteur Talend de mapping typique, comme celui du tMap. Afin de comprendre compltement le fonctionnement d'un composant de mapping basique, il est recommand de lire le chapitre de rfrence dcrivant comment le studio Talend mappe les flux de donnes, dans le Guide utilisateur de votre studio d'intgration.
3.2. Prsentation du fonctionnement du tPigMap

Vous pouvez mapper des flux de donnes simplement en glissant-dposant des colonnes de la zone d'entre la zone de sortie d'un tPigMap. Frquemment, vous pouvez effectuer des oprations plus complexes, comme diter un filtre, configurer une jointure ou utiliser une fonction personnalise pour Pig. Dans cette situation le, tPigMap fournit un ensemble vari d'options configurer et gnre le code Pig correspondant afin de rpondre vos besoins. Les sections suivantes prsentent les diffrentes options.
3.2.1. Configurer les oprations de jointure

Du ct de l'entre, vous pouvez afficher le panneau utilis pour les paramtres de jointure en cliquant sur l'icne de la table.
Proprits du flux Lookup Join Model
Valeur Inner Join ; Left Outer Join ; Right Outer Join ; Full Outer Join. L'option de jointure par dfaut est Left Outer Join lorsque vous n'activez pas les paramtres des options en affichant le panneau. Ces options
19
Capturer les enregistrements rejets
Proprits du flux Lookup
Valeur effectuent une jointure de deux flux ou plus, selon la valeur des champs communs. Lorsque plusieurs tables de rfrence (lookup) ncessitent une jointure, le flux d'entre principal active la jointure partir du premier flux Lookup et utilise le rsultat pour effectuer une jointure sur la deuxime, etc, de la mme manire, jusqu' ce que le dernier flux Lookup ait une jointure.
Join Optimization
None ; Replicated ; Skewed ; Merge. L'option de jointure par dfaut est None lorsque vous n'activez pas les paramtres des options en affichant le panneau. Ces options sont utilises pour effectuer des oprations de jointure plus efficaces. Par exemple, si vous utilisez le paralllisme des diffrentes tches Reduce, la jointure Skewed peut tre utilise pour rquilibrer les donnes traiter, si elles sont rparties de manire asymtrique. Chacune de ces options est sujette aux contraintes prsentes dans la documentation Apache concernant Pig Latin.
Custom Partitioner
Saisissez le nom du Partitioner Hadoop utiliser pour contrler le partitionnement des cls des map-sorties intermdiaires. Par exemple, saisissez, entre guillemets doubles,
org.apache.pig.test.utils.SimpleCustomPartitioner
pour utiliser le Partitioner SimpleCustomPartitioner. Le fichier Jar de ce Partitioner doit avoir t enregistr dans la table Register jar dans la vue Advanced settings du composant tPigLoad li au tPigMap utiliser. Pour plus d'informations concernant le code de ce SimpleCustomPartitioner, consultez la documentation Apache concernant Pig Latin. Increase Parallelism Saisissez le nombre de tches Reduce pour les Jobs Hadoop Map/Reduce gnrs par Pig. Pour plus d'informations concernant les fonctionnalits de paralllisation, consultez la documentation Apache concernant Pig Latin.
3.2.2. Capturer les enregistrements rejets

Du ct de la sortie, les options suivantes deviennent disponibles lorsque vous affichez le panneau utilis pour configurer les options de sortie, en cliquant sur le bouton de la table.
20
Editer les expressions
Proprits du flux de sortie Catch Output Reject
Valeur True ; False. Cette option, une fois active, vous permet de capturer les enregistrements rejets par un filtre dfini dans la zone approprie.
Catch Lookup Inner Join Reject
True ; False. Cette option, une fois active, vous permet de capturer les enregistrements rejets, par la jointure Inner Join effectue sur les flux d'entre.
3.2.3. Editer les expressions

Des deux cts, vous pouvez diter toutes les cls d'expression des donnes d'entre/sortie ou des conditions de filtre en utilisant Pig Latin. Pour plus d'informations concernant Pig Latin, consultez la documentation Apache concernant Pig, notamment Pig Latin Basics et Pig Latin Reference Manual. Vous pouvez crire les expressions ncessaires la transformation des donnes, directement dans la vue Expression editor situe dans la partie infrieure de l'diteur. Sinon, ouvrez la bote de dialogue [Expression Builder] dans laquelle vous pouvez crire les expressions de transformation des donnes. Pour ouvrir la bote de dialogue [Expression Builder], cliquez sur le bouton ct de l'expression ouvrir dans les panneaux reprsentant le(s) flux Lookup ou le(s) flux de sortie du Map Editor.
21
La bote de dialogue [Expression Builder] s'ouvre sur l'expression slectionne.
Si vous avez cr une fonction Pig utilisateur (Pig UDF), une option Pig UDF Functions apparat automatiquement dans la liste Categories. Vous pouvez la slectionner pour diter l'expression de mapping utiliser. Vous devez utiliser l'lment Pig UDF sous le nud Code de la vue Repository pour crer une fonction Pig UDF. Mme si vous devez savoir crire une fonction Pig l'aide de Pig Latin, une fonction Pig UDF est cre de la mme manire qu'une routine Talend. Pour plus d'informations concernant les routines, consultez le chapitre dcrivant la gestion des routines, dans le Guide utilisateur de votre studio d'intgration. Pour ouvrir la vue Expression editor, 1. 2. Dans la partie infrieure de l'diteur, cliquez sur l'onglet Expression editor pour ouvrir la vue correspondante. Cliquez sur la colonne pour laquelle vous souhaitez paramtrer les expressions et modifiez ces expressions dans la vue Expression editor.
22
Si vous devez paramtrer des conditions de filtre pour un flux d'entre ou de sortie, cliquez sur le bouton puis ditez les expressions dans la zone affiche ou en utilisant la vue Expression editor ou dans la bote de dialogue [Expression Builder].
23
Annexe A. Exemple de Jobs Big Data

Ce chapitre est destin aux utilisateurs des solution Big Data de Talend qui cherchent des cas rels dutilisation afin de matriser le produit le mieux possible. Ce chapitre est un complment du Guide de rfrence des Composants de Talend Open Studio for Big Data.
Rassembler des informations concernant le trafic Web l'aide d'Hadoop
A.1. Rassembler des informations concernant le trafic Web l'aide d'Hadoop

Pour conduire une campagne marketing concernant les habitudes et les profils de vos clients ou utilisateurs, vous devez pouvoir rcuprer des donnes selon leurs habitudes ou leur comportement sur votre site Web afin de crer des profils utilisateur et de leur envoyer les publicits adquates, par exemple. Cette section fournit un exemple permettant de retrouver les utilisateurs ayant le plus souvent visit un site Web, en triant les adresses IP partir d'un grand nombre d'enregistrements dans le fichier de registre d'accs pour un serveur Apache HTTP, afin de faire d'autres analyses sur le comportement des utilisateurs sur le site Web.
A.1.1. Dcouvrir le scnario

Dans cet exemple, certains composants Big Data Talend sont utiliss pour tirer parti de la plateforme Open source Hadoop, dans le domaine de la gestion des Big Data. Dans ce scnario, vous utilisez quatre Jobs : le premier Job configure une base de donnes et une table HCatalog comprenant une partition, dans HDFS le deuxime Job charge le registre d'accs analyser dans le systme de fichiers HDFS. le troisime Job analyse le fichier charg. Il filtre notamment tout enregistrement contenant une erreur "404", compte le nombre d'appels de services vers le site Web excuts avec succs, trie les donnes de rsultats et les sauvegarde dans le systme de fichiers HDFS. le dernier Job lit les rsultats depuis HDFS et affiche les adresses IP ainsi que les appels de services russis et le nombre de visites du site Web dans la console standard du systme.
A.1.2. Transformer le scnario en Jobs
A.1.2.1. Configurer la base de donnes HCatalog

Dans la premire tape, vous allez configurer un environnement HCatalog permettant de grer le fichier de registre d'accs analyser.
Choisir les composants et construire le premier Job

1. 2. Dposez deux composants tHCatalogOperation de la Palette dans l'espace de modlisation graphique. Reliez les deux tHCatalogOperation l'aide d'un lien Trigger > OnSubjobOk. Ces deux sous-jobs crent une base de donnes HCatalog ainsi qu'une table HCatalog et une partition dans la table HCatalog cre, respectivement. Renommez les composants afin de mieux identifier leur rle au sein du Job.
3.
26
Transformer le scnario en Jobs
Crer une base de donnes HCatalog

1. Double-cliquez sur le premier composant tHCatalogOperation pour ouvrir sa vue Basic settings.
2.
Dans les listes correspondantes, slectionnez la distribution Hadoop ainsi que sa version. Dans cet exemple, utilisez les paramtres par dfaut : distribution HortonWorks avec le numro de version HortonWorks Data Platform V1. Renseignez, entre guillemets doubles, le nom de l'hte ou l'adresse IP de votre serveur Templeton ainsi que le port de Templeton. Dans la liste Operation on, slectionnez Database. Dans la liste Operation, slectionnez Create. Dans le champDatabase, saisissez un nom pour la base de donnes que vous crez, talenddb_hadoop dans cet exemple. Dans le champ Username, saisissez l'identifiant d'authentification la base de donnes. Dans le champ Database location, saisissez l'emplacement du fichier de base de donnes crer dans HDFS.
3.
4. 5.
6. 7.
27
Configurer la table HCatalog et sa partition

1. Double-cliquez sur le second tHCatalogOperation pour ouvrir sa vue Basic settings.
2.
Comme dans le premier tHCatalogOperation, spcifiez votre distribution et sa version, l'hte ou l'adresse IP de Templeton, ainsi que son port. Dans la liste Operation on, slectionnez Table. Dans la liste Operation, slectionnez Create. Lorsque vous travaillez sur une table, HCatalog vous demande de dfinir un schma pour cette table. Ce schma, cependant, n'intervient pas dans les oprations suivantes, vous pouvez donc simplement cliquer sur le bouton [...] et ajouter une colonne au schma. Donnez-lui un nom diffrent de celui que vous allez utiliser pour la colonne de partition.
3.
4.
Spcifiez la mme base de donnes et le mme identifiant que dans le premier composant tHCatalogOperation. Dans le champ Table, saisissez un nom pour la table crer, weblog dans cet exemple. Cochez la case Set partitions et cliquez sur le bouton [...] ct du champ Edit schema afin de configurer une partition et un schma de partition. Notez que le schma de partition ne doit contenir aucun nom de colonne dfini dans le schma de la table. Dans cet exemple, la colonne du schma de partition se nomme ipaddresses.
5. 6.
A.1.2.2. Charger le fichier de registre d'accs dans le systme Hadoop

Dans la deuxime tape, vous allez construire et configurer le deuxime Job permettant de charger le fichier de registre dans le systme Hadoop, puis vrifier le fichier charg.
28
Choisir les composants et construire le deuxime Job

1. De la Palette, dposez un tApacheLogInput, un tHCatalogOutput, un tHCatalogInput et un tLogRow dans l'espace de modlisation graphique. Connectez le composant tApacheLogInput au tHCatalogOutput l'aide d'un lien Row > Main. Ce sousjob lit le fichier de registre d'accs analyser et le charge dans la base de donnes HCatalog. Reliez le composant tHCatalogInput au tLogRow, l'aide d'un lien Row > Main. Ce sous-job vrifie le chargement du fichier en lisant le fichier de regsitre depuis le systme HCatalog et affiche son contenu dans la console. Reliez le tApacheLogInput au tHCatalogInput l'aide d'un lien Trigger > OnSubjobOk. Renommez les composants afin de mieux identifier leur rle au sein du Job.
2.
3.
4. 5.
Charger le fichier de log dans HDFS

1. Double-cliquez sur le composant tApacheLogInput pour ouvrir sa vue Basic settings et spcifiez le chemin d'accs au fichier de log charger, dans le champ File Name.
2.
Double-cliquez sur le tHCatalogOutput pour ouvrir la vue Basic settings.
29
3.
Cliquez sur le bouton [...] pour vrifier que le schma a bien t propag depuis le composant prcdent. Si ncessaire, cliquez sur le bouton Sync columns afin de rcuprer le schma. Pour les renseignements suivants, utilisez les mmes informations que dans le premier Job : Distribution et version de Hadoop Hte ou adresse IP de Templeton et numro de son port Table de la base de donnes HCatalog et identifiant
4.
5. 6. 7. 8.
Dans le champ NameNode URI, saisissez l'URI du NameNode de HDFS. Dans le champ File name, spcifiez le chemin d'accs et le nom du fichier de sortie dans HDFS. Dans la liste Action, slectionnez Create poru crer le fichier, ou Overwrite si le fichier existe dj. Dans le champ Partition, saisissez la paire de partition nom-valeur, ipaddresses='192.168.1.15' dans cet exemple. Dans le champ File location, saisissez l'emplacement o sauvegarder les donnes, /user/hcat/access_log dans cet exemple.
9.
Vrifier le fichier de registre d'accs charg

1. Double-cliquez sur le composant tHCatalogInput pour ouvrir sa vue Basic settings.
30
2.
Cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema] et dfinir le schma d'entre. Dans cet exemple, copiez simplement le schma du composant tApacheLogInput ou tHCatalogOutput. Pour toutes les autres options, utilisez les mmes paramtres que dans le composant tHCatalogOutput. Dans la vue Basic settings du tLogRow, slectionnez le mode Vertical afin d'afficher pour chaque ligne la cl et la valeur, l'excution du Job.
3. 4.
A.1.2.3. Analyser le fichier de registre d'accs sur la plateforme Hadoop

Dans cette tape, vous allez construire et configurer le troisime Job, utilisant plusieurs composants Pig pour analyser le fichier de registre charg, dans une chane Pig, afin d'obtenir les adresses IP ainsi que les appels de services excuts avec succs et le nombre de visite sur le site Web.
Choisir les composants et contruire le troisime Job

1. Dposez les composants suivants de la Palette dans l'espace de modlisation graphique : un tPigLoad, pour charger les donnes analyser, un tPigFilterRow, pour supprimer les enregistrements contenant une erreur "404" du flux d'entre, un tPigFilterColumns, pour slectionner les colonnes inclure dans les rsultats, un tPigAggregate, pour compter le nombre de visites sur le site de chaque hte, un tPigSort, pour trier les rsultats, un tPigStoreResult, pour sauvegarder les rsultats dans HDFS. 2. Connectez ces composants l'aide de liens Row > Pig Combine afin de fermer une chane. Nommez-les de manire identifier leur rle.
31
Configurer la chane Pig

1. Double-cliquez sur le composant tPigLoad pour ouvrir sa vue Basic settings et configurer les lments suivants afin de charger le fichier analyser dans la chane Pig : Schma : copiez-le du Job prcdent, et propagez-le au composant suivant. Mode de Pig : slectionnez Map/Reduce. Distribution et version de Hadoop : les mmes que dans le Job prcdent, HortonWorks et HortonWorks Data Platform V1. URI du NameNode : la mme que dans le Job prcdent, hdfs://talend-hdp:8020. Hte du JobTracker : talend-hdp:50300. Fonction de chargement : slectionnez PigStorage. URI du fichier d'entre : saisissez le nom du fichier de sortie dfini dans le Job prcdent, /user/hcat/ access_log/out.log.
32
2.
Dans la vue Basic settings du composant tPigFilterRow, cliquez sur le bouton [+] pour ajouter une ligne la table Filter configuration et configurez les paramtres de filtre, afin de supprimer les enregistrements contenant le code 404 et de passer les autres enregistrements dans le flux de sortie : Dans le champ Logical, slectionnez AND. Dans le champ Column, slectionnez la colonne code du schma. Cochez la case NOT Dans le champ Operator, slectionnez equal. Dans le champ Value, saisissez 404.
3.
Dans la vue Basic settings du tPigFilterColumns, cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema]. Dans le panneau Output, configurez deux colonnes, host et count, stockant les informations des adresses IP ainsi que le nombre de visites sur le site Web, respectivement.
33
4. 5.
Dans la vue Basic settings du composant tPigAggregate, cliquez sur le bouton Sync columns afin de rcuprer le schma du composant prcdent et propagez-le au composant suivant. Configurez les paramtres suivants afin de compter le nombre d'occurrences de chaque adresse IP : Dans la zone Group by, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Column. Dans la zone Operations, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Additional Output Column, slectionnez count dans la fonction Function et slectionnez la colonne host dans le champ Input Column.
6.
Dans la vue Basic settings du composant tPigSort, configurez les paramtres de tri, afin de trier les donnes passer : Cliquez sur le bouton [+] pour ajouter une ligne la table Sort key.
34
Dans le champ Column, slectionnez count pour dfinir la colonne count comme cl. Dans le champ Order, slectionnez DESC pour trier les donnes en ordre descendant.
7.
Dans la vue Basic settings du tPigStoreResult, configurez les proprits du composant afin de charger les donnes de rsultats l'emplacement spcifi dans le systme Hadoop : Vrifiez le schma, rcuprez-le du composant prcdent si ncessaire. Dans le champ Result file, saisissez le chemin d'accs au fichier de rsultats. Dans la liste Store function, slectionnez PigStorage. Si ncessaire, cochez la case Remove result directory if exists.
A.1.2.4. Vrifier les rsultats d'analyse

Dans cette tape, vous construisez de dernier Job, comprenant deux composants, qui lit les donnes de rsultats depuis Hadoop et les affiche dans la console du systme. Vous allez ensuite excuter tous les Jobs un par un et vrifier les rsultats dans la console.
Choisir les composants et construire le dernier Job

1. 2. De la Palette, dposez un tHDFSInput et un tLogRow dans l'espace de modlisation graphique. Connectez les composants l'aide d'un lien Row > Main et nommez-les de manire identifier leur rle.
35
Configurer le dernier Job

1. Double-cliquez sur le composant tHDFSInput pour ouvrir sa vue Basic settings.
2.
Pour les options suivantes, utilisez les mmes paramtres que dans le Job prcdent : Le schma doit contenir deux colonnes, host et count, selon la structure du fichier charg dans HDFS via la chane Pig dans le Job prcdent. La distribution et la version de Hadoop, HortonWorks et HortonWorks Data Platform V1. URI du NameNode, hdfs://talend-hdp:8020/.
3. 4. 5. 6.
Dans le champ User name, saisissez un identifient pouvant accder au fichier dans HDFS. Dans le champ File Name, saisissez le chemin d'accs et le nom du fichier dans HDFS. Dans la liste Type, slectionnez le type de fichier lire, Text File dans cet exemple. Dans la vue Basic settings du tLogRow, slectionnez l'option Table.
36
Aprs avoir configur les quatre Jobs, vous pouvez les excuter un par un. Aprs russite de l'excution du dernier Job, la console systme affiche les adresses IP ainsi que les appels de services correctement excuts et le nombre de visites sur le site Web pour chaque adresse IP.
37

TalendOpenStudio BigData GettingStarted 5.3.0 FR

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TalendOpenStudio BigData GettingStarted 5.3.0 FR

Transféré par

Droits d'auteur :

Formats disponibles

Talend Open Studio for Big Data

Guide de prise en main

Talend Open Studio for Big Data

Table des matires

chapitre 1. Introduction aux solutions Big Data de Talend ................................ 1

chapitre 2. Gestion des Jobs dans le studio Talend ........................................ 5

chapitre 3. Mapping de flux Big Data ...... 17

annexe A. Exemple de Jobs Big Data....... 25

Guide de prise en main de Talend Open Studio for Big Data

Guide de prise en main de Talend Open Studio for Big Data

1.2. Public vis

1.3. Conventions typographiques

Guide de prise en main de Talend Open Studio for Big Data

Guide de prise en main de Talend Open Studio for Big Data

Chapitre 1. Introduction aux solutions Big Data de Talend

Guide de prise en main de Talend Open Studio for Big Data

Hadoop et studio Talend

1.1. Hadoop et studio Talend

1.2. Architecture fonctionnelle des solutions Big Data de Talend

Guide de prise en main de Talend Open Studio for Big Data

Architecture fonctionnelle des solutions Big Data de Talend

Guide de prise en main de Talend Open Studio for Big Data

Guide de prise en main de Talend Open Studio for Big Data

Chapitre 2. Gestion des Jobs dans le studio Talend

Guide de prise en main de Talend Open Studio for Big Data

Excuter un Job distance dans un serveur HDFS

2.1. Excuter un Job distance dans un serveur HDFS

2.1.1. Configurer les informations de la connexion HDFS

Cliquez sur Setting pour ouvrir la bote de dialogue de la connexion.

Guide de prise en main de Talend Open Studio for Big Data

Configurer les informations de la connexion HDFS

Les paramtres de connexion affichs ci-dessus sont donns titre d'exemple.

Champ/Option Hadoop distribution

Hadoop version Enable kerberos security

User Name Name node end point

Nom d'utilisateur. URI du nom du nud, le cur du systme de fichier HDFS.

Configurer les informations de la connexion HDFS

Guide de prise en main de Talend Open Studio for Big Data

Configurer les informations de la connexion HDFS

Les paramtres Oozie affichs ci-dessus sont donns titre d'exemple.

Renseignez les informations dans les champs correspondants :

Champ/Option Hadoop distribution

Hadoop version Enable kerberos security

Configurer les informations de la connexion HDFS

Se connecter une distribution Hadoop personnalise

Guide de prise en main de Talend Open Studio for Big Data

Configurer les informations de la connexion HDFS

Guide de prise en main de Talend Open Studio for Big Data

Excuter un Job sur le serveur HDFS

2.1.2. Excuter un Job sur le serveur HDFS

2.1.3. Planifier les excutions d'un Job

Guide de prise en main de Talend Open Studio for Big Data

Planifier les excutions d'un Job

Guide de prise en main de Talend Open Studio for Big Data

Monitorer le statut des excutions de Job

2.1.4. Monitorer le statut des excutions de Job

Guide de prise en main de Talend Open Studio for Big Data

Monitorer le statut des excutions de Job

Guide de prise en main de Talend Open Studio for Big Data

Guide de prise en main de Talend Open Studio for Big Data

Chapitre 3. Mapping de flux Big Data

Guide de prise en main de Talend Open Studio for Big Data

3.1. Interface du tPigMap

Guide de prise en main de Talend Open Studio for Big Data