Académique Documents
Professionnel Documents
Culture Documents
http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62
ce
tutoriel,
nous
utilisons
un
exemple
de
fichier
de
donnes
client.
Dans ce fichier, nous pouvons voir que les donnes semblent contenir des codes postaux valides, mais
le
nom
des
villes
parat
mal
orthographi.
Nous pouvons descendre dans le fichier pour voir d'autres donnes client.
Des erreurs dans l'orthographe des villes peuvent galement tre vues dans le reste du fichier, et des
lieux de la ville de New York sont mentionns dans le champ City (ville).
Les codes postaux semblent tre correctement dfinis.
La
nouvelle
analyse
s'affiche
dans
l'diteur
Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne l'analyse.
d'analyse.
Dans
La
A
l'assistant
structure
droite
de
la
de
base
Column
de
donnes
l'assistant,
s'affiche
cochez
Selection
gauche
la
:
de
l'assistant.
case
City.
nouvelle
Cliquez
sur
l'icne
colonne
du
apparat
bonhomme
qui
dans
court
afin
l'diteur
d'analyse.
de
l'analyse.
lancer
Une fois l'analyse excute, cliquez sur l'onglet Analysis Results, en bas de la fentre, pour voir les
rsultats.
10
Dans
Descendez
l'onglet
des
jusqu'
rsultats
la
de
corranalysis
zone
:
Graphics.
Nous pouvons voir la corrlation entre le code postal 55555 et la ville de Young America, la corrlation
entre 02026 et Dedham, etc.
11
Descendez pour voir les autres corrlations et les diffrences d'orthographe de North Reading.
12
Vous
Allez
pouvez
clarifier
au
l'affichage
bas
de
ces
de
corrlations.
la
13
Pour
zone
ce
faire
Graphics.
Une fois la case Picking coche, vous pouvez cliquer sur chaque point bleu ou vert de la corrlation et
le dplacer pour espacer les corrlations, afin de clarifier l'affichage des liens et des donnes.
14
Descendez
jusqu'
la
zone
Data
de
l'analyse.
Cliquez sur le nom de colonne Count, afin de trier les donnes par nombre d'occurrences.
Nous pouvons voir que les donnes les plus frquentes sont celles dont l'orthographe est correcte.
Les autres sont les donnes devant tre nettoyes.
15
16
Pour nettoyer les donnes, nous allons utiliser le Job Census_Lookup que vous avez tlcharg et
import
depuis
la
section
Download
de
ce
tutoriel.
Pour ce faire, cliquez sur le bouton Design Workspace dans le coin suprieur droit du Studio.
17
Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data
Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend
Open Studio for Data Integration pour effectuer les tapes suivantes.
Dans
Dveloppez
le
Repository
le
noeud
:
Metadata.
Mettez jour la connexion RemoteDBMS, et les mtadonnes du fichier Excel Customers File, avec
votre
emplacement
de
fichier
et
vos
informations
de
connexion.
Dveloppez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.
18
Le Job comprend deux composants fichiers d'entre : notre fichier de donnes client et le fichier des
donnes de recensement ; un tMap, qui permettra d'effectuer une jointure entre les donnes de deux
fichiers, et donc de nettoyer et d'enrichir nos donnes client ; et deux composants fichiers de sortie,
contenant
nos
donnes
nettoyes
et
les
donnes
rejetes.
Double-cliquez sur le tMap pour ouvrir son diteur.
19
Dans
l'diteur
du
tMap
Les schmas des composants fichiers d'entre s'affichent dans la zone en haut gauche de l'diteur.
Les schmas des composants fichiers de sortie s'affichent dans la zone en haut droite de l'diteur.
Dans l'onglet Schema editor, en bas de l'diteur, s'affichent les colonnes slectionnes des schmas
d'entre et de sortie.
20
Dans la zone d'entre, nous pouvons voir que nos deux schmas customers et census_data sont lis par
une jointure entre leur colonne Zip.
21
C'est grce cette relation que nous pourrons enrichir et amliorer les donnes de notre fichier client,
ainsi
que
d'ajouter
les
informations
du
type
latitude
et
longitude.
Le tMap a aussi t dfini pour remplacer le nom des villes dans le champ City et de l'tat dans le
champ State.
22
Si la relation entre les deux fichiers ne peut tre trouve entre les codes postaux de la liste des clients
et les donnes du recensement, l'enregistrement sera considr en sortie comme flux de rejet.
23
Dans
le
Job
Designer
la
vue
Component
Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
nettoyes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.
24
Dans
Double-cliquez
Dans
le
sur
le
la
Job
composant
Zip
Rejects
vue
Designer
afin
d'afficher
sa
Component
:
vue
Component.
:
Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
rejetes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.
25
Dans
Appuyez
Appuyez
le
sur
Job
Ctrl+S
sur
afin
Designer
de
F6
sauvegarder
:
votre
pour
La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'excution du Job.
26
Job.
l'excuter.
A prsent, pour voir le rsultat de notre opration de nettoyage et d'amlioration des donnes, dans le
Job
Designer
:
Cliquez-droit sur le composant Zip Rejects, et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes rejetes sont rassembles
dans
le
fichier
de
rejet.
Cliquez sur Close pour fermer cet assistant.
Next
Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous
utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les donnes
partir du studio.
27
Cliquez-droit sur le composant Standardized Customers et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes correctes ont t nettoyes et
amliores
par
notre
Job.
Cliquez sur Close pour fermer l'assistant.
Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous
utilisez Talend Open Studio, vous ne pourrez pas visualiser les donnes partir du studio.
28
29