Vous êtes sur la page 1sur 29

UNIVERSITE Sidi Mohamed Ben Abdellah

Ecole National des sciences appliqus


Anne Universitaire 2014/2015
Filire Informatique
INFO2

TP 4 : Bases de donnes dcisionnelles

http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62

Nettoyer et amliorer vos donnes avec des donnes de rfrence


Apprenez identifier des donnes de mauvaise qualit, les nettoyer et les
amliorer avec Talend Enterprise Data Quality
Dans ce tutoriel, nous allons analyser les donnes dans la perspective Profiling de Talend
Enterprise Data Quality afin de voir les corrlations entre elles.
Ensuite, nous allons les nettoyer et amliorer dans la perspective Design workspace.
Pour ce faire, vous devez tlcharger le fichier exampleFile.zip rassemblant les fichiers de
donnes, ainsi que les Jobs utiliss dans ce tutoriel.
Prrequis
:
Vous devez d'abord importer les Jobs disponibles dans le fichier exampleFile.zip dans votre
Studio, et excuter le Job Load_customer_data du dossier Prerequisite. Ce Job chargera les
donnes client dans votre base de donnes, qui les analysera dans ce tutoriel.

Crer une analyse


Dans

ce

tutoriel,

nous

utilisons

un

exemple

de

fichier

de

donnes

client.

Dans ce fichier, nous pouvons voir que les donnes semblent contenir des codes postaux valides, mais
le
nom
des
villes
parat
mal
orthographi.
Nous pouvons descendre dans le fichier pour voir d'autres donnes client.

Des erreurs dans l'orthographe des villes peuvent galement tre vues dans le reste du fichier, et des
lieux de la ville de New York sont mentionns dans le champ City (ville).
Les codes postaux semblent tre correctement dfinis.

Dans la vue DQ Repository, gauche de Talend Enterprise Data Quality :


Cliquez-droit sur le noeud DB Connections.
Dans le menu, cliquez sur New connection, afin d'ouvrir l'assistant Database Connection

Dans l'assistant Database Connection :


Dans le champ Name, saisissez le nom que vous souhaitez donner votre connexion la base de
donnes : CustomerDB.
Cliquez sur Next pour passer l'tape suivante

Dans cette tape, renseignez les paramtres de connexion la base de donnes :


Dans les champs Login et Password, saisissez votre identifiant et votre mot de passe de connexion
la base de donnes.
Dans la liste DB Type, slectionnez le type de base de donnes. Pour ce tutoriel, nous utilisons une
base de donnes MySQL.
Dcochez la case retrieve all metadata pour ne retourner que les mtadonnes de la base de donnes
utilise dans ce tutoriel.
Dans la zone DB URL, saisissez l'URL de la base de donnes. Pour ce tutoriel, nous utilisons une base
de donnes nomme talend-dbms.
Dans le champ DBname, renseignez le nom de la base de donnes, ici : tutorials.
Cliquez sur Finish pour fermer l'assistant et crer la connexion.

La connexion s'affiche dans la vue DQ Repository.


Vous pouvez naviguer dans la base de donnes et ses tables.
Pour ce tutoriel, nous allons utiliser la table Customer_sample. Vous pouvez la dvelopper pour
vrifier ses colonnes.
Nous souhaitons analyser la colonne Zip. Cliquez-droit sur la colonne Zip et slectionnez Analyze
correlation dans le menu, afin d'ouvrir l'assistant New Analysis.

Dans l'assistant New Analysis :


Dans le champ Name, donnez un nom votre analyse : corranalysis.
Cliquez sur Finish pour fermer l'assistant et crer l'analyse.
Next

La

nouvelle

analyse

s'affiche

dans

l'diteur

Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne l'analyse.

d'analyse.

Dans
La
A

l'assistant
structure
droite

de

la
de

base

Column
de

donnes

l'assistant,

s'affiche
cochez

Cliquez sur OK pour valider.

Selection

gauche
la

:
de

l'assistant.

case

City.

Excuter et vrifier l'analyse


La

nouvelle

Cliquez

sur

l'icne

colonne
du

apparat

bonhomme

qui

dans
court

afin

l'diteur

d'analyse.

de

l'analyse.

lancer

Une fois l'analyse excute, cliquez sur l'onglet Analysis Results, en bas de la fentre, pour voir les
rsultats.

10

Dans
Descendez

l'onglet

des
jusqu'

rsultats
la

de

corranalysis
zone

:
Graphics.

Nous pouvons voir la corrlation entre le code postal 55555 et la ville de Young America, la corrlation
entre 02026 et Dedham, etc.

11

Descendez pour voir les autres corrlations et les diffrences d'orthographe de North Reading.

12

Vous
Allez

pouvez

clarifier
au

l'affichage
bas

de

ces

de

corrlations.
la

Cochez la case Picking.

13

Pour
zone

ce

faire

Graphics.

Une fois la case Picking coche, vous pouvez cliquer sur chaque point bleu ou vert de la corrlation et
le dplacer pour espacer les corrlations, afin de clarifier l'affichage des liens et des donnes.

14

Descendez

jusqu'

la

zone

Data

de

l'analyse.

Cliquez sur le nom de colonne Count, afin de trier les donnes par nombre d'occurrences.
Nous pouvons voir que les donnes les plus frquentes sont celles dont l'orthographe est correcte.
Les autres sont les donnes devant tre nettoyes.

15

Nettoyer et enrichir vos donnes


Afin de nettoyer les donnes, nous allons utiliser le fichier census_data.csv, tlcharg pour ce
tutoriel, qui est un fichier de rfrence tlcharg du Bureau du Recensement des tats-Unis.
Ce fichier contient tous les codes postaux, tous les noms de villes, les ID des tats, et le nom des
Comts, ainsi que la latitude, la longitude et la classe des codes postaux.
Nous allons galement utiliser ce fichier pour nettoyer et enrichir les donnes client.

16

Pour nettoyer les donnes, nous allons utiliser le Job Census_Lookup que vous avez tlcharg et
import
depuis
la
section
Download
de
ce
tutoriel.
Pour ce faire, cliquez sur le bouton Design Workspace dans le coin suprieur droit du Studio.

17

Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data
Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend
Open Studio for Data Integration pour effectuer les tapes suivantes.

Dans
Dveloppez

le

Repository
le

noeud

:
Metadata.

Mettez jour la connexion RemoteDBMS, et les mtadonnes du fichier Excel Customers File, avec
votre
emplacement
de
fichier
et
vos
informations
de
connexion.
Dveloppez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.

18

Le Job comprend deux composants fichiers d'entre : notre fichier de donnes client et le fichier des
donnes de recensement ; un tMap, qui permettra d'effectuer une jointure entre les donnes de deux
fichiers, et donc de nettoyer et d'enrichir nos donnes client ; et deux composants fichiers de sortie,
contenant
nos
donnes
nettoyes
et
les
donnes
rejetes.
Double-cliquez sur le tMap pour ouvrir son diteur.

19

Dans

l'diteur

du

tMap

Les schmas des composants fichiers d'entre s'affichent dans la zone en haut gauche de l'diteur.
Les schmas des composants fichiers de sortie s'affichent dans la zone en haut droite de l'diteur.
Dans l'onglet Schema editor, en bas de l'diteur, s'affichent les colonnes slectionnes des schmas
d'entre et de sortie.

20

Dans la zone d'entre, nous pouvons voir que nos deux schmas customers et census_data sont lis par
une jointure entre leur colonne Zip.

21

C'est grce cette relation que nous pourrons enrichir et amliorer les donnes de notre fichier client,
ainsi
que
d'ajouter
les
informations
du
type
latitude
et
longitude.
Le tMap a aussi t dfini pour remplacer le nom des villes dans le champ City et de l'tat dans le
champ State.

22

Si la relation entre les deux fichiers ne peut tre trouve entre les codes postaux de la liste des clients
et les donnes du recensement, l'enregistrement sera considr en sortie comme flux de rejet.

23

Dans

le

Job

Designer

Double-cliquez sur le composant Standardized Customers afin d'afficher sa vue Component.


Dans

la

vue

Component

Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
nettoyes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.

24

Dans
Double-cliquez
Dans

le
sur

le
la

Job
composant

Zip

Rejects
vue

Designer
afin

d'afficher

sa

Component

:
vue

Component.
:

Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
rejetes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.

25

Dans
Appuyez
Appuyez

le
sur

Job
Ctrl+S

sur

afin

Designer
de

F6

sauvegarder

:
votre

pour

La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'excution du Job.

26

Job.
l'excuter.

A prsent, pour voir le rsultat de notre opration de nettoyage et d'amlioration des donnes, dans le
Job
Designer
:
Cliquez-droit sur le composant Zip Rejects, et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes rejetes sont rassembles
dans
le
fichier
de
rejet.
Cliquez sur Close pour fermer cet assistant.
Next
Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous
utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les donnes
partir du studio.

27

Cliquez-droit sur le composant Standardized Customers et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes correctes ont t nettoyes et
amliores
par
notre
Job.
Cliquez sur Close pour fermer l'assistant.
Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous
utilisez Talend Open Studio, vous ne pourrez pas visualiser les donnes partir du studio.

28

29

Vous aimerez peut-être aussi