Vous êtes sur la page 1sur 29

UNIVERSITE Sidi Mohamed Ben Abdellah

Ecole National des sciences appliqués


Année Universitaire 2014/2015
Filière Informatique
INFO2

TP 4 : Bases de données décisionnelles

http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62

Nettoyer et améliorer vos données avec des données de référence

Apprenez à identifier des données de mauvaise qualité, à les nettoyer et à les


améliorer avec Talend Enterprise Data Quality

Dans ce tutoriel, nous allons analyser les données dans la perspective Profiling de Talend
Enterprise Data Quality afin de voir les corrélations entre elles.
Ensuite, nous allons les nettoyer et améliorer dans la perspective Design workspace.

Pour ce faire, vous devez télécharger le fichier exampleFile.zip rassemblant les fichiers de
données, ainsi que les Jobs utilisés dans ce tutoriel.

Prérequis :
Vous devez d'abord importer les Jobs disponibles dans le fichier exampleFile.zip dans votre
Studio, et exécuter le Job Load_customer_data du dossier Prerequisite. Ce Job chargera les
données client dans votre base de données, qui les analysera dans ce tutoriel.

Créer une analyse

Dans ce tutoriel, nous utilisons un exemple de fichier de données client.

Dans ce fichier, nous pouvons voir que les données semblent contenir des codes postaux valides, mais
le nom des villes paraît mal orthographié.

Nous pouvons descendre dans le fichier pour voir d'autres données client.

1
Des erreurs dans l'orthographe des villes peuvent également être vues dans le reste du fichier, et des
lieux de la ville de New York sont mentionnés dans le champ City (ville).

Les codes postaux semblent être correctement définis.

2
Dans la vue DQ Repository, à gauche de Talend Enterprise Data Quality :

Cliquez-droit sur le noeud DB Connections.

Dans le menu, cliquez sur New connection, afin d'ouvrir l'assistant Database Connection

3
Dans l'assistant Database Connection :

Dans le champ Name, saisissez le nom que vous souhaitez donner à votre connexion à la base de
données : CustomerDB.

Cliquez sur Next pour passer à l'étape suivante

4
Dans cette étape, renseignez les paramètres de connexion à la base de données :

Dans les champs Login et Password, saisissez votre identifiant et votre mot de passe de connexion à
la base de données.

Dans la liste DB Type, sélectionnez le type de base de données. Pour ce tutoriel, nous utilisons une
base de données MySQL.

Décochez la case retrieve all metadata pour ne retourner que les métadonnées de la base de données
utilisée dans ce tutoriel.

Dans la zone DB URL, saisissez l'URL de la base de données. Pour ce tutoriel, nous utilisons une base
de données nommée talend-dbms.

Dans le champ DBname, renseignez le nom de la base de données, ici : tutorials.

Cliquez sur Finish pour fermer l'assistant et créer la connexion.

5
La connexion s'affiche dans la vue DQ Repository.

Vous pouvez naviguer dans la base de données et ses tables.

Pour ce tutoriel, nous allons utiliser la table Customer_sample. Vous pouvez la développer pour
vérifier ses colonnes.

Nous souhaitons analyser la colonne Zip. Cliquez-droit sur la colonne Zip et sélectionnez Analyze
correlation dans le menu, afin d'ouvrir l'assistant New Analysis.

6
Dans l'assistant New Analysis :
Dans le champ Name, donnez un nom à votre analyse : corranalysis.
Cliquez sur Finish pour fermer l'assistant et créer l'analyse.
Next

7
La nouvelle analyse s'affiche dans l'éditeur d'analyse.

Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne à l'analyse.

8
Dans l'assistant Column Selection :

La structure de la base de données s'affiche à gauche de l'assistant.

A droite de l'assistant, cochez la case City.

Cliquez sur OK pour valider.

9
Exécuter et vérifier l'analyse

La nouvelle colonne apparaît dans l'éditeur d'analyse.

Cliquez sur l'icône du bonhomme qui court afin de lancer l'analyse.

Une fois l'analyse exécutée, cliquez sur l'onglet Analysis Results, en bas de la fenêtre, pour voir les
résultats.

10
Dans l'onglet des résultats de corranalysis :

Descendez jusqu'à la zone Graphics.

Nous pouvons voir la corrélation entre le code postal 55555 et la ville de Young America, la corrélation
entre 02026 et Dedham, etc.

11
Descendez pour voir les autres corrélations et les différences d'orthographe de North Reading.

12
Vous pouvez clarifier l'affichage de ces corrélations. Pour ce faire :

Allez au bas de la zone Graphics.

Cochez la case Picking.

13
Une fois la case Picking cochée, vous pouvez cliquer sur chaque point bleu ou vert de la corrélation et
le déplacer pour espacer les corrélations, afin de clarifier l'affichage des liens et des données.

14
Descendez jusqu'à la zone Data de l'analyse.

Cliquez sur le nom de colonne Count, afin de trier les données par nombre d'occurrences.

Nous pouvons voir que les données les plus fréquentes sont celles dont l'orthographe est correcte.

Les autres sont les données devant être nettoyées.

15
Nettoyer et enrichir vos données

Afin de nettoyer les données, nous allons utiliser le fichier census_data.csv, téléchargé pour ce
tutoriel, qui est un fichier de référence téléchargé du Bureau du Recensement des États-Unis.

Ce fichier contient tous les codes postaux, tous les noms de villes, les ID des états, et le nom des
Comtés, ainsi que la latitude, la longitude et la classe des codes postaux.

Nous allons également utiliser ce fichier pour nettoyer et enrichir les données client.

16
Pour nettoyer les données, nous allons utiliser le Job Census_Lookup que vous avez téléchargé et
importé depuis la section Download de ce tutoriel.

Pour ce faire, cliquez sur le bouton Design Workspace dans le coin supérieur droit du Studio.

17
Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data
Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend
Open Studio for Data Integration pour effectuer les étapes suivantes.

Dans le Repository :

Développez le noeud Metadata.

Mettez à jour la connexion RemoteDBMS, et les métadonnées du fichier Excel Customers File, avec
votre emplacement de fichier et vos informations de connexion.

Développez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.

18
Le Job comprend deux composants fichiers d'entrée : notre fichier de données client et le fichier des
données de recensement ; un tMap, qui permettra d'effectuer une jointure entre les données de deux
fichiers, et donc de nettoyer et d'enrichir nos données client ; et deux composants fichiers de sortie,
contenant nos données nettoyées et les données rejetées.

Double-cliquez sur le tMap pour ouvrir son éditeur.

19
Dans l'éditeur du tMap :

Les schémas des composants fichiers d'entrée s'affichent dans la zone en haut à gauche de l'éditeur.
Les schémas des composants fichiers de sortie s'affichent dans la zone en haut à droite de l'éditeur.

Dans l'onglet Schema editor, en bas de l'éditeur, s'affichent les colonnes sélectionnées des schémas
d'entrée et de sortie.

20
Dans la zone d'entrée, nous pouvons voir que nos deux schémas customers et census_data sont liés par
une jointure entre leur colonne Zip.

21
C'est grâce à cette relation que nous pourrons enrichir et améliorer les données de notre fichier client,
ainsi que d'ajouter les informations du type latitude et longitude.

Le tMap a aussi été défini pour remplacer le nom des villes dans le champ City et de l'état dans le
champ State.

22
Si la relation entre les deux fichiers ne peut être trouvée entre les codes postaux de la liste des clients
et les données du recensement, l'enregistrement sera considéré en sortie comme flux de rejet.

23
Dans le Job Designer :

Double-cliquez sur le composant Standardized Customers afin d'afficher sa vue Component.

Dans la vue Component :

Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du
fichier contenant les données nettoyées.

Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant
précédent.

24
Dans le Job Designer :

Double-cliquez sur le composant Zip Rejects afin d'afficher sa vue Component.

Dans la vue Component :

Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du
fichier contenant les données rejetées.

Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant
précédent.

25
Dans le Job Designer :

Appuyez sur Ctrl+S afin de sauvegarder votre Job.

Appuyez sur F6 pour l'exécuter.

La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'exécution du Job.

26
A présent, pour voir le résultat de notre opération de nettoyage et d'amélioration des données, dans le
Job Designer :

Cliquez-droit sur le composant Zip Rejects, et sélectionnez data viewer dans le menu.

Nous pouvons voir dans l'assistant Data Preview que toutes les données rejetées sont rassemblées
dans le fichier de rejet.

Cliquez sur Close pour fermer cet assistant.


Next

Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous
utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les données
à partir du studio.

27
Cliquez-droit sur le composant Standardized Customers et sélectionnez data viewer dans le menu.

Nous pouvons voir dans l'assistant Data Preview que toutes les données correctes ont été nettoyées et
améliorées par notre Job.

Cliquez sur Close pour fermer l'assistant.

Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous
utilisez Talend Open Studio, vous ne pourrez pas visualiser les données à partir du studio.

28
29

Vous aimerez peut-être aussi