Vous êtes sur la page 1sur 86

Informatica Data Quality (Version 9.1.

0 HotFix 3)

Guide de dmarrage

Informatica Data Quality Guide de dmarrage Version 9.1.0 HotFix 3 Dcembre 2011 Copyright (c) 1998-2011 Informatica. Tous droits rservs. Ce logiciel et sa documentation contiennent des informations appartenant Informatica Corporation, protges par les lois sur le copyright et fournies dans le cadre d'un accord de licence contenant des restrictions d'utilisation et de divulgation. Toute ingnierie inverse du logiciel est interdite. Il est interdit de reproduire ou transmettre sous quelque forme et par quelque moyen que ce soit (lectronique, photocopie, enregistrement ou autre) tout ou partie de ce document sans le consentement pralable d'Informatica Corporation. Ce logiciel peut tre protg par des brevets amricains et/ou internationaux, ainsi que par d'autres brevets en attente. L'utilisation, la duplication ou la divulgation du Logiciel par le gouvernement amricain est sujette aux restrictions dcrites dans l'accord de licence applicable du logiciel conformment aux documents DFARS 227.7202-1(a) et 227.7702-3(a) (1995), DFARS 252.227-7013(1)(ii) (OCT 1988), FAR 12.212(a) (1995), FAR 52.227-19 ou FAR 52.227-14 (ALT III) le cas chant. Les informations dans ce produit ou cette documentation sont sujettes modification sans pravis. Si vous rencontrez des problmes dans ce produit ou la documentation, veuillez nous en informer par crit. Informatica, la plate-forme Informatica, Services de donnes Informatica ( Data Services ), PowerCenter, PowerCenterRT, PowerCenter Connect, Analyseur de donnes PowerCenter ( Data Analyzer ), PowerExchange, PowerMart, Gestionnaire de mtadonnes ( Metadata Manager ), Qualit des donnes Informatica ( Data Quality ), Explorateur de donnes Informatica ( Data Explorer ), Transformation de donnes B2B Informatica ( B2B Data Transformation ), change de donnes B2B Informatica ( B2B Data Exchange ), Informatica la demande ( On Demand ), Rsolution d'identit Informatica ( Identity Resolution ), Gestion de cycle de vie d'informations d'applications Informatica ( Application Information Lifecycle Management ), Traitement d'vnements complexes Informatica ( Complex Event Processing ), Ultra Messaging et Gestion des donnes principales Informatica ( Master Data Management ) sont des marques de commerce ou des marques dposes d'Informatica Corporation aux tats-Unis et dans d'autres juridictions du monde. Tous les autres noms de socit ou de produit peuvent tre des marques de commerce ou des marques dposes de leurs dtenteurs respectifs. Des portions de ce logiciel et/ou de la documentation sont sujettes au copyright dtenu par des tierces parties, dont Copyright DataDirect Technologies. Tous droits rservs. Copyright Sun Microsystems. Tous droits rservs. Copyright RSA Security Inc. Tous droits rservs. Copyright Ordinal Technology Corp. Tous droits rservs. Copyright Aandacht c.v. Tous droits rservs. Copyright Genivia, Inc. Tous droits rservs. Copyright Isomorphic Software. Tous droits rservs. Copyright Meta Integration Technology, Inc. Tous droits rservs. Copyright Intalio. Tous droits rservs. Copyright Oracle. Tous droits rservs. Copyright Adobe Systems Incorporated. Tous droits rservs. Copyright DataArt, Inc. Tous droits rservs. Copyright ComponentSource. Tous droits rservs. Copyright Microsoft Corporation. Tous droits rservs. Copyright Rouge Wave Software, Inc. Tous droits rservs. Copyright Teradata Corporation. Tous droits rservs. Copyright Yahoo! Inc. Tous droits rservs. Copyright Glyph & Cog, LLC. Tous droits rservs. Copyright Thinkmap, Inc. Tous droits rservs. Copyright Clearpace Software Limited. Tous droits rservs. Copyright Information Builders, Inc. Tous droits rservs. Copyright OSS Nokalva, Inc. Tous droits rservs. Copyright Edifecs, Inc. Tous droits rservs. Copyright Cleo Communications, Inc. Tous droits rservs. Copyright International Organization for Standardization 1986. Tous droits rservs. Copyright ej-technologies GmbH . Tous droits rservs. Copyright JasperSoft Corporation. Tous Droits Rservs. Ce produit contient des logiciels dvelopps par Apache Software Foundation (http://www.apache.org/), et d'autres logiciels sous licence Apache License, Version 2.0 (la Licence ). Vous pouvez obtenir une copie de la Licence sur http://www.apache.org/licenses/LICENSE-2.0. Sauf indication contraire dans la lgislation applicable ou par accord crit, le logiciel distribu sous la Licence est fourni EN L'TAT , SANS GARANTIES NI CONDITIONS D'AUCUNE SORTE, expresse ou implicite. Se reporter la Licence pour la langue spcifique rgissant les droits et limitations dans le cadre de la Licence Ce produit inclut des logiciels dvelopps par Mozilla (http://www.mozilla.org/), copyright de logiciel The JBoss Group, LLC, tous droits rservs ; copyright de logiciel 1999-2006 de Bruno Lowagie et Paulo Soares et d'autres logiciels sous licence GNU Lesser General Public License Agreement accessible sur http://www.gnu.org/licenses/ lgpl.html. Les matriaux sont fournis gratuitement par Informatica, en l'tat , sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de conformit lgale et d'usage normal. Le produit inclut les logiciels ACE(TM) et TAO(TM), copyright Douglas C. Schmidt et son groupe de recherche Washington University, University of California, Irvine, et Vanderbilt University, Copyright () 1993-2006, tous droits rservs. Ce produit inclut des logiciels dvelopps par OpenSSL Project pour une utilisation dans OpenSSL Toolkit (copyright The OpenSSL Project. Tous droits rservs) et la redistribution de ce logiciel est sujette aux termes publis sur http://www.openssl.org et http://www.openssl.org/source/license.html. Ce produit inclut le logiciel Curl, copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://curl.haxx.se/docs/copyright.html. L'autorisation d'utiliser, copier, modifier et distribuer ce logiciel toute fin, avec ou sans rmunration, est accorde par les prsentes, la condition que la notification de copyright ci-dessus et cette notification d'autorisation apparaissent dans toutes les copies. Le produit inclut des logiciels sous copyright 2001-2005 () MetaStuff, Ltd. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.dom4j.org/ license.html. Le produit inclut des logiciels sous copyright 2004-2007, The Dojo Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_. Ce produit inclut le logiciel ICU sous copyright de International Business Machines Corporation et autres. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://source.icu-project.org/repos/icu/icu/trunk/license.html. Ce produit inclut des logiciels sous copyright 1996-2006 Per Bothner. Tous droits rservs. Votre droit utiliser de tels matriels est dfini dans la licence qui peut tre consulte sur http://www.gnu.org/software/ kawa/Software-License.html. Ce produit inclut le logiciel OSSP UUID sous copyright 2002 Ralf S. Engelschall, copyright 2002 The OSSP Project Copyright 2002 Cable & Wireless Deutschland. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.opensource.org/licenses/mit-license.php. Ce produit inclut des logiciels dvelopps par Boost (http://www.boost.org/) ou sous licence de logiciel Boost. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_1_0.txt. Ce produit inclut des logiciels sous copyright 1997-2007 University of Cambridge. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.pcre.org/license.txt. Ce produit inclut des logiciels sous copyright 2007 The Eclipse Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.eclipse.org/org/documents/epl-v10.php. Ce produit contient un logiciel sous licence selon les conditions publies sur http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/?License, http:// www.stlport.org/doc/ license.html, http://www.asm.ow2.org/license.html, http://www.cryptix.org/LICENSE.TXT, http://hsqldb.org/web/hsqlLicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/OpenSourceLicense.html, http://fusesource.com/downloads/license-agreements/ fuse-message-broker-v-5-3- license-agreement ; http://antlr.org/license.html ; http://aopalliance.sourceforge.net/ ; http://www.bouncycastle.org/licence.html ; http:// www.jgraph.com/jgraphdownload.html ; http://www.jcraft.com/jsch/LICENSE.txt. http://jotm.objectweb.org/bsd_license.html ; http://www.w3.org/Consortium/Legal/2002/ copyright-software-20021231 ; http://www.slf4j.org/license.html ; http://developer.apple.com/library/mac/#samplecode/HelpHook/Listings/HelpHook_java.html ; http:// www.jcraft.com/jsch/LICENSE.txt ; http://nanoxml.sourceforge.net/orig/copyright.html ; http://www.json.org/license.html ; http://forge.ow2.org/projects/javaservice/, http://

www.postgresql.org/about/licence.html, http://www.sqlite.org/copyright.html, http://www.tcl.tk/software/tcltk/license.html, http://www.jaxen.org/faq.html, http://www.jdom.org/ docs/faq.html, and http://www.slf4j.org/license.html. Ce produit contient un logiciel sous licence Academic Free License (http://www.opensource.org/licenses/afl-3.0.php), licence Common Development Distribution License (http://www.opensource.org/licenses/cddl1.php) licence Common Public License (http://www.opensource.org/licenses/cpl1.0.php), licence Sun Binary Code License Agreement Supplemental License Terms, licence BSD License (http://www.opensource.org/licenses/bsd-license.php) et licence MIT License (http://www.opensource.org/ licenses/mit-license.php) et la licence artistique (Artistic License) (http://www.opensource.org/licenses/artistic-license-1.0). Ce produit inclut des logiciels sous copyright 2003-2006 Joe Walnes, 2006-2007 XStream Committers. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://xstream.codehaus.org/license.html. Ce produit inclut des logiciels dvelopps par Indiana University Extreme! Lab. Pour plus d'informations, veuillez vous rendre sur http://www.extreme.indiana.edu/. Ce logiciel est protg par les numros de brevets des tats-Unis 5 794 246 ; 6 014 670 ; 6 016 501 ; 6 029 178 ; 6 032 158 ; 6 035 307 ; 6 044 374 ; 6 092 086 ; 6 208 990 ; 6 339 775 ; 6 640 226 ; 6 789 096 ; 6 820 077 ; 6 823 373 ; 6 850 947 ; 6 895 471 ; 7 117 215 ; 7 162 643 ; 7 254 590 ; 7 281 001 ; 7 421 458 ; 7 496 588 ; 7 523 121 ; 7 584 422 ; 7 720 842 ; 7 721 270 et 7 774 791, des brevets internationaux et d'autres brevets en cours. EXCLUSION DE RESPONSABILIT : Informatica Corporation fournit cette documentation en l'tat sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de non-infraction, de conformit lgale ou d'usage normal. Informatica Corporation ne garantit pas que ce logiciel ou cette documentation est exempt d'erreurs. Les informations fournies dans ce logiciel ou cette documentation peuvent inclure des inexactitudes techniques ou des erreurs typographiques. Les informations contenues dans ce logiciel et sa documentation sont sujettes modification tout moment sans pravis. AVIS Ce produit Informatica (le Logiciel ) inclut certains pilotes (les Pilotes DataDirect ) de DataDirect Technologies, une socit de Progress Software Corporation ( DataDirect ) qui sont sujets aux conditions suivantes : 1. LES PILOTES DATADIRECT SONT FOURNIS EN L'TAT , SANS GARANTIE D'AUCUNE SORTE, EXPRESSE OU IMPLICITE, NOTAMMENT LES GARANTIES IMPLICITES DE CONFORMIT LGALE, D'USAGE NORMAL ET DE NON-INFRACTION. 2. DATADIRECT OU SES FOURNISSEURS TIERS NE POURRONT EN AUCUN CAS TRE TENUS RESPONSABLES ENVERS LE CLIENT UTILISATEUR FINAL DE TOUT DOMMAGE DIRECT, ACCESSOIRE, INDIRECT, SPCIAL, CONSCUTIF OU AUTRE RSULTANT DE LUTILISATION DES PILOTES ODBC, QUILS SOIENT INFORMS OU NON LAVANCE DE LA POSSIBILIT DE TELS DOMMAGES. CES LIMITATIONS SAPPLIQUENT TOUTES LES CAUSES DACTION, NOTAMMENT TOUTE INFRACTION AU CONTRAT, INFRACTION LA GARANTIE, NGLIGENCE, RESPONSABILIT STRICTE, REPRSENTATION INCORRECTE ET AUTRES TORTS. Numro de rfrence : IN-QSG-91000-HF3-0001

Sommaire
Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Ressources Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Portail des clients Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Documentation Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Site Web Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Bibliothque de procdures Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances multimdia Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Support client international Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

Chapitre 1: Prsentation de la mise en route. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


Prsentation du domaine Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Fonctionnalits disponibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Introduction Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Informatica Developer - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Page d'accueil Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Feuilles d'aide. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Qualit des donnes et Explorateur de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Scnario du tutoriel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Structure du tutoriel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Tutoriel de Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Outil Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Prrequis du tutoriel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Partie I: Dbuter avec Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Chapitre 2: Leon 1. Configuration de Informatica Analyst. . . . . . . . . . . . . . . . . . . . . 12
Configuration de Informatica Analyst - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Tche 1. Se connecter Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Tche 2. Crer un projet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Tche 3. Crer un dossier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Configuration de Informatica Analyst - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Chapitre 3: Leon 2. Cration d'objets de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 15


Cration d'objets de donnes - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Tche 1. Crer les objets de donnes de fichier plat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Tche 2. Prvisualiser les donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Cration d'objets de donnes - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Sommaire

Chapitre 4: Leon 3. Cration de profils rapides. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


Cration de profils rapides - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Tche 1. Crer et excuter un profil rapide. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Tche 2. Afficher les rsultats de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Cration de profils rapides - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Chapitre 5: Leon 4. Cration de profils personnaliss. . . . . . . . . . . . . . . . . . . . . . . . 21


Cration de profils personnaliss -Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Tche 1. Crer un profil personnalis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Tche 2. Excuter le profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Tche 3. Dvelopper les rsultats de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Cration de profils personnaliss - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Chapitre 6: Leon 5. Cration de rgles d'expression. . . . . . . . . . . . . . . . . . . . . . . . . 24


Cration de rgles d'expression - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Tche 1. Crer des rgles d'expression et excuter le profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Tche 2. Afficher la sortie de la rgle d'expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Tche 3. diter les rgles d'expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Cration de rgles d'expression - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Chapitre 7: Leon 6. Cration et excution de fiches d'valuation. . . . . . . . . . . . . . . 27


Cration et de excution de fiches d'valuation - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Tche 1. Crer une fiche d'valuation partir des rsultats de profil. . . . . . . . . . . . . . . . . . . . . . . . 28 Tche 2. Excuter la fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Tche 3. Afficher la fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Tche 4. diter la fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Tche 5. Configurer les seuils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Tche 6. Afficher les graphes de tendance de score. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Cration et de excution de fiches d'valuation - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Chapitre 8: Leon 7. Cration de tables de rfrence partir des colonnes de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31


Cration de tables de rfrence partir des colonnes de profil - Prsentation. . . . . . . . . . . . . . . . . . 31 Tche 1. Crer une table de rfrence partir des colonnes de profil. . . . . . . . . . . . . . . . . . . . . . . 32 Tche 2. diter la table de rfrence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Cration de tables de rfrence partir des colonnes de profil - Rsum. . . . . . . . . . . . . . . . . . . . . 34

Chapitre 9: Leon 8. Cration de tables de rfrence. . . . . . . . . . . . . . . . . . . . . . . . . 35


Cration de tables de rfrence - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Tche 1. Crer une table de rfrence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Cration de tables de rfrence - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

ii

Sommaire

Partie II: Dbuter avec Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chapitre 10: Leon 1. Configuration de Informatica Developer. . . . . . . . . . . . . . . . . . 38
Configuration de Informatica Developer - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Tche 1. Dmarrer Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Tche 2. Ajouter un domaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Tche 3. Ajouter un rfrentiel modle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 4. Crer un projet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 5. Crer un dossier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 6. Slectionner un service Data Integration Service par dfaut.. . . . . . . . . . . . . . . . . . . . . . . 41 Configuration de Informatica Developer - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Chapitre 11: Leon 2. Importation d'objets de donnes physiques. . . . . . . . . . . . . . . 42


Importation d'objets de donnes physiques - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Tche 1. Importer l'objet de donnes de fichier plat Boston_Customers. . . . . . . . . . . . . . . . . . . . . . 43 Tche 2. Importer l'objet de donnes de fichier plat LA_Customers. . . . . . . . . . . . . . . . . . . . . . . . . 43 Tche 3. Importer l'objet de donnes de fichier plat All_Customers. . . . . . . . . . . . . . . . . . . . . . . . . 44 Importation d'objets de donnes physiques - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Chapitre 12: Leon 3. Profilage des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46


Profilage des donnes - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Tche 1. Effectuer une analyse de jointure sur deux sources de donnes. . . . . . . . . . . . . . . . . . . . . 47 Tche 2. Afficher les rsultats de l'analyse de jointure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Tche 3. Excuter un profil sur une source de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Tche 4. Afficher les rsultats de profilage de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Profilage des donnes Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Chapitre 13: Leon 4. Analyse des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51


Prsentation de l'analyse des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tche 1. Cration d'un objet de donnes cible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 tape 1. Cration d'un objet de donnes LA_Customers_tgt. . . . . . . . . . . . . . . . . . . . . . . 52 tape 2. Configuration des options Lire et crire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 tape 3. Ajout de colonnes l'objet de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Tche 2. Cration d'un mappage pour analyser les donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 tape 1. Cration d'un mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 tape 2. Ajout d'objets de donnes au mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 tape 3. Ajout d'une transformation Analyseur au mappage. . . . . . . . . . . . . . . . . . . . . . . . 55 tape 4. Configuration de la transformation Analyseur. . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Tche 3. Excution d'un profil sur la transformation Analyseur. . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Tche 4. Excution du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Tche 5. Affichage de la sortie du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Rsum de l'analyse des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Sommaire

iii

Chapitre 14: Leon 5. Normalisation des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . 58


Prsentation de la normalisation des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Tche 1. Cration d'un objet de donnes cible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 tape 1. Cration d'un objet de donnes All_Customers_Stdz_tgt. . . . . . . . . . . . . . . . . . . . 59 tape 2. Configuration des options Lire et crire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Tche 2. Cration d'un mappage pour normaliser les donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 tape 1. Cration d'un mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 tape 2. Ajout d'objets de donnes au mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 tape 3. Ajout d'une transformation Normalisation au mappage. . . . . . . . . . . . . . . . . . . . . 61 tape 4. Configuration de la transformation Normalisation. . . . . . . . . . . . . . . . . . . . . . . . . 62 Tche 3. Excution du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Tche 4. Affichage de la sortie du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Rsum de la normalisation des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Chapitre 15: Leon 6. Validation des donnes d'adresse. . . . . . . . . . . . . . . . . . . . . . 64


Prsentation de la validation des donnes d'adresse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Tche 1. Cration d'un objet de donnes cible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 tape 1. Crez l'objet de donnes All_Customers_av_tgt. . . . . . . . . . . . . . . . . . . . . . . . . 66 tape 2. Configuration des options Lire et crire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 tape 3. Ajout de ports l'objet de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Tche 2. Cration d'un mappage pour valider les adresses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 tape 1. Cration d'un mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 tape 2. Ajout d'objets de donnes au mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 tape 3. Ajout d'une transformation du validateur d'adresses au mappage. . . . . . . . . . . . . . 68 Tche 3. Configuration de la transformation du validateur d'adresses. . . . . . . . . . . . . . . . . . . . . . . 68 tape 1. Dfinition du jeu de donnes de rfrence d'adresses par dfaut. . . . . . . . . . . . . . 69 tape 2. Configuration des ports d'entre de la transformation du validateur d'adresses. . . . . 69 tape 3. Configuration de la transformation du validateur d'adresses. . . . . . . . . . . . . . . . . . 70 tape 4. Connexion des ports inutiliss de la source de donnes la cible des donnes. . . . . 71 Tche 4. Excution du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Tche 5. Affichage de la sortie du mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Rsum de la validation des donnes d'adresse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Annexe A: Forum Aux Questions (FAQ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74


FAQ Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Foire Aux Questions (FAQ) Informatica Developer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

iv

Sommaire

Prface
Le Guide de dmarrage Data Quality a t rdig l'attention des dveloppeurs et analystes de qualit des donnes. Il fournit des tutoriels pour aider les utilisateurs dbutants se familiariser avec Informatica Developer et Informatica Analyst. Ce guide suppose une comprhension des concepts de qualit des donnes, des concepts de fichiers plats et de bases de donnes relationnelles, ainsi que des moteurs de base de donnes dans votre environnement.

Ressources Informatica
Portail des clients Informatica
En tant que client Informatica, vous avez accs au portail des clients Informatica sur http://mysupport.informatica.com Ce site contient des informations sur les produits et les groupes dutilisateurs, des bulletins dinformation, un lien vers le systme de gestion des dossiers dassistance la client dInformatica (ATLAS), une bibliothque de procdures Informatica, une base de connaissances Informatica, une base de connaissances multimdia Informatica, ainsi que la documentation ncessaire sur les produits Informatica et laccs sa communaut dutilisateurs.

Documentation Informatica
Lquipe Documentation dInformatica sefforce de fournir une documentation prcise et utilisable. Nhsitez pas contacter lquipe Documentation dInformatica par courriel ladresse infa_documentation@informatica.com pour lui faire part de vos questions, commentaires ou suggestions concernant cette documentation. Ces commentaires et suggestions nous permettront damliorer notre documentation. Veuillez prciser si vous acceptez dtre contact au sujet de ces commentaires. Lquipe Documentation met jour la documentation chaque fois que ncessaire. Pour obtenir la toute dernire version de la documentation concernant votre produit, consultez la Documentation de produit sur http://mysupport.informatica.com.

Site Web Informatica


Vous pouvez accder au site Web dentreprise Informatica sur http://www.informatica.com. Le site contient des informations sur Informatica, son expertise, les vnements venir et les bureaux de vente. Vous y trouverez aussi des informations sur ses produits et ses partenaires. Les rubriques de service du site fournissent des informations importantes sur le support technique, la formation et lducation, ainsi que les services dimplmentation.

Bibliothque de procdures Informatica


En tant que client Informatica, vous avez accs la bibliothque de procdures Informatica sur http://mysupport.informatica.com La bibliothque de procdures Informatica est une collection de ressources destine vous familiariser avec les produits Informatica et leurs fonctionnalits. Elle regroupe des articles et des dmonstrations interactives qui permettent de rsoudre des problmes courants et de comparer les fonctionnalits et les comportements, et qui vous guident lors de la ralisation de tches concrtes spcifiques.

Base de connaissances Informatica


En tant que client Informatica, vous avez accs la base de connaissances Informatica sur http://mysupport.informatica.com Utilisez la base de connaissances pour rechercher des solutions documentes aux problmes techniques connus concernant les produits Informatica. Vous y trouverez galement la rponse aux questions les plus frquentes, des livres blancs et des conseils techniques. Nhsitez pas contacter lquipe Base de connaissances Informatica par courriel ladresse KB_Feedback@informatica.com pour lui faire part de vos questions, commentaires et suggestions concernant la base de connaissances.

Base de connaissances multimdia Informatica


En tant que client Informatica, vous avez accs la base de connaissances multimdia Informatica sur http://mysupport.informatica.com La base de connaissances multimdia Informatica est un ensemble de tutoriels multimdias qui vous aide vous familiariser avec les concepts lmentaires en vous guidant au cours de tches spcifiques. Nhsitez pas contacter lquipe Base de connaissances Informatica par courriel ladresse KB_Feedback@informatica.com pour lui faire part de vos questions, commentaires et suggestions concernant la base de connaissances multimdia.

Support client international Informatica


Vous pouvez contacter un Centre de support client par tlphone ou via lassistance en ligne. Lassistance en ligne requiert un nom dutilisateur et un mot de passe. Vous pouvez demander un nom dutilisateur et un mot de passe sur http://mysupport.informatica.com. Utilisez les numros de tlphone suivants pour contacter le Support client international Informatica :
Amrique du Nord/Amrique du Sud Numro gratuit Brsil : 0800 891 0202 Mexique : 001 888 209 8853 Amrique du Nord : +1 877 463 2435 Europe/Moyen-Orient/Afrique Numro gratuit France : 0805 804632 Allemagne : 0800 5891281 Italie : 800 915 985 Pays-Bas : 0800 2300001 Portugal : 800 208 360 Espagne : 900 813 166 Suisse : 0800 463 200 Royaume-Uni : 0800 023 4632 Tarif standard Inde : +91 80 4112 5738 Asie/Australie Numro gratuit Australie : 1 800 151 830 Nouvelle-Zlande : 09 9 128 901

Tarif standard Belgique : +31 30 6022 797 France : +33 1 4138 9226 Allemagne : +49 1805 702 702

vi

Prface

Amrique du Nord/Amrique du Sud

Europe/Moyen-Orient/Afrique Pays-Bas : +31 306 022 797 Royaume-Uni : +44 1628 511445

Asie/Australie

Prface

vii

viii

CHAPITRE 1

Prsentation de la mise en route


Ce chapitre comprend les rubriques suivantes :
Prsentation du domaine Informatica, 1 Introduction Informatica Analyst, 4 Informatica Developer - Prsentation, 5 Scnario du tutoriel, 8 Structure du tutoriel, 8

Prsentation du domaine Informatica


Informatica utilise une architecture oriente service qui offre la possibilit de dimensionner les services et de partager les ressources entre plusieurs machines. Le domaine Informatica est l'unit principale de gestion et d'administration des services. Informatica contient les composants suivants :
Clients d'application. Groupe de clients que vous utilisez pour accder aux fonctionnalits sous-jacentes

d'Informatica. Les clients d'application font des demandes au gestionnaire de service ou aux services d'application.
Services d'application. Groupe de services qui reprsente la fonctionnalit base sur serveur. Un domaine

Informatica peut contenir un sous-ensemble de services d'application. Vous configurez les services d'application requis par les clients d'application utiliss.
Rfrentiels. Groupe de bases de donnes relationnelles qui stockent des mtadonnes sur des objets et

processus requis pour traiter les demandes des clients d'application.


Gestionnaire de service. Service intgr au domaine pour grer toutes les oprations du domaine. Le

gestionnaire de service excute les services d'application, ainsi que des fonctions de domaine, notamment les authentifications, les autorisations et les connexions. Vous pouvez vous connecter Informatica Administrator aprs avoir install Informatica. Vous pouvez utiliser Administrator Tool pour grer le domaine et configurer les services d'application afin de pouvoir accder aux clients d'application restants.

La figure suivante illustre les services d'application et les rfrentiels que chaque client d'application utilise dans un domaine Informatica :

Le tableau suivant rpertorie les clients d'application, l'exception d'Administrator Tool, des services d'application et des rfrentiels requis par le client :
Client d'application Analyseur de donnes Rapports et tableaux de bord d'Informatica Informatica Analyst Services d'application Service de rapports Service de rapports et de tableaux de bord - Analyst Service - Data Integration Service - Model Repository Service Analyst Service Content Management Service Data Integration Service Model Repository Service Rfrentiels Rfrentiel de l'analyseur de donnes Rfrentiel Jaspersoft

Rfrentiel modle

Informatica Developer

Rfrentiel modle

Metadata Manager

- Metadata Manager Service - PowerCenter Integration Service - PowerCenter Repository Service

- Rfrentiel Metadata Manager - Rfrentiel PowerCenter

Chapitre 1: Prsentation de la mise en route

Client d'application Client PowerCenter

Services d'application - PowerCenter Integration Service - PowerCenter Repository Service - PowerCenter Integration Service - PowerCenter Repository Service - Web Services Hub

Rfrentiels Rfrentiel PowerCenter

Console Web Services Hub

Rfrentiel PowerCenter

Un client d'application Informatica n'accde pas aux services d'application suivants :


PowerExchange Listener Service. Gre le programme d'coute PowerExchange pour les mouvements de

donnes massifs et la capture des modifications de donnes. PowerCenter Integration Service se connecte au programme d'coute PowerExchange via Listener Service.
PowerExchange Logger Service. Gre l'enregistreur PowerExchange pour Linux, UNIX et Windows afin de

capturer les donnes modifies et les enregistrer dans les fichiers journaux de l'enregistreur PowerExchange. Le donnes modifies peuvent provenir des journaux de reprise DB2, les journaux de rtablissement Oracle, d'une base de donne de distribution Microsoft SQL Server ou des sources de donnes sur un systme i5/OS ou z/OS.
SAP BW Service. coute les demandes RFC issues de SAP BI et demande que PowerCenter Integration

Service excute le flux des fins d'extraction de ou de chargement dans SAP BI.

Fonctionnalits disponibles
Les produits Informatica 9.1.0 utilisent un ensemble commun d'applications. Les fonctionnalits du produit que vous pouvez utiliser dpendent de votre licence de produit. Le tableau suivant dcrit les options de licence et les fonctionnalits applicatives disponibles avec chaque option :
Option de licence Data Explorer Fonctionnalits Informatica Developer - Profilage - Fiches d'valuation Fonctionnalits Informatica Analyst - Profilage - Fiches d'valuation - Cration et excution de rgles de profilage - Gestion de table de rfrence Profilage Fiches d'valuation Gestion de table de rfrence Cration de rgles de profilage Excution de rgles dans les profils Gestion des enregistrements errons et dupliqus

Data Quality

- Cration et excution de mappages avec toutes les transformations - Cration et excution de rgles - Profilage - Fiches d'valuation - Exportation d'objets vers PowerCenter

Prsentation du domaine Informatica

Option de licence Data Services

Fonctionnalits Informatica Developer - Cration de modles d'objet de donnes logique - Cration et excution de mappages avec les transformations Data Services - Cration de services de donnes SQL - Cration de services Web - Exportation d'objets vers PowerCenter - Cration de modles d'objet de donnes logique - Cration et excution de mappages avec les transformations Data Services - Cration de services de donnes SQL - Cration de services Web - Exportation d'objets vers PowerCenter - Cration et excution de rgles avec les transformations Data Services - Profilage

Fonctionnalits Informatica Analyst - Gestion de table de rfrence

Options de Data Services et de profilage

- Gestion de table de rfrence

Introduction Informatica Analyst


Informatica Analyst est un client d'application bas sur le Web que les analystes peuvent utiliser pour analyser, nettoyer, normaliser, effectuer le profil et valuer les donnes dans une entreprise. Les analystes et programmeurs d'entreprise utilisent Informatica Analyst pour une collaboration oriente donnes. Vous pouvez effectuer un profilage de colonnes et de rgles, traiter des fiches d'valuation et grer les enregistrements incorrects et les enregistrements dupliqus. Vous pouvez galement grer les donnes de rfrence et fournir les donnes aux programmeurs dans le cadre d'une solution de qualit des donnes. Utilisez Informatica Analyst pour raliser les tches suivantes :
Effectuer le profil des donnes. Crez et excutez un profil pour analyser la structure et le contenu des

donnes d'entreprise et identifier les points forts et les faiblesses. Aprs avoir excut un profil, vous pouvez excuter une analyse slective pour consulter les lignes sous-jacentes des rsultats de profil. Vous pouvez aussi ajouter des colonnes aux fiches d'valuation et des valeurs de colonne aux tables de rfrence.
Crer des rgles dans les profils. Crez et appliquez des rgles dans les profils. Une rgle est une logique

mtier rutilisable qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes.
valuer les donnes. Crez des fiches d'valuation pour valuer les valeurs valides de n'importe quelle

colonne ou la sortie des rgles. Les fiches d'valuation affichent la frquence des valeurs dans les colonnes d'un profil sous forme de score. Utilisez les fiches d'valuation pour mesurer et reprsenter visuellement la progression de la qualit des donnes. Vous pouvez aussi afficher les graphiques de tendance pour visualiser l'historique des scores dans le temps.
Grer les donnes de rfrence. Utilisez des tables de rfrence pour vrifier que les valeurs de la source de

donnes sont exactes et correctement formates. Vous pouvez crer des tables de rfrence partir de fichiers plats et de donnes de bases de donnes. Vous pouvez installer des tables de rfrence Informatica avec le programme d'installation de contenu Data Quality.
Grer des enregistrements incorrects et des enregistrements dupliqus. Rparez les enregistrements

incorrects et consolidez les enregistrements dupliqus.

Chapitre 1: Prsentation de la mise en route

Informatica Developer - Prsentation


Informatica Developer est un client d'application utilis par les dveloppeurs pour concevoir et implmenter des solutions de donnes. La figure suivante illustre l'outil Developer :

L'espace de travail de l'outil Developer affiche les vues suivantes par dfaut : Vue Explorateur d'objets Affiche les projets, les dossiers et les objets lintrieur des projets et des dossiers. Apparat dans la zone suprieure gauche de l'outil Developer. Vue Explorateur de connexion Affiche les connexions aux bases de donnes relationnelles. Apparat dans la zone suprieure droite de l'outil Developer. Vue Structure Affiche les objets qui dpendent d'un objet slectionn dans la vue Explorateur d'objets. Apparat dans la zone infrieure gauche de l'outil Developer. vue Proprits Affiche les proprits d'un objet slectionn dans l'diteur. Apparat dans la zone infrieure de l'outil Developer. Vous pouvez masquer et dplacer des vues vers un autre emplacement dans lespace de travail de loutil Developer. Cliquez sur Fentre > Afficher la vue pour slectionner les vues afficher. Lespace de travail de loutil Developer affiche galement les vues suivantes :

Informatica Developer - Prsentation

Vue Feuilles d'aide Affiche la feuille daide que vous ouvrez. Pour ouvrir une feuille daide, cliquez sur Aide > Feuilles daide et slectionnez une feuille daide. vue Aide Affiche l'aide en ligne contextuelle. Vue Excution Affiche l'avancement des oprations dans l'outil Developer, p. ex., une excution de mappage. Vue Recherche Affiche les rsultats de la recherche. Vous pouvez galement lancer la bote de dialogue options de recherche. Vue Balises Affiche les balises qui dfinissent un objet dans le rfrentiel modle bas sur l'utilisation mtier. Vue Journal de validation Affiche les erreurs de validation dobjets.

Page d'accueil Informatica Developer


La premire fois que vous ouvrez l'outil Developer, la page d'accueil apparat. Utilisez la page d'accueil pour en apprendre plus sur l'outil Developer, le configurer et commencer l'utiliser. La page d'accueil affiche les options suivantes :
Prsentation. Cliquez sur le bouton Prsentation pour obtenir une prsentation des solutions de qualit des

donnes et des services de donnes.


Premiers pas. Cliquez sur le bouton Premiers pas pour en savoir plus sur la configuration de l'outil Developer

et l'accs aux leons Informatica Data Quality et Informatica Data Services.


Tutoriels. Cliquez sur le bouton Tutoriels pour accder aux leons concernant les solutions de qualit et de

services de donnes.
Ressources Web. Cliquez sur le bouton Ressources Web pour accder au lien vers

mysupport.informatica.com. Vous avez accs la Bibliothque de procdures Informatica. La Bibliothque de procdures Informatica contient les articles sur Informatica Data Quality, Informatica Data Services, et d'autres produits Informatica.
Espace de travail. Cliquez sur le bouton Espace de travail pour commencer travailler dans l'outil Developer.

Feuilles d'aide
L'outil Developer inclut des feuilles d'aide faisant partie de l'aide en ligne. Une feuille d'aide vous guide, tape par tape, travers une ou plusieurs tches dans l'outil Developer. Aprs avoir termin la feuille d'aide, vous pouvez excuter les tches afin d'en vrifier les rsultats. Par exemple, aprs avoir termin une feuille d'aide pour importer et prvisualiser un objet de donnes relationnelles, vous avez import une table de base de donnes relationnelles et prvisualis les donnes dans l'outil Developer. Pour accder aux feuilles d'aide, cliquez sur Aide > Feuilles d'aide.

Chapitre 1: Prsentation de la mise en route

Qualit des donnes et Explorateur de donnes


Utilisez les fonctions de qualit des donnes de l'outil Developer pour analyser le contenu et la structure des donnes et les amliorer afin de rpondre aux besoins de votre entreprise. Utilisez l'outil Developer pour concevoir et excuter des processus qui ralisent les objectifs suivants :
Effectuer le profil des donnes. Le profilage rvle le contenu et la structure de vos donnes. Le profilage est

une tape cl dans tout projet de donnes, car il permet d'identifier les points forts et les points faibles de vos donnes, tout en vous aidant dfinir le plan de votre projet.
Crer des fiches d'valuation pour examiner la qualit des donnes. Une fiche d'valuation est une

reprsentation graphique des mesures de qualit dans un profil.


Normaliser les valeurs des donnes. Normalisez les donnes pour liminer les erreurs et les incohrences

dtectes lors de l'excution d'un profil. Vous pouvez normaliser les variations de ponctuation, de formatage et d'orthographe. Par exemple, vous pouvez vous assurer que les valeurs de ville, tat et code postal sont cohrentes.
Analyser les enregistrements. Analysez les enregistrements de donnes pour amliorer la structure des

enregistrements et tirer des informations supplmentaires de vos donnes. Vous pouvez diviser un champ de donnes de forme libre unique en champs qui contiennent diffrents types d'informations. Vous pouvez aussi ajouter des informations vos enregistrements. Par exemple, vous pouvez indiquer qu'un enregistrement concerne un client particulier ou d'entreprise.
Valider les adresses postales. La validation des adresses value et amliore l'exactitude et la possibilit de

livraison de vos donnes d'adresse postale. La validation des adresses corrige les erreurs dans les adresses et complte les adresses partielles en comparant les enregistrements d'adresse avec des donnes de rfrence provenant de transporteurs postaux nationaux. La validation des adresses peut aussi ajouter des informations postales qui acclrent la distribution du courrier tout en rduisant les cots associs.
Rechercher les enregistrements dupliqus. Une analyse d'enregistrements dupliqus compare un ensemble

d'enregistrements entre eux pour dtecter les doublons ou valeurs comparables dans les colonnes de donnes slectionnes. Vous devez dfinir le niveau de similarit qui indique une bonne correspondance entre des valeurs de champ. Vous pouvez aussi dfinir le poids relatif donn chaque colonne dans les calculs de correspondance. Par exemple, vous pouvez donner la priorit aux informations de nom de famille sur les informations de prnom.
Crer et excuter des rgles de qualit des donnes. Informatica fournit des rgles prdfinies que vous

pouvez excuter ou modifier pour correspondre aux objectifs de votre projet. Vous pouvez crer des rgles dans l'outil Developer.
Collaborer avec les utilisateurs d'Informatica. Les rgles et tables de donnes de rfrence que vous ajoutez

au rfrentiel modle sont accessibles aux utilisateurs des outils Developer et Analyst. Les utilisateurs peuvent collaborer sur des projets et diffrents utilisateurs peuvent s'approprier des objets diffrentes phases d'un projet.
Exporter des mappages vers PowerCenter. Vous pouvez exporter des mappages vers PowerCenter afin de

rutiliser les mtadonnes pour une intgration physique des donnes ou pour crer des services Web. Les utilisateurs de Data Quality peuvent effectuer toutes les tches ci-dessus. Les utilisateurs de l'Explorateur de donnes peuvent effectuer des oprations de profilage supplmentaires, y compris lanalyse de cl primaire et de cl trangre, dans l'outil Developer.

Informatica Developer - Prsentation

Scnario du tutoriel
HypoStores Corporation est une organisation de grande distribution l'chelle nationale qui, de son sige social Boston, gre des magasins dans plusieurs tats. Elle intgre rgulirement les donnes oprationnelles de ses magasins travers le pays dans l'entrept de donnes du sige social. Elle a rcemment ouvert un magasin Los Angeles. Le sige social comprend une quipe ICC centrale forme d'administrateurs, de dveloppeurs et d'architectes chargs de fournir une couche de services de donnes commune toutes les applications composites et BI (Business Intelligence). Les applications BI comprennent un systme de gestion de la clientle CRM (Customer Relation Management) qui contient les fichiers matres des donnes clients utiliss pour la facturation et le marketing. HypoStores Corporation doit effectuer les tches suivantes pour intgrer les donnes des oprations de Los Angeles celles du sige social de Boston.
Vrifier que les donnes de Boston et de Los Angeles ne comportent pas de problme en termes de qualit. Analyser les informations partir des donnes de Los Angeles. Normaliser les informations d'adresse pour les donnes de Boston et de Los Angeles. Valider l'exactitude des informations d'adresse postale dans les donnes des fins de CRM.

Structure du tutoriel
Le Guide de dmarrage contient des tutoriels composs de leons et de tches.

Leons
Chaque leon prsente des concepts qui vous aideront comprendre les tches raliser dans la leon. La leon fournit des spcifications d'entreprise extraites du scnario global. Les objectifs de la leon sont de mettre en vidence les tches que vous excuterez pour remplir les spcifications de l'entreprise. Chaque leon donne une dure approximative de son suivi. Lorsque vous avez termin les tches de la leon, vous pouvez en consulter le rsum. Si l'environnement de l'outil n'est pas configur, la premire leon de chaque tutoriel vous permet de le faire.

Tches
Les tches fournissent des instructions tape par tape. Effectuez toutes les tches dans l'ordre indiqu pour suivre la leon.

Tutoriel de Informatica Analyst


Au cours de ce tutoriel, un analyste se connecte l'outil Analyst pour crer des projets et dossiers, des profils et rgles, des donnes de score, ainsi que des tables de rfrence. Les leons que vous pouvez suivre dpendent des produits dont vous disposez : Informatica Data Quality, Informatica Data Explorer, Informatica Data Services ou PowerCenter.

Chapitre 1: Prsentation de la mise en route

Le tableau suivant dcrit les leons que vous pouvez suivre selon votre produit.
Leon Leon 1. Configuration de Informatica Analyst Description Connectez-vous l'outil Analyst et crez un projet et un dossier pour les leons du tutoriel. Importez un fichier plat comme objet de donnes et prvisualisez les donnes. Cration d'un profil rapide pour obtenir rapidement une ide de la qualit des donnes. Crez un profil personnalis pour configurer des colonnes et des options d'chantillonnage et de dveloppement. Crez des rgles d'expression pour modifier et effectuer le profil des valeurs de colonne. Crez et excutez une fiche d'valuation pour mesurer la progression de la qualit des donnes dans le temps. Crez une table de rfrence que vous pouvez utiliser pour normaliser les donnes source. Crez une table de rfrence pour tablir des relations entre les donnes source et des valeurs standard valides. Produit Tous

Leon 2. Cration d'objets de donnes

Data Quality Data Explorer Data Quality Data Explorer

Leon 3. Cration de profils rapides

Leon 4. Cration de profils personnaliss

Data Quality Data Explorer

Leon 5. Cration de rgles d'expression

Data Quality

Leon 6. Cration et excution de fiches d'valuation

Data Quality Data Explorer

Leon 7. Cration de tables de rfrence partir des rsultats de profil

Data Quality Data Explorer Data Services Tous

Leon 8. Cration de tables de rfrence

Remarque: Ce tutoriel n'inclut pas de leons sur la gestion des enregistrements incorrects et de la consolidation des enregistrements.

Outil Informatica Developer


Dans ce tutoriel, vous allez utiliser l'outil Developer pour effectuer plusieurs oprations de qualit des donnes. Les utilisateurs de Informatica Data Quality et de Informatica Data Explorer utilisent l'outil Developer pour crer et excuter des profils qui analysent le contenu et la structure des donnes. Les utilisateurs de Informatica Data Quality utilisent l'outil Developer pour concevoir et excuter des processus qui amliorent la qualit des donnes. Suivez les leons suivantes dans le tutoriel Data Quality :

Leon 1. Configuration de Informatica Developer


Crez une connexion un rfrentiel modle gr par un service Model Repository Service dans un domaine. Crez un projet et un dossier afin d'y stocker votre travail pour les leons du tutoriel. Slectionnez un service Data Integration Service par dfaut.

Structure du tutoriel

Leon 2. Importation d'objets de donnes physiques


Vous allez dfinir des processus de qualit des donnes pour les fichiers de donnes clients associs ces objets.

Leon 3. Profilage des donnes


Le profilage rvle le contenu et la structure de vos donnes. Le profilage inclut une analyse de jointure, savoir une forme d'analyse qui dtermine si une jointure valide est possible entre deux colonnes de donnes.

Leon 4. Analyse de donnes


L'analyse enrichit vos enregistrements de donnes et amliore la structure des enregistrements. Elle peut trouver des informations utiles dans vos donnes et tirer de nouvelles informations des donnes actuelles.

Leon 5. Normalisation des donnes


La normalisation limine les erreurs de donnes et les incohrences dtectes lors du profilage.

Leon 6. Validation des donnes d'adresse


La validation des adresses value l'exactitude et la possibilit de livraison de vos adresses postales et rpare les erreurs et omissions dans les adresses.

Prrequis du tutoriel
Avant de commencer les leons du tutoriel, le domaine Informatica doit tre actif avec au moins un nud configur. Le programme d'installation comprend des fichiers de tutoriel dont vous aurez besoin pour suivre les leons. Vous trouverez tous les fichiers la fois dans les installations client et serveur :
Vous trouverez les fichiers du tutoriel dans l'emplacement suivant du chemin d'installation de l'outil Developer : <Rpertoire d'installation Informatica>\clients\DeveloperClient\Tutorials Vous trouverez les fichiers du tutoriel dans l'emplacement suivant du chemin d'installation des services : <Rpertoire d'installation Informatica>\server\Tutorials

Vous avez besoin des fichiers suivants pour les leons du tutoriel :
All_Customers.csv Boston_Customers.csv LA_customers.csv

10

Chapitre 1: Prsentation de la mise en route

Partie I : Dbuter avec Informatica Analyst


Cette partie contient les chapitres suivants :
Leon 1. Configuration de Informatica Analyst, 12 Leon 2. Cration d'objets de donnes, 15 Leon 3. Cration de profils rapides, 18 Leon 4. Cration de profils personnaliss, 21 Leon 5. Cration de rgles d'expression, 24 Leon 6. Cration et excution de fiches d'valuation, 27 Leon 7. Cration de tables de rfrence partir des colonnes de profil, 31 Leon 8. Cration de tables de rfrence, 35

11

CHAPITRE 2

Leon 1. Configuration de Informatica Analyst


Ce chapitre comprend les rubriques suivantes :
Configuration de Informatica Analyst - Prsentation, 12 Tche 1. Se connecter Informatica Analyst, 13 Tche 2. Crer un projet, 13 Tche 3. Crer un dossier, 14 Configuration de Informatica Analyst - Rsum, 14

Configuration de Informatica Analyst - Prsentation


Avant de commencer les leons de ce tutoriel, vous devez configurer l'outil Analyst. Pour configurer l'outil Analyst, connectez-vous l'outil Analyst et crez un projet et un dossier pour stocker votre travail. Le domaine Informatica est une collection de nuds et de services qui dfinissent l'environnement Informatica. Les services du domaine incluent Analyst Service et Model Repository Service. Analyst Service excute l'outil Analyst et Model Repository Service gre le rfrentiel modle. Lorsque vous travaillez dans l'outil Analyst, l'outil Analyst stocke les objets que vous crez dans le rfrentiel modle. Vous devez crer un projet avant de pouvoir crer des objets dans l'outil Analyst. Un projet contient des objets dans l'outil Analyst. Un projet peut aussi contenir des dossiers qui stockent les objets associs, tels que des objets qui font partie des mmes spcifications d'entreprise.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Vous connecter l'outil Analyst. Crer un projet pour stocker les objets dfinis dans l'outil Developer. Crer un dossier en mesure de stocker des objets associs dans le projet.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Un administrateur a configur Model Repository Service et Analyst Service dans l'outil Administrator. Vous disposez du nom d'hte et du numro de port pour l'outil Analyst.

12

Vous disposez d'un nom d'utilisateur et d'un mot de passe pour accder Analyst Service. Vous pouvez

obtenir ces informations auprs de l'administrateur.

Dlai
Prvoyez 5 10 minutes pour cette leon.

Tche 1. Se connecter Informatica Analyst


Connectez-vous l'outil Analyst pour commencer le tutoriel. 1. 2. 3. 4. Dmarrez un navigateur Microsoft Internet Explorer ou Mozilla Firefox. Dans le champ Adresse, entrez l'URL d'Informatica Analyst :
http[s]://<host name>:<port number>/AnalystTool

Sur la page de connexion, entrez votre nom d'utilisateur et le mot de passe. Slectionnez Natif ou le nom d'un domaine de scurit spcifique. Le champ Domaine de scurit s'affiche lorsque le domaine Informatica contient un domaine de scurit LDAP. Si vous ne connaissez pas le domaine de scurit auquel appartient votre compte utilisateur, contactez l'administrateur de domaine Informatica.

5.

Cliquez sur Connexion. L'cran d'accueil s'affiche.

6.

Cliquez sur Fermer pour quitter l'cran d'accueil et accder l'outil Analyst.

Tche 2. Crer un projet


Dans cette tche, vous allez crer un projet pour contenir les objets que vous crez dans l'outil Analyst. Crez un projet tutoriel pour contenir le dossier du projet de qualit de donnes. 1. Dans l'outil Analyst, slectionnez le dossier Projets dans le navigateur. Le navigateur est le panneau gauche dans l'interface Analyst. 2. Cliquez sur Actions > Nouveau Projet dans le navigateur. La fentre Nouveau projet s'affiche. 3. 4. 5. Entrez votre nom avec le prfixe Tutoriel_ comme nom du projet. Vrifiez que Non partag est slectionn. Cliquez sur OK.

Tche 1. Se connecter Informatica Analyst

13

Tche 3. Crer un dossier


Dans cette tche, vous allez crer un dossier pour stocker les objets associs. Vous pouvez crer un dossier dans un projet ou dans un autre dossier. Crez un dossier nomm Clients pour stocker les objets associs au projet de qualit de donnes. 1. 2. 3. 4. Dans le navigateur, slectionnez le projet du tutoriel. Cliquez sur Actions > Nouveau dossier. Saisissez Clients pour le nom de dossier. Cliquez sur OK. Le dossier apparat sous le projet tutoriel.

Configuration de Informatica Analyst - Rsum


Dans cette leon, vous avez appris que l'outil Analyst stocke les objets dans des projets et dossiers. Un rfrentiel modle contient des projets et des dossiers. Analyst Service excute l'outil Analyst. Model Repository Service gre le rfrentiel modle. Analyst Service et Model Repository Service sont des services d'application dans le domaine Informatica. Vous vous tes connect l'outil Analyst et avez cr un projet et un dossier. Maintenant, vous pouvez utiliser l'outil Developer pour suivre les autres leons de ce tutoriel.

14

Chapitre 2: Leon 1. Configuration de Informatica Analyst

CHAPITRE 3

Leon 2. Cration d'objets de donnes


Ce chapitre comprend les rubriques suivantes :
Cration d'objets de donnes - Prsentation, 15 Tche 1. Crer les objets de donnes de fichier plat, 16 Tche 2. Prvisualiser les donnes, 16 Cration d'objets de donnes - Rsum, 17

Cration d'objets de donnes - Prsentation


Dans l'outil Analyst, un objet de donnes est une reprsentation de donnes base sur un fichier plat ou une table de base de donnes relationnelles. Vous crez un fichier plat ou objet de table puis excutez un profil par rapport aux donnes du fichier plat ou la table de base de donnes relationnelles. Lorsque vous crez un objet de donnes de fichier plat dans l'outil Analyst, vous pouvez charger le fichier dans le cache du fichier plat sur la machine qui excute l'outil Analyst ou vous pouvez spcifier l'emplacement rseau o le fichier est stock.

Scnario
HypoStores conserve les donnes clients de Los Angeles dans des fichiers plats. HypoStores a besoin d'effectuer le profil et analyser les donnes et d'effectuer des tches de qualit des donnes.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Charger le fichier plat l'emplacement du cache de fichier plat et crer un objet de donnes. Prvisualiser les donnes pour l'objet de donnes de fichier plat.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez effectu la leon 1 de ce tutoriel. Vous disposez du fichier plat LA_Customers.csv. Vous pouvez tlcharger le fichier <Installation Root

Directory>\<Release Version>\clients\DeveloperClient\Tutorials.

Timing
Prvoyez 5 10 minutes pour effectuer cette tche.

15

Tche 1. Crer les objets de donnes de fichier plat


Dans cette tche, vous crez un objet de donnes fichier plat partir du fichier LA_Customers. 1. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Remarque: Vous devez slectionner le projet ou dossier dans lequel vous voulez crer l'objet de donnes fichier plat pour pouvoir le crer. 2. Cliquez sur Actions > Nouveau > Nouveau fichier plat. L'assistant Ajouter un fichier plat s'affiche. 3. 4. 5. Slectionnez Parcourir et charger et cliquez sur Parcourir. Allez l'emplacement de LA_Customers.csv et cliquez sur Ouvrir. Cliquez sur Suivant. Le panneau Choisissez le type dimportation affiche les options Dlimit et Largeur fixe. L'option par dfaut est Dlimit. 6. 7. 8. Cliquez sur Suivant. Dans Spcifier les lignes importer, slectionnez Importer partir de la premire ligne pour importer les noms de colonne partir de la premire ligne non vide. Cliquez sur Afficher. Le panneau des dtails est actualis pour afficher les titres de colonnes depuis la premire ligne. 9. Cliquez sur Suivant. Le panneau Attributs des colonnes affiche le type de donnes, la prcision, l'chelle et le format de chaque colonne. 10. 11. Pour les colonnes CreateDate et MiscDate, cliquez sur la case Type de donne et remplacez le type de donnes par date et heure. Cliquez sur Suivant. Le champ Nom affiche LA_Customers. 12. (Facultatif) Modifiez le nom du fichier et ajoutez une description. Le dossier Client est slectionn par dfaut sur le panneau en bas gauche. 13. Cliquez sur Terminer. L'objet de donnes s'affiche dans les contenus de dossier pour le dossier Clients.

Tche 2. Prvisualiser les donnes


Dans cette tche, vous prvisualisez les donnes de l'objet de donnes de fichier plat pour vrifier la structure et le contenu des donnes. 1. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Les contenus du dossier apparaissent dans le panneau Contenu. 2. Cliquez sur l'objet de donnes de fichier plat LA_Customers. L'objet de donnes s'ouvre dans un onglet. L'outil Analyst affiche les 100 premires lignes de l'objet de donnes de fichier plat dans la vue Prvisualisation de donnes.

16

Chapitre 3: Leon 2. Cration d'objets de donnes

3.

Cliquez sur la vue Proprits pour l'objet de donnes de fichier plat. La vue Proprits affiche le nom, la description et l'emplacement de l'objet de donnes. Elle affiche aussi les colonnes et proprits de colonne de l'objet de donnes.

Cration d'objets de donnes - Rsum


Dans cette leon, vous avez appris que les objets de donnes sont des reprsentations de donnes bases sur un fichier plat ou sur une table de base de donnes relationnelles. Vous avez appris que vous pouvez crer un objet de donnes de fichier plat et y prvisualiser les donnes. Vous avez charg un fichier plat et cr un objet de donnes de fichier plat, prvisualis les donnes pour l'objet de donnes, et affich les proprits pour l'objet de donnes. Aprs avoir cr un objet de donnes, vous crez un profil rapide pour l'objet de donnes dans la Leon 3, et vous crez un profil personnalis pour l'objet de donnes dans la Leon 4.

Cration d'objets de donnes - Rsum

17

CHAPITRE 4

Leon 3. Cration de profils rapides


Ce chapitre comprend les rubriques suivantes :
Cration de profils rapides - Prsentation, 18 Tche 1. Crer et excuter un profil rapide, 19 Tche 2. Afficher les rsultats de profil, 19 Cration de profils rapides - Rsum, 20

Cration de profils rapides - Prsentation


Un profil reprsente l'analyse de la qualit des donnes base sur le contenu et la structure des donnes. Un profil rapide est un profil que vous crez avec des options par dfaut. Utilisez un profil rapide pour obtenir des rsultats de profil sans configurer toutes les colonnes et options d'un profil. Crez et excutez un profil rapide pour analyser la qualit des donnes lorsque vous dmarrez un projet de qualit des donnes. Lorsque vous crez un objet de profil rapide, vous slectionnez l'objet de donnes et les colonnes d'objet de donnes que vous voulez analyser. Un profil rapide ignore la colonne de profil et la configuration des options. L'outil Analyst effectue le profilage sur le fichier plat temporaire pour l'objet de donnes de fichier plat.

Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. Avant de pouvoir intgrer les donnes dans l'entrept de donnes, elles doivent tre nettoyes. Vous tes l'analyste responsable de l'valuation de la qualit des donnes et de la transmission des informations au programmeur responsable du nettoyage des donnes. Vous voulez afficher rapidement les rsultats de profil et vous faire une premire ide de la qualit des donnes.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Crer et excuter un profil rapide pour l'objet de donnes fichier plat LA_Customers. Afficher les rsultats de profil.

Prrequis
Avant de commencer cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.

Timing
Prvoyez 5 10 minutes pour cette leon.

18

Tche 1. Crer et excuter un profil rapide


Dans cette tche, vous crez un profil rapide pour toutes les colonnes de l'objet de donnes et utilisez les options d'chantillonnage et de dveloppement par dfaut. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Dans le panneau Contenus, cliquez droite du lien de l'objet de donnes _LA. Ne cliquez pas sur le lien de l'objet. 3. Cliquez sur Actions > Nouveau > Nouveau profil. L'assistant Nouveau profil s'affiche. 4. Cliquez sur Enregistrer et excuter pour crer et excuter le profil. Analyst Tool cre le profil dans le mme projet et dossier que l'objet de donnes. Les rsultats du profil rapide s'affichent dans un nouvel onglet une fois que vous enregistrez et excutez le profil.

Tche 2. Afficher les rsultats de profil


Dans cette tche, vous utilisez la vue Profilage de colonne du profil LA_Customers afin d'avoir un aperu rapide des rsultats de profil. Le tableau suivant dcrit les informations qui s'affichent pour chaque colonne d'un profil :
Proprit Nom Valeurs uniques % uniques Null % Null Type de donnes Description Nom de la colonne dans le profil. Nombre de valeurs uniques dans la colonne Pourcentage des valeurs uniques dans la colonne. Nombre de valeurs null dans la colonne. Pourcentage des valeurs de colonne qui sont null. Type de donnes tir des valeurs de la colonne. L'outil Analyst peut tirer les types de donnes suivants partir des valeurs de colonne : String Varchar Dcimal Entier Null [-] % Induit Type de donne consign Valeur max. Pourcentage des valeurs qui correspondent au type de donnes induit par l'outil Analyst. Type de donnes dclar pour la colonne du projet profil. Valeur maximum dans la colonne.

Tche 1. Crer et excuter un profil rapide

19

Proprit Valeur min. Dernier profil Dveloppement

Description Valeur minimum dans la colonne. Date et heure o vous avez excut le profil pour la dernire fois. Si slectionn, permet le dveloppement des donnes en direct pour la colonne.

1.

Cliquez sur l'en-tte de la colonne Valeurs Null pour trier les valeurs. Notez que les colonnes Address2, Address3, City2, CreateDate, et MiscDate ont 100 % de valeurs null. Dans la Leon 4, vous crez un profil personnalis pour exclure ces colonnes.

2.

Cliquez sur la colonne Nom Complet. Les valeurs de la colonne s'affichent dans la vue Valeurs. Notez que les prnoms et noms de famille ne s'affichent pas dans des colonnes spares. Dans la Leon 5, vous crez une rgle pour sparer les prnoms et noms de famille dans des colonnes spares.

3.

Cliquez sur la colonne CustomerTier. Notez que les valeurs de CustomerTier sont incohrentes. Dans la Leon 6, vous crez une fiche d'valuation pour valuer les valeurs CustomerTier. Dans le Leon 7, vous crez un table de rfrence qu'un dveloppeur peur utiliser pour normaliser les valeurs CustomerTier.

4.

Cliquez sur la colonne Etat puis cliquez sur la vue Formes. Notez que 483 colonnes ont une forme XX, ce qui indique les valeurs valides. Dix-sept valeurs ne sont pas valides car elles ne correspondent pas la forme valide. Dans la Leon 6, vous crez une fiche d'valuation pour valuer les valeurs Etat.

Cration de profils rapides - Rsum


Dans cette leon, vous avez appris qu'un profil rapide affiche les rsultats de profil sans configurer toutes les colonnes et options d'chantillonnage de lignes pour un profil. Vous avez appris crer et excuter un profil rapide pour analyser la qualit des donnes lorsque vous dmarrez un projet de qualit des donnes. Vous avez aussi appris que l'outil Analyst effectue le profilage sur le fichier plat temporaire pour l'objet de donnes de fichier plat. Vous avez cr un profil rapide et analys les rsultats de profil. Vous avez obtenu de plus amples informations sur les colonnes du profil, y compris les valeurs null et types de donnes. Vous avez aussi utilis les valeurs de colonne et formes pour identifier les problmes de qualit des donnes. Aprs avoir analys les rsultats d'un profil rapide, vous pouvez effectuer les tches suivantes :
Crer un profil personnalis pour exclure les colonnes du profil et inclure seulement les colonnes qui vous

intressent.
Crer une rgle d'expression pour crer des colonnes virtuelles et affectuer leur profil. Crer une table de rfrence pour inclure les valeurs valides d'une colonne.

20

Chapitre 4: Leon 3. Cration de profils rapides

CHAPITRE 5

Leon 4. Cration de profils personnaliss


Ce chapitre comprend les rubriques suivantes :
Cration de profils personnaliss -Prsentation, 21 Tche 1. Crer un profil personnalis, 22 Tche 2. Excuter le profil, 22 Tche 3. Dvelopper les rsultats de profil, 23 Cration de profils personnaliss - Rsum, 23

Cration de profils personnaliss -Prsentation


Un profil reprsente l'analyse de la qualit des donnes base sur le contenu et la structure des donnes. Un profil personnalis est un profil que vous crez lorsque vous voulez configurer les colonnes, les options d'chantillonnage et de dveloppement pour un profilage plus rapide. Configurez les options d'chantillonnage pour slectionner les lignes d'chantillon dans le fichier plat. Configurez les options de dveloppement pour dvelopper les enregistrements dans les rsultats de profil et dvelopper les lignes dans les donnes sources ou donnes temporaires. Vous crez et excutez un profil pour analyser la qualit des donnes lorsque vous dmarrez un projet de qualit des donnes. Lorsque vous crez un objet de profil, vous slectionnez l'objet de donnes et les colonnes d'objet de donnes que vous voulez profiler, configurez les options d'chantillonnage et configurez les options de dveloppement.

Scnario
HypoStores a besoin d'intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. HypoStores souhaite accder la qualit des donnes de niveau des clients dans le fichier de donnes clients de Los Angeles. Vous tes l'analyste responsable de l'valuation de la qualit des donnes et de la transmission des informations au dveloppeur responsable du nettoyage des donnes.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. 3. Crer un profil personnalis pour l'objet de donnes de fichier plat et exclure les colonnes avec valeur null. Excuter le profil pour analyser le contenu est la structure de la colonne CustomerTier. Dvelopper les lignes pour les rsultats de profil.

21

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1, 2 et 3 de ce tutoriel.

Timing
Prvoyez 5 10 minutes pour cette leon.

Tche 1. Crer un profil personnalis


Dans cette tche, vous utilisez l'assistant Nouveau profil pour crer un profil personnalis. Lorsque vous crez un profil, vous slectionnez l'objet de donnes et les colonnes que vous voulez profiler. Vous configurez galement les options d'chantillonnage et de dveloppement. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Cliquez sur Actions > Nouveau > Nouveau profil. L'assistant Nouveau profil s'affiche. 3. Dans le panneau Sources, slectionnez l'objet de donnes LA_Customers. Le panneau Colonnes affiche les colonnes de l'objet de donnes. 4. 5. 6. Cliquez sur Suivant. Saisissez Profile_LA_Customers_Custom pour le nom. Vrifiez l'emplacement du panneau Dossiers. L'emplacement montre le projet de tutoriel et le dossier Clients. Le panneau Profils montre Profile_LA_Customers. 7. 8. 9. 10. 11. 12. 13. Cliquez sur Suivant. Dans le panneau Colonnes, effacez les colonnes Address2, Address3, City2, CreateDate, et MiscDate. Dans le panneau Options d'chantillonnage, slectionnez l'optionToutes les lignes. Dans le panneau Options de dveloppement, vrifiez que Activer le dveloppement de la ligne est slectionn et slectionnez sur donnes temporaires pour l'option Dveloppement. Cliquez sur Suivant. En option, dfinissez un filtre pour le profil. Cliquez sur Enregistrer. L'outil Analyst cre le profil et l'affiche dans un autre onglet.

Tche 2. Excuter le profil


Dans cette tche, vous excutez un profil pour effectuer le profilage sur l'objet de donnes et affichez les rsultats de profil. Analyst Tool effectue le profilage sur le fichier plat temporaire pour l'objet de donnes fichier plat. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet tutoriel. Dans le panneau de contenus, cliquez sur le lien Profile_LA_Customers_Custom. Le profil s'affiche dans un onglet.

22

Chapitre 5: Leon 4. Cration de profils personnaliss

3.

Cliquez sur Actions > Excuter le profil. La fentre Profil de colonne s'affiche.

4. 5. 6. 7.

Dans le panneau Colonnes, cochez la case en regard de Nom pour slectionner toutes les colonnes profiler. Dans le panneau Options d'chantillonnage, conservez les options par dfaut. Dans le panneau Options de dveloppement, conservez les options par dfaut. Cliquez sur Excuter. Analyst Tool effectue le profilage sur l'objet de donnes et affiche les rsultats du profil.

Tche 3. Dvelopper les rsultats de profil


Dans cette tche, vous dveloppez les valeurs de la colonne CustomerTier pour afficher les lignes sous-jacentes dans l'objet de donnes du profil. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet tutoriel. Cliquez sur le profil Profile_LA_Customers_Custom. Le profil s'ouvre dans un onglet. 3. Dans la vue Profilage de colonne, slectionnez la colonne CustomerTier. Les valeurs de la colonne s'affichent dans la vue Valeurs. 4. 5. Utilisez la touche Maj pour slectionner les valeurs Diamond, Ruby, Emerald, et Bronze. Faites un clic droit et slectionnez Dveloppement. Les lignes des colonnes avec une valeur Diamond, Ruby, Emerald, et Bronze s'affichent dans le panneau Dveloppement. Seules les colonnes slectionnes s'affichent dans le panneau Dveloppement. La barre de titre du panneau Dveloppement montre la logique utilise pour les colonnes sous-jacentes.

Cration de profils personnaliss - Rsum


Dans cette leon, vous avez appris comment configurer les colonnes profiles et configurer les options d'chantillonnage et de dveloppement. Vous avez appris que vous pouvez dvelopper pour afficher les lignes sous-jacentes pour les valeurs des colonnes et que vous pouvez configurer les colonnes incluses lorsque vous affichez les valeurs de colonnes. Vous avez cr un profil personnalis qui incluait la colonne CustomerTier, excut le profil et dvelopp les lignes sous-jacentes pour la colonne CustomerTier dans les rsultats. Utilisez l'objet de profil personnalis pour crer une rgle d'expression dans la leon 5. Si vous disposez de Data Quality ou Data Explorer, vous pouvez crer une fiche d'valuation dans la leon 6.

Tche 3. Dvelopper les rsultats de profil

23

CHAPITRE 6

Leon 5. Cration de rgles d'expression


Ce chapitre comprend les rubriques suivantes :
Cration de rgles d'expression - Prsentation, 24 Tche 1. Crer des rgles d'expression et excuter le profil, 25 Tche 2. Afficher la sortie de la rgle d'expression, 25 Tche 3. diter les rgles d'expression, 26 Cration de rgles d'expression - Rsum, 26

Cration de rgles d'expression - Prsentation


Les rgles d'expression utilisent des fonctions d'expression et des colonnes source pour dfinir la logique de la rgle. Vous pouvez crer des rgles d'expression et les ajouter un profil dans l'outil Analyst. Une rgle d'expression peut tre associe un ou plusieurs profils. La sortie d'une rgle d'expression est une colonne virtuelle dans le profil. L'outil Analyst effectue le profil de la colonne virtuelle lorsque vous excutez le profil. Vous pouvez utiliser des rgles d'expression pour valider les colonnes ou crer des colonnes source supplmentaires bases sur la valeur des colonnes source.

Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. HypoStores souhaite analyser les noms des clients et les sparer en prnom et nom de famille. HypoStores souhaite utiliser des rgles d'expression pour analyser une colonne qui contient les prnoms et noms de famille en deux colonnes virtuelles spares puis effectuer leur profil. HypoStores souhaite aussi rendre les rgles disponibles d'autres analystes qui ont besoin d'analyser la sortie de ces rgles.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. Crer des rgles d'expression pour sparer la colonne FullName en colonnes prnom et nom de famille. Vous crez une rgle qui spare le prnom du nom de famille. Vous crez une autre rgle qui spare le nom de famille du prnom. Vous crez ces rgles pour le profil Profile_LA_Customers_Custom. Excuter le profil et afficher la sortie des rgles dans le profil. diter les rgles pour les rendre inutilisables pour d'autres utilisateurs de l'outil Analyst.

2. 3.

24

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1, 2, 3 et 4.

Timing
Prvoyez 10 15 minutes pour cette leon.

Tche 1. Crer des rgles d'expression et excuter le profil


Dans cette tche, vous crez deux rgles d'expression pour analyser la colonne FullName en deux colonnes virtuelles spares nommes FirstName et LastName. Les colonnes FirstName et LastName sont les noms des colonnes. 1. Dans le panneau de contenus, cliquez sur le profil Profile_LA_Customers_Custom pour l'ouvrir. Le profil s'affiche dans un onglet. 2. Cliquez sur Actions > Ajouter une rgle. La fentre Nouvelle rgle s'affiche. 3. 4. 5. 6. 7. 8. 9. 10. Slectionner Crer une rgle. Cliquez sur Suivant. Saisissez FirstName comme nom de rgle. Dans le panneau Expression, saisissez l'expression suivante pour sparer le prnom de la colonne Nom :
SUBSTR(FullName,1,INSTR(FullName,' ' ,-1,1 ) - 1)

Cliquez sur Valider. Cliquez sur Suivant. (Facultatif) Configurez les options de colonne, d'chantillonnage et de dveloppement. Cliquez sur Enregistrer. L'outil Analyst cre la rgle et l'affiche dans la vue Profilage de colonne.

11.

Rptez les tapes 2 10 et crez une rgle nomme LastName et saisissez l'expression suivante pour sparer le nom de famille de la colonne Nom :
SUBSTR(FullName,INSTR(FullName,' ',-1,1),LENGTH(FullName))

Tche 2. Afficher la sortie de la rgle d'expression


Dans cette tche, vous voyez la sortie des rgles d'expression qui ont spar les prnoms et noms de famille aprs avoir excut un profil. 1. 2. 3. Dans le panneau de contenus, cliquez sur Actions > Excuter le Profil. Dans la vue Profilage de colonne, cochez la case en regard de Nom dans la barre d'outils pour effacer toutes les colonnes. Slectionnez la colonne FullName et les rgles FirstName et LastName.

Tche 1. Crer des rgles d'expression et excuter le profil

25

4. 5.

Cliquez sur Excuter. Cliquez sur la rgle FirstName. Les valeurs s'affichent dans la vue Valeurs.

6. 7.

Slectionnez toute valeur dans la vue Valeurs. Faites un clic droit et slectionnez Dveloppement. Les valeurs de la colonne FullName et les rgles FirstName et LastName s'affichent dans le panneau Dveloppement. Notez que la colonne FullName est maintenant spare en prnoms et noms de famille.

Tche 3. diter les rgles d'expression


Dans cette tche, vous rendez les rgles d'expression rutilisables et disponibles tous les utilisateurs de l'outil Analyst. 1. 2. Dans la vue Profilage de colonne, slectionnez la rgle FirstName. Cliquez sur Actions > Editer une rgle. La fentre Editer une rgle s'affiche. 3. Slectionnez Enregistrer comme rgle rutilisable dans. Par dfaut, l'outil Analyst enregistre la rgle dans le profil et dossier en cours. 4. 5. Cliquez sur Enregistrer. Rptez les tapes 1 4 pour la rgle LastName.

Les rgles FirstName et LastName peuvent maintenant tre utilises par tous les utilisateurs de l'outil Analyst pour partager une colonne avec prnom et nom de famille en deux colonnes spares.

Cration de rgles d'expression - Rsum


Dans cette leon, vous avez appris que les rgles d'expression utilisent des fonctions d'expression et des colonnes source pour dfinir la logique de la rgle. Vous avez appris que la sortie d'une rgle d'expression est une colonne virtuelle dans le profil. L'outil Analyst inclut la colonne virtuelle lorsque vous excutez le profil. Vous avez cr deux rgles d'expression, les avez ajoutes un profil, et avez excut le profil. Vous avez affich la sortie des rgles et les avez mises disposition de tous les utilisateurs de l'outil Analyst.

26

Chapitre 6: Leon 5. Cration de rgles d'expression

CHAPITRE 7

Leon 6. Cration et excution de fiches d'valuation


Ce chapitre comprend les rubriques suivantes :
Cration et de excution de fiches d'valuation - Prsentation, 27 Tche 1. Crer une fiche d'valuation partir des rsultats de profil, 28 Tche 2. Excuter la fiche d'valuation, 29 Tche 3. Afficher la fiche d'valuation, 29 Tche 4. diter la fiche d'valuation, 29 Tche 5. Configurer les seuils, 29 Tche 6. Afficher les graphes de tendance de score, 30 Cration et de excution de fiches d'valuation - Rsum, 30

Cration et de excution de fiches d'valuation Prsentation


Une fiche d'valuation est la reprsentation graphique des valeurs valides d'une colonne ou la sortie d'une rgle dans les rsultats de profil. Utilisez les fiches d'valuation pour mesurer et contrler la progression de la qualit des donnes dans le temps. Pour crer une fiche d'valuation, vous ajoutez des colonnes depuis le profil vers une fiche d'valuation et configurez les seuils de score. Pour excuter une fiche d'valuation, vous slectionnez les valeurs valides de la colonne et excutez la fiche d'valuation pour afficher les scores des colonnes. Les fiches d'valuation affichent la frquence des valeurs dans les colonnes d'un profil sous forme de score. Les scores refltent le pourcentage de valeurs valides pour une colonne.

Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. Avant qu'ils ne fusionnent les donnes, ils veulent s'assurer que les donnes de diffrents niveaux et statuts de clients soient analyses des fins de qualit. Vous tes l'analyste responsable du contrle de la progression et des analyses de la qualit des donnes. Vous voulez crer une fiche d'valuation partir des colonnes niveau de client et tat du profil, configurer les seuils pour la qualit des donnes, et afficher les graphes de tendance de score pour dterminer l'amlioration des scores dans le temps.

27

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. 3. 4. 5. 6. Crer une fiche d'valuation depuis les rsultats du profil Profile_LA_Customers_Custom pour afficher les scores des colonnes CustomerTier et Etat. Excuter la fiche d'valuation pour gnrer les scores pour les colonnes CustomerTier et Etat. Afficher la fiche d'valuation pour voir les scores de chaque colonne. Modifier la fiche d'valuation pour spcifier diffrentes valeurs valides pour les scores. Configurer les seuils de score et excuter la fiche d'valuation. Afficher les graphes de tendance de score pour dterminer l'amlioration des scores dans le temps.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 5 de ce tutoriel.

Timing
Rservez 15 minutes pour effectuer les tches de cette leon.

Tche 1. Crer une fiche d'valuation partir des rsultats de profil


Dans cette tche, vous crez une fichier d'valuation partir du profil Profile_LA_Customers_Custom pour valuer les valeurs de colonne CustomerTier et Etat. 1. 2. Ouvrez le profil Profile_LA_Customers_Custom. Cliquez sur Actions > Ajouter la fiche d'valuation. L'assistant Ajouter la fiche d'valuation s'affiche. 3. 4. 5. Slectionnez les colonnes CustomerTier et Etat pour les ajouter la fichier d'valuation. Cliquez sur Suivant. Cliquez sur Nouveau pour crer une fiche d'valuation. La fentre Nouveau fichier d'valuation s'affiche. 6. 7. 8. 9. 10. 11. Saisissez sc_LA_Customer comme nom de fiche d'valuation, et accdez au dossier Clients pour l'emplacement de la fiche d'valuation. Cliquez sur OK et sur Suivant. Slectionnez le score CustomerTier dans le panneau Scores et slectionnez la colonne Est valide pour toutes les valeurs du panneau Score avec : Valeurs. Slectionnez le score Etat dans le panneau Scores et slectionnez la colonne Est valide pour les valeurs qui ont des codes d'tat deux lettres dans le panneau Score avec : Valeurs. Pour chaque score dans le panneau Scores, acceptez les paramtres par dfaut pour les seuils de score dans le panneau Paramtres de score. Cliquez sur Terminer.

28

Chapitre 7: Leon 6. Cration et excution de fiches d'valuation

Tche 2. Excuter la fiche d'valuation


Dans cette tche, vous excutez la fiche d'valuation sc_LA_Customer afin de gnrer les scores pour les colonnes CustomerTier et Etat. 1. Cliquez sur la fiche d'valuation sc_LA_Customer pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 2. Cliquez sur Actions > Excuter la fiche d'valuation. La vue Fiche d'valuation affiche les scores pour les colonnes CustomerTier et Etat.

Tche 3. Afficher la fiche d'valuation


Dans cette tche, vous voyez la fiche d'valuation sc_LA_Customer pour afficher les scores des colonnes CustomerTier et Etat. 1. 2. Slectionnez la colonne Etat qui contient le score Etat que vous voulez afficher. Cliquez sur Actions > Dvelopper. Les scores valides de la colonne Etat s'affichent dans la vue Valide. Cliquez sur Non valide pour afficher les scores non valides pour la colonne tat. Dans le panneau Scores, vous pouvez voir le nom du score et son pourcentage. Vous pouvez voir le score affich sous forme de barre, l'objet de donnes du score, et la source et le type de source du score. 3. Rptez les tapes 1 2 pour la colonne CustomerTier. Tous les scores de la colonne CustomerTier sont valides.

Tche 4. diter la fiche d'valuation


Dans cette tche, vous allez diter la fiche d'valuation sc_LA_Customer pour indiquer que la valeur Ruby est non valide pour le score CustomerTier. 1. Cliquez sur Actions > Editer. La fentre Editer la fiche d'valuation s'affiche. 2. 3. Slectionnez le score CustomerTier dans le panneau Scores. Dans le panneau Score avec : Valeurs, effacez Ruby de la colonne Est valide. Acceptez les paramtres par dfaut dans le panneau Paramtres de score. 4. 5. Cliquez sur Enregistrer pour enregistrer les changements de la fiche d'valuation et l'excuter. Affichez nouveau le score CustomerTier.

Tche 5. Configurer les seuils


Dans cette tche, vous configurez les seuils du score Etat dans la fiche d'valuation sc_LA_Customer afin de dterminer les plages acceptables pour les donnes de la colonne Etat. Les valeurs avec un code deux lettres,

Tche 2. Excuter la fiche d'valuation

29

comme par exemple CA, sont acceptables, et les codes avec plus de deux lettres, comme par exemple Calif, ne sont pas acceptables. 1. 2. Dans la fentre Editer la fiche d'valuation, slectionnez le score Etat dans le panneau Scores. Dans le panneau Paramtres de score, saisissez les plages suivantes pour les scores Bons et Inacceptables dans Dfinir seuils personnaliss pour ce score : 90 100 % Bon ; 0 50 % Inacceptable. 51 % 89 % sont Acceptables. Les seuils reprsentent les limites infrieures des plages Bon et Acceptable. 3. Cliquez sur Enregistrer pour enregistrer les modifications de la fiche d'valuation et l'excuter. Dans le panneau Scores, affichez les modifications du pourcentage et le score affich en barre pour le score Etat.

Tche 6. Afficher les graphes de tendance de score


Dans cette tche, vous affichez le graphe de tendance pour le score Etat. Vous pouvez afficher les graphiques de tendance pour visualiser les scores dans le temps. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Cliquez sur la fiche d'valuation sc_LA_Customer pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. 4. Dans la vue Fiche d'valuation, slectionnez le score Etat. Cliquez sur Actions > Afficher le graphe de tendance. Les dtails du graphe de tendance s'affichent. Vous pouvez voir les seuils Bon, Acceptable, et Inacceptable pour le score. Les seuils changent chaque fois que vous excutez la fiche d'valuation aprs avoir modifi les valeurs des scores dans la fiche d'valuation.

Cration et de excution de fiches d'valuation Rsum


Dans cette leon, vous avez appris que vous pouvez crer une fiche d'valuation partir des rsultats d'un profil. Une fiche d'valuation contient les colonnes d'un profil. Vous avez appris que vous pouvez excuter une fiche d'valuation pour gnrer des scores pour les colonnes. Vous avez dit une fiche d'valuation pour configurer les valeurs valides et dfinir les seuils des scores. Vous avez galement appris comment afficher le graphe de tendance de score. Vous avez cr une fiche d'valuation partir des colonnes CustomerTier et Etat d'un profil pour analyser la qualit de leurs donnes. Vous avez excut la fiche d'valuation pour gnrer des scores de chaque colonne. Vous avez modifi la fiche d'valuation pour spcifier diffrentes valeurs valides pour les scores. Vous avez configur les seuils pour un score et affich le graphe de tendance de score.

30

Chapitre 7: Leon 6. Cration et excution de fiches d'valuation

CHAPITRE 8

Leon 7. Cration de tables de rfrence partir des colonnes de profil


Ce chapitre comprend les rubriques suivantes :
Cration de tables de rfrence partir des colonnes de profil - Prsentation, 31 Tche 1. Crer une table de rfrence partir des colonnes de profil, 32 Tche 2. diter la table de rfrence, 33 Cration de tables de rfrence partir des colonnes de profil - Rsum, 34

Cration de tables de rfrence partir des colonnes de profil - Prsentation


Une table de rfrence contient des donnes de rfrence que vous pouvez utiliser pour normaliser les donnes source. Les donnes de rfrence peuvent inclure des valeurs valides et standard. Crez des tables de rfrence pour tablir des relations entre des valeurs de donnes source et les valeurs valides et standard. Vous pouvez crer une table de rfrence partir des rsultats d'un profil. Aprs avoir cr une table de rfrence, vous pouvez l'diter afin d'ajouter des colonnes ou des lignes et ajouter ou diter les valeurs standard et valides. Vous pouvez afficher les modifications d'une table de rfrence dans un suivi d'audit.

Scnario
HypoStores souhaite effectuer le profil des donnes pour dtecter les anomalies et normaliser les donnes avec des valeurs valides. Vous tes l'analyste responsable de la normalisation des valeurs valides dans les donnes. Vous voulez crer une table de rfrence base sur les valeurs valides des colonnes du profil.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Crer une table de rfrence depuis la colonne CustomerTier du profil Profile_LA_Customers_Custom en slectionnant les valeurs valides pour les colonnes. diter la table de rfrence pour configurer diffrentes valeurs valides pour les colonnes.

31

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 6 de ce tutoriel.

Timing
Rservez 15 minutes pour effectuer les tches de cette leon.

Tche 1. Crer une table de rfrence partir des colonnes de profil


Dans cette tche, vous crez une table de rfrence et ajoutez la colonne CustomerTier depuis le profil Profile_LA_Customers_Custom vers la table de rfrence. 1. Cliquez sur le profil Profile_LA_Customers_Custom. Le profil s'affiche dans un onglet. 2. Dans la vue Profilage de colonne, slectionnez la colonne CustomerTier que vous voulez ajouter une table de rfrence. Vous pouvez dvelopper les frquences des valeurs et formes pour la colonne CustomerTier afin de vrifier les enregistrements qui ont des valeurs de catgorie client non standard. 3. 4. Dans la vue Valeurs, slectionnez les valeurs de niveau client valides que vous voulez ajouter. Utilisez les touches CTRL ou MAJ pour slectionner les valeurs suivantes : Diamond, Gold, Silver, Bronze, Emerald. Cliquez sur Actions > Ajouter la table de rfrence.. L'assistant Nouvelle table de rfrence s'affiche. 5. 6. 7. 8. Slectionnez l'option pour Crer une nouvelle table de rfrence. Cliquez sur Suivant. Saisissez Reftab_CustTier_HypoStores comme nom de table. Saisissez une description et dfinissez 0 comme valeur par dfaut. L'outil Analyst utilise la valeur par dfaut pour tout enregistrement de la table qui ne contient pas de valeur. 9. 10. Cliquez sur Suivant. Dans le panneau Attributs des colonnes, configurez les proprits de colonne suivantes pour la colonne CustomerTier.
Proprit Nom Type de donnes Prcision Description CustomerTier String 10

32

Chapitre 8: Leon 7. Cration de tables de rfrence partir des colonnes de profil

Proprit chelle Description

Description 0 Valeurs de niveau client de rfrence

11. 12. 13.

(Facultatif) Choisissez de crer une colonne de description pour les lignes de la table de rfrence. Saisissez le nom et la prcision pour la colonne. Prvisualisez les valeurs de la colonne CustomerTier dans le panneau Prvisualiser. Cliquez sur Suivant. La nom de la table de rfrence Reftab_CustomerTier_HypoStores s'affiche. Vous pouvez entrer une description facultative.

14.

Dans le panneau Enregistrer dans, slectionnez votre projet de tutoriel dans lequel vous voulez crer la table de rfrence. Le panneau Tables de rfrence : rpertorie les tables de rfrence dans l'emplacement que vous slectionnez.

15. 16.

Saisissez une note d'audit facultative. Cliquez sur Terminer.

Tche 2. diter la table de rfrence


Dans cette tche, vous ditez la table Reftab_CustomerTier_HypoStores afin d'ajouter des valeurs alternatives pour les niveaux clients. 1. 2. Dans le Navigateur, slectionnez le dossier Clients dans votre projet de tutoriel. Cliquez sur la table de rfrence Reftab_CustomerTier_HypoStores. La table de rfrence s'ouvre dans un onglet. 3. Pour diter une ligne, slectionnez la ligne et cliquez sur Actions > Editer ou cliquez sur l'icne Editer. La fentre Editer la ligne s'affiche. (Facultatif) Slectionnez plusieurs lignes pour ajouter la mme valeur alternative chaque ligne. 4. Saisissez les valeurs alternatives suivantes pour les lignes Diamond, Emerald, Gold, Silver, et Bronze : 1, 2, 3, 4, 5. Saisissez une note d'audit facultative. 5. Cliquez sur Appliquer pour appliquer les changements.

Tche 2. diter la table de rfrence

33

Cration de tables de rfrence partir des colonnes de profil - Rsum


Dans cette leon, vous avez appris crer des tables de rfrence partir des rsultats d'un profil afin de configurer des valeurs valides pour les donnes source. Vous avez cr une table de rfrence partir d'une colonne de profil en slectionnant les valeurs valides pour les colonnes. Vous avez modifi la table de rfrence afin de configurer diffrentes valeurs valides pour les colonnes.

34

Chapitre 8: Leon 7. Cration de tables de rfrence partir des colonnes de profil

CHAPITRE 9

Leon 8. Cration de tables de rfrence


Ce chapitre comprend les rubriques suivantes :
Cration de tables de rfrence - Prsentation, 35 Tche 1. Crer une table de rfrence, 36 Cration de tables de rfrence - Rsum, 36

Cration de tables de rfrence - Prsentation


Une table de rfrence contient des donnes de rfrence que vous pouvez utiliser pour normaliser les donnes source. Les donnes de rfrence peuvent inclure des valeurs valides et standard. Crez des tables de rfrence pour tablir des relations entre les valeurs de donnes source et les valeurs standard et valides. Vous pouvez crer manuellement une table de rfrence en utilisant l'diteur de table de rfrence. Utilisez la table de rfrence pour dfinir et normaliser les donnes source. Vous pouvez partager la table de rfrence avec un dveloppeur pour utilisation dans les transformations Normalisation et Rechercher de l'outil Developer.

Scnario
HypoStores souhaite normaliser les donnes avec des valeurs valides. Vous tes l'analyste responsable de la normalisation des valeurs valides dans les donnes. Vous voulez crer une table de rfrence pour dfinir des codes de niveau client standard qui rfrencent les donnes clients de Los Angeles. Vous pouvez ensuite partager la table de rfrence avec un dveloppeur.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer une table de rfrence en utilisant l'diteur de table de rfrence afin de dfinir les codes de niveau

client standard qui rfrencent les donnes clients de Los Angeles.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.

Timing
Rservez 10 minutes pour effectuer les tches de cette leon.

35

Tche 1. Crer une table de rfrence


Dans cette tche, vous allez crer la table de rfrence Reftab_CustomerTier_Codes pour normaliser les valeurs valides pour les donnes de niveau client. 1. 2. Dans le Navigateur, slectionnez le dossier Client de votre projet de tutoriel o vous voulez crer la table de rfrence. Cliquez sur Actions > Nouvelle table de rfrence. L'assistant Nouvelle table de rfrence s'affiche. 3. 4. 5. Slectionnez l'option pour Utiliser l'diteur de table de rfrence. Cliquez sur Suivant. Saisissez Reftab_CustomerTier_Codes comme nom de table, saisissez ventuellement une description et dfinissez la valeur par dfaut sur 0. L'outil Analyst utilise la valeur par dfaut pour tout enregistrement de la table qui ne contient pas de valeur. 6. Pour chaque colonne que vous voulez inclure dans la table de rfrence, cliquez sur l'icne Ajouter une colonne et configurez les proprits de colonne pour chaque colonne. Ajoutez les noms de colonne suivants : CustomerID, CustomerTier, et Statut. Vous pouvez rorganiser ou effacer des colonnes. 7. 8. Cliquez sur Terminer. Ouvrez la table de rfrence Reftab_CustomerTier_Codes et cliquez sur Actions > Ajouter une ligne pour remplir chaque colonne de la table de rfrence avec quatre valeurs. CustomerID = LA1, LA2, LA3, LA4 CustomerTier = 1, 2, 3, 4, 5. Statut = Actif, Inactif

Cration de tables de rfrence - Rsum


Dans cette leon, vous avez appris comment crer des tables de rfrence l'aide de l'diteur de table de rfrence afin de crer des valeurs standard valides utiliser avec les donnes source. Vous avez cr une table de rfrence l'aide de l'diteur de table de rfrence afin de normaliser les valeurs de niveau clients pour les donnes clients de Los Angeles.

36

Chapitre 9: Leon 8. Cration de tables de rfrence

Partie II : Dbuter avec Informatica Developer


Cette partie contient les chapitres suivants :
Leon 1. Configuration de Informatica Developer, 38 Leon 2. Importation d'objets de donnes physiques, 42 Leon 3. Profilage des donnes, 46 Leon 4. Analyse des donnes, 51 Leon 5. Normalisation des donnes , 58 Leon 6. Validation des donnes d'adresse, 64

37

CHAPITRE 10

Leon 1. Configuration de Informatica Developer


Ce chapitre comprend les rubriques suivantes :
Configuration de Informatica Developer - Prsentation, 38 Tche 1. Dmarrer Informatica Developer, 39 Tche 2. Ajouter un domaine, 39 Tche 3. Ajouter un rfrentiel modle, 40 Tche 4. Crer un projet, 40 Tche 5. Crer un dossier, 40 Tche 6. Slectionner un service Data Integration Service par dfaut., 41 Configuration de Informatica Developer - Rsum, 41

Configuration de Informatica Developer - Prsentation


Avant de commencer les leons de ce tutoriel, vous devez dmarrer et configurer l'outil Developer. Pour configurer l'outil Developer, vous ajoutez un domaine. Vous ajoutez un rfrentiel modle qui est dans le domaine et vous crez un projet et un dossier pour enregistrer votre travail. Vous slectionnez galement un service Data Integration Service par dfaut. Le domaine Informatica est une collection de nuds et de services qui dfinissent l'environnement Informatica. Les services du domaine incluent Model Repository Service et Data Integration Service. Model Repository Service gre le rfrentiel modle. Le rfrentiel modle est une base de donnes relationnelles qui stocke les mtadonnes des projets que vous crez dans l'outil Developer. Un projet stocke des objets que vous crez dans l'outil Developer. Un projet peut aussi contenir des dossiers qui stockent les objets apparents, tels que les objets qui font partie des mmes spcifications d'entreprise. Data Integration Service effectue les tches d'intgration des donnes dans l'outil Developer.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Dmarrer l'outil Developer et accder l'espace de travail de l'outil Developer. Ajouter un domaine dans l'outil Developer. Ajouter un rfrentiel modle de faon pouvoir crer un projet.

38

Crer un projet pour stocker les objets dfinis dans l'outil Developer. Crer un dossier en mesure de stocker des objets apparents dans le projet. Slectionner un service Data Integration Service par dfaut pour excuter les tches d'intgration de donnes.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez install l'outil Developer. Vous disposez d'un nom de domaine, d'un nom d'hte et d'un numro de port pour la connexion au domaine.

Vous pouvez obtenir ces informations auprs de l'administrateur du domaine.


Un administrateur de domaine a configur un service de rfrentiel modle dans l'outil Administrator. Vous disposez d'un nom d'utilisateur et d'un mot de passe pour accder Model Repository Service. Vous

pouvez obtenir ces informations auprs de l'administrateur de domaine.


Un administrateur de domaine a configur un service Data Integration Service. Data Integration Service est en cours d'excution.

Timing
Rservez 5 10 minutes pour effectuer les tches de cette leon.

Tche 1. Dmarrer Informatica Developer


Dmarrez l'outil Developer pour commencer le tutoriel. 1. Dmarrez l'outil Developer. La page Accueil de l'outil Developer apparat. 2. Cliquez sur le bouton Espace de travail. L'espace de travail de l'outil Developer s'affiche.

Tche 2. Ajouter un domaine


Dans cette tche, vous allez ajouter un domaine dans l'outil Developer pour accder un rfrentiel modle. 1. Cliquez sur Fentre > Prfrences. La bote de dialogue Prfrences s'affiche. 2. 3. Slectionnez Informatica > Domaines. Cliquez sur Ajouter. La bote de dialogue Nouveau domaine s'affiche. 4. 5. 6. Entrez le nom du domaine, le nom d'hte et le numro de port. Cliquez sur Terminer. Cliquez sur OK.

Tche 1. Dmarrer Informatica Developer

39

Tche 3. Ajouter un rfrentiel modle


Dans cette tche, vous allez ajouter le rfrentiel modle que vous voulez utiliser pour stocker les projets et les dossiers. 1. Cliquez sur Fichier > Connexion au rfrentiel. La bote de dialogue Connexion au rfrentiel s'ouvre. 2. 3. 4. 5. 6. Cliquez sur Parcourir pour slectionner un service Model Repository Service. Cliquez sur OK. Cliquez sur Suivant. Entrez votre nom dutilisateur et votre mot de passe. Cliquez sur Terminer. Le rfrentiel modle apparat dans la vue Explorateur d'objets.

Tche 4. Crer un projet


Dans cette tche, vous allez crer un projet pour stocker des objets dfinis dans l'outil Developer. Vous pouvez crer un projet pour tous les tutoriels de ce guide. 1. 2. Dans la vue Explorateur d'objets, slectionnez un service Model Repository Service. Cliquez sur Fichier > Nouveau > Projet. La bote de dialogue Nouveau projet s'affiche. 3. 4. Entrez votre nom avec le prfixe Tutoriel_ comme nom du projet. Cliquez sur Terminer. Le projet s'affiche sous le service Model Repository Service dans la vue Explorateur d'objets.

Tche 5. Crer un dossier


Dans cette tche, vous allez crer un dossier pour stocker les objets apparents. Vous pouvez crer un dossier pour tous les tutoriels de ce guide. 1. 2. 3. 4. Dans la vue Explorateur d'objets, slectionnez le projet auquel vous voulez ajouter le dossier. Cliquez sur Fichier > Nouveau > Dossier. Entrez le nom du dossier. Cliquez sur Terminer. L'outil Developer ajoute le dossier sous le projet dans la vue Explorateur d'objets. Dveloppez le projet pour voir le dossier.

40

Chapitre 10: Leon 1. Configuration de Informatica Developer

Tche 6. Slectionner un service Data Integration Service par dfaut.


Dans cette tche, vous allez slectionner un service Data Integration Service par dfaut pour pouvoir excuter les mappages et prvisualiser les donnes. 1. Cliquez sur Fentre > Prfrences. La bote de dialogue Prfrences s'affiche. 2. 3. 4. 5. 6. Slectionnez Informatica > Data Integration Service. Dveloppez le domaine. Slectionnez un service Data Integration Service. Cliquez sur Dfinir par dfaut. Cliquez sur OK.

Configuration de Informatica Developer - Rsum


Dans cette leon, vous avez appris que le domaine Informatica inclut Model Repository Service et Data Integration Service. Model Repository Service gre le rfrentiel modle. Un rfrentiel modle contient des projets et des dossiers. Data Integration Service effectue les tches d'intgration de donnes. Vous avez dmarr l'outil Developer et vous l'avez configur. Vous avez ajout un domaine l'outil Developer, ajout un rfrentiel modle et cr un projet et un dossier. Vous avez galement slectionn un service Data Integration Service par dfaut. Maintenant, vous pouvez utiliser l'outil Developer pour suivre les autres leons de ce tutoriel.

Tche 6. Slectionner un service Data Integration Service par dfaut.

41

CHAPITRE 11

Leon 2. Importation d'objets de donnes physiques


Ce chapitre comprend les rubriques suivantes :
Importation d'objets de donnes physiques - Prsentation, 42 Tche 1. Importer l'objet de donnes de fichier plat Boston_Customers, 43 Tche 2. Importer l'objet de donnes de fichier plat LA_Customers, 43 Tche 3. Importer l'objet de donnes de fichier plat All_Customers, 44 Importation d'objets de donnes physiques - Rsum, 45

Importation d'objets de donnes physiques Prsentation


Un objet de donnes physique est une reprsentation des donnes d'un fichier plat ou d'une table de base de donnes relationnelles. Vous pouvez importer un fichier plat ou une table de base de donnes relationnelles en tant qu'objet de donnes physique utiliser comme source ou cible lors d'un mappage.

Scnario
HypoStores Corporation stocke les donnes clients des bureaux de Los Angeles et de Boston dans des fichiers plats. Vous voulez travailler avec ces donnes clients dans l'outil Developer. Pour ce faire, vous devez importer chaque fichier plat en tant qu'objet de donnes physique.

Objectifs
Dans cette leon, vous importez des fichiers plats en tant qu'objets de donnes physiques. Vous dfinissez aussi le rpertoire de fichiers source pour que Data Integration Service puisse lire les donnes source dans le rpertoire appropri.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez effectu la leon 1 de ce tutoriel.

Timing
Rservez 10 15 minutes pour effectuer les tches de cette leon.

42

Tche 1. Importer l'objet de donnes de fichier plat Boston_Customers


Dans cette tche, vous importez un objet de donnes physique partir d'un fichier qui contient les donnes clients du bureau de Boston. 1. 2. Dans la vue Explorateur d'objets, slectionnez le projet de tutoriel. Cliquez sur Fichier > Nouveau > Objet de donnes. La bote de dialogue Nouveau s'affiche. 3. Slectionnez Objets de donnes physiques > Objet de donnes de fichier plat et cliquez sur Suivant. La bote de dialogue Nouvel objet de donnes de fichier plat s'ouvre. 4. 5. 6. Slectionnez Crer partir d'un fichier plat existant. Cliquez sur Parcourir et allez Boston_Customer.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials

Cliquez sur Ouvrir. L'assistant nomme l'objet de donnes Boston_Customers .

7. 8. 9. 10. 11. 12. 13.

Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit. Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique Boston_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.

14. 15. 16. 17.

Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de la machine Data Integration Service :
<Rpertoire d'installation Informatica>\server\Tutorials

Cliquez sur Fichier > Enregistrer.

Tche 2. Importer l'objet de donnes de fichier plat LA_Customers


Dans cette tche, vous allez importer un objet de donnes physique partir d'un fichier qui contient les donnes clients du bureau de Los Angeles. 1. 2. Dans la vue Explorateur d'objets, slectionnez le projet de tutoriel. Cliquez sur Fichier > Nouveau > Objet de donnes. La bote de dialogue Nouveau s'affiche. 3. Slectionnez Objets de donnes physiques > Objet de donnes de fichier plat et cliquez sur Suivant.

Tche 1. Importer l'objet de donnes de fichier plat Boston_Customers

43

La bote de dialogue Nouvel objet de donnes de fichier plat s'ouvre. 4. 5. 6. Slectionnez Crer partir d'un fichier plat existant. Cliquez sur Parcourir et accdez LA_Customer.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials

Cliquez sur Ouvrir. L'assistant nomme l'objet de donnes LA_Customers .

7. 8. 9. 10. 11. 12. 13.

Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit. Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique LA_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.

14. 15. 16. 17.

Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de la machine Data Integration Service :
<Rpertoire d'installation Informatica>\server\Tutorials

Cliquez sur Fichier > Enregistrer.

Tche 3. Importer l'objet de donnes de fichier plat All_Customers


Dans cette tche, vous importez un objet de donnes physique partir d'un fichier plat qui combine les donnes de commandes des clients des bureaux de Los Angeles et de Boston. 1. 2. Dans la vue Explorateur d'objets, slectionnez le projet du tutoriel. Cliquez sur Fichier > Nouveau > Objet de donnes. La bote de dialogue Nouveau s'affiche. 3. Slectionnez Objets de donnes physiques > Objet de donnes de fichier plat et cliquez sur Suivant. La bote de dialogue Nouvel objet de donnes de fichier plat s'ouvre. 4. 5. 6. Slectionnez Crer partir d'un fichier plat existant. Cliquez sur Parcourir et accdez All_Customer.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials

Cliquez sur Ouvrir. L'assistant nomme l'objet de donnes All_Customers .

7. 8. 9.

Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit.

44

Chapitre 11: Leon 2. Importation d'objets de donnes physiques

10. 11. 12. 13.

Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique All_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.

14. 15. 16. 17.

Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de Data Integration Service : <Rpertoire
d'installation Informatica>\server\Tutorials

Cliquez sur Fichier > Enregistrer.

Importation d'objets de donnes physiques - Rsum


Dans cette leon, vous avez appris que les objets de donnes physiques sont des reprsentations de donnes bases sur des fichiers plats ou sur une table de base de donnes relationnelles. Vous avez cr des objets de donnes physiques partir des fichiers plats. Vous avez galement dfini le rpertoire de fichiers source pour que Data Integration Service puisse lire les donnes source dans le rpertoire appropri. Vous utilisez les objets de donnes comme sources de mappage dans les leons de qualit des donnes.

Importation d'objets de donnes physiques - Rsum

45

CHAPITRE 12

Leon 3. Profilage des donnes


Ce chapitre comprend les rubriques suivantes :
Profilage des donnes - Prsentation, 46 Tche 1. Effectuer une analyse de jointure sur deux sources de donnes, 47 Tche 2. Afficher les rsultats de l'analyse de jointure, 48 Tche 3. Excuter un profil sur une source de donnes, 49 Tche 4. Afficher les rsultats de profilage de colonne, 49 Profilage des donnes Rsum, 50

Profilage des donnes - Prsentation


Un profil est un ensemble de mtadonnes qui dcrit le contenu et la structure d'un ensemble de donnes. Le profilage de donnes constitue souvent la premire tape d'un projet. Vous pouvez excuter un profil pour valuer la structure des donnes et vrifier que les colonnes de donnes sont remplies avec les types d'informations attendus. Si un profil rvle des problmes dans les donnes, vous pouvez dfinir les tapes pour rsoudre ces problmes dans votre projet. Par exemple, si un profil rvle qu'une colonne contient des valeurs plus longues que prvu, vous pouvez concevoir des processus de qualit des donnes pour supprimer ou corriger les valeurs problme. Un profil qui analyse la qualit des donnes des colonnes slectionnes est appel un profil de colonne. Remarque: Vous pouvez galement utiliser l'outil Developer pour trouver la cl principale, la cl trangre et les relations de dpendance fonctionnelle, ainsi que pour analyser les conditions de jointures sur les colonnes de donnes. Un profil de colonne fournit les informations suivantes sur les donnes :
Le nombre de valeurs uniques et null dans chaque colonne, exprim sous forme de nombre et de pourcentage. Les formes des donnes de chaque colonne, et les frquences auxquelles ces valeurs apparaissent. Les statistiques sur les valeurs de colonnes, comme par exemple les longueurs maximum et minimum des

valeurs ainsi que la premire et la dernire valeur dans chaque colonne.


Pour les profils d'analyse de jointure, le degr de chevauchement entre les deux colonnes de donnes, affich

sous forme de diagramme Venn et de valeur de pourcentage. Utilisez les profils d'analyse de jointure pour identifier les problmes ventuels avec les conditions de jointure de colonne. Vous pouvez tout moment excuter un profil de colonne dans un projet afin de mesurer la qualit des donnes et de vrifier que les modifications des donnes correspondent vos objectifs pour le projet. Vous pouvez

46

excuter un profil de colonne sur une transformation dans un mappage pour indiquer l'effet que la transformation aura sur les donnes.

Scnario
HypoStores souhaite vrifier que les donnes clients ne contiennent pas d'erreurs, d'incohrences ou d'informations en double. Avant qu'HypoStores ne conoive les processus pour atteindre les objectifs de qualit des donnes, elle doit mesurer la qualit de ses fichiers de donnes source et confirmer que les donnes sont prtes tre traites.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Effectuer une analyse de jointure sur la source de donnes Boston_Customers et la source de donnes LA_Customers. Afficher les rsultats d'une analyse de jointure pour dterminer si vous pouvez fusionner les donnes des deux

bureaux avec succs.


Excuter un profil de colonne sur la source de donnes All_Customers. Afficher les rsultats de profilage de colonne pour respecter les valeurs et formes contenues dans les donnes.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.

Temps requis
Prvoyez 20 minutes pour cette leon.

Tche 1. Effectuer une analyse de jointure sur deux sources de donnes


Dans cette tche, vous effectuez une analyse de jointure sur les sources de donnes Boston_Customers et LA_Customers pour afficher les conditions de jointure. 1. 2. Dans la vue Explorateur d'objets, dveloppez les objets de donnes du projet de tutoriel. Slectionnez les sources de donnes Boston_Customers et LA_Customers. Astuce: Maintenez la touche Maj enfonce pour slectionner plusieurs objets de donnes. 3. Faites un clic droit sur les objets de donnes slectionns et slectionnez Profil. L'assistant Nouveau profil s'ouvre. 4. 5. Slectionnez Modle de profil, et cliquez sur Suivant. Dans le champ Nom, saisissez Tutorial_Model. Cliquez sur Suivant. 6. 7. Vrifiez que Boston_Customers et LA_Customers apparaissent dans la colonne Objet de donnes. Cliquez sur Terminer. Le modle de profil Tutorial_Model s'affiche dans l'explorateur d'objets. 8. l'aide de votre souris, slectionnez Boston_Customers et LA_Customers dans les canevas de modles.

Tche 1. Effectuer une analyse de jointure sur deux sources de donnes

47

9.

Faites un clic droit sur un nom d'objet de donnes et slectionnez Profil de jointure. L'assistant Nouveau profil de jointure s'ouvre.

10. 11.

Dans le champ Nom, saisissez JoinAnalysis. Vrifiez que Boston_Customers et LA_Customers apparaissent en tant qu'objets de donnes. Cliquez sur Suivant.

12.

Slectionnez la colonne CustomerID dans les deux sources de donnes. Faites dfiler le volet de l'assistant pour afficher les colonnes dans les deux ensembles de donnes. Cliquez sur Suivant.

13.

Cliquez sur Ajouter pour ajouter des conditions de jointure. La fentre Condition de jointure s'ouvre.

14. 15. 16. 17.

Dans la section Colonnes, cliquez sur le bouton Nouveau. Double-cliquez sur la premire ligne dans la colonne de gauche et slectionnez CustomerID. Double-cliquez sur la premire ligne dans la colonne de droite et slectionnez CustomerID. Cliquez sur OK, puis cliquez sur Terminer. Le profil JoinAnalysiss'ouvre dans l'diteur et le profil s'excute.

Remarque: Ne fermez pas le profil. Vous afficherez les rsultats de profil dans la tche suivante.

Tche 2. Afficher les rsultats de l'analyse de jointure


Dans cette tche, vous affichez les rsultats de l'analyse de jointure dans la vue Rsultats de jointure du profil JoinAnalysis. 1. 2. Cliquez sur l'onglet JoinAnalysis dans le canevas de modles. Dans la slection Profil de jointure, cliquez sur la premire ligne. La section Dtails affiche un diagramme Venn et une cl qui dtaille les rsultats de l'analyse de jointure. 3. Vrifiez que la colonne Joindre les lignes affiche zro pour le nombre de lignes qui contiennent un joint. Ceci indique qu'aucun des champs CustomerID n'est dupliqu, indiquant que vous pouvez russir fusionner deux sources de donnes. Pour afficher les valeurs CustomerID de l'objet de donnes LA_Customers, double-cliquez sur le cercle nomm LA_Customers dans le diagramme Venn. Astuce: Double-cliquez sur les cercles du diagramme Venn pour afficher les lignes de donnes dcrites par ces lments. Si des cercles se chevauchent dans le diagramme Venn, double-cliquez sur l'intersection pour afficher les valeurs de donnes communes aux deux ensembles de donnes. La Visionneuse de donnes affiche les valeurs CustomerID contenues dans l'objet de donnes LA_Customers.

4.

48

Chapitre 12: Leon 3. Profilage des donnes

Tche 3. Excuter un profil sur une source de donnes


Dans cette tche, vous excutez un profil sur la source de donnes All_Customers pour afficher le contenu et la structure des donnes. 1. 2. 3. Dans la vue Explorateur d'objets, dveloppez les objets de donnes du projet de tutoriel. Slectionnez la source de donnes All_Customers. Cliquez sur Fichier > Nouveau > Profil. La fentre Nouveau profil s'ouvre. 4. 5. Dans le champ Nom, saisissez All_Customers. Cliquez sur Terminer. Le profil All_Customers s'ouvre dans l'diteur et le profil s'excute.

Tche 4. Afficher les rsultats de profilage de colonne


Dans cette tche, vous affichez les rsultats de profilage de colonne pour l'objet de donnes All_Customers et examinez les valeurs et formes contenues dans les donnes. 1. Cliquez sur Fentre > Afficher la vue > Progression pour afficher la progression du profil All_Customers. La vue Progression s'ouvre. 2. 3. Quand la vue Progression indique que le profil All_Customers a termin son excution, cliquez sur la vue Rsultats dans l'diteur. Dans la section Profilage de colonne, cliquez sur la colonne CustomerTier. La section Dtails affiche toutes les valeurs contenues dans la colonne CustomerTier et affiche les informations sur la frquence d'apparition des valeurs dans l'ensemble de donnes. 4. Dans la section Dtails, double-cliquez sur la valeur Ruby. La Visionneuse de donnes s'excute et affiche les enregistrements o la colonne CustomerTier contient la valeur Ruby. 5. 6. Dans la section Profilage de colonne, cliquez sur la colonne OrderAmount. Dans la section Dtails, cliquez sur la liste Afficher et slectionnez Formes. La section Dtails affiche les formes trouves dans la colonne OrderAmount. La chane 9(5) de la colonne
Forme se rfre aux enregistrements contenant des quantits cinq chiffres. La chane 9(4) se rfre aux

enregistrements contenant des quantits quatre chiffres. 7. Dans la colonne Forme, double-cliquez sur la chane 9(4). La Visionneuse de donnes s'excute et affiche les enregistrements o la colonne OrderAmount contient une quantit quatre chiffres. 8. Dans la section Dtails, cliquez sur la liste Afficher et slectionnez Statistiques. La section Dtails affiche les statistiques de la colonne OrderAmount, y compris la valeur moyenne, l'carttype, les longueurs maximum et minimum, les cinq valeurs les plus frquentes, et les cinq valeurs les moins frquentes.

Tche 3. Excuter un profil sur une source de donnes

49

Profilage des donnes Rsum


Dans cette leon, vous avez appris qu'un profil fournit les informations sur le contenu et la structure des donnes. Vous avez appris que vous pouvez effectuer une analyse de jointure sur deux objets de donnes et afficher le degr de chevauchement entre les objets de donnes. Vous avez aussi appris que vous pouvez excuter un profil de colonne sur un objet de donnes et afficher les valeurs, patrons, et statistiques en relation avec chaque colonne dans l'objet de donnes. Vous avez cr le profil JoinAnalysis pour dterminer si les donnes de l'objet de donnes Boston_Customers peuvent se fusionner avec les donnes de l'objet de donnes LA_Customers. Vous avez affich les rsultats de ce profil et dtermin que toutes les valeurs dans la colonne CustomerID sont uniques et que vous pouvez fusionner les objets de donnes avec succs. Vous avez cr le profil All_Customers et excut un profil de colonne sur l'objet de donnes All_Customers. Vous avez vu les rsultats de ce profil pour dcouvrir les valeurs, patrons, et statistiques pour les colonnes dans l'objet de donnes All_Customers. Enfin, vous avez excut la Visionneuse de donnes pour afficher les lignes contenant des valeurs et patrons spcifiques, ce qui vous permet de vrifier la qualit des donnes.

50

Chapitre 12: Leon 3. Profilage des donnes

CHAPITRE 13

Leon 4. Analyse des donnes


Ce chapitre comprend les rubriques suivantes :
Prsentation de l'analyse des donnes, 51 Tche 1. Cration d'un objet de donnes cible, 52 Tche 2. Cration d'un mappage pour analyser les donnes, 54 Tche 3. Excution d'un profil sur la transformation Analyseur, 56 Tche 4. Excution du mappage, 56 Tche 5. Affichage de la sortie du mappage, 56 Rsum de l'analyse des donnes, 57

Prsentation de l'analyse des donnes


Vous analysez les donnes afin d'identifier un ou plusieurs lments de donnes dans un champ dentre et pour crire chaque lment dans un champ de sortie diffrent. Lanalyse vous permet d'avoir plus de contrle sur les informations de chaque colonne. Par exemple, prenons un champ de donnes contenant le nom complet d'une personne, Michel Martin. Vous pouvez utiliser la transformation Analyseur pour sparer le nom complet en colonnes de donnes distinctes pour le prnom et le nom. Aprs avoir analys les donnes dans de nouvelles colonnes, vous pouvez crer des oprations personnalises de qualit des donnes pour chaque colonne. Vous pouvez configurer la transformation Analyseur afin d'utiliser des jeux de jetons pour analyser les colonnes de donnes en chanes de composant. Un jeu de jetons identifie les lments de donnes tels que les mots, les codes ZIP, les numros de tlphone et les numros de scurit sociale. Vous pouvez galement utiliser la transformation Analyseur pour analyser les donnes correspondant aux entres de la table de rfrence ou aux expressions rgulires que vous entrez.

Scnario
HypoStores souhaite que le format des fichiers de donnes clients du bureau de Los Angeles corresponde au format des fichiers de donnes du bureau de Boston. Les donnes client du bureau de Los Angeles stockent les noms des clients dans une colonne FullName, alors que les donnes clients du bureau de Boston stockent les noms des clients dans des colonnes FirstName et LastName distinctes. HypoStores doit dcomposer les donnes de la colonne FullName du bureau de Los Angeles en prnoms et en noms afin que le format des donnes de Los Angeles corresponde au format des donnes de Boston.

51

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer et configurer un objet de donnes LA_Customers_tgt qui contiendra des donnes analyses. Crer un mappage afin de dcomposer la colonne FullName en colonnes FirstName et LastName distinctes. Ajouter l'objet de donnes LA_Customers au mappage connecter la source de donnes. Ajouter l'objet de donnes LA_Customers_tgt au mappage pour crer un objet de donnes cible. Ajouter une transformation Analyseur au mappage et la configurer pour qu'elle utilise un jeu de jetons afin de

dcomposer les noms complets en prnoms et noms.


Excuter un profil sur la transformation Analyseur pour examiner les donnes avant de gnrer la source des

donnes cible.
Excuter le mappage pour gnrer les noms dcomposs. Excuter la Visionneuse de donnes pour afficher la sortie du mappage.

Prrequis
Avant de commencer cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.

Timing
Rservez 20 minutes pour effectuer les tches de cette leon.

Tche 1. Cration d'un objet de donnes cible


Dans cette tche, vous crez un objet de donnes LA_Customers_tgt sur lequel vous pouvez crire des noms analyss. Pour crer un objet de donnes cible, procdez comme suit : 1. 2. 3. Crez un objet de donnes LA_Customers_tgt bas sur le fichier LA_Customers.csv. Configurez les options de lecture et d'criture pour l'objet de donnes, y compris les noms et emplacements de fichiers. Ajoutez les colonnes Firstname et Lastname l'objet de donnes LA_Customers_tgt.

tape 1. Cration d'un objet de donnes LA_Customers_tgt


Dans cette tape, vous crez un objet de donnes LA_Customers_tgt bas sur le fichier LA_Customers.csv. 1. Cliquez sur Fichier > Nouveau > Objet de donnes. La fentre Nouveau s'ouvre. 2. 3. 4. 5. 6. Slectionnez Objet de donnes de fichier plat et cliquez sur Suivant. Vrifiez que Crer partir d'un fichier plat existant est slectionn. Cliquez sur Parcourir et allez LA_Customers.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials

Cliquez sur Ouvrir. Dans le champ Nom, entrez LA_Customers_tgt.

52

Chapitre 13: Leon 4. Analyse des donnes

7. 8. 9. 10.

Cliquez sur Suivant. Cliquez sur Suivant. Dans la section Options de prvisualisation, slectionnez Importer les noms de colonnes de la premire ligne et cliquez sur Suivant. Cliquez sur Terminer. L'objet de donnes LA_Customers_tgt s'affiche dans l'diteur.

tape 2. Configuration des options Lire et crire


Dans cette tape, vous configurez les options de lecture et d'criture pour l'objet de donnes LA_Customers_tgt, y compris les noms et emplacements des fichiers. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Vrifiez que l'objet de donnes LA_Customers_tgt est ouvert dans l'diteur. Dans l'diteur, slectionnez la vue Lire. Cliquez sur Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur le nom du fichier source et entrez LA_Customers_tgt.csv. Dans la colonne Valeur, double-cliquez pour surligner le rpertoire du fichier source. Cliquez avec le bouton droit de la souris et slectionnez Copier. Dans l'diteur, slectionnez la vue crire. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur l'entre Rpertoire du fichier de sortie. Cliquez avec le bouton droit de la souris et slectionnez Coller pour coller l'emplacement du rpertoire que vous avez copi depuis la vue Lire. Dans la colonne Valeur, double-cliquez sur l'entre Options d'en-tte et slectionnez Noms des champs de sortie. Dans la colonne Valeur, double-cliquez sur l'entre Nom du fichier de sortie et entrez LA_Customers_tgt.csv. Cliquez sur Fichier > Enregistrer pour enregistrer l'objet de donnes.

tape 3. Ajout de colonnes l'objet de donnes


Dans cette tape, vous ajoutez des colonnes Firstname et Lastname l'objet de donnes LA_Customers_tgt. 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Double-cliquez sur l'objet de donnes LA_Customers_tgt. L'objet de donnes LA_Customers_tgt s'ouvre dans l'diteur. 3. 4. Vrifiez que la vue Aperu est slectionne. Slectionnez la colonne FullName et cliquez sur le bouton Nouvelle pour ajouter une colonne. Une colonne nomme FullName1 s'affiche. 5. 6. Renommez la colonne Firstname. Cliquez sur le champ Prcision et entrez 30 . Slectionnez la colonne Firstname et cliquez sur le bouton Nouvelle pour ajouter une colonne. Une colonne nomme FirstName1 s'affiche. 7. 8. Renommez la colonne Lastname. Cliquez sur le champ Prcision et entrez 30 . Cliquez sur Fichier > Enregistrer pour enregistrer l'objet de donnes.

Tche 1. Cration d'un objet de donnes cible

53

Tche 2. Cration d'un mappage pour analyser les donnes


Dans cette tche, vous crez un mappage et le configurez pour utiliser des objets de donnes et une transformation Analyseur. Pour crer un mappage afin d'analyser les donnes, procdez comme suit : 1. 2. 3. 4. Crez un mappage. Ajoutez les objets de donnes source et cible au mappage. Ajouter une transformation Analyseur au mappage. Configurez la transformation Analyseur pour analyser la colonne source contenant le nom complet du client dans des colonnes cibles distinctes contenant le prnom et le nom.

tape 1. Cration d'un mappage


Dans cette tape, vous crez et nommez le mappage. 1. 2. Dans la vue Explorateur d'objets, slectionnez votre projet de tutoriel. Cliquez sur Fichier > Nouveau > Mappage. La fentre Nouveau mappage s'ouvre. 3. 4. Dans le champ Nom, entrez ParserMapping. Cliquez sur Terminer. Le mappage s'ouvre dans l'diteur.

tape 2. Ajout d'objets de donnes au mappage


Dans cette tape, vous ajoutez l'objet de donnes LA_Customers et l'objet de donnes LA_Customers_tgt au mappage. 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes LA_Customers et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 3. Vrifiez que Lire est slectionn et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 4. 5. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes Clients_LA et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 6. Slectionnez crire et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 7. Slectionnez les ports CustomerID, CustomerTier et FullName dans l'objet de donnes LA_Customers. Faites glisser les ports dans le port CustomerID de l'objet de donnes LA_Customers_tgt. Astuce: Maintenez la touche CTRL enfonce pour slectionner plusieurs ports. Les ports de l'objet de donnes LA_Customers se connectent aux ports correspondants dans l'objet de donnes LA_Customers_tgt.

54

Chapitre 13: Leon 4. Analyse des donnes

tape 3. Ajout d'une transformation Analyseur au mappage


Dans cette tape, vous ajoutez une transformation Analyseur au mappage ParserMapping. 1. 2. 3. Slectionnez l'diteur contenant le mappage ParserMapping. Dans la palette de transformation, slectionnez la transformation Analyseur. Cliquez sur l'diteur. La fentre Nouvelle transformation Analyseur s'ouvre. 4. Vrifiez que Analyseur de jetons est slectionn et cliquez sur Terminer. La transformation Analyseur s'affiche dans l'diteur. 5. Slectionnez le port FullName dans l'objet de donnes LA_Customers et faites-le glisser dans le groupe Entre de la transformation Analyseur. Le port FullName s'affiche dans la transformation Analyseur et il est connect au port FullName de l'objet de donnes.

tape 4. Configuration de la transformation Analyseur


Dans cette tape, vous configurez la transformation Analyseur afin de dcomposer la colonne contenant le nom complet du client dans des colonnes distinctes contenant le prnom et le nom. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Slectionnez l'diteur contenant le mappage ParserMapping. Cliquez sur la transformation Analyseur. Cliquez sur Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez la vue Stratgies. Cliquez sur Nouveau. L'assistant Nouvelle stratgie s'affiche. Cliquez sur la flche de slection dans la colonne Entres et slectionnez le port FullName. Slectionnez le dlimiteur espace [\s]. Cliquez sur Suivant. Slectionnez l'opration Analyser l'aide d'un jeu de jetons et cliquez sur Suivant. Slectionnez Jeux de jetons fixes (Une seule sortie uniquement) et slectionnez le jeu de jetons Non dfini. Cliquez sur le champ Sorties et slectionnez Nouvelle. Dans la bote de dialogue Sorties d'opration, remplacez le nom de sortie par Undefined_Output. Cliquez sur Terminer. Dans la transformation Analyseur, cliquez sur le port Undefined_Output et faites-le glisser dans le port FirstName de l'objet de donnes LA_customers_tgt. Une connexion entre les ports s'affiche. 15. Dans la transformation Analyseur, cliquez sur le port OverflowField et faites-le glisser dans le port LastName de l'objet de donnes LA_customers_tgt. Une connexion entre les ports s'affiche. 16. Cliquez sur Fichier > Enregistrer pour enregistrer le mappage.

Tche 2. Cration d'un mappage pour analyser les donnes

55

Tche 3. Excution d'un profil sur la transformation Analyseur


Dans cette tche, vous excutez un profil sur la transformation Analyseur afin de vrifier qu'elle est correctement configure pour analyser le nom complet. 1. 2. Slectionnez l'diteur contenant le mappage ParserMapping. Cliquez avec le bouton droit de la souris sur la transformation Analyseur et slectionnez Profil immdiat. Le profil s'excute et s'ouvre dans l'diteur. 3. 4. Dans l'diteur, cliquez sur la vue Rsultats pour afficher le rsultat de l'opration de profilage. Slectionnez la colonne Undefined_output pour afficher les informations relatives la colonne de la section Dtails. Les valeurs contenues dans la colonne Undefined_output s'affichent dans la section Dtails, ainsi que la frquence et les statistiques en pourcentage pour chaque valeur. 5. Affichez les donnes et vrifiez que seuls les prnoms s'affichent dans la colonne Undefined_output.

Tche 4. Excution du mappage


Dans cette tche, vous excutez le mappage pour crer la sortie du mappage. 1. 2. Slectionnez l'diteur contenant le mappage ParserMapping. Cliquez sur Excuter > Excuter le mappage. Le mappage s'excute et crit la sortie sur le fichier LA_Customers_tgt.csv.

Tche 5. Affichage de la sortie du mappage


Dans cette tche, vous excutez la Visionneuse de donnes pour afficher la sortie du mappage. 1. Dans la vue Explorateur d'objets, recherchez l'objet de donnes LA_Customers_tgt dans votre projet de tutoriel et double-cliquez sur l'objet de donnes. L'objet de donnes s'ouvre dans l'diteur. 2. Cliquez sur Fentre > Afficher la vue > Visionneuse de donnes. La vue Visionneuse de donnes s'ouvre. 3. Dans la Visionneuse de donnes, cliquez sur Excuter. La Visionneuse de donnes s'excute et affiche les donnes. 4. Vrifiez que les colonnes FirstName et LastName affichent des donnes correctement analyses.

56

Chapitre 13: Leon 4. Analyse des donnes

Rsum de l'analyse des donnes


Dans cette leon, vous avez appris que l'analyse des donnes identifie les lments de donnes dans un champ dentre et crit chaque lment dans une nouvelle colonne. Vous avez appris que la transformation Analyseur sert analyser les donnes. Vous avez galement appris que vous pouvez crer un profil pour une transformation dans un mappage afin d'analyser la sortie de cette transformation. Enfin, vous avez appris que vous pouvez afficher la sortie du mappage l'aide de la Visionneuse de donnes. Vous avez cr et configur l'objet de donnes LA_Customers_tgt pour contenir la sortie analyse. Vous avez cr un mappage pour analyser les donnes. Dans ce mappage, vous avez configur une transformation Analyseur avec un jeu de jetons afin d'analyser les prnoms et les noms de la colonne FullName du fichier clients de Los Angeles. Vous avez configur le mappage afin d'crire les donnes analyses dans les colonnes Firstname et Lastname de l'objet de donnes LA_Customers_tgt. Vous avez galement excut un profil pour afficher la sortie de la transformation avant l'excution du mappage. Enfin, vous avez excut le mappage et utilis la Visionneuse de donnes pour afficher les nouvelles colonnes de donnes dans l'objet de donnes LA_Customers_tgt.

Rsum de l'analyse des donnes

57

CHAPITRE 14

Leon 5. Normalisation des donnes


Ce chapitre comprend les rubriques suivantes :
Prsentation de la normalisation des donnes, 58 Tche 1. Cration d'un objet de donnes cible, 59 Tche 2. Cration d'un mappage pour normaliser les donnes, 60 Tche 3. Excution du mappage, 63 Tche 4. Affichage de la sortie du mappage, 63 Rsum de la normalisation des donnes, 63

Prsentation de la normalisation des donnes


La normalisation des donnes amliore la qualit des donnes en supprimant les erreurs et les incohrences dans ces dernires. Pour amliorer la qualit des donnes, normalisez les donnes contenant les types de valeur suivants :
Valeurs incorrectes Valeurs avec des informations correctes dans un format incorrect Valeurs partir desquelles vous souhaitez extraire de nouvelles informations

Utilisez la transformation de normalisation pour rechercher ces valeurs dans les donnes. Vous pouvez slectionner l'un des types d'opration de recherche suivants :
Texte. Recherche des chanes personnalises que vous entrez. Supprimez ces chanes ou remplacez-les par

du texte personnalis.
Table de rfrence. Recherche des chanes contenues dans une table de rfrence que vous slectionnez.

Supprimez ces chanes ou remplacez-les par des entres de table de rfrence ou du texte personnalis. Par exemple, vous pouvez configurer la transformation de normalisation pour normaliser les donnes d'adresse contenant les chanes personnalises Rue et R l'aide de la chane de remplacement R.. La transformation de normalisation remplace les termes de recherche par le terme R. et crit le rsultat dans une nouvelle colonne de donnes.

58

Scnario
HypoStores doit normaliser les donnes d'adresse de ses clients afin d'harmoniser les termes qu'elles utilisent. Les donnes d'adresse de l'objet de donnes All_Customers contiennent des entres dont le format n'est pas harmonis pour les termes communs comme Rue, Boulevard, Avenue, Alle et Parc d'activits.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer et configurer un objet de donnes All_Customers_Stdz_tgt pour qu'il contienne des donnes normalises. Crer un mappage pour normaliser les termes d'adresse Rue, Boulevard, Avenue, Alle et Parc d'activits dans

un format cohrent.
Ajouter l'objet de donnes All_Customers au mappage connecter aux donnes source. Ajouter l'objet de donnes All_Customers_Stdz_tgt au mappage pour crer un objet de donnes cible. Ajouter une transformation Normalisation au mappage et la configurer pour normaliser les termes d'adresse. Excuter le mappage pour gnrer des donnes d'adresse normalises. Excuter la Visionneuse de donnes pour afficher la sortie du mappage.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.

Timing
Prvoyez 15 minutes pour cette leon.

Tche 1. Cration d'un objet de donnes cible


Dans cette tche, vous crez un objet de donnes All_Customers_Stdz_tgt sur lequel vous pouvez crire les donnes normalises. Pour crer un objet de donnes cible, procdez comme suit : 1. 2. Crez un objet de donnes All_Customers_Stdz_tgt bas sur le fichier All_Customers.csv. Configurez les options de lecture et d'criture pour l'objet de donnes, y compris les noms et emplacements des fichiers.

tape 1. Cration d'un objet de donnes All_Customers_Stdz_tgt


Dans cette tape, vous crez un objet de donnes All_Customers_Stdz_tgt bas sur le fichier All_Customers.csv. 1. Cliquez sur Fichier > Nouveau > Objet de donnes. La fentre Nouveau s'ouvre. 2. 3. 4. 5. Slectionnez Objet de donnes de fichier plat et cliquez sur Suivant. Vrifiez que Crer partir d'un fichier plat existant est slectionn. Cliquez sur Parcourir et allez All_Customers.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials

Cliquez sur Ouvrir.

Tche 1. Cration d'un objet de donnes cible

59

6. 7. 8. 9. 10.

Dans le champ Nom, entrez All_Customers_Stdz_tgt. Cliquez sur Suivant. Cliquez sur Suivant. Dans la section Options de prvisualisation, slectionnez Importer les noms de colonnes de la premire ligne et cliquez sur Suivant. Cliquez sur Terminer. L'objet de donnes All_Customers_Stdz_tgt s'affiche dans l'diteur.

tape 2. Configuration des options Lire et crire


Dans cette tape, vous configurez les options de lecture et d'criture pour l'objet de donnes All_Customers_Stdz_tgt, y compris les noms et les emplacements des fichiers. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Vrifiez que l'objet de donnes All_Customers_Stdz_tgt est ouvert dans l'diteur. Dans l'diteur, slectionnez la vue Lire. Cliquez sur Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur le nom et le type du fichier All_Customers_Stdz_tgt.csv. Dans la colonne Valeur, double-cliquez sur l'entre Rpertoire du fichier source. Cliquez avec le bouton droit de la souris sur le nom surlign et slectionnez Copier. Dans l'diteur, slectionnez la vue crire. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur l'entre Rpertoire du fichier de sortie. Cliquez avec le bouton droit de la souris et slectionnez Coller pour coller l'emplacement du rpertoire que vous avez copi partir de la vue Lire. Dans la colonne Valeur, double-cliquez sur l'entre Options d'en-tte et slectionnez Noms des champs de sortie. Dans la colonne Valeur, double-cliquez sur l'entre Nom du fichier de sortie et entrez All_Customers_Stdz_tgt.csv. Cliquez sur Fichier > Enregistrer pour enregistrer l'objet de donnes.

Tche 2. Cration d'un mappage pour normaliser les donnes


Dans cette tche, vous crez un mappage et le configurez pour utiliser des objets de donnes et une transformation de normalisation. Pour crer un mappage afin de normaliser les donnes, procdez comme suit : 1. 2. 3. Crez un mappage. Ajoutez des objets de donnes source et cible au mappage. Ajouter une transformation Normalisation au mappage.

60

Chapitre 14: Leon 5. Normalisation des donnes

4.

Configurez la transformation Normalisation pour normaliser les termes d'adresse communs dans des formats cohrents.

tape 1. Cration d'un mappage


Dans cette tape, vous crez et nommez le mappage. 1. 2. Dans la vue Explorateur d'objets, slectionnez votre projet de tutoriel. Cliquez sur Fichier > Nouveau > Mappage. La fentre Nouveau mappage s'ouvre. 3. 4. Dans le champ Nom, entrez StandardizerMapping. Cliquez sur Terminer. Le mappage s'ouvre dans l'diteur.

tape 2. Ajout d'objets de donnes au mappage


Dans cette tape, vous ajoutez l'objet de donnes All_Customers et l'objet de donnes All_Customers_Stdz_tgt au mappage. 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers et faites le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 3. Vrifiez que Lire est slectionn et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 4. 5. Dans la vue Explorateur d'objets, allez aux objets de donnes dans votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers_Stdz_tgt et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 6. Slectionnez crire et cliquez surOK. L'objet de donnes s'affiche dans l'diteur. 7. Slectionnez tous les ports dans l'objet de donnes All_Customers. Faites glisser les ports dans le port CustomerID dans l'objet de donnes All_Customers_Stdz_tgt. Astuce: Maintenez la touche Maj. enfonce pour slectionner plusieurs ports. Pour slectionner tous les ports, vous devrez peut-tre faire dfiler la liste vers le bas. Les ports de l'objet de donnes All_Customers se connectent aux ports correspondants dans l'objet de donnes All_Customers_Stdz_tgt.

tape 3. Ajout d'une transformation Normalisation au mappage


Dans cette tape, vous ajoutez une transformation de normalisation afin de normaliser les chanes des donnes d'adresses. 1. 2. 3. Slectionnez l'diteur contenant le mappage StandardizerMapping. Dans la palette de transformation, slectionnez la transformation de normalisation. Cliquez sur l'diteur. Une transformation de normalisation nomme NewStandardizer s'affiche dans le mappage.

Tche 2. Cration d'un mappage pour normaliser les donnes

61

4. 5.

Pour renommer la transformation de normalisation, double-cliquez sur la barre de titre de la transformation et entrez AddressStandardizer. Slectionnez le port Address1 dans l'objet de donnes All_Customers et faites-le glisser dans le groupe Entre de la transformation de normalisation. Un port nomm Address1 s'affiche dans le groupe d'entre. Le port se connecte au port Address1 de l'objet de donnes All_Customers.

Remarque: Vous ajoutez un port de sortie la transformation lorsque vous configurez une stratgie de normalisation.

tape 4. Configuration de la transformation Normalisation


Dans cette tape, vous configurez la transformation de normalisation pour normaliser les termes d'adresse dans les donnes source. Remarque: Vous dfinirez cinq oprations de normalisation dans cette tche. Chaque opration remplace une chane de la colonne d'entre par une nouvelle chane. 1. 2. 3. 4. 5. 6. Slectionnez l'diteur contenant le mappage StandardizerMapping. Cliquez sur la transformation Normalisation. Cliquez sur Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez Stratgies. Cliquez sur Nouvelle. L'assistant Nouvelle stratgie s'affiche. Cliquez sur la flche de slection dans la colonne Entres et slectionnez le port d'entre Address1. Le champ Sorties affiche Address1 comme port de sortie. 7. 8. 9. 10. 11. Slectionnez les dlimiteurs espace et virgule [\s] et [,]. Slectionnez ventuellement les options pour supprimer les espaces en fin de mot. Cliquez sur Suivant. Slectionnez l'opration Remplacer les chanes personnalises et cliquez sur Suivant. Sous Proprits, cliquez sur Nouvelle. Modifiez les champs Chanes personnalises et Remplacer par pour qu'ils contiennent la premire paire de chanes de la table suivante :
Chanes personnalises RUE BOULEVARD AVENUE ALLE PARC D'ACTIVITS Remplacer par R. BD AV. AL. PA

12. 13. 14.

Rptez les tapes 9 12 pour dfinir les oprations de normalisation pour toutes les chanes de la table. Faites glisser le port de sortie Address1 vers le port Address1 de l'objet de donnes All_Customers_Stdz_tgt. Cliquez sur Fichier > Enregistrerpour enregistrer le mappage.

62

Chapitre 14: Leon 5. Normalisation des donnes

Tche 3. Excution du mappage


Dans cette tche, vous excutez le mappage pour crire des adresses normalises sur l'objet de donnes de sortie. 1. 2. Slectionnez l'diteur contenant le mappage StandardizerMapping. Cliquez sur Excuter > Excuter le mappage. Le mappage s'excute et crit la sortie sur le fichier All_Customers_Stdz_tgt.csv.

Tche 4. Affichage de la sortie du mappage


Dans cette tche, vous excutez la visionneuse de donnes pour afficher la sortie du mappage et vrifier que les donnes d'adresses sont correctement normalises. 1. Dans la vue Explorateur d'objets, recherchez l'objet de donnes All_Customers_Stdz_tgt dans votre projet de tutoriel et double-cliquez sur l'objet de donnes. L'objet de donnes s'ouvre dans l'diteur. 2. Cliquez sur Fentre > Afficher la vue > Visionneuse de donnes. La vue Visionneuse de donnes s'ouvre. 3. Dans la Visionneuse de donnes, cliquez sur Excuter. La Visionneuse de donnes affiche la sortie du mappage. 4. Vrifiez que la colonne Address1 affiche correctement les donnes normalises. Par exemple, toutes les occurrences de la chane RUE doivent tre remplaces par la chane R.

Rsum de la normalisation des donnes


Dans cette leon, vous avez appris que vous pouvez normaliser des donnes pour supprimer les erreurs et incohrences dans ces dernires. Vous avez appris que vous pouvez utiliser une transformation de normalisation pour normaliser les chanes dans une colonne d'entre. Vous avez galement appris que vous pouvez afficher la sortie du mappage l'aide de la Visionneuse de donnes. Vous avez cr et configur l'objet de donnes All_Customers_Stdz_tgt pour qu'il contienne la sortie normalise. Vous avez cr un mappage pour normaliser les donnes. Dans ce mappage, vous avez configur une transformation de normalisation pour normaliser la colonne Address1 de l'objet de donnes All_Customers. Vous avez configur le mappage pour crire la sortie normalise sur l'objet de donnes All_Customers_Stdz_tgt. Enfin, vous avez excut le mappage et utilis la Visionneuse de donnes pour afficher les donnes normalises dans l'objet de donnes All_Customers_Stdz_tgt.

Tche 3. Excution du mappage

63

CHAPITRE 15

Leon 6. Validation des donnes d'adresse


Ce chapitre comprend les rubriques suivantes :
Prsentation de la validation des donnes d'adresse, 64 Tche 1. Cration d'un objet de donnes cible , 65 Tche 2. Cration d'un mappage pour valider les adresses, 67 Tche 3. Configuration de la transformation du validateur d'adresses, 68 Tche 4. Excution du mappage, 71 Tche 5. Affichage de la sortie du mappage, 72 Rsum de la validation des donnes d'adresse, 73

Prsentation de la validation des donnes d'adresse


La validation d'adresses est le processus d'valuation et d'amlioration de la qualit des adresses postales. Elle value la qualit des adresses en comparant les adresses d'entre avec un jeu de donnes de rfrence d'adresses valides. Elle amliore la qualit des adresses en identifiant les valeurs d'adresse incorrectes et en utilisant le jeu de donnes de rfrence pour crer des champs contenant des valeurs correctes. Une adresse est valide lorsqu'elle est livrable. Une adresse peut tre correctement formate et contenir les informations de rue, ville et code postal relles, mais si les donnes ne produisent pas une adresse livrable, alors celle-ci n'est pas valide. L'outil Developer utilise des jeux de donnes de rfrence d'adresses pour vrifier que les adresses d'entre peuvent tre livres. Informatica fournit des jeux de donnes de rfrence d'adresses. Un jeu de donnes de rfrence d'adresses contient des donnes dcrivant toutes les adresses livrables d'un pays. Le processus de validation d'adresses recherche le jeu de donnes d'adresse qui ressemble le plus aux donnes de l'adresse d'entre. Lorsque le processus trouve une correspondance proche dans le jeu de donnes de rfrence, il crit les nouvelles valeurs pour toute valeur de donnes incorrecte ou incomplte. Le processus cre un jeu de codes alphanumrique dcrivant le type de correspondance entre l'adresse d'entre et les adresses de rfrence. Il peut galement restructurer les adresses et ajouter des informations absentes de l'adresse d'entre, comme par exemple le suffixe du code ZIP quatre chiffres pour une adresse aux tats-Unis. Utilisez la transformation du validateur d'adresses pour crer des processus de validation d'adresses dans l'outil Developer. Cette transformation multigroupe contient un jeu de ports d'entre et de sortie prdfinis correspondant tous les champs possibles dans une adresse d'entre. Lorsque vous configurez une transformation de l'outil de validation des adresses, vous slectionnez le jeu de donnes de rfrence par dfaut

64

et vous crez une structure d'adresse d'entre et de sortie l'aide des ports de transformation. Dans cette leon, vous configurez la transformation pour valider les donnes d'adresses aux tats-Unis.

Scnario
HypoStores doit corriger et complter les donnes d'adresse pour s'assurer que ses campagnes de publicit directe et les autres courriers destins aux consommateurs parviennent ses clients. Corriger et complter les donnes d'adresse rduit galement le cot des oprations de publipostage pour l'organisation. De plus, les donnes clients d'HypoStores doivent inclure les adresses dans un format imprimable suffisamment flexible pour inclure des adresses de longueurs diffrentes. Pour satisfaire ces besoins professionnels, l'quipe ICC HypoStores cre un mappage de validation d'adresses dans l'outil Developer.

Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer un objet de donnes cible qui contiendra les champs d'adresse valids et les codes de correspondance. Crer un mappage avec un objet de donnes source, un objet de donnes cible et une transformation du

validateur d'adresses.
Configurer la transformation du validateur d'adresses pour valider les donnes d'adresse de vos clients. Excuter le mappage pour valider les donnes d'adresse et examiner les sorties du code de correspondance

pour vrifier la validit des donnes d'adresse.

Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel. Les donnes de rfrence d'adresses aux tats-Unis sont installes dans le domaine et enregistres l'aide

de l'outil Administrator. Contactez votre administrateur Informatica pour vrifier que les donnes d'adresses aux tats-Unis sont installes sur votre systme. Les donnes de rfrence sont installes l'aide du programme d'installation de contenu Data Quality.

Timing
Prvoyez 25 minutes pour cette leon.

Tche 1. Cration d'un objet de donnes cible


Dans cette tche, vous crez un objet de donnes cible, configurez les options d'criture et ajoutez les ports. Pour crer et configurer l'objet de donnes cible, procdez comme suit : 1. 2. 3. Crez un objet de donnes All_Customers_av_tgt bas sur le fichier All_Customers.csv. Configurez les options de lecture et d'criture de l'objet de donnes, y compris les noms et les emplacements de fichiers. Ajoutez des ports l'objet de donnes pour recevoir les valeurs du code de correspondance gnr par la transformation du validateur d'adresses.

Tche 1. Cration d'un objet de donnes cible

65

tape 1. Crez l'objet de donnes All_Customers_av_tgt


Dans cette tape, vous crez un objet de donnes All_Customers_av_tgt bas sur le fichier All_Customers.csv. 1. Cliquez sur Fichier > Nouveau > Objet de donnes. La fentre Nouveau s'ouvre. 2. 3. 4. 5. 6. 7. 8. Slectionnez Objet de donnes de fichier plat et cliquez sur Suivant. Vrifiez que Crer partir d'un fichier plat existant est slectionn. Cliquez sur Parcourir ct de cette slection, recherchez le fichier All_Customers.csv et cliquez sur Ouvrir. Dans le champ Nom, entrez All_Customers_av_tgt. Cliquez sur Suivant. Cliquez sur Suivant. Dans la section Options de prvisualisation, slectionnez Importer les noms de colonnes de la premire ligne et cliquez surSuivant. Cliquez sur Terminer. L'objet de donnes All_Customers_av_tgt s'affiche dans l'diteur.

tape 2. Configuration des options Lire et crire


Dans cette tape, vous configurez les options de lecture et d'criture pour l'objet de donnes
All_Customers_av_tgt, y compris le nom et l'emplacement du fichier cible.

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.

Vrifiez que l'objet de donnes All_Customers_av_tgt est ouvert dans l'diteur. Dans l'diteur, slectionnez la vue Lire. Slectionnez Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur le nom et type de fichier source All_Customers_av_tgt.csv. Dans la colonne Valeur, double-cliquez pour surligner le chemin du rpertoire du fichier source. Cliquez avec le bouton droit de la souris sur le nom et le chemin surligns et slectionnez Copier. Dans l'diteur, slectionnez la vue crire. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur l'entre Rpertoire du fichier de sortie. Cliquez avec le bouton droit de la souris sur cette entre et slectionnez Coller pour ajouter le chemin que vous avez copi partir de la vue Lire. Dans la colonne Valeur, double-cliquez sur l'entre Options d'en-tte et slectionnez Noms des champs de sortie. Dans la colonne Valeur, double-cliquez sur l'entre Nom du fichier de sortie et entrez All_Customers_av_tgt.csv. Slectionnez Fichier > Enregistrer pour enregistrer l'objet de donnes.

66

Chapitre 15: Leon 6. Validation des donnes d'adresse

tape 3. Ajout de ports l'objet de donnes


Dans cette tape, vous ajoutez deux ports l'objet de donnes All_Customers_av_tgt pour que la transformation du validateur d'adresses puisse crire les valeurs du code de correspondance sur le fichier cible. Nommez les ports MailabilityScore et MatchCode. La valeur MailabilityScore dcrit si l'adresse d'entre est livrable. La valeur MatchCode dcrit le type de correspondance que la transformation effectue entre l'adresse d'entre et les adresses des donnes de rfrence. 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Double-cliquez sur l'objet de donnes All_Customers_av_tgt. L'objet de donnes All_Customers_av_tgt s'ouvre dans l'diteur. 3. 4. 5. Vrifiez que Aperu est slectionn. Slectionnez le port final dans la liste des ports. Ce port est nomm MiscDate. Cliquez sur Nouveau. Un port nomm MiscDate1 s'affiche. 6. 7. 8. Renommez le port MiscDate1 MailabilityScore. Slectionnez le port MailabilityScore. Cliquez sur Nouveau. Un port nomm MailabilityScore1 s'affiche. 9. 10. Renommez le port MailabilityScore1 MatchCode. Cliquez sur Fichier > Enregistrer pour enregistrer l'objet de donnes.

Tche 2. Cration d'un mappage pour valider les adresses


Dans cette tche, vous crez un mappage et ajoutez des objets de donnes et une transformation du validateur d'adresses. Pour crer le mappage et ajouter les objets dont vous avez besoin, procdez comme suit : 1. 2. 3. Crez un objet de mappage. Ajoutez des objets de donnes source et cible au mappage. Ajouter une transformation du validateur d'adresses au mappage.

tape 1. Cration d'un mappage


Dans cette tape, vous crez et nommez le mappage. 1. 2. Dans la vue Explorateur d'objets, slectionnez votre projet de tutoriel. Slectionnez Fichier > Nouveau > Mappage. La fentre Nouveau mappage s'ouvre. 3. 4. Dans le champ Nom, entrez ValidateAddresses. Cliquez sur Terminer. Le mappage s'ouvre dans l'diteur.

Tche 2. Cration d'un mappage pour valider les adresses

67

tape 2. Ajout d'objets de donnes au mappage


Dans cette tape, vous ajoutez les objets de donnes source et cible au mappage.
All_Customers est l'objet de donnes source du mappage. La transformation du validateur d'adresses lit les

donnes de cet objet. All_Customers_av_tgt est l'objet de donnes cible du mappage. Cet objet lit les donnes depuis la transformation du validateur d'adresses 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 3. Vrifiez que Lire est slectionn et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 4. 5. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers_av_tgt et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 6. Slectionnez crire et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 7. Cliquez sur Enregistrer.

tape 3. Ajout d'une transformation du validateur d'adresses au mappage


Dans cette tape, vous ajoutez une transformation du validateur d'adresses au mappage contenant la source et les objets de donnes. Lorsque cette tape est termine, vous pouvez configurer la transformation et connecter ses ports aux objets de donnes. 1. 2. 3. Slectionnez l'diteur contenant le mappage ValidateAddresses. Dans la palette de transformation, slectionnez la transformation du validateur d'adresses. Cliquez sur l'diteur. La transformation du validateur d'adresses s'affiche dans l'diteur.

Tche 3. Configuration de la transformation du validateur d'adresses


Dans cette tche, vous configurez la transformation du validateur d'adresses pour lire et valider les adresses partir de la source de donnes All_Customers. Remarque: La transformation du validateur d'adresses contient une srie de ports d'entre et de sortie prdfinis. Slectionnez les ports dont vous avez besoin et connectez-les aux objets dans le mappage. Pour configurer la transformation, procdez comme suit : 1. 2. Slectionnez le jeu de donnes de rfrence d'adresses par dfaut. Configurez les ports de transformation et connectez la transformation au mappage.

68

Chapitre 15: Leon 6. Validation des donnes d'adresse

3.

Connectez les ports source inutiliss la cible de donnes.

tape 1. Dfinition du jeu de donnes de rfrence d'adresses par dfaut


Dans cette tape, vous slectionnez le jeu de donnes de rfrence par dfaut. Les fichiers de donnes de rfrence d'adresses sont dfinis par pays, vous slectionnez donc un nom de pays comme jeu de donnes par dfaut. La transformation du validateur d'adresses utilise les donnes de rfrence relatives ce pays s'il ne peut pas dterminer le pays utiliser partir des valeurs des donnes d'entre. 1. 2. 3. Slectionnez la transformation du validateur d'adresses dans l'diteur. Sous Proprits, cliquez sur Paramtres gnraux. Dans le menu Pays par dfaut, slectionnez tats-Unis.

tape 2. Configuration des ports d'entre de la transformation du validateur d'adresses


Dans cette tape, vous slectionnez les ports d'entre de la transformation et les connectez l'objet de donnes All_Customers_av. La transformation du validateur d'adresses contient plusieurs groupes de ports d'entre prdfinis. Slectionnez les ports d'entre correspondant aux champs de votre adresse d'entre et ajoutez-les la transformation. Maintenez la touche Ctrl enfonce lorsque vous slectionnez les ports dans les tapes suivantes afin de slectionner plusieurs ports en une seule opration. 1. 2. 3. 4. Slectionnez la transformation du validateur d'adresses dans l'diteur. Sous Proprits, cliquez sur Modles. Dveloppez le groupe de ports Modle de base. Dveloppez le groupe de ports d'entre Hybride et slectionnez les ports suivants :
Nom de port Ligne d'adresse de livraison 1 Description Donnes d'adresse relatives la rue, comme par exemple le nom de la rue et le numro du btiment. Nom de la ville. Code postal ou code ZIP. Nom de la province/tat ou dpartement/rgion. Nom ou abrviation du pays.

Localit complte 1 Code postal 1 Province 1 Nom du pays

Remarque: Maintenez la touche Ctrl enfonce pour slectionner plusieurs ports en une seule opration. 5. Dans la barre d'outils situe au dessus de la liste des noms de ports, cliquez sur Ajouter le port la transformation. Cette barre d'outils est visible lorsque vous slectionnez Modles. Les ports slectionns s'affichent dans la transformation de l'diteur de mappage.

Tche 3. Configuration de la transformation du validateur d'adresses

69

6.

Connectez les ports source la transformation du validateur d'adresses comme suit :


Port source Address1 Ville ZIP tat/Province/Dpartement/Rgion Pays Port de transformation du validateur d'adresses Ligne d'adresse de livraison 1 Localit complte 1 Code postal 1 Province 1 Nom du pays

tape 3. Configuration de la transformation du validateur d'adresses


Dans cette tape, vous slectionnez les ports de sortie de la transformation et connectez ces ports l'objet de donnes All_Customers_av_tgt. La transformation du validateur d'adresses contient plusieurs groupes de ports de sortie prdfinis. Slectionnez les ports dfinissant la structure de l'adresse dont vous avez besoin et ajoutez ces ports la transformation. Vous pouvez galement slectionner des ports contenant des informations sur le type de validation effectue pour chaque adresse. 1. 2. 3. 4. Slectionnez la transformation du validateur d'adresses dans l'diteur de mappage. Sous Proprits, cliquez sur Modles. Dveloppez le groupe de port Modle de base. Dveloppez le groupe de ports de sortie lments d'adresse et slectionnez le port suivant :
Nom de port Rue complte 1 Description Donnes d'adresse relatives la rue, comme par exemple le nom de la rue et le numro du btiment.

5.

Dveloppez le groupe de ports de sortie lments de dernire ligne et slectionnez les ports suivants :
Nom de port Localit complte 1 Code postal 1 Province abrviation 1 Description Nom de la ville. Code postal ou code ZIP. Identifiant de la province/tat/dpartement/rgion.

Remarque: Maintenez la touche Ctrl enfonce pour slectionner plusieurs ports en une seule opration. 6. Dveloppez le groupe de ports de sortie Pays et slectionnez le port suivant :
Nom de port Nom du pays 1 Description Nom du pays.

70

Chapitre 15: Leon 6. Validation des donnes d'adresse

7.

Dveloppez le groupe de ports de sortie Info Statut et slectionnez les ports suivants :
Nom de port Score d'envoi Code de correspondance Description Score reprsentant les probabilits de russite de la livraison postale. Code reprsentant le degr de similarit entre l'adresse d'entre et les donnes de rfrence.

8.

Dans la barre d'outils situe au dessus de la liste des noms de port, cliquez sur Ajouter le port la transformation. Cette barre d'outils s'affiche lorsque vous slectionnez Modles.

9.

Connectez les ports de la transformation du validateur d'adresses aux ports All_Customers_av_tgt comme suit :
Port de la transformation du validateur d'adresses Rue complte 1 Localit complte 1 Code postal 1 Province abrviation 1 Nom du pays 1 Score d'envoi Code de correspondance Port cible Address1 Ville ZIP Dpartement/Rgion Pays MailabilityScore MatchCode

tape 4. Connexion des ports inutiliss de la source de donnes la cible des donnes
Dans cette tape, vous connectez les ports inutiliss sur la source de donnes All_Customers la cible de donnes.
u

Connectez les ports inutiliss sur la source de donnes aux ports de mme noms sur la cible de donnes.

Tche 4. Excution du mappage


Dans cette tche, vous excutez le mappage pour crer la sortie du mappage. 1. 2. Slectionnez l'diteur contenant le mappage ValidateAddresses. Slectionnez Excuter > Excuter le mappage. Le mappage s'excute et crit la sortie sur le fichier All_Customers_av_tgt.csv.

Tche 4. Excution du mappage

71

Tche 5. Affichage de la sortie du mappage


Dans cette tche, vous excutez la Visionneuse de donnes pour afficher la sortie du mappage. Vrifiez la qualit de vos adresses valides en examinant les valeurs crites dans les colonnes Score d'envoi et Code de correspondance de l'objet de donnes cible. La valeur du code de correspondance est un code alphanumrique reprsentant le type de validation que le mappage a effectu sur l'adresse. La valeur du Score d'envoi est une valeur un chiffre qui rsume si l'adresse est livrable. 1. Dans la vue Explorateur de donnes, recherchez l'objet de donnes All_Customers_av_tgt de votre projet de tutoriel et double-cliquez sur l'objet de donnes. L'objet de donnes s'ouvre dans l'diteur. 2. Slectionnez Fentre > Afficher la vue > Visionneuse de donnes. La Visionneuse de donnes s'ouvre. 3. Dans la Visionneuse de donnes, cliquez sur Excuter. La Visionneuse de donnes affiche la sortie du mappage. 4. 5. Faites dfiler les rsultats du mappage afin d'afficher les colonnes Score d'envoi et du code de correspondance. Vrifiez les valeurs de la colonne Score d'envoi. Les scores peuvent tre compris entre 0 5. Les adresses possdant les scores les plus levs sont plus susceptibles d'tre livres. 6. Vrifiez les valeurs de la colonne code de correspondance. Le code de correspondance est un code alphanumrique. Le caractre alphabtique indique le type de validation que la transformation a effectu et le chiffre indique la qualit de l'adresse finale. La table suivante dcrit les valeurs du code de correspondance communes :
Code de corresponda nce V4 Description

valu comme livrable par Validation des adresses Les donnes d'entre sont correctes et les entres correspondent parfaitement aux donnes de rfrence. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais les entres ne correspondent pas parfaitement aux donnes de rfrence. Ceci est probablement d une faible normalisation des lments de l'adresse. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais les entres ne correspondent pas parfaitement aux donnes de rfrence. Des fichiers peuvent manquer dans les fichiers de donnes de rfrence. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais la faible normalisation a diminu le caractre livrable de l'adresse. Corrig par Validation des adresses Tous les lments ont t traits et corrigs si ncessaire. Corrig par Validation des adresses Tous les lments ont t traits mais certains lments n'ont pas pu tre vrifis. Partiellement corrig par Validation des adresses Des donnes de rfrence peuvent manquer.

V3

V2

V1

C4 C3

C2

72

Chapitre 15: Leon 6. Validation des donnes d'adresse

Code de corresponda nce C1

Description

Corrig par la Validation des adresses, mais la faible normalisation a diminu le caractre livrable de l'adresse. Les donnes d'entre n'ont pas pu tre corriges mais l'adresse est probablement livrable car elle correspond une adresse de rfrence unique. Les donnes d'entre n'ont pas pu tre corriges mais l'adresse est probablement livrable car elle correspond plusieurs adresses de rfrence. Les donnes d'entre n'ont pas pu tre corriges et l'adresse n'est probablement pas livrable. Les donnes d'entre n'ont pas pu tre corriges et l'adresse n'est trs probablement pas livrable. Aucune validation n'a t effectue. Ceci peut tre d l'absence de donnes de rfrence accrdites ou actuelles. L'adresse peut tre livrable ou non.

I4

I3

I2 I1 N1 N6

Rsum de la validation des donnes d'adresse


Dans cette leon, vous avez appris que la validation d'adresses compare les donnes d'adresse d'entre avec les donnes de rfrence et renvoie la version la plus prcise possible de l'adresse. Vous avez appris que le processus de validation d'adresses renvoie galement les informations du statut relatives la qualit de chaque adresse. Vous avez appris que les utilisateurs de l'outil Administrator excutent le programme d'installation de contenu Data Quality pour installer les donnes de rfrence d'adresses. Vous avez galement appris que la transformation de l'outil de validation des adresses est une transformation multigroupe et que vous slectionnez les ports d'entre et de sortie pour la transformation parmi les groupes de ports. Les ports d'entre que vous slectionnez dterminent le contenu de l'adresse qui est valid. Les ports de sortie dterminent le contenu de l'enregistrement de l'adresse finale.

Rsum de la validation des donnes d'adresse

73

ANNEXE A

Forum Aux Questions (FAQ)


Cette annexe comprend les rubriques suivantes :
FAQ Informatica Analyst, 74 Foire Aux Questions (FAQ) Informatica Developer , 74

FAQ Informatica Analyst


Consultez le FAQ pour rpondre aux questions que vous pouvez vous poser sur Informatica Analyst. Quelle combinaison de fonctionnalits du produit est incluse dans l'outil Analyst ? L'outil Analyst contient certaines fonctionnalits qui sont incluses dans les produits suivants :
Informatica Data Quality Informatica Data Explorer Data Quality Assistant PowerCenter Reference Table Manager

Puis-je accder aux outils Administrator, Developer et Analyst partir d'un seul compte ? Oui. Vous pouvez autoriser un utilisateur accder aux trois outils. Il n'est pas ncessaire de crer des comptes d'utilisateur diffrents pour chaque client d'application. Qu'est-il arriv Reference Table Manager ? O sont stockes mes donnes de rfrence ? Les fonctionnalits de Reference Table Manager sont incluses dans l'outil Analyst. Vous pouvez utiliser l'outil Analyst pour crer et partager des donnes de rfrence. Les donnes de rfrence sont stockes dans la base de donnes temporaire que vous configurez lorsque vous crez un service Analyst.

Foire Aux Questions (FAQ) Informatica Developer


Consultez la foire aux questions pour rpondre aux questions que vous vous posez propos d'Informatica Developer. Quelle est la diffrence entre une source et une cible dans PowerCenter et un objet de donnes physique dans l'outil Developer ? Dans PowerCenter, vous crez une dfinition source inclure comme mappage source. Vous crez une dfinition cible inclure comme mappage cible. Dans l'outil Developer, vous crez un objet de donnes physique que vous pouvez utiliser comme mappage source ou cible.

74

Quelle est la diffrence entre un mappage dans l'outil Developer et un mappage dans PowerCenter ? Un mappage PowerCenter indique comment dplacer les donnes entre les sources et les cibles. Un mappage de l'outil Developer indique comment dplacer les donnes entre l'entre et la sortie du mappage. Un mappage PowerCenter doit inclure une ou plusieurs dfinitions source, qualifiants source et dfinitions cible. Un mappage PowerCenter peut aussi inclure des raccourcis, des transformations et des mapplets. Un mappage de l'outil Developer doit inclure une entre et une sortie de mappage. Un mappage de l'outil Developer peut aussi inclure des transformations et des mapplets. L'outil Developer dispose des types de mappage suivants :
Mappage dplaant les donnes entre les sources et les cibles. Ce type de mappage diffre du mappage

de PowerCenter seulement par le fait qu'il ne peut pas utiliser de raccourcis et qu'il n'utilise pas de qualifiant source.
Mappage d'objet de donnes logique. Mappage dans un modle d'objet de donnes logique. Un mappage

d'objet de donnes logique peut contenir un objet de donnes logique comme entre de mappage et un objet de donnes comme sortie de mappage. Il peut galement contenir un ou plusieurs objets de donnes physiques comme entre de mappage et un objet de donnes logique comme mappage de sortie.
Mappage de table virtuelle. Mappage dans un service de donnes SQL. Il contient un objet de donnes

comme entre de mappage et une table virtuelle comme sortie de mappage.


Mappage de procdure stocke virtuelle. Dfinit un ensemble de logique mtier dans un service de

donnes SQL. Il contient une transformation de paramtre d'entre ou objet de donnes physique comme entre de mappage et une transformation de paramtre de sortie ou objet de donnes physique comme sortie de mappage. Quelle est la diffrence entre un mapplet dans PowerCenter et un mapplet dans l'outil Developer ? Un mapplet dans PowerCenter et dans l'outil Developer est un objet rutilisable qui contient un ensemble de transformations. Vous pouvez rutiliser la logique de transformation dans plusieurs mappages. Un mapplet PowerCenter peut contenir des dfinitions source ou des transformations d'entre comme entre de mapplet. Il doit contenir des transformations de sortie comme sortie de mapplet. Un mapplet de l'outil Developer peut contenir des objets de donnes ou des transformations d'entre comme entre de mapplet. Il peut contenir des objets de donnes ou des transformations de sortie comme sortie de mapplet. Un mappage dans l'outil Developer peut aussi inclure les fonctions suivantes :
Vous pouvez valider un mapplet en tant que rgle. Vous utilisez une rgle dans un profil. Un mapplet peut contenir d'autres mapplets.

Quelle est la diffrence entre un mapplet et une rgle ? Vous pouvez valider un mapplet en tant que rgle. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez valider un mapplet en tant que rgle lorsque le mapplet rpond aux spcifications suivantes :
Il contient une transformation d'entre et de sortie. Le mapplet ne contient pas de transformations actives. Il ne spcifie pas de cardinalit entre les groupes d'entre.

Foire Aux Questions (FAQ) Informatica Developer

75

Vous aimerez peut-être aussi