Académique Documents
Professionnel Documents
Culture Documents
0 HotFix 1)
Guide de dmarrage
Informatica Data Quality Guide de dmarrage Version 9.1.0 HotFix 1 Juin 2011 Copyright (c) 1998-2011 Informatica. Tous droits rservs. Ce logiciel et sa documentation contiennent des informations appartenant Informatica Corporation, protges par les lois sur le copyright et fournies dans le cadre d'un accord de licence contenant des restrictions d'utilisation et de divulgation. Toute ingnierie inverse du logiciel est interdite. Il est interdit de reproduire ou transmettre sous quelque forme et par quelque moyen que ce soit (lectronique, photocopie, enregistrement ou autre) tout ou partie de ce document sans le consentement pralable de Informatica Corporation. Ce logiciel peut tre protg par des brevets amricains et/ou internationaux, ainsi d'autres brevets en attente. L'utilisation, la duplication ou la divulgation du Logiciel par le gouvernement amricain est sujette aux restrictions dcrites dans l'accord de licence applicable du logiciel conformment aux documents DFARS 227.7202-1(a) et 227.7702-3(a) (1995), DFARS 252.227-7013(1)(ii) (OCT 1988), FAR 12.212(a) (1995), FAR 52.227-19 ou FAR 52.227-14 (ALT III) le cas chant. Les informations dans ce produit ou cette documentation sont sujettes modification sans pravis. Si vous rencontrez des problmes dans ce produit ou la documentation, veuillez nous en informer par crit. Informatica, Informatica Platform, Informatica Data Services, PowerCenter, PowerCenterRT, PowerCenter Connect, PowerCenter Data Analyzer, PowerExchange, PowerMart, Metadata Manager, Informatica Data Quality, Informatica Data Explorer, Informatica B2B Data Transformation, Informatica B2B Data Exchange Informatica On Demand, Informatica Identity Resolution, Informatica Application Information Lifecycle Management, Informatica Complex Event Processing, Ultra Messaging et Informatica Master Data Management sont des marques de commerce ou des marques dposes de Informatica Corporation aux tats-Unis et dans d'autres juridictions du monde. Tous les autres noms de socit ou de produit peuvent tre des marques de commerce ou des marques dposes de leurs dtenteurs respectifs. Des portions de ce logiciel ou de la documentation sont sujets au copyright dtenu par des tierces parties, dont Copyright DataDirect Technologies. Tous droits rservs. Copyright Sun Microsystems. Tous droits rservs. Copyright RSA Security Inc. Tous droits rservs. Copyright Ordinal Technology Corp. Tous droits rservs. Copyright Aandacht c.v. Tous droits rservs. Copyright Genivia, Inc. Tous droits rservs. Copyright Isomorphic Software. Tous droits rservs. Copyright Meta Integration Technology, Inc. Tous droits rservs. Copyright Intalio. Tous droits rservs. Copyright Oracle. Tous droits rservs. Copyright Adobe Systems Incorporated. Tous droits rservs. Copyright DataArt, Inc. Tous droits rservs. Copyright ComponentSource. Tous droits rservs. Copyright Microsoft Corporation. Tous droits rservs. Copyright Rogue Wave Software, Inc. Tous droits rservs. Copyright Teradata Corporation. Tous droits rservs. Copyright Yahoo! Inc. Tous droits rservs. Copyright Glyph & Cog, LLC. Tous droits rservs. Copyright Thinkmap, Inc. Tous droits rservs. Copyright Clearpace Software Limited. Tous droits rservs. Copyright Information Builders, Inc. Tous droits rservs. Copyright OSS Nokalva, Inc. Tous droits rservs. Copyright Edifecs, Inc. Tous droits rservs. Copyright Cleo Communications, Inc. Tous droits rservs. Copyright International Organization for Standardization 1986. Tous droits rservs. Copyright ej-technologies GmbH . Tous droits rservs. Copyright Jaspersoft Corporation. Tous droits rservs. Ce produit contient des logiciels dvelopps par Apache Software Foundation (http://www.apache.org/), et d'autres logiciels sous licence Apache License, Version 2.0 (la "Licence"). Vous pouvez obtenir une copie de la Licence sur http://www.apache.org/licenses/LICENSE-2.0. Sauf indication contraire dans la lgislation applicable ou par accord crit, le logiciel distribu sous la Licence est fourni EN L'TAT, SANS GARANTIES NI CONDITIONS D'AUCUNE SORTE, expresse ou implicite. Se reporter la Licence pour la langue spcifique rgissant les droits et limitations dans le cadre de la Licence Ce produit inclut des logiciels dvelopps par Mozilla (http://www.mozilla.org/), copyright de logiciel The JBoss Group, LLC, tous droits rservs ; copyright de logiciel 1999-2006 de Bruno Lowagie et Paulo Soares et d'autres logiciels sous licence GNU Lesser General Public License Agreement accessible sur http://www.gnu.org/licenses/ lgpl.html. Les matriaux sont fournis gratuitement par Informatica, en l'tat , sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de conformit lgale et d'usage normal. Le produit inclut les logiciels ACE(TM) et TAO(TM), copyright Douglas C. Schmidt et son groupe de recherche Washington University, University of California, Irvine, et Vanderbilt University, Copyright () 1993-2006, tous droits rservs. Ce produit inclut des logiciels dvelopps par OpenSSL Project pour une utilisation dans OpenSSL Toolkit (copyright The OpenSSL Project. Tous droits rservs) et la redistribution de ce logiciel est sujette aux termes publi sur http://www.openssl.org et http://www.openssl.org/source/license.html. Ce produit inclut le logiciel Curl, copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://curl.haxx.se/docs/copyright.html. L'autorisation d'utiliser, copier, modifier et distribuer ce logiciel toute fin, avec ou sans rmunration, est accorde par les prsentes, la condition que la notification de copyright ci-dessus et que cette notification d'autorisation apparaissent dans toutes les copies. Le produit inclut des logiciels sous copyright 2001-2005 () MetaStuff, Ltd. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.dom4j.org/ license.html. Le produit inclut des logiciels sous copyright 2004-2007, The Dojo Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://dojotoolkit.org/license. Ce produit inclut le logiciel ICU sous copyright de International Business Machines Corporation et autres. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://source.icu-project.org/repos/icu/icu/trunk/license.html. Ce produit inclut des logiciels sous copyright 1996-2006 Per Bothner. Tous droits rservs. Votre droit utiliser de tels matriels est dfini dans la licence qui peut tre consulte sur http://www.gnu.org/software/ kawa/Software-License.html. Ce produit inclut le logiciel OSSP UUID sous copyright 2002 Ralf S. Engelschall, copyright 2002 The OSSP Project Copyright 2002 Cable & Wireless Deutschland. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.opensource.org/licenses/mit-license.php. Ce produit inclut des logiciels dvelopps par Boost (http://www.boost.org/) ou sous licence de logiciel Boost. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http:/ /www.boost.org/LICENSE_1_0.txt. Ce produit inclut des logiciels sous copyright 1997-2007 University of Cambridge. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies surhttp://www.pcre.org/license.txt. Ce produit inclut des logiciels sous copyright 2007 The Eclipse Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http:// www.eclipse.org/org/documents/epl-v10.php. Ce produit inclut des logiciels sous licence conformment aux conditions publies sur http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/? License, http://www.stlport.org/doc/ license.html, http://www.asm.ow2.org/license.html, http://www.cryptix.org/LICENSE.TXT, http://hsqldb.org/web/hsqlLicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/OpenSourceLicense.html, http://fusesource.com/downloads/license-agreements/ fuse-message-broker-v-5-3- license-agreement; http://antlr.org/license.html; http://aopalliance.sourceforge.net/; http://www.bouncycastle.org/licence.html; http:// www.jgraph.com/jgraphdownload.html; http://www.jcraft.com/jsch/LICENSE.txt. http://jotm.objectweb.org/bsd_license.html; http://www.w3.org/Consortium/Legal/2002/ copyright-software-20021231; http://www.slf4j.org/license.html; http://developer.apple.com/library/mac/#samplecode/HelpHook/Listings/HelpHook_java.html; http:// www.jcraft.com/jsch/LICENSE.txt;http://nanoxml.sourceforge.net/orig/copyright.html; http://www.json.org/license.html; et http://forge.ow2.org/projects/javaservice/. Ce produit inclut des logiciels sous licence conformment Academic Free License (http://www.opensource.org/licenses/afl-3.0.php), Common Development and Distribution License (http://www.opensource.org/licenses/cddl1.php) Common Public License (http://www.opensource.org/licenses/cpl1.0.php), Sun Binary Code License Agreement Supplemental License Terms, BSD License (http://www.opensource.org/licenses/bsd-license.php) et MIT License (http://www.opensource.org/licenses/mit-license.php).
Ce produit inclut des logiciels sous copyright 2003-2006 Joe WaInes, 2006-2007 XStream Committers. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://xstream.codehaus.org/license.html. Ce produit inclut des logiciels dvelopps par Indiana University Extreme! Lab. Pour plus d'informations, veuillez vous rendre sur http://www.extreme.indiana.edu/. Ce logiciel est protg par les numros de brevets des tats-Unis 5 794 246 ; 6 014 670 ; 6 016 501 ; 6 029 178 ; 6 032 158 ; 6 035 307 ; 6 044 374 ; 6 092 086 ; 6 208 990 ; 6 339 775 ; 6 640 226 ; 6 789 096 ; 6 820 077 ; 6 823 373 ; 6 850 947 ; 6 895 471 ; 7 117 215 ; 7 162 643 ; 7 254 590 ; 7 281 001 ; 7 421 458 ; 7 496 588 ; 7 523 121 ; 7 584 422 ; 7 720 842 ; 7 721 270 ; et 7 774 791, des brevets internationaux et d'autres brevets en cours. EXCLUSION DE RESPONSABILIT : Informatica Corporation fournit cette documentation en l'tat sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de non-infraction, de conformit lgale ou d'usage normal. Informatica Corporation ne garantit pas que ce logiciel ou cette documentation est exempt d'erreurs. Les informations fournies dans ce logiciel ou cette documentation peuvent inclure des inexactitudes techniques ou des erreurs typographiques. Les informations contenues dans ce logiciel et sa documentation sont sujettes modification tout moment sans pravis. AVIS Ce produit Informatica (le Logiciel ) inclut certains pilotes (les Pilotes DataDirect ) de DataDirect Technologies, une socit de Progress Software Corporation ( DataDirect ) qui sont sujets aux conditions suivantes : 1. LES PILOTES DATADIRECT SONT FOURNIS EN L'TAT , SANS GARANTIE D'AUCUNE SORTE, EXPRESSE OU IMPLICITE, NOTAMMENT LES GARANTIES IMPLICITES DE CONFORMIT LGALE, D'USAGE NORMAL ET DE NON-INFRACTION. 2. DATADIRECT OU SES FOURNISSEURS TIERS NE POURRONT EN AUCUN CAS TRE TENUS RESPONSABLES ENVERS LE CLIENT UTILISATEUR FINAL DE TOUT DOMMAGE DIRECT, ACCESSOIRE, INDIRECT, SPCIAL, CONSCUTIF OU AUTRE RSULTANT DE L'UTILISATION DES PILOTES ODBC, QU'ILS SOIENT INFORMS OU NON L'AVANCE DE LA POSSIBILIT DE TELS DOMMAGES. CES LIMITATIONS S'APPLIQUENT TOUTES LES CAUSES D'ACTION, NOTAMMENT TOUTE INFRACTION AU CONTRAT, INFRACTION LA GARANTIE, NGLIGENCE, RESPONSABILIT STRICTE, REPRSENTATION INCORRECTE ET AUTRES TORTS. Numro de rfrence : IN-QSG-91000-HF1-0001
Sommaire
Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Ressources Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Portail des clients Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Documentation Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Site Web Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Bibliothque de procdures Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances multimdia Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Support client international Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Partie I: Dbuter avec Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Chapitre 2: Leon 1. Configuration de Informatica Analyst. . . . . . . . . . . . . . . . . . . . . 12
Configuration de Informatica Analyst - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Tche 1. Se connecter Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Tche 2. Crer un projet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Tche 3. Crer un dossier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Configuration de Informatica Analyst - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Sommaire
ii
Sommaire
Partie II: Dbuter avec Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chapitre 10: Leon 1. Configuration de Informatica Developer. . . . . . . . . . . . . . . . . . 38
Configuration de Informatica Developer - Prsentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Tche 1. Dmarrer Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Tche 2. Ajouter un domaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Tche 3. Ajouter un rfrentiel modle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 4. Crer un projet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 5. Crer un dossier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tche 6. Slectionner un service Data Integration Service par dfaut.. . . . . . . . . . . . . . . . . . . . . . . 41 Configuration de Informatica Developer - Rsum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Sommaire
iii
iv
Sommaire
Prface
Le Guide de dmarrage Data Quality a t rdig l'attention des dveloppeurs et analystes de qualit des donnes. Il fournit des tutoriels pour aider les utilisateurs dbutants se familiariser avec Informatica Developer et Informatica Analyst. Ce guide suppose une comprhension des concepts de qualit des donnes, des concepts de fichiers plats et de bases de donnes relationnelles, ainsi que des moteurs de base de donnes dans votre environnement.
Ressources Informatica
Portail des clients Informatica
En tant que client Informatica, vous avez accs au portail des clients Informatica sur http://mysupport.informatica.com Ce site contient des informations sur les produits et les groupes dutilisateurs, des bulletins dinformation, un lien vers le systme de gestion des dossiers dassistance la client dInformatica (ATLAS), une bibliothque de procdures Informatica, une base de connaissances Informatica, une base de connaissances multimdia Informatica, ainsi que la documentation ncessaire sur les produits Informatica et laccs sa communaut dutilisateurs.
Documentation Informatica
Lquipe Documentation dInformatica sefforce de fournir une documentation prcise et utilisable. Nhsitez pas contacter lquipe Documentation dInformatica par courriel ladresse infa_documentation@informatica.com pour lui faire part de vos questions, commentaires ou suggestions concernant cette documentation. Ces commentaires et suggestions nous permettront damliorer notre documentation. Veuillez prciser si vous acceptez dtre contact au sujet de ces commentaires. Lquipe Documentation met jour la documentation chaque fois que ncessaire. Pour obtenir la toute dernire version de la documentation concernant votre produit, consultez la Documentation de produit sur http://mysupport.informatica.com.
Tarif standard Belgique : +31 30 6022 797 France : +33 1 4138 9226 Allemagne : +49 1805 702 702 Pays-Bas : +31 306 022 797 Royaume-Uni : +44 1628 511445
vi
Prface
CHAPITRE 1
d'Informatica. Les clients d'application font des demandes au gestionnaire de service ou aux services d'application.
Services d'application. Groupe de services qui reprsente la fonctionnalit base sur serveur. Un domaine
Informatica peut contenir un sous-ensemble de services d'application. Vous configurez les services d'application requis par les clients d'application utiliss.
Rfrentiels. Groupe de bases de donnes relationnelles qui stockent des mtadonnes sur des objets et
gestionnaire de service excute les services d'application, ainsi que des fonctions de domaine, notamment les authentifications, les autorisations et les connexions. Vous pouvez vous connecter Informatica Administrator aprs avoir install Informatica. Vous pouvez utiliser Administrator Tool pour grer le domaine et configurer les services d'application afin de pouvoir accder aux clients d'application restants.
La figure suivante illustre les services d'application et les rfrentiels que chaque client d'application utilise dans un domaine Informatica :
Le tableau suivant rpertorie les clients d'application, l'exception d'Administrator Tool, des services d'application et des rfrentiels requis par le client :
Client d'application Analyseur de donnes Rapports et tableaux de bord d'Informatica Informatica Analyst Services d'application Service de rapports Service de rapports et de tableaux de bord Analyst Service Data Integration Service Model Repository Service Analyst Service Content Management Service Data Integration Service Model Repository Service Metadata Manager Service PowerCenter Integration Service PowerCenter Repository Service Rfrentiels Rfrentiel de l'analyseur de donnes Rfrentiel Jaspersoft
Rfrentiel modle
Informatica Developer
Rfrentiel modle
Metadata Manager
Services d'application PowerCenter Integration Service PowerCenter Repository Service PowerCenter Integration Service PowerCenter Repository Service Web Services Hub
Rfrentiel PowerCenter
donnes massifs et la capture des modifications de donnes. PowerCenter Integration Service se connecte au programme d'coute PowerExchange via Listener Service.
PowerExchange Logger Service. Gre l'enregistreur PowerExchange pour Linux, UNIX et Windows afin de
capturer les donnes modifies et les enregistrer dans les fichiers journaux de l'enregistreur PowerExchange. Le donnes modifies peuvent provenir des journaux de reprise DB2, les journaux de rtablissement Oracle, d'une base de donne de distribution Microsoft SQL Server ou des sources de donnes sur un systme i5/OS ou z/OS.
SAP BW Service. coute les demandes RFC issues de SAP BI et demande que PowerCenter Integration
Service excute le flux des fins d'extraction de ou de chargement dans SAP BI.
Fonctionnalits disponibles
Les produits Informatica 9.1.0 utilisent un ensemble commun d'applications. Les fonctionnalits du produit que vous pouvez utiliser dpendent de votre licence de produit. Le tableau suivant dcrit les options de licence et les fonctionnalits applicatives disponibles avec chaque option :
Option de licence Data Explorer Fonctionnalits Informatica Developer Profilage Fiches d'valuation Fonctionnalits Informatica Analyst Data Quality Cration et excution de mappages avec toutes les transformations Cration et excution de rgles Profilage Fiches d'valuation Exportation d'objets vers PowerCenter Profilage Fiches d'valuation Cration et excution de rgles de profilage Gestion de table de rfrence Profilage Fiches d'valuation Gestion de table de rfrence Cration de rgles de profilage Excution de rgles dans les profils Gestion des enregistrements errons et dupliqus
Fonctionnalits Informatica Developer Cration de modles d'objet de donnes logique Cration et excution de mappages avec les transformations Data Services Cration de services de donnes SQL Cration de services Web Exportation d'objets vers PowerCenter Cration de modles d'objet de donnes logique Cration et excution de mappages avec les transformations Data Services Cration de services de donnes SQL Cration de services Web Exportation d'objets vers PowerCenter Cration et excution de rgles avec les transformations Data Services Profilage
donnes d'entreprise et identifier les points forts et les faiblesses. Aprs avoir excut un profil, vous pouvez excuter une analyse slective pour consulter les lignes sous-jacentes des rsultats de profil. Vous pouvez aussi ajouter des colonnes aux fiches d'valuation et des valeurs de colonne aux tables de rfrence.
Crer des rgles dans les profils. Crez et appliquez des rgles dans les profils. Une rgle est une logique
mtier rutilisable qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes.
valuer les donnes. Crez des fiches d'valuation pour valuer les valeurs valides de n'importe quelle
colonne ou la sortie des rgles. Les fiches d'valuation affichent la frquence des valeurs dans les colonnes d'un profil sous forme de score. Utilisez les fiches d'valuation pour mesurer et reprsenter visuellement la progression de la qualit des donnes. Vous pouvez aussi afficher les graphiques de tendance pour visualiser l'historique des scores dans le temps.
Grer les donnes de rfrence. Crez et mettez jour les tables de rfrence utilises par les analystes et
les dveloppeurs pour la normalisation de la qualit des donnes et les rgles de validation. Crez, ditez et importez les fichiers du dictionnaire de qualit des donnes en tant que tables de rfrence. Crez une table de rfrence pour tablir des relations entre les donnes source et les valeurs standard valides. Les dveloppeurs utilisent des tables de rfrence pour les transformations de normalisation et de recherche dans Informatica Developer.
Grer des enregistrements incorrects et des enregistrements dupliqus. Rparez les enregistrements
L'outil Developer inclut un diteur dans lequel vous pouvez diter des objets. Dans cet exemple, l'diteur affiche le modle d'objet de donnes logique Customer_Objects. Selon l'objet se trouvant dans l'diteur, l'outil Developer affiche des vues, comme par exemple la vue par dfaut. L'outil Developer inclut aussi les vues suivantes qui apparaissent indpendamment des objets se trouvant dans l'diteur :
Explorateur d'objets. Affiche les projets, les dossiers et les objets qu'ils contiennent. Structure. Affiche les objets dpendants dans un objet. Proprits. Affiche les proprits de l'objet. Visionneuse de donnes. Affiche les rsultats d'un mappage, un aperu des donnes ou une requte SQL. Journal de validation. Affiche les erreurs de validation d'un objet. Feuilles d'aide. Affiche les feuilles d'aide.
Vous pouvez masquer une vue quelconque et dplacer une vue vers un autre emplacement dans l'outil Developer. Vous pouvez aussi afficher d'autres vues, comme la vue Recherche. Cliquez sur Fentre > Afficher la vue pour slectionner les vues afficher.
services de donnes.
Ressources Web. Cliquez sur le bouton Ressources Web pour accder au lien vers
mysupport.informatica.com. Vous avez accs la Bibliothque de procdures Informatica. La Bibliothque de procdures Informatica contient les articles sur Informatica Data Quality, Informatica Data Services, et d'autres produits Informatica.
Espace de travail. Cliquez sur le bouton Espace de travail pour commencer travailler dans l'outil Developer.
Feuilles d'aide
L'outil Developer inclut des feuilles d'aide faisant partie de l'aide en ligne. Une feuille d'aide vous guide, tape par tape, travers une ou plusieurs tches dans l'outil Developer. Aprs avoir termin la feuille d'aide, vous pouvez excuter les tches afin d'en vrifier les rsultats. Par exemple, aprs avoir termin une feuille d'aide pour importer et prvisualiser un objet de donnes relationnelles, vous avez import une table de base de donnes relationnelles et prvisualis les donnes dans l'outil Developer. Pour accder aux feuilles d'aide, cliquez sur Aide > Feuilles d'aide.
une tape cl dans tout projet de donnes car il permet d'identifier les points forts et les points faibles de vos donnes, tout en vous aidant dfinir le plan de votre projet.
Crer des fiches d'valuation pour examiner la qualit des donnes. Une fiche d'valuation est une
dtectes lors de l'excution d'un profil. Vous pouvez normaliser les variations de ponctuation, de formatage et d'orthographe. Par exemple, vous pouvez vous assurer que les valeurs de ville, tat et code postal sont cohrentes.
Analyser les enregistrements. Analysez les enregistrements de donnes pour amliorer la structure des
enregistrements et tirer des informations supplmentaires de vos donnes. Vous pouvez diviser un champ de donnes de forme libre unique en champs qui contiennent diffrents types d'informations. Vous pouvez aussi ajouter des informations vos enregistrements. Par exemple, vous pouvez indiquer qu'un enregistrement concerne un client particulier ou d'entreprise.
Valider les adresses postales. La validation des adresses value et amliore l'exactitude et la possibilit de
livraison de vos donnes d'adresse postale. La validation des adresses corrige les erreurs dans les adresses et complte les adresses partielles en comparant les enregistrements d'adresse avec des donnes de rfrence provenant de transporteurs postaux nationaux. La validation des adresses peut aussi ajouter des informations postales qui acclrent la distribution du courrier tout en rduisant les cots associs.
Rechercher les enregistrements dupliqus. Une analyse d'enregistrements dupliqus compare un ensemble
d'enregistrements entre eux pour dtecter les doublons ou valeurs comparables dans les colonnes de donnes slectionnes. Vous devez dfinir le niveau de similarit qui indique une bonne correspondance entre des valeurs de champ. Vous pouvez aussi dfinir le poids relatif donn chaque colonne dans les calculs de correspondance. Par exemple, vous pouvez donner la priorit aux informations de nom de famille sur les informations de prnom.
Crer des tables de donnes de rfrence. Les tables de donnes de rfrence sont des lments cls de la
normalisation des donnes. Informatica fournit un ensemble complet de tables de donnes de rfrence. Vous pouvez crer des tables de rfrence personnalises partir des colonnes de vos donnes source.
Crer et excuter des rgles de qualit des donnes. Informatica fournit des rgles prdfinies que vous
pouvez excuter ou modifier pour correspondre aux objectifs de votre projet. Vous pouvez crer des rgles dans l'outil Developer.
Collaborer avec les utilisateurs d'Informatica. Les rgles et tables de donnes de rfrence que vous ajoutez
au rfrentiel modle sont accessibles aux utilisateurs des outils Developer et Analyst. Les utilisateurs peuvent collaborer sur des projets et diffrents utilisateurs peuvent s'approprier des objets diffrentes phases d'un projet.
Exporter des mappages vers PowerCenter. Vous pouvez exporter des mappages vers PowerCenter afin de
rutiliser les mtadonnes pour une intgration physique des donnes ou pour crer des services Web. Les utilisateurs de Data Quality peuvent effectuer toutes les tches ci-dessus. Les utilisateurs de Data Explorer peuvent effectuer le profil des donnes dans l'outil Developer et crer des fiches d'valuation qui s'excutent dans l'outil Analyst.
Scnario du tutoriel
HypoStores Corporation est une organisation de grande distribution l'chelle nationale qui, de son sige social Boston, gre des magasins dans plusieurs tats. Elle intgre rgulirement les donnes oprationnelles de ses magasins travers le pays dans l'entrept de donnes du sige social. Elle a rcemment ouvert un magasin Los Angeles. Le sige social comprend une quipe ICC centrale forme d'administrateurs, de dveloppeurs et d'architectes chargs de fournir une couche de services de donnes commune toutes les applications composites et BI (Business Intelligence). Les applications BI comprennent un systme de gestion de la clientle CRM (Customer Relation Management) qui contient les fichiers matres des donnes clients utiliss pour la facturation et le marketing. HypoStores Corporation doit effectuer les tches suivantes pour intgrer les donnes des oprations de Los Angeles celles du sige social de Boston.
Vrifier que les donnes de Boston et de Los Angeles ne comportent pas de problme en termes de qualit. Analyser les informations partir des donnes de Los Angeles. Normaliser les informations d'adresse pour les donnes de Boston et de Los Angeles. Valider l'exactitude des informations d'adresse postale dans les donnes des fins de CRM.
Scnario du tutoriel
Structure du tutoriel
Le Guide de dmarrage contient des tutoriels composs de leons et de tches.
Leons
Chaque leon prsente des concepts qui vous aideront comprendre les tches raliser dans la leon. La leon fournit des spcifications d'entreprise extraites du scnario global. Les objectifs de la leon sont de mettre en vidence les tches que vous excuterez pour remplir les spcifications de l'entreprise. Chaque leon donne une dure approximative de son suivi. Lorsque vous avez termin les tches de la leon, vous pouvez en consulter le rsum. Si l'environnement de l'outil n'est pas configur, la premire leon de chaque tutoriel vous permet de le faire.
Tches
Les tches fournissent des instructions tape par tape. Effectuez toutes les tches dans l'ordre indiqu pour suivre la leon.
Prrequis du tutoriel
Avant de commencer les leons du tutoriel, le domaine Informatica doit tre actif avec au moins un nud configur. Le programme d'installation comprend des fichiers de tutoriel dont vous aurez besoin pour suivre les leons. Vous trouverez tous les fichiers la fois dans les installations client et serveur :
Vous trouverez les fichiers du tutoriel dans l'emplacement suivant du chemin d'installation de l'outil Developer : <Rpertoire d'installation Informatica>\clients\DeveloperClient\Tutorials Vous trouverez les fichiers du tutoriel dans l'emplacement suivant du chemin d'installation des services : <Rpertoire d'installation Informatica>\server\Tutorials
Vous avez besoin des fichiers suivants pour les leons du tutoriel :
All_Customers.csv Boston_Customers.csv Customer_Order.xsd LA_customers.csv orders.csv
Le tableau suivant dcrit les leons que vous pouvez suivre selon votre produit.
Leon Leon 1. Configuration de Informatica Analyst Description Connectez-vous l'outil Analyst et crez un projet et un dossier pour les leons du tutoriel. Importez un fichier plat comme objet de donnes et prvisualisez les donnes. Cration d'un profil rapide pour obtenir rapidement une ide de la qualit des donnes. Crez un profil personnalis pour configurer des colonnes et des options d'chantillonnage et de dveloppement. Crez des rgles d'expression pour modifier et effectuer le profil des valeurs de colonne. Crez et excutez une fiche d'valuation pour mesurer la progression de la qualit des donnes dans le temps. Crez une table de rfrence que vous pouvez utiliser pour normaliser les donnes source. Crez une table de rfrence pour tablir des relations entre les donnes source et des valeurs standard valides. Produit Tous
Data Quality
Remarque: Ce tutoriel n'inclut pas de leons sur la gestion des enregistrements incorrects et de la consolidation des enregistrements.
Structure du tutoriel
10
11
CHAPITRE 2
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Vous connecter l'outil Analyst. Crer un projet pour stocker les objets dfinis dans l'outil Developer. Crer un dossier en mesure de stocker des objets associs dans le projet.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Un administrateur a configur Model Repository Service et Analyst Service dans l'outil Administrator. Vous disposez du nom d'hte et du numro de port pour l'outil Analyst.
12
Vous disposez d'un nom d'utilisateur et d'un mot de passe pour accder Analyst Service. Vous pouvez
Dlai
Prvoyez 5 10 minutes pour cette leon.
Sur la page de connexion, entrez votre nom d'utilisateur et le mot de passe. Slectionnez Natif ou le nom d'un domaine de scurit spcifique. Le champ Domaine de scurit s'affiche lorsque le domaine Informatica contient un domaine de scurit LDAP. Si vous ne connaissez pas le domaine de scurit auquel appartient votre compte utilisateur, contactez l'administrateur de domaine Informatica.
5.
6.
Cliquez sur Fermer pour quitter l'cran d'accueil et accder l'outil Analyst.
13
14
CHAPITRE 3
Scnario
HypoStores conserve les donnes clients de Los Angeles dans des fichiers plats. HypoStores a besoin d'effectuer le profil et analyser les donnes et d'effectuer des tches de qualit des donnes.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Charger le fichier plat l'emplacement du cache de fichier plat et crer un objet de donnes. Prvisualiser les donnes pour l'objet de donnes de fichier plat.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez effectu la leon 1 de ce tutoriel. Vous disposez du fichier plat LA_Customers.csv. Vous pouvez tlcharger le fichier <Installation Root
Directory>\<Release Version>\clients\DeveloperClient\Tutorials.
Timing
Prvoyez 5 10 minutes pour effectuer cette tche.
15
16
3.
Cliquez sur la vue Proprits pour l'objet de donnes de fichier plat. La vue Proprits affiche le nom, la description et l'emplacement de l'objet de donnes. Elle affiche aussi les colonnes et proprits de colonne de l'objet de donnes.
17
CHAPITRE 4
Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. Avant de pouvoir intgrer les donnes dans l'entrept de donnes, elles doivent tre nettoyes. Vous tes l'analyste responsable de l'valuation de la qualit des donnes et de la transmission des informations au dveloppeur responsable du nettoyage des donnes. Vous voulez afficher rapidement les rsultats de profil et vous faire une premire ide de la qualit des donnes.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Crer et excuter un profil rapide pour l'objet de donnes de fichier plat Customers_LA. Afficher les rsultats de profil.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.
Timing
Prvoyez 5 10 minutes pour cette leon.
18
19
Description Date et heure o vous avez excut le profil pour la dernire fois. Si slectionn, permet le dveloppement des donnes en direct pour la colonne.
1.
Cliquez sur l'en-tte de la colonne Valeurs Null pour trier les valeurs. Notez que les colonnes Address2, Address3, City2, CreateDate, et MiscDate ont 100 % de valeurs null. Dans la Leon 4, vous crez un profil personnalis pour exclure ces colonnes.
2.
Cliquez sur la colonne Nom Complet. Les valeurs de la colonne s'affichent dans la vue Valeurs. Notez que les prnoms et noms de famille ne s'affichent pas dans des colonnes spares. Dans la Leon 5, vous crez une rgle pour sparer les prnoms et noms de famille dans des colonnes spares.
3.
Cliquez sur la colonne CustomerTier. Notez que les valeurs de CustomerTier sont incohrentes. Dans la Leon 6, vous crez une fiche d'valuation pour valuer les valeurs CustomerTier. Dans le Leon 7, vous crez un table de rfrence qu'un dveloppeur peur utiliser pour normaliser les valeurs CustomerTier.
4.
Cliquez sur la colonne Etat puis cliquez sur la vue Formes. Notez que 483 colonnes ont une forme XX, ce qui indique les valeurs valides. Dix-sept valeurs ne sont pas valides car elles ne correspondent pas la forme valide. Dans la Leon 6, vous crez une fiche d'valuation pour valuer les valeurs Etat.
intressent.
Crer une rgle d'expression pour crer des colonnes virtuelles et affectuer leur profil. Crer une table de rfrence pour inclure les valeurs valides d'une colonne.
20
CHAPITRE 5
Scnario
HypoStores a besoin d'intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. HypoStores souhaite accder la qualit des donnes de niveau des clients dans le fichier de donnes clients de Los Angeles. Vous tes l'analyste responsable de l'valuation de la qualit des donnes et de la transmission des informations au dveloppeur responsable du nettoyage des donnes.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. 3. Crer un profil personnalis pour l'objet de donnes de fichier plat et exclure les colonnes avec valeur null. Excuter le profil pour analyser le contenu est la structure de la colonne CustomerTier. Dvelopper les lignes pour les rsultats de profil.
21
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1, 2 et 3 de ce tutoriel.
Timing
Prvoyez 5 10 minutes pour cette leon.
22
3.
Cliquez sur Actions > Excuter le profil. La fentre Profil de colonne s'affiche.
4. 5. 6. 7.
Dans le panneau Colonnes, cochez la case en regard de Nom pour slectionner toutes les colonnes profiler. Dans le panneau Options d'chantillonnage, conservez les options par dfaut. Dans le panneau Options de dveloppement, conservez les options par dfaut. Cliquez sur Excuter. Analyst Tool effectue le profilage sur l'objet de donnes et affiche les rsultats du profil.
23
CHAPITRE 6
Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. HypoStores souhaite analyser les noms des clients et les sparer en prnom et nom de famille. HypoStores souhaite utiliser des rgles d'expression pour analyser une colonne qui contient les prnoms et noms de famille en deux colonnes virtuelles spares puis effectuer leur profil. HypoStores souhaite aussi rendre les rgles disponibles d'autres analystes qui ont besoin d'analyser la sortie de ces rgles.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. Crer des rgles d'expression pour sparer la colonne FullName en colonnes prnom et nom de famille. Vous crez une rgle qui spare le prnom du nom de famille. Vous crez une autre rgle qui spare le nom de famille du prnom. Vous crez ces rgles pour le profil Profile_LA_Customers_Custom. Excuter le profil et afficher la sortie des rgles dans le profil. diter les rgles pour les rendre inutilisables pour d'autres utilisateurs de l'outil Analyst.
2. 3.
24
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1, 2, 3 et 4.
Timing
Prvoyez 10 15 minutes pour cette leon.
Cliquez sur Valider. Cliquez sur Suivant. (Facultatif) Configurez les options de colonne, d'chantillonnage et de dveloppement. Cliquez sur Enregistrer. L'outil Analyst cre la rgle et l'affiche dans la vue Profilage de colonne.
11.
Rptez les tapes 2 10 et crez une rgle nomme LastName et saisissez l'expression suivante pour sparer le nom de famille de la colonne Nom :
SUBSTR(FullName,INSTR(FullName,' ',-1,1),LENGTH(FullName))
25
4. 5.
Cliquez sur Excuter. Cliquez sur la rgle FirstName. Les valeurs s'affichent dans la vue Valeurs.
6. 7.
Slectionnez toute valeur dans la vue Valeurs. Faites un clic droit et slectionnez Dveloppement. Les valeurs de la colonne FullName et les rgles FirstName et LastName s'affichent dans le panneau Dveloppement. Notez que la colonne FullName est maintenant spare en prnoms et noms de famille.
Les rgles FirstName et LastName peuvent maintenant tre utilises par tous les utilisateurs de l'outil Analyst pour partager une colonne avec prnom et nom de famille en deux colonnes spares.
26
CHAPITRE 7
Scnario
HypoStores souhaite intgrer les donnes de ses nouveaux bureaux de Los Angeles dans son entrept de donnes. Avant qu'ils ne fusionnent les donnes, ils veulent s'assurer que les donnes de diffrents niveaux et statuts de clients soient analyses des fins de qualit. Vous tes l'analyste responsable du contrle de la progression et des analyses de la qualit des donnes. Vous voulez crer une fiche d'valuation partir des colonnes niveau de client et tat du profil, configurer les seuils pour la qualit des donnes, et afficher les graphes de tendance de score pour dterminer l'amlioration des scores dans le temps.
27
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. 3. 4. 5. 6. Crer une fiche d'valuation depuis les rsultats du profil Profile_LA_Customers_Custom pour afficher les scores des colonnes CustomerTier et Etat. Excuter la fiche d'valuation pour gnrer les scores pour les colonnes CustomerTier et Etat. Afficher la fiche d'valuation pour voir les scores de chaque colonne. Modifier la fiche d'valuation pour spcifier diffrentes valeurs valides pour les scores. Configurer les seuils de score et excuter la fiche d'valuation. Afficher les graphes de tendance de score pour dterminer l'amlioration des scores dans le temps.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 5 de ce tutoriel.
Timing
Rservez 15 minutes pour effectuer les tches de cette leon.
28
29
comme par exemple CA, sont acceptables, et les codes avec plus de deux lettres, comme par exemple Calif, ne sont pas acceptables. 1. 2. Dans la fentre Editer la fiche d'valuation, slectionnez le score Etat dans le panneau Scores. Dans le panneau Paramtres de score, saisissez les plages suivantes pour les scores Bons et Inacceptables dans Dfinir seuils personnaliss pour ce score : 90 100 % Bon ; 0 50 % Inacceptable. 51 % 89 % sont Acceptables. Les seuils reprsentent les limites infrieures des plages Bon et Acceptable. 3. Cliquez sur Enregistrer pour enregistrer les modifications de la fiche d'valuation et l'excuter. Dans le panneau Scores, affichez les modifications du pourcentage et le score affich en barre pour le score Etat.
30
CHAPITRE 8
Scnario
HypoStores souhaite effectuer le profil des donnes pour dtecter les anomalies et normaliser les donnes avec des valeurs valides. Vous tes l'analyste responsable de la normalisation des valeurs valides dans les donnes. Vous voulez crer une table de rfrence base sur les valeurs valides des colonnes du profil.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes : 1. 2. Crer une table de rfrence depuis la colonne CustomerTier du profil Profile_LA_Customers_Custom en slectionnant les valeurs valides pour les colonnes. diter la table de rfrence pour configurer diffrentes valeurs valides pour les colonnes.
31
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 6 de ce tutoriel.
Timing
Rservez 15 minutes pour effectuer les tches de cette leon.
32
(Facultatif) Choisissez de crer une colonne de description pour les lignes de la table de rfrence. Saisissez le nom et la prcision pour la colonne. Prvisualisez les valeurs de la colonne CustomerTier dans le panneau Prvisualiser. Cliquez sur Suivant. La nom de la table de rfrence Reftab_CustomerTier_HypoStores s'affiche. Vous pouvez entrer une description facultative.
14.
Dans le panneau Enregistrer dans, slectionnez votre projet de tutoriel dans lequel vous voulez crer la table de rfrence. Le panneau Tables de rfrence : rpertorie les tables de rfrence dans l'emplacement que vous slectionnez.
15. 16.
33
34
CHAPITRE 9
Scnario
HypoStores souhaite normaliser les donnes avec des valeurs valides. Vous tes l'analyste responsable de la normalisation des valeurs valides dans les donnes. Vous voulez crer une table de rfrence pour dfinir des codes de niveau client standard qui rfrencent les donnes clients de Los Angeles. Vous pouvez ensuite partager la table de rfrence avec un dveloppeur.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer une table de rfrence en utilisant l'diteur de table de rfrence afin de dfinir les codes de niveau
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.
Timing
Rservez 10 minutes pour effectuer les tches de cette leon.
35
36
37
CHAPITRE 10
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Dmarrer l'outil Developer et accder l'espace de travail de l'outil Developer. Ajouter un domaine dans l'outil Developer. Ajouter un rfrentiel modle de faon pouvoir crer un projet.
38
Crer un projet pour stocker les objets dfinis dans l'outil Developer. Crer un dossier en mesure de stocker des objets apparents dans le projet. Slectionner un service Data Integration Service par dfaut pour excuter les tches d'intgration de donnes.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez install l'outil Developer. Vous disposez d'un nom de domaine, d'un nom d'hte et d'un numro de port pour la connexion au domaine.
Timing
Rservez 5 10 minutes pour effectuer les tches de cette leon.
39
40
41
CHAPITRE 11
Scnario
HypoStores Corporation stocke les donnes clients des bureaux de Los Angeles et de Boston dans des fichiers plats. Vous voulez travailler avec ces donnes clients dans l'outil Developer. Pour ce faire, vous devez importer chaque fichier plat en tant qu'objet de donnes physique.
Objectifs
Dans cette leon, vous importez des fichiers plats en tant qu'objets de donnes physiques. Vous dfinissez aussi le rpertoire de fichiers source pour que Data Integration Service puisse lire les donnes source dans le rpertoire appropri.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez effectu la leon 1 de ce tutoriel.
Timing
Rservez 10 15 minutes pour effectuer les tches de cette leon.
42
Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit. Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique Boston_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.
Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de la machine Data Integration Service :
<Rpertoire d'installation Informatica>\server\Tutorials
43
La bote de dialogue Nouvel objet de donnes de fichier plat s'ouvre. 4. 5. 6. Slectionnez Crer partir d'un fichier plat existant. Cliquez sur Parcourir et accdez LA_Customer.csv dans le rpertoire suivant : <Rpertoire d'installation
Informatica>\clients\DeveloperClient\Tutorials
Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit. Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique LA_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.
Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de la machine Data Integration Service :
<Rpertoire d'installation Informatica>\server\Tutorials
7. 8. 9.
Cliquez sur Suivant. Vrifiez que la page de code est MS Windows Latin 1 (ANSI), sur-ensemble de Latin 1. Vrifiez que le format est dlimit.
44
Cliquez sur Suivant. Vrifiez que le sparateur est dfini sur la virgule. Slectionnez Importer les noms de colonne partir de la premire ligne. Cliquez sur Terminer. L'objet de donnes physique All_Customers s'affiche dans les Objets de donnes physiques du projet de tutoriel.
Cliquez sur la vue Lecture et slectionnez la transformation Sortie. Cliquez sur l'onglet Moteur d'excution dans la vue Proprits. Dfinissez le Rpertoire du fichier source sur le rpertoire suivant de Data Integration Service : <Rpertoire
d'installation Informatica>\server\Tutorials
45
CHAPITRE 12
sous forme de diagramme Venn et de valeur de pourcentage. Utilisez les profils d'analyse de jointure pour identifier les problmes ventuels avec les conditions de jointure de colonne. Vous pouvez tout moment excuter un profil de colonne dans un projet afin de mesurer la qualit des donnes et de vrifier que les modifications des donnes correspondent vos objectifs pour le projet. Vous pouvez
46
excuter un profil de colonne sur une transformation dans un mappage pour indiquer l'effet que la transformation aura sur les donnes.
Scnario
HypoStores souhaite vrifier que les donnes clients ne contiennent pas d'erreurs, d'incohrences ou d'informations en double. Avant qu'HypoStores ne conoive les processus pour atteindre les objectifs de qualit des donnes, elle doit mesurer la qualit de ses fichiers de donnes source et confirmer que les donnes sont prtes tre traites.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Effectuer une analyse de jointure sur la source de donnes Boston_Customers et la source de donnes LA_Customers. Afficher les rsultats d'une analyse de jointure pour dterminer si vous pouvez fusionner les donnes des deux
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.
Temps requis
Prvoyez 20 minutes pour cette leon.
47
9.
Faites un clic droit sur un nom d'objet de donnes et slectionnez Profil de jointure. L'assistant Nouveau profil de jointure s'ouvre.
10. 11.
Dans le champ Nom, saisissez JoinAnalysis. Vrifiez que Boston_Customers et LA_Customers apparaissent en tant qu'objets de donnes. Cliquez sur Suivant.
12.
Slectionnez la colonne CustomerID dans les deux sources de donnes. Faites dfiler le volet de l'assistant pour afficher les colonnes dans les deux ensembles de donnes. Cliquez sur Suivant.
13.
Cliquez sur Ajouter pour ajouter des conditions de jointure. La fentre Condition de jointure s'ouvre.
Dans la section Colonnes, cliquez sur le bouton Nouveau. Double-cliquez sur la premire ligne dans la colonne de gauche et slectionnez CustomerID. Double-cliquez sur la premire ligne dans la colonne de droite et slectionnez CustomerID. Cliquez sur OK, puis cliquez sur Terminer. Le profil JoinAnalysiss'ouvre dans l'diteur et le profil s'excute.
Remarque: Ne fermez pas le profil. Vous afficherez les rsultats de profil dans la tche suivante.
4.
48
enregistrements contenant des quantits quatre chiffres. 7. Dans la colonne Forme, double-cliquez sur la chane 9(4). La Visionneuse de donnes s'excute et affiche les enregistrements o la colonne OrderAmount contient une quantit quatre chiffres. 8. Dans la section Dtails, cliquez sur la liste Afficher et slectionnez Statistiques. La section Dtails affiche les statistiques de la colonne OrderAmount, y compris la valeur moyenne, l'carttype, les longueurs maximum et minimum, les cinq valeurs les plus frquentes, et les cinq valeurs les moins frquentes.
49
50
CHAPITRE 13
Scnario
HypoStores souhaite que le format des fichiers de donnes clients du bureau de Los Angeles corresponde au format des fichiers de donnes du bureau de Boston. Les donnes client du bureau de Los Angeles stockent les noms des clients dans une colonne FullName, alors que les donnes clients du bureau de Boston stockent les noms des clients dans des colonnes FirstName et LastName distinctes. HypoStores doit dcomposer les donnes de la colonne FullName du bureau de Los Angeles en prnoms et en noms afin que le format des donnes de Los Angeles corresponde au format des donnes de Boston.
51
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer et configurer un objet de donnes LA_Customers_tgt qui contiendra des donnes analyses. Crer un mappage afin de dcomposer la colonne FullName en colonnes FirstName et LastName distinctes. Ajouter l'objet de donnes LA_Customers au mappage connecter la source de donnes. Ajouter l'objet de donnes LA_Customers_tgt au mappage pour crer un objet de donnes cible. Ajouter une transformation Analyseur au mappage et la configurer pour qu'elle utilise un jeu de jetons afin de
donnes cible.
Excuter le mappage pour gnrer les noms dcomposs. Excuter la Visionneuse de donnes pour afficher la sortie du mappage.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.
Timing
Rservez 20 minutes pour effectuer les tches de cette leon.
52
7. 8. 9. 10.
Cliquez sur Suivant. Cliquez sur Suivant. Dans la section Options de prvisualisation, slectionnez Importer les noms de colonnes de la premire ligne et cliquez sur Suivant. Cliquez sur Terminer. L'objet de donnes LA_Customers_tgt s'affiche dans l'diteur.
53
54
55
56
57
CHAPITRE 14
Utilisez la transformation de normalisation pour rechercher ces valeurs dans les donnes. Vous pouvez slectionner l'un des types d'opration de recherche suivants :
Texte. Recherche des chanes personnalises que vous entrez. Supprimez ces chanes ou remplacez-les par
du texte personnalis.
Table de rfrence. Recherche des chanes contenues dans une table de rfrence que vous slectionnez.
Supprimez ces chanes ou remplacez-les par des entres de table de rfrence ou du texte personnalis. Par exemple, vous pouvez configurer la transformation de normalisation pour normaliser les donnes d'adresse contenant les chanes personnalises Rue et R l'aide de la chane de remplacement R.. La transformation de normalisation remplace les termes de recherche par le terme R. et crit le rsultat dans une nouvelle colonne de donnes.
58
Scnario
HypoStores doit normaliser les donnes d'adresse de ses clients afin d'harmoniser les termes qu'elles utilisent. Les donnes d'adresse de l'objet de donnes All_Customers contiennent des entres dont le format n'est pas harmonis pour les termes communs comme Rue, Boulevard, Avenue, Alle et Parc d'activits.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer et configurer un objet de donnes All_Customers_Stdz_tgt pour qu'il contienne des donnes normalises. Crer un mappage pour normaliser les termes d'adresse Rue, Boulevard, Avenue, Alle et Parc d'activits dans
un format cohrent.
Ajouter l'objet de donnes All_Customers au mappage connecter aux donnes source. Ajouter l'objet de donnes All_Customers_Stdz_tgt au mappage pour crer un objet de donnes cible. Ajouter une transformation Normalisation au mappage et la configurer pour normaliser les termes d'adresse. Excuter le mappage pour gnrer des donnes d'adresse normalises. Excuter la Visionneuse de donnes pour afficher la sortie du mappage.
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel.
Timing
Prvoyez 15 minutes pour cette leon.
59
6. 7. 8. 9. 10.
Dans le champ Nom, entrez All_Customers_Stdz_tgt. Cliquez sur Suivant. Cliquez sur Suivant. Dans la section Options de prvisualisation, slectionnez Importer les noms de colonnes de la premire ligne et cliquez sur Suivant. Cliquez sur Terminer. L'objet de donnes All_Customers_Stdz_tgt s'affiche dans l'diteur.
60
4.
Configurez la transformation Normalisation pour normaliser les termes d'adresse communs dans des formats cohrents.
61
4. 5.
Pour renommer la transformation de normalisation, double-cliquez sur la barre de titre de la transformation et entrez AddressStandardizer. Slectionnez le port Address1 dans l'objet de donnes All_Customers et faites-le glisser dans le groupe Entre de la transformation de normalisation. Un port nomm Address1 s'affiche dans le groupe d'entre. Le port se connecte au port Address1 de l'objet de donnes All_Customers.
Remarque: Vous ajoutez un port de sortie la transformation lorsque vous configurez une stratgie de normalisation.
Rptez les tapes 9 12 pour dfinir les oprations de normalisation pour toutes les chanes de la table. Faites glisser le port de sortie Address1 vers le port Address1 de l'objet de donnes All_Customers_Stdz_tgt. Cliquez sur Fichier > Enregistrerpour enregistrer le mappage.
62
63
CHAPITRE 15
64
et vous crez une structure d'adresse d'entre et de sortie l'aide des ports de transformation. Dans cette leon, vous configurez la transformation pour valider les donnes d'adresses aux tats-Unis.
Scnario
HypoStores doit corriger et complter les donnes d'adresse pour s'assurer que ses campagnes de publicit directe et les autres courriers destins aux consommateurs parviennent ses clients. Corriger et complter les donnes d'adresse rduit galement le cot des oprations de publipostage pour l'organisation. De plus, les donnes clients d'HypoStores doivent inclure les adresses dans un format imprimable suffisamment flexible pour inclure des adresses de longueurs diffrentes. Pour satisfaire ces besoins professionnels, l'quipe ICC HypoStores cre un mappage de validation d'adresses dans l'outil Developer.
Objectifs
Dans cette leon, vous allez effectuer les tches suivantes :
Crer un objet de donnes cible qui contiendra les champs d'adresse valids et les codes de correspondance. Crer un mappage avec un objet de donnes source, un objet de donnes cible et une transformation du
validateur d'adresses.
Configurer la transformation du validateur d'adresses pour valider les donnes d'adresse de vos clients. Excuter le mappage pour valider les donnes d'adresse et examiner les sorties du code de correspondance
Prrequis
Avant de dbuter cette leon, vrifiez les prrequis suivants :
Vous avez suivi les leons 1 et 2 de ce tutoriel. Les donnes de rfrence d'adresses aux tats-Unis sont installes dans le domaine et enregistres l'aide
de l'outil Administrator. Contactez votre administrateur Informatica pour vrifier que les donnes d'adresses aux tats-Unis sont installes sur votre systme. Les donnes de rfrence sont installes l'aide du programme d'installation de contenu Data Quality.
Timing
Prvoyez 25 minutes pour cette leon.
65
Vrifiez que l'objet de donnes All_Customers_av_tgt est ouvert dans l'diteur. Dans l'diteur, slectionnez la vue Lire. Slectionnez Fentre > Afficher la vue > Proprits. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur le nom et type de fichier source All_Customers_av_tgt.csv. Dans la colonne Valeur, double-cliquez pour surligner le chemin du rpertoire du fichier source. Cliquez avec le bouton droit de la souris sur le nom et le chemin surligns et slectionnez Copier. Dans l'diteur, slectionnez la vue crire. Dans la vue Proprits, slectionnez la vue Excution. Dans la colonne Valeur, double-cliquez sur l'entre Rpertoire du fichier de sortie. Cliquez avec le bouton droit de la souris sur cette entre et slectionnez Coller pour ajouter le chemin que vous avez copi partir de la vue Lire. Dans la colonne Valeur, double-cliquez sur l'entre Options d'en-tte et slectionnez Noms des champs de sortie. Dans la colonne Valeur, double-cliquez sur l'entre Nom du fichier de sortie et entrez All_Customers_av_tgt.csv. Slectionnez Fichier > Enregistrer pour enregistrer l'objet de donnes.
66
67
donnes de cet objet. All_Customers_av_tgt est l'objet de donnes cible du mappage. Cet objet lit les donnes depuis la transformation du validateur d'adresses 1. 2. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 3. Vrifiez que Lire est slectionn et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 4. 5. Dans la vue Explorateur d'objets, allez aux objets de donnes de votre projet de tutoriel. Slectionnez l'objet de donnes All_Customers_av_tgt et faites-le glisser dans l'diteur. La fentre Ajouter l'objet de donnes physique au mappage s'ouvre. 6. Slectionnez crire et cliquez sur OK. L'objet de donnes s'affiche dans l'diteur. 7. Cliquez sur Enregistrer.
68
3.
Remarque: Maintenez la touche Ctrl enfonce pour slectionner plusieurs ports en une seule opration. 5. Dans la barre d'outils situe au dessus de la liste des noms de ports, cliquez sur Ajouter le port la transformation. Cette barre d'outils est visible lorsque vous slectionnez Modles. Les ports slectionns s'affichent dans la transformation de l'diteur de mappage.
69
6.
5.
Dveloppez le groupe de ports de sortie lments de dernire ligne et slectionnez les ports suivants :
Nom de port Localit complte 1 Code postal 1 Province abrviation 1 Description Nom de la ville. Code postal ou code ZIP. Identifiant de la province/tat/dpartement/rgion.
Remarque: Maintenez la touche Ctrl enfonce pour slectionner plusieurs ports en une seule opration. 6. Dveloppez le groupe de ports de sortie Pays et slectionnez le port suivant :
Nom de port Nom du pays 1 Description Nom du pays.
70
7.
Dveloppez le groupe de ports de sortie Info Statut et slectionnez les ports suivants :
Nom de port Score d'envoi Code de correspondance Description Score reprsentant les probabilits de russite de la livraison postale. Code reprsentant le degr de similarit entre l'adresse d'entre et les donnes de rfrence.
8.
Dans la barre d'outils situe au dessus de la liste des noms de port, cliquez sur Ajouter le port la transformation. Cette barre d'outils s'affiche lorsque vous slectionnez Modles.
9.
Connectez les ports de la transformation du validateur d'adresses aux ports All_Customers_av_tgt comme suit :
Port de la transformation du validateur d'adresses Rue complte 1 Localit complte 1 Code postal 1 Province abrviation 1 Nom du pays 1 Score d'envoi Code de correspondance Port cible Address1 Ville ZIP Dpartement/Rgion Pays MailabilityScore MatchCode
tape 4. Connexion des ports inutiliss de la source de donnes la cible des donnes
Dans cette tape, vous connectez les ports inutiliss sur la source de donnes All_Customers la cible de donnes.
u
Connectez les ports inutiliss sur la source de donnes aux ports de mme noms sur la cible de donnes.
71
valu comme livrable par Validation des adresses Les donnes d'entre sont correctes et les entres correspondent parfaitement aux donnes de rfrence. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais les entres ne correspondent pas parfaitement aux donnes de rfrence. Ceci est probablement d une faible normalisation des lments de l'adresse. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais les entres ne correspondent pas parfaitement aux donnes de rfrence. Des fichiers peuvent manquer dans les fichiers de donnes de rfrence. valu comme livrable par Validation des adresses Les donnes d'entre sont correctes mais la faible normalisation a diminu le caractre livrable de l'adresse. Corrig par Validation des adresses Tous les lments ont t traits et corrigs si ncessaire. Corrig par Validation des adresses Tous les lments ont t traits mais certains lments n'ont pas pu tre vrifis. Partiellement corrig par Validation des adresses Des donnes de rfrence peuvent manquer.
V3
V2
V1
C4 C3
C2
72
Description
Corrig par la Validation des adresses, mais la faible normalisation a diminu le caractre livrable de l'adresse. Les donnes d'entre n'ont pas pu tre corriges mais l'adresse est probablement livrable car elle correspond une adresse de rfrence unique. Les donnes d'entre n'ont pas pu tre corriges mais l'adresse est probablement livrable car elle correspond plusieurs adresses de rfrence. Les donnes d'entre n'ont pas pu tre corriges et l'adresse n'est probablement pas livrable. Les donnes d'entre n'ont pas pu tre corriges et l'adresse n'est trs probablement pas livrable. Aucune validation n'a t effectue. Ceci peut tre d l'absence de donnes de rfrence accrdites ou actuelles. L'adresse peut tre livrable ou non.
I4
I3
I2 I1 N1 N6
73
ANNEXE A
Puis-je accder aux outils Administrator, Developer et Analyst partir d'un seul compte ? Oui. Vous pouvez autoriser un utilisateur accder aux trois outils. Il n'est pas ncessaire de crer des comptes d'utilisateur diffrents pour chaque client d'application. Qu'est-il arriv Reference Table Manager ? O sont stockes mes donnes de rfrence ? Les fonctionnalits de Reference Table Manager sont incluses dans l'outil Analyst. Vous pouvez utiliser l'outil Analyst pour crer et partager des donnes de rfrence. Les donnes de rfrence sont stockes dans la base de donnes temporaire que vous configurez lorsque vous crez un service Analyst.
74
Quelle est la diffrence entre un mappage dans l'outil Developer et un mappage dans PowerCenter ? Un mappage PowerCenter indique comment dplacer les donnes entre les sources et les cibles. Un mappage de l'outil Developer indique comment dplacer les donnes entre l'entre et la sortie du mappage. Un mappage PowerCenter doit inclure une ou plusieurs dfinitions source, qualifiants source et dfinitions cible. Un mappage PowerCenter peut aussi inclure des raccourcis, des transformations et des mapplets. Un mappage de l'outil Developer doit inclure une entre et une sortie de mappage. Un mappage de l'outil Developer peut aussi inclure des transformations et des mapplets. L'outil Developer dispose des types de mappage suivants :
Mappage dplaant les donnes entre les sources et les cibles. Ce type de mappage diffre du mappage
de PowerCenter seulement par le fait qu'il ne peut pas utiliser de raccourcis et qu'il n'utilise pas de qualifiant source.
Mappage d'objet de donnes logique. Mappage dans un modle d'objet de donnes logique. Un mappage
d'objet de donnes logique peut contenir un objet de donnes logique comme entre de mappage et un objet de donnes comme sortie de mappage. Il peut galement contenir un ou plusieurs objets de donnes physiques comme entre de mappage et un objet de donnes logique comme mappage de sortie.
Mappage de table virtuelle. Mappage dans un service de donnes SQL. Il contient un objet de donnes
donnes SQL. Il contient une transformation de paramtre d'entre ou objet de donnes physique comme entre de mappage et une transformation de paramtre de sortie ou objet de donnes physique comme sortie de mappage. Quelle est la diffrence entre un mapplet dans PowerCenter et un mapplet dans l'outil Developer ? Un mapplet dans PowerCenter et dans l'outil Developer est un objet rutilisable qui contient un ensemble de transformations. Vous pouvez rutiliser la logique de transformation dans plusieurs mappages. Un mapplet PowerCenter peut contenir des dfinitions source ou des transformations d'entre comme entre de mapplet. Il doit contenir des transformations de sortie comme sortie de mapplet. Un mapplet de l'outil Developer peut contenir des objets de donnes ou des transformations d'entre comme entre de mapplet. Il peut contenir des objets de donnes ou des transformations de sortie comme sortie de mapplet. Un mappage dans l'outil Developer peut aussi inclure les fonctions suivantes :
Vous pouvez valider un mapplet en tant que rgle. Vous utilisez une rgle dans un profil. Un mapplet peut contenir d'autres mapplets.
Quelle est la diffrence entre un mapplet et une rgle ? Vous pouvez valider un mapplet en tant que rgle. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez valider un mapplet en tant que rgle lorsque le mapplet rpond aux spcifications suivantes :
Il contient une transformation d'entre et de sortie. Le mapplet ne contient pas de transformations actives. Il ne spcifie pas de cardinalit entre les groupes d'entre.
75