Copyright 2010 Microsoft. Tous droits rservs. Tous les noms de produits et marques Microsoft Corporation sont des marques de fabrique ou des marques dposes de Microsoft Corporation aux tats-Unis et dans dautres pays. Toutes les autres marques appartiennent leurs propritaires respectifs. Ce document n'a aucune valeur contractuelle. Son contenu ne saurait engager ses auteurs en aucune manire, tant sur la forme que sur le fond, y compris dans la description des fonctionnalits des outils prsents, pour lesquels seuls les documents contractuels de l'diteur de l'outil concern font foi. La responsabilit de Microsoft France, de Brainsonic et des auteurs ne saurait tre engage de quelque manire que ce soit dans l'utilisation et les consquences de l'utilisation que le lecteur pourra faire de ce document.
I.
Introduction
Projet de gestion des donnes matre, projet rfrentiel, projet MDM pour Master Data Management: si toutes les entreprises nont pas forcment vers leur vocabulaire la notion de MDM, elles sont cependant de plus en plus nombreuses aujourdhui sattaquer la gestion de leurs donnes de rfrences : ces donnes qui, relativement stables et hautement partages dun processus lautre, composent les informations fondamentales autour desquelles lentreprise structure son activit. Pourquoi cet intrt vif, maintenant, aprs des annes de frilosit sur le sujet? Sans doute pour les mmes raisons qui ont conduit les entreprises sur le chemin des approches orientes services (SOA): lvolution de lenvironnement conomique et des enjeux concurrentiels ont impos de dcloisonner le systme dinformation. Une transversalit que le SOA apporte au processus et le MDM aux donnes. Autre argument qui plaide indniablement en faveur du MDM: le cot de la non-qualit. Une question de masse critique: chaque entreprise connat un moment o les doublons, les donnes incompltes et incohrentes prsentent des cots de rattrapage levs. Suffisamment en tous cas pour justifier de sintresser au MDM. Dautant que les solutions ont sensiblement mri. Auparavant spcialises par type de rfrentiel (client, produit), presque progicialises et, dans les faits, rserves aux grandes entreprises, les solutions de MDM sont devenues plus gnriques, plus souples et, aussi, plus accessibles. La solution Master Data Services (MDS) de Microsoft, intgre comme un service la plateforme SQL Server 2008 R2, reprsente de manire emblmatique cette nouvelle gnration. De la mme manire que SQL Server a dj ouvert les portes de la Business Intelligence des entreprises qui ne pensaient pas pouvoir en bnficier, MDS va contribuer dmocratiser le Master Data Management.
Bien entendu, comme souvent en matire de systme dinformation, la solution logicielle ne reprsente quune partie de la rponse un problme. Et cest dailleurs flagrant dans le cas du MDM qui renvoie lentreprise en premier lieu des questions organisationnelles pour entretenir dans la dure la qualit de ses informations. Do la double signature de ce Livre Blanc qui vous est propos par Microsoft en partenariat avec Logica Business Consulting. Avec un objectif clair: vous proposer une premire approche pragmatique des enjeux du Master Data Management, et des solutions proposes par Microsoft, sans mettre de ct les rponses que seules vous, utilisateurs, pouvez apporter. Bonne lecture!
I.
Il nest pas rare de voir dsormais des projets MDM initis dans le sillage des projets SOA (Services Oriented Architecture). La filiation est vidente: les projets SOA cherchent dcoupler processus et applications pour apporter une agilit nouvelle lentreprise, notamment dans le cadre de processus transverses. Mcaniquement, ces projets posent la question du partage des informations de rfrence. Dans la pratique, une architecture de services peut difficilement tre efficiente si les rgles de consommation et denrichissement de linformation ne sont pas clairement tablies. Tout lintrt du SOA est de pouvoir rutiliser des services travers de multiples processus et canaux. Si larchitecture mise en place simplifie la publication de services, les bnfices restent toutefois hors de porte tant quun vrai chantier dintgration de donnes na pas t engag. Dans la pratique, la donne a souvent t le parent pauvre des chantiers SOA. Do le sentiment durgence qui prvaut actuellement autour des projets MDM.
Tant que les mtiers pouvaient se satisfaire (parfois tant bien que mal) dun systme dinformation en silos, la question des donnes de rfrence restait annexe. Au sein dune entreprise, chacun pouvait cultiver ses informations produits ou clients sans mettre en pril lactivit dautres entits. Une poque rvolue pour de nombreux mtiers. Dans la distribution, le commerce tutoie dornavant le multicanal et conduit un haut de niveau de partage des informations client ; dans la banque ou les tlcoms, les produits se complexifient, deviennent de plus en plus composites, intgrent des produits tiers et contraignent les intervenants partager un grand nombre de donnes; dans lindustrie, la recomposition incessante de la chane logistique conduit sinterroger sur les meilleurs moyens de garantir de bout en bout lintgrit des informations produits ou le respect des termes dun contrat client. On le comprend aisment, cest en fait lvolution mme de lenvironnement conomique, de la manire de produire et de commercialiser qui demande chaque entreprise daccorder une attention plus soutenue que jamais ses donnes fondamentales: celles qui concernent ses produits, ses clients (qui constituent le patrimoine et la richesse de lentreprise) ou encore son organisation. Dautant que ces donnes rayonnent bien au-del des frontires de lentreprise. Dans le cadre des processus de gestion de la chane logistique par exemple, les donnes relatives un produit circulent entre de nombreux partenaires.
donc de toute approche transverse, tandis que les directions informatiques considraient dabord ces projets comme un moyen de rationaliser des informations clients ou produits.
Lvolution de lenvironnement conomique et des enjeux mtiers voqus prcdemment, tout comme la maturation de solutions plus gnralistes ont cependant conduit les uns et les autres porter un autre regard sur des approches plus globales de la gestion des donnes de rfrence. Cest en 2006 que de grands projets MDM mergent pour entrer en production lanne suivante. Preuve que les directions mtiers ont compris quelles ne seraient pas dpossdes de leurs donnes avec ces projets.
Les directions informatiques quant elles inscrivent dsormais ces projets dans une gouvernance plus globale de la donne qui dpasse largement le cadre technologique. Une volution qui se traduit par une rvision profonde des dmarches : priorit est donne la responsabilisation des mtiers pour entretenir dans la dure la qualit des donnes tandis quun travail de sensibilisation est engag auprs des matrises douvrage sur lintrt pour tous de capitaliser sur des infrastructures centralises. Rsultat, mme si les rfrentiels clients ou produits demeurent souvent des points de cristallisation des projets MDM, les entreprises cherchent galement dsormais des solutions aptes soutenir leur effort global sur la qualit des donnes de rfrences : celles qui concernent leurs clients et leurs produits mais pas seulement. Dautres domaines dapplication comme lorganisation ou linfrastructure savrent des terreaux fertiles pour le MDM. Pour linfrastructure, le rfrentiel peut ainsi couvrir les donnes clefs relatives lensemble des implantations dune entreprise et leurs ressources. Un exemple qui illustre lintrt de sadosser des solutions suffisamment souples pour couvrir un large ventail de besoins. Lenjeu nest pas seulement de couvrir une multiplicit de domaines mais aussi de besoins. Une souplesse qui caractrise la solution MDM de Microsoft : multi-domaines, elle couvre galement des intrts varis, du besoin oprationnel au besoin analytique par exemple pour modliser des plans de compte.
10
Mais plus globalement, ce qui caractrise la qualit dune information, cest sa justesse. Une qute qui se traduit notamment par les questions suivantes : - la donne est-elle unique? - la donne est-elle exacte? - la donne est-elle conforme ( des formats, standards, normes)? - la donne est-elle cohrente (avec dautres donnes qui lui sont lies)? La seule lecture de ces questions suffit comprendre que la gestion dans la dure de la qualit des donnes ne peut tre assure par une solution, aussi performante soit-elle, tant que tant que les rgles du jeu pour entretenir cette qualit nont pas t dfinies. Autrement dit : tant que lentreprise na pas dfini une gouvernance de la donne.
Sur quels critres dcider quune donne est ou non une donne de rfrence ? Cest videmment la question qui ouvre les projets de Master Data Management et qui conduit distinguer par exemple donnes de rfrence et donnes dites transactionnelles. Dans la pratique, plusieurs critres vont permettre didentifier ces donnes matre . Parmi eux notamment, leur niveau de partage travers lensemble du systme dinformation et aussi leur prennit. En dautres termes, une donne de rfrence est utilise par plusieurs domaines ou silos du systme dinformation et prsente un cycle de vie qui ne se limite pas un processus donn.
11
Et cest pour piloter dans la dure une telle gouvernance que Logica Business Consulting propose de dfinir plusieurs rles. En fonction de lorganisation de lentreprise, leur attribution pourra varier mais, in fine, ces rles sont ncessaires pour tenir leffort de qualit dans la dure. On peut en distinguer au moins trois : Le propritaire de la donne Cest lui qui dtient la vrit sur une donne et qui, ce titre, a le premier et le dernier mot sur cette donne. Larchitecte de la donne Il apporte la gestion des donnes un point de vue durbaniste. Il lui revient de veiller la cohrence de lensemble des donnes et des rgles qui les rgissent. Lintendant de la donne Cest le maillon oprationnel : il veille appliquer les rgles dfinies pour garantir dans la pratique, la qualit des informations. Sans ces rles, il savre dlicat de mener bien les principales tapes dun projet MDM: travailler sur la smantique mme de linformation, dfinir les modles de donnes, dployer en consquence les rfrentiels, identifier les points dacquisition et de consommation de linformation, mettre en place les droits et circuits de validation qui en dcoulent, etc. Des travaux et des actions quune solution de MDM se doit de soutenir de bout en bout et en permettant chacun dassurer son rle dans la gouvernance de la donne.
Du MDM au DQM
Quattendez-vous dune solution de MDM ? Face cette question, la majorit des personnes interroges voquent leur besoin de matriser et de centraliser les donnes, par exemple pour garantir une vue dite 360 degrs dun client. Une rponse qui rduit le champ daction dune solution de Master Data Management au rfrentiel. Bien entendu,
12
les utilisateurs attendent aussi dune telle solution quelle apporte des fonctions de ddoublonnage des informations, de validation des diffrents formats (email, tlphone, SIRET) ou encore de mise en conformit. Des fonctions de Data Quality Management (DQM) qui doivent complter au sein de la solution les fonctions centres sur le rfrentiel (modlisation des donnes et stockage). Autres fonctions ajouter la check-list du MDM, le versioning et lhistorisation. Il nest pas rare de devoir grer plusieurs versions dune mme donne, notamment dans le cadre dun rfrentiel produit. A grande chelle, ce versioning devient une question pineuse, donc un terrain de prdilection pour une solution MDM. De mme, des fins daudit et de contrle de la conformit, il importe dhistoriser le qui a fait quoi sur chaque donne pour garder trace des modifications apportes. L encore, il sagit dun sujet sur lequel une solution de MDM pourra se dmarquer. On le voit, de lalimentation laudit en passant par la modlisation des donnes et leur nettoyage, le champ daction dune solution de MDM dpasse, et de loin, la seule gestion du rfrentiel.
13
II.
14
Chaque modle regroupe un seul type de donnes (on parle de domaine). En rgle gnrale, une solution de MDM traite quatre grandes natures de donnes : - des individus - des choses - des lieux - des concepts Ainsi, un modle traitant de produits ne contiendra en principe que des donnes lies aux produits : code rfrence, description commerciale, catgorie, unit de mesure ou de conditionnement, prix, visuel qui sont autant d'attributs associs caractrisant les membres. Le modle est le niveau dorganisation de la donne le plus haut dans MDS. Passons en revue les lments qui constituent un modle. Au sein dun modle, les membres sont regroups au sein dobjets appels entits. Au sens Master Data Services, il sagit dun conteneur pour un ensemble de membres dfinis par un certain nombre de proprits, les attributs. Ces derniers peuvent tre regroups au sein de groupe dattributs, qui facilitent la lisibilit (onglets de navigation) et sur lesquels il est possible dassigner des permissions. On distingue trois types dattributs: C hamp libre : une variable pouvant contenir tout type de valeur (texte, date, numrique, URL) F ichier : un espace de stockage pour ressource de type fichier (document, image) D omaine : dcrivant une autre entit (une entit peut compter dautres entits parmi ses attributs). Ce type est particulirement adapt pour crer des notions de catgories ou dfinir des ensembles finis de valeurs (couleurs, tailles).
15
Pour comprendre tout lintrt de lapproche MDM travers Master Data Services, il importe de bien assimiler les liens entre entits et attributs, ainsi que leur rapport avec le concept de catgorie. Prenons l'exemple d'une gamme de vlos. L'entit vlo contient plusieurs membres : le Mountain-100, le Mountain-200, le Road-150, etc. Chacun de ces membres est dfini par des attributs (code, couleur...). Afin de coller au plus prs de lusage mtier des donnes, ces membres peuvent aussi tre rangs dans diffrentes catgories, en l'occurrence Mountain Bikes et Road Bikes. La catgorie est donc la fois une entit et un attribut pour une autre entit.
La comprhension de ce dcoupage est essentielle pour la construction des hirarchies. Il s'agit de structures arborescentes visant regrouper un ensemble de membres pour des raisons organisationnelles ou consolider ces derniers des fins danalyse et de reporting. De multiples hirarchies peuvent tre cres afin organiser les membres de diffrentes manires. Les donnes sont ainsi organises de faon ce que tous les membres apparaissent de faon unitaire. A la diffrence d'un dcoupage taxonomique, o des membres pourraient apparatre dans diffrentes catgories, la vue hirarchique fait apparatre tous les membres d'une ou plusieurs entits une seule et unique fois. C'est latout majeur du MDM: ainsi, lorsqu'un membre est ajout, modifi ou supprim, il n'y a pas besoin de rpercuter partout les changements. Toutes les hirarchies sont automatiquement mises jour, le modle reste cohrent pour toutes les applications qui s'y rfrent et les donnes rfrentielles sont fiables. Ultime notion : les collections. Utilises des fins danalyse et de reporting, elles permettent de regrouper et visualiser des membres de diffrentes manires en sappuyant sur les portions de hirarchies existantes.
16
Une fois ce travail d'organisation effectu, on dispose d'une premire version du modle. Lors de la cration d'une deuxime version, tous les membres, attributs, hirarchies et autres collections dfinis sont videmment maintenus. Ce systme de gestion de version (versioning) permet de donc de faire voluer le modle tout en conservant la version prcdente, des fins d'audit et de traabilit, par exemple (pour voir a posteriori quelles donnes ont t modifies, quand et par qui). Il peut aussi s'avrer utile de conserver deux versions d'un mme modle, lorsque des applications du systme d'information n'voluent pas au mme rythme, ou afin de prparer une fusion entre deux systmes d'information, ou encore dans le but de tester d'autres hirarchies. Une fois valides, les nouvelles versions peuvent tre mises en production, l'intention des utilisateurs et/ou des applications y accdant. Le mcanisme de validation est dtaill plus loin, dans la section Stewardship Process.
17
Cela laisse donc une norme latitude aux dveloppeurs et intgrateurs, qui peuvent leur gr s'appuyer sur ces services pour dvelopper une interface spcifique pour accder aux donnes (application client riche, intgration au sein dun portail intranet, etc.), intgrer le rfrentiel avec un outil tiers (Workflow, gestionnaire de rgles mtier, etc.) ou encore connecter MDS avec le systme d'information afin de permettre des applications dinterroger le rfrentiel en temps rel. Un point dattention particulier est apport la scurit de la plateforme qui exploite les groupes et utilisateurs locaux (lenvironnement sur lequel MDS est install) ou dfinis au sein dun domaine Active Directory. La gestion des permissions seffectue au travers de linterface dadministration qui permet dautoriser laccs aux fonctions MDS et de dfinir les politiques daccs aux donnes de manire extrmement fine. Par ailleurs lensemble des actions utilisateurs sont systmatiquement traces et horodates. Surtout, la plateforme propose un continuum entre la conception du modle et son dploiement : l'administrateur cre des packages (qui contiennent le modle et ses membres cest--dire les donnes), qu'il peut dployer depuis un environnement de test, vers l'environnement de production, en quelques clics dans le Stewardship Portal.
18
Techniquement, le portail est une application ASP .Net dploye dans le serveur Web Internet Information Server (IIS) lors de linstallation de MDS. Epure, l'interface va l'essentiel en simplifiant et scurisant laccs selon le rle et les accrditations associes de la personne qui se connecte. Parmi les actions possibles, le portail donne d'abord la capacit de concevoir le modle, comme on l'a vu dans la section 'Master Data Hub'. Mais galement de dfinir les politiques de scurit en indiquant quels sont les groupes ou individus habilits simplement visualiser ou modifier un modle, une version particulire ou et les branches et attributs (hirarchies).
19
Viennent ensuite les tches d'administration lies au cycle de vie des donnes, comme le fait de verrouiller des enregistrements pendant la publication d'une nouvelle version, ou la dfinition de rgles mtier servant valider la qualit des donnes. Cette tape de validation est primordiale pour conserver une information juste auxquels tous les systmes se rfreront. Il peut aussi tre utile, le cas chant, de prvoir un processus mtier de type workflow pour que les diffrents acteurs de l'entreprise concerns compltent les donnes. Cette tape permet galement d'enrichir les donnes en reliant par exemple des donnes produits avec des informations provenant des fournisseurs (ex : URL pointant vers des catalogues de ressources en ligne tel que des photos). La fin de ce processus est l'tape de validation ultime par l'administrateur Master Data Services. Une fois la structure en place, il faut importer les donnes depuis les diffrentes sources rconcilier. Master Data Services a prvu cet effet des tables dimport qui serviront ensuite alimenter le modle par le biais de traitements de type batch (tches programmables). Ces tables pourront tre alimentes en s'appuyant sur de simples commandes SQL ou en exploitant un outil dintgration comme SSIS (SQL Server Intgration Services), le moteur ETL de SQL Server 2008 R2, mthode la plus adapte l'importation de gros volumes de donnes. D'autant que les ETL sont pourvus d'outils de gestion de la qualit des donnes, indispensables pour assurer un premier nettoyage en amont. Une fois les batch effectus, la page 'Import' donne un statut sur les enregistrements traits ainsi que les ventuelles erreurs rsoudre.
20
AND/OR... (telle autre condition) THEN... (tel attribut doit avoir telle valeur, ou telle action doit tre prise). Nul besoin d'crire in extenso ces rgles : cela s'effectue graphiquement par glisser-dposer, depuis la structure du modle de donnes. Comme on l'a vu, les API donnent aussi la possibilit de connecter MDS un moteur de rgles mtier externe. Chaque importation de donnes sera par la suite soumise ces rgles mtier. En cas d'erreur de validation, il est possible de paramtrer un courriel de notification destination dun ou plusieurs responsables, afin de s'assurer que les mesures ncessaires soient prises le plus rapidement possible. Il est galement possible de dclencher des actions plus complexes par le biais de workflows qui pourront impliquer plusieurs acteurs dans un processus prcis et tre grs travail une solution telle que Sharepoint. A contrario, dans la mesure o toutes les transactions effectues sur les donnes sont enregistres, ladministrateur Master Data Services ou lintendant des donnes ont galement la possibilit d'annuler, le cas chant, une action dclenche automatiquement par le gestionnaire de rgles mtier. Cette fonction de rollback est aussi un lment cl de l'offre. En effet lensemble des actions ralises dans MDS sont historises (audit et traabilit) et peuvent tre annules.
21
22
23
s'intgrer avec la charte d'un portail dj en place, et/ou tre personnalises en fonction des types d'utilisateurs.
24
Scnario 1 : la centralisation
Le meilleur moyen de s'assurer que toutes les applications d'un systme d'information partagent la mme information consiste centraliser la saisie, et propager les donnes au travers d'un bus applicatif. Objectivement, il n'est pas possible de procder ainsi pour
25
toutes les donnes, mme rfrentielles. En revanche, pour certains domaines, comme la saisie de produits financiers ou les modifications organisationnelles, cela assure une intgrit parfaite des donnes. Dans ce cas, c'est le responsable mtier lui-mme qui, aprs authentification et vrification des droits, entre les informations dans une interface Web ad hoc, par exemple une page Sharepoint. Un workflow peut galement tre mis en place afin de soumettre les modifications l'approbation d'un administrateur. Ce dernier surveillera galement qu'il n'y ait pas de conflit avec les donnes reues de tiers (applications ou partenaires externes). Une fois les donnes inscrites dans le rfrentiel, toutes les applications abonnes la collection de donnes correspondante reoivent les nouvelles informations. Il s'agit du modle d'utilisation le plus contraignant, mais il a le mrite de redonner aux responsables mtier la main sur leurs donnes et de leur assurer un rfrentiel propre, c'est-dire pollu le moins possible par des importations automatiques de donnes. Ce modle sera notamment privilgi lorsque les modifications de donnes sont tellement complexes effectuer qu'elles sont excutes par des gens des tudes ou de la production. Lorsque les points d'acquisition de donnes ne peuvent tre remplacs, alors il faut envisager un scnario de synchronisation.
Scnario 2 : la synchronisation
Quand plusieurs applications utilisent les mmes donnes, et que celles-ci proviennent de plusieurs points d'acquisition, il est vident qu'une synchronisation est ncessaire. Prenons l'exemple de donnes sur des clients : elles peuvent provenir aussi bien du systme de gestion de la relation client que du portail Web en self-service ou encore d'un vendeur d'une boutique. Et chaque canal disposera d'informations spcifiques sur les clients. Dans ce cas, il faut recrer une vue globale, consolide, du client, en vitant bien sr les doublons. Au centre de l'architecture, MDS est aliment par les flux ETL (ou via un ESB de type Biztalk) provenant des trois points d'acquisition de donnes. Les rgles mtier de l'ETL et de l'ESB comme de Master Data Services apportent un premier niveau de nettoyage des donnes. Il 26
peut tre utile de complter cette tape par un outil spcifique, ainsi que par la supervision d'un administrateur, qui pourra galement enrichir les donnes. Une fois le rfrentiel constitu, les diffrents points de consommation des informations peuvent s'y rfrer. A un niveau oprationnel, les applications devant traiter des donnes client (facturation, expdition, etc.) disposent ainsi d'une information consolide, identique. Il en est de mme pour les applications dcisionnelles, qui s'appuient sur les mmes donnes de rfrence.
27
non intrusive, mais qui a le mrite d'assurer la qualit des donnes pour une bonne gouvernance. Imaginons un responsable marketing voulant concevoir un mailing, dans une grande entreprise disposant de systmes d'information distincts, par exemple une socit commerciale vendant ses produits en agence et sur le Web. Invitablement, de nombreuses adresses de courriel reviendront en erreur. Pour fiabiliser sa base, il devra rconcilier les donnes des deux 'datawarehouses'. L'alimentation de Master Data Services s'effectue l'aide d'un ETL comme SQL Server Integration Services. L'essentiel des oprations est automatique, notamment grce aux rgles mtier qui permettent de dfinir une hirarchie entre les sources. Dans le cas des adresses email, on suppose par exemple que celles provenant du systme d'information Web seront plus fiables que celles provenant du systme d'information traditionnel, o les adresses sont saisies par les employs (voire crites sur papier pour tre saisies ensuite).
28
Malgr ces prcautions, MDS rejettera un certain nombre d'lments ; prvenu par une notification, l'administrateur devra alors intervenir pour examiner cette base de rejets et en corriger le plus possible. Une fois le rfrentiel bien tabli, les donnes peuvent tre consultes sous forme de rapports inclus dans SQL Server, le gestionnaire de rapports Reporting Services donne la possibilit de prdfinir des rapports consultables sur un portail Web, tel que Sharepoint. Le responsable marketing dispose ainsi des donnes fiables dont il a besoin. Pour aller plus loin, on peut peupler un cube Olap avec les donnes consolides. Cette base multidimensionnelle pourra ensuite tre interroge par n'importe quelle application dcisionnelle, voire par Excel, le tableur de la suite bureautique Office, qui dans sa version 2010 embarque la technologie Power Pivot pour manipuler de gros volumes de donnes.
29
Vido de prsentation et dmonstration de Master Data Services par Logica Management lors de lvnement Business Integration Road Show du 1er Dcembre 2009 Paris
http://www.microsoft.com/france/vision/Roadshow/Webcast.aspx?EID=20c5f1a0-a8b84993-9de5-0a62797c4bc9
Vido de prsentation du MDM par Franck Guiducci, architecte chez Microsoft France, et Franck Rgnier, manager de loffre MDM Logica Management, lors des Techdays 2008
h t t p : / / w w w. m i c ro s of t . c o m / f r a n c e / v i s i o n / m s t e c h d a y s 0 8 / We b c a s t Te c h N e t . aspx?EID=50b17897-f6b9-4311-8205-2dd52ab89d74
28