Vous êtes sur la page 1sur 164

Jean-Marie Gouarn

http://jean.marie.gouarne.online.fr

Le Projet Dcisionnel
Enjeux, Modles, Architectures du Data Warehouse

6 novembre 1997
Cet ouvrage a t initialement publi en 1997 par les ditions Eyrolles

Avant-Propos

Issu de la pratique et de la rflexion, ce livre sadresse tous ceux qui, en tant que responsables informatiques, consultants, matres douvrage ou chefs de projets, sont amens affronter, par volont ou par ncessit, la problmatique complexe du data warehouse. Son objectif est de prsenter une vision synthtique, concrte et critique des fins et des moyens de linformatique dcisionnelle. Dans tous les domaines de lactivit des organisations contemporaines, la russite des projets est souvent compromise, dit-on, par une propension gnrale laborer les solutions avant davoir identifi et formul les problmes1. Cette remarque sapplique tout particulirement aux Systmes dInformation Dcisionnels. En outre, dans ce domaine, la cacophonie des concepts immatures et des produits mergents, lappropriation du discours par les fournisseurs de technologie, contribuent largement masquer la ralit des enjeux et des risques. Un projet dcisionnel est donc trop souvent approch par lexploration dun ventail de solutions techniques. Bien que ce livre soit un ouvrage dinformatique crit par un informaticien, son but principal est de tenter de mettre la typologie des solutions en relation avec lventail des problmes. Dans un univers en construction, dans lequel rien nest fig, il a pour ambition daider le lecteur, lheure des choix, dterminer plus facilement par lui-mme le vocabulaire, les catgories, les technologies et les mthodes applicables, et valuer les risques, plutt que de lui prsenter une panoplie de recettes. Parmi les outils informatiques particulirement destins aux applications dcisionnelles, chaque jour plus nombreux, certains sont naturellement cits dans cet ouvrage. Mais ils ne le sont qu titre dillustration, sans intention dexhaustivit ni apprciation comparative, et sans oublier quen matire danalyse de produits de haute technologie, imprim rime avec prim. De plus, lintention est ici de prsenter les alternatives essentielles, plutt quun catalogue des offres du moment.
1

M. Crozier, La crise de lintelligence , InterEditions 1995.

Jean-Marie Gouarn

Le Projet Dcisionnel

Linformation dcisionnelle est, dans toutes les entreprises, un domaine sensible. Les exemples voqus dans ce livre sont donc transposs et amnags de manire ne vhiculer aucune information indiscrte sur les situations relles dont ils sont inspirs2. Je tiens remercier ici tous ceux qui, divers titres et chacun sa manire, ont contribu la gense et llaboration de ce livre, et notamment : les professionnels managers, utilisateurs, informaticiens avec lesquels jai loccasion de collaborer au sein de grandes entreprises, dans le cadre de chantiers dcisionnels petits et grands ; mes collgues de GENICORP consultants, chefs de projets, concepteurs, ralisateurs qui, jour aprs jour, capitalisent une exprience concrte et prcieuse sur le terrain ; Laurent Maury, qui a bien voulu en assurer une relecture dexpert. Jean-Marie Gouarn septembre 1997

Mais ceci nempchera pas ncessairement ceux qui les ont vcues de les reconnatre...

Jean-Marie Gouarn

Le Projet Dcisionnel

Table des Matires


1. INTRODUCTION ..............................................................................................................................................4 2. LES LIMITES DU SYSTME DINFORMATION OPRATIONNEL.................................................................................9
2.1 2.2 2.3 2.4 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4.4 5.1 5.2 5.3 5.4 5.5 Information de Contrle, Information de Conduite..............................................................................................10 Pilotage et Oprations...........................................................................................................................................11 Les freins culturels lintgration........................................................................................................................14 La pression du changement..................................................................................................................................16 La notion de modle : un essai de dfinition........................................................................................................19 Pourquoi un Modle de Donnes ?.......................................................................................................................21 Niveaux et normes................................................................................................................................................22 Le Modle de Donnes Oprationnel...................................................................................................................25 La ncessit dun Modle de Donnes Dcisionnel.............................................................................................28 Vues, Faits et Dimensions.....................................................................................................................................37 Intgration des vues..............................................................................................................................................41 Normalisation des contextes.................................................................................................................................47 La Forme Dimensionnelle Normale et ses consquences.....................................................................................52 Etats et flux...........................................................................................................................................................56 Les reprsentations du temps................................................................................................................................57 Drives dimensionnelles.......................................................................................................................................62 Indicateurs qualifis..............................................................................................................................................68 Mthodes de consolidation...................................................................................................................................71

3. GNRALITS SUR LES MODLES DE DONNES................................................................................................19

4. DFINITION DES MODLES DE DONNES DCISIONNELS....................................................................................36

5. FORMES DIMENSIONNELLES COMPLEXES..........................................................................................................56

6. ARCHITECTURE GNRALE............................................................................................................................72
6.1 Systmes intermdiaires........................................................................................................................................73 6.2 Larchitecture de rfrence du SID.......................................................................................................................77 6.3 Architecture et Modles de Donnes....................................................................................................................78

7. ALIMENTATION............................................................................................................................................84
7.1 7.2 7.3 7.4 7.5 7.6 7.7 8.1 8.2 8.3 8.4 9.1 9.2 9.3 9.4 9.5 Transformation des donnes.................................................................................................................................85 Collecte, migration et rplication..........................................................................................................................93 Les deux modes de capture...................................................................................................................................94 Le rafrachissement dynamique et ses limites......................................................................................................95 La plate-forme dintgration.................................................................................................................................97 Alternatives techniques dalimentation..............................................................................................................102 Fonctions et outils de collecte et dintgration...................................................................................................105 Les limites de lapproche oriente outil..............................................................................................................111 Modalits daccs linformation......................................................................................................................113 Modle Relationnel de Diffusion........................................................................................................................120 Les avatars de lhypercube.................................................................................................................................128 Raisons et justifications......................................................................................................................................139 Linformation dcisionnelle dans lorganisation................................................................................................142 Facteurs de succs et risques majeurs.................................................................................................................144 Organisation........................................................................................................................................................147 Choix des outils..................................................................................................................................................158

8. LE SYSTME DE DIFFUSION ET DE PRSENTATION..........................................................................................111

9. ENVIRONNEMENT ET ORGANISATION DES PROJETS...........................................................................................139

10. CONCLUSION...........................................................................................................................................161 11. LECTURES CONSEILLES............................................................................................................................162

Jean-Marie Gouarn

Le Projet Dcisionnel

1. Introduction

Lindustrie informatique possde une tendance notoire produire plus de concepts que de ralits et cultiver un dcalage permanent aussi bien entre annonces et produits quentre technologie et march. Bien que les professionnels y soient habitus, cette tendance constitue, pour les dcideurs fonctionnels comme pour les responsables des systmes dinformation, un facteur non ngligeable de confusion, donc de cot et de risque, notamment dans la priode de turbulence que nous traversons actuellement. Face lapparition dune mode, le rejet dfinitif et ladoption prcoce sont deux attitudes extrmes et aussi dangereuses lune que lautre. Si les modes informatiques sont gnralement prmatures, elles peuvent se transformer, terme, en ralits incontournables. Le relationnel, le client-serveur, et plus rcemment lobjet, sont l pour en tmoigner. En fait, lorsquon examine dun point de vue critique les concepts qui sous-tendent une mode informatique, on saperoit assez rapidement que la nouveaut est moins dans ces concepts eux-mmes que dans la manire dont ils sont prsents, agencs et coupls avec la technologie et la culture managriale. Linnovation tend tre dramatise par ses promoteurs qui mettent laccent sur son potentiel rvolutionnaire plutt que sur ses lments de continuit. La continuit est pourtant une condition essentielle pour que linnovation soit la fois possible et acceptable. En matire de management en gnral et de systmes dinformation en particulier, les ruptures radicales ne produisent jamais les rsultats escompts. Cest lorsque la fume des annonces se dissipe et lorsque le tapage mdiatique sapaise que lon peut voir, ventuellement, les projets se mettre en place. Linnovation arrive sur le terrain au moment o elle quitte la scne. Toutes ces remarques sappliquent au data warehouse qui, prcisment, est parvenu un tournant de son histoire, et dont le contenu commence se prciser suffisamment pour contribuer, parmi dautres phnomnes, adapter les systmes dinformation au nouvel environnement dans lequel voluent les organisations. Formalis au dbut des annes 19903, ce concept dentrept de donnes est devenu la cl de vote de ce que nous appelons linformation dcisionnelle, et a produit un effet de mode dautant plus important que presque tous les fournisseurs du march informatique constructeurs et intgrateurs de systmes, diteurs de logiciel lont aussitt enfourch comme un cheval de bataille. Le succs mdiatique du data warehouse na eu dgal que celui qua connu lInternet peu prs au mme moment. Les systmes dinformation ont connu, au cours des quinze dernires annes, une longue suite dinnovations concernant tant les infrastructures (client-serveur, internet/intranet) que les outils (relationnel, langages de
3

Voir notamment W.H. Inmon, Building the Data Warehouse (1992), qui constitue la rfrence la plus connue en la matire.

Jean-Marie Gouarn

Le Projet Dcisionnel

quatrime gnration, objets). Mais lentrept de donnes ne sinscrit en aucun cas dans cette squence, car linnovation nest pas ici de mme nature. En effet, le data warehouse nest pas une nouvelle plate-forme technologique. Ce principe nest pas suffisamment peru aujourdhui. Les utilisateurs, en effet, abordent frquemment les projets relatifs linformation dcisionnelle par une dmarche de dcouverte et dexprimentation doutils. Certains professionnels spcialiss semblent mme considrer que lexpertise, dans ce domaine, consiste principalement dans la connaissance comparative des produits du march. Cette connaissance, essentielle pour la slection dun fournisseur, nest cependant pas la vritable cl de la russite. Limportance exagre quon donne aux produits tient au dtournement de la problmatique de lentrept de donnes par un marketing particulirement agressif en rapport avec la concurrence frntique que se livrent les fournisseurs. Cette problmatique a t accapare principalement par trois catgories dacteurs du march informatique : Pour les constructeurs, la vogue dcisionnelle est arrive point nomm pour faciliter le lancement dune architecture matrielle particulire, dite massivement parallle, qui couvait depuis longtemps dans les laboratoires mais qui navait pas encore rencontr, dans les systmes de gestion traditionnels, des opportunits suffisantes pour un vritable dmarrage commercial ; Les grands diteurs de systmes de gestion de bases de donnes relationnelles (SGBDR) sont, depuis quelques annes, affects par un phnomne de banalisation et de baisse de prix. Leurs produits sont gnralement considrs comme interchangeables, et les utilisateurs sont plus regardants, fonctionnalit quivalente, sur les cots dacquisition. Le data warehouse, dans la mesure o il peut introduire de nouveaux besoins techniques (requtes complexes, gros volumes de donnes, adaptation des configurations matrielles puissantes), redonne vie aux arguments comparatifs sur les performances et permet la commercialisation de versions de haut de gamme ; Les diteurs de logiciels de prsentation de donnes, ns dans le dferlement du client-serveur, mais qui semblaient au dpart confins dans un march de niche, ont saisi loccasion pour souligner limportance stratgique de leurs produits. Ces produits peuvent en effet occuper une grande place dans la partie visible dun systme dinformation dcisionnel, de sorte quil est tentant de leur attribuer la vedette. En dehors mme de ces trois groupes qui sont les plus directement concerns, il nest pas un fournisseur de technologie qui nait annonc dune manire ou dune autre une stratgie en rapport avec le data warehouse, et ceci ne fait quaugmenter la confusion. Les choix techniques dimplmentation sont importants, mais ils ne doivent pas clipser le contenu fonctionnel. Cette remarque, qui semble dune vidence primaire, et qui pourrait sappliquer nimporte quel type de projet, ne semble malheureusement pas simposer demble dans le domaine dcisionnel. De la dfinition du data warehouse, le public a retenu lide dune interface de prsentation associe une base de donnes. Cette ide nest pas fausse ; elle exprime un point de vue dutilisateur tout fait pertinent. Elle devient cependant extrmement rductrice, donc dangereuse, du point de vue du concepteur, dans la mesure o elle porte croire que les performances daccs aux donnes et la richesse de linterface de prsentation sont les facteurs principaux du succs. Ces facteurs jouent un trs grand rle dans la qualit des solutions, mais la vritable cl est dans la pertinence du contenu, cest--dire dans ladquation des donnes aux mcanismes de la dcision. Une adquation qui nest jamais acquise davance et qui, en ralit, reprsente la majeure partie de la complexit, des cots et des risques. Un Systme dInformation Dcisionnel (SID) viable implique, avant tout, un modle de donnes spcifique et volutif ainsi quune infrastructure dalimentation. Comme on la dj crit fort justement, un tel systme se construit et ne sachte pas. Son laboration est une uvre de gnie logiciel et dintgration, et non une simple affaire de cblage et de paramtrage. Un autre malentendu viter concerne lenvergure et la porte de linformation dcisionnelle. A loppos des simplifications techniciennes, qui minimisent la complexit des projets, est apparue simultanment la tentation maximaliste de dfinir lentrept de donnes comme un projet obligatoirement global, engageant en bloc la Direction Gnrale et toutes les forces vives de lentreprise, et rserv aux trs grandes

Jean-Marie Gouarn

Le Projet Dcisionnel

organisations. Une telle approche implique naturellement la mise en uvre de trs importants volumes de donnes, qui se comptent en centaines de gigaoctets voire en traoctets, et donc de dispositifs matriels et logiciels extrmement puissants. Cette faon de voir nest sans doute pas sans rapport avec la promotion commerciale des nouvelles offres des fournisseurs. Elle a peut-tre mme servi, accessoirement, justifier des prestations de conseil de trs haut niveau. Elle sexplique principalement, bien sr, par des antcdents culturels sur lesquels nous reviendrons. Cependant, la dfinition maximaliste nest pas en phase avec la ralit des projets daujourdhui. Un Systme dInformation Dcisionnel est bien, par dfinition, un projet stratgique. Mais la stratgie, ainsi que les mcanismes de la dcision, connaissent depuis quelques annes une volution telle que les informations qui les sous-tendent nont plus lieu dtre entirement et exclusivement consolides au sommet. En outre, il nest plus permis de considrer quune entreprise ne peut avoir de stratgie qu partir dune certaine taille. Cette volution fondamentale qui, de manire plus ou moins rapide et plus ou moins consciente, affecte toutes les organisations, implique et impliquera de plus en plus une distribution beaucoup plus large de linformation dcisionnelle, et nous oblige repenser lentrept de donnes dans des termes plus souples et plus ouverts. En ralit, parmi les projets relatifs linformation dcisionnelle, ceux qui impliquent directement lensemble des processus de lentreprise ne reprsentent quune infime minorit. La presse na pas manqu dattirer lattention sur les traoctets de donnes brasss par certains systmes dinformation, mais il ne sagit que de cas aussi exceptionnels que sensationnels : la grande majorit des projets dcisionnels mettent en uvre des volumes largement infrieurs la centaine de gigaoctets. Ces chiffres, quoique respectables, ne correspondent pas des bases de donnes globales et nimpliquent pas des configurations matrielles extraordinaires. Lide selon laquelle un Systme dInformation Dcisionnel ne peut tre que global et destin exclusivement au management suprme, non seulement correspond un modle dentreprise obsolte, mais peut aussi avoir une influence paralysante. Pour beaucoup dutilisateurs potentiels, cette ide est dissuasive et peut favoriser limmobilisme. Elle risque en outre davoir des consquences perverses sur lvolution des systmes dinformation. Sur le terrain, les utilisateurs ne peuvent pas toujours attendre la mise en uvre dune plate-forme informationnelle globale (qui ne viendra peut-tre jamais). Les besoins de plus en plus incompressibles en informations de type dcisionnel suscitent donc parfois la greffe dexcroissances non planifies sur des applications de gestion existantes, notamment des ditions spcifiques. Ces verrues coteuses, sans jamais vraiment rpondre des besoins toujours changeants, ne peuvent que dtriorer, terme, la qualit du systme dinformation. En fait, un systme dinformation ne se dfinit comme dcisionnel ni par des moyens techniques, ni par des volumes, ni par la position hirarchique de ses utilisateurs. De propos dlibr, nous navons pas cherch, dans cet ouvrage, dfinir linformation dcisionnelle en une seule phrase. Cet exercice de style ne correspond pas notre objectif, qui est de donner au lecteur une ide la fois prcise et pratique du sujet. Lorsquon est, comme lauteur de ces lignes, confront des projets rels, les dfinitions acadmiques, en admettant quelles soient vraies, sont gnralement dun pitre secours. Les Systmes dInformation Dcisionnels possdent cependant quelques caractristiques fondamentales, sur lesquelles les experts semblent aujourdhui unanimes, et quil est utile de souligner : Un vritable Systme dInformation Dcisionnel est, par rapport aux applications de production, la fois spar dans sa conception et dpendant pour son alimentation ; Linformation dcisionnelle est conditionne dune manire intgre et indpendante de ses sources dalimentation. En dautres termes, les caractristiques techniques des applications de production et des supports externes dans lesquels le systme dcisionnel puise ses donnes ninfluent pas sur les modalits selon lesquelles lutilisateur accde linformation ; Linformation dcisionnelle est, dans son contenu et dans sa forme, indpendante des structures et des procdures courantes de la production. Elle porte sur le mtier de lutilisateur, sans tre confine dans le

Jean-Marie Gouarn

Le Projet Dcisionnel

cadre organique dexercice de ce mtier. Cest, comme on la maintes fois rpt, une information oriente sujet 4 ; Parmi les traitements queffectue un Systme dInformation Dcisionnel, beaucoup ne sont pas dtermins par des algorithmes prtablis, ne comportent pas de transactions au sens habituel du terme, et ont pour but de permettre lutilisateur dtablir lui-mme, entre les donnes, des rapprochements et des consolidations non prdfinis. Le modle de donnes de diffusion, qui est llment cl de la dfinition du systme, doit tre conu dans cette perspective selon une approche multidimensionnelle ; Linformation dcisionnelle est chronologique. Elle est voue, non pas au contrle dune situation instantane, mais lanalyse de phnomnes voluant dans le temps. Le traitement du temps est un aspect distinctif essentiel, mais aussi un facteur de complexit ; Les spcifications dun Systme dInformation Dcisionnel sont hautement instables, pour deux sortes de raisons : dune part les objectifs stratgiques atteindre sont des cibles mouvantes, et dautre part le dploiement du systme a lui-mme pour effet de modifier lexpression des besoins. Ceci implique un mode de conduite de projet particulier. Ces quelques lments cls ont des implications multiples qui seront examines au cours des chapitres suivants. La raison dtre dun Systme dInformation Dcisionnel est ltablissement de ponts entre oprations et stratgie, entre automatisation et conduite, entre dtail et synthse, entre situation et volution. On lui demande, en quelque sorte, de faire le grand cart entre des notions indpendantes ou opposes. On peut se demander pourquoi un tel besoin apparat aujourdhui avec une telle ampleur. En ralit, linformation dcisionnelle est une notion ancienne : lide de Systme dAide la Dcision (Decision Support System) est en effet ge dun bon quart de sicle5. Elle est donc largement plus ancienne que toutes les techniques auxquelles on lassocie aujourdhui. Elle a toutefois fondamentalement volu depuis sa naissance. Cette volution a t rendue possible, mais non pas provoque, par linnovation technologique. En particulier, lexpansion actuelle des entrepts de donnes dcoule presque directement des nouvelles caractristiques de l cosystme dans lequel vivent les organisations. Dans un univers marqu par des phnomnes de drglementation et de mondialisation, mme si la porte de ces phnomnes a t jusqu prsent largement exagre, la comptition et le changement imposent un nouveau cadre de prise de dcisions et une nouvelle conception de la stratgie. Cette nouvelle donne affecte en premier lieu les entreprises intervenant dans les secteurs les plus concurrentiels, pour lesquelles ladaptation au changement est une question de survie immdiate. Le modle du commandement central, de lautomatisation et du contrle a posteriori, qui correspondait lenvironnement plus stable des prcdentes dcennies, nest pas assez souple pour ce nouveau contexte. Cest aujourdhui la logique de la dtection avance et de ladaptation rapide qui tend prvaloir, de manire ingale mais relle. Tout ceci implique ncessairement une redistribution de la responsabilit dcisionnelle. Il en rsulte une gigantesque dissmination de linformation dcisionnelle et un foisonnement de projets aussi varis dans leur envergure que dans leur contenu. Les raisons pour lesquelles les applications informatiques de production ne sont pas mme de fournir cette information dcisionnelle, et qui justifient donc le dploiement de systmes spcifiques, mritent quelques dveloppements qui nous permettront au passage didentifier les lments distinctifs dun Systme dInformation Dcisionnel. Le cur dun Systme dInformation Dcisionnel rside dans son modle de donnes. Cest un message majeur que nous souhaitons faire passer dans cet ouvrage, qui donne une place relativement importante la problmatique de construction de ce modle et prsente les grandes lignes de notre approche mthodologique, sans toutefois sgarer dans le foisonnement des dtails techniques dimplmentation.

4 5

Expression introduite par W.H. Inmon (op. cit.)

Son acte de naissance officiel est le fameux article de G.A. Gorry et M.S. Scott-Morton, A framework for management information systems , Sloane Management Review 1971.

Jean-Marie Gouarn

Le Projet Dcisionnel

Un modle de donnes sans donnes ne serait bien entendu quune coquille vide. A la problmatique de la modlisation succde donc naturellement celle de lalimentation. Or lalimentation dun entrept de donnes dcisionnel nest pas quun problme de connectique et de transfert physique. Cest mme le problme politique, conceptuel et architectural le plus dlicat du systme, et le plus susceptible de dcider de la russite dun projet. Le march met progressivement notre disposition un certain nombre doutils et de composants susceptibles de jouer un rle dans la construction des solutions dcisionnelles. Nous croyons utile de rsumer ici les grandes alternatives technologiques. Mais nous nous abstenons dlibrment, en revanche, de toute prsentation comparative de produits. Une telle tude comporterait ncessairement des choix et des liminations plus ou moins arbitraires, et serait dj partiellement prime avant mme de paratre. Et surtout, elle ne sintgrerait pas parfaitement la perspective dans laquelle se situe cet ouvrage. Enfin, il nous a sembl indispensable de prsenter les principes et les contraintes essentiels qui caractrisent la conduite de projet en matire dcisionnelle, dans un contexte qui donne une coloration insolite aux notions de cahier des charges, de recette et de cycle de vie, tant il est vrai quun Systme dInformation Dcisionnel nest compltement spcifi que quand il cesse dtre utilis.

Jean-Marie Gouarn

Le Projet Dcisionnel

2. Les limites du Systme dInformation Oprationnel

Le potentiel que reprsenteraient, si elles taient unifies et accessibles, des informations parses et incohrentes, est depuis toujours un vaste sujet de rflexion.
Une somme de connaissances en constante accumulation est aujourdhui parpille de par le monde. Elle suffirait probablement rsoudre toutes les grandes difficults de notre temps, si elle ntait disperse et inorganise. 6

Le dveloppement des Systmes dInformation Dcisionnels est, en matire de management, lcho le plus rcent de cette rflexion. Et il est li, avant tout, une insuffisance notoire et, semble-t-il, insurmontable, des systmes dinformation traditionnels de gestion et de production. Le concept de data warehouse, lorsquil est apparu, a connu une popularit aussi large quimmdiate. Curieusement, celui dinformation warehouse7, apparu un peu avant, est demeur beaucoup plus confidentiel. Lide dinformation, dans un sens qui se distingue de celui de donne, est pourtant centrale dans cette matire. Toutes les rflexions qui ont produit la dfinition actuelle de linformation dcisionnelle proviennent du constat simultan dune surabondance de donnes et dun dficit dinformation. Or, une poque o la connaissance a pris la place du capital en tant qulment moteur des organisations , il nest plus temps de confondre donnes et connaissance, informatique et information 8. Le rle fondamental de lentrept... de donnes, est justement, comme son nom ne lindique pas, de fournir des informations. Cet apparent paradoxe terminologique qui ne provient pas uniquement de lineptie des informaticiens mrite quelques explications. Les concepts initiaux de calcul (computing) et de traitement lectronique de donnes (electronic data processing) ont depuis trs longtemps cd le pas celui de systme dinformation. La construction mme du mot franais informatique9 contraction des mots information et automatique est significative cet gard. Cependant, depuis plusieurs annes dj, il est gnralement admis que, si lobjectif dautomatisation a bien t atteint, linformation ntait pas au rendez-vous. Cette relative dfaillance a tout dabord t mise sur le compte de limperfection des systmes dinformation existants, ce qui a motiv, partir des annes 1970, un effort mthodologique fondamental.
6 7 8 9

H.G. Wells, 1940 Cette notion, plus large que le data warehouse, a t prsente par IBM en 1991. P.F. Drucker, Managing in a Time of Great Change (The Post-Capitalist Executive) , Penguin 1995.

Le fait que ce mot ait t cr et adopt dans un milieu culturel latin et non anglo-saxon mriterait lui seul une tude sociologique.

Jean-Marie Gouarn

Le Projet Dcisionnel

Cet effort a sans doute fortement amlior la conduite des projets au cours de la dcennie suivante, mais il na pas produit tous les rsultats attendus, et ce relatif chec a donn lieu ce que certains ont appel une crise de linformation . Un constat dramatique a fini par simposer : en matire de management, un dispositif technique conu pour automatiser est structurellement incapable dinformer. Ce point de vue rcent, aussi peu satisfaisant sur le plan intellectuel que sur le plan financier, aurait sans doute provoqu un toll dindignation au dbut des annes 1980, lors de lexpansion des mthodes unificatrices comme MERISE. Le ralisme et la clairvoyance limposent cependant aujourdhui. Lexistence de systmes dinformation qui ninforment pas provient de limites plus politiques, culturelles et organisationnelles que techniques. Il serait donc tout fait vain de rechercher, sur ce point, des solutions qui ne sexprimeraient quen termes de puissance de calcul, de vitesse de transmission et de capacit de mmorisation, et qui relveraient de la seule comptence des informaticiens. Sil y a crise de linformation, ce nest dailleurs que lune des manifestations dune crise plus gnrale que dnonce la sociologie des organisations, dans des termes parfois outranciers mais qui contiennent sans aucun doute une part de vrit :
Les organisations, conues pour un autre ordre, patinent, drapent sur cette nouvelle ralit inverse de ce pourquoi on les avait imagines : entreprises pyramidales, incapables de vivre en rseaux ; administrations passives et poussives, incapables de transformer des agents en acteurs, collectivits territoriales vivant encore lheure de leurs clochers quand la concurrence des villes et des rgions est devenue mondiale [...] 10

La carence informationnelle, qui, dans la priode prcdente, ntait juge que regrettable, est prsent ressentie comme insupportable, compte tenu des mutations de lenvironnement conomique. Les acteurs concerns, renonant attendre lhypothtique systme dinformation intgr du futur, jouent dsormais la carte du systme spcialis, ddi la prise de dcision, susceptible espre-t-on dtre dploy ds prsent. Pour ne pas retomber dans des impasses fatales et comprendre ce que les utilisateurs expressment ou non attendent du data warehouse, il est indispensable de prendre du recul et de rexaminer certains aspects fondamentaux des systmes dinformation, en relation avec lvolution de lenvironnement stratgique.

2.1 Information de Contrle, Information de Conduite


Dans information , il y a forme . Une donne peut parfaitement tre une information, condition dtre dans une certaine forme. Il ny a pas a priori de bonne ou de mauvaise forme. Mais, pour quon puisse parler dinformation, la forme doit simplement tre en adquation avec les besoins et les capacits dassimilation de lutilisateur. Si votre Directeur Gnral vous consulte propos de lvolution des frais de dplacement des collaborateurs de lentreprise et que vous lui rpondez en dversant sur son bureau un monceau htroclite de notes dhtel, de billets davion, de tickets de page et de relevs kilomtriques, comportant des montants libells dans des devises diffrentes, dont certains hors taxes et dautres TTC, vous aurez fourni des donnes dune indiscutable prcision, mais linformation ne sera peut-tre pas exactement celle que votre interlocuteur attendait. Cet exemple, aussi anecdotique quil puisse paratre, illustre pourtant bien un principe de fond : ce nest pas la validit de la donne qui fait la pertinence de linformation. Ce principe comporte une consquence qui est la base de toute la problmatique de linformation dcisionnelle : linformation produite en ordre dispers dans le cadre de transactions lmentaires des fins de contrle oprationnel nest pas directement utilisable des fins danalyse et dobservation. Or, prcisment, les systmes actuels produisent, de manire quasi-exclusive, de linformation de contrle partir de dispositifs htrognes indpendants les uns des autres. Et sils savrent gnralement incapables
10

H. Srieyx, Le Big Bang des organisations , Calmann-Lvy 1993.

Jean-Marie Gouarn

10

Le Projet Dcisionnel

de produire linformation de pilotage tant attendue de nos jours, cela ne provient ni derreurs de conception ni de dysfonctionnements techniques. Cest tout simplement parce quils nont pas t labors pour cela. Lautomatisation du traitement des donnes a toujours t, dans la pratique, conue et ralise application par application, sans cohrence globale, comme si chacune des fonctions de lentreprise constituait un systme isol du reste du monde. Une application informatique est un ensemble de fonctions que les utilisateurs peroivent comme lies entre elles et qui ont probablement t dveloppes dune manire intgre 11. Dans la structure classique de lentreprise, lutilisateur nest pas concern par les fonctions non directement lies ses affaires courantes, et linformaticien qui est cens tre son service na aucune raison de voir plus haut et plus loin. Bien sr, il arrive tt ou tard que plusieurs applications soient amenes manipuler les mmes donnes physiques. Mais plutt que de partager une base de donnes commune (dont la conception aurait ncessit une vue densemble a priori), les applications communiquent entre elles, dans limmense majorit des cas, par des interfaces. Ces interfaces, dveloppes au coup par coup, sont bases sur des transferts priodiques de donnes, excuts gnralement dans les intervalles dinactivit. Elles prsentent des inconvnients multiples : Les canaux logiques et physiques de communication sont conus point point , sans planification densemble, ce qui produit, lchelle de lentreprise, un rseau compliqu dinterdpendances et un foisonnement de formats de fichiers temporaires ; Chaque interface ncessite un dveloppement logiciel spcifique et une technique de transmission particulire ; Les copies physiques entre applications gnrent une forte redondance de donnes ; La cohrence entre deux applications lies aux mmes donnes nest rtablie que priodiquement, aux moments o sont excuts les transferts. Cela signifie que, en priode dactivit, un instant quelconque, le systme dinformation est globalement incohrent. Ce phnomne pouvait sexpliquer initialement par des motifs technico-conomiques. Le cot exorbitant des quipements, leurs faibles capacits de traitement et de mmorisation de donnes, leur lourdeur (au propre comme au figur), nen autorisaient lusage que pour quelques sous-ensembles particuliers des organisations. Par la suite, cette limitation a peu peu disparu. Les vagues technologiques qui se sont succdes une cadence acclre dans les annes 1970 et 1980 ont permis de gnraliser les quipements informatiques la plupart des fonctions de lentreprise. Pourtant, les entreprises et les administrations ont continu automatiser le traitement de linformation en-dehors de toute perspective densemble. Les mises en garde nont cependant pas manqu. En effet, lide de Systme dInformation de Gestion (Management Information System), avec la vision intgre quelle comporte, est trs ancienne. La dnonciation du dfaut de cohrence et de planification des projets, et llaboration dapproches mthodologiques intgres, ont commenc ds les environs de 1970. La notion de pilotage a mme t associe ds cette poque celle de systme dinformation. Un projet dcisionnel tant un projet intgrateur par essence, il est indispensable, pour viter de dangereux mcomptes, de comprendre dans quelles circonstances lintgration a jusqu' prsent chou dans les systmes de production. Ces circonstances qui, bien entendu, ne sont pas essentiellement techniques, sont loin davoir disparu.

2.2 Pilotage et Oprations


En France, la pense systmique12 qui sest dveloppe principalement dans les annes 1970 a labor un modle de rfrence gnral applicable toute organisation. Ce modle se caractrise par une interaction
11

B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996.

Jean-Marie Gouarn

11

Le Projet Dcisionnel

permanente entre trois sous-ensembles spcialiss qui changent entre eux des flux informationnels et dcisionnels. Ces sous-ensembles sont : le Systme Oprant (SO) ; le Systme dInformation (SI) ; le Systme de Pilotage (SP).

Systme de Pilotage
Objectifs

Environnement

Systme d'Information

Ecarts

Dcisions

Systme Oprant

Informations Flux physiques

Figure 2-1 Modle systmique des organisations

Ce cadre de reprsentation, toujours valable, a eu une grande influence sur la culture informatique sans pour autant produire tout ce quon attendait de lui, et ceci mrite rflexion. Le Systme Oprant reprsente lorganisation en tant que processeur physique changeant des flux de matire et dnergie13 avec le monde extrieur. Il est rgul par le Systme de Pilotage par lintermdiaire du systme dinformation. Avant daller plus loin, il est intressant de noter dans quelles limites sinscrit la dfinition du pilotage, telle quelle est perue dans les annes 1980 :
[...] un systme de gestion ou systme de pilotage procde au pilotage ( la rgulation et au contrle) du systme oprant en dcidant du comportement de celui-ci en fonction des objectifs fixs.14 Le pilotage dun systme de gestion ou dune activit peut tre dfini comme lensemble des processus qui permettent de matriser et de guider les tches oprationnelles dans ce systme, en vue de raliser les objectifs assigns.15

Le pilotage semble alors identifi comme une fonction de contrle oprationnel en relation avec des objectifs prdtermins. Certes, la fixation des objectifs est aussi une tche du SP ; mais les bases sur lesquelles elle est faite sont extrieures au modle. Dun tel Systme de Pilotage, on pourrait dire, sil tait charg de diriger un vhicule, quil sintresse bien au rgime du moteur, la pression dhuile et lusure des plaquettes de freins, mais que le choix de la destination nest pas forcment de sa comptence. On est plus proche du pilotage automatique que de la conduite. Dans ce schma, le systme dinformation est linterface par laquelle le Systme de Pilotage rgule et contrle le Systme Oprant. Il actionne le SO, au moyen de signaux de commande rpercutant les dcisions en provenance du SP. Il change aussi des informations avec lextrieur de lorganisation, mais cet change na rien voir avec une observation stratgique de lenvironnement : il nest que la contrepartie des changes matriels extrieurs du SO (par exemple des commandes et des factures en relation avec des
12

Parmi les rfrences franaises initiales sur ce sujet figurent J.-L. Lemoigne, La thorie du systme gnral , Presses Universitaires de France 1977, et J. Mlse, LAnalyse Modulaire des Systmes , Hommes et Techniques 1972. Les principes ont t repris et actualiss depuis, notamment par J.-L. Lemoigne, La modlisation des systmes complexes , Dunod 1990.
13 14 15

Parmi les flux physiques on inclut bien entendu les flux financiers et les services, bien quils soient souvent immatriels. J.-P. Matheron, Comprendre MERISE , Eyrolles 1987. Groupe CIC, Guide dutilisation dAXIAL, T.1 , Editions dOrganisation 1989.

Jean-Marie Gouarn

12

Le Projet Dcisionnel

livraisons et des paiements). Dautre part, il capte les informations de fonctionnement retournes par le SO pour les mettre la disposition du SP ; certaines de ces informations, dites variables essentielles de lorganisation, sont les indicateurs cls qui permettent de connatre lcart entre lactivit oprationnelle et lobjectif. Les variables essentielles, susceptibles de fournir la substance des tableaux de bord dont le rle est de rendre le Systme Oprant pilotable, ont sans aucun doute un caractre dinformations dcisionnelles. Mais leur association troite avec les structures organiques de lentreprise limite beaucoup leur porte. Ces compteurs ne refltent que lefficacit de sous-ensembles fonctionnels par rapport des valeurs de rfrence (volumes dentres-sorties, ratios de productivit, etc.). Or lefficacit globale dun Systme Oprant, et surtout son adaptation lenvironnement, qui sont les cls de sa survie et de son dveloppement, ne se rduisent pas aux performances respectives de chacun de ses organes composants. Il est bien vident, par exemple, que le calcul des quantits produites et du prix de revient par unit dans une chane dassemblage de botes de vitesse ne peut gure contribuer clairer le management stratgique dun constructeur automobile sur lvolution de sa part de march, sur les caractristiques de sa clientle, sur les risques de cannibalisation dune gamme par une autre. Lapproche systmique, si elle avait t pratique de manire totalement consquente, aurait certainement contribu rsorber en grande partie le dficit informationnel, dans la mesure o elle implique lide du systme dinformation conu comme un tout, lchelle de lorganisation conue elle-mme comme un systme. Elle a dailleurs sans doute donn, ponctuellement, des rsultats tangibles en sensibilisant les utilisateurs et les informaticiens lutilit dune vision cohrente de linformation travers les diffrentes activits. Mais la cohrence informationnelle globale est demeure un idal hors datteinte. Deux sortes de phnomnes ont contribu empcher le SI, dans son acception classique, de jouer un rle dcisionnel significatif : Quil ait t ou non envisag au dpart selon une approche systmique globale, et quelle quait pu tre la qualit de son (ventuel) schma directeur, le SI na jamais pu, dans sa conception, reflter autre chose que la structure organique du SO. La dfinition descendante (top-down) du SI a toujours t calque sur la dcomposition du SO en domaines, activits, fonctions, sans tenir compte des processus fondamentaux. Ceci dcoule invitablement de la structure traditionnelle pyramidale, stratifie et compartimente de lentreprise. Dispers auprs des organes, le SI ne voit pas les missions, et encore moins lenvironnement ; Lobjectif unificateur na jamais t atteint. Si la conception de chaque application informatique comme un lment inscrit dans un modle dentreprise intgr, comme un composant dans un systme, a souvent ralli les esprits, elle a rarement dpass le stade des intentions. Elle a mme parfois t rejete comme une vision de thoriciens au nom de considrations qui se voulaient pragmatiques . Le respect intgral de la dmarche aurait dabord impliqu la dfinition fondamentale dun modle dentreprise, projet ambitieux qui, jusqu' prsent, a sembl difficile justifier conomiquement et conduire politiquement. En outre, la vision est reste presque toujours focalise, pour lutilisateur, sur la fonction applicative, et, pour linformaticien, sur la technique. La cohrence informationnelle lchelle de lentreprise, dans limmense majorit des cas, na pas t intgre dans les projets en tant que vritable objectif contractuel. Au hasard des modes technologiques, des influences personnelles, des dcoupages organisationnels, les entreprises ont donc construit, en guise de systmes dinformation, des archipels informationnels disjoints et incohrents. Face un tel existant, on peut se poser la question : et demain ? . Il est dautant plus difficile dy rpondre que les SI sont aujourdhui lobjet de pressions discordantes. Dun ct, la culture de la cohrence (notamment avec MERISE en France) a gagn beaucoup de terrain ; on pourrait donc croire que les projets venir intgreront mieux lide du modle informationnel dentreprise. Mais dun autre ct, la succession rapide des techno-modes signe extrieur certain dimmaturit de lindustrie informatique, de ses professionnels et de ses utilisateurs contribue focaliser lattention et lnergie sur la technique tout en accroissant lhtrognit. Sil est vrai que la technologie relationnelle est de nature rendre les donnes plus accessibles et plus faciles administrer, le modle client-serveur tel quil est pratiqu aujourdhui contribue au contraire rendre le systme dinformation de plus en plus incohrent et incontrlable, et parpiller les gisements de donnes. Les standards fdrateurs ns dans la mouvance de lInternet et du World Wide Web amlioreront-ils la tendance ? Il est beaucoup trop tt pour y croire, une innovation

Jean-Marie Gouarn

13

Le Projet Dcisionnel

technologique pouvant parfaitement produire des effets exactement opposs ceux quon en attendait 16. Dailleurs, la dispersion informationnelle est un problme de culture et dorganisation plus que de technique.

2.3 Les freins culturels lintgration


Dans la conception du SI, on na finalement fait que transposer, dans le domaine du traitement de linformation, les principes traditionnels du machinisme. Aprs avoir optimis le fonctionnement du Systme Oprant par lautomatisation, on a tout simplement cherch faire de mme avec le systme dinformation. Lautomatisation globale savrant hors datteinte, en labsence de modle dentreprise, on a automatis le SI fonction par fonction. Des tabulatrices lectromcaniques davant-guerre aux systmes relationnels daujourdhui, on a introduit de nouveaux outils en ignorant les remises en cause organisationnelles qui auraient permis den tirer le meilleur parti. En dfinitive, on a surtout inject de la technologie dans les incohrences et les dysfonctionnements dun existant rigide et cloisonn. Les donnes utilises et produites dans de telles conditions prsentent plusieurs sortes de caractristiques trs contraignantes pour un usage dcisionnel : Elles refltent directement les flux et les stocks oprationnels de lorganisation, chacune delles tant une grandeur ou une caractristique dont la signification ne se conoit quen rapport avec un traitement lmentaire. Elles ne peuvent se prter des analyses et des synthses stratgiques quau prix de traitements pralables de mise en forme. Or il est techniquement impossible, pour les applications informatiques existantes, deffectuer ces traitements en mme temps que dassurer leur fonction dautomatisation et de contrle des oprations courantes ; Chaque lment du SI ayant t conu pour automatiser une fonction particulire sans perspective de cohrence informationnelle globale, la smantique et la codification varient dune fonction une autre. Lhtrognit des quipements informatiques matriels et logiciels contribue aggraver lincohrence. Si lefficacit intrinsque de chaque fonction est individuellement mesurable, la dfinition et le calcul dindicateurs defficacit pour un processus impliquant plusieurs fonctions est impossible dans cette tour de Babel ; Les donnes ne concernent que le fonctionnement ; elles ne dcrivent pas lenvironnement. Quel que soit le niveau dlaboration des calculs quon pourrait faire sur de telles donnes, on ne peut en tirer aucune information consistante sur le contexte extrieur dans lequel sexerce le mtier de lorganisation. Tel quel, le SI nest donc pas en mesure de fournir une aide aux stratgies dadaptation cet environnement ; Exclusivement destines tre traites dans le cadre de procdures prdtermines, ces donnes ont des structures figes et sans rapport avec lide de point de vue informationnel . Il ressort de tout cela un double verdict : parmi les variables essentielles voques la section 2.2, les plus essentielles sont les moins disponibles ; ce nest pas la technique seule qui les rendra disponibles. Un systme dinformation tel quon vient de le dcrire, et qui correspond aujourdhui la ralit la plus commune, permettra par exemple de contrler, pour un produit donn, le taux dactivit de lunit de fabrication et les quantits produites. Il fournira peut-tre aussi, si tout va bien, des indications valables sur le prix de revient moyen. Les choses vont sans doute se gter lorsquil sagira dlaborer le cot de traitement complet dune commande de ce produit, de la rception du bon de commande la livraison et la facturation. Quant aux indications sur la satisfaction des clients et sur la tendance du march relativement ce produit, inutile dy compter.
16

Daucuns affirmaient encore aux environs de 1990, par exemple, que le client-serveur tait de nature favoriser une rduction des cots informatiques. Depuis...

Jean-Marie Gouarn

14

Le Projet Dcisionnel

Les organisations se sont jusqu' prsent plus ou moins rsignes cet tat de fait parce quil tait parfaitement compatible avec les normes socio-culturelles classiques de la dcision, elles-mmes adaptes un monde sensiblement diffrent de celui de la dcennie actuelle. Notre propos nest pas de dcider si le monde, dans les annes 1990, change plus vite que dans la priode prcdente. Les organisations humaines ont eu faire face au changement depuis toujours. Avec des succs mitigs, dailleurs : on remarque par exemple que, sur les douze plus grandes entreprises industrielles rpertories aux tats-Unis en 1900, une seule a survcu17. Manifestement, les turbulences ont commenc trs longtemps avant quon parle de data warehouse. Cependant, quelles que soient les raisons du phnomne, il est gnralement admis que la nature actuelle du changement donne un rle accru linformation dans la prise de dcision. Cest sur le terrain de linformation, et non plus sur celui de lautomatisation, que se joue dsormais la comptition. Pendant trs longtemps, la grande entreprise a vcu sur la base dun modle de dveloppement impliquant linvestissement de marchs de masse par labaissement des cots de production. Ce modle se caractrise notamment par les principes fordiens et tayloriens de la gestion et de lorganisation du travail. Dans le mme temps, les administrations publiques, nes en Europe dans la mouvance de lEtat-Nation centralisateur et militaire, ont insensiblement volu vers une culture de la rgularit budgtaire, du formalisme procdural et des situations statutaires. Les objectifs dominants taient (et demeurent souvent) la conservation et le renforcement des positions acquises. Les moyens taient loptimisation des fonctions existantes, par lorganisation et par la technique. Dans ce contexte, la logique de la dcision, et donc de linformation dcisionnelle, ne pouvait tre que celle de lautorit, de la rgulation et du contrle. Les organisations concurrentes tant toutes pilotes, quelques variantes idologiques prs, selon des principes semblables, ladaptation rapide au changement ntait pas impose par la comptition extrieure. Evoluer signifiait mieux faire la mme chose et non pas faire autre chose. Les dcisions dont la porte se limite loptimisation de fonctions existantes ne ncessitent, comme informations, que des indicateurs defficacit relatifs ces fonctions. Les SI cloisonns que nous venons de dcrire sont parfaitement mme de les fournir. Toutefois, si linformation est bien approprie chaque fois que la dcision porte sur une fonction particulire, il nen est pas de mme lorsque le champ de cette dcision implique une combinaison de fonctions, ou une prise en compte de facteurs externes. En dautres termes, ds que le dcideur a besoin de prendre de la hauteur et du recul, linformation pertinente devient rare et incertaine. Mais ce nest pas peru comme une difficult majeure dans un monde de la continuit o lon distingue les besoins informationnels selon les niveaux de dcision : Les dcisions oprationnelles, qui sont parfois qualifies de programmes , ou encore structures 18, sont essentiellement informes , en ce sens quelles reposent sur lanalyse dinformations exhaustives et dtailles sur les fonctions du Systme Oprant et sont labores dans un espace dalternatives limit ; Les dcisions stratgiques, rserves aux dirigeants, sont rputes fondes autant, sinon davantage, sur les connaissances, lexprience et lintuition des intresss que sur des informations au sens prcis du terme. Le manque dinformations trans-fonctionnelles et environnementales, quoique gnant, nest pas considr initialement comme dangereux dans la mesure o il naffecte que des dcisions dont on considre dune part quelles sont exceptionnelles et dautre part quelles nont pas besoin dtre informes au sens prcis et rigoureux du terme. Dans cet univers stable , les dcisions de porte stratgique sont rputes rares et non urgentes, parce quelles sont lies lide de changement et que le changement lui-mme est rput exceptionnel et lent. Dailleurs, il est communment admis que le manager avis est celui qui sefforce avant tout de dcider le moins possible :

17

Information cite par M. Crozier, H. Srieyx et J.-M. Salvet, Du management panique lentreprise du XXIme sicle , Maxima 1993.
18

H.A. Simon, The New Science of Management Decision , Harper & Row 1960.

Jean-Marie Gouarn

15

Le Projet Dcisionnel

Lart subtil de la dcision, pour le dirigeant, consiste ne pas prendre de dcisions qui ne soient pas pertinentes sur le moment, ne pas prendre de dcisions prmatures, ne pas prendre de dcisions qui pourraient tre prises par dautres. 19

La tendance viter autant que possible les dcisions non programmes est dailleurs un phnomne humain qui affecte les hauts responsables tout autant que le commun des mortels, tant il est vrai que la peur de prendre une mauvaise dcision est souvent plus dissuasive que les consquences possibles de labsence de dcision 20. La dcision est donc, le plus souvent, ractive et dfensive ; elle est prise sous la pression de contraintes directes et immdiates, et de manire provoquer le moins deffets possibles. Dans cette culture de la non-dcision, le gaspillage informationnel ne semblait pas entraner de sanctions immdiates. De ce fait, malgr lagacement des managers, les limites inhrentes un systme dinformation clat et introspectif ont t longtemps tolres. Les nouvelles normes dcisionnelles qui tendent irrsistiblement simposer ne peuvent pas saccommoder de ces limites.

2.4 La pression du changement


Les doctrines rcentes en rapport avec le pilotage des organisations ont profondment intgr, sous diverses formes, le caractre prioritaire de ladaptation au changement. Des concepts issus de la thorie du chaos ont fait une entre massive dans le discours managrial. Certes, les comportements dcisionnels effectifs nvoluent pas au rythme des modes verbales. Mais lentreprise se voit nanmoins dsormais, de plus en plus, comme un systme adaptatif complexe dont la survie et le dveloppement sont troitement lis sa bonne intgration dans un environnement en mutation acclre. Limiter le champ de la dcision aux affaires courantes quivaut largement, dans les esprits, signer larrt de mort de lentreprise : Business as usual could kill your company over the next few years 21. Parmi les diverses facettes de ladaptation lenvironnement figure au premier plan ladaptation au client. Dans un environnement aussi concurrentiel quvolutif, dans lequel le client a le choix des fournisseurs, le march nest plus pilot par le producteur. Il appartient dsormais ce dernier dadapter loffre la demande, cest--dire au client. Certes, il nest pas question de retourner lre pr-fordienne, et notamment de fabriquer exclusivement sur commande et sur mesure. Mais le lancement ou la poursuite dune activit, ainsi que les modalits de vente des produits au sens large (campagnes promotionnelles, remises et primes, services annexes, canaux de distribution) sont des choix qui doivent tre fonds sur une connaissance aussi prcise que possible du comportement de la clientle. A terme, la loi de ladaptation au client simpose lensemble des organisations. Les entreprises qui russissent le mieux aujourdhui sont trs nettement orientes client . Seules chappent encore aujourdhui cette logique celles qui bnficient de subventions directes ou indirectes, de monopoles ou de formes quelconques de protection politique aux frais de la collectivit mais pour combien de temps ? Les administrations publiques elles-mmes, mme si elles ne sont pas directement menaces par la comptition externe, sont confrontes une pression budgtaire croissante et des obligations de rsultat ; elles devront dailleurs tt ou tard sadapter des relations de type client-fournisseur avec leurs gouvernements et leurs administrs22. Ladaptation un paysage mouvant, qui semble narguer les prvisions long terme, implique une redfinition des caractristiques de la dcision. La stratgie, quon croyait auparavant pouvoir laborer tte
19 20 21 22

C.I. Barnard, The Functions of the Executive , Harvard University Press 1938. H.H. Albers, Organized Executive Action , John Wiley & Sons 1961. Information Strategy, 1996.

En Nouvelle-Zlande, des pans importants de ladministration dEtat sont tenus de respecter des objectifs contractuels ngocis avec le pouvoir politique et sont systmatiquement mis en concurrence avec des solutions prives. Leur comptabilit est contrle par des auditeurs externes. Il est a peu prs certain que cet exemple qui est celui dune russite ne restera pas isol.

Jean-Marie Gouarn

16

Le Projet Dcisionnel

repose, se dveloppe prsent sous le signe de lurgence. Ses effets peuvent tre rapides et irrversibles. Labsence de dcision, face une menace ou une opportunit imprvue, est plus que jamais la pire des dcisions. Il est de plus en plus ncessaire de dcider souvent, vite et bien. Le temps manque pour procder par essais et erreurs, et les ides subjectives des dirigeants, lies leur formation ou des situations passes, ne constituent plus une base solide. Ladaptation implique aussi une dconcentration des responsabilits dcisionnelles : la distinction entre ceux qui dfinissent la stratgie, ceux qui la transmettent et ceux qui lexcutent nest plus aussi nette quelle la t. Les managers du terrain ne peuvent plus sen remettre systmatiquement au pouvoir central pour toutes les dcisions non programmes . En matire dinformation, ce phnomne comporte trois sortes de consquences : Le pilotage ncessite prsent une signalisation rapide et prcise base sur des faits ; Les variables essentielles sont celles qui concernent les forces et les faiblesses de lorganisation, les menaces qui psent sur elle et les opportunits qui sont sa porte, et non celles qui mesurent les performances oprationnelles ; Linformation stratgique concerne un nombre croissant dutilisateurs nappartenant pas ncessairement au management central. Le climat est donc, plus que par le pass, favorable aux efforts dintgration et de diffusion informationnelles. Mais les conditions ne sont plus les mmes quil y a dix ou quinze ans. On a pratiquement bascul dun extrme lautre : hier envisages par des dirigeants distants comme un objectif luxueux et perfectionniste, la disponibilit et la cohrence de linformation sont soudain devenues des urgences immdiates. La moins mauvaise faon de faire face lvolution semble tre, aujourdhui, le dveloppement dun Systme dInformation Dcisionnel (SID) distinct du Systme dInformation Oprationnel (SIO) de lorganisation. Au premier abord, on pourrait penser que la meilleure rponse aurait consist poursuivre plus nergiquement leffort mthodologique entrepris il y a plus de 25 ans, pour unifier et normaliser les systmes dinformation. Mais lhritage du pass est tel que cette unification est encore largement hors de porte. Malgr les embches dont elle est seme, la route du data warehouse est plus courte que celle du systme dinformation intgr, et donc mieux mme de rpondre la demande actuelle. Il faut donc soigneusement distinguer deux objectifs parallles : Lintgration du systme dinformation, qui est un objectif long terme englobant tous les traitements et donnes oprationnels de lorganisation ; La construction du Systme dInformation Dcisionnel qui, avec lentrept de donnes, est un objectif beaucoup plus rapproch dintgration des donnes sous une forme approprie un usage dcisionnel23. Dans lhypothse mme o le premier objectif serait atteint, le SID ne serait pas ncessairement un accessoire jetable. En effet, mme intgre et normalise grande chelle, une base de donnes oprationnelle nen demeure pas moins oriente vers lautomatisation et le contrle, et se prte mal une exploitation dcisionnelle directe. Il existe une profonde diffrence de structure entre linformation dcisionnelle et linformation oprationnelle24, et cette diffrence a un impact conceptuel et technique considrable. Puisquil faut tablir une ligne de dmarcation terminologique, on aurait pu la faire passer entre information et automatisation. Mais ce choix quivaudrait, implicitement mais ncessairement, dnier le caractre de systmes dinformation limmense majorit des ensembles organiss de moyens humains, financiers et techniques que l'usage a dsigns comme tels. Il est donc prfrable ne serait-ce que par opportunisme dtablir la distinction entre information dcisionnelle et information oprationnelle.
23 24

S. Kelly, Data Warehousing - The Route to Mass Customization , John Wiley & Sons 1996.

Dans le vocabulaire militaire, dont il est issu, le mot oprationnel dsigne tout ce qui se rapporte aux oprations actives et soppose donc aux affaires ordinaires. Il sapplique ainsi notamment linformation et la dcision stratgiques et tactiques. Au sens du management des organisations civiles, que nous employons ici, loprationnel dsigne tout ce qui se rapporte au fonctionnement courant par opposition au dcisionnel.

Jean-Marie Gouarn

17

Le Projet Dcisionnel

Par information dcisionnelle, on entend donc ici toute linformation destine principalement ou exclusivement matriser le devenir de lorganisation, donc sa propre volution et lvolution de son environnement.

Jean-Marie Gouarn

18

Le Projet Dcisionnel

3. Gnralits sur les Modles de Donnes

Un Systme dInformation Dcisionnel est, par essence et par dfinition, un outil destin recueillir, organiser, mettre en forme et diffuser des donnes de manire en faire des informations. Sa conception repose donc avant tout sur des Modles de Donnes. La modlisation des donnes est un lment fondamental dans la dmarche de spcification dun systme dinformation quel quil soit. Bien quappliqu de manire ingale, ce principe est a peu prs gnralement admis. Il simpose de manire particulirement imprative en matire dcisionnelle. Do lutilit, pour ceux qui envisagent un embarquement prochain pour laventure du data warehouse, dune parfaite matrise de la modlisation des donnes, mais aussi dune apprciation critique des normes traditionnellement utilises dans cette discipline.

3.1 La notion de modle : un essai de dfinition


Un modle est la reprsentation dun objet, dun systme ou dune ide sous une forme quelconque autre que celle de lentit reprsente elle-mme. Sa fonction est de nous aider expliquer, comprendre, ou amliorer un systme. Le modle dun objet peut tre une rplique exacte de cet objet (bien quexcute dans un matriau diffrent et une chelle diffrente), ou une abstraction des proprits saillantes de lobjet. 25

Cette dfinition, qui est celle du savant et de lingnieur, ne semble pas franchement identique celle du langage courant. Car enfin, peut-on qualifier de reprsentation une personne en chair et en os qui pose dans un atelier dartiste en tant que modle pour tre elle-mme reprsente sur une toile ? Mais ce dbat nous carterait de notre sujet. Tout en renonant prudemment la considrer comme universellement valable, nous adoptons ici, pour des raisons pratiques, lide de reprsentation, en la considrant simplement comme utile pour notre propos et conforme au jargon professionnel des systmes dinformation. Le rle pratique dun modle consiste permettre ou faciliter la pense et la communication relativement un objet.
25

R.E. Shannon, Systems Simulation, the art and science , Prentice Hall 1975.

Jean-Marie Gouarn

19

Le Projet Dcisionnel

Le modle permet dapprhender un objet qui, pour toutes sortes de raisons, nest pas directement la porte de nos facults sensorielles et mentales ; Le modle permet plusieurs utilisateurs de construire une pense cohrente relativement un mme objet, grce une reprsentation commune. La conception et la ralisation dun systme dinformation objet par nature complexe et impalpable ncessitent de toute vidence le recours des modles. Un modle ainsi dfini sous toutes rserves peut reprsenter quelque chose de rel ou dimaginaire ; il peut donc notamment reprsenter : un systme dinformation qui nexiste pas (imaginaire) mais qui est raliser ; un systme dinformation existant (rel). Tandis que le savant utilise gnralement les modles pour comprendre et dcrire des phnomnes existants ou supposs tels, lingnieur sen sert plutt dans le but de modifier lexistant, notamment en crant des systmes artificiels26. Cest ce second usage qui nous intresse en matire de systmes dinformation. Il existe cependant une infinit de modles possibles pour un mme objet. Quelles que soient la rigueur, la clart et la compltude dun modle, sa valeur ne sapprcie que relativement un point de vue. Considrons par exemple quatre plans (cest--dire quatre modles) de Paris : le plan des rues, le plan du mtro, le plan des catacombes et le plan des pistes cyclables. Lequel est le vrai plan de Paris ? Lineptie de la question montre bien quel point la valeur dun modle est relative. Comme chacun sait, la carte nest pas le territoire , et la validit dune cartographie dpend du point de vue quon a sur le territoire. Un modle est une reprsentation conventionnelle et partielle. Lide de reprsentation fidle et intgrale de lobjet par le modle, mme si elle avait un sens, naurait aucun intrt pratique. Un modle ne saurait tre cr quen vue dune utilisation spcifique, et son adquation ou sa validit nest apprciable que selon cette utilisation 27. La pertinence dun modle dpend donc des objectifs de celui qui le conoit et de celui qui sen sert. Elle dpend autant du projet que de lobjet. La principale difficult dlaboration et la source essentielle dinadquation des modles aux objectifs tiennent au manque de rgles de modlisation28 a priori, et au rle dominant de lempirisme et de lintuition. Chaque mthode de conception de systmes dinformation tend proposer un corps de principes de modlisation. Mais ces principes ont une efficacit variable selon ltape laquelle on se situe. Un projet dingnierie implique presque toujours llaboration de plusieurs modles dans la mme dmarche. Les mthodes mettent notre disposition des algorithmes permettant de vrifier dune part la conformit de chaque modle aux rgles de la dmarche et dautre part la cohrence entre les diffrents modles du projet. Il est donc relativement ais de sassurer a posteriori de la validit intrinsque dun modle ou dun ensemble de modles. Mais les lments subjectifs reprennent le dessus ds lors quil sagit de faire la liaison entre le modle et le rel. Il nexiste pas dalgorithme qui, partir de lobjet et du projet, dtermine le modle. La traduction de lexistant en modle, ainsi que la dfinition dune solution technique de mise en uvre partir dun modle, font trs largement appel lintuition. Les bons ouvrages mthodologiques contiennent bien sr des chapitres de recettes tendant dduire des rgles systmatiques partir dune compilation dexpriences. Linconvnient de ces fiches-cuisine, cest quelles sont labores partir dune vue a posteriori sur les projets, vue qui procde toujours dune reconstitution logique des vnements et qui ne rend pas compte de leur succession relle. La faon de modliser ne peut pas tre prdtermine, surtout dans le contexte dun projet rel, qui comporte toujours des faux dparts, des rvisions dchirantes, des retours en arrire et des avances imprvues. La diversit des points de vue, la subjectivit des acteurs, sont donc des lments ne jamais perdre de vue quand on sengage dans la construction dun systme dinformation.
26 27 28

J.W. Forrester, Industrial Dynamics , Massachussetts Institute of Technology Press 1961. R.E. Shannon, op. cit.

Les anglo-saxons nont pas eu besoin de distinguer modlisation de modelage : ils en sont rests au mot le plus simple (modeling). En France, o prvaut le culte du mot le plus long, le modelage ntait pas compatible avec le standing intellectuel des professionnels concerns.

Jean-Marie Gouarn

20

Le Projet Dcisionnel

Deux rgles de conduite en dcoulent : Ne jamais considrer un modle de systme dinformation comme le bon modle ; Ne jamais considrer les cadres de modlisation qui, jusqu prsent, ont t utiliss pour concevoir les applications informatiques de production comme obligatoirement valables pour le Systme dInformation Dcisionnel.

3.2 Pourquoi un Modle de Donnes ?


Quelle que soit lapplication prcise quon envisage, et quel que soit le profil de lutilisateur concern, un SID est destin lui offrir un point de vue informationnel sur des donnes. La solution technique de mise en uvre, quelle quelle soit, doit tre conue conformment ce point de vue. Un data warehouse ne saurait tre un simple tas de donnes mis disposition en libre service. Un accs gnral de lutilisateur toutes les donnes htrognes disponibles dans lorganisation serait bien entendu impossible mettre en place. De plus, le chargement brut et massif dune rplique centralise de ces donnes, indpendamment de son cot exorbitant, serait totalement inutile : il ne produirait quun concentr dincohrence. Les donnes doivent tre organises dune manire qui soit la fois conforme au point de vue de lutilisateur et compatible avec les contraintes techniques de mise en uvre. Entre locan des donnes brutes et le foisonnement des demandes dinformation, il est videmment impossible danalyser, de concevoir et de raliser cette organisation des donnes sans passer par des modles. La modlisation des donnes est, bien quavec une qualit et une rigueur variables, pratique dans tous les projets informatiques dignes de ce nom, et ce depuis trs longtemps. Nous disposons aujourdhui dun appareil mthodologique prouv dans ce domaine. La principale limite des mthodes traditionnelles de modlisation de donnes, pour le sujet qui nous occupe, vient du fait quelles ont t labores dans la perspective exclusive du Systme dInformation Oprationnel. Ceci est dailleurs tout fait lgitime, dans la mesure o la majeure partie de lactivit de spcification et de conception informatique a toujours t, et continuera longtemps tre, lie aux applications de production. Cette limite nest pas une raison pour rinventer la modlisation des donnes partir dune table rase. Un entrept de donnes dcisionnel ncessite une dmarche spcifique de modlisation, mais cela ne justifie ni le rejet des concepts de base les mieux matriss aujourdhui, ni la recherche systmatique de lexotisme, ni limprovisation. Lun des piges les plus redoutables que nous ayons reprs, cet gard, se cache derrire le mot dnormalisation. La dnormalisation est en effet le mot-cl qui revient le plus souvent dans la bouche des analystes qui abordent pour la premire fois le thme de la construction dune base de donnes dcisionnelle. Il existe en effet une ide trop rpandue selon laquelle le modle dune base de donnes dcisionnelle serait essentiellement la forme dnormalise dun autre modle. Pour bien comprendre en quoi consiste le pige, il est utile de revenir sur les notions de normalisation et de dnormalisation des donnes. Le passage qui suit se rapporte des notions qui sont connues des spcialistes, et certains lecteurs pourront en faire un survol trs rapide. Nous ne cherchons pas ici prsenter une initiation la modlisation des donnes. Ces brefs rappels correspondent deux objectifs bien prcis : Inviter les initis reconsidrer dun point de vue critique les notions quils utilisent couramment, de manire bien comprendre le sens et la raison dtre de la normalisation des donnes, et par l le caractre relatif des normes ; Faciliter aux lecteurs non spcialistes la comprhension de la dmarche de modlisation des bases de donnes dcisionnelles, prsente plus loin.

Jean-Marie Gouarn

21

Le Projet Dcisionnel

3.3 Niveaux et normes


Lanalyse et la conception dun SI quel quil soit ncessitent gnralement une modlisation spare pour les donnes et les traitements. Certes, lapproche oriente objet (OO)29 relativise ce principe, en prescrivant des modles base dentits complexes appeles faute de mieux des objets dotes de proprits qui dfinissent leur tat et de mthodes qui dfinissent leur comportement. On peut donc dire que donnes et traitements sont, dans la mthodologie OO, associs au niveau le plus fin. Il nest pas douteux que, si les futurs grands SI taient globalement conus selon une approche OO, la problmatique de linformation dcisionnelle se prsenterait dans des termes profondment diffrents. Mais rappelons que le data warehouse est une solution pour maintenant. Si les mthodes de linformatique de gestion ont rarement tenu leurs promesses, ce nest certainement pas d aux insuffisances de leurs modles de donnes. Il est vrai que les grandes constructions mthodologiques nes autour de 1980 (notamment MERISE) sont parfois critiques, mais ces critiques portent gnralement soit sur la dmarche globale, soit sur la description des traitements. Les concepts en rapport avec la modlisation des donnes sappuient quant eux sur une logique formelle qui a trs bien rsist lpreuve du temps. Bien que ces concepts aient t dvelopps dans la perspective de SI essentiellement oprationnels, ils restent donc, en grande partie, valables dans le domaine dcisionnel. A condition toutefois dtre agencs selon des normes appropries au point de vue recherch.

3.3.1 Les trois niveaux dabstraction


La description complte des donnes dun projet implique trois modles, correspondant chacun ce quon appelle un niveau dabstraction : Le Modle Conceptuel des Donnes (MCD) est une intgration de lensemble des vues spcifiques de chaque utilisateur dans une description qui limine toute redondance 30. Ce modle est donc une mise en forme intgre des points de vue des utilisateurs. Il fait abstraction de toute considration lie lorganisation ou la technique. Ce modle est labor en appliquant strictement des normes dassemblage formelles qui permettent de vrifier sa cohrence ; Le Modle Logique des Donnes (MLD) se dduit du MCD, mais en tenant compte des contraintes dorganisation des donnes en rapport avec la technologie dimplmentation. Ce modle doit notamment tenir compte dobjectifs gnraux doptimisation des volumes et des temps de rponse. Le MLD ne peut donc pas tre intgralement conforme aux normes qui rgissent le MCD, ce qui permet de parler, son sujet, de dnormalisation; Le Modle Physique des Donnes (MPD) dcrit les structures de donnes telles quelles sont enregistres sur les supports physiques 31. Cest le modle final , et sa structure dpend troitement de lenvironnement matriel et logiciel dexploitation des bases de donnes. Les trois modles doivent systmatiquement tre labors dans cet ordre, sous peine de manquer presque coup sr lobjectif informationnel recherch. En effet, le MCD, et lui seul, dcrit cet objectif. Le MPD dcrit les structures de donnes telles quelles sont manipules par les dispositifs techniques, et le MLD est un relais symbolique permettant dassurer le passage du MCD au MPD.

29

La prsentation de cette approche a fait lobjet de trs nombreuses publications. On peut citer parmi les principales rfrences actuelles G. Booch et J. Rumbaugh, Unified Method for Object-Oriented Development , Rational Software Company 1995.
30 31

A. Flory, Bases de Donnes, conception et ralisation , Economica 1987. A. Flory, op. cit.

Jean-Marie Gouarn

22

Le Projet Dcisionnel

Analyse Spcification

Vues informationnelles V1 V2 V3

Intgration Normalisation

Modle Conceptuel des Donnes

Optimisation Dnormalisation

Modle Logique des Donnes

Mise en uvre

Modle Physique des Donnes

Figure 3-1 Les trois niveaux de modlisation des donnes

Une reprsentation technique de donnes nest pertinente que si elle est structure de manire permettre den tirer linformation utile de la manire la plus directe et la plus efficace possible. La pertinence dun MLD et dun MPD tient donc la faon dont ils mettent le jeu des possibilits et des contraintes de la technique en accord avec le MCD. Mettre en uvre un systme de gestion de bases de donnes en labsence de MCD (ou dun modle quivalent sous une forme ou une autre) quivaut dvelopper une application informatique sans cahier des charges ni spcification fonctionnelle. Cette rgle est valable quel que soit le domaine dutilisation, et nest donc pas rserve linformatique de gestion. Les modles logique et physique ne se dduisent pas dune manire totalement prdtermine du MCD : il reste toujours une place pour le jugement du concepteur de systme 32. Pour un MCD, il y a donc plusieurs MLD potentiels. Mais le MLD quel quil soit nest valable que sil prsente une conformit au MCD vrifie par des procds formels. Le MCD est donc le modle de donnes le plus fondamental, celui qui dtermine tous les autres.

3.3.2 Entits et Associations


Le formalisme universellement pratiqu aujourdhui en matire de MCD est fond sur le couple entitassociation33, dont le principe remonte aux annes 197034 et qui est partie intgrante des principales mthodes de conception dont MERISE. Sans entrer ici dans lexpos complet de ce cadre de reprsentation, rappelons simplement que : une entit est une chose ou une ide qui peut tre identifie et particularise comme sujet ou comme objet, dans lunivers du discours li au projet35 ; chaque entit est susceptible de possder des caractristiques ou proprits ; une association est un lien ou un regroupement impliquant une ou plusieurs entits36.

32

Les outils de gnie logiciel proposent souvent une gnration automatique de modles logiques et physiques partir des modles conceptuels, mais les modles ainsi produits doivent presque toujours faire lobjet dajustements ultrieurs.
33

On dit plus gnralement entit-relation, mais nous prfrons viter le mot relation dont le sens diffre selon quil sagit de modle conceptuel ou de modle relationnel.
34 35 36

P. Chen, The Entity-Relationship Model toward a unified view of data , ACM Transactions on Database Systems 1976. H. Tardieu, A. Rochfeld et R. Coletti, La Mthode Merise, T.1 : Principes et outils , Editions dOrganisation 1983.

Une association peut aussi lier une entit elle-mme. Si par exemple un employ peut tre mari avec un autre employ, il existe une association rflexive Mariage sur lentit Employ .

Jean-Marie Gouarn

23

Le Projet Dcisionnel

Entit E1
Proprit P11 Proprit P12 Proprit P13

Entit E2 Association
Proprit P21 Proprit P22 Proprit P23

Figure 3-2 Entits et Association

Une entit peut par exemple reprsenter un employ, un client, un produit, un contrat, un vhicule, un tablissement, ou tout autre objet ayant un sens et une utilit dans le systme. Lentit, qui est la reprsentation abstraite et gnrique dune collection dobjets de mme structure, doit tre soigneusement distingue de chacun des exemplaires identifis de cette collection. Ainsi, les employs Martin, Lebrac et Duranteau sont trois occurrences de lentit Employ . Une entit possde des proprits qui sont des informations lmentaires susceptibles de dcrire chaque exemplaire ou occurrence de lentit. Lentit Employ peut par exemple avoir comme proprits un salaire , un matricule , une couleur de cheveux . Lentit Vhicule peut avoir un numro dimmatriculation , une puissance fiscale , un nombre de places et un type de carburant . Employ et Vhicule sont dans ce cas deux entits du systme. Si les employs utilisent des vhicules, on pourra dire, selon les normes de construction convenues pour le modle, ou bien que le Vhicule est un attribut de lentit Employ , ou bien quil existe une association entre les deux entits. En fait, cest la seconde forme (illustre par la Figure 3-3) qui est la forme normale dans les MCD lis des Systmes dInformation Oprationnels.
Employ
Matricule Salaire Fonction

Vhicule Affectation
Date Immatriculation Puissance Marque

Figure 3-3 Association Employ-Vhicule

Dans cette exemple, on peut sintresser la date laquelle chaque vhicule est affect un employ. La proprit date ne peut alors pas tre considre comme une caractristique appartenant lemploy ou au vhicule ; elle ne se comprend que par lassociation entre les deux. On dit alors quil sagit dune proprit de lassociation. Les proprits sont les informations lmentaires du SI, cest--dire en quelque sorte les atomes du MCD.

3.3.3 Formes normales


Il nexiste pas de rgle gnrale dassemblage de proprits. Par consquent, les normes qui prsident, dans chaque modle, la dtermination des entits et des associations, ainsi qu la distribution des proprits dans les unes et les autres, sont des normes conventionnelles qui ne se justifient que par la perspective informationnelle recherche. La dfinition des structures de donnes destines un usage dcisionnel ne peut tre valablement envisage que sur la base de la combinaison normalise des vues spcifiquement dcisionnelles des utilisateurs. La dmarche commence donc par un MCD dcisionnel. Le SID utilise des donnes issues plus ou moins directement des applications oprationnelles, mais selon une approche conceptuelle trs spcifique. Mme si la matire est en grande partie la mme, les structures diffrent profondment. Linformation dcisionnelle nest pas une simple technique daccs des bases de donnes oprationnelles.

Jean-Marie Gouarn

24

Le Projet Dcisionnel

La premire erreur fondamentale qui puisse tre commise, ce sujet, consiste rduire la conception dune application dcisionnelle une stratgie doptimisation logique et physique, cest--dire principalement des choix de dnormalisation. Cette erreur est cependant commune lheure actuelle. La culture des analystes et des concepteurs de bases de donnes tant domine par lexprience des applications de gestion, la normalisation des donnes est gnralement conue, de manire plus ou moins consciente, dans la perspective dune utilisation oprationnelle. Les principes de normalisation en usage depuis une vingtaine dannes dans le domaine de linformation oprationnelle sont donc parfois rputs tort seuls valables quelles que soient les applications. Or un modle nest quune reprsentation conventionnelle adapte un besoin spcifique. La notion de forme normale ne saurait se dfinir en loccurrence que par rapport un objectif, et non dans labsolu. La normalit dun modle ne dcoule pas des donnes elles-mmes mais de lusage quon en fait. La constitution dun entrept dinformations dcisionnelles est donc un problme conceptuel avant dtre un problme technique. Le problme technique est celui de la mise disposition des donnes. Le problme conceptuel est celui de la dfinition des entits et des associations qui structurent ces donnes. Pour le rsoudre, les concepts de modlisation sont fondamentalement les mmes dans le SID que dans le SIO. Ce sont les normes dassemblage qui diffrent. Pour comprendre et apprcier la particularit des normes adaptes aux bases de donnes dcisionnelles, il faut dabord examiner les raisons dtre, qui sont en mme temps les limites, des normes communment pratiques dans lunivers oprationnel.

3.4 Le Modle de Donnes Oprationnel


Depuis que le concept de normalisation des donnes existe, la thorie reconnat lexistence de plusieurs formes normales . On admet cependant quune entit est normalise (sans prciser selon quelle norme) si et seulement si sa structure est stable, autrement dit si toutes les occurrences (cest--dire tous les exemplaires identifiables de lentit) sont dcrites par les mmes caractristiques. On peut dire que lentit Employ de la Figure 3-3 est normalise si tout Employ est dcrit par les proprits Matricule , Salaire , Fonction . Imaginons en revanche une entit Employ dont les caractristiques seraient non seulement celles de notre exemple, mais aussi les diplmes et qualifications quil possde. Si lemploy Martin possde un MBA et un certificat dtudes, tandis que lemploy Legrand possde un permis de conduire, une licence en droit, un BEP comptable et une matrise de philosophie, lentit gnrique possde une structure variable, puisque le nombre de qualifications change selon loccurrence identifie. Sur la base de la convention gnrale quon vient dnoncer, on peut dire demble que lentit Employ nest pas en forme normale. Pour la normaliser sans pour autant perdre linformation sur les qualifications, il faut extrioriser cette information, par exemple en crant une entit Qualification et en tablissant une association entre Employ et Qualification . Cette convention fondamentale bien quelle ne soit quune convention na pas lieu dtre remise en cause dans le domaine dcisionnel. La prsence dentits structure variable conduirait en effet, dans ltat actuel des techniques, des complications inextricables. Une entit doit possder un identifiant. Lidentifiant est une proprit ou un groupe de proprits de lentit permettant de distinguer de faon unique chaque occurrence. Une proprit peut tre identifiante ou non selon le contexte. Ainsi, dans un petit groupe de personnes, le prnom peut ventuellement tre identifiant ; si le groupe sagrandit, le prnom, et mme le nom, peuvent ne plus permettre didentifier une personne en particulier. Dans un SI en vraie grandeur, les identifiants sont gnralement des proprits qui ont t artificiellement cres pour identifier, et qui nont pas dautre signification (comme, par exemple, le numro matricule dun employ). Certaines proprits destines avant tout lidentification peuvent accessoirement contenir des lments dinformation cods (par exemple le numro dimmatriculation dun vhicule qui

Jean-Marie Gouarn

25

Le Projet Dcisionnel

indique le dpartement de domiciliation du propritaire, ou le numro de scurit sociale qui indique notamment le sexe, lanne et le lieu de naissance). Cela dit, les formes normales en usage dans les SIO sont beaucoup plus directives. Cest plus particulirement lune dentre elles, dite troisime forme normale (3FN), qui est consacre comme le critre de validit formelle dun MCD. Lorsquon parle de dnormalisation, cest presque toujours pour dsigner une drogation volontaire par rapport la 3FN. La 3FN fait partie dun groupe dune demi-douzaine de formes normales 37, dont il est inutile de rappeler ici la dfinition, qui sont toutes fondes sur la notion de dpendance fonctionnelle (DF). La dpendance fonctionnelle peut elle-mme se dfinir ainsi :
Nous dirons quil existe une dpendance fonctionnelle entre G1 et G2 (ou que G1 dtermine G2, ou que G2 est fonctionnellement dpendant de G1) si, toute valeur de G1 on ne peut associer [...] quune seule et mme valeur de G2 un instant donn. 38

En dautres termes, une dpendance fonctionnelle est un lien smantique entre deux informations ou groupes dinformations, tel que la connaissance de lune dtermine de faon non quivoque la connaissance de lautre. Ainsi, par exemple, on connat le nombre de jours dun mois condition de connatre le numro du mois et, pour le cas de fvrier, le numro de lanne. On peut donc dire que le nombre de jours du mois est en DF du couple [numro danne, numro de mois]. De mme, on pourrait dire que le montant de la taxe annuelle sur les automobiles est en DF du triplet [puissance fiscale, dpartement dimmatriculation, ge du vhicule]. Une dpendance fonctionnelle entre deux proprits ou groupes de proprits G1 et G2 est directe si la valeur de G1 dtermine immdiatement celle de G2. Si G1 dtermine G2 qui son tour dtermine G3, on dit alors quil y a dpendance fonctionnelle indirecte (ou transitive) entre G1 et G3. Par exemple, en connaissant le modle dun vhicule, on peut connatre sa puissance fiscale, qui a son tour dtermine le montant de la taxe ; il y a donc une DF indirecte entre le modle et le montant de la taxe. Une entit est dite en 3FN si les conditions suivantes sont runies : Elle est normalise (i.e. elle possde une structure fixe) ; Toutes les proprits sont en DF directe de lidentifiant ; Il nexiste dans lentit aucune autre DF que celles qui manent de lidentifiant. Une entit Employ caractrise par un identifiant Matricule et des proprits Nom , Prnom , Fonction et Nom du service est sans doute en 3FN. Si on lui ajoute une proprit supplmentaire Nom du chef de service , elle nest plus en 3FN car il existe une DF entre Nom du service et Nom du chef de service . Pour respecter la 3FN tout en insrant cette nouvelle donne, il faudrait alors crer une nouvelle entit Service , en association avec Employ . Linventaire exhaustif des dpendances fonctionnelles dtermine donc la constitution des entits et des associations, et par l la structure complte du MCD. Si la dmarche est intgralement respecte, chaque information lmentaire trouve sa place au sein dune entit ou dune association, et aucune information ne se trouve plus dune fois dans tout le modle. La Figure 3-4 est la reprsentation graphique dun lment de MCD comportant quelques entits fonctionnellement connectes lentit Employ . Conformment aux conventions de notation propres MERISE, on a donn chaque association un nom symbolique en rapport avec la liaison de gestion quelle reprsente. Les cardinalits39 figurent galement sur le graphique.

37

Numrotes de 1 5 (1FN 5FN), plus une variante restrictive de la 3FN (dite 3FN de Boyce-Codd ). Ces formes normales ont t prconises plus spcialement pour les bases de donnes relationnelles, mais leur validit est indpendante de la technologie.
38 39

A. Flory, op. cit.

Les cardinalits dune association entre deux entits A et B indiquent le nombre minimal et le nombre maximal doccurrences de B pouvant tre lies une occurrence de A, et vice-versa, le symbole n signifiant un nombre quelconque suprieur zro. Ainsi, dans la Figure 3-4, les cardinalits (1,1)-(0,n) de lassociation dirige entre Service et Employ signifient quun Service est dirig par un et un seul Employ et quun mme Employ peut ne diriger aucun Service, en diriger un ou en diriger plusieurs.

Jean-Marie Gouarn

26

Le Projet Dcisionnel

Service
Code Nom Chef
1,1 1,1

Employ
dirige
0,n

Matricule Nom Prnom Age


1,1 1,1 0,n

Vhicule
0,n

utilise Date d'attribution

0,n

Immatriculation Marque Puissance

1,n

est implant

est rattach Fonction Date entre

0,n

Lieu
Adresse Code postal Localit
0,n

habite

possde Date d'obtention

Qualification
0,n

Intitul Mention

Figure 3-4 Modle Conceptuel de Donnes en 3me Forme Normale

On peut remarquer au passage, dans ce graphe, la prsence de deux associations entre Service et Employ , indiquant quun Employ peut tre li de deux faons diffrentes un Service : il peut tre simplement rattach au Service, mais il peut aussi diriger le Service (les cardinalits prcisent que chaque Service est dirig par un seul Employ, mais que plusieurs Employs peuvent lui tre rattachs). Lexistence de ces deux associations permet de grer toutes les informations relatives au chef de chaque Service, sans avoir intgrer une copie de lentit Employ dans la structure de lentit Service . Ceci introduit dans le modle une boucle smantique, cest--dire un circuit ferm, li une alternative de cheminement dune entit une autre. On trouve dans le mme schma une autre boucle, plus large, entre Employ et Lieu : il existe en effet deux chemins smantiques (lun passant par lentit Service , lautre direct avec la relation habite ) entre ces deux entits. Les boucles sont des phnomnes extrmement frquents dans des bases de donnes oprationnelles parfaitement normalises. La normalisation par les DF produit invitablement des graphes cycliques. Il sagit l, comme on le verra, dun point sensible en cas dutilisation dcisionnelle de ces bases de donnes. La normalisation ainsi conue est lie la poursuite des objectifs suivants : Elimination des redondances de donnes, qui induisent des problmes de cohrence lors des mises jour ; Performances lexcution des mises jour transactionnelles ; Simplification des contrles dintgrit rfrentielle40. La logique des dpendances fonctionnelles a notamment pour consquence technique le groupement en un voisinage associatif de la totalit ou du moins de la plus grande partie des informations lmentaires (proprits) susceptibles dtre impliques dans le cadre dune mme transaction de production. Rappelons quune transaction est une opration ou un enchanement indissociable doprations ayant pour effet de modifier ltat dune base de donnes tout en respectant sa cohrence, conformment une rgle prdtermine. La transaction est le constituant lmentaire des applications informatiques oprationnelles. Par exemple, une transaction de virement entre deux comptes comporte une opration de dbit et une opration de crdit indissolublement lies lune lautre. Dune manire gnrale, une transaction est donc une squence ininterruptible doprations. Un Systme dInformation Oprationnel doit prcisment tre organis de manire telle que : Les transactions conformes ses rgles de gestion, et celles-l seulement, puissent tre excutes dans les meilleures conditions defficacit et de scurit ; Toute transaction commence soit, coup sr, entirement excute ou, dfaut, entirement annule. Les transactions sont gnralement excutes par des programmes dapplication, et ne sont donc normalement jamais improvises linitiative des utilisateurs. Par consquent, dans un SIO, les accs aux
40

Lintgrit rfrentielle est le respect des rgles dinterdpendance entre donnes. Par exemple, sil est convenu que tout employ est rattach un service, le contrle dintgrit rfrentielle doit garantir que dans la base de donnes, tout instant, chaque occurrence de lentit Employ est bien associe une occurrence de lentit Service .

Jean-Marie Gouarn

27

Le Projet Dcisionnel

bases de donnes sont systmatiquement rptitifs et prdtermins. Il y a donc un intrt vident ce que ces bases de donnes soient conues et organises ds le modle conceptuel dans la perspective de ces transactions. Lapproche par les dpendances fonctionnelles est minemment justifie cet gard, dans la mesure o le schma qui en rsulte reflte directement la structure oprationnelle de lentreprise. Le rle du SIO est, fondamentalement, celui dun automate de contrle. Il est chaque instant dans un certain tat. Il passe dun tat un autre par lintermdiaire dune transition (en loccurrence une transaction) qui reflte un flux rel du Systme Oprant. Chaque transition sexcute selon une procdure pr-programme conforme une rgle de gestion. Cette vocation se reflte dans le modle de donnes sousjacent, dont les entits sont des objets de gestion41 lis entre eux par des associations de gestion42. Le MCD a beau tre un modle de donnes, sa construction porte nanmoins la marque des traitements quil est destin subir. Autant il est rationnel, dun point de vue mthodologique, de modliser les donnes sparment des traitements, autant il est vrai que les donnes nont aucun sens indpendamment des traitements. Selon un point de vue gnralement admis, un modle de donnes reprsente un ensemble de concepts qui permet de construire une reprsentation organisationnelle de lentreprise 43. Compte tenu de ce que nous venons de voir, ce point de vue est et demeure valable dans les limites du Systme dInformation Oprationnel. Le Systme dInformation Dcisionnel, quant lui, est focalis non pas sur lorganisation elle-mme mais sur les processus fondamentaux et sur lenvironnement de cette organisation.

3.5 La ncessit dun Modle de Donnes Dcisionnel


Lactivit de lutilisateur dcisionnel est la recherche de mesures dtermines par des corrlations et des consolidations sur des ensembles de donnes dfinis indpendamment des modalits actuelles du fonctionnement de lentreprise. Cette activit, par dfinition, implique une vue sur les donnes fondamentalement indpendante des structures et des procdures du Systme Oprant. En cela, le Systme dInformation Dcisionnel soppose radicalement au Systme dInformation Oprationnel. A cette divergence purement fonctionnelle sen ajoute une seconde, caractre plus technique. Les performances transactionnelles et la sauvegarde de lintgrit rfrentielle sont, dans le SID, sans objet. Il ny a en effet aucune activit transactionnelle, et les seules mises jour sont excutes par les procdures dalimentation (sur lesquels nous reviendrons ultrieurement). Ds lors, on peut considrer les raisons conceptuelles et techniques qui justifient la normalisation par les dpendances fonctionnelles comme, elles aussi, sans objet dans le SID. A moins ce qui revient pratiquement au mme de ne pas donner la notion de dpendance fonctionnelle la mme dfinition dans les deux environnements. Cette divergence ne saurait tre une simple affaire de dnormalisation dun MCD qui lui, aurait initialement t normalis par les DF. Une telle dmarche ne peut que manquer lobjectif, qui est de donner la base de donnes une structure conforme au point de vue de lutilisateur et non pas une norme rpute transcendante. A cet gard, un travail pdagogique est parfois indispensable. Durant toute la dcennie 1980, en raction contre lanarchie informationnelle, une vritable croisade de la normalisation par les DF a t entreprise. Les analystes ont donc t levs dans la religion de la Troisime Forme Normale, afin dradiquer les
41

A ce sujet, il est intressant de relever que, dans la mthode AXIAL, la reprsentation graphique du MCD est appele Diagramme des Objets de Gestion (DOG) . Voir sur ce point Ph. Pellaumail, La mthode Axial, Conception dun Systme dInformation , Editions dOrganisation 1986.
42 43

Lusage merisien de dsigner par des verbes les associations traduit bien le caractre oprationnel des liaisons entre objets. A. Flory, op. cit.

Jean-Marie Gouarn

28

Le Projet Dcisionnel

cultes paens du pass. La normalisation par les DF possde en outre, juste titre dailleurs, une image de perfection intellectuelle. Il est donc facile de perdre de vue sa raison dtre et de lappliquer par principe sans tenir compte du caractre spcifique de linformation dcisionnelle. Il existe notamment une tentation permanente de concevoir les MCD du data warehouse selon une approche par les sources . Cette approche consiste examiner les donnes disponibles indpendamment de lusage auquel elles sont destines, en rechercher les dpendances fonctionnelles telles quelles sont observables dans une perspective oprationnelle, et construire un MCD sur cette base. Le rsultat est alors un modle aussi parfaitement normalis quinadapt. Pour ladapter , on doit alors sengager dans une dmarche de dnormalisation intense, de manire produire un modle logique qui permettra certaines requtes dcisionnelles connues davance de sexcuter avec des performances satisfaisantes. Or comme dans tout SID qui se respecte, la satisfaction de chaque besoin amne lexpression dun nouveau besoin, de nouvelles requtes apparaissent, ncessitant de nouvelles stratgies doptimisation, et donc de nouvelles dnormalisations. Le rsultat, terme, est un schma de base de donnes de plus en plus charg et rigide, dcevant en termes de performances, coteux en maintenance, et totalement incomprhensible pour lutilisateur. Dans le domaine du SIO, lapproche par les sources (cest--dire la normalisation par dtection des DF a priori) est acceptable. Quand les circonstances du projet ne permettent pas dassurer compltement la collecte et la consolidation des vues externes des utilisateurs, cest une solution de repli correcte. En revanche, la dfinition dun Modle de Donnes Dcisionnel doit imprativement se faire par les vues et non par les sources. Cest partir de ces vues, et en utilisant une norme sans rapport direct avec les dpendances fonctionnelles classiques, quon doit crer le MCD Dcisionnel. La premire raison de cette exigence plus stricte tient au fait que, dans un SID, le modle de donnes joue le rle principal. Dans le SIO, la structure des donnes concerne avant tout le concepteur, ladministrateur et le programmeur. Cette structure, quand le systme fonctionne, nest vue que par les programmes dapplication. Dans le SID, la structure des donnes nest masque que par une couche logicielle beaucoup plus transparente. Le modle de donnes, sil est appropri au besoin, est un outil pour lutilisateur ; sil est mal adapt, il devient un obstacle. Il est donc ncessaire de prendre en considration les diffrents lments qui distinguent le point de vue dcisionnel du point de vue oprationnel sur les donnes.

3.5.1 Dtails et consolidation


Lun des critres distinctifs les plus souvent proposs entre oprations courantes et pilotage est le niveau de dtail des informations utilises. Un SI oprationnel utilise et produit essentiellement des donnes lmentaires, cest--dire des montants ou des quantits primaires dont chacun est en rapport avec une opration du systme rel. A loppos, une information de nature dcisionnelle est gnralement labore sur des donnes secondaires, ou drives, rsultant doprations de consolidation effectues sur les donnes primaires. Toutefois, le niveau de dtail ou de synthse des donnes utilises nest pas un critre aussi absolu quon pourrait le croire. Il est vrai que lutilisateur dun SID ne sintresse pas, en gnral, des montants associs une transaction lmentaire, ou aux caractristiques lies des occurrences particulires de certaines entits. Mais les rsultats synthtiques quil demande et les corrlations quil cherche dtecter peuvent ncessiter la prsence, dans les ressources du SID, des donnes les plus lmentaires. Prenons lexemple dune recherche de corrlations dachats dans un rseau de grande distribution ou de vente par correspondance. Cette recherche implique des requtes telles que : quelle est la proportion, parmi les clients qui achtent le produit A, de ceux qui achtent le produit B en mme temps ? . Bien que de telles requtes typiquement dcisionnelles soient destines retourner des informations fortement synthtiques et loignes des oprations courantes, leur excution implique, pour le systme, la connaissance de chaque transaction (bon de commande ou ticket de caisse en loccurrence). Elles ncessitent en effet un comptage des transactions lmentaires dans lesquelles intervient le produit A et, parmi elles, de celles dans lesquelles intervient aussi le produit B.

Jean-Marie Gouarn

29

Le Projet Dcisionnel

En pratique, il est vrai que les bases de donnes dcisionnelles contiennent gnralement des donnes calcules et ne conservent pas toujours trace de chaque opration lmentaire. Ce dgraissage ne dcoule pas, toutefois, de raisons de principe ; il rsulte gnralement dun compromis entre les besoins et les cots de stockage. Le vritable critre distinctif est ailleurs. Les donnes enregistres dans un SID peuvent tre dun niveau de dtail aussi fin quon le veut, mais les informations prsentes sont des agrgats portant chaque fois sur un certain nombre de donnes lmentaires. Ces agrgats peuvent tre calculs dynamiquement, au moment o le systme reoit la requte, si les performances de la technique et la patience de lutilisateur le permettent. Ils peuvent ventuellement tre calculs et enregistrs lavance pour raccourcir les dlais dattente, condition toutefois de tenir compte de la problmatique complexe lie la gestion des agrgats, que nous abordons plus loin. Dans tous les cas, quel que soit le niveau de dtail des informations enregistres, ces informations sont destines, dans le SID, faire lobjet dune utilisation ensembliste. Dans le SIO, par comparaison, les informations lmentaires sont utilises telles quelles, de faon lmentaire, par les applications. Cette diffrence dutilisation implique dj une diffrence de mthode daccs, et donc de modle.

3.5.2 Navigation
Naviguer dans un systme dinformation quel quil soit, cest suivre un cheminement qui mne une donne partir dune autre. Ce concept de navigation est directement apparent dans les applications utilisant lhypertexte, notamment dans le World Wide Web. Quoique moins visible pour lutilisateur final, il nest pas moins important dans le monde des bases de donnes. Quand la technologie relationnelle est apparue, on la communment oppose dautres technologies de gestion de bases de donnes, qui ont alors t qualifies de navigationnelles . En ralit, les bases de donnes relationnelles et le SQL44 qui leur est associ prsentent lavantage de masquer aux utilisateurs et aux programmes dapplication la complexit des algorithmes de navigation, mais elles sont cependant tout aussi navigationnelles que les autres. La navigation relationnelle est smantique et dclarative. Elle met la disposition de lutilisateur un langage permettant de dcrire les chemins daccs de manire indpendante de la position des donnes dans les fichiers et de la structure technique de ces fichiers. Lutilisation dun SGBD relationnel dispense donc de dcrire physiquement les chemins. Mais il ne dispense pas de les indiquer, et nlimine pas les problmes de performances lis la navigation. On peut illustrer ce propos laide du schma de la Figure 3-5, qui reprsente un MCD normalis45 de structure assez classique pour une application dadministration des ventes.

44

Structured Query Language, langage de commande et dinterrogation, originaire dIBM. Bien que le SQL soit probablement le plus limit et le plus grossier des langages invents pour la gestion des bases de donnes relationnelles, il a le double mrite dexister et dtre une norme.
45

Pour allger lcriture, on na pas nomm les associations et on a omis les proprits. En outre, pour ce type dapplication, un modle raliste aurait comport des entits plus nombreuses.

Jean-Marie Gouarn

30

Le Projet Dcisionnel

Catgorie
1,n 1,1

Gamme
1,n 1,1

Produit

0,n

0,n

0,n

Client

0,n 1,1

Livraison
0,n 1,n 1,1 0,n

0,n 0,n 0,n

Usine
1,n 0,n

1,1

Entrept
1,1

Facture
1,1

1,1

0,n

Contrat
0,n 1,1 1,1

0,1

1,1

0,n

Type contrat
0,n 0,n 0,n 0,n 0,n

Vendeur
1,1 0,n

Agence
1,1 0,n

Site

Figure 3-5 MCD "Administration des ventes"

Ce modle prsente une structure de donnes adapte un certain nombre doprations courantes allant de la prise de commande la facturation, dont lorientation oprationnelle est vidente. Lentit Contrat , par exemple, est directement connecte aux entits impliques dans la cration et le suivi de chaque contrat (Client, Vendeur, Agence, Produit, etc.). Imaginons maintenant quun stratge , dans le cadre dune dmarche doptimisation logistique, souhaite connatre le volume des ventes dune certaine catgorie de produits ralises auprs des clients dune certaine rgion et pour lesquelles les livraisons auraient t effectues partir des entrepts dun certain site gographique. Supposons, pour simplifier, que toutes les donnes sont dans le modle et quil nest pas ncessaire daller interroger dautres bases de donnes (par rapport la plupart des situations relles, cest dj une chance inoue !). La structure de ce modle est telle que, quelle que soit la simplicit syntaxique du langage dinterrogation, la question est en ralit trs difficile formuler. Linformation demande ne peut en effet tre construite quen associant de nombreuses entits selon des conditions prciser lien par lien. De plus, les boucles smantiques prsentes dans le modle sont autant de piges dans la dfinition de la question. Pourtant, celle-ci nest pas intrinsquement complique. Dans la pratique, une application de gestion moyenne comporte de quelques dizaines quelques centaines dentits, et les requtes dcisionnelles comme celle-ci peuvent impliquer des parcours beaucoup plus longs et tortueux. Il en rsulte un certain nombre dobstacles pour ce type dutilisation : Les chemins de navigation sont complexes et ne peuvent donc pas tre exploits directement par un utilisateur final. Le caractre fortement cyclique du modle cre des risques dambigut de cheminement. La formulation des requtes ncessite des dveloppements techniques appropris, comportant ncessairement des cots et des dlais ; Compte tenu du nombre de fichiers ou de tables impliqus dans chaque requte, les performances lexcution sont douteuses, voire catastrophiques. Les SGBD relationnels, en particulier, supportent trs mal les jointures sur plus dune demi-douzaine de tables 46. Or, une requte dcisionnelle de complexit moyenne portant sur un modle de donnes en 3FN peut couramment mobiliser de 10 25 tables, voire plus. Il est donc souvent ncessaire de dcomposer chaque requte en une squence de requtes plus
46

La probabilit dincident bloquant (absence de rponse une requte, ou mme arrt anormal du systme) devient leve partir dune dizaine de tables dans une mme jointure. De plus, certains SGBD imposent une limite absolue au nombre de tables invoques dans une requte.

Jean-Marie Gouarn

31

Le Projet Dcisionnel

simples, ce qui augmente les efforts de dveloppement spcifiques et rduit encore la souplesse du systme. On voit donc comment un modle de donnes conu pour rduire les cots de dveloppement et amliorer les performances des applications oprationnelles produit des effets opposs si on cherche lappliquer tel quel dans la sphre dcisionnelle.

3.5.3 Reprsentation du temps


Les donnes dun Systme dInformation Oprationnel sont mmorises et organises de manire dcrire son tat prsent, qui est le reflet symbolique de ltat prsent du Systme Oprant dont il a le contrle. Tant quil fonctionne, le SIO passe dun tat un autre travers des transitions prvues dans son modle de traitements, et chacun des tats successifs remplace et annule ltat prcdent. Il na pas pour vocation de conserver la mmoire de ses tats antrieurs. Cette vocation, sil lavait, aurait rapidement des consquences explosives sur les volumes de donnes enregistrs. Le temps nest donc pas intgr explicitement dans sa structure de donnes. Les donnes sont rputes dcrire ltat du Systme Oprant linstant prsent. On parle alors de temps implicite. La dynamique dun SIO est inscrite dans son modle de traitements, et non dans ses donnes. Bien entendu, le temps apparat dans le contenu des donnes elles-mmes, sous forme de dates47. Mais dans un contexte purement oprationnel, une date a pour rle essentiel de caractriser lvnement ou la transition qui, partir dun tat antrieur, a fait passer une structure de donnes dans son tat actuel. Il en est ainsi, par exemple, de la date du dernier mouvement, concernant un compte courant, ou de la date daffectation, concernant lassociation entre un employ et le service auquel il appartient. Les dates correspondant aux tats et aux transitions antrieurs ne sont pas pertinentes dans une telle perspective. A loppos, un Systme dInformation Dcisionnel est entirement articul autour dune mmoire dentreprise. Ltat du Systme Oprant la seconde prsente nest pour lui quun tat parmi dautres. La dynamique de lorganisation, dans le SID, apparat dans les donnes et non dans les traitements. Limpact de cette diffrence affecte non seulement le contenu, mais surtout la structure des bases de donnes. Le data warehouse nest pas une simple plate-forme darchivage destine conserver des images dtats antrieurs successifs du SIO, et ceci pour deux raisons au moins : Les diffrentes applications qui composent le SIO ne sont pas synchrones. Les interfaces par lesquelles deux applications lies communiquent entre elles ne fonctionnent pas en temps rel. Par consquent, lorsque les donnes dune application font lobjet dune modification ayant un impact sur des donnes dune autre application, les mises jour correspondantes ne se font quavec un certain dcalage dans le temps. Ainsi, lorsquun particulier, disposant de 1.000 francs sur un compte courant, opre un retrait de 1.000 francs un guichet automatique, il scoule normalement un dlai de quelques heures pendant lequel un clich informationnel brut de la situation donnerait croire que ce particulier possde 2.000 francs. De mme, une prise de vue instantane sur les donnes financires et comptables dune grande entreprise aurait toutes chances de suggrer des balances fausses ; Les images successives des donnes du SIO seraient inexploitables, compte tenu de lincohrence smantique et structurelle des modles de donnes des diffrentes applications. Indpendamment des problmes lis lincohrence des donnes oprationnelles, la prise en charge du temps, au-del des donnes elles-mmes, affecte profondment les modles de donnes, en bouleversant le rseau des dpendances fonctionnelles. Prenons lexemple classique de lidentification des vhicules soumis immatriculation. Quand on veut identifier un vhicule, lutilisation du numro dimmatriculation semble simposer sans hsitation possible. Toutes les autres caractristiques du vhicule (marque, modle, couleur, etc.) semblent donc tre en dpendance fonctionnelle de ce numro. Mais ce numro, au cours de lhistoire du vhicule, peut changer.

47

La notion de date est prendre ici avec une prcision aussi fine quon veut (jour, heure, minute, seconde, ...).

Jean-Marie Gouarn

32

Le Projet Dcisionnel

Vhicule
Marque Modle Puissance ... 1,n

Priode Immatriculation
Numro 0,n Dbut Fin ...

Figure 3-6 Reprsentation priodique des numros d'immatriculation d'un vhicule

Si le propritaire change de dpartement, le numro dimmatriculation change. Par dfinition, deux identifiants distincts ne peuvent pas identifier le mme objet ; or nous avons deux numros dimmatriculation et pourtant un seul vhicule. Cette situation nest possible que parce que le numro dimmatriculation nest identifiant que dans un modle de donnes statique : un instant donn, deux numros dsignent bien deux vhicules. Dans un modle de donnes dynamique (ou historique), le numro dimmatriculation, non seulement nest pas un identifiant, mais ne peut mme pas appartenir une entit Vhicule normalise. En effet, un vhicule pouvant recevoir plusieurs numros successifs, lentit aurait une structure variable si elle devait contenir cette proprit. La proprit numro dimmatriculation appartient donc ncessairement une association entre lentit Vhicule et une autre entit quon pourrait nommer Priode (Figure 3-6). Citons comme autre exemple, pour une entreprise cote, la capitalisation boursire. Ce montant peut, dans un modle statique de donnes, tre considr comme une caractristique de lentit Entreprise . Dans un modle historique, la reprsentation de la capitalisation boursire diffrentes priodes ne peut tre reprsente quau moyen dune association entre Entreprise et, l encore, une entit Priode . En gnralisant ces exemples, on comprend rapidement que, en dfinitive, aucune des informations quil peut tre intressant de tirer dun entrept de donnes ne peut se dfinir sans avoir recours une association smantique, en rapport avec le temps, et qui naurait pas de sens dans un environnement purement oprationnel. Lintgration du temps sous forme dentits spcialises, et non pas sous forme de dates distribues comme des proprits ordinaires dans diverses entits, affecte de manire fondamentale la structure des modles de donnes. Dans un modle oprationnel, le rseau des dpendances fonctionnelles est fond en grande partie sur une rfrence implicite linstant prsent (ce qui permet de considrer le numro dimmatriculation comme une proprit du vhicule). Dans un modle dcisionnel, linstant auquel on se rfre doit tre dsign explicitement, le prsent ntant quun instant parmi dautres, ce qui a pour effet de sortir des entits toutes les caractristiques sujettes des variations dans le temps. Est-ce dire que le MCD dun data warehouse se caractrise ncessairement par la prsence dentits priodiques ? Pas exactement. Une histoire nest pas forcment reprsente comme une succession de priodes. La succession des oprations ponctuelles ayant provoqu des dbits ou des crdits sur un compte courant est une reprsentation de lhistoire de ce compte. Chaque opration ponctuelle comporte une date, ce qui dtermine bien une chronologie, sans pour autant que cette chronologie soit priodique. Comme on la dj dit, le SIO peut tre vu comme un automate. Par consquent, son histoire peut aussi bien tre prsente comme une succession de transitions que comme une succession de priodes. Chaque transition est un vnement pouvant affecter une ou plusieurs variables et vhiculer un ou plusieurs flux. Lobservateur peut aussi bien focaliser son analyse sur les transitions significatives que sur des intervalles de temps. On peut donc conclure que, dans un modle de donnes dcisionnel, les mesures significatives se dfinissent toujours en relation avec des priodes ou avec des vnements. Ces objets particuliers, priodiques ou vnementiels, ne sont certes pas totalement absents des modles de donnes associs des applications de production48. Mais ils ne constituent pas des lments de structure fondamentaux pour ces modles. Pour des raisons lies au contrle interne, la lgislation ou des obligations contractuelles, la plupart des applications de gestion produisent des historiques dtats
48

Lentit Date est mme assez frquente dans les MCD oprationnels.

Jean-Marie Gouarn

33

Le Projet Dcisionnel

priodiques et de transactions. Mais ce sont des donnes produites et non utilises. Pour un SIO, dune manire gnrale, les sries chronologiques ne sont que des sous-produits du fonctionnement. Pour un SID, elles constituent la matire premire.

3.5.4 Documentation des donnes


Tout systme dinformation utilise non seulement des donnes, mais aussi des donnes sur les donnes. Ces dernires, dsignes par le terme gnrique de mta-donnes, ont deux rles distincts : La dfinition smantique des donnes dans des termes appropris la vision conceptuelle quen a lutilisateur ; La description des structures techniques dans lesquelles elles sont enregistres et des chemins qui permettent dy accder. Il existe donc au moins deux sortes de mta-donnes : celles qui dcrivent la signification informationnelle des donnes, et celles qui dcrivent les modalits physiques de stockage et les chemins daccs. Les premires sappliquent plutt aux Modles Conceptuels de Donnes, les secondes aux Modles Logiques et Physiques. Dans limmense majorit des applications informatiques de gestion, les mta-donnes conceptuelles (ou informationnelles) sont rares, absentes ou, ce qui est pire, errones. Ceci dcoule tout naturellement de lapproche par les fonctions qui caractrise la manire dont le SIO est conu dans la pratique. Lobjectif contractuel des informaticiens est en effet, dans ce contexte, de raliser et de faire fonctionner des programmes. Malgr linfluence des mthodes de conception qui mettent laccent sur limportance du MCD, et malgr le caractre inavouable de cette pratique, on dveloppe des modles de donnes destins avant tout permettre aux programmes de fonctionner. Et comme, en dfinitive, lutilisateur ne dialogue quavec des programmes, le modle de donnes nest pas son souci immdiat. Les dfaillances conceptuelles affectant les donnes se traduisent bien sr par des cots de maintenance qui font frmir ; mais ces cots napparaissent qu terme, et ne peuvent donc pas tre pris en compte par des quipes de dveloppement qui, dans ltat actuel des choses, sont focalises sur la technique et sur la rponse des pressions court terme. Dans le monde des SIO, par consquent, seules les mta-donnes relatives limplmentation physique sont compltes et prcises, parce quelles seules sont imposes par la technique. Les mta-donnes de cette catgorie revtent des formes extrmement varies et htrognes. Ce sont notamment : des descriptions de formats denregistrement dans le code des programmes dapplication ; des descriptions de structures de fichiers dans les registres de contrle des systmes dexploitation ; des catalogues produits et utiliss par les systmes de gestion de bases de donnes (SGBD), ainsi que des scripts49 ayant servi crer les modles physiques. La Figure 3-7 donne un aperu de la forme que peuvent prendre de telles mta-donnes , respectivement codes en C et en SQL, et correspondant la vue conceptuelle Employ-Vhicule de la Figure 3-3. Ces informations caractre trs technique sont consignes dans des langages parfaitement sotriques pour un utilisateur final. De plus, elles ne contiennent aucune indication sur la signification informationnelle des donnes. Et, bien entendu, il ny a aucune cohrence entre deux applications pour ce qui concerne les dfinitions de structures de donnes.

49

Un script est un enchanement pr-enregistr de commandes de plus haut niveau que de simples instructions de programme, destines tre interprtes et excutes par un dispositif logiciel labor, tel quun systme dexploitation, un progiciel ou un systme de gestion de bases de donnes (on utilise gnralement des scripts en SQL pour crer des structures de donnes dans un SGBD relationnel).

Jean-Marie Gouarn

34

Le Projet Dcisionnel

typedef struct sVehicule { unsigned VeId ; char szImmat[11] ; byte bPuissance } ; typedef struct sEmploye { unsigned EmpId ; float Salaire } ; typedef struct sEmpVeh { unsigned VeId, EmpId ; time_t DateAffect } ;

CREATE TABLE T_VEH001 ( VE_ID INTEGER NOT NULL, VE_IMMAT VARCHAR(10)NOT NULL, VE_PUISS SMALLINT ) ; CREATE TABLE T_EMP001 ( EM_ID INTEGER NOT NULL, EM_SALR FLOAT(8) ) ; CREATE TABLE T_EMVE01 ( VE_ID INTEGER NOT NULL, EM_ID INTEGER NOT NULL, EMVEDATE DATE ) ;

Figure 3-7 Exemple de "mta-donnes" en langage C et en SQL

Avec laide de certains outils de gnie logiciel du march, on peut dans certains cas effectuer une rtroconception de manire reconstituer des modles logiques partir des modles physiques de donnes, et obtenir ainsi des mta-donnes sous une forme plus lisible. Mais de telles dmarches de reverse engineering ne sauraient restituer le sens des donnes. Dans un environnement dcisionnel, lutilisateur a presque directement affaire au modle de donnes. Pour exploiter ce modle, il lui faut une carte, une boussole, une signalisation au sol et un manuel de navigation. En dautres termes, il lui faut une documentation informationnelle complte sur les donnes. Cette documentation, quelle que soit la forme matrielle quelle prendra, ne peut pas tre labore endehors dune dmarche de modlisation conceptuelle.

Jean-Marie Gouarn

35

Le Projet Dcisionnel

4. Dfinition des Modles de Donnes Dcisionnels

Un modle de donnes sapplique gnralement une application ou un ensemble dapplications dont le primtre et la dfinition sont arrts en amont du projet. Ceci est valable pour toute application informatique. Mais ce principe dapplique dune manire particulire dans les projets dcisionnels. Consommateur de donnes et producteur dinformations, un SID est ncessairement un dispositif double face puisque : il combine des donnes dorigines diverses, gnralement oprationnelles ; il met des donnes disposition selon des objectifs informationnels. Par rapport aux sources de donnes qui lalimentent, le data warehouse est sous-tendu par un modle fdrateur ou intgrateur. Mais ce modle nest pas directement reprsentatif des points de vue informationnels ventuellement multiples et changeants des utilisateurs du SID. Or le SID ne vaut que pour les restitutions informationnelles quil offre. Le vritable modle de donnes dcisionnel est donc celui qui reflte la mise disposition ou encore la diffusion des donnes, et non leur concentration. Cette mise disposition se conoit par domaines, sachant que le primtre dun domaine dcisionnel ne concide pas avec les frontires dune application de production. Un domaine applicatif concerne un utilisateur ou un ensemble cohrent dutilisateurs, et implique un vocabulaire commun et une manire commune dapprhender linformation. Cest en quelque sorte lunivers du discours. Quelles que soient les modalits de conduite de projet et les ventuels raccourcis qui seront pris certaines tapes, le Modle Conceptuel des Donnes (MCD) du domaine dapplication est un passage oblig. Les modles drivs du MCD (MLD et MPD) sont ensuite labors en liaison troite avec la technique, selon une dmarche fortement tributaire des produits. Quant au MCD lui-mme, rappelons que sa structure ne dpend que de la smantique des donnes et de la vue quen ont les utilisateurs. Lanalyste doit par consquent rsister deux sortes dinfluences pernicieuses qui psent, divers degrs, sur tous les projets : les structures oprationnelles dans lesquelles le SID puise ses donnes ; les modalits de fonctionnement des outils de gestion et de prsentation. Les seules bases sur lesquelles il convient de sappuyer pour spcifier les objectifs du SID sont les vues externes des utilisateurs. Ces vues doivent donc tre collectes et intgres dans le modle.

Jean-Marie Gouarn

36

Le Projet Dcisionnel

Un SID comporte donc en ralit au moins deux Modles Conceptuels de Donnes (cf. section 6.3). Lun des deux reprsente lintgration des sources oprationnelles partir desquelles salimente le systme. Il se conoit et se normalise selon une dmarche traditionnelle de gnie logiciel 50, qui na pas lieu dtre dveloppe ici. Lautre, celui que nous examinons dans ce chapitre, correspond la structure informationnelle destine supporter les requtes des utilisateurs. Cest le MCD de diffusion. Cest ce dernier qui reprsente la structure selon laquelle linformation doit tre mise disposition ; il constitue la spcification fonctionnelle du SID. La collecte des vues est une affaire de conduite de projet, dont nous nignorons pas la difficult pratique. La qualit de cette collecte auprs des utilisateurs est cependant un facteur critique de succs, et on ne peut pas en faire lconomie sans prendre un gros risque. De point de vue de la modlisation proprement dite, lintgration des vues nest pas une simple opration de juxtaposition. Elle passe par une normalisation. Les normes dintgration du MCD, dans un domaine dcisionnel, reposent sur les principes fondamentaux suivants : Compte tenu de la nature consultative et non transactionnelle des applications, la structure des vues externes se dduit directement des requtes des utilisateurs, et non des connexions oprationnelles possibles entre les entits ; A lintrieur dun domaine, il existe un ou plusieurs sous-ensembles de vues lies entre elles par certains critres de cohrence smantique et structurelle. Cest sur lidentification et la validation formelle de ces sous-ensembles, appels contextes, que repose toute la dmarche de construction du MCD ; Une requte dcisionnelle a pour objet dtablir un rapprochement non programm entre des entits conceptuelles plus ou moins nombreuses. De ce fait, les rsultats attendus sont systmatiquement dtermins par des associations51. La structure des vues reflte celle des associations possibles. Chaque vue a pour lment central une association autour de laquelle gravitent deux ou plusieurs entits, et correspond une reprsentation des informations sous forme de tableau deux ou plusieurs dimensions ; La liste exhaustive des requtes possibles nest jamais fige. Celle des vues qui en dcoulent ne lest donc pas non plus. La normalisation du MCD doit permettre danticiper et dintgrer automatiquement dans chaque contexte le plus grand nombre possible de vues probables daprs la structure des vues connues ; Entre deux entits intervenant dans une mme vue, il doit exister un et un seul chemin de navigation smantique, et ce chemin doit tre le plus court possible. La porte pratique de ces principes mrite dtre examine en dtail, exemples lappui.

4.1 Vues, Faits et Dimensions


Quels ont t les frais de dplacement et le kilomtrage des commerciaux de la rgion Rhne-Alpes ayant des vhicules de 12 14 CV en juillet 1996 ? Cette question correspond ce quil est convenu de nommer une requte dans lunivers des bases de donnes. En loccurrence, nous avons affaire une requte caractre nettement dcisionnel : linformation attendue est dtermine par le rapprochement de plusieurs entits conceptuelles entre lesquelles il nexiste pas de liens oprationnels. Isole de son contexte, une telle requte ne nous indique pas le sens et la composition de chacune des entits invoques. Nous ne savons pas, par exemple, si les commerciaux sont des occurrences dune entit
50

Sur cette dmarche, nous renvoyons aux ouvrages classiques traitant de la modlisation des donnes dans les SI oprationnels (voir notamment les notes 34 et 35 page 23).
51

Au sens du modle entit-association qui a t prsent au 3.3.2.

Jean-Marie Gouarn

37

Le Projet Dcisionnel

Commercial , ou si commercial est lune des valeurs possibles dune proprit appartenant une entit plus gnrale, telle que Employ . Si notre interlocuteur avait dit les employs ayant des fonctions commerciales , nous pourrions en dduire lexistence dune entit Employ , mais nous ne serions pas encore fixs, car cette seconde formulation introduit son tour un doute : la fonction est-elle une proprit de l Employ ou une entit associe ? De mme, la rgion pourrait tre soit une proprit de l Employ , soit une entit distincte. La connaissance gnrale du domaine, cest--dire des entits fondamentales du mtier de lutilisateur, est donc ncessaire pour une analyse correcte des requtes. Cette connaissance sacquiert ou senrichit notamment en proposant et en validant auprs des utilisateurs des formulations diffrentes des mmes requtes, et en oprant des recoupements entre requtes. Sous rserve de ces quelques remarques, on admettra que la question pose ci-dessus associe les quatre entits suivantes : Employ , Vhicule , Rgion , Mois . Les rsultats demands sont frais de dplacement et kilomtrage . Cependant, les quatre entits dont lassociation dtermine le rsultat ne sont pas toutes invoques de la mme manire. Dans notre exemple, Rgion et Mois sont indiques chacune par sa proprit identifiante : il ny a quun seul mois de juillet 1996, et une seule rgion Rhne-Alpes. En revanche, Employ et Vhicule sont slectionns sur des proprits descriptives, respectivement la fonction et la puissance . La structure de la requte, ainsi analyse, dtermine ce que nous appelons une vue, et qui peut se noter de la manire suivante :
frais de dplacement, kilomtrage par Employ (fonction) par Vhicule (puissance) par Rgion par Mois

ou encore
frais de dplacement, kilomtrage / Employ (fonction) / Vhicule (puissance) / Rgion / Mois

Employ
Fonction

Vhicule
Puissance

0,n

Faits
Frais de dplacement Kilomtrage

0,n

Rgion
0,n 0,n

Mois

Figure 4-1 Vue Frais/Employ/Vhicule/Rgion/Mois

La Figure 4-1 est la reprsentation graphique de cette vue, dans le formalisme entit-association que nous connaissons. On remarque immdiatement la configuration en toile de ce schma, qui comporte une association unique et quatre entits.

Jean-Marie Gouarn

38

Le Projet Dcisionnel

Les cardinalits (0,n) qui qualifient chacun des liens ont ici une valeur par dfaut, qui peut ventuellement tre corrige par lanalyse. Ici, on admet par exemple quun mme Vhicule peut tre associ aucune, une ou plusieurs combinaisons Employ-Mois-Rgion , quune mme Rgion peut tre associe aucune, une ou plusieurs combinaisons Employ-Mois-Vhicule , etc. Dans la pratique, les cardinalits qui caractrisent les vues dcisionnelles sont gnralement (0,n) et parfois (1,n). Un lien quantifi (0,n) signifie que lassociation nest pas dfinie pour toutes les occurrences de lentit. Par exemple, si le lien de lentit Employ est marqu (0,n) comme cest le cas ici, cela traduit le fait que la notion de frais de dplacement par Rgion/Mois/Vhicule na pas de valeur dfinie pour chaque employ (parce que certains employs ne se dplacent pas, ou parce quils nont pas de vhicule, ou pour toute autre raison). Cela dit, la question des (0,n) et des (1,n) ne mrite pas quon y consacre trop de temps et dnergie dans les projets, sachant que son impact pratique est insignifiant, voire nul. Les proprits centrales, dont la valeur est dtermine par la combinaison des quatre entits, sont des faits, et toutes les autres proprits sont des conditions. Dune manire gnrale, un fait, une mesure, ou encore un indicateur, est une information dtermine par la combinaison de deux ou plusieurs entits, susceptible de constituer le rsultat ou un lment du rsultat dune requte ; une condition est une caractristique dentit susceptible dintervenir comme critre de dfinition dune requte. Structurellement, une vue52 comporte donc toujours une association et deux ou plusieurs entits. Tous les faits sont des proprits de lassociation, et toutes les conditions sont des proprits des entits. Une requte implique ncessairement une vue. Mais plusieurs requtes peuvent sappliquer la mme vue. Les requtes portant sur une mme vue se diversifient non seulement par les valeurs possibles attribues aux variables conditionnelles, mais aussi et surtout par linformation demande en retour. Dans notre exemple de requte, lutilisateur ne demande que les faits eux-mmes, savoir les frais de dplacement . Encore peut-il les demander sous la forme dun simple cumul, ou sintresser plutt au dtail pour chaque commercial. Toutes ces variantes affectent naturellement le contenu et la prsentation des tats de sortie, et peut-tre les performances du systme, mais elles sappliquent au mme schma conceptuel. On peut noter cependant que la vue de la Figure 4-1 nautoriserait pas, en ltat, une requte qui demanderait, en regard des frais de dplacement, le nom et le matricule de chaque employ. Or, si des requtes de ce type apparaissent dans lanalyse, il faut les satisfaire. Do la rgle suivante : Si une proprit dentit non expressment spcifie comme critre de slection dans une requte apparat dans la liste des rsultats demands, il faut lintgrer la vue comme sil sagissait dune condition. Ainsi, si nous reformulons notre exemple de la manire suivante : Je veux la liste des noms des commerciaux de la rgion Rhne-Alpes ayant des vhicules de 12 14 CV avec, pour chacun, les frais de dplacement, le kilomtrage et la marque du vhicule, pour juillet 1996. la vue approprie devient :
frais de dplacement, kilomtrage / Employ (nom, fonction) / Vhicule (marque, puissance) / Rgion / Mois

Cette variante nous amne enrichir le schma de la vue (voir Figure 4-2).

52

La notion de vue a ici un sens plus restrictif et plus spcialis que dans les mthodes de conception orientes vers les Systmes dInformation Oprationnels. Par ailleurs, cette notion na rien voir avec le mot vue qui apparat, avec un sens technique particulier, dans le langage des bases de donnes relationnelles.

Jean-Marie Gouarn

39

Le Projet Dcisionnel

Employ
Nom Fonction

Vhicule
Marque Puissance

0,n

Faits
Frais de dplacement Kilomtrage

0,n

Rgion
0,n 0,n

Mois

Figure 4-2 Variante enrichie de la Figure 4-1

Dans cet exemple, on a intgr dans le modle en tant que conditions, et non en tant que faits, des informations qui, pourtant, apparaissent dans la requte comme des rsultats demands et non comme des critres de slection. Ce choix nest ni arbitraire ni intuitif. Ce nest pas parce quune information est demande en rponse une requte quelle constitue un fait. Comme on la dit, un fait nest pas seulement un lment de rsultat ; cest un lment de rsultat dtermin par une association. Une information qui caractrise en propre une entit indpendamment de toute association ne peut tre quune proprit de cette entit. Par consquent, parmi les informations demandes en sortie dune requte, certaines sont des faits, et dautres peuvent tre des proprits descriptives dentits. Ces dernires peuvent tre catalogues demble comme des conditions, car toute proprit descriptive appartenant en propre une entit et intressant lutilisateur dcisionnel est un critre de slection potentiel. Lutilisation dune base de donnes dcisionnelle, si elle est effective, ne se limite jamais aux requtes prvues lors de la phase initiale danalyse. Or, les caractristiques descriptives dentits dabord cites comme lments de rsultats sont prcisment les plus susceptibles dintervenir, dans des requtes ultrieures, comme critres de slection. La base de donnes dcisionnelle tant prcisment un instrument destin favoriser les comportements exploratoires non programms, rien ne doit, dans le modle de donnes qui la reprsente, suggrer une diffrence de nature, au sein des entits, entre proprits descriptives et proprits de filtrage. Toute proprit attache une entit doit donc tre indiffremment utilisable comme critre de slection ou comme lment de rsultat. De mme que des conditions peuvent apparatre dans les rsultats dune requte, de mme les requtes peuvent comporter des restrictions de prsentation sur des faits. La requte ci-dessus pourrait par exemple restreindre les rsultats aux 10 commerciaux ayant parcouru le plus grand nombre de kilomtres, cest-dire comporter un filtre sur le fait kilomtrage . Les filtres sur les faits, toutefois, nont aucune incidence sur la structure des donnes, ni mme dailleurs sur les cadres de prsentation externe des rsultats. Il existe enfin des faits dun type particulier, quon peut qualifier dimplicites en ce sens quils napparaissent pas expressment comme des proprits nommes dans les vues. Ces faits sont des lments de rsultat pour les requtes comportant des comptages. Par exemple, une question telle que : Combien de commerciaux de la rgion Rhne-Alpes se sont-ils dplacs avec des vhicules de 12 14 CV en juillet 1996 ? ne fait pas appel une proprit de lassociation entre les quatre entits, mais demande un comptage des occurrences demploys ayant la fonction de commercial et pour lesquels lassociation avec les trois autres entits existe dans les conditions dfinies. On pourrait reformuler la question ainsi : Pour combien de commerciaux de la rgion Rhne-Alpes existe-t-il un kilomtrage et/ou des frais de dplacement non nuls avec des vhicules de 12 14 CV en juillet 1996 ?

Jean-Marie Gouarn

40

Le Projet Dcisionnel

Un utilisateur ordinaire ne sexprime pratiquement jamais de cette manire, mais cette reformulation suggre bien lide que le fait demand est une proprit binaire implicite (un ou zro, vrai ou faux, prsent ou absent) dont le contenu ne fait que reflter lexistence ou linexistence dun lien pour chaque occurrence. Pour se donner une ide intuitive des notions de faits et de conditions, il suffit dimaginer la configuration des tats de sortie correspondant aux requtes. Les conditions ont naturellement tendance y apparatre comme libells des lignes et des colonnes dun tableau, alors que les faits remplissent plutt les cellules internes du tableau. La reprsentation tabulaire des requtes nest pas seulement thorique. Elle correspond prcisment lune des formes sous lesquelles les utilisateurs envisagent et utilisent linformation53. Une vue correspond en fait une matrice dont chaque dimension est dcrite par une entit et dont le contenu est dcrit par lassociation de ces entits. Les combinaisons de conditions sont les coordonnes qui dterminent des valeurs de faits, comme une combinaison de valeurs numriques peut dterminer la position dun point dans lespace. Lun des aspects les plus intressants de la modlisation des vues en toile est son aptitude dcrire sous une forme simple une matrice virtuelle comportant un nombre quelconque de dimensions. La Figure 4-3 est une mtaphore de ce que pourrait tre une prsentation tabulaire des donnes de notre exemple quadridimensionnel, avec seulement deux rgions, quatre employs, trois vhicules et trois mois. Les graphismes de ce type peuvent tre utiliss comme exemples de restitution dtats, mais certainement pas comme des documents de modlisation de donnes. En outre, la prsentation tabulaire, dj assez laborieuse partir de trois dimensions, oblige recourir, partir de la quatrime dimension, des artifices trs lourds (tels que des tableaux de cubes).

Employ

Vhicule

Employ

Vhicule

Mois

Mois

Rgion 1

Rgion 2

Figure 4-3 Edition quadri-dimensionnelle

Lanalyse de faits identifis (explicitement ou non) par des dimensions est prcisment la forme dutilisation la plus gnrale du data warehouse, mme si ce nest pas la seule. Lapproche dimensionnelle est le cadre danalyse le plus gnral des MCD dcisionnels.

4.2 Intgration des vues


Lobjectif du SID tant doffrir une structure informationnelle intgre, et non de prparer lexcution dun jeu prdfini de requtes, les diverses vues du domaine danalyse doivent tre combines dans le Modle Conceptuel de Donnes, selon des principes dassemblage rpondant deux objectifs : ne jamais introduire de chemin smantique complexe ou ambigu ; rester capable dintgrer une nouvelle vue ou de modifier une vue existante sans remise en question de la structure gnrale du modle.
53

Parmi ces utilisateurs, on remarque que beaucoup ont dj lhabitude des tableurs.

Jean-Marie Gouarn

41

Le Projet Dcisionnel

4.2.1 Notion de contexte


La consolidation directe de toutes les vues dans le MCD produirait invitablement une structure trop peu volutive : lintroduction de chaque nouvelle vue aurait un impact sur lensemble du modle, dont la complexit augmenterait dans le temps, avec des consquences dfavorables tant sur les cots de maintenance que sur la navigation. Ceci justifie lintroduction dun niveau intermdiaire de modlisation, entre la vue et le domaine, appel contexte. La notion de contexte na pas de dfinition communment admise dans la terminologie des systmes dinformation. Dans la perspective dun MCD dcisionnel, un contexte est un ensemble de faits et de dimensions assembls selon des critres smantiques formels de cohrence. Un contexte est, comme une vue, caractris par une association unique, groupant tous les faits relevs dans les vues. Mais les entits qui gravitent autour ne sont pas ncessairement toutes sur le mme plan, sachant que certaines dentre elles peuvent tre lies par des dpendances fonctionnelles de type hirarchique. Avant de dfinir plus prcisment ce concept, prenons un exemple classique dassemblage de vues. Soient les quatre vues reprsentes par la Figure 4-4 :
(1)marge (2)revenu (3)ventes (4)revenu / / / / Client Pays Canal Marque / / / / Rgion Mois Gamme Canal / / / / Produit / Jour Marque Trimestre Mois

Client

Rgion

Pays
Vue 2

Marque

Produit

Vue 1 marge

revenu

Jour

Mois

Canal
Vue 3 ventes

Gamme

Mois

Marque
Vue 4 revenu

Canal

Trimestre

Figure 4-4 Quatre vues indpendantes

En oprant un recoupement superficiel entre ces vues, on dtecte deux sortes dlments de rapprochement : Certaines informations entits ou faits se retrouvent dans plusieurs vues ; Certaines entits, appartenant des vues diffrentes, sont fonctionnellement lies les unes aux autres.

Jean-Marie Gouarn

42

Le Projet Dcisionnel

Nous verrons plus loin quelles sont les rgles de compatibilit qui permettent de dcider dans quelle mesure plusieurs vues peuvent appartenir au mme contexte. Considrons pour linstant ces quatre vues comme intgrables. Le contexte correspondant leur intgration comporte une association porteuse des faits :
marge, revenu, ventes

Il comporte galement dix entits distinctes.

4.2.2 Hirarchies
Parmi les entits de notre exemple, certaines sont rattaches dautres par des liens dappartenance ou de groupement hirarchique. Certains de ces chemins sont a priori vidents (Jour, Mois, Trimestre), dautres doivent tre reprs par une analyse prcise du vocabulaire des utilisateurs. On admet ici que, aprs cette analyse, on a identifi les trois hirarchies symbolises dans la Figure 4-5.
...
Jour Mois Trimestre

Temps

...

Produit

Gamme

Marque

Produit

...

Rgion

Pays

Territoire

Figure 4-5 Exemples de hirarchies

Les hirarchies sont des lments fondamentaux de la structure dun contexte. Elles reprsentent, pour lutilisateur, des chemins de consolidation dindicateurs. Dans une simple vue, chaque entit correspond une dimension de la matrice des rsultats. Mais dans un contexte, le nombre de dimensions peut tre infrieur au nombre dentits de toutes les vues intgres, parce que plusieurs entits distinctes, provenant de vues distinctes, peuvent correspondre des niveaux de dtail diffrents dans une mme dimension. Lidentification conceptuelle des hirarchies nest pas toujours aussi vidente que dans les exemples de la Figure 4-5. Toutes les consolidations rencontres au hasard des requtes ne correspondent pas des chemins et des niveaux hirarchiques structurels. Dans une hirarchie formelle, chaque niveau est reprsent par une entit. Une entit conceptuelle est un objet ayant une existence, une identit et des caractristiques propres dans le mtier de lutilisateur (cf. 3.3.2). Or un critre de groupement ne correspond pas ncessairement une entit. Un utilisateur peut momentanment, par exemple, sintresser au cumul des ventes de produits lectromnagers auprs des clients de 25 35 ans. Dans lune des dimensions impliques, on invoque une catgorie identifie de produits, alors que dans lautre, on applique une restriction sur une proprit, en loccurrence lge du client. Si lanalyse des autres requtes du domaine confirme lexistence dun concept de catgorie de produits identifiable et possdant des caractristiques descriptives, ce concept correspond bien un niveau structurel de consolidation, et doit donc apparatre comme une entit dans un chemin hirarchique. En revanche, si les tranches dge de la clientle sont toujours invoques sous la forme client g de A1 A2 , et ne sont jamais dfinies autrement que par leurs deux bornes, ces tranches nont

Jean-Marie Gouarn

43

Le Projet Dcisionnel

pas dexistence perue en tant quentits ; elles ne correspondent qu des conditions de slection sur une entit Client . Une consolidation peut tre considre comme structurelle, donc comme une entit, si elle correspond un objet nomm, dont la dfinition est la mme pour tous les utilisateurs du domaine, possdant au moins une proprit caractristique indiquant que cet objet existe indpendamment de son rle de nud de consolidation. A la limite, un intervalle de valeurs sur un critre (comme la tranche dge) peut tre considr comme une entit si lanalyse de lensemble des requtes confirme lexistence dun dcoupage stable, sans aucun chevauchement entre les tranches. Dans ce dernier cas, en pratique, on trouve toujours un nom pour caractriser chaque tranche. Lexistence dune entit se justifie par le fait quelle est porteuse dinformations qui ne se retrouvent dans aucune autre entit du mme contexte. Ainsi, la raison dtre de chaque entit dune hirarchie dimensionnelle est la reprsentation de proprits qui napparaissent pas aux niveaux infrieurs54. Dans chacun des exemples de la Figure 4-5, une dimension concide avec une hirarchie. Il sagit dailleurs dun cas frquent, tel point que les deux notions sont parfois confondues. Pourtant, une mme dimension peut comporter plusieurs chemins hirarchiques. Si une entit A est rattache une entit B et une entit C, mais quil nexiste aucun rattachement hirarchique entre en B et C, alors il existe deux chemins de consolidation possibles pour A. Lexemple le plus classique apparat dans le calendrier. On peut grouper des jours en semaines, en mois ou en saisons, mais chacun de ces points de groupement est situ sur une voie hirarchique distincte (Figure 46).
Semaine
Numro

...

Jour
Date

Saison
Nom

Mois
Num ro

Trimestre
Numro

Anne
Num ro

Figure 4-6 Hirarchies priodiques multiples

En fait, cet exemple est plutt un cas dcole, car il est rare que, dans le mme contexte danalyse, on sintresse rellement des chemins de consolidation calendaires divergents. En revanche, les hirarchies multiples sont frquentes dans les dimensions lies par exemple lorganisation, la clientle ou aux produits.

54

Les critres de consolidation qui apparaissent dans les requtes doivent toutefois tre relevs mme sils ne correspondent pas des entits conceptuelles. Ces critres, par la suite, ont en effet un rle majeur dans les choix de conception et doptimisation des modles logique et physique de donnes.

Jean-Marie Gouarn

44

Le Projet Dcisionnel

CSP
Code Libell

...

Client
Code Client Nom Date naissance Adresse

Rgion
Numro Nom

Pays
Nom

Cial
Matricule Nom

Agence
Code Agence Nom Adresse

Figure 4-7 Hirarchies multiples sur le Client

Dans la Figure 4-7 on voit trois modes de consolidation possibles pour une entit Client : selon la catgorie socio-professionnelle (CSP), selon le lieu de rsidence et selon la structure commerciale laquelle il est rattach. De mme, on imagine facilement, dans une chane de grande distribution, une entit Produit consolide dune part selon le fournisseur ou la marque et dautre part selon la catgorie ou le type de produit. Une hirarchie multiple ne doit cependant pas tre modlise a priori parce quelle a une existence potentielle dans la structure des donnes. Une dimension peut comporter plusieurs chemins de consolidation potentiels dans un domaine mais nen comporter quun seul dans chaque contexte.

4.2.3 Synthse des contextes


La premire tape de lintgration dun contexte consiste faire linventaire de tous les liens de dpendance entre les entits et de regrouper par dimensions les entits lies par des associations de type composition/appartenance. Il est vivement recommand de nommer chaque dimension : une dimension innommable aurait des chances srieuses de ne pas correspondre une ralit. A ce stade, on voit dj apparatre des diffrences de robustesse dans les dimensions. Les dimensions pour lesquelles on trouve facilement une dsignation simple et ne reprenant pas le nom dune entit sont gnralement plus fortement perues que les autres. Dans notre exemple, la dimension Temps , caractrise par la hirarchie Jour, Mois, Trimestre , est sans doute une dimension forte. En revanche, si on a donn la dimension Produit le nom de son entit de base, cela indique peut-tre implicitement que Gamme et Marque ne sont que des niveaux conventionnels de regroupement de produits, et donc que la structure de cette dimension peut varier terme. Compte tenu de ces observations, la combinaison des quatre vues de notre exemple produit le contexte dont la dfinition littrale est :
Activit : marge, / Canal : / Client : / Territoire : / Temps : / Produit : revenu, Canal Client Rgion Jour Produit ventes - Pays - Mois - Trimestre - Gamme - Marque

Ce contexte, reprsent graphiquement par la Figure 4-8, comporte donc 5 dimensions pour 10 entits.

Jean-Marie Gouarn

45

Le Projet Dcisionnel

Client

Produit

Marque
Canal

Client Gamme

Canal Activit
marge revenu ventes

Produit

Rgion

Jour Mois Trimestre

Pays

Territoire Temps

Figure 4-8 Contexte Activit commerciale

Malgr limpression que peuvent donner les cas dcole comme celui-ci, beaucoup plus simples que les contextes du monde rel, il ne faut pas confondre hirarchie et dimension. On peut parfois employer un mot pour lautre dans un but de simplification pdagogique, mais condition de distinguer nettement les deux concepts dans une vraie dmarche de modlisation. Comme on le voit au 4.2.2, une dimension peut en effet comporter plusieurs hirarchies. Lexprience montre que certains types de dimensions se retrouvent trs frquemment, sous des dnominations varies, dans des projets concernant de nombreux domaines, bien que leur prsence ne soit en aucun cas obligatoire. Ces types sont notamment en rapport avec les priodes calendaires, le grain le plus fin tant trs frquemment le jour, les niveaux de regroupement tant souvent le mois et lanne ; lorganisation, cest--dire les divisions et subdivisions hirarchiques de lentreprise ; la gographie, cest--dire le dcoupage territorial des activits ; loffre de lentreprise, cest--dire les produits et services et leurs diffrents regroupements (lignes de produits, gammes, marques, etc.) ; la clientle et/ou le march, avec des regroupement par segments (clientle de particuliers) ou par secteurs conomiques (clientle dentreprises) ; les circuits de distribution, la logistique et/ou les modalits de fourniture des biens et services ; les contrats, oprations ou transactions conus comme des units lmentaires dactivit, ventuellement susceptibles dtre groupes par catgories. La domination de ces dimensions-types provient du fait que, historiquement, lapproche dimensionnelle a dabord t pratique dans des domaines lis au marketing et au contrle de gestion. Avec la pntration du data warehouse dans des secteurs plus directement lis la production industrielle (la gestion de la qualit ou le suivi de fabrication, par exemple), dautres dimensions-types seront prendre en considration, telles que la technologie ou le procd de fabrication utilis ; les mesures et contrles effectus pendant le cycle de vie des produits ; la matire premire ;

Jean-Marie Gouarn

46

Le Projet Dcisionnel

lorigine des composants ou pices dtaches ; la sous-traitance implique dans le processus de fabrication ; le conditionnement et les modalits de livraison ; les conditions dutilisation des produits. Quel que soit le mtier de lutilisateur, la recherche de dimensions a priori est viter soigneusement. Les dimensions doivent tre dtectes partir de la dfinition des entits et de leurs ventuels liens de composition. Lun des aspects les plus directement utiles des contextes est leur effet multiplicateur de vues. En effet, un contexte supporte implicitement dans sa structure un nombre de vues thoriquement au moins gal mais pratiquement toujours largement suprieur au nombre de vues initiales qui ont servi le composer. Cet effet multiplicateur provient videmment de lexpansion des possibilits combinatoires dues la mise en commun des faits et des conditions. La liste exhaustive des vues autorises par un contexte est la liste de toutes les combinaisons possibles de faits et dentits, en prenant au moins deux dimensions. Le contexte de la Figure 4-8 nous permet par exemple denvisager, parmi beaucoup dautres, des vues telles que
marge revenu ventes revenu / / / / Canal Rgion Client Marque / / / / Pays Mois Gamme Gamme / / / / Produit / Trimestre Produit / Client / Canal Jour Mois / Rgion

Cette multiplication des vues rpond prcisment lobjectif danticipation des requtes qui caractrise les bases de donnes danalyse. A partir dun petit nombre de vues initiales repres par ltude du domaine, on est immdiatement en mesure, sans modification du modle de donnes, de produire un grand nombre de vues drives. Ceci se traduit concrtement par des conomies considrables en termes de maintenance logicielle et dadministration de bases de donnes, condition, toutefois, que les vues drives correspondent effectivement des informations pertinentes pour lutilisateur, ce qui implique que les contextes soient intgrs selon des normes prcises.

4.3 Normalisation des contextes


Il nest pas impossible que toutes les vues collectes dans un domaine soient intgrables dans un contexte unique. Dun autre ct, un contexte comportant un trop grand nombre de faits et surtout de dimensions aurait peu de chances de correspondre une ralit du mtier de lutilisateur, et serait dun maniement trop complexe. Lexprience montre que les contextes raisonnables ont gnralement entre quatre et douze dimensions. Cette observation na quune valeur indicative ; cependant, la prsence dun contexte vingt ou trente dimensions serait un signe extrieur quasi certain derreur de normalisation. Toutefois, ces indications empiriques nimpliquent en aucun cas lexistence dune limite thorique au nombre de dimensions. Si lintuition et lexprience jouent ncessairement un rle important dans la dtection des opportunits dassemblage de vues, il existe des critres de validation prcis qui permettent de vrifier si la structure dun contexte est smantiquement cohrente. Ces critres dcoulent du principe suivant : Dire quun contexte est cohrent quivaut dire que toutes les vues quil autorise ont une signification dans lunivers de lutilisateur.

Jean-Marie Gouarn

47

Le Projet Dcisionnel

Il est impossible dvaluer prcisment, lavance, lutilit que pourra avoir une vue laquelle lutilisateur na pas encore pens. On peut en revanche dterminer, en connaissant les liaisons smantiques entre les entits du mtier, si une question combinant certaines entits est sense ou non. A cet gard, il faut viter l encore de se fier des considrations de prtendu bon sens, en interdisant a priori certaines combinaisons parce quelles associent des entits qui, pour nous, nont aucun rapport : lune des fonctions du SID est prcisment de rapprocher des variables qui nont aucun rapport connu entre elles. Ce sont justement, comme on va le voir, les dimensions qui sont trop lies entre elles qui nont pas figurer dans les mme contextes.

4.3.1 Dpendances et influences


Le contexte de la Figure 4-8 nous montre par exemple une dimension Territoire et une dimension Canal . On suppose que lentit Canal correspond aux filires commerciales. Si, aprs analyse, on saperoit que la commercialisation est organise sur une base strictement gographique, raison dun distributeur exclusif par rgion, alors lune des deux dimensions est redondante. Une slection par canal de distribution quivaut strictement une slection par rgion. Le rsultat dune requte invoquant simultanment les deux dimensions ne serait dfini, pour chaque canal, que pour une seule rgion. La redondance dimensionnelle complique les modles et prsente une vue dconcertante sur les donnes. Elle correspond toujours des malentendus conceptuels. Pour lliminer, on doit appliquer la rgle suivante : Rgle 1 : Il ne doit pas y avoir de dpendance fonctionnelle entre deux entits appartenant des dimensions diffrentes dun mme contexte. Dans notre dernier exemple, lapplication de cette rgle nous amnerait soit fusionner les deux dimensions en une, en incorporant par exemple lentit Rgion les proprits informationnelles de lentit Canal (sil y en a), soit rserver lune des deux dimensions pour un autre contexte du domaine. Lapplication de la rgle 1 peut poser un problme de dfinition des dpendances fonctionnelles. Dans un Modle de Donnes Oprationnel (MDO), on considre quune donne est fonctionnellement dpendante ou indpendante dune autre ; cest une alternative simple. Dans un environnement dcisionnel, il existe une infinit de niveaux dinfluence possibles entre la dpendance fonctionnelle pure et simple et lindpendance. En restant dans lexemple de la Figure 4-8, on peut imaginer facilement, si les clients sont des particuliers et non des entreprises multinationales, quun client donn est localis dans une certaine rgion et ne sadresse habituellement qu un canal de distribution. Mais il ny a pourtant pas de vritable dpendance, car rien ninterdit a priori au client de changer occasionnellement de distributeur, de passer commande pour une rsidence secondaire loigne, voire de dmnager. Il existe cependant une incontestable influence de la dimension Client sur les dimensions Canal et Territoire . En consquence, la vue [ventes / Client / Rgion / Canal / Jour] comporte sans doute une proportion crasante de valeurs nulles. Les cas de cette espce sont en ralit extrmement frquents. Mais la notion de dpendance fonctionnelle considrer dans la mise en uvre de la rgle 1 est la mme que celle qui prside la normalisation des donnes oprationnelles. Par consquent, G2 nest fonctionnellement dpendant de G1 que si la connaissance dune occurrence de G1 dtermine une et une seule occurrence de G2. Linfluence dune variable sur une autre nest pas une dpendance fonctionnelle. Il ne faut pas perdre de vue, ce sujet, que le data warehouse peut justement tre utilis pour mesurer linfluence de certaines variables sur dautres, et lvolution de cette influence dans le temps. Dautre part, il ne faut pas confondre valeur nulle55 et valeur non dfinie : la valeur dun fait, pour une certaine combinaison de conditions, peut tre nulle mais avoir quand mme un sens. Mme si les ventes dun certain
55

On emploie ici le mot nul au sens propre, cest--dire comme synonyme de gal zro . Dans le jargon informatique, ce mot possde dautres significations. Une variable nulle est, dans une base de donnes, une variable qui existe mais dont le contenu nest pas dfini. Dans un langage de programmation, cest une variable dont lexistence est dclare mais qui na pas despace rserv en mmoire.

Jean-Marie Gouarn

48

Le Projet Dcisionnel

produit un certain client sont toujours nulles et le seront peut-tre toujours, la vue [ventes / Client / Produit] peut avoir une dfinition pertinente. Cependant, le phnomne des influences entre dimensions, mme sil est formellement acceptable, nest pas sans impact pratique. La proportion de valeurs nulles crot avec le degr dinfluence entre dimensions. Les aspects purement techniques de ce problme sont voqus plus loin, propos des techniques dimplmentation des bases de donnes dcisionnelles. Dans les bases de donnes dcisionnelles relles, la proportion de valeurs nulles est toujours trs importante, ce qui traduit le fait quil existe toujours une certaine influence entre les dimensions. Un contexte multidimensionnel est donc gnralement une matrice creuse. Si lutilisateur ne veut pas avoir chercher ses chiffres significatifs au milieu dun ocan de zros sur ses tats de sortie, cest lui de formuler des requtes pertinentes ; la mission du concepteur de SID sarrte la mise en uvre de contextes valides. Dans le doute, cest lutilisateur de dcider si une influence est suffisamment forte et stable dans le temps pour tre assimile une DF. Le moyen le plus simple de lamener se prononcer sur ce point est de lui proposer des exemples de requtes combinant de diffrentes faons les dimensions entre lesquelles on souponne lexistence dune DF.

4.3.2 Dfinition des faits


Revenons la Figure 4-8 et ajoutons une nouvelle vue :
cot de recherche et dveloppement / Produit / Jour

Intuitivement, on peut douter du bien-fond de la prsence dun indicateur de production dans un contexte coloration plutt commerciale. Mais lintuition ne suffit pas. Cette vue nimplique que les dimensions Temps et Territoire qui existent dj. Cependant, elle apporte un nouveau fait qui devient donc disponible dans le contexte pour toutes les autres vues, initiales et drives, dont par exemple :
cot de recherche et dveloppement / Produit / Jour / Client / Rgion

Ce qui autorise des requtes telles que : Quel a t le cot de recherche et dveloppement des fers repasser le 28 fvrier 1997 pour le client Martin en Haute-Normandie ? Cette dernire requte est trange. En gnral, les dpenses de R & D sont lies la conception dun nouveau produit, et non sa distribution. A moins que lutilisateur nimagine un moyen dimputer les cots journaliers de R & D dun produit des couples Client / Rgion, la requte na aucune signification. Le fait cot de R & D nest pas dfini dans les vues impliquant la dimension Client . Ce fait na donc pas le mme comportement que les autres. La prsence de faits qui ne sont dfinis que pour certaines dimensions, ou dont la dfinition change selon les combinaisons dimensionnelles, est un lment au moins aussi perturbateur que la dpendance fonctionnelle entre dimensions. Do la rgle suivante : Rgle 2 : Tous les faits dun contexte doivent tre dfinis dune manire cohrente pour toutes les combinaisons dimensionnelles de ce contexte. Deux faits qui ne supportent pas les mmes approches dimensionnelles appartiennent donc des contextes diffrents.

Jean-Marie Gouarn

49

Le Projet Dcisionnel

4.3.3 Cohrence de grain


Le grain dune dimension est le niveau de slection le plus fin possible de cette dimension. Ainsi, dans les exemples prcdents, le grain de la dimension Temps est le jour, celui de la dimension Territoire est la rgion. Aprs assemblage dun contexte, le grain de chaque dimension est dtermin par la vue qui implique cette dimension au niveau le plus fin. Lintgration de chaque nouvelle vue est donc susceptible de modifier le grain sur une ou plusieurs dimensions. Le grain dun contexte dcoule de la combinaison des grains de toutes les dimensions. Il dfinit le niveau de dtail pouvant tre obtenu par la requte la plus slective et la plus fine possible mettant en jeu toutes les dimensions. Le grain du contexte de la Figure 4-8 est dfini par la combinaison Produit / Jour / Client / Rgion / Canal. Ce grain sapplique demble tous les faits. Si les trois indicateurs marge , revenu , ventes sont prsents dans le contexte, cela signifie quils ont tous un sens tous les niveaux. Si par exemple la marge ntait dfinie que par Pays et par Mois , alors que les autres faits le sont par Rgion et par Jour , il y aurait un dcalage de grain entre les faits. Or lexistence dun tel dcalage signifie tout simplement que les faits nappartiennent pas tous au mme contexte, ou encore que les faits ne sont pas tous disponibles dans toutes les vues possibles, ce qui est encore un facteur dincohrence. Lintgration des vues doit donc galement respecter la rgle suivante : Rgle 3 : Tous les faits dun contexte doivent tre dfinis pour le grain de ce contexte. Ce nest pas en effectuant un nivellement automatique quon peut respecter cette rgle. Dans notre exemple, on ne saurait rgler le problme en affectant chaque rgion le rsultat dune division arithmtique de la marge du pays correspondant par le nombre de rgions du pays. Cette approche simpliste pourrait fort bien avoir pour effet de polluer les vues avec des faits dnus de signification pour lutilisateur, et ne ferait que masquer une mauvaise comprhension du domaine. Les utilisateurs, dont les requtes ont servi dfinir les vues, nont en revanche gnralement aucune ide prconue des contextes qui en dcoulent. Ils connaissent donc a priori le grain de chaque vue, mais non le grain du contexte. Ce dernier est dfini par une vue qui appelle tous les faits et lentit de base de chaque dimension. A moins dune concidence exceptionnelle, cette vue extrme est pratiquement toujours une vue drive laquelle, par consquent, aucun utilisateur na jamais pens lavance. Il est donc indispensable de vrifier la validit de cette vue avant de considrer le contexte comme valide.

4.3.4 Navigation hirarchique


Compte tenu de la diversit des perspectives dutilisation du SID, les valeurs associes une mme entit peuvent souvent tre consolides par des chemins diffrents. Un fait mesur par jour peut par exemple tre cumul en suivant la filire hirarchique mois-trimestreanne, ou par semaine, ou encore par saison. Des pays peuvent tre groups par continent ou par zone linguistique ou par rattachement des pactes multilatraux. La diversit des hirarchies possibles partir dune mme entit lmentaire doit apparatre dans les MCD dcisionnels, mais condition de respecter certaines rgles. Imaginons une entreprise dont lorganisation prsente les caractristiques suivantes : lunit lmentaire, sur le terrain, est lagence ; dun point de vue administratif et commercial, lentreprise se compose de plusieurs divisions fonctionnelles, chaque agence tant rattache une division ;

Jean-Marie Gouarn

50

Le Projet Dcisionnel

dun point de vue physique, plusieurs agences peuvent cohabiter dans un mme tablissement, mme si elles relvent de divisions diffrentes ; les activits de toutes les divisions sont coordonnes par des directions rgionales communes auxquelles, par ailleurs, les tablissements sont rattachs. Cette organisation, vue comme une dimension danalyse dans un contexte dcisionnel, est reprsente par la Figure 4-9.
Divsion Ciale

...

Agence

Dir Rgionale

Organisation
Etablissement

Figure 4-9 Hirarchie cyclique

Si les consolidations de faits sont pertinentes aussi bien par filiale que par tablissement, les deux chemins doivent apparatre dans la dimension Organisation . Mais le regroupement au niveau rgional pose un problme plus dlicat. En effet, une consolidation par rgion implique une alternative de cheminement. Dans cet exemple, on pourrait dire que le rsultat sera peut-tre le mme, mais le modle prsente cependant une fragilit vidente. Si par hasard une agence dpendant dune division de la rgion A tait loge dans un tablissement de la rgion B, le rsultat dune requte sur la rgion dpendrait du chemin de consolidation choisi, ce qui nest pas acceptable. Aucune vue ne doit comporter de chemin alternatif, et aucune requte ne doit comporter de choix de navigation dans les donnes. Ceci sexprime par la rgle : Rgle 4 : Le graphe de chaque dimension doit tre acyclique. Ce qui est une autre faon de rappeler que le dcisionnel a horreur des boucles . Les chemins cycliques sont ncessaires et peu gnants dans les modles de donnes oprationnels. Ici, ils sont un signe parmi dautres de malentendu conceptuel. Dans le cas qui vient dtre prsent, la prsence dune boucle montre presque coup sr que le malentendu provient de lutilisation du mme terme 56 ( rgion ou direction rgionale ) pour dsigner deux concepts informationnels distincts, en loccurrence un groupement rgional dtablissements et un groupement rgional de divisions . Le risque de confusion est dautant plus lev que, en pratique, la configuration complte dune dimension peut provenir de vues manant dutilisateurs diffrents.

56

La dtection des polysmes (mots utiliss pour dsigner des ralits ou des ides diffrentes) est lune des tapes pralables llaboration des modles de donnes. Cest aussi vrai dans le domaine oprationnel que dans le domaine dcisionnel.

Jean-Marie Gouarn

51

Le Projet Dcisionnel

Division Ciale

Dir Ciale Rgionale

...

Agence

Organisation
Etablissement Dir Admin Rgionale

Figure 4-10 Hirarchie acyclique

La Figure 4-10 reprsente une rgularisation possible de cette situation. Dune manire gnrale, une dimension multi-hirarchise doit avoir une structure strictement arborescente ; deux hirarchies ne peuvent avoir de consolidation commune.

4.4 La Forme Dimensionnelle Normale et ses consquences


Lorsquun contexte respecte les quatre rgles nonces dans ce chapitre, il est en forme dimensionnelle normale (FDN). Une telle forme se distingue fortement des formes normales en vigueur dans les systmes oprationnels, mais il serait inexact de croire quelle sy oppose. Certes, la 3me forme normale nest pas adapte la constitution dun MCD purement dcisionnel, mais rien ne soppose, au contraire, ce que chacune des entits qui appartiennent un contexte dcisionnel soit en 3FN. En fait, la FDN ne se situe pas prcisment sur le mme plan que la 3FN. Cette dernire rgit avant tout, sur la base des dpendances fonctionnelles directes, lassemblage des proprits lmentaires en entits. Le rseau des associations en dcoule ncessairement mais, en quelque sorte, comme un effet driv. La FDN, en revanche, est focalise sur la dfinition dune association porteuse de proprits les faits dun contexte et ne sintresse aux entits que pour leur rle de critres de dfinition de cette association. Les modles entit-association dimensionnels ont plusieurs particularits : Comme on la vu, ils sont acycliques, ce qui limine demble, pour les applications, toute ambigut de navigation et garantit que, pour chaque requte possible, il existe une seule version de la vrit ; La seule association porteuse de proprits est celle qui contient les faits du contexte. Les associations qui lient entre elles les entits dune mme dimension ne peuvent reprsenter que des appartenances hirarchiques. Compte tenu de cette rgle stricte, la reprsentation graphique est allge : il est inutile de noter les cardinalits et de nommer les associations intra-dimensionnelles. Le respect de la FDN ne permet pas, dans un projet rel, denvisager la modlisation dun domaine complet dans un seul contexte. La diversit des vues externes amne ncessairement la dfinition de dimensions et de faits dont lintgration serait contraire une ou plusieurs des quatre rgles. Toutefois, un nombre excessif de contextes pourrait aussi tre le signe dune confusion entre plusieurs domaines. Un grand projet peut parfaitement couvrir plusieurs domaines mais, mme si un entrept de donnes unique (correspondant un Modle dIntgration complet) est envisag, il est recommand dtablir un MCD dimensionnel pour chaque domaine.

Jean-Marie Gouarn

52

Le Projet Dcisionnel

C1

C2

C3

Figure 4-11 Reprsentation en galaxie dun domaine

La reprsentation du MCD intgr correspondant un domaine dcisionnel prsente donc laspect dune constellation dont chaque lment est un schma contextuel en toile. Un tel modle, comme on peut le remarquer dans la Figure 4-11, nest pas un graphe connect57. Chaque contexte semble indpendant des autres. En outre, un mme fait ou une mme entit peut apparatre dans plusieurs contextes. On ne doit pas pour autant en conclure que le groupement de plusieurs contextes est artificiel et ne constitue pas un MCD. En effet, le processus dlaboration des contextes prend place partir de la dlimitation des domaines. Mme si les diffrentes vues initiales dun domaine donnent lieu, aprs consolidation, la dfinition de plusieurs contextes, lexistence du domaine lui-mme (avec ses utilisateurs, ses concepts et son vocabulaire) demeure une ralit fondamentale. On peut ajouter que le nombre de contextes et la structure de chaque contexte sont susceptibles dvoluer plus rapidement que les contours du domaine. En outre, on peut trs pragmatiquement sattendre dans la plupart des cas associer, lors de limplmentation technique, une base de donnes physique un domaine. Cela dit, la caractristique la plus fondamentale dun domaine normalis est labsence de synonymes et dhomonymes dans les faits et les dimensions. En dautres termes, lintrieur dun mme domaine, chaque fait et chaque entit a un nom et un seul, et deux faits ou entits distincts ont des noms distincts 58. Un mme fait, ou une mme entit dimensionnelle, peut participer plusieurs contextes (cest dailleurs souvent le cas), mais condition de conserver une dfinition unique. Pour lutilisateur, un changement de contexte signifie un changement de combinaison dimensionnelle, de grain et/ou de profondeur, et non un changement de vocabulaire. Cela signifie notamment que toutes les proprits dune entit demeurent accessibles en tant que conditions dans tous les contextes o cette entit apparat. Pour des raisons pratiques, notamment pour obtenir une notation plus lisible du MCD, il est prfrable de reprsenter les contextes sous une forme dconnecte, comme sur la Figure 4-11. Ceci entrane ncessairement une forte redondance graphique, sachant que des entits (voire des dimensions entires), sont frquemment reprsentes lidentique dans plusieurs contextes. Cest le prix payer pour produire

57

Dans un graphe connect, il existe au moins un chemin permettant, directement ou indirectement, datteindre chaque noeud partir de nimporte quel autre.
58

Ceci, naturellement, est valable aussi bien dans un MCD oprationnel que dans un MCD dcisionnel.

Jean-Marie Gouarn

53

Le Projet Dcisionnel

des schmas lisibles. En outre, ce mode de reprsentation traduit bien le fait quil ny a pas de navigation entre deux contextes59. Il convient de noter ici quun contexte en FDN ne doit pas tre compris comme le schma physique dune base de donnes. Cest seulement la dfinition smantique dun sous-ensemble de la base de donnes possdant une forte cohrence smantique. Dans la mise en uvre du SID, le Modle Physique des Donnes sera labor en tenant compte dune part de lensemble des contextes et dautre part de la technologie et des contraintes doptimisation. Ladministrateur de la base de donnes, selon toute vraisemblance, dnormalisera les contextes et, au besoin, intgrera dans la mme structure physique des faits et des entits dimensionnelles appartenant plusieurs contextes. Mais ceci ne concerne pas lutilisateur final. La spcification du modle de donnes dun SID est une tche aussi dlicate que dcisive. Sur le terrain, elle se heurte presque toujours une difficult majeure : la quasi-impossibilit, pour lutilisateur, dexprimer a priori ses besoins. Aucun formalisme, aucun appareil mthodologique, ne saurait fournir de solution totalement satisfaisante ce problme dont la permanence tient deux phnomnes gnraux : Les utilisateurs ont de lapproche dimensionnelle une ide intuitive. Ils ont lhabitude de lutiliser sans le savoir, travers des courbes, des tableaux double entre, et autres reprsentations graphiques qui ont pour objet de faire apparatre linfluence dune combinaison de variables sur un indicateur. Certains utilisent habituellement les tableaux dynamiques que les environnements bureautiques mettent de plus en plus largement leur disposition. Mais lexpression spontane dune requte dans une forme telle quon puisse immdiatement en extraire la structure dimensionnelle est rarissime ; Le dploiement effectif des solutions est seul en mesure de faire prendre conscience aux utilisateurs des relles possibilits que leur offre le SID. La mise en service effective des outils pourvu que les structures de donnes initiales soient dj pertinentes et utiles provoque par consquent une reformulation des besoins existants et lapparition de nouveaux besoins. Il serait donc tout fait vain, et gravement compromettant pour lavenir des projets, de prtendre stabiliser un Modle Conceptuel de Donnes avant de passer la mise en uvre. La spcification dun SID est donc avant tout affaire dexcution et non de thorie. Les techniques utilises pour recueillir et structurer les requtes analyse des tableaux de bord et autres ditions existantes, entretiens dirigs ou informels font appel, comme toujours, au bon sens, la finesse et la diplomatie, qualits qui ne sapprennent dans aucun manuel. Ces remarques ne contredisent pas, toutefois, la ncessit dune dmarche parfaitement rigoureuse de modlisation. Le caractre informel du processus dexpression des besoins ne met pas en question la ncessit dune dmarche formelle de spcification. Par ailleurs, toute option en matire de modlisation de donnes comporte des limites intrinsques, et lapproche dimensionnelle nchappe pas cette rgle. Lorganisation des donnes en contextes dimensionnels cohrents est ncessaire tant pour offrir lutilisateur un rservoir dinformation lisible que pour lui assurer des temps de rponse acceptables. En contrepartie, cette approche implique un compartimentage et une structuration a priori des informations. Selon lexpression consacre, linformation dcisionnelle est oriente sujet , cest--dire conue et organise pour favoriser certaines combinaisons de donnes au dtriment de certaines autres selon un certain parti pris dont la validit est ncessairement relative. Cette dernire observation a une porte fondamentale. Elle entrane au moins deux sortes de consquences : Un mme jeu de donnes peut tre modlis de diffrentes manires, selon le sujet vers lequel on veut lorienter. Cela signifie que les modles dimensionnels de donnes sont rarement figs, et que plusieurs modles peuvent cohabiter un instant donn dans un mme projet ; Il faut imprativement distinguer les modles dimensionnels, conus selon la vision informationnelle des utilisateurs, du modle consolid, unique, de lentrept de donnes. Les premiers permettent de concevoir et de mettre en uvre les moyens de diffusion et de prsentation des informations ; le dernier est indispensable pour lintgration de lentrept de donnes.

59

Une requte au sens strict ne peut porter, par dfinition, que sur un seul contexte. Mais ceci nexclut pas la possibilit, pour une application dcisionnelle, deffectuer des requtes dans plusieurs contextes et den synthtiser les rsultats dans un mme document.

Jean-Marie Gouarn

54

Le Projet Dcisionnel

Lexistence de ces diffrentes sortes de modles de donnes est un lment essentiel de larchitecture dun SID (voir section 6.3).

Jean-Marie Gouarn

55

Le Projet Dcisionnel

5. Formes dimensionnelles complexes

Le chapitre prcdent a prsent les principes gnraux dlaboration dun MCD dimensionnel. Cependant, lapplication de ces principes ne suffit presque jamais rendre compte de la complexit des domaines danalyse rels. Au sein dun mme contexte, on peut trouver des dimensions trs diverses, non seulement dans leur contenu mais aussi dans leur structure et dans leur utilisation. En outre, une dimension peut tre affecte par des distorsions et des irrgularits. Chaque projet tant notoirement un cas particulier, il serait vain de chercher dcrire toutes les structures contextuelles imaginables. Il est cependant utile de signaler ici les particularits de structure et les cas dirrgularit quon est peu prs certain de rencontrer dans tous les projets.

5.1 Etats et flux


Dans un entrept de donnes, on manipule conjointement des indicateurs dont certains sont dynamiques et dautres statiques. Un fait dynamique reprsente un flux affectant le systme observ, chaque flux lmentaire tant associ un vnement. Un fait statique est en revanche un lment descriptif de ltat du systme un instant donn60. Le solde dun compte courant ou la cotation dun instrument financier sont des exemples de faits statiques alors que le montant dun dpt ou dun retrait ainsi quune plus ou moins value sont des faits dynamiques. Ces deux types de faits sinscrivent de manires radicalement diffrentes dans une chronologie priodique : Un fait dynamique est un cumul de flux associs une certaine catgorie dvnements survenus au cours de la priode de rfrence. Les vnements correspondant aux flux pris en considration peuvent se produire un nombre quelconque de fois (et ventuellement ne pas se produire du tout) au cours dune priode. Un fait dynamique priodique est donc par dfinition un agrgat, mme si, dans la base de donnes du SID, il est vu comme une information lmentaire ;

60

Le mot statique signifie donc ici en rapport avec ltat et non immobile (car ltat du systme change avec le temps).

Jean-Marie Gouarn

56

Le Projet Dcisionnel

Un fait statique est un indicateur de situation ou de stock mesur ponctuellement un instant donn choisi arbitrairement une et une seule fois pour chaque priode lmentaire. Quelle que soit la dure de la priode de rfrence, un fait statique nest dtermin que pour un point de la priode. En thorie, on peut toujours reconstituer lhistoire dun indicateur statique partir de celle dun indicateur dynamique. A partir de la succession intgrale des oprations effectues sur un compte courant, on peut par exemple retrouver le solde de ce compte nimporte quel instant de son histoire. Dautre part, lintroduction dun indicateur statique dans un contexte priodique suggre un certain degr darbitraire, puisquelle semble tendre une priode entire une valeur mesure en un point de la priode, cette valeur pouvant changer tout instant. On pourrait donc considrer les indicateurs de ce type comme la fois redondants et artificiels. En pratique, les faits statiques apportent, dans certains contextes, une valeur ajoute irremplaable, pour plusieurs sortes de raisons : La reconstitution certaine dun tat partir des flux antrieurs nest possible qu condition de disposer de lhistoire complte, prcise et exacte de ces flux depuis lorigine, ce qui reprsente un contrainte rarement envisageable ; Cette reconstitution, mme si la mmoire intgrale des flux antrieurs a t conserve, implique des cots de recherche et de calcul exorbitants ; Pour certains types danalyse, les utilisateurs ne sintressent qu des chantillonnages priodiques et non aux flux correspondants, ces derniers ntant pas forcment mmoriss ; La valeur priodique dun indicateur statique nest pas forcment si arbitraire quelle parat. Linstant choisi dans la priode pour prendre la mesure peut correspondre une ralit significative. Cet instant peut tre le dbut, la fin ou tout autre point significatif unique pour la priode. Des faits statiques et dynamiques cohabitent donc souvent. Ceci contribue, comme on le prcisera plus loin, lhtrognit de comportement des faits dans les hirarchies.

5.2 Les reprsentations du temps


Lexistence dun temps explicite, exprim par la prsence formelle dune dimension approprie, est une caractristique essentielle qui distingue le SID du SIO61. La structure dimensionnelle qui semble le plus gnralement simposer pour la reprsentation du temps est de type calendaire, le temps tant dcoup en journes ventuellement groupes par mois, trimestres et annes. Il ne sagit pourtant en aucun cas dune rgle. Le choix du dcoupage journalier, voire mensuel, sexplique par le fait que, dans la plupart des projets passs et actuels, il correspond au compromis le plus acceptable entre, dune part, le grain voulu par les utilisateurs, et dautre part les contraintes lies au volume et la disponibilit des donnes primaires. En fait, le grain temporel peut tre aussi fin quon le veut, et rien ninterdirait de descendre en-de de la nanoseconde si le domaine danalyse le justifiait. Des grains beaucoup plus fins que la journe ne manqueront dailleurs pas de se rpandre mesure que lapproche dimensionnelle se gnralisera des domaines caractriss par de fortes fluctuations horaires des phnomnes observables (ex : marchs financiers, processus industriels, tlcommunications, lectricit, circulation routire, grande distribution, mtorologie, etc.).

61

En marge du data warehouse est apparue la notion de magasin de donnes oprationnel ou Operational Data Store (ODS). Bien que prsentant des liens de parent avec le data warehouse, lODS est dabord orient vers le contrle en temps rel ou lgrement diffr. Le temps implicite (i.e. linstant prsent) y joue un grand rle, et la dimension temporelle, si elle existe, y est rduite sa plus simple expression.

Jean-Marie Gouarn

57

Le Projet Dcisionnel

Si la dure de la priode lmentaire (cest--dire le grain temporel) tait la seule caractristique susceptible de diffrencier une dimension temporelle dune autre, on pourrait considrer toutes les dimensions chronologiques comme semblables. En ralit, il nen est rien.

5.2.1 Irrgularits priodiques


La priode lmentaire dun contexte est lintervalle de temps lintrieur duquel il est convenu de ne pas tenir compte des variations du systme observ, sachant que tout systme rel est en volution constante et quil y a ncessairement une part darbitraire dans le dcoupage priodique. Une priode possde au moins deux attributs distinctifs : une date de dbut et une date de fin (les dates pouvant tre exprimes avec une prcision quelconque). On ne doit en aucun cas considrer la date de fin comme une proprit redondante parce qugale la date de dbut de la priode suivante. Ce point de vue serait erron pour deux raisons : Il est conceptuellement incorrect et techniquement pnalisant de se mettre dans lobligation dexaminer deux priodes successives pour avoir la description complte de la premire ; Les priodes successives dune chronologie peuvent parfaitement tre spares les une des autres par des intervalles non pris en considration. Lorsque la priode est de dure constante et correspond un dcoupage calendaire ou horaire usuel, les bornes ne sont gnralement pas explicites ; lusage prvaut dans ce cas de dsigner la priode par un identifiant appel la date . Ainsi, lorsquun utilisateur parle des oprations du 25 fvrier 1997 , il dsigne lensemble des oprations ayant eu lieu entre louverture et la clture de la journe conventionnelle correspondant son mtier (sachant quune journe-mtier ne dure pas forcment 24 heures et/ou peut parfaitement chevaucher deux dates calendaires). Que ses limites soient implicites ou explicites, une priode est, par dfinition, un intervalle. Or cet intervalle ne concide pas obligatoirement (mme si cest souvent le cas) avec le jour, le mois ou toute autre priode du calendrier officiel. Le grain temporel peut aussi bien tre un intervalle dchantillonnage dune fraction de seconde, dans le cas de mesures associes des procds industriels, ou bien reprsenter une dure de plusieurs mois dans le cas dobservations de phnomnes en rapport avec les cycles saisonniers, conomiques ou politiques. Tout vnement significatif pour lutilisateur, se produisant intervalles rguliers ou non, peut tre considr comme marquant la fin dune priode et le dbut de la suivante. La priode peut donc tre de longueur variable. Dans la mesure o toute priode est dtermine par ses bornes, lingalit ventuelle des longueurs ne pose pas de problme de conception particulier. Lirrgularit temporelle la plus gnante est celle qui provient non pas de la dfinition conceptuelle du SID, mais des contraintes de son alimentation. Le data warehouse est en effet aliment par des applications qui prsentent des cycles de mise jour de donnes dcals les uns par rapport aux autres (ex : propagation de mouvements du front office vers le back office puis vers la comptabilit gnrale) et qui, en outre, ont parfois des priodes oprationnelles de longueurs diffrentes. La ncessit de trouver des points de rconciliation pour ne pas charger des donnes incohrentes pse donc parfois lourdement sur la dfinition de la priode de base dun contexte. Dans un tout autre ordre dides, lanalyse des requtes qui ont servi de base la dfinition dun contexte peut mettre en vidence une forte ingalit du grain invoqu par les utilisateurs selon la position des priodes sur laxe temporel. Il est en effet extrmement frquent de voir les utilisateurs ne sintresser la priode de base qu certaines poques de la chronologie (gnralement les priodes les plus rcentes). Dans certains contextes, on verra par exemple des requtes par jour dans le mois en cours, par mois pour les douze mois prcdents et par an pour le pass plus ancien. Les irrgularits de ce type, lies uniquement lexpression des besoins des utilisateurs (qui doit toujours tre considre comme provisoire) ne doivent avoir aucun impact sur le MCD. Ce dernier ne doit prendre en considration que la priode de base, et considrer systmatiquement les autres priodes comme des niveaux de consolidation. Ce nest que lors de la mise au point du modle physique de la base de donnes et des mcanismes dalimentation quon tiendra compte de lingalit du grain, de manire minimiser les volumes et les temps de chargement.

Jean-Marie Gouarn

58

Le Projet Dcisionnel

5.2.2 Priodes et vnements


Les irrgularits priodiques et la dfinition des faits par rapport aux priodes ne sont pas les seuls facteurs de varit et de complexit lis aux dimensions temporelles. Le temps nintervient pas obligatoirement sous forme priodique. Il peut aussi bien tre peru sous forme vnementielle. On a dfini lvnement au 3.5.3 comme une transition affectant ltat du systme oprant. Un vnement est assimilable un point dans lespace-temps : il est localis et dat62 mais na pas plus de dure que dtendue. Or le SID peut mmoriser la chronologie aussi bien comme une succession dvnements que comme une succession de priodes. Ce choix peut se justifier de trois manires : Comme on la vu, un flux priodique est ncessairement un agrgat de flux vnementiels. Sur le terrain, les flux sont, par nature, vnementiels. En les mmorisant sous forme priodique, on perd linformation sur le flux lmentaire, et on ne garde trace, au mieux, que de montants cumuls et du nombre dvnements survenus dans la priode. Or certains contextes danalyse font appel des donnes lies lopration lmentaire (cf. 3.5.1) ; La distribution des vnements dans le temps peut tre trs irrgulire par rapport au dcoupage priodique quel quil soit. Cette distribution peut tre compltement alatoire ou, au contraire, fortement influence par le calendrier (ex : les ventes de parapluies ou de crme solaire). De ce fait, les contextes priodiques sont gnralement trs creux . Ainsi, le contexte reprsent la Figure 4-8 devrait tre, dans le monde rel, de faible densit : tous les produits ne sont pas vendus tous les jours tous les clients dans toutes les rgions par tous les canaux, et, la limite, il peut certains jours ny avoir aucune opration. Dans une priode vide dvnements, les faits dynamiques sont nuls et les faits statiques ont gnralement la mme valeur que dans la priode prcdente. A loppos, un contexte orientation vnementielle est trs dense. En effet, par dfinition, tout vnement implique au moins un flux ou un changement dtat (et gnralement les deux), donc au moins une information significative ; Selon le domaine applicatif et le contexte danalyse, lutilisateur peut ne pas sintresser des priodes calendaires prdfinies, mais la squence des tapes dun processus ou des mutations subies par un systme. Un contexte vnementiel nest pas limit des faits dynamiques. On peut considrer un vnement aussi bien comme porteur dun changement dtat que porteur dun flux. Par exemple le solde dun compte bancaire aprs un dpt (indicateur statique) est un fait tout aussi vnementiel que le montant du dpt. Lalternative priode-vnement est fortement structurante. Parfois dlicate cerner, elle mrite quelques prcisions. Reprenons lexemple trs classique dun contexte danalyse des corrlations dachat dans une chane de grande distribution. Pour les raisons indiques au 3.5.1, le grain dun tel contexte ne peut pas tre dfini sur une base priodique telle que : ventes / produit / site / jour Les corrlations dachat se dtectent dans les transactions lmentaires, limportant tant ici de savoir ce qui a t vendu en mme temps au mme client. Le grain utile est donc plutt : ventes / produit / transaction la transaction tant ici lacte de vente ponctuel la caisse dun supermarch. Or cette vente lmentaire, entre autres proprits, est caractrise par une date. Par consquent, lide dune vue centre sur les ventes par transaction par jour naurait pas de sens. Une transaction na lieu quune fois. Les flux associs la transaction sont nuls pour toutes les priodes autres que celle au cours de laquelle la transaction a eu lieu. Pour la priode dans laquelle lvnement sest produit, les flux sont ceux de la transaction, et rien dautre.
62

Dans certaines applications, la date dun vnement peut se rduire un simple numro dordre dans une squence, sans rfrence un calendrier gnral.

Jean-Marie Gouarn

59

Le Projet Dcisionnel

Le phnomne suggr par cet exemple a une porte trs gnrale. Une vue ne peut pas tre conditionne la fois par priode et par vnement, parce quun vnement, sil existe, nest dfini que dans une seule priode. En dautres termes, une dimension vnementielle ne peut pas tre combine avec une dimension priodique dans une mme requte. La priode est fonctionnellement dpendante de lvnement. La premire rgle dintgration en forme dimensionnelle normale (p. 48) interdit par consquent de les invoquer sur deux axes dun mme contexte. Ceci permet de dire quun contexte peut tre priodique ou vnementiel, mais pas les deux la fois. Cette restriction ninterdit pas, cependant, quune entit priodique (ex : Heure, Jour ou autre) apparaisse dans un contexte comportant une entit vnementielle. Autant il est absurde de croiser un axe vnementiel avec un axe priodique, autant il est pertinent de grouper des vnements par date. Un vnement appartient une priode, donc une entit priodique peut constituer un niveau de consolidation hirarchique valable (parmi dautres) pour une dimension vnementielle. La prsence de priodes est donc rgulire dans un contexte vnementiel, mais dans la mme dimension que les vnements. Une entit Priode peut apparatre dans un contexte vnementiel, mais uniquement en tant que niveau de consolidation hirarchique, dans la mme dimension que lentit Evnement , et non dans une dimension spare. La date est en effet un critre pertinent de groupement dvnements. La manire de traiter le temps nest pas la seule consquence de lalternative priode-vnement : Les priodes ne sont pas les seules entits fonctionnellement dpendantes des vnements. Une transaction lmentaire de vente, par exemple, implique gnralement un lieu, un vendeur, un client, un moyen de paiement, une devise, etc. La nature vnementielle dun contexte a donc gnralement pour effet dintgrer sur un mme axe des informations qui, dans un contexte priodique, apparaissent sur des axes indpendants ; Certains faits peuvent navoir de sens que par priode. Le cas le plus vident est celui des compteurs dvnements qui ne peuvent tre quimplicites dans un contexte vnementiel (ainsi, dans notre dernier exemple, le nombre de ventes est une information pertinente pour un jour, mais pas pour une vente). La Figure 5-1 montre comment les informations lies une activit commerciale peuvent tre reprsentes sous la forme dun contexte priodique (partie gauche) ou dun contexte vnementiel (partie droite). Les notations littrales de ces deux contextes sont respectivement :
Activit (1) : ventes, revenu, marge, montant moyen par vente / Clientle : Client(Nom, Adresse) / Organisation : Magasin(Nom, Adresse) / Temps : Jour / Produit : Produit(Libell, Prix unitaire)

Activit (2) : ventes, revenu, marge / Oprations : Vente(Date/Heure, Magasin, Commande) - Client(Nom, Adresse) - Magasin(Nom, Adresse) - Jour / Produit : Produit(Libell, Prix unitaire)

Jean-Marie Gouarn

60

Le Projet Dcisionnel

Produit

Produit
Libell Prix
Temps Produit

Jour
Date

Produit
Libell Prix

Activit (2)
Montant Revenu Marge

Activit (1)
Montant Revenu Marge Moyenne ventes

Vente Client
Nom Adresse Heure Commande

Magasin
Nom Adresse

Magasin
Nom Adresse
Clientle

Jour Client
Nom Adresse Date

Organisation

Oprations

Figure 5-1 Contextes priodique et vnementiel

Il existe entre les deux contextes Activit (1) et Activit (2) une diffrence de grain, puisque le premier ne prend en considration que des cumuls par Client / Magasin / Jour / Produit, alors que le second mmorise chaque vente lmentaire. Mais il ne sagit pas seulement dune diffrence de prcision. Le premier contexte est priodique et le second vnementiel, ce qui implique une profonde diffrence de structure. Chaque opration de vente est excute une certaine date, dans un certain magasin, avec un certain client ; les entits Client, Magasin, Jour sont donc en DF de lentit Vente dans Activit (2) . Comme une Vente peut impliquer un ou plusieurs Produits, lentit Produit chappe cette DF 63 et reste donc sur un axe indpendant. En revanche, les dimensions Organisation, Clientle et Temps disparaissent, et les entits quelles supportaient se retrouvent (si elles intressent lutilisateur) dans la dimension vnementielle Oprations. Le nombre de dimensions dun contexte vnementiel en FDN est gnralement rduit, sachant que lentit vnement est la source de nombreuses dpendances fonctionnelles. En revanche, une dimension vnementielle est gnralement beaucoup plus complexe quune dimension priodique, lvnement lmentaire comportant plusieurs proprits pouvant orienter vers des chemins de consolidation diffrents. Une dimension vnementielle est donc frquemment porteuse de hirarchies multiples (cf. 4.2.2). Le caractre vnementiel dun contexte nest pas toujours facile tablir, compte tenu notamment des subtilits du vocabulaire propre chaque mtier. En phase de spcification dun SID, on voit frquemment apparatre, par exemple, des entits dates, qualifies par les utilisateurs doprations, de transactions ou autres termes voisins, qui voquent la notion dvnement. Mais le vocabulaire est parfois trompeur. Dans certains mtiers, une opration ou une transaction correspond en ralit une collection dvnements situs des dates parfois trs loignes les unes des autres. Un phnomne qualifi opration peut donc comporter un vritable cycle de vie, passer par une succession dtats mesurables et produire des flux chelonns dans le temps. Les oprations de ce type ne sont videmment pas des vnements ponctuels, et elles peuvent parfaitement tre croises avec des priodes.

63

Il existe sans doute une influence entre Vente et Produit (cf. 4.3.1 sur la distinction entre dpendance fonctionnelle et influence), mais cest peut-tre justement la mesure de cette influence qui intresse lutilisateur.

Jean-Marie Gouarn

61

Le Projet Dcisionnel

5.3 Drives dimensionnelles


La matire dun domaine danalyse est toujours constitue dhistoriques quil sagisse de priodes ou dvnements qui peuvent stendre sur des dures trs longues par rapport aux cycles oprationnels de base. Or lcoulement du temps na pas pour seul effet dajouter de nouveaux faits : la longue, il modifie aussi les variables dimensionnelles. La structure du modle dimensionnel telle quelle est prsente au chapitre 4 reprsente parfaitement lvolution de tous les faits par rapport toutes les dimensions. En revanche, elle ne rend pas compte de lvolution ventuelle de certaines dimensions par rapport dautres, et notamment par rapport la dimension temporelle. Or, dans la plupart des situations relles, les phnomnes de drive dimensionnelle, sils ne sont pas convenablement pris en charge par les modles de donnes, peuvent introduire des distorsions inacceptables dans les rsultats. Prenons lexemple dun indicateur de comportement dune clientle segmente par tranche dge, situation familiale, lieu de rsidence et catgorie socio-professionnelle, pour chaque division rgionale dune entreprise de vente par correspondance et pour chaque ligne de produits, le tout sur une profondeur de trois ans. Au cours de la priode analyse, deux sortes dlments perturbateurs peuvent apparatre : Les clients apparaissent, vieillissent, disparaissent, se marient, divorcent, dmnagent, ont des enfants et changent de mtier ; Lentreprise lance de nouveaux produits, en abandonne danciens, modifie son dcoupage gographique, et opre une fusion-acquisition avec un confrre. Cet exemple met en vidence deux sortes de changements potentiels, portant lun sur le contenu, lautre sur la structure des dimensions.

5.3.1 Drives de contenu


Nous avons vu au 3.5.3, propos du numro dimmatriculation dun vhicule, comment rendre compte correctement des valeurs successives dune proprit qui change avec le temps. Une telle proprit ne peut pas appartenir une entit normalise. Elle ne peut tre dfinie que dans le cadre dune association entre deux entits dont lune est la priode. Or, dans un contexte dimensionnel tel quon lenvisage ici, une telle proprit nest autre quun fait. Or il nest pas possible dliminer le problme en remplaant par des faits toutes les proprits dimensionnelles susceptibles dvoluer dans le temps. Les contextes ont t labors sur la base des vues externes des utilisateurs. La classification des informations lmentaires en tant que faits et en tant que conditions prsente donc un caractre de spcification fonctionnelle. Une proprit peut tre changeante tout en restant un critre de slection ou de groupement dans une requte. Si certaines variables peuvent tre la fois des faits et des conditions, on perd toute la simplicit dutilisation du modle dimensionnel. La seule mthode permettant de reprsenter correctement les valeurs successives des conditions sans compromettre la structure dimensionnelle du contexte impose de considrer les entits sous un autre angle. Les proprits de chaque entit dimensionnelle susceptible de changer dtat dans le temps doivent tre rparties en deux groupes : les proprits permanentes ou invariantes, dont le contenu ne peut jamais changer (du moins dans le cadre de lhistorique du contexte) ; les proprits mouvantes ou changeantes, dont le contenu peut voluer au cours du temps. On peut considrer par exemple, dans le cas dun vhicule, que la date de premire mise en circulation et la marque sont des proprits permanentes tandis que la couleur et le numro dimmatriculation sont des proprits mouvantes. Les changements dtat pouvant affecter un objet dans le temps ne se limitent pas des modifications de proprits. Il peut sagir aussi de modifications dans les associations avec dautres objets.

Jean-Marie Gouarn

62

Le Projet Dcisionnel

Ainsi, ce ne sont pas seulement les caractristiques propres dun vhicule qui peuvent voluer. Le vhicule peut notamment changer de conducteur, le conducteur tant, dans la base de donnes, une entit part entire ayant ses propres caractristiques. La reprsentation conceptuelle correcte de cette mobilit dimensionnelle implique deux entits, lune avec les proprits et associations permanentes, lautre avec les proprits et associations mouvantes, la premire tant logiquement connecte la seconde par une relation de cardinalit un plusieurs . En restant sur lexemple du vhicule, illustr par la Figure 5-2, on rpartira les proprits permanentes (n de srie, marque, date de mise en circulation) et les proprits mobiles (immatriculation, couleur) respectivement dans deux entits nommes par convention Vhicule(p) et Vhicule(m). Par ailleurs, cest le Vhicule(m) qui sera associ avec le Propritaire, puisque le vhicule peut aussi bien changer de propritaire que de couleur et dimmatriculation. En revanche, le Constructeur est associ au Vhicule(p), dans la mesure o on admet quun vhicule ne change pas de constructeur aprs avoir t construit.
Propritaire Constructeur

Nom Adresse

Raison sociale Adresse

0,n

1,n

1,1

1,1

Vhicule (m)
Immatriculation Couleur Date dbut Date fin

Vhicule (p)
1,1 1,n
N de srie Marque Date mise en circ.

Figure 5-2 Entit mouvante (m) et entit permanente (p)

Ce procd est le seul permettant de conserver la trace des valeurs successives des proprits changeantes sans renoncer la forme normale du modle de donnes, pour les raisons suivantes : Une entit structure variable (par exemple une entit Vhicule possdant dans sa structure un nombre de proprits numros dimmatriculation augmentant avec le temps) nest pas envisageable (cf. section 3.4) ; La solution de la Figure 3-6, consistant ranger les proprits changeantes dans une association entre lentit de rfrence et une entit priode nest pas non plus possible dans le cadre dun contexte en Forme Dimensionnelle Normale. Le partitionnement dune entit entre une partie fixe et une partie variable permet seul, sans compliquer dmesurment le modle, de mmoriser un nombre quelconque dtats successifs dun mme objet. La structure reprsente par la Figure 5-2 permet en effet dassocier chaque occurrence ou exemplaire de lentit permanente Vhicule(p) un nombre quelconque dexemplaires de Vhicule(m) , la seconde entit comportant toutes les proprits susceptibles de changer dans le temps. Dans cet exemple, chaque fois quun vhicule change de couleur et/ou de numro, il suffit de crer une nouvelle occurrence de Vhicule(m) et de la rattacher un Vhicule(p) existant. Seul le volume de la base de donnes augmente ainsi avec le temps, mais la structure reste stable. Pour tre praticable, ce procd implique la prsence explicite de dates permettant de situer dans le temps chacun des tats successifs de lobjet. Dans la Figure 5-2, ces dates apparaissent comme des proprits supplmentaires du Vhicule(m) ; le couple date dbut date fin dlimite, pour chaque tat, sa priode de validit. Cest cette condition quon pourra savoir, par exemple, que tel vhicule, telle date, appartenait tel propritaire, tait de telle couleur et avait tel numro dimmatriculation.

Jean-Marie Gouarn

63

Le Projet Dcisionnel

Intgr dans un contexte dimensionnel normalis, un tel couple dentits correspond un lment de structure hirarchique. Chaque entit changeante tant rattache une entit permanente et une seule, la seconde peut tre considre comme un niveau de consolidation des indicateurs correspondant la premire.

Priode
Anne Mois

Propritaire
Nom Adresse

Vhicule (m)
Nb Kilomtres Nb Accidents Consommation Immatriculation Couleur

Vhicule (p)
N de srie Marque Date mise en c.

Constructeur
Raison sociale Adresse

Figure 5-3 Proprits changeantes dans un contexte dimensionnel

La mise en forme dimensionnelle de notre exemple prcdent est reprsente par la Figure 5-3. Le cadre, reprsent seulement pour mmoire, indique le sous-ensemble informationnel qui aurait t group en une seule entit si on navait pas voulu mmoriser les changements dtat de chaque vhicule. Le croisement de la dimension Vhicule ainsi cre avec une dimension temporelle dtermine ici des indicateurs tels que le kilomtrage, le nombre daccidents, etc. Selon le niveau hirarchique auquel on se place, ce contexte permet, pour chaque priode, de savoir dune part quel est le nombre daccidents pour les vhicules immatriculs en Seine-Maritime et dautre part quel est le nombre daccidents pour les vhicules dune certaine marque. Le modle permet denregistrer et de restituer des informations exactes et pertinentes pour les deux sortes de requtes, mme si des vhicules ont chang de dpartement dimmatriculation au cours de la priode explore. Les proprits Date dbut et Date fin , dans le modle dimensionnel normalis, disparaissent de lentit Vhicule(m) , la chronologie tant implicitement mmorise par lassociation avec la dimension priodique. Ainsi, si un vhicule donn a t de couleur rouge de janvier 1992 octobre 1994, loccurrence de Vhicule(m) comportant une valeur Couleur=rouge naura dintersection avec lentit Priode que pour les priodes comprises entre ces deux dates. Lentit Constructeur , dans la mesure o lassociation dun vhicule un constructeur est permanente, o tout vhicule provient dun et dun seul constructeur et o tout constructeur peut avoir produit un ou plusieurs vhicules, correspond un niveau hirarchique au-dessus du Vhicule(p) . En revanche, un vhicule pouvant avoir plusieurs propritaires successifs, mais un et un seul la fois, lentit Propritaire est un niveau de consolidation pour Vhicule(m) mais non pour Vhicule(p) . Si le contexte danalyse comporte des conditions sur le propritaire et sur le constructeur, la dimension Vhicule comporte donc une hirarchie double. La mme ide sapplique notamment aux entits de type Client , trs classiques dans les applications dcisionnelles. Lorsquon dfinit une entit Client , on imagine traditionnellement un ensemble doccurrences dont chacune est un client individualis. Si lun des clients change de profession, de domicile ou dtat civil, dans une application de production, on met jour les proprits correspondantes et on oublie la valeur antrieure de ces proprits. Mais dans un contexte danalyse dimensionnelle, chacun des tats successifs de ce client est intressant, et il ny a aucune raison a priori pour que le dernier tat connu annule et remplace ltat prcdent.

Jean-Marie Gouarn

64

Le Projet Dcisionnel

Quand on parle de Client dans un modle dcisionnel, il sagit en ralit dun Client-tat (ou dun Client dans un certain tat ). Quand un client clibataire se marie, cest un nouveau client qui apparat. Ce nouveau client ne diffre de lautre que par le contenu de la proprit tat civil , mais les deux cohabitent dans la base de donnes. Si, un peu plus tard, ce nouveau client change de profession, cest une troisime occurrence qui est cre, les deux prcdentes continuant exister. Dans un contexte dimensionnel changeant, les occurrences individuelles de lentit Client ne sont pas les clients au sens courant du terme, mais les tats successifs de chacun des clients. Ces tats successifs sont parfaitement reprsentables par une entit comme Client(m) rattache hirarchiquement une entit Client(p) . Naturellement, un client ne peut pas tre clibataire et mari en mme temps. En examinant la liste des clients contenus dans la base de donnes sans tenir compte du contexte, on pourrait donc stonner de voir un Emile Martin clibataire et un autre Emile Martin mari, surtout si les deux portent le mme numro de client. Mais nous sommes prcisment dans un contexte temporel. Ces deux clients coexistent dans la base de donnes, mais pour lun deux (lEmile Martin mari) tous les faits du contexte sont nuls jusqu' une certaine date (la date du mariage), et pour lautre (lEmile Martin clibataire) tous les faits sont nuls depuis cette mme date. Une telle approche garantit par exemple quune requte centre sur le comportement des clients clibataires depuis 3 ans donnera un rsultat correct. Si, au contraire, on avait modifi la proprit Etat civil dEmile Martin sans conserver la trace de sa situation antrieure, ce client serait compt comme mari pour toute la priode, ce qui fausserait irrmdiablement toutes les analyses historiques comportant une contrainte sur cette proprit. Un changement de valeur dans une proprit dimensionnelle implique non pas une mise jour, mais la cration dune nouvelle occurrence de lentit qui contient cette proprit. Chaque entit mmorise est en ralit une entit-tat. Le temps est en quelque sorte contract de telle sorte que les tats successifs de chaque entit semblent avoir une existence simultane. Enfin, il nest pas ncessaire dintgrer, dans les entits-tats, de date de dbut ni de date de fin, la priode de validit de chacun des tats successifs tant implicitement indique par le croisement avec la dimension temporelle du contexte64. Lincorporation de dates limites explicites aurait dailleurs un effet inutilement dnormalisateur, dans un contexte comportant par ailleurs un axe temporel explicite, en crant une redondance et une dpendance fonctionnelle directe entre deux dimensions. Cette approche des dimensions changeantes peut paratre dconcertante au premier abord, compte tenu notamment de notre perception habituelle du temps. Elle revient en effet reprsenter les tats successifs dun objet comme sil sagissait de plusieurs objets. Mais elle rsulte logiquement de la ncessit de mmoriser chaque entit dimensionnelle dans tous ses tats 65. Et surtout, elle permet de conserver lhistorique dimensionnel sans aucun impact sur la structure conceptuelle des contextes, donc sans surcharger le MCD ni compliquer les interrogations. La mmorisation des tats dimensionnels nest pas sans impact, en revanche, sur les identifiants et les hirarchies.
Client (m)
Id-Client-Etat Profession Etat civil

Client (p)
Id-Client Nom Prnom

Figure 5-4 Client mobile et Client permanent

64 65

Sauf sil sagit dune forme particulire de contexte, dans laquelle le temps nest pas reprsent par une dimension ddie.

Cette problmatique des dimensions changeantes a t introduite et dveloppe par R. Kimball, The Data Warehouse Toolkit , John Wiley & Sons 1996

Jean-Marie Gouarn

65

Le Projet Dcisionnel

Dans notre exemple, lidentifiant initial du client tel quil est utilis dans les applications de production ne suffit pas. Il faut un identifiant pour chaque tat de chaque client. Cet identifiant est normalement constitu de lidentifiant dorigine (par exemple l Identifiant client , et dun code complmentaire qui peut tre un numro chronologique dtat. Si lutilisateur sintresse au comportement de lentit permanente, celle-ci peut tre considre comme un niveau hirarchique o se consolident les informations lies aux entits-tats correspondantes. Ainsi, le fait de mmoriser les tats successifs du client Emile Martin ninterdit pas de suivre ce client en tant quindividu permanent travers les ges. Lentit de consolidation reprsentant lindividu permanent nintgre que les proprits stables (ex. : code client, nom, prnom, sexe, date de naissance), les proprits pouvant voluer appartenant lentit mouvante (ex. : profession, tat civil, adresse, etc.). On peut naturellement sattendre une forte redondance de donnes dans les dimensions si chaque changement de valeur dune proprit dans une entit entrane la cration dun exemplaire complet. Mais on verra plus loin, propos des bases de donnes physiques, que limportance de cette contrainte na quun impact limit.

5.3.2 Drives de primtre


Considrons un analyste qui, au sein dun groupe htelier, sintresse la frquentation, en nombre de clients/nuits par mois, des tablissements de la marque Doux Logis possdant de 10 25 chambres au cours des 2 dernires annes dans la rgion Ouest. Durant cette priode, certains htels ont probablement cr ou supprim des chambres, voire chang de marque au sein du groupe. Il sagit l dun simple changement de contenu dimensionnel. Mais, dans la mme priode, le groupe a fort bien pu modifier le primtre de la rgion Ouest en lui ajoutant la Loire-Atlantique. Les indicateurs de frquentation nont donc pas la mme signification avant et aprs cette rectification de frontire. Les drives de primtre, dune manire gnrale, suivent les mutations que traversent les entreprises (fusions, cessions, rorganisations internes). Elles sont parfois assimilables des drives de contenu, et peuvent donc tre traites selon la mthode prsente au 5.3.1. Mais ce nest pas toujours le cas. Notre htelier peut trs lgitimement sintresser au primtre de la rgion Ouest tel quil tait au dbut de la priode analyse, ou tel quil est aujourdhui, ou mme une autre date significative pour lui. Quelle que soit la date de rfrence retenue, lanalyse primtre constant dans un contexte primtre changeant correspond un besoin rel et frquent dans les applications dcisionnelles. Les entits-tats peuvent permettre de reconstituer des primtres constants, mais au prix de requtes laborieuses et complexes. Lorsque la liste des primtres constants envisags est connue et dune longueur raisonnable, elle peut tre reprsente plus efficacement par la mthode des indicateurs qualifis.

5.3.3 Dimensions changeantes et boucles hirarchiques


La prise en charge des dimensions changeantes, qui implique un dcoupage dentits sans quivalent dans les systmes oprationnels, entrane une relative complication des structures hirarchiques. Certains chemins de consolidation sont valables pour les entits de type (p), dautres seulement pour les entits de type (m). Cela ne pose pas de problme dans des contextes comme celui de la Figure 5-3, o les notions de Propritaire et de Constructeur sont nettement distinctes et non lies entre elles. Dans la pratique, on rencontre souvent des situations plus complexes o lentit permanente et lentit mouvante semblent toutes deux rattaches une mme entit de consolidation, mais par des chemins diffrents.

Jean-Marie Gouarn

66

Le Projet Dcisionnel

Un particulier peut, par exemple, avoir une commune de naissance et une commune de rsidence. Il peut naturellement dmnager un certain nombre de fois, tout en naissant une seule fois. Il existe donc, entre une Personne et une Commune , deux associations.
Naissance Personne
1,1 0,n

Commune

1,1

0,n

Rsidence

Figure 5-5 Double liaison Personne-Commune

En admettant que, un instant donn, une personne nait quune seule rsidence la fois (disons une rsidence principale), on peut reprsenter cette double association selon la Figure 5-5. Mais, ds lors quil sagit dapprhender cette association dans un modle dimensionnel intgrant la fois la commune de naissance et la succession des communes de rsidence, on sexpose un risque dambigut de modlisation. Conformment au principe prsent au 5.3.1, lentit Personne va, dans le contexte dimensionnel normalis, disparatre au profit de deux entits Personne(p) et Personne(m) . Le lieu de naissance tant une proprit fixe, il est lgitime de reprsenter la Commune comme un niveau de consolidation de Personne(p) . Le lieu de rsidence pouvant changer dans le temps, il est galement lgitime de reprsenter la Commune comme un niveau de consolidation de Personne(m) . La mme entit Commune apparat alors, comme on le voit dans la Figure 5-6, deux niveaux hirarchiques la fois, et introduit une boucle, cest--dire une ambigut de cheminement, contraire la 4me rgle de normalisation dimensionnelle (cf. page 51).

...

Personne(m) Personne(m)

Commune

Figure 5-6 Dimension changeante et hirarchie cyclique

Pour viter cette structure hirarchique anormale, il faut exprimer le problme dans dautres termes, et se poser les questions suivantes dans lordre indiqu : Les vues impliquant des consolidations par commune de naissance et par commune de rsidence appartiennent-elles vraiment au mme contexte ? La commune (de naissance et/ou de rsidence) est-elle vraiment une entit part entire, impliquant une structure distincte de Personne ? La commune de naissance et la commune de rsidence sont-elles vraiment une seule et mme entit ? Autrement dit, invoquera-t-on les mmes attributs conditionnels dans lune et dans lautre ? Une rponse ngative la question (1) limine la difficult : il ny a plus de hirarchie cyclique puisque les deux rles hirarchiques de la commune appartiennent chacun un contexte. Si la rponse la question (2) est ngative, la solution est galement facile puisque, en ralit, la commune de naissance et la commune de rsidence disparaissent et sont remplaces par des proprits intgres respectivement dans Personne(p)
Jean-Marie Gouarn 67 Le Projet Dcisionnel

et Personne(m) . Mais au cas o (1) et (2) appellent indiscutablement des rponses positives, on nchappe pas la ncessit de reprsenter effectivement, dune manire ou dune autre, deux hirarchies comportant chacune une notion de Commune . Il faut alors se demander sil sagit bien dune seule et mme entit, autrement dit si les requtes impliquant la Commune en tant que commune de naissance et/ou en tant que commune de rsidence sont rellement susceptibles dinvoquer les mmes attributs descriptifs de la commune. Si, dans la commune de naissance, on ne sintresse pas aux mmes proprits (pour les slections et la prsentation des rsultats) que dans la commune de rsidence, et vice versa, cest quon a affaire deux structures de donnes, donc deux entits distinctes, situes sur deux voies hirarchiques distinctes. Si la rponse aux trois questions est irrductiblement positive (ce qui malgr tout arrive quelquefois), il faut alors recourir un artifice de modlisation consistant reprsenter deux entits distinctes, nommes diffremment, mme si on sait quelles contiennent les mmes donnes 66. Cet artifice est prsent par la Figure 5-7.
Commune de rsidence

...

Personne(m) Personne(p)
Commune de naissance

Figure 5-7 Rgularisation du modle prcdent

Les dveloppements qui viennent dtre faits sur cet exemple ont une porte trs gnrale. Nous avons dlibrment choisi, dans un but pdagogique, de prsenter travers un cas anecdotique simplifi un problme qui, en pratique, apparat souvent et sous une forme plus embrouille. Ce problme est notamment li aux structures de lentreprise et leurs fluctuations. Il est en effet trs frquent, dans une organisation, quun lment soit rattach une mme structure de groupement par plusieurs liens de natures diffrentes, certains de ces liens tant plus permanents que dautres. Dans les modles de donnes oprationnels, o le syndrome de lusine gaz nest pas gnant outre mesure, ces liens sont reprsents sans hsitation par des associations multiples. Dans un modle dimensionnel o la chasse aux boucles smantiques doit tre sans merci, ltablissement dune reprsentation correcte est une affaire plus dlicate. Llaboration dun modle de donnes simple est une affaire complexe.

5.4 Indicateurs qualifis


Plusieurs indicateurs dun domaine peuvent correspondre en ralit plusieurs faons de reprsenter un mme indicateur fondamental. Ce phnomne est frquent, par exemple, en matire dinformations budgtaires, financires ou comptables, mais aussi dans les domaines techniques et scientifiques. Les exemples peuvent tre multiplis linfini. Un mme montant peut ainsi tre exprim : hors taxes et taxes incluses ;
66

Cette double reprsentation dune mme entit est conceptuelle. Elle sera reflte pour lutilisateur final dans le Modle de Prsentation. Mais elle nimplique pas, physiquement, un double chargement des donnes.

Jean-Marie Gouarn

68

Le Projet Dcisionnel

en francs, en dollars et en livres sterling ; en valeur prvue ou en valeur ralise ; selon plusieurs units de mesure ; selon plusieurs procds de mesure ; en montant absolu ou en pourcentage dune valeur de rfrence ; etc. Il sagit alors, plutt que de faits diffrents, de faits diffremment qualifis, diffremment reprsents, ou encore exprims selon des mtriques diffrentes. La plupart des indicateurs qualifis sont signals demble par le vocabulaire des utilisateurs, notamment quand plusieurs faits sont dsigns par le mme nom et ne se distinguent que par une expression ou une pithte (ex. : Revenu avant impt et Revenu aprs impt ). La qualification ou la mtrique dun indicateur peut correspondre lexpression de cet indicateur en relation avec plusieurs primtres, au sens du 5.3.2. Ainsi, dans un contexte adapt lexemple htelier de la page 66, on peut avoir plusieurs indicateurs de frquentation, correspondant chacun un certain dcoupage rgional pass ou actuel. Il est utile, sinon indispensable, de distinguer lindicateur fondamental de ses divers modes dexpression ou de reprsentation, et de ne spcifier comme faits, dans un contexte, que les indicateurs vritablement distincts. En effet, La dtermination explicite des faits et des qualifications est un excellent moyen daffiner la dfinition des faits concerns et de prvenir tout malentendu entre lutilisateur et le concepteur du systme ; La prsentation en tant que fait de chaque qualification de fait a pour consquence pratique de multiplier exagrment le nombre de faits, au dtriment de la simplicit de lecture du contexte. La liste des mtriques volue gnralement plus vite que les indicateurs fondamentaux eux-mmes, do lintrt dune description spare des qualifications. Pour dissocier les qualifications des faits tout en conservant la structure en FDN dun contexte, on peut reprsenter les qualifications sous une forme dimensionnelle. En dautres termes, un fait qualifi peut tre not une seule fois en tant que fait, toutes ses qualifications possibles tant dfinies par des dimensions supplmentaires dun type particulier, pouvant se combiner avec les autres dimensions du contexte. Il sagit l de dimensions qualificatives (DQ). Pour chaque requte, une dimension qualificative agit comme un slecteur permettant lutilisateur de choisir un mode dexpression des rsultats parmi une liste de modes dexpression.

Jean-Marie Gouarn

69

Le Projet Dcisionnel

FRF USD DM Y

Prvu Ralis

Devise

Dfinition budgtaire
Produit

Temps

Jour

Produit
Libell Prix

Activit
Montant ventes Revenu Marge Moyenne vente

Magasin
Nom Adresse

Client
Nom Adresse

Organisation

Clientle

Figure 5-8 Contexte qualifi

La Figure 5-8 est le graphe dun contexte quatre dimensions conditionnelles auxquelles sajoutent deux dimensions qualificatives. Lune dfinit la liste des devises dans lesquelles les faits peuvent tre valus, lautre la dfinition budgtaire. A titre dexemples, la figure indique une liste de valeurs possibles pour chaque qualification. Si, dans le mme contexte, on avait numr en tant que faits toutes les combinaisons possibles, on aurait au total 32 faits (442) dans la structure. La convention prsente ici pour spcifier les indicateurs qualifis ne doit pas faire oublier que les qualifications ne sont pas des dimensions au plein sens du terme. Elles sen distinguent au moins de deux manires : Dans une mme requte, plusieurs occurrences dune qualification peuvent tre spcifies. Cela signifie que les rsultats sont produire simultanment sous plusieurs formes. Plusieurs occurrences dune qualification correspondent par exemple plusieurs colonnes dans un tableau de bord ; La notion de hirarchie na videmment pas de sens dans les dimensions qualificatives. Il serait techniquement possible de rduire la liste des faits de nimporte quel contexte un seul lment, quon appellerait par exemple lindicateur , et quon assortirait des qualifications les plus htroclites. Selon la qualification, un mme indicateur reprsenterait ainsi leffectif de lentreprise, lge du Directeur Gnral ou le bnfice aprs impt. Un contexte modlis selon ce principe, si sduisant quil soit pour le technicien, serait cependant trs loign de la vision informationnelle de lutilisateur. Il est donc indispensable de sappuyer sur des critres rigoureux pour dcider si deux indicateurs apparents correspondent deux faits distincts ou deux qualifications dun fait unique. Ainsi, on considrera toujours comme distincts et indpendants deux indicateurs qui ne sont pas reconnus par les utilisateurs comme reprsentant deux apprciations dune mme grandeur et entre lesquels il nexiste pas de dpendance fonctionnelle connue.

Jean-Marie Gouarn

70

Le Projet Dcisionnel

5.5 Mthodes de consolidation


Dans la plupart des cas, lorsquil sagit de calcul sur des collections de valeurs, la notion de consolidation est perue comme synonyme de somme. Dans une base de donnes dcisionnelle, il est vrai que beaucoup dindicateurs se cumulent par addition selon les chemins hirarchiques de consolidation de leurs contextes respectifs. Un indicateur pouvant tre consolid par sommation pure et simple dans toutes les hirarchies du contexte est dit universellement additif, omni-additif ou, plus simplement, additif pour ce contexte. Cependant, si ladditivit est frquente, elle nest pas une rgle. En sappuyant sur lexemple de la Figure 5-8, on peut considrer le Montant des ventes comme additif dans toutes les hirarchies possibles du contexte67. Ce montant peut en effet tre somm en relation avec tout groupement de Jours , de Clients , de Produits ou de Magasins . En revanche, le dernier indicateur, qui est une moyenne, nest additif dans aucune hirarchie. Dune manire gnrale, sous le rapport des mthodes de consolidation, un indicateur peut tre additif ; non additif ; semi-additif, cest--dire cumulable par addition dans certaines hirarchies seulement. A cet gard, on peut classer les indicateurs en trois type fondamentaux selon leur mode de consolidation : Les flux exprims en montants absolus sont gnralement additifs (ex. : chiffres daffaires, quantits produites) ; Les stocks exprims en montants absolus sont gnralement semi-additifs, dans la mesure o ils sadditionnent dans un certain nombre de hirarchies classiques (organisation, territoire, clients, etc.) mais ne sadditionnent pas dans le temps (ex. : balance comptable, encours, surface de vente) ; Les montants relatifs, reprsentant des flux ou des stocks sous forme de rapports ou de variations (ex. : parts de march, taux dutilisation dune capacit de production, indice des prix). Toute requte impliquant une consolidation quelconque sur un fait quelconque doit cependant avoir un sens pour lutilisateur. Par consquent, il doit toujours y avoir une mthode de consolidation et une seule pour chaque fait dans chaque hirarchie. Cette mthode doit tre expressment spcifie lors de llaboration du MCD, et le concepteur ne doit jamais se fier aux vidences apparentes. Tous les faits se consolident dans toutes les hirarchies, mais chacun selon sa mthode, et, pour un fait, la mthode nest pas forcment la mme dans toutes les hirarchies. Un contexte nest donc pas compltement dfini tant que la mthode de consolidation de chaque fait dans chaque hirarchie nest pas spcifie. Les mthodes de consolidation associes un contexte ne sont pas seulement des lments techniques de conception du SID. Elles doivent tre prsentes lutilisateur dans la documentation du contexte. Elle font partie intgrante des mta-donnes du systme.

67

Les ventuelles dimensions qualificatives ne pouvant comporter aucune hirarchie.

Jean-Marie Gouarn

71

Le Projet Dcisionnel

6. Architecture gnrale

Le Modle Conceptuel des Donnes, dont la problmatique est prsente aux chapitres 3 et 4, est une reprsentation de lobjectif assign au Systme dInformation Dcisionnel. La qualit de cette reprsentation est le premier de tous les facteurs de succs. Mais, en termes de complexit et de cot de mise en uvre, cest larchitecture technique de lentrept de donnes et de tout ce qui gravite autour de lui qui constitue la charge principale de dveloppement et dexploitation du SID. Entre lenvironnement de requte et de prsentation offrant lutilisateur une information conditionne selon son propre point de vue, dune part, et les sources de cette information (principalement les chanes de production, ventuellement compltes par des apports externes) dautre part, il existe une double distance : les donnes sources ne sont ni smantiquement cohrentes, ni synchrones, ni lies entre elles dune manire adapte la perspective dcisionnelle (cf. chapitre 2) ; les environnements gnralement htrognes do proviennent ces donnes sont conus et organiss autour de technologies (anciennes ou rcentes) qui se prtent mal limplmentation directe dapplications dcisionnelles avances. Dautre part, le SID se doit, par rapport au SIO, dadopter un profil bas. Pour la production quotidienne, le dploiement du data warehouse doit tre aussi neutre que possible. Mme si le SID est, terme, un instrument privilgi du changement dans lorganisation, il ne doit pas simposer demble comme une source de contraintes techniques immdiates pour les applications existantes. De mme, les utilisateurs du SID ne doivent pas subir directement les contraintes dexploitation lies la production. Larchitecture du systme doit donc assurer la fois le conditionnement informationnel des donnes en provenance de la production et le cloisonnement entre lenvironnement oprationnel et lenvironnement dcisionnel. Les outils, les modalits dagencement des composants, les performances requises, peuvent varier linfini, selon la taille et le contenu des projets. Mais, quels que soient les volumes traits, les performances requises et les primtres concerns, la chane de mise disposition des donnes implique quatre fonctions 68 fondamentales : collecte ; intgration ;
68

Dans la littrature informatique, quand il sagit de dcomposer quoi que ce soit dans quelque domaine que ce soit, il est de bon ton de trouver un nombre dlments gal 3, 7 ou 12. Nous prions le lecteur de nous pardonner davoir, une fois de plus, manqu cet usage.

Jean-Marie Gouarn

72

Le Projet Dcisionnel

diffusion ; prsentation. Mme si chaque projet prsente des aspects irrductiblement spcifiques, ces quatre fonctions sont toujours prsentes dans un Systme dInformation Dcisionnel. Leur existence implique certaines constantes dans les architectures. En outre, cest toujours par rfrence lune ou lautre de ces fonctions de base que chaque composant doit sinsrer dans le systme. La fonction de collecte est celle qui assure lapprovisionnement du SID en donnes primaires puises dans le SIO et subsidiairement lextrieur ; La fonction dintgration assure la cohrence globale, au moins lchelle dun domaine, des donnes captures, et leur mise disposition en un point unique, conformment un modle unifi et normalis ; La fonction de diffusion puise les donnes dans lentrept central produit et maintenu par la fonction dintgration, et les met la disposition des applications, sous une forme dimensionnelle, contexte par contexte ; La fonction de prsentation gre, au moyen de services logiciels plus ou moins labors et plus ou moins dterministes, laccs de lutilisateur final aux donnes organises par la fonction de diffusion. Lidentification de ces fonctions primaires permet de sappuyer sur un cadre de rfrence de porte gnrale et daborder le choix et lintgration des outils sur des bases plus sres. Il serait toutefois excessivement simpliste et contraignant de dduire de linventaire de ces quatre fonctions lexistence obligatoire dautant de dispositifs techniques (matriels et logiciels) distincts. En fait, il ny a jamais de concidence prcise entre les organes physiques et les fonctions. Avant dexaminer plus prcisment le contenu et lagencement de ces services, il est utile de faire linventaire des architectures intermdiaires ou dgrades qui, sans correspondre de vritables SID, sont souvent mises en uvre pour produire des tableaux de bord et autres prsentations informationnelles de donnes.

6.1 Systmes intermdiaires


Lexploitation informationnelle des donnes de production na pas attendu lmergence du data warehouse. Depuis toujours, on met ou on tente de mettre la disposition des dcideurs des donnes conditionnes de manire tre plus ou moins assimilables des informations de pilotage.

6.1.1 Tableaux de bord oprationnels


La distinction entre oprationnel et dcisionnel tant trs rcente, les applications de production ellesmmes, dans le prolongement de leurs objectifs principaux, produisent le plus souvent des ditions systmatiques. Faute de mieux, ces tats de sortie sont parfois utiliss des fins dcisionnelles. Plus gnralement, ils ne sont l qu des fins de contrle ou de scurit. A vrai dire, il est mme frquent que ces ditions, nes de spcifications anciennes et maintenues par routine, soient tout simplement inutilises. La fourniture directe dinformations dcisionnelles au plein sens du terme par la production nest pas, en ralit, srieusement envisageable, pour les raisons suivantes : Une application de gestion ne dispose que de ses propres donnes et ne peut pas offrir de vision informationnelle adapte au primtre dun domaine danalyse ; Toute nouvelle requte informationnelle ncessite une activit de maintenance volutive sur les programmes, voire sur les structures de donnes, de lapplication. Il en rsulte non seulement des cots de dveloppement qui peuvent devenir, terme, astronomiques, mais aussi des dlais dattente prohibitifs ;

Jean-Marie Gouarn

73

Le Projet Dcisionnel

Les contraintes de lexploitation quotidienne prvalent sur les besoins dcisionnels. Lexistence de modules informationnels dans les applications de production, quelle que soit son utilit par ailleurs, ne peut donc rendre un service comparable celui dun SID. Compte tenu des structures budgtaires et mentales dans lesquelles sexerce lactivit informatique, il est beaucoup plus facile dajouter une extension informationnelle une application de production que de prendre linitiative dun data warehouse. Les cots des extensions de ce type ne sont jamais mesurs de faon continue et globale. Pourtant, sur une longue priode, sils apparaissaient consolids sur une ligne comptable, ils contribueraient sans doute relativiser le poids des investissements imputables aux SID ! A ces cots et contraintes directs sajoutent des effets drivs. A partir des ditions htroclites qui leur parviennent, les utilisateurs ont frquemment tendance utiliser des moyens de fortune (tels que des applications personnelles dveloppes laide de tableurs ou de gestionnaires de bases de donnes portatives ) pour obtenir des vues plus informationnelles sur les donnes. Ces outils danalyse parpills, aliments gnralement par des saisies manuelles redondantes, reprsentent des cots impossibles chiffrer. Leur dveloppement et leur utilisation impliquent notamment que les stratges et les analystes dpensent une plus ou moins grande part de leur nergie faire autre chose que leur mtier. Ce type darchitecture, en tout cas, correspond ce quil faut bien considrer comme le niveau zro de linformation dcisionnelle.

6.1.2 Interfaces de prsentation


Certains systmes mettent la disposition des utilisateurs une interface de dialogue autorisant la formulation de requtes interactives ou excution diffre. Les fonctions de collecte, dintgration et de diffusion tant absentes, les requtes sadressent directement aux bases de donnes de production.

Inte rface deRe te qu

Source 1

S ource 2

Source 3

Figure 6-1 Accs direct aux donnes oprationnelles

Cette configuration rpond sans doute lun des objectifs dun SID, dans la mesure o elle est thoriquement capable de traiter des requtes non prdtermines. Mais elle laisse subsister les barrires les plus fondamentales. Elle ne lve quun obstacle purement technique, celui de la connexion de lutilisateur aux sources de donnes. Les donnes restent ce quelles sont : htrognes et incohrentes. Loutil de prsentation nest jamais quun extracteur de donnes partir desquelles la vision du contexte informationnel est construire. Ce type denvironnement prsente en outre linconvnient majeur dtre entirement soumis aux contraintes de la production courante. Face aux bases de donnes actives, les transactions de production sont ncessairement prioritaires. Le traitement des requtes dcisionnelles seffectue donc dans le cadre de rgles dexploitation classiques, o les notions de file dattente et de tranche horaire lemportent sur celles dinteractivit et de temps de rponse.

Jean-Marie Gouarn

74

Le Projet Dcisionnel

6.1.3 Collecte et prsentation


Plus labores, dautres architectures assurent, en plus de la fonction de prsentation, la fonction de collecte. Ainsi, les requtes mises laide de la fonction de prsentation portent sur un rservoir de donnes copies (ou, pour employer le terme la mode, rpliques) partir des bases de production. Ce type dorganisation, parfois dsign sous le nom dinfocentre69, est sans doute la forme primitive du data warehouse, avec lequel il est parfois confondu. Cette configuration, quelle que soit la dsignation quon lui donne, reprsente une avance considrable en termes de disponibilit des donnes, puisquelle introduit une sparation physique entre les bases de production et les bases danalyse. Les requtes sont excutes sur des supports physiques ddis. Lactivit danalyse est donc, dans une large mesure, libre des contraintes les plus directement lies lexploitation oprationnelle.

Inte rface de Re te qu

Base de donnes ddie

Colle cte

S rce ou 1

S rce ou 2

S rce ou 3

Figure 6-2 Architecture d'Infocentre

Cette libration est cependant toute relative : Faute dun vritable outil dintgration, les donnes provenant des diffrentes sources sont simplement juxtaposes. Aucun modle de donnes consolid nest mis en uvre. Lunification est seulement physique ; elle nest pas ralise au niveau conceptuel. Lutilisateur ne peut trouver, dans cet entrept, que des bribes de modles de donnes htrognes et gnralement peu documentes. Si son domaine danalyse dpasse le primtre dune des sources, cest lui de naviguer, sous sa responsabilit et ventuellement sans boussole, dans le flot des donnes disponibles. Lutilisateur est souvent amen choisir entre labandon dune tche danalyse trop complique et lappel lquipe informatique, avec toutes les contraintes et les frustrations que suppose une telle alternative ; Les donnes brutes tant dans la plupart des cas inexploitables, lentrept est aliment, au moins en partie, par des procdures dextraction qui oprent un certain travail de transformation et de mise en forme. Ces mcanismes dalimentation sont gnralement dvelopps sur la base de besoins exprims diffrentes poques par diffrents utilisateurs, sans coordination densemble. Certains dentre eux ne font dailleurs que rpliquer dans des structures diffrentes des donnes dj charges par dautres. Il en rsulte une croissance simultane de la redondance et du dsordre, do une difficult croissante maintenir ce genre de systme ;
69

Le concept dinformation center est apparu aux Etats-Unis au dbut des annes 80. Selon certaines dfinitions, linfocentre se distingue du SID non seulement par son architecture logique (une seule base de donnes, pas de vision informationnelle unifie) mais aussi par sa volatilit (reprsentation de donnes actuelles sans conservation dhistorique). En ralit, linfocentre na jamais eu de dfinition stable et unanimement reconnue.

Jean-Marie Gouarn

75

Le Projet Dcisionnel

En labsence de service de diffusion, toutes les requtes agissent directement sur lentrept central de donnes, lequel doit par ailleurs tre priodiquement recharg. Il y a l, par consquent, un point de contention qui peut faire rapparatre les files dattente et faire obstacle un usage intensif de linfocentre.

6.1.4 Collecte, intgration et prsentation


On trouve aussi des infocentres volus, dans lesquels, en plus des fonctions de collecte et de prsentation, la fonction dintgration est partiellement ou totalement assure. Les utilisateurs disposent donc de donnes non seulement rassembles, mais aussi unifies et normalises, cest--dire organises selon un modle cohrent. Le dveloppement des environnements de ce type a t favoris par la gnralisation des systmes de gestion de bases de donnes relationnelles (SGBDR) et des environnements client-serveur. Par rapport au modle dinfocentre prsent au 6.1.3, lavantage majeur est laccs une vritable base de donnes, au lieu dune collection htrogne de copies. Les donnes peuvent donc tre organises selon le primtre et le vocabulaire du domaine concern, et non selon les points de vues disparates des applications produisant les donnes primaires, en liminant toute redondance inutile.

Inte rface de Re te qu

Base de donnes ddie

Int gration

Colle cte

S rce ou 1

S rce ou 2

S rce ou 3

Figure 6-3 Infocentre intgr

Il serait dangereux de croire que la seule combinaison dune base de donnes relationnelle et dun outil de requte produise delle-mme un infocentre intgr. Lintgration implique, en aval de la collecte, une activit de transformation (parfois profonde) des donnes captes, et cette activit ne peut tre spcifie que sur la base dun Modle Conceptuel de Donnes. Linfocentre intgr suppose donc une vritable dmarche de gnie logiciel et se distingue en cela des systmes aliments par des extractions la demande. Le gain pour lutilisateur, en matire de lisibilit des informations, est sensible par rapport larchitecture prcdente. Dautre part, lexistence dun modle de donnes densemble est cense viter le dveloppement non planifi de nouvelles procdures dextraction indpendantes les unes des autres.

Jean-Marie Gouarn

76

Le Projet Dcisionnel

Ce modle de donnes, toutefois, ne correspond pas directement la vision dcisionnelle. Dans la pratique, mme si le modle est irrprochablement normalis (ce qui nest pas toujours le cas), il sagit presque toujours dun modle de type oprationnel au sens o on la prsent dans la section 3.4. Ceci sexplique naturellement en partie par la tendance gnrale des administrateurs de donnes normaliser selon les mthodes quils ont apprises (et donc en sinspirant exclusivement de la 3 me Forme Normale). Cette tendance est dailleurs encourage par les diteurs de logiciels de prsentation, qui proclament souvent que les vues dcisionnelles, dans un infocentre, sont du ressort exclusif de leurs produits. Mais cette explication culturelle sen ajoute une autre, plus technique : labsence de distinction entre la fonction dintgration et la fonction de diffusion. Il est en effet difficile de concilier, dans un mme modle de donnes, un objectif dunification de sources oprationnelles avec une approche base de contextes dimensionnels (cf. 6.3). Enfin, comme dans le modle prcdent, les requtes dcisionnelles mettent directement contribution la base de donnes intgre, et sont donc tributaires du mme type de contraintes dexploitation.

6.2 Larchitecture de rfrence du SID


Le bon sens et la pratique ont dj largement dmontr quune architecture monolithique ntait pas en mesure de faire face lensemble des objectifs et des contraintes qui simposent un vritable Systme dInformation Dcisionnel. Entre la donne oprationnelle brute et linformation dcisionnelle effectivement disponible, les quatre fonctions fondamentales ne peuvent tre organises que selon une architecture en plusieurs couches .

Systme de Diffusion et de Prsentation

Systme de Collecte et d'Intgration

Source 1

Source 2

Source 3

Figure 6-4 Architecture de rfrence du SID

Lorganisation en couches, popularise initialement dans le monde des transmissions de donnes 70, a le mrite de sappliquer avantageusement tous les dispositifs techniques destins mettre en relation des
70

Notamment dans le modle dinterconnexion des systmes ouverts de lISO qui, entre autres qualits, possde 7 couches, et respecte donc lusage indiqu dans la note 72.

Jean-Marie Gouarn

77

Le Projet Dcisionnel

environnements htrognes. Elle permet notamment de limiter linterdpendance entre les fonctions, et de mieux matriser la complexit des protocoles et des interfaces. Pour ce qui concerne le SID, elle permet notamment de concevoir les fonctions de diffusion et de prsentation indpendamment des fonctions de collecte et dintgration, et dassurer un maximum disolation entre lutilisateur et les sources de donnes. Cela dit, il nest pas absolument indispensable que les quatre fonctions du SID, telles que nous les avons dfinies, concident prcisment avec quatre couches techniques. Quels que soient le nombre de composants logiques et physiques effectivement mis en uvre et les technologies employes, il convient essentiellement de distinguer dans le SID deux dispositifs distincts : le Systme de Collecte et dIntgration (SCI) ; le Systme de Diffusion et de Prsentation (SDP). Chacun de ces deux sous-ensemble gre comme son nom lindique deux des quatre fonctions vitales que nous avons identifies. Ce dcoupage fondamental est li la cohabitation, dans le systme, de modles de donnes diffrents, de contraintes de fonctionnement diffrentes et des liens dinterdpendance entre les fonctions.

6.3 Architecture et Modles de Donnes


Lune des caractristiques structurantes dun SID est la ncessit dans laquelle il se trouve de grer simultanment, dune manire ou dune autre, trois modles de donnes : le Modle dIntgration (MI) ; le Modle de Diffusion (MD) ; le Modle de Prsentation (MP). Le rle de chaque outil logiciel dans larchitecture du SID se dfinit et sapprcie essentiellement par rfrence lun de ces modles de donnes. Dans la pratique, ces modles sont dsigns par des appellations diverses, souvent lies au vocabulaire htrogne des diteurs de logiciel. Il nest pas rare, en outre, que la distinction ne soit pas clairement reconnue et comprise. Ceci produit invitablement des architectures compliques et peu maintenables, dans lesquelles toutes les fonctions sont inextricablement imbriques.

Jean-Marie Gouarn

78

Le Projet Dcisionnel

Modle de Prsentation

Modle de Diffusion

Modle d'Intgration

Figure 6-5 Architecture et modles de donnes

Le Modle Conceptuel de Donnes qui spcifie et caractrise un domaine danalyse du SID, tel quil est dfini au chapitre 4, correspond au Modle de Diffusion. Ce dernier reprsente en effet la structure dimensionnelle ventuellement multiforme sil existe une pluralit de domaines et de contextes selon laquelle les donnes doivent tre mises la disposition des applications dcisionnelles. Cette structure, naturellement, ne correspond pas au schma selon lequel les donnes sont manipules par le Systme dInformation Oprationnel. De l dcoule la ncessit de distinguer Modle dIntgration et Modle de Diffusion. Pendant et/ou aprs leur concentration physique par la fonction de collecte, les donnes sources sont filtres, transformes et unifies conformment un modle normalis que nous dsignons comme le Modle dIntgration. Ce dernier est le modle conceptuel dune base de donnes logiquement et physiquement cohrente, mais dont la structure reflte les oprations. En effet, la fonction du Modle dIntgration est dunifier les donnes oprationnelles, et non de les structurer en contextes danalyse dcisionnelle. Le MI est le modle conceptuel de toutes les donnes du SID ; lchelle dun projet, il est unique et complet. La dfinition du Modle dIntgration implique une approche mthodologique classique, fonde sur le paradigme entit-association et comportant, notamment, le respect des principes de normalisation appropris aux modles de donnes oprationnels. Le MI est la description smantique complte de lentrept de donnes proprement dit. Il se distingue en cela du MD. Ce dernier, orient vers lutilisateur dcisionnel, peut tre compartiment en domaines distincts et ventuellement disjoints. Chacun de ces domaines peut correspondre une base de donnes particulire alimente partir du data warehouse mais physiquement distincte. Le MD, entendons-nous bien, nest pas seulement un MI en pices dtaches. Le dcoupage du MD en sous-ensembles logiques dcoule de sa construction partir de vues dimensionnelles multiples, et non dun partitionnement technique du MI. Le MD reprsente lensemble des perspectives spcifiquement recherches sur linformation contenue dans lentrept de donnes. Pour employer un terme aussi populaire que mal dfini dans la littrature informatique, on peut parfois concevoir le MD comme le modle conceptuel dune grappe de data marts (magasins de donnes) gravitant autour dun data warehouse. Mais cette assimilation nest acceptable quavec rserve. Le concept de data

Jean-Marie Gouarn

79

Le Projet Dcisionnel

mart voque sans grande prcision une base de donnes dcisionnelle de volume modeste 71. Pour certains, il ne semble y avoir entre data warehouse et data mart quune diffrence dchelle. Or un Modle de Diffusion peut parfaitement tre implment dans une base de donnes unique au moins aussi charge que la base dintgration72. De la boutique au supermarch, les magasins, comme les entrepts, peuvent tre petits ou grands. La distinction intgration-diffusion a t mise en vidence, de faon beaucoup plus pertinente, travers les notions de Business Data Warehouse (BDW) et de Business Information Warehouse (BIW)73. Ces deux concepts relvent dune approche mthodologique qui a le double mrite de distinguer donne et information et den tirer des conclusions prcises en termes darchitecture. La sparation logique (et, si possible, technique) entre le Modle dIntgration et le Modle de Diffusion est une ncessit confirme par lexprience et sur laquelle nous croyons devoir insister. Le Modle dIntgration nest autre, sur le plan conceptuel, quune reprsentation consolide et pure des sources de donnes intressant le SID. A la limite, si la source tait une application oprationnelle unique ayant t conue selon une approche mthodologique impeccable, le Modle dIntgration serait le modle de donnes de cette application, transform de manire rendre compte de lhistorique. En pratique, llaboration du MI est une uvre de rtro-conception qui prend en entre des schmas de donnes htrognes et produit en sortie un schma de donnes unique normalis. La normalisation signifie ici notamment llimination des redondances et lunification du vocabulaire. Lunification concerne aussi bien la dsignation des entits et des proprits que la codification du contenu. Les structures de donnes apparaissant dans le Modle dIntgration doivent tre reprsentes dans leur contexte oprationnel, cest--dire agences les unes par rapport aux autres selon leurs situations respectives dans les processus de production. En effet, mme sil navait pas dautre objectif, le Modle dIntgration, sil tait exhaustif lchelle de lentreprise, serait une reprsentation intermdiaire indispensable pour dcrire lusage de chaque donne dans lorganisation. La connaissance de lusage exact des donnes et de leurs dpendances fonctionnelles dans le SIO est en effet un pralable son insertion dans un contexte dimensionnel du SID. Par consquent, les principes de construction du MI sont les mmes que ceux qui sappliquent aux Modles Conceptuels de Donnes oprationnels (cf. section 3.4). Le Modle dIntgration est donc dabord un MCD en 3me Forme Normale. Un tel Modle dIntgration pourrait tre considr comme un simple document intermdiaire de spcification et navoir dexistence que sur le papier. Mais ce choix, loin de simplifier larchitecture, imposerait des contraintes de conception et de fonctionnement trs lourdes dans le SID. La structure des contextes dcisionnels est trs loigne des structures de donnes traites par les applications oprationnelles. Dautre part, les traitements lis la collecte sont dj gnralement trs lourds. Si lintgration devait tre directement effectue dans la base de donnes de diffusion, il faudrait, dans les mmes chanes de traitement, raliser la fois lintgration et la redistribution des donnes sous forme de contextes dimensionnels. Un tel choix darchitecture serait trs pnalisant en termes de performances, compte tenu de la complexit de ces diffrents traitements. Mais les raisons essentielles de la distinction entre base dintgration et base(s) de diffusion sont dun autre ordre : Les besoins des utilisateurs du SID voluent plus vite que les applications du SIO. Les contextes dimensionnels qui constituent lessence du Modle de Diffusion reprsentent chacun un parti pris danalyse valable un moment particulier. Or, terme, les points de vue changent et se multiplient. A loppos, le Modle dIntgration prsente, au moins en courte priode, une structure invariante. Son volution suit celle des applications de production sur lesquelles il sappuie ; elle est donc beaucoup plus

71

Certains prfrent au data mart la notion, plus significative, de base de donnes thmatique. Mais pour dautres, le data mart semble ntre quun petit data warehouse, ce qui reflte indirectement un dfaut de distinction claire entre les diffrents organes dun SID.
72

Une base de diffusion peut tre physiquement plus volumineuse que la base dintgration qui lalimente, compte tenu des techniques employes pour rduire les temps de traitement des requtes (cumuls pr-calculs, donnes redondantes, index, etc).
73

Ces notions, introduites par IBM, sont prsentes de manire prcise dans louvrage de B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996.

Jean-Marie Gouarn

80

Le Projet Dcisionnel

lente que celle des applications dcisionnelles. Le MI est donc llment de rfrence le plus stable du SID ; Le Systme de Collecte et dIntgration synchronise des donnes qui, dans le SIO, ne sont pas jour les unes par rapport aux autres (cf. 3.5.3) et, pour sapprovisionner, doit sadapter aux contraintes dexploitation de chacune de ses sources. En revanche, compte tenu des objectifs du SID, la base de donnes de diffusion est obligatoirement dans un tat cohrent tant quelle est ouverte aux consultations. Si la base dintgration et la base de diffusion sont physiquement confondues, ladministration des mises jour est ncessairement plus dlicate ; Les outils et techniques les mieux adapts au traitement des consultations complexes sur des contextes dimensionnels ne sont pas les plus efficaces pour la collecte et lintgration des donnes partir de sources htrognes. Pour ce qui concerne plus particulirement les Systmes de Gestion de Bases de Donnes (SGBD), il convient dutiliser la technologie la mieux approprie chaque fonction, ce qui implique une sparation physique entre bases dintgration et bases de diffusion. Les modles dintgration et de diffusion doivent donc non seulement tre distingus conceptuellement mais encore tre mis en uvre sparment sous forme de bases de donnes distinctes. Lentrept de donnes nest pas lentrept dinformations. Le Modle de Prsentation, lui, nest pas un lment profondment structurant du SID. Il en constitue en quelque sorte le dcor. Toutefois, lutilisateur final lui attribue habituellement la primeur, puisque ce nest qu travers lui quil voit les donnes. En termes darchitecture, le Modle de Prsentation nest quun masque plus ou moins transparent qui recouvre, pour lutilisateur, le Modle de Diffusion. Ce dernier est une reprsentation interne de la vision informationnelle. Un utilisateur final ne raisonne pas en termes de dimensions changeantes, de contextes qualifis et dindicateurs semi-additifs. Il matrise encore moins les langages dinterrogation des SGBD (relationnels ou matriciels) qui contrlent le Modle de Diffusion. Laccs au MD ncessite donc une interface homme-machine, elle-mme dtermine sur la base dun Modle de Prsentation. Le MP, comme le MI, doit tre distingu du MD diffrents gards : Le MP est en ralit multiforme : avec la varit des outils de prsentation actuels et la libert quils laissent lutilisateur, on peut associer une grande varit de cadres de prsentation une mme structure de diffusion ; La structure dun MP (et sa modification ventuelle) nest pas critique pour le data warehouse. A la limite, un utilisateur averti peut crer ou dtruire des Modles de Prsentation personnels sans consquence pour les autres utilisateurs ; Dans les environnements client-serveur les plus gnralement utiliss aujourdhui et sans doute dans lavenir moyen terme pour les projets dcisionnels le MP est normalement mis en uvre sur le poste de travail de lutilisateur (client) tandis que le MD est plutt implment sur un serveur de donnes74. En pratique, un Modle de Prsentation peut tre ouvert ou ferm. Dans un MP ouvert, lutilisateur dispose dune vue gnrale du MD, contexte par contexte, et peut librement composer ses propres requtes. A loppos, un MP ferm prsente un catalogue de requtes prdfinies, que lutilisateur peut seulement paramtrer. Entre les deux, il existe une gradation infinie de possibilits de compromis entre libert et facilit dutilisation. Les Modles de Prsentation sont physiquement grs par des outils trs dissemblables (requteur, tableur, SIAD75, etc.) provenant de nombreux fournisseurs dont les vocabulaires sont fortement htrognes. Une typologie de ces produits est propose au chapitre 8. Concernant le rle du MP dans larchitecture du SID, un pige classique mrite dtre signal ici. La publicit dveloppe autour des outils de prsentation et le fait que ces outils soient associs la partie merge du SID tendent entretenir une certaine confusion, auprs du concepteur naf, sur le rle du Modle de Prsentation, en lui attribuant, de fait, celui du Modle de Diffusion. En dautres termes, on imagine parfois que les outils de prsentation produisent eux seuls des vues dcisionnelles sur des bases de
74 75

La distinction est cependant plus subtile dans une architecture dhypertexte distribu (Web). Systme Interactif dAide la Dcision

Jean-Marie Gouarn

81

Le Projet Dcisionnel

donnes oprationnelles. Ceci revient ignorer les aspects les plus dlicats et les plus dcisifs de lentrept de donnes. Le Modle de Prsentation a pour vocation de dispenser lutilisateur de toute manipulation technique directe sur une base de donnes et de lui offrir un accs ergonomique des vues adaptes son mtier. Ces vues doivent cependant sinscrire dans des contextes pralablement spcifis et mis en uvre dans un Modle de Diffusion : le MP est un complment du MD. Le placage direct dun Modle de Prsentation sur un Modle dIntgration (non organis pour les requtes multidimensionnelles) correspond prcisment larchitecture dinfocentre intgr (voir Figure 6-3) dont on a prsent les limites. En matire daccs physique aux donnes, il comporte en outre deux sortes dinconvnients : Plus le schma de la base de donnes est loign de la structure dimensionnelle de chaque contexte, plus leffort dlaboration du MP est important. Or, dans ltat actuel des outils, et toutes choses gales par ailleurs, le cot de dveloppement dun MP sur une structure de donnes interne inadapte savre, daprs nos observations, la fois considrable et imprvisible ; Les requtes adresses par lutilisateur via le MP sont dynamiquement traduites par des requtes la base de donnes. Si le modle interne de cette base est un schma relationnel dans lequel les informations dun mme contexte sont disperses dans un grand nombre de tables et si les agrgats les plus usuels ne sont pas prcalculs, loutil de prsentation doit laborer une stratgie lourde et soumettre au SGBD des enchanements de requtes faisant appel des jointures complexes. Une requte mettant en jeu trois six tables dans un schma dimensionnel appropri peut parfaitement faire appel dix, quinze ou vingt tables dans un schma classique de type oprationnel. Les temps de rponse peuvent alors devenir intolrables, et les incidents frquents. Lapparente facilit de manipulation et la richesse graphique des outils de requte, ainsi que leur aptitude masquer, pour lutilisateur final, les aspects techniques de la ngociation avec les bases de donnes, ne doivent donc pas faire illusion. Le MP, la diffrence des deux autres modles de larchitecture, nest pas associ une capacit de stockage significative 76. Il nest quun support du dialogue entre lutilisateur et la base de donnes, et son rle nest pas de combler la distance structurelle qui existe entre un modle de donnes oprationnel et un modle de donnes dcisionnel. On voit couramment, dans la pratique, des quipes de conception aborder la construction dune application dcisionnelle par le choix dun outil interactif de requte et de visualisation, et par llaboration de Modles de Prsentation dfinis en fonction des possibilits et des limites de cet outil. Limportance du modle dimensionnel interne, cest--dire du Modle de Diffusion, est alors ignore : on compte sur les astuces de loutil de prsentation pour sadapter un schma de base de donnes quelconque. On se heurte alors, invitablement, des problmes de performances auxquels on fait face en dnormalisant la structure de la base de manire optimiser la prise en charge des requtes connues. Cette dmarche est praticable tant quil ne sagit que de produire des tableaux de bord prdfinis. Elle est bannir sans compromis dans un vritable SID volutif, sachant notamment que : chacune des optimisations successives (faites au coup par coup et sans ide de Modle de Diffusion) a pour effet daugmenter la complexit de la base de donnes dont la maintenance, terme, devient de plus en plus difficile ; plus le schma de la base de donnes est complexe et loign de lide de contexte dimensionnel normalis, plus le dveloppement et la maintenance des Modles de Prsentation sont coteux ; la base de donnes dintgration doit, en priorit, tre rafrachie selon des contraintes dexploitation qui peuvent entrer en conflit avec la stratgie doptimisation des requtes. Lagencement des trois modles de donnes du SID sinscrit parfaitement dans larchitecture de rfrence prsente la section 6.2, sachant que : le Modle de Prsentation ne se conoit pas indpendamment du Modle de Diffusion ;
76

Certains outils de prsentation sont aujourdhui capables de mmoriser des extraits de bases de donnes, sous forme dimensionnelle. Ce procd (par ailleurs trs limit en volume) quivaut en fait dporter un sous-ensemble du Modle de Diffusion.

Jean-Marie Gouarn

82

Le Projet Dcisionnel

les procdures dacquisition des donnes sources dpendent du Modle dIntgration, mais non du Modle de Diffusion ; le Modle dIntgration et le Modle de Diffusion, mme si le second dpend du premier pour son alimentation, correspondent des bases de donnes logiquement distinctes ; les applications dcisionnelles utilisant les Modles de Diffusion et de Prsentation sont asynchrones par rapport aux mcanismes dacquisition des donnes. Il existe donc une ligne de dmarcation assez claire entre, dune part, le SCI, dont la fonction est dalimenter et de maintenir un Modle dIntgration et, dautre part, le SDP charg de la distribution et de la prsentation des donnes dans un format dcisionnel. Que le choix des produits soit arrt lavance sur la base de critres commerciaux et politiques, ou motiv par des critres techniques un stade avanc des projets, il importe que chaque outil soit valu et mis en uvre selon sa place dans cette architecture.

Jean-Marie Gouarn

83

Le Projet Dcisionnel

7. Alimentation

Comme nous lavons dit et rpt, la modlisation des donnes est llment central de la dfinition dun SID. On ne saurait toutefois dduire de cette affirmation que le SID ne comporte que des donnes et soppose en cela au SIO qui comporte des donnes et des traitements. La distinction est en ralit dune autre nature : dans le SIO, les traitements sont apparents pour lutilisateur et sappuient sur un modle de donnes masqu, alors que, dans le SID, lutilisateur voit un modle de donnes aliment par des traitements invisibles. Lessentiel des traitements, dans un SID, se rapporte aux fonctions de collecte et dintgration. Le Systme de Collecte et dIntgration (SCI) est le sous-ensemble le plus complexe dun SID. Sa construction et son exploitation comportent le plus grand nombre dincertitudes techniques. Cest aussi le socle sur lequel repose tout le systme : la base dintgration nest autre, en effet, que lentrept de donnes proprement dit, cest--dire la rfrence commune pour toutes les applications du Systme de Diffusion et de Prsentation. La nature, le nombre, lhtrognit des sources de donnes possibles sont tels que chaque projet, aujourdhui, est un cas particulier, et donc que larchitecture dalimentation doit tre chaque fois rinvente. Lexprience nous dmontrant chaque jour quaucune recette nest gnralisable, nous ne cherchons pas dans ce chapitre en inventer une. Lobjectif est plutt ici dattirer lattention sur les diffrents aspects dune complexit trop souvent sous-estime. Il nest presque jamais possible denvisager une recherche de la solution optimale par exprimentations successives, compte tenu du cot et des dlais de dploiement dune architecture dalimentation complte. Le prototypage, qui est le seul moyen de validation efficace des Modles de Diffusion et de Prsentation, nest donc pas toujours praticable pour ce qui concerne la partie amont du systme. Le droit lerreur et au ttonnement tant restreint, les surprises sont toujours possibles jusqu un stade avanc des projets. La mise en uvre dun SID ne doit pas perturber lactivit oprationnelle. Cela signifie que le SCI doit tre conu en vue dun impact minimal sur les applications de production. Mais en outre, tout en respectant cette contrainte, le SCI doit tre mme dassurer une priodicit de rafrachissement des donnes en rapport avec les exigences des applications du SDP. Comme on la vu, le SCI assure deux fonctions : la capture slective (collecte) et la mise en conformit un modle (intgration). Ces deux fonctions, toutefois, ne correspondent pas ncessairement des tapes de traitement ou des organes techniques distincts. Une mme procdure, un mme outil, peuvent assurer simultanment une activit de collecte et une activit de transformation contribuant lobjectif dintgration. La distinction entre collecte et intgration est donc plus logique que technique.

Jean-Marie Gouarn

84

Le Projet Dcisionnel

Enfin, bien quil constitue la partie la plus stable du SID, le SCI est nanmoins appel voluer beaucoup plus rapidement quune chane de gestion classique. Cette volution est dabord une simple extension de capacit, lie la croissance inluctable de lentrept de donnes. Elle est aussi qualitative, sachant que toute modification intervenant soit dans la structure des sources de donnes, soit dans celle des applications dcisionnelles, peut avoir un impact sur lentrept et sur les traitements dalimentation. Lvolutivit de la plate-forme est donc, plus encore que sa puissance, un critre de choix impratif.

7.1 Transformation des donnes


Lalimentation du SID ne se rduit pas une activit de copie de donnes dun environnement un autre. Le fait que, en gnral, un data warehouse soit une base de donnes relationnelle alimente partir de sources varies et elles-mmes rarement relationnelles ne doit pas donner lieu confusion. Le reconditionnement physique des donnes est une ncessit technique et non un objectif. En ralit, les donnes charges par le Systme de Collecte et dIntgration sont plus souvent cres que copies. Il nexiste pas de correspondance directe entre le modle des sources de donnes et le Modle dIntgration sur lequel sappuie le SID. Les donnes susceptibles dtre captes ne sont de rares exceptions prs quune matire premire. Le SCI est un processeur dinformation qui, partir de cette matire premire, produit des donnes. Son rle est analogue celui dune industrie minire 77 qui dtecte, extrait, purifie et transforme le minerai pour le livrer sous forme de barres ou de tles normalises et prtes tre manufactures. Hormis les situations exceptionnellement favorables et les projets de trs modeste envergure, le SCI est un service forte valeur ajoute. Il doit produire un flot dinformations conforme la norme smantique du Modle dIntgration partir dun gisement brut de donnes. Ceci implique lexcution simultane ou successive dun certain nombre de tches.

7.1.1 Synthse des objets


Le Modle dIntgration est un Modle Conceptuel de Donnes dont la structure smantique est celle dune base de donnes oprationnelle normalise selon les principes prsents la section 3.4. Ce modle est unifi, quels que soient le nombre et lhtrognit des applications oprationnelles qui lalimentent. Rappelons que, dans le monde rel, les donnes de production sont organises application par application, sans rfrence commune et, en fait, sans vritable objectif de standardisation. Pour offrir un support solide et exploitable, le Modle dIntgration doit quant lui tre normalis sans compromis, ce qui implique la rsolution dun certain nombre de problmes relatifs aux sources de donnes. La transposition des donnes extraites du SIO dans la base dintgration est un vritable travail de normalisation et de synthse. Ds lors que les donnes sont puises des sources multiples, la perception du modle est presque toujours, au dpart, brouille par lexistence de synonymes et de polysmes. Autrement dit : des noms qui diffrent dune source une autre peuvent dsigner des objets identiques ou semblables (synomymie) ; un mme nom peut, selon la source, dsigner des entits ou des proprits distinctes ayant ou non des proprits en commun (polysmie).

77

Les fonctions du SCI, malgr cette analogie, ne doivent pas tre confondues avec les applications dites de data mining.

Jean-Marie Gouarn

85

Le Projet Dcisionnel

De tels phnomnes sont des facteurs dambigut considrables. Ainsi, une entit dsigne comme un Client dans une application peut aussi bien tre nomme Compte dans une autre et Dossier dans une troisime. Deux grandeurs mesurant des ralits diffrentes peuvent sappeler Chiffre daffaire . Ce problme de vocabulaire est assez classique et se rencontre galement dans tous les grands projets en rapport avec les systmes oprationnels. Il prend cependant ici une importance dautant plus grande que les sources sont des applications spcifies et conues des poques diffrentes, par des quipes diffrentes et au service de mtiers diffrents78. En outre, il est souvent difficile dobtenir la dfinition exacte et prcise de chaque donne dans une application existante. Force est de constater que les prceptes les plus fondamentaux du gnie logiciel, notamment en matire de dictionnaires de donnes, sont rarement mis en uvre. Le concepteur du data warehouse ne peut jamais compter sur la disponibilit de glossaires prcis et exhaustifs. Ce nest donc gnralement quau prix dune enqute systmatique quil peut tablir, dune part, la dfinition des donnes dcisionnelles recherches, et dautre part la liste des donnes oprationnelles ncessaires. Au-del de la normalisation du vocabulaire, qui pse surtout sur les phases dtude et de spcification, se pose le problme de la transformation des structures de donnes auquel doivent rpondre des solutions techniques pendant toute la vie du projet. La structure du Modle dIntgration, bien quelle ait une orientation oprationnelle, nest pas une copie conforme de celle de ses sources. Elle sen diffrencie plusieurs points de vue : Il ny a pas lieu de retenir, dans la composition des entits du MI, toutes les proprits des entits oprationnelles correspondantes. Certaines proprits nont de sens ou dutilit que dans le cadre oprationnel, linstant prsent, et ne sont pas susceptibles de servir de base llaboration dindicateurs ou de variables conditionnelles pertinentes ; Une entit du MI peut intgrer des proprits qui, dans les environnements sources, appartiennent des entits diffrentes, voire des applications diffrentes ; La fusion des donnes fait apparatre entre les entits un rseau dassociations qui napparaissent pas explicitement dans les structures de donnes sources ; Des entits synthtiques, nayant aucune existence a priori dans les sources, peuvent apparatre dans le MI. Pour illustrer ces remarques, on peut voquer le problme classique de la dfinition du Client . Le Client au sens large, notion centrale dans beaucoup de projets dcisionnels actuels, existe, sous des appellations ventuellement diffrentes79, dans les secteurs dactivit les plus divers. Mais, dans la plupart des cas, linformation primaire disponible est plutt lie aux produits et aux activits, et non directement au Client. Cest la consquence logique du fait que lhistoire du Client nest bien sr que lhistoire des relations entre le Client et lorganisation. Le Client gnrique nexiste donc pas dans le SIO ; il y a au contraire une version du Client pour chaque chane de traitement ayant eu affaire lui. Sachant quil passe des commandes, reoit des marchandises livres et paie des factures, le Client peut tre ainsi vu de deux ou trois manires, voire plus. La question nest pas de savoir si le vrai Client est celui de lapplication dadministration des ventes ou celui de la facturation. Elle est de dfinir une nouvelle entit Client comportant une description utile pour le SID. Cette nouvelle entit possdera ventuellement deux proprits Adresse : une adresse de livraison et une adresse de facturation. Linformation quantitative sur le client est souvent obtenue partir de donnes de facturation. Ceci pose un problme particulirement pineux lorsque le lien entre facture et client nest quindirect.

78

Ces applications ont mme parfois t dveloppes dans des organisations diffrentes. Cest le cas par exemple lorsque la structure actuelle de lenterprise rsulte dune fusion, ou plus simplement lorsquon intgre des banques de donnes acquises auprs de fournisseurs extrieurs.
79

Abonn, Administr, Assur, Contribuable, etc.

Jean-Marie Gouarn

86

Le Projet Dcisionnel

Citons le cas significatif dune entreprise de transport rapide de colis. Un colis peut tre achemin en port pay ou en port d ; la facturation est lie dans le premier cas lexpditeur et dans le second cas au destinataire. Cela signifie notamment que les factures rattaches un expditeur donn peuvent ne reflter quune partie du volume daffaires ralis avec lui, le reste ayant t factur aux destinataires en port d. Pour reconstituer dans lentrept de donnes le chiffre daffaires ralis avec un expditeur indpendamment du mode de paiement, il faut, aprs avoir intgr les montants qui lui ont t facturs, retrancher les montants associs des colis quil a lui-mme reus en port d ; ajouter des donnes de facturation rattaches aux destinataires auxquels il a expdi des colis en port d. Or, la seconde opration oblige tablir des rapprochements entre destinataires et expditeurs, ce qui peut impliquer un cheminement logique compliqu travers des donnes de routage puises dans dautres sources. La ralit est encore plus complexe sil existe des chanes informatiques diffrentes selon les catgories de produits. La description du Client est alors encore plus clate, et son intgration plus dlicate. Lintgration du Client amne parfois rsoudre une difficult dun tout autre ordre. Mme sil est identifi en tant que tel dans le SIO, le Client fait souvent lobjet dune segmentation lie lorganisation de lentreprise et sans rapport avec les ventuels objectifs des utilisateurs du SID. Les clients sont souvent classs en catgories telles que particuliers , professionnels et entreprises , chaque catgorie tant traite selon des modalits distinctes par une branche ddie de lorganisation. Par ailleurs, dans certains systmes, on doit grer, ct des clients rguliers, des clients occasionnels non identifis, chacun nayant dexistence qu travers une Affaire ou un Dossier . Or les objectifs du SID peuvent ncessiter lexistence dun Client gnrique, cest--dire dune entit possdant les proprits communes tous les clients, et dpouille de celles qui nont de sens que pour une catgorie particulire de clients. Un objet peut, la limite, ne pas avoir dexistence a priori dans le systme de production dune entreprise, tout en ayant une importance centrale dans le SID. Le Client du marketing bancaire est un cas typique cet gard. Les donnes primaires sont en effet lies, dans lactivit oprationnelle de la banque, au Compte et non pas au Client. Or ce dernier correspond naturellement laxe danalyse le plus systmatiquement sollicit dans les applications dcisionnelles orientes vers le marketing. Le Client est alors un objet de synthse, principalement construit partir de donnes relatives aux Comptes. La synthse ne sarrte pas, dailleurs, au Client lmentaire titulaire dun ou plusieurs Comptes. Elle se poursuit en effet un niveau hirarchique plus lev : le marketing sintresse au plus haut point des entits correspondant des regroupements de Clients, des fins de segmentation du march et de dtermination de cibles. Ces regroupements, qui se traduisent par des hirarchies multiples dans le Modle de Diffusion du SID, correspondent aux diffrents rles sociaux du Client et aux associations entre Clients qui peuvent en dcouler (par exemple : conjoint, parent, associ, voisin, collgue, etc.). De telles notions sont encore plus trangres au SIO que le Client lui-mme. Plus gnralement, on peut mme dire que plus une information est intressante dans une perspective de segmentation (au sens o on lentend dans le vocabulaire du marketing), moins on a de chance de la trouver sous une forme directe dans les donnes de production de la banque80. Le Client du Modle dIntgration, et les indicateurs dactivit qui sy rapportent, seront donc des donnes de synthse construites partir de proprits recueillies dans diverses entits oprationnelles. La problmatique du Client nest bien entendu quun exemple, cit ici des fins pdagogiques. Des questions tout fait analogues se posent pour la plupart des entits du MI, dans des domaines centrs sur dautres concepts que la clientle. Ils concernent aussi bien lorganisation, les infrastructures, les produits, les oprations, le march, les moyens de production et tous les autres axes potentiels danalyse. Lunification smantique est un premier facteur de rorganisation des donnes. Mais ce nest pas le seul.

7.1.2 Successions dtats


On a voqu au 3.5.3 limpact de la reprsentation explicite des tats successifs dun objet dans le temps.
80

Lexemple du marketing bancaire est dautant plus significatif quil sagit dun secteur o les SID connaissent un dveloppement particulirement vigoureux. Des outils coteux et sophistiqus ont t mis au point pour la synthse des Clients et des groupements de Clients en vue de lalimentation des bases de donnes dcisionnelles.

Jean-Marie Gouarn

87

Le Projet Dcisionnel

Dans un entrept de donnes dcisionnel, il est gnralement ncessaire de mmoriser lvolution de toutes les donnes. Cela va de soi pour les faits (ou indicateurs), ou du moins pour les donnes permettant de les reconstituer, dont le SID a prcisment pour but de suivre la trace. Mais cela concerne aussi les conditions (ou variables dimensionnelles). Une analyse historique correcte ncessite en effet la prise en charge des dimensions changeantes (cf. Section 5.3) qui implique son tour la mmorisation, dans lentrept dintgration, des tats successifs de toutes les variables dimensionnelles. Lorsque lune des proprits dun objet (par exemple ltat civil dun Client ou la capacit de production dun Etablissement) change, dans le SIO, lobjet est simplement mis jour, ce qui veut dire que lancienne valeur disparat. Dans lentrept de donnes, lobjet nest pas mis jour ; cest une nouvelle occurrence qui est cre. Il y a donc coexistence, dans la base dintgration, de tous les tats (ou versions) successifs de lobjet. Mais pour que la chronologie soit reprsente, il est ncessaire de mmoriser deux proprits supplmentaires dans la structure de lobjet, savoir la date de dbut et la date de fin de validit de chaque tat. Ces dates ne sont pas des conditions au sens du modle dimensionnel : elles ne sont pas destines servir de critres dans des requtes, et napparaissent donc pas dans les contextes. Ce sont des indications de service lusage du Systme de Diffusion et de Prsentation, permettant de configurer correctement les croisements entre la dimension priodique et la dimension changeante concerne.
Jour
Chiffre d'affaires Units vendues Date

Client (m)
Statut Activit Code postal

Client (p)
Code Client Raison Sociale Date Cration

Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 01 12/06/1995 18/09/1995 SOGELEC 01/01/1987 S.A.R.L. Electro-mnager 78956

Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 02 19/09/1995 31/05/1996 SOGELEC 01/01/1987 S.A.R.L. Electro-mnager 76229

Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 03 01/06/1996 16/02/1997 SOGELEC 01/01/1987 S.A.R.L. Informatique 76229

Client 3857
Code Client Version Date dbut Date fin Raison sociale Date cration Statut Activit Code postal 3857 04 17/02/1997 24/09/1997 SOGELEC 01/01/1987 S.A. Informatique 76229

Figure 7-1 Mmorisation des tats successifs d'un Client

La Figure 7-1 est un exemple de la reprsentation des tats successifs dun objet Client . Pour mmoire, la partie suprieure de la figure indique la forme dimensionnelle recherche dans lun des contextes du Modle de Diffusion (cf. 5.3.1). La partie infrieure montre sous quelle forme lhistorique ncessaire pour alimenter ce contexte peut tre enregistr dans lentrept de donnes. On a ici reprsent plusieurs occurrences portant le mme identifiant Code client , mais dont certaines proprits descriptives diffrent. Entre la version 1 et la version 2, le client a dmnag : sa proprit Code postal a chang. Puis son Activit a chang, ce qui a eu pour effet de faire apparatre une version 3. Enfin, une modification de Statut a justifi une version 4. La zone grise indique des proprits additionnelles qui nexistent pas dans la description oprationnelle du Client , et qui sont donc cres et renseignes par le Systme de Collecte et dIntgration pour distinguer et caractriser les tats (ou versions) successifs de lobjet. Grce ce jeu de donnes, les outils qui chargent les contextes de diffusion peuvent organiser les intersections dimensionnelles de manire assurer les bonnes connexions entre les dates de la dimension priodique et les tats du Client mouvant . Par exemple, le Client 3857 dans sa version 2 est connect,

Jean-Marie Gouarn

88

Le Projet Dcisionnel

via les indicateurs du contexte, tous les Jours de la dimension temporelle dats du 19/09/95 au 31/05/96 et aucun autre jour. Le dcoupage de lhistoire du Client tant implicitement reprsent par ces connexions dimensionnelles, les dates de dbut et de fin nont pas lieu dtre reportes dans le corps de lentit Client (m) . Ces deux dates, ainsi que le numro de Version, sont donc des informations propres au SCI, puisquelles nexistent explicitement pas plus dans le Modle de Diffusion que dans le modle des sources oprationnelles. La proprit Version, elle, nest mme jamais strictement obligatoire dans le modle dintgration. Son rle est de faciliter lidentification de chaque Objet-tat : un identifiant tel que Client 3857 Version 2 est techniquement plus maniable (dans une base de donnes comme dans le langage courant) que Client 3857 du 19/09/95 au 31/05/96 .

7.1.3 Agrgation primaire et enrichissement


Bien que ce ne soit pas une rgle gnrale, un entrept de donnes est souvent charg avec des montants cumuls plutt quavec des donnes correspondant strictement au dtail des oprations. A ce sujet, il convient de faire une distinction prcise entre deux sortes dagrgation. Dans le Systme de Diffusion et de Prsentation, on est frquemment amen pr-calculer des cumuls tout en conservant les valeurs de base qui entrent dans le calcul. On peut par exemple enregistrer le montant cumul des indicateurs dactivit en rapport avec une ligne de produits pour une rgion, pour un segment de march au cours dun trimestre, tout en gardant aussi en mmoire le montant par client, par produit et par jour. Ces cumuls sont alors conceptuellement redondants puisquon a les moyens de les recalculer la demande. Leur existence nest justifie que par des besoins doptimisation technique ; elle nest quun aspect parmi dautres de la dnormalisation du Modle de Diffusion des fins de performances. Dans le Systme de Collecte et dIntgration, lagrgation a pour seul but dliminer les donnes oprationnelles dtailles et de les remplacer par des donnes plus synthtiques. Les valeurs lmentaires entrant dans le calcul ne sont pas enregistres dans lentrept, soit parce quelles ne sont pas utiles pour les utilisateurs du SID, soit parce que leur mmorisation intgrale reprsente un cot exagr par rapport aux avantages quelle apporterait. Le travail dagrgation primaire effectu par le SCI tend donc essentiellement rduire le volume de lentrept et, ventuellement, simplifier sa structure. Il nintroduit aucune espce de dnormalisation. Le choix des agrgats primaires est naturellement dict par le grain des indicateurs dfinis dans les diffrents contextes dimensionnels du SDP. Il relve des spcifications fonctionnelles du projet. Ce choix est dailleurs lune des tches les plus dlicates. Interrogs de but en blanc sur le niveau de dtail requis, les utilisateurs ont une tendance gnrale prfrer le plus fin possible, cest--dire le niveau de lopration ponctuelle de production. Ce phnomne nest en ralit quune manifestation parmi dautres du syndrome de la non-dcision : opter pour un contenu exhaustif est une manire de ne pas se prononcer sur les limites de ce contenu. Si on chargeait effectivement dans lentrept dcisionnel toutes les donnes dtailles dont quelquun aurait dit en comit de projet quelles pourraient ventuellement tre utiles , on atteindrait trs rapidement des volumes insupportables. Lagrgation primaire doit tre effectue le plus en amont possible dans le SCI. En effet, les donnes agrges reprsentant par dfinition un volume rduit par rapport aux donnes primaires, le simple bon sens prescrit dexcuter en premier les traitements qui rduisent le plus le volume. Lidal est de traiter lagrgation linstant de la capture, sur la plate-forme technique source. Mais cet idal, comme on le verra, est souvent hors de porte. Lenrichissement est, comme lagrgation primaire, une opration de calcul produisant des donnes de synthse partir des donnes oprationnelles. Il sagit toutefois dune opration plus labore et dont les objectifs ne sont pas les mmes. Lagrgation condense une collection homogne de donnes tires dune mme structure. Lenrichissement produit des donnes de synthse partir de combinaisons de donnes puises dans des structures diffrentes selon des formules plus ou moins complexes. Il a parfois pour effet, comme lagrgation primaire, de rduire les volumes, mais il peut aussi produire leffet oppos : les donnes enrichies peuvent parfaitement reprsenter un volume suprieur celui des donnes brutes.

Jean-Marie Gouarn

89

Le Projet Dcisionnel

Lenrichissement consiste crer une donne inconnue dans la source, mais pouvant tre dduite de deux ou plusieurs donnes sources (appartenant ventuellement des fichiers diffrents). On peut par exemple dduire du numro dimmatriculation dun vhicule la rgion o est domicilie son propritaire ; de mme, on peut dduire lge dun salari une date donne de son numro de scurit sociale. La pratique de lenrichissement devient la fois plus complexe et plus systmatique ds lors quil convient de fusionner avec les donnes originaires de la production des informations complmentaires externes, ces dernires provenant de clients, de fournisseurs, dobservatoires conomiques spcialiss et de divers partenaires. Pour une application dcisionnelle dvaluation du risque, une banque souhaitera par exemple complter, laide de fichiers publics dinformations financires sur les socits, les donnes dont elle dispose sur sa clientle dentreprises. Dans ce cas, lentrept de donnes pourra comporter une structure de donnes Client synthtise partir dlments provenant de deux systmes dinformation. Limportation de donnes externes nest pas sans difficult. En effet, il existe gnralement une forte divergence de codification et de classification entre le SI interne et les fournisseurs externes. Dans notre exemple, il peut ne pas y avoir de correspondance immdiate entre les modes de segmentation de clientle pratiqus respectivement par la banque et par le fournisseur de donnes. La synthse raliser peut alors ncessiter un traitement beaucoup plus complexe quun classique appareillage de fichiers.

7.1.4 Formatage et standardisation


Des donnes de mme type et de signification similaire sont gnralement enregistres selon des formats fortement htrognes par les systmes de production. Pour tre rellement utilisables dans le SID, les donnes doivent tre standardises, ce qui implique des traitements de formatage. Les oprations de formatage les plus simples, quoique justifiant parfois de fortes puissances de calcul, sont la concatnation et la sparation. La premire consiste mettre bout bout deux ou plusieurs champs de donnes pour en faire un seul, la seconde ralisant exactement linverse. Les fichiers sources du SCI contiennent souvent des donnes qui, bien que logiquement indissociables, sont morceles par les applications oprationnelles pour des raisons purement techniques telles que un langage de programmation ancien limitant la longueur des chanes de caractres ; une limitation dans la taille des enregistrements physiques ; un choix dergonomie dans une application de saisie ; une contrainte doptimisation ; etc. Les morcellements ou les assemblages sans rapport avec la signification des donnes doivent tre limins par le SCI, qui a notamment pour fonction de mettre la forme en rapport direct avec le fond. Lexemple de concatnation/sparation le plus connu est celui des adresses. Il est en effet trs frquent de voir, dans une application de gestion, des adresses postales, qui sont de longues chanes de caractres, enregistres dans deux quatre champs successifs (nomms par exemple Adresse 1 , Adresse 2 , etc.). Dans la base de donnes dintgration, on prfrera organiser la structure de ladresse selon une approche plus lisible, cest--dire soit sous forme dune variable unique appele par exemple Adresse ; soit selon un dcoupage diffrent de loriginal, dans lequel chaque champ contient un lment de ladresse ayant lui seul un sens (code postal, commune, etc.). Dans les cas les plus simples, les concatnations concernent des champs situs dans les mmes enregistrements dorigine. Mais il savre parfois ncessaire de concatner des zones de textes tires denregistrements successifs dun mme fichier, voire de fichiers diffrents. La concatnation peut alors devenir aussi complexe que lenrichissement dfini au 7.1.3.

Jean-Marie Gouarn

90

Le Projet Dcisionnel

Le formatage dune donne peut aller jusqu' la troncature, cest--dire llimination dune partie du contenu. Sil sagit dune donne numrique, on parle plutt darrondi. On peut citer, entre autres exemples le prlvement des deux derniers caractres dans le numro dimmatriculation dun vhicule, ou des deux premiers dans un code postal, pour ne conserver que lidentification dun dpartement ; llimination du jour et du mois pour ne conserver que lanne dans une date ; llimination des centimes dans un montant ; etc. La standardisation formelle des donnes peut ncessiter bien plus que ces manipulation physiques pourtant dj complexes. Elle implique parfois un travail dinterprtation plus ou moins intelligente du contenu. Le problme bien connu de la normalisation des adresses postales en est une parfaite illustration. On sait que cette normalisation nest pas seulement une affaire de concatnation ou de dcoupage de chanes de caractres ; dans un mme cadre physique, une adresse peut tre rdige selon une infinit de variantes. Les raisons sociales sont un autre exemple classique : lentreprise SOGELEC peut en effet tre nomme Groupe SOGELEC , SOGELEC S.A. , Socit Gnrale dElectricit , etc.

7.1.5 Dcodage et conversion


Une part significative des donnes utiles sont livres par les systmes de production sous une forme illisible ou dconcertante du point de vue dun utilisateur final. Les applications de production mmorisent souvent des donnes fortement significatives pour le SID en utilisant des codifications internes plus ou moins sotriques et, qui plus est, diffrentes les unes des autres. Dans le SID, chaque donne doit tre prsente en clair ou tout au moins selon une codification uniforme et connue de lutilisateur. Le SCI doit alors assurer, selon les cas, des oprations de dcodage ou de conversion. Ces oprations impliquent selon les cas des calculs purs ; des substitutions de valeurs bases sur des tables de rfrence. Le premier type dopration est applicable par exemple aux dates, souvent codes de manire htrogne81 : sous la forme dun nombre de jours (voire dheures ou de secondes) couls depuis une certaine date ; sous la forme de chanes de caractres prsentant le jour, le mois, lanne (et parfois dautres units de temps) dans des ordres diffrents ; avec des annes tantt sur quatre chiffres, tantt sur deux chiffres. Une date peut tre convertie dune codification une autre par un algorithme appropri, sans supplment dinformation. La conversion effectue ici par le SCI est donc une affaire de calcul pur. Toutes les conversions telles que des remplacements de codes techniques par des codes ou des libells significatifs relvent quant elles du second type.

7.1.6 Gnration des identifiants et des cls


On a vu au 3.3.2 que, dans un modle de donnes en forme rgulire, une entit possde toujours un identifiant, cest--dire une proprit ou un ensemble de proprits permettant de caractriser chaque occurrence.

81

On sait que cette htrognit constitue par ailleurs, dans les applications oprationnelles, lune des circonstances aggravantes du problme de lan 2000.

Jean-Marie Gouarn

91

Le Projet Dcisionnel

Lintgration de donnes au moins partiellement synthtiques, provenant de sources multiples, dans un modle qui comporte en outre une reprsentation du temps implique la cration de proprits identifiantes qui nexistent pas dans les sources de donnes. Ce besoin dcoule de plusieurs sortes de causes. Dabord, certains objets, comme on la vu au 7.1.1, nont pas dexistence explicite dans les sources de donnes. La cration de ces objets implique videmment la cration de leurs identifiants. Ensuite, lintgration dans lentrept de donnes dune reprsentation des tats successifs de certaines proprits (comme on la vu au 3.5.3 propos du numro dimmatriculation dun vhicule) impose lintroduction de nouveaux identifiants. Cette reprsentation du temps peut mme avoir pour effet, comme on la vu au 7.1.2, de multiplier les occurrences dun objet, raison dune occurrence pour chacun des tats (voir Figure 7-1) ; dans ce cas, lidentifiant de base doit tre complt par un numro de version (ou quivalent) pour caractriser une occurrence et une seule. Dautres objets du Modle dIntgration sont prsents dans plusieurs sources de donnes o ils sont identifis selon des codifications ou des formats diffrents. Il faut alors choisir un format didentifiant fdrateur pour le SID. Enfin, il nest pas rare de trouver dans les sources de donnes des identifiants qui, pour diverses raisons, ne sont pas satisfaisants dans la perspective du SID. Certaines entreprises, par exemple, nattribuent pas leurs clients un identifiant gnral, mais seulement un identifiant relatif une agence, de sorte que deux clients peuvent avoir le mme numro sils sont grs par deux agences. Dans ce cas, lidentification absolue du Client implique le numro de client et le numro dagence. Un identifiant composite nest pas, en soi, une anomalie. Mais, dans la mcanique complexe que reprsente un SID, il ne peut quintroduire un supplment de lourdeur, de complexit et dambigut. Les cls posent un problme du mme ordre que celui des identifiants. Il convient ici de rappeler la nuance qui distingue un identifiant dune cl. Un identifiant, mis part son rle didentification, est une proprit parmi dautres. Cest une proprit qui peut notamment jouer le rle dune condition (cest--dire dune critre de slection ou de tri dans une requte, dans le cadre du Systme de Diffusion et de Prsentation). On peut par exemple sintresser la liste des employs dont le numro matricule est compris entre A et B ; on peut aussi demander une liste de vhicules trie sur le numro de chssis. Une cl est un identifiant dont la valeur na aucune signification et qui, en outre, nest mme pas visible pour lutilisateur. Cest donc un identifiant purement technique, interne lentrept de donnes, dont la valeur est gnralement attribue par un compteur au moment de la cration de chaque nouvel enregistrement. La fonction habituelle dune cl, dans une base de donnes relationnelle, est de matrialiser une liaison entre deux tables.
Client
Numro client Nom Adresse cl agence

Agence
Numro Agence cl agence Ville

Figure 7-2 Identifiants et cls

La Figure 7-2 montre un exemple de cl technique ( cl agence ) dont le seul rle est de marquer, dans la base de donnes, le lien dappartenance de chaque Client une Agence, sachant que le Client et lAgence ont chacun, par ailleurs, un identifiant. Dans la table Agence , lattribut cl agence est une cl primaire, tandis que dans la table Client cest une cl trangre ou externe82. Il ne sagit plus ici dobjets Client et Agence de niveau conceptuel, mais de tables ou de fichiers physiques. Dans cet exemple
82

Une cl primaire identifie lobjet auquel elle appartient. Une cl trangre est une rfrence ou un renvoi la cl primaire dun objet associ.

Jean-Marie Gouarn

92

Le Projet Dcisionnel

dcole, on aurait pu sabstenir de la cl technique, en intgrant simplement la proprit Numro Agence dans la table Client . Mais en pratique, pour des raisons de performances, il peut tre prfrable de marquer les jointures83 par des cls numriques plus compactes que les identifiants visibles. Lun des objectifs de lintgration tant prcisment de matrialiser des associations entre objets dorigines diverses, lentrept de donnes contient frquemment des cls techniques de jointure spcifiques. La dfinition des identifiants relve du Modle Conceptuel des Donnes du data warehouse ; celle des cls du Modle Logique (qui dcrit la structure des tables). Mais la gnration des identifiants et des cls propres au data warehouse est lune des fonctions et non des moindres des programmes de chargement.

7.2 Collecte, migration et rplication


La collecte des donnes (quon appelle galement la capture) est une notion qui nest pas sans rapports avec les ides de migration et de rplication, toutes deux fort rpandues dans le vocabulaire des bases de donnes. Mais elle sen distingue sensiblement, et il convient de le souligner pour en finir avec des confusions trop frquentes. Une opration de migration, au sens informatique du terme, est un transfert dapplication (donnes et/ou traitements) dune plate-forme technique vers une autre, par exemple en cas de changement de fournisseur et/ou darchitecture matrielle et logicielle. Une migration est donc gnralement lie un changement de fournisseur, une opration de downsizing, au passage du squentiel index au relationnel, ou lvolution vers le client-serveur. Une telle migration est souvent accompagne dune restructuration des donnes, dabord parce que le changement denvironnement technique limpose, et ensuite parce quon profite autant que possible de loccasion pour introduire des amnagements fonctionnels dans les applications. La problmatique dalimentation du SID est fondamentalement diffrente. Lobjectif nest pas ici de transfrer une application informatique. Il est dalimenter un systme partir dun autre, les deux ayant une existence parallle, des fonctions radicalement distinctes, et des modes dutilisation des donnes presque diamtralement opposs. Une opration de migration est prcisment localise dans le temps : son excution peut durer de quelques minutes quelques mois, mais elle a lieu, en principe, une fois pour toutes. Lalimentation dun entrept de donnes, quant elle, est un processus priodique et volutif. Son excution est rptitive, et sa dfinition change avec le primtre des applications dcisionnelles. Lexpansion rapide du march de linformation dcisionnelle a attir les diteurs de logiciels traditionnellement spcialiss dans la migration de donnes. Ces fournisseurs ont donc largement rorient leur offre vers le data warehouse, contribuant nourrir la confusion entre migration de donnes et alimentation dapplications dcisionnelles. Il sagit l cependant dune rorientation trop rcente pour avoir pu produire, ce jour, tout ce quon attend dun progiciel de collecte et dintgration orientation dcisionnelle. Parfois incontournables, les actuels outils de migration de donnes prsentent encore des limitations majeures par rapport aux besoins de la plupart des SID. Le concept de rplication de donnes a connu une grande vogue au dbut des annes 1990, sans dailleurs avoir t toujours clairement compris84. Une base de donnes rplique est une base de donnes dont il existe une ou plusieurs copies (ou rpliques), dont la conformit est assure par un dispositif de propagation automatique des mises jour. Un systme de rplication peut fonctionner de deux manires :
83

On utilise le mot jointure (plutt que jonction), dans le vocabulaire des bases de donnes, pour dsigner une liaison tablie entre deux ou plusieurs tables daprs les valeurs dune ou plusieurs proprits communes.
84

On a souvent confondu tort, par exemple, la rplication avec la rpartition. Bien que la rplication ait parfois t utilise dans le cadre de solutions de contournement destines pallier les carences des SGBD rpartis, les deux concepts diffrent profondment. Voir sur ce point la note 97 (page 100).

Jean-Marie Gouarn

93

Le Projet Dcisionnel

Il conserve une trace systmatique de tous les vnements ayant modifi la base de donnes originale au cours dune priode, puis rpercute les modifications vers les rpliques la fin de la priode (rplication diffre) ; Il rpercute les modifications de manire immdiate et au fil de leau. La rplication est un processus continu et soppose en cela la migration. Mais la fonction de collecte de donnes dun SID nest pas pour autant une affaire de rplication. La rplication est destine maintenir lidentique plusieurs exemplaires dune mme structure de donnes. Or lalimentation dun SID est faite dinformations labores daprs les donnes oprationnelles, et non pas de copies directes de ces donnes. La fonction de collecte, dans un SID, ne sidentifie en ralit ni une fonction de rplication ni une fonction de migration. Elle tient cependant un peu des deux car : comme la rplication, elle fonctionne de faon rptitive, soit priodiquement, soit de manire continue ; comme la migration, elle met en relation deux plates-formes techniquement dissemblables. Certains lments de la panoplie des techniques de migration et de rplication peuvent donc occasionnellement tre mis en uvre dans le Systme de Collecte et dIntgration, mais ils ne sauraient en constituer lessentiel.

7.3 Les deux modes de capture


La collecte des donnes, en vue de leur rassemblement, commence bien entendu par une opration de capture physique. La plupart des donnes doivent tre captures dans des environnements de production qui nont pas t conus en prvision dun futur entrept de donnes dcisionnel. Le problme du transfert physique des donnes entre deux plates-formes techniques, pse parfois lourdement en termes de budget dquipement et, le cas chant, de tlcommunications. Ce nest pourtant pas le plus ardu en termes dingnierie. La capture peut se concevoir et sexcuter selon deux modes fondamentaux, respectivement considrs comme statique et dynamique85. La collecte statique consiste prendre une copie intgrale, un instant donn, des donnes oprationnelles intressant le SID. Ce mode de collecte simpose naturellement lors de la cration initiale dun entrept de donnes. La collecte dynamique, quant elle, ne se conoit que pour la mise jour dun entrept de donnes dj constitu. Elle consiste ne capturer, chaque fois, que les changements qui ont eu lieu dans le Systme dInformation Oprationnel depuis lopration prcdente de collecte. La constitution initiale du data warehouse, en dbut de projet ou aprs un changement important de primtre ou de structure, nest gnralement pas une question sensible, sachant quil sagit dun vnement exceptionnel et que les conditions techniques du transfert des donnes nont pas dimpact pour lutilisateur final. En revanche, le rafrachissement rgulier et automatique des donnes, en rgime de croisire, est lune des questions les plus dcisives de tout projet dinformation dcisionnelle. Toutes choses gales par ailleurs, le contenu de lentrept de donnes doit tre le reflet le plus actuel possible de la ralit. La notion dactualit est relative chaque domaine dcisionnel. Les activits les plus traditionnelles des SID, consistant tablir des tableaux de bord priodiques, saccommodent parfaitement de donnes
85

Notons bien que cette distinction technique na rien voir avec lopposition fonctionnelle entre indicateurs statiques et dynamiques signale la section 5.1. La capture dynamique est galement appele incrmentale (voir B. Devlin, note 11 page 11).

Jean-Marie Gouarn

94

Le Projet Dcisionnel

rafrachies mensuellement. Mais, avec la monte des exigences de ractivit des entreprises, ce sont, de plus en plus souvent, les donnes de la veille au soir qui sont rclames. Et on peut sattendre ce que, bientt, un dcalage de plus de quelques heures soit considr comme rdhibitoire dans la plupart des applications. Ds lors que cette contrainte dactualit implique une priodicit de rafrachissement infrieure au mois ou la semaine, la rapidit dexcution devient, dans la conception et la mise au point du SCI, un objectif prioritaire. La collecte dynamique, qui ne traite que les changements, semble premire vue plus efficace que la collecte statique qui implique, chaque mise jour, le rechargement intgral des donnes. Les donnes modifies reprsentent dans la plupart des cas moins dun dixime du volume total des donnes dun SIO. La mise jour dynamique (ou incrmentale) semble donc la solution la plus efficace et, en tout cas, la plus intelligente . Toutefois, elle implique, dune manire ou dune autre, un mcanisme de dtection des changements, ce qui constitue une contrainte majeure.

7.4 Le rafrachissement dynamique et ses limites


Une bonne comprhension de la problmatique lie la collecte dynamique implique un inventaire rapide des moyens pratiques de la dtection des changements intervenus entre deux prlvements dans les donnes de production et de lextraction slective des donnes modifies. En comparant le contenu actuel dun fichier de donnes avec une copie de ce fichier tablie une date antrieure, on peut obtenir la liste exhaustive des enregistrements ajouts, supprims et modifis, et rpercuter slectivement ces changements dans lentrept de donnes. Mais cette mthode est la fois fonctionnellement incomplte et matriellement coteuse. Cette mthode ne permet de connatre que les diffrences entre deux tats spars par un intervalle de temps ; elle ne permet pas de rendre compte des changements intermdiaires ventuels. Par consquent, si une donne change dtat plus dune fois entre deux extractions, les tats intermdiaires napparaissent pas. Il peut en rsulter une distorsion importante entre lhistoire vue dans le SID et lhistoire telle quelle sest droule. En effet, une donne cre puis supprime dans lintervalle sera rpute ne jamais avoir exist ; une donne modifie plusieurs fois sera rpute navoir chang quune fois. Certes, la mmorisation des valeurs transitoires en tant que telles nest pas toujours utile. Beaucoup dindicateurs dcisionnels sinscrivent dans des contextes priodiques (cf. 5.2.2) dont le grain est cohrent avec les intervalles dextraction des donnes. En outre, les changements intermdiaires les plus significatifs sont gnralement associs des vnements dont les applications de production elles-mmes produisent par ailleurs une trace exploitable (cest le cas, par exemple, des oprations en rapport direct ou indirect avec des critures comptables). Mme si la comparaison dtats est fonctionnellement acceptable, elle est techniquement problmatique. Elle implique dabord une norme capacit de traitement et de mmorisation intermdiaire. De plus, les programmes qui leffectuent ne sont jamais crits une fois pour toutes, sachant que les structures de donnes voluent dans le systme source comme dans le systme cible. Il sensuit un besoin de maintenance logicielle lourde qui pse sur lavenir du SID. Le dploiement dune solution robuste, prenne et conomiquement acceptable amne donc en gnral rechercher dautres procds, si possible plus fins, de mise jour dynamique. Les techniques qui simplifient le plus radicalement possible la fonction de collecte du SID sont celles qui impliquent une participation active des applications oprationnelles. Une application de production est llment du systme dinformation global le mieux plac pour connatre en temps rel tout vnement affectant ses donnes, dans la mesure o cest elle qui contrle cet vnement.

Jean-Marie Gouarn

95

Le Projet Dcisionnel

Un programme dapplication oprationnel est thoriquement capable, au moment o il excute une opration sur les donnes (cration, modification ou suppression dun enregistrement), de produire, dune manire ou dune autre, un message destin tre exploit immdiatement ou plus tard par le SCI. Dans ce cas, une tche plus ou moins labore, indpendante de son objectif principal de production, est mise la charge du programme. Cette mthode peut thoriquement tre applique sans difficult majeure dans les nouvelles applications oprationnelles en cours de conception. Prvue ds la ralisation initiale dun programme, la signalisation systmatique de tout changement dans ltat des donnes nimplique quune surcharge de dveloppement raisonnable par rapport aux efforts quelle permet dconomiser dans la construction du SCI. Mais la ralit daujourdhui exclut presque toujours cette solution. Dans une grande organisation, les donnes requises sont principalement sinon exclusivement produites par des programmes de production qui existent dj et qui, en outre, sont gnralement anciens. Rexaminer ces programmes de bout en bout et y introduire des modifications reprsenterait un effort long, coteux et dangereux, sans mme parler des rsistances humaines auxquelles on pourrait sattendre. Dailleurs, certains de ces programmes et non des moindres sont des progiciels ferms86, acquis sous licence auprs des diteurs, et ne sont donc pas modifiables. Dailleurs, mme dans les cas favorables o la mise en place du data warehouse concide avec une refonte des applications de production qui lalimenteront, la coopration savre gnralement impraticable. Le bon sens se heurte ici souvent aux attitudes traditionnelles : chaque quipe poursuit la ralisation de ses propres objectifs et la matrise douvrage possde rarement la fois la vision, la volont et le pouvoir dimposer la synergie. La coopration active des applications de production avec le SID est donc plus souvent une vue de lesprit quun scnario darchitecture raliste. Il ne faut pas cependant hsiter y avoir recours lorsque les circonstances le permettent. La technologie actuelle des bases de donnes pourrait permettre dobtenir de manire indirecte lquivalent de cette coopration du SIO. Les SGBD relationnels rcents permettent de dvelopper des mcanismes capables de provoquer automatiquement le dclenchement dune procdure choisie quand ltat dune donne change87. Ces procdures auto-dclenches sont invisibles pour les programmes dapplication. Elles sont actives par les changements qui surviennent dans la base de donnes, mais ne sont pas lies directement aux programmes qui provoquent ces changements. On peut donc envisager, sans intervention dans les programmes oprationnels, la dissmination dans les bases de donnes de dclencheurs-espions dont la seule fonction serait de signaler ou denregistrer les changements en temps rel, pour le compte du SCI. Mais l encore, lenvironnement de production rel exclut lusage grande chelle de cette technique. Les donnes rsident en effet, dans leur trs grande majorit, dans des environnements traditionnels qui noffrent pas cette possibilit88. Les difficults lies aux techniques qui viennent dtre prsentes ont entran le dveloppement dun procd plus sophistiqu, bas sur lexploitation des journaux transactionnels. Ces journaux sont des fichiers spciaux dans lesquels les gestionnaires de transactions 89 enregistrent en squence tous les vnements modifiant ltat des donnes applicatives dont ils ont le contrle. Ils contiennent la trace horodate de toutes les crations, modifications et suppressions de donnes, et sont de ce fait une matire premire de choix pour les procdures de collecte incrmentale de donnes.
86

Cest de plus en plus souvent le cas, notamment, dans les applications financires et comptables, les ressources humaines, la gestion de production.
87

Les dclencheurs (triggers) ont t, lorigine, conus principalement pour faciliter la mise en uvre de procdures incontournables, indpendantes des programmes dapplication, et capables de contrler le respect des rgles dintgrit rfrentielle chaque modification dune structure de donnes.
88

Les triggers sont associs une gnration de SGBD qui, apparue la fin des annes 80, na pas t significativement dploye dans les grands systmes de production.
89

Un gestionnaire de transactions peut tre un moniteur transactionnel proprement dit, ou un SGBD (relationnel ou non). La journalisation transactionnelle na videmment pas t invente pour faciliter lalimentation du data warehouse, mais seulement pour garantir la scurit physique des donnes de production. Elle permet en effet de rejouer les transactions perdues en cas dincident.

Jean-Marie Gouarn

96

Le Projet Dcisionnel

Naturellement, ces journaux nexistent que si les donnes de production sont modifies sous le contrle dun gestionnaire de transactions. Cest le cas des donnes les plus intensivement mises jour dans certains systmes de production. Mais ce nest pas pour autant une rgle gnrale. Toutes ces remarques, dont les consquences pratiques prennent une coloration distincte dans chaque projet, indiquent bien que la rationalit apparente du rafrachissement incrmental des donnes cache souvent une trs grande complexit de mise en uvre. La capture intgrale des modifications de donnes dans le SIO est une tche presque toujours coteuse et parfois impossible.

7.5 La plate-forme dintgration


La Base de Collecte et dIntgration (BCI) est le support physique de lentrept de donnes au sens strict. Ce support est unique, non pas pour lentreprise, mais au moins pour un domaine. Sa structure reflte aussi fidlement que possible le Modle dIntgration (cf. section 6.3). La plate-forme technologique mise en uvre est, en loccurrence, de type relationnel. Cette option, qui ne semble pas prter discussion ce jour, est fonde sur un faisceau de considrations prcises : Bien que laide la dcision ne soit pas un domaine dapplication rcent, les grands entrepts de donnes en construction ne sont pas tributaires, en matire de choix techniques, de lexistant oprationnel. Aucun critre bien fond ne les empche donc de sappuyer sur les techniques daujourdhui ; Les limites techniques traditionnelles des bases de donnes relationnelles concernaient essentiellement leur capacit absorber les trs hauts dbits transactionnels et la concurrence daccs lie un trs grand nombre de sessions simultanes. Ces limites ont dailleurs t largement repousses depuis le dbut des annes 1980. Dans le cas de la BCI, elles ont un impact extrmement rduit : cette base de donnes nest destine ni assurer un service transactionnel ni supporter des sessions concurrentes ; Lenvironnement relationnel, tout en tant dsormais capable daccueillir des volumes trs importants, est beaucoup plus souple que tout autre en matire de maintenance des modles physiques de donnes. Quoique trop rudimentaire, son langage de commande le SQL est devenu la lingua franca des administrateurs de bases de donnes et se manipule plus facilement que toutes les interfaces particulires de description de fichiers. De plus, les SGBD relationnels daujourdhui sont des rservoirs intelligents , permettant demmagasiner non seulement des donnes, mais aussi de la logique associe aux donnes ; Les outils de dveloppement et les progiciels susceptibles dtre mis en uvre tant pour les traitements de collecte et dintgration que pour les transferts entre SCI et SDP sont trs gnralement conus pour communiquer avec des bases de donnes relationnelles. La conscration de la technologie relationnelle, qui semble acquise au moins pour le prsent et lavenir prvisible, ne suffit pas pour qualifier lensemble de lenvironnement de collecte et dintgration. La base de donnes repose naturellement sur une plate-forme dexploitation matrielle et logicielle dont le choix nest pas ncessairement acquis. Historiquement, les premires bases de donnes relationnelles utilises en production lont t dans les environnements dits propritaires90 des grands constructeurs. Dans les entreprises qui ont lexprience de ces combinaisons technologiques classiques, la tentation est forte de les adopter pour le data warehouse. Le fait de possder lquipement et la comptence est un argument de poids. Mais cette option est cependant examiner avec rserve si la volont effective de lorganisation est bien de dployer un Systme

90

Le mot propritaire, dans le jargon informatique, est une fausse traduction du mot anglais proprietary (spcifique, appropri). Il dsigne, avec une connotation plus ou moins pjorative, tout lment ou ensemble matriel ou logiciel dont les spcifications sont propres un fournisseur et non conformes un standard. La croisade contre les systmes propritaires a culmin la fin de la dcennie 1980 lors de la monte dUnix. A ce jour, elle na abouti qu un bouleversement des rapports de forces et lavnement dun nouveau genre de systmes propritaires .

Jean-Marie Gouarn

97

Le Projet Dcisionnel

dInformation Dcisionnel tel quon lenvisage ici. Cette mise en garde est justifie au moins deux gards : Un entrept de donnes est presque invitablement appel connatre une croissance aussi importante que rapide en volume. Il ne suffit pas de disposer dune plate-forme matrielle suffisante aujourdhui ; encore faut-il prvoir une capacit dextension qui, moyen terme, peut tre un multiple de la capacit actuelle. Or, cet gard, il est clair que le cot compar du gigaoctet supplmentaire ne milite pas en faveur des plates-formes propritaires traditionnelles ; Sous le rapport de la puissance et de la robustesse, les grands systmes propritaires dentreprise possdent toutes les qualits requises pour abriter et administrer de trs grandes bases de donnes. Mais, en tant quenvironnements de dveloppement, ces systmes noffrent ni la mme souplesse ni la mme panoplie doutils que les plates-formes plus rcentes. La ncessit dune maintenance logicielle itrative (pour modifier le schma de la base et les procdures dalimentation), caractristique des projets dcisionnels, est donc de nature entraner des cots rcurrents plus levs dans ces environnements. Malgr ces contre-indications srieuses, il nous arrive de voir ces plates-formes propritaires servir de base des entrepts de donnes dcisionnels significatifs. Mais, en pratique, les bases de donnes quelles supportent semblent ddies une simple fonction de collecte (cf. 6.1.3) et ont des structures relativement figes. Les quipes qui les administrent rpugnent en gnral saventurer dans des oprations de maintenance des structures et des procdures, et encore plus entreprendre une dmarche systmatique de normalisation des donnes. Bien que la porte de ce constat soit naturellement limite aux projets que nous avons connus directement ou indirectement, les entrepts de donnes construits sur des machines transactionnelles de production ne semblent pas destins jouer le rle dun vritable SCI. Ces entrepts rudimentaires, sils existent, sont cependant dune utilit considrable pour un nouveau projet de SID, la seule condition quils soient traits comme des sources de donnes, et non comme des plates-formes dintgration. Le choix dun environnement Unix91 est, lheure actuelle (mais peut-tre provisoirement) la recommandation la plus indique et la plus suivie pour les projets de moyenne ou grande ampleur. Ce type denvironnement cumule aujourdhui quelques avantages dcisifs par rapport aux environnements dits propritaires voqus ci-dessus : Les quipements prsentent un meilleur rapport qualit-prix ; Les gammes offertes sont gnralement plus volutives ; Les cots de possession des logiciels (notamment les systmes de gestion de bases de donnes) sont sensiblement infrieurs ; La mise en concurrence des fournisseurs de matriel et de logiciel est plus facile ; La richesse de lenvironnement de dveloppement logiciel et du parc de progiciels de collecte et dintgration de donnes est considrable ; Les interfaces et protocoles de communication (issus de lunivers du client-serveur et de linternet) facilitent la liaison physique avec le SDP. Cette recommandation ne vaut, bien entendu, que dans les cas o, compte tenu des choix antrieurs rcents, le projet na pas dj sa disposition une plate-forme propritaire supportant un SGBD relationnel robuste92. Il convient de noter aujourdhui que, dans les petites configurations, les systmes Unix sont de plus en plus souvent mis en concurrence avec un environnement propritaire dun nouveau type, issu de linformatique personnelle et de la bureautique. Il sagit bien entendu du systme Windows NT de Microsoft. Ce dernier possde aujourdhui93 toutes les aptitudes ncessaires pour servir de socle technique une base de donnes relationnelle de taille moyenne, et il est assorti dun catalogue doutils de dveloppement trs
91

Rappelons quUnix dsigne aujourdhui davantage un certain type denvironnement, associ une certaine culture informatique et un certain segment du march des quipements matriels et logiciels, plutt quun systme dexploitation particulier.
92

Il sagit par exemple du classique couple MVS/DB2 dIBM ou encore de Non Stop SQL sur Tandem, des anciennes versions de lenvironnement NCR/Teradata, etc.
93

Depuis sa version 4.

Jean-Marie Gouarn

98

Le Projet Dcisionnel

riche. A puissance quivalente, le cot dacquisition initial dune plate-forme Microsoft est sensiblement plus faible que celui dune plate-forme Unix. A lheure actuelle, ce systme na pas encore fait ses preuves en matire de trs grandes bases de donnes, mais cet obstacle pourrait ntre que provisoire. Toutefois, la BCI tant appele devenir un organe vital de lentreprise, une double mise en garde simpose : Mme si, terme, lenvironnement de Microsoft finit par offrir le mme potentiel dvolutivit quun systme ouvert et permet de suivre sans rupture la croissance du data warehouse, rien ne garantit que, dans les configurations puissantes et complexes de lavenir, il restera conomiquement avantageux ; La dpendance excessive envers un diteur en position dominante sur le march et pouvant modifier tout moment sa politique de prix, de gammes et de service aprs-vente peut prsenter un risque stratgique considrable. La plate-forme de Microsoft, au moins court terme, et mis part les projets de porte stratgiquement rduite, est donc plutt rserve au Systme de Diffusion et de Prsentation. Ce nest cependant pas une raison pour lexclure a priori et dfinitivement du Systme de Collecte et dIntgration. Depuis la prcdente dcennie, les systmes Unix des principaux constructeurs sont considrablement monts en puissance et offrent prsent des capacits de traitement et de mmorisation suffisantes pour grer de trs grandes bases de donnes. Cette puissance provient principalement de la gnralisation des diffrentes techniques dites de paralllisation. On a beaucoup parl, ces dernires annes, des rapports entre technologie parallle et data warehouse. La premire est indiscutablement un moyen technique utile, parmi dautres, pour la construction du second. Mais cette option technique, comme les autres, doit tre envisage bon escient et sa place dans larchitecture du SID, et non sur la foi de prjugs gnraux. Parmi les caractristiques du paralllisme, celle qui nous intresse le plus nest pas la puissance immdiatement disponible. Cest lextensibilit du systme. Une machine multi-processeur est en effet avant tout une machine laquelle il est possible dajouter des processeurs supplmentaires un cot trs faible compar au cot dacquisition dune nouvelle machine. Rappelons que le paralllisme (qui nest en aucun cas rserv au monde Unix) se dcline en deux variantes principales : Les plates-formes couplage serr , dans lesquelles les traitements peuvent tre rpartis entre plusieurs processeurs, de manire augmenter la puissance de calcul disponible, tandis que les mmoires (et notamment les supports physiques des bases de donnes) restent gres de faon unifie. Dans ce type de configuration appele symtrique ou SMP94, tous les processeurs accdent des espaces de mmorisation partags ; Les configurations couplage lche , dans lesquelles la machine est organise comme un rseau de processeurs indpendants les uns des autres, bien que capables de cooprer, disposant chacun dun espace de mmorisation et de priphriques rservs. Cette architecture, dite massivement parallle ou MPP95, est cense permettre un accroissement infini de puissance. Les systmes symtriques reprsentent aujourdhui lessentiel de la base installe en matire dquipements multi-processeurs. Mais la multiplication en cours ou prvisible des trs grandes bases de donnes de consolidation, lie aux impratifs de linformation dcisionnelle, a focalis lattention sur loption massivement parallle. Larchitecture SMP nest pas seulement la moins coteuse lachat. Cest, de loin, la plus simple administrer96. Sa capacit dextension, toutefois, est limite. Tous les processeurs partagent un certain nombre de parties communes, et notamment la connectique daccs la mmoire (bus). La puissance de traitement relle naugmente avec le nombre de processeurs installs que dans la mesure o ces parties communes sont capables dabsorber le surcrot de trafic correspondant. Mais au-del dune certaine puissance, la concurrence daccs la mmoire commune devient trop forte et la puissance marginale utile apporte par chaque processeur supplmentaire dcrot inluctablement. Le bus commun est donc un goulot
94 95 96

Symmetric Multi-Processing Massively Parallel Processing En gnral, la charge de calcul est automatiquement rpartie entre les processeurs par le noyau du systme dexploitation.

Jean-Marie Gouarn

99

Le Projet Dcisionnel

dtranglement potentiel pour les machines symtriques. La porte de cette contrainte ne doit pas tre exagre : la phnomne de saturation du bus nintervient qu'au-del de quinze ou vingt processeurs en ligne ce qui reprsente dj une puissance largement suprieure ce qui est ncessaire dans la plupart des projets dcisionnels. Le modle massivement parallle, quant lui, nest thoriquement pas limit dans ses possibilits dextension. Chaque processeur ayant un accs exclusif sa propre mmoire centrale et, au besoin, ses propres priphriques de stockage magntique, via des bus privs, il nexiste aucune concurrence entre processeurs pour laccs aux donnes. Cette architecture en thorie nest donc pas affecte par le phnomne de dcroissance de lefficacit marginale des processeurs, ce qui permet denvisager un potentiel de dveloppement presque infini. Il sagit l prcisment du meilleur argument de vente des promoteurs du modle MPP, puisque la puissance de la machine peut voluer avec la taille de lentrept de donnes. Cet argument doit tre cependant examin avec circonspection, car la solution massivement parallle prsente des difficults et des risques ne pas sous-estimer : A puissance quivalente, les machines MPP sont plus coteuses que les machines SMP. Lavantage dune configuration plus volutive long terme est donc compens, au moins en partie, par un cot immdiat sensiblement plus lev. La justification conomique de loption MPP est cet gard dautant plus difficile que, compte tenu du progrs acclr des techniques et de la baisse des prix des quipements, lintrt de conserver longtemps une machine en la faisant voluer est difficile estimer ; Un systme MPP est assimilable un rseau de calculateurs indpendants. Cette caractristique, qui fait sa force, est aussi un facteur de grande complexit. Lefficacit globale du systme repose sur une rpartition trs fine des donnes et des traitements entre les nuds du rseau, et sur un rglage prcis de la coopration et de la synchronisation entre les processeurs. Malgr les progrs raliss dans les logiciels de base (notamment avec les micro-noyaux distribus sur lesquels sappuient certaines versions dUnix), tout ceci implique une administration complexe, dans laquelle la moindre erreur peut tre sanctionne par des contre-performances catastrophiques. Lutilisation dun systme massivement parallle est donc susceptible dentraner des cots dexploitation rcurrents spcialement levs ; Les performances potentielles de la machine nont pas dimportance pour elles-mmes. Ce sont les performances du SGBD qui comptent. Ces performances dcoulent directement de laptitude du SGBD utiliser correctement la batterie de processeurs mise sa disposition. Dans un environnement SMP, le SGBD peut tirer parti sans le savoir de lquilibrage de charge entre les processeurs, qui est gr de faon quasi-invisible. En revanche, le partage dune base de donnes sur les nuds dun systme MPP entrane le mme type de complexit quune base de donnes rpartie97. Ceci implique lutilisation de versions trs particulires complexes et coteuses de SGBD. Ces quelques rserves expliquent sans doute que les solutions massivement parallles naient connu quune faible diffusion jusqu' prsent. Elles expliquent aussi le fait que les utilisateurs choisissant cette technologie aient opt le plus souvent jusqu' prsent pour des configurations propritaires dans lesquelles le SGBD et le matriel sont intimement lis par construction 98 plutt que pour des systmes Unix : dans ce domaine, ouverture rime fcheusement avec aventure. Dautre part, sans aller jusquau paralllisme intgral, on a dabord intrt puiser les possibilits doptimisation lies la paralllisation des supports magntiques et de leurs contrleurs. Quel que soit lintrt du dbat sur les architectures parallles, il convient toutefois de ne pas perdre de vue quelle est la nature exacte du besoin de puissance dans le Systme de Collecte et dIntgration. Lavantage le plus souvent invoqu en faveur de la paralllisation des bases de donnes est relatif la vitesse de traitement des requtes complexes, caractristiques des applications dcisionnelles. Or, dans un SID conu de manire orthodoxe (cf. chapitre 6), les applications dcisionnelles ne sadressent quaux bases de donnes de diffusion. Lentrept de donnes au sens strict, cest--dire la base de collecte et dintgration
97

Une base de donnes rpartie est un ensemble logique vu comme une base de donnes mais physiquement install sur plusieurs machines animes chacune par son propre SGBD. Lunicit apparente de la base est assure par la coopration entre les SGBD, sous le contrle dun module central de rpartition.
98

Le Teradata DBC/1012 de NCR est lexemple le plus connu de ces machines bases de donnes (Data Base Computers). Toutefois, les rejetons actuels de la ligne ont adopt le systme Unix.

Jean-Marie Gouarn

100

Le Projet Dcisionnel

(BCI) nest pas directement mis contribution par les utilisateurs. Lamlioration des temps de rponse des requtes interactives, en particulier, na pas de sens ici. Les performances requises, pour le Systme de Collecte et dIntgration dun SID de grande envergure, sont : Laptitude grer, le cas chant, de trs grandes bases de donnes 99 sans dtrioration des conditions dexploitation ; Laptitude charger, lors de chaque mise jour priodique, un flot trs important de donnes en un temps limit. Dans lentrept de donnes correspondant un processus fondamental dune trs grande entreprise, certaines tables peuvent comporter des millions, voire des dizaines de millions, denregistrements. Cest plus particulirement le cas dans les systmes qui exigent un niveau de dtail proche de lopration lmentaire. Pour rester maniables, ces tables doivent gnralement tre fragmentes. Dans un environnement multi-processeur symtrique ou mme mono-processeur, un premier niveau de fragmentation est assez facile traiter en rpartissant chaque grande table sur plusieurs disques grs de prfrence par des contrleurs distincts. Les systmes dexploitation permettent de grer cette rpartition de manire trs simple. La fragmentation de deuxime niveau, consistant clater une table dans plusieurs bases de donnes rsidant sur plusieurs nuds dun systme massivement parallle est rarement ncessaire et toujours plus complique administrer. Les SGBD parallles, essentiellement efficaces pour le traitement des requtes complexes comportant des recherches squentielles dans de grandes tables et des jointures sur des tables multiples, ne constituent donc pas forcment une bonne rponse au problme de lintgration des donnes, cest--dire du data warehouse au sens strict100 ; Il est en tout cas certain que, capacit totale quivalente, et sous rserve dune administration adquate, on a gnralement intrt rpartir une base de donnes grande ou moyenne sur un grand nombre de disques de petite capacit101 plutt que de la concentrer sur un petit nombre de supports grande capacit. Cette orientation implique un investissement plus lev mais elle permet au moins, dfaut dun paralllisme intgral, de parallliser les lments mcaniques et leurs dispositifs daccs, qui sont les ressources les plus lentes. Rappelons au passage que le volume dune base de donnes relationnelle est largement suprieur au volume des donnes significatives enregistres. Compte tenu des mcanismes de scurit et doptimisation du SGBD, il est prudent, en premire estimation, de multiplier le volume utile par un coefficient compris entre 2,5 et 3,5102 pour connatre lespace physique rserver. Il faut encore ajouter les espaces de stockage intermdiaire lis, ventuellement, aux traitements dalimentation. Les supports physiques ne doivent pas tre apprcis sous le seul angle de la puissance. La continuit de service est aussi un lment vital. Aujourdhui, on considre lindisponibilit temporaire dun systme dcisionnel comme un vnement moins dramatique que celle dune chane de production. Cette ide, selon toute vraisemblance, est appele devenir de moins en moins vraie. En tout cas, pour ce qui concerne le SCI lui-mme, la rsistance aux incidents est dores et dj de rigueur. Le risque majeur nest pas la perte de donnes en elle-mme, puisque ces donnes qui sont des valeurs drives ou extraites dautres systmes peuvent toujours, thoriquement, tre reconstitues. Cest plutt lindisponibilit du SCI en priode critique de rafrachissement des donnes. Le chargement de lentrept de donnes, puis la mise jour des bases de diffusion qui en dpendent, impliquent des traitements priodiques lourds, excuts dans des tranches horaires prcises, et que les circonstances ne permettent pas, en gnral, de rexcuter volont. Or la multiplication des disques faible capacit, si elle rduit le risque de dfaillance gnrale, augmente le
99

La notion de trs grande base de donnes est videmment relative. La grandeur sapprcie par comparaison avec les applications de production classiques. Aujourdhui, on peut parler de trs grande base de donnes (Very Large Data Base VLDB) partir de quelques centaines de giga-octets. Certains proposent dj, songeant lentrept de donnes multimdia de demain, la notion d extrmement grande base de donnes (Extremely Large Data Base - ELDB), pour des volumes suprieurs 100 traoctets.
100 101 102

B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996. Les disques de 2 Go dans des units dextension modulaires ont connu un large succs.

Le coefficient multiplicateur est moins lev dans une base relationnelle dintgration que dans une base de diffusion. Dans la BCI, en effet, il nest pas ncessaire de multiplier les index et autres acclrateurs daccs, sachant que les requtes dcisionnelles ne doivent pas sexcuter sur cette base.

Jean-Marie Gouarn

101

Le Projet Dcisionnel

risque de dfaillance partielle. Un grand entrept de donnes reposant sur des units physiques de 2 Go pourra occuper jusqu' plusieurs centaines de disques, ce qui laisse prvoir, en moyenne, une ou plusieurs pannes physiques par semaine103. Il sagit donc, plus que dun simple risque, dune vritable certitude dincident en rgime dexploitation normale. Ceci implique, dans les projets importants, lutilisation de produits offrant au moins les caractristiques suivantes : Redondance des supports et mcanisme garantissant, en cas de dfaillance dune unit, la disponibilit continue de la base de donnes, au prix dune simple dgradation des performances ; Possibilit de remplacer chaud (cest--dire sans arrt du systme) lunit dfaillante. Nous ne dcrirons pas ici les diffrentes offres susceptibles de rpondre ces exigences104, sachant quelles ne sont pas particulirement ddies aux SID. Il est cependant essentiel de noter que, quels que soient les produits retenus, les cots prvisionnels de stockage ne dcoulent pas de la seule volumtrie ; ils doivent tre estims en conjuguant capacit, performances de chargement et niveau de disponibilit. Pour viter dalourdir inutilement ces cots, il est prfrable de ne pas anticiper de trop loin la croissance de la base de donnes, et dviter ainsi dacqurir une trop grande capacit lavance. Sur le march des supports magntiques, pour une capacit donne, les cots diminuent diminuent peu prs de moiti chaque anne. Dun point de vue conomique, lextensibilit est donc un meilleur placement que la capacit.

7.6 Alternatives techniques dalimentation


Les procdures de collecte et dintgration sont, comme on la dj signal, les lments les plus dlicats et critiques dun SID. On a vu dans les premires sections de ce chapitre quelle est leur valeur ajoute, et en quoi elles se distinguent de routines classiques de migration ou de rplication. Leur difficult de dveloppement et de mise en uvre est par ailleurs aggrave par un faisceau de circonstances : les donnes tant principalement puises dans des applications de production propres chaque entreprise, et chaque SID tant unique, chaque projet semble tre un cas particulier ; le march des progiciels, bien quil soit en rapide progression sur ce point, noffre encore que des solutions partielles et nanmoins coteuses ; la pression des objectifs court terme tend favoriser les solutions jetables ; la coopration ncessaire avec les dtenteurs des donnes sources impose un compromis entre le techniquement rationnel et le politiquement acceptable . Notre objectif nest pas ici dtudier en dtail la panoplie en rapide volution des outils disponibles, mais plutt didentifier les alternatives majeures.

7.6.1 Localisation des traitements


Lalimentation de lentrept de donnes implique un transfert avec transformation. Compte tenu de la complexit, voire de la lourdeur, du processus de transformation qui a t prsent la section 7.1, le choix de la plate-forme physique dexcution des traitements correspondants nest pas neutre. La transformation doit-elle tre excute sur la machine source ou sur la machine cible ? Comme on peut sen douter, la question nest pas simple et nappelle pas de rponse gnrale. En termes de trafic global de donnes sur les rseaux de communication comme dans les dispositifs de stockage, la solution optimale consiste raliser la transformation des donnes sur les sites sources. En
103 104

N. Raden et M. Peterson, Whos Minding the cache ? , Information Week, Juin 1997. Telles que les technologies RAID (Redundant Array of Inexpensive Disks).

Jean-Marie Gouarn

102

Le Projet Dcisionnel

effet, les procdures de collecte produisent des donnes gnralement plus synthtiques que celles quils captent : ils jouent un rle dagrgation primaire et de filtrage. Plus lactivit de synthse est situe en amont, moins le volume de donnes en transit est important. Mais ce postulat est contrebalanc par des contre-indications ou des impossibilits majeures : En cas de pluralit des sources, mme sil reste possible dexcuter les oprations de filtrage et de mise en forme les plus lmentaires sur le site dorigine, les traitements de synthse ne peuvent facilement sexcuter que sur le site dintgration ; Les machines de production sont souvent en limite de charge et ne peuvent donc pas toujours supporter dactivits supplmentaires ; Lexploitation dune chane de traitement destine au data warehouse sur une machine supportant des applications de production sensibles est rarement bien accueillie par les quipes en place, mme si la machine dispose dune rserve de puissance suffisante et si toutes les garanties de scurit sont fournies ; Le dveloppement logiciel est, comme on la dj rappel, plus coteux dans les environnements de production classiques que sont, dans la plupart des cas, les sites sources ; Lorsquune source est un flux de donnes acquis auprs dun fournisseur extrieur, il est naturellement hors de question dagir sur la source, sauf sil existe un partenariat spcial entre les deux parties. Dans la pratique, le choix ne peut donc pas tre arrt sur le seul critre des performances de transfert. Lexcution sur une machine de production de tout module logiciel dvelopp pour le compte du data warehouse peut mme tre un sujet tabou dans certaines organisations. Si, pour une raison ou pour une autre, il nest possible dexcuter aucun algorithme de slection et de calcul sur le site source, la seule solution consiste transfrer, pour traitement intgral sur le site dintgration, des copies brutes des fichiers oprationnels. Un tel mode de fonctionnement nest videmment praticable que si le volume des donnes brutes ne diffre pas dun ordre de grandeur du volume des donnes utiles. Certaines applications de production, mme anciennes, possdent cependant des fonctions dextraction slective de donnes (dveloppes gnralement des fins plus ou moins dcisionnelles). On peut alors en tirer parti pour exporter des donnes dj prslectionnes, voire pr-agrges, ce qui rduit considrablement les transferts inutiles. La situation est encore plus favorable sil existe dj, associ aux applications de production, un infocentre de premier niveau (cf. section 6.1). On peut alors sappuyer sur les outils de slection et dextraction en place105, au prix dun dveloppement minimal. Dautant plus que, dun point de vue culturel , le dveloppement dune nouvelle srie dextractions sur une plate-forme conue ds le dpart pour des oprations analogues ne risque pas de provoquer de ractions dinquitude. Mme si lactivit primaire de slection et dagrgation peut tre traite en partie sur le site originateur des donnes, on doit presque toujours sattendre recevoir, sur le site dintgration, des donnes dont le volume est suprieur au volume des donnes utiles et/ou dont la structure nest pas conforme au Modle dIntgration. Lexcution concrte des traitements du SCI sera donc, au mieux, partage entre les deux extrmits de la liaison. Quelle que soit limportance des traitements effectuer sur le site physique dintgration, les donnes brutes ne doivent en aucun cas tre stockes dans la mme base de donnes logique que les donnes intgres. Tant quune donne na pas subi lintgralit des contrles et des transformations qui lui sont applicables, elle ne doit pas apparatre comme disponible dans lentrept. Dans les projets impliquant des volumes exceptionnels ou des transformations de donnes particulirement complexes, une plate-forme de collecte, distincte de la plate-forme dintgration, peut tre mise en uvre. Cette option luxueuse, qui implique une tape supplmentaire dans le cheminement des donnes, est rarement justifie ; mais elle peut devenir utile, voire indispensable, quand les sources sont trs nombreuses et trs htrognes106.
105

Le data warehouse narrive pas toujours sur une table rase. Lorsquun projet de SID prend forme, il se situe parfois dans le prolongement (plus ou moins direct) dun outil de collecte de donnes mis en place une poque antrieure et capable dassurer une partie des fonctions du SCI.

Jean-Marie Gouarn

103

Le Projet Dcisionnel

Ceci implique la ncessit de prvoir de grandes marges de scurit dans le calibrage de larchitecture technique du SCI. Ceci est valable pour ce qui concerne tant les communications entre sites (surtout en cas dloignement gographique) que le stockage des fichiers temporaires sur le site dintgration. Enfin, la localisation des traitements du SCI nest pas une option indpendante. Cest un choix troitement li dautres options techniques, telles que les outils dextraction.

7.6.2 Progiciels ou dveloppements sur mesure


Puisque cest dans le SCI que se situent les traitements les plus lourds et les plus dcisifs, la question classique du choix entre ladoption de produits du march et la ralisation doutils appropris se pose ici comme dans les projets relatifs aux applications de production. Bien que le march des outils dalimentation au sens large soit encore trs immature, loffre senrichit rythme rapide. Les produits disponibles aujourdhui vont bien au-del de la rplication ou de la migration au sens primaire. Ils assurent galement des fonctions volues de transformation et de synthse. Cependant, dans la plupart des projets effectifs, les fonctions dalimentation sont traites par des programmes dvelopps sur mesure. Cette situation (qui nest peut-tre que momentane), sexplique assez facilement : Comme nous lavons dj signal, les projets les plus nombreux sont de faible envergure. Ils nentreposent que des volumes de donnes jusqu' prsent modestes, et ne font pas appel des combinaisons de sources complexes et nombreuses. Dans ces conditions, lusage doutils sophistiqus semble difficile justifier ; Aucun progiciel ne rpond exactement aux contraintes fonctionnelles et techniques de chaque chane dalimentation ; ladoption dun outil prfabriqu nlimine pas la programmation, implique toujours un effort dintgration, et nexclut pas les surprises ; La mise en uvre des progiciels dalimentation est complexe. Elle ncessite un effort important dapprentissage, ainsi que des prestations de conseil ; Les fournisseurs les plus avancs dans ce domaine ne sont pas les tnors classiques du logiciel. La comparaison technique des produits est difficile, et les rfrences visitables sont rares ; Le simple cot initial dacquisition de ces produits (sans mme parler des cots de mise en uvre) est prohibitif pour la plupart des budgets107. Ces objections ont un tel effet de dissuasion que, dans la plupart des cas, on prfre fabriquer des programmes maison . Les outils de dveloppement mis contribution cet effet sont gnralement : le JCL108, le COBOL109, et les langages lis des environnements de gestion de fichiers particuliers, pour les activits dextraction sur les machines sources ; le C110 et les diverses formes du Shell111 sur les machines de transit et/ou dintgration ;

106

Cest le cas, par exemple, des grands entrepts de donnes ddis au marketing, qui combinent des sources de donnes externes trs diversifies.
107

Le prix dun bon outil dextraction, de raffinage et de transport de donnes slve gnralement plus de 500.000 francs et dpasse parfois le million. Pour beaucoup de projets dcisionnels, cest dj plus que le budget total de la premire anne.
108 109

Job Control Language, langage denchanement de travaux.

Common Business Oriented Language, dont la mort est rgulirement annonce mais qui demeure le langage de programmation le plus rpandu dans les applications de gestion.
110

Le C (encore trs rarement supplant par son successeur le C++) est le langage de programmation standard des plates-formes Unix.
111

Le shell (littralement : le coquillage, ainsi nomm parce quil est cens protger lutilisateur) est le langage de commande associ au systme Unix. Fonctionnellement comparable un JCL, il est cependant dune utilisation plus souple. Les programmeurs ont en gnral le choix entre trois syntaxes : le shell de Bourne (le plus ancien et le plus gnralement connu), le C-shell (dont la syntaxe est plus volue et prtend voquer celle du C) et le shell de Korn (compatible avec celui de Bourne et par ailleurs aussi riche que le C-shell).

Jean-Marie Gouarn

104

Le Projet Dcisionnel

les outils associs au SGBD relationnel dintgration : SQL et langage procdural 112, chargeur113, interface de programmation114. Les environnements de dveloppement rcents les plus populaires sont essentiellement orients vers le client-serveur et les dialogues graphiques et, en gnral, ne fonctionnent pas sur les plates-formes concernes par le processus dalimentation. On doit donc gnralement se contenter daccessoires rustiques. Justifie tant que le projet reste relativement simple, la programmation spcifique des outils dalimentation prsente toutefois un risque important terme. Cette programmation minutieuse et ingrate devient complique, longue et coteuse partir dun certain niveau de dcalage structurel entre les sources de donnes et le Modle dIntgration. La charge de maintenance de ces programmes peut devenir un fardeau paralysant pour le SID. Ce sont souvent lannualit budgtaire et le manque de visibilit qui excluent des projets les progiciels dalimentation lourds. A vrai dire, mme apprcis dans une perspective plus long terme, ces produits sont encore difficiles justifier conomiquement dans les petits projets. Cette situation va sans doute changer rapidement. Lapparition de nouveaux fournisseurs et la banalisation inluctable de ces produits ne peuvent, la longue, que prcipiter la baisse des prix.

7.7 Fonctions et outils de collecte et dintgration


La fourniture physique des donnes par les systmes sources sous une forme directement assimilable par la fonction dintgration du SID nest presque jamais un droit acquis. On a vu dautre part (cf. section 7.4) que, pour la simple signalisation des changements, on pouvait rarement compter sur les applications de production. Il est donc clair que la collecte primaire des donnes, cest--dire lensemble des traitements situs les plus en amont de lentrept de donnes, doit en gnral tre ralise par des lments logiciels spcialement ddis au projet dcisionnel. Loutillage destin lalimentation dun entrept de donnes vocation dcisionnelle, quil soit fabriqu spcialement ou acquis sur le march, assure un certain nombre de fonctions dont on peut proposer lnumration suivante : recherche et identification des donnes ; contrle de qualit (filtrage et validation) ; extraction ; transport ; chargement. Lordre indiqu ici nest pas significatif : ces fonctions ( lexception de la premire, qui nintervient pas directement dans le processus de transfert), peuvent agir selon des squencements diffrents, et certaines peuvent mme tre traites en parallle. Utile en tant que cadre danalyse des besoins, ce genre de classification nest cependant pas dun grand secours ds lors quil sagit de faire des choix effectifs. Il est en effet difficile de faire entrer les produits
112

Un SGBD relationnel possde un langage algorithmique permettant de dvelopper (de manire plus souple et plus rapide quen C ou en COBOL) des routines de manipulation et de contrle des donnes. Naturellement, chaque SGBD a son langage spcifique (ex : PL/SQL pour Oracle, Transact/SQL pour Sybase).
113

Outil propre chaque SGBD et permettant, sans programmation, le chargement massif (bulk load) de la base de donnes partir de fichiers extrieurs.
114

Interface permettant des programmes externes (nutilisant pas le langage procdural propre au SGBD) daccder la base de donnes. Ces interfaces sont gnralement implmentes sous la forme semi-normalise dite SQL intgr (embedded SQL), permettant aux programmes crits dans des langages quelconques (C, COBOL, etc.) dinclure des ordres en SQL. Elles sont galement disponibles sous la forme strictement propritaire de bibliothques de fonctions dappel direct au moteur du SGBD (ex : DB-Lib ou CT-Lib pour Sybase, OCI pour Oracle).

Jean-Marie Gouarn

105

Le Projet Dcisionnel

existants dans un compartimentage fonctionnel a priori, quel quil soit. Un produit de data warehousing est rarement limit une seule fonction lmentaire, et, dun autre ct, peu de produits couvrent intgralement une fonction. En outre (il est peine ncessaire de le prciser), aucun outil prfabriqu nassure lensemble des fonctions. Et, comme loffre volue assez vite, les classifications comparatives prcises auxquelles on pourrait malgr tout parvenir ne restent gnralement valables que quelques mois. La fonction (1), dans la plupart des projets, ne ncessite pas doutillage logiciel particulier, dans la mesure o les sources de donnes sont simples et parfaitement identifies, et o le Modle dIntgration est stable. Le contenu et le format des donnes extraire sont dcrits ds la phase de conception initiale du SID, et font ventuellement lobjet de rvisions formelles dans des extensions ultrieures du projet. Toutefois, dans certaines situations encore exceptionnelles ce jour, le reprage des donnes intressantes dans les systmes sources peut impliquer une dmarche exploratoire complexe. Dans ce cas, il peut tre utile de sappuyer sur des outils de dtection plus ou moins automatique des donnes pouvant avoir un rle significatif dans la constitution des indicateurs recherchs. Ces instruments de dcouverte sont en fait ceux du data mining115, mais utiliss ici comme outils de construction du SID et non dans le cadre dapplications dcisionnelles proprement dites. Le contrle de qualit des donnes (2) est assurer explicitement dans tous les projets dcisionnels. La qualit ne doit jamais tre prsume acquise. Ce nest pas parce quune donne provient dune application de production qui fonctionne bien que cette donne est correcte pour un usage dcisionnel. Les critres de valeur des donnes ne sont pas les mmes dans le SID que dans le SIO. Une grande partie des variables qui sont utilises comme conditions dans des contextes dcisionnels, cest-dire comme critres de segmentation et de consolidation dindicateurs, sont en effet des donnes secondaires, voire facultatives, dans les traitements oprationnels. Des erreurs ou des lacunes affectant ces donnes peuvent ne pas affecter le fonctionnement du SIO, donc passer inaperues. On rencontre frquemment, par exemple, des champs obligatoires116 dont le contenu nest pas contrl ou na pas dimpact direct sur les oprations courantes. Les utilisateurs oprationnels ne sont donc pas incits assurer la validit de ces champs, dans lesquels ils saisissent parfois des valeurs douteuses, voire compltement fantaisistes. Et mme si ces champs sont correctement renseigns au dpart, ils ne sont pas forcment jour. Quant aux donnes rcoltes auprs de lextrieur, il va de soi que les garanties contractuelles de qualit dont elles sont ventuellement assorties et la confiance quon peut avoir envers le fournisseur nexcluent pas les imperfections. La qualit signifie aussi la cohrence. Or, compte tenu du cloisonnement endmique des applications de production, des informations provenant de sources diffrentes mais concernant un mme objet de gestion peuvent savrer inconciliables ou contradictoires. Faute de vrification, on risque donc de charger dans lentrept de donnes une image trs dforme de la ralit, et par consquent une plate-forme dcisionnelle trs peu fiable. Le contrle de qualit est souvent effectu de manire empirique, partir des remarques et des interrogations des utilisateurs qui pressentent des anomalies daprs les rsultats de leurs analyses 117. Mais il est clair que, en de dun certain niveau de qualit, un entrept de donnes ne peut pas tre utilis des fins rellement dcisionnelles. Do la ncessit, dans les projets sensibles et complexes, de mettre en place les moyens dune validation systmatique des donnes. Cette validation laisse ncessairement une place plus ou moins importante lintervention humaine. Les contrles de surface les plus lmentaires peuvent tre effectus par des routines automatiques simples (ex : contrle de vraisemblance dune date ou dun montant). Mais pour les vrifications impliquant lapplication de rgles ou de modles complexes dinterdpendance entre donnes multiples (unicit, intgrit rfrentielle, compltude, etc.), le recours des outils plus labors est indispensable. Ces outils peuvent faire lobjet de dveloppements spcifiques, tre inclus sous une forme plus ou moins labore dans les progiciels utiliss, le cas chant, pour assurer dautres fonctions, ou encore tre des produits part entire118.
115 116 117

Voir 8.2.5. Zones de formulaires que lutilisateur ne peut pas laisser blanc lors dune saisie.

La dtection dincohrences dans les applications de production est quelquefois considre comme lun des objectifs du SID. Ce point de vue est discut plus loin.

Jean-Marie Gouarn

106

Le Projet Dcisionnel

On peut noter que le contrle de qualit, ou la validation, des donnes, nest pas limit a priori au filtrage des sources ; il peut et doit sexercer aussi sur les donnes charges en fin de chane, cest--dire sur le contenu du data warehouse, voire sur celui des bases de diffusion. Lextraction (3), cest--dire le prlvement physique des donnes, est traite selon des modalits trs diverses. La technique la plus rudimentaire (mais nanmoins lune des plus utilises), consiste exporter le contenu brut des fichiers sources, dans un format physique assimilable par les outils de chargement de lentrept de donnes. Il sagit souvent dun format textuel de type ASCII dlimit119. Les donnes, transportes sous cette forme, ne sont rellement traites que sur le site dintgration (ou sur une plateforme intermdiaire). Cette solution est souvent retenue car elle vite daffronter le problme dlicat, prsent au 7.6.1, du dploiement de programmes dextraction sur les machines de production. Mais elle nest pas praticable trs grande chelle, compte tenu de limportance des capacits de transfert et de stockage temporaire quelle implique. Il est naturellement prfrable de sappuyer sur les services dextraction slective de donnes dj prsents dans les applications du SIO, lorsquils existent. Il est heureusement assez frquent que les grandes chanes de production maison aient t pourvues dorigine ou ultrieurement doutils simples mais parfois efficaces, destins au reporting oprationnel. Ces outils permettent dadresser priodiquement aux applications des requtes susceptibles de produire des fichiers dextraction mieux qualifis et beaucoup moins volumineux que des copies brutes. Par ailleurs, les grands diteurs de progiciels de gestion tendent doter leurs produits de modules dextraction de donnes explicitement destins linformation dcisionnelle (ou sassocier avec des fournisseurs doutils dextraction)120. Le transport (4) au sens strict du terme est lacheminement physique des donnes du site dorigine vers la BCI. Il sappuie videmment sur des supports physiques (notamment de communication locale ou distante) dont nous ne parlons pas ici, si ce nest pour rappeler que leur dbit doit tre compatible avec les volumes transfrs et les contraintes horaires. Le chargement (5) doit faire appel, de prfrence, au chargeur spcifique du SGBD dintgration (voir note 113). Le chargement du data warehouse tant gnralement un processus priodique introduisant chaque fois un flot important de donnes, il est prfrable de sappuyer sur les outils autorisant les dbits les plus levs. Le chargeur de masse (bulk loader) fourni par lditeur du SGBD est gnralement le moyen le plus efficace, notamment pour labsorption de donnes livres en format ASCII dlimit. La richesse fonctionnelle des chargeurs varie selon les SGBD. Cette richesse doit dailleurs figurer sur la liste des critres de choix. Un chargeur complet offre des possibilits qui vont au-del de labsorption brute dun flot de donnes dans lequel chaque fichier entrant correspond directement une table dans la base de donnes. Il permet notamment de rpartir les donnes dun fichier entrant dans des colonnes appartenant plusieurs tables, ou linverse de charger une table avec des donnes provenant de la fusion de plusieurs fichiers. Il peut aussi appliquer des rgles lmentaires de filtrage et de formatage. A lexcution, il produit automatiquement un journal des anomalies rencontres et une trace des donnes rejetes. Cependant, un tel outil nest vraiment exploitable que sil existe une correspondance assez simple entre la structure des donnes en entre et la structure des tables de la base dintgration. Un chargeur classique nest pas capable de mettre en uvre une logique de transformation complexe. Sil existe un trop grand cart entre les donnes entrantes et le modle dintgration, trois options sont alors possibles : Renoncer utiliser le chargeur de masse, et recourir des routines de chargement spcifiques sappuyant sur linterface de programmation du SGBD ;

118

Par exemple Integrity de Vality Technology Inc., QDB/Analyze de Prism Solutions Inc. ou, pour des projets plus lgers , WizRule de WizSoft Inc.
119

LASCII (American Standard Code for Information Interchange) est la convention la plus gnrale dchange de donnes entre systmes htrognes. Dans un fichier en ASCII dlimit, les donnes sont transmises exclusivement comme une squence de caractres ASCII, les enregistrements tant spars les uns des autres par un caractre dlimiteur convenu (par exemple le signe de fin de ligne), les champs lmentaires lintrieur des enregistrements tant eux-mmes dlimits par un autre caractre convenu (par exemple le point-virgule).
120

Cest notamment le cas de SAP.

Jean-Marie Gouarn

107

Le Projet Dcisionnel

Charger les donnes telles quelles, en masse, dans des tables temporaires, et effectuer ensuite les contrles et les transformations appropris lintrieur de la base de donnes, en utilisant le langage procdural du SGBD ; Traiter les fichiers dentre en amont, de manire leur donner une structure et un contenu conformes la cible, et les passer ensuite au chargeur de masse. La solution (3) est de loin la plus performante. Dabord, le traitement de fichiers plat , hors base de donnes relationnelle, est beaucoup plus rapide que la manipulation de tables dans la base quimplique la solution (2). Quant la solution (1), elle oblige charger les donnes enregistrement par enregistrement, ce qui est considrablement plus coteux que le chargement de tout un fichier en rafale. Cependant, la prfrence ne va pas toujours vers la performance pure : loption (1) est celle qui ncessite le moins despace de dpt temporaire de donnes, et loption (2) donne gnralement limpression de minimiser leffort de programmation. Lorsque, compte tenu des remarques faites au 7.6.2, lintroduction de progiciels dans la chane dalimentation est justifie, cest dans la combinaison des fonctions dextraction et de chargement que ces outils apportent la valeur ajoute la plus spectaculaire. Les deux fonctions sont en effet couvertes par les offres les plus connues121, o elles sont ventuellement compltes par des services de nettoyage et de validation. Les quelques outils dextraction-chargement de haut de gamme disponibles ce jour sont dj trs labors. Ils prsentent quelques caractristiques communes. Ces produits ne sont pas, par eux-mmes, des extracteurs-raffineurs-chargeurs universels : compte tenu de la diversit infinie des structures de donnes, ce serait difficilement concevable. En fait, ce sont des gnrateurs de programmes (ou, si lon veut, des ateliers logiciels dun type particulier). Leur action consiste produire, partir de directives formules laide dun langage de haut niveau, des programmes dextraction de donnes (destins tre excuts sur les machines sources) et des directives pour le chargeur de masse du SGBD dintgration. Le cur de ces outils est constitu par un rfrentiel dans lequel sont consignes toutes les mta-donnes qui dcrivent les sources et les correspondances source-cible. Ces mta-donnes dterminent la gnration des procdures de transformation et de contrle. La Figure 7-3 est un exemple dinterface graphique permettant lutilisateur de spcifier une rgle dextraction et de chargement, partir de laquelle loutil peut gnrer les programmes appropris. Les extracteurs-chargeurs du march assurent non seulement la collecte statique des donnes, mais aussi la collecte incrmentale. Quelques uns sont en particulier capables de dtecter les changements intermdiaires en exploitant les journaux de certains systmes transactionnels de production 122. Mais, bien sr, cette possibilit reste soumise aux restrictions voques la section 7.4.

121

Les trois produits-vedettes, dont la citation est invitable dans tout ouvrage sur ce sujet, sont, par ordre alphabtique, les suites ETI-Extract dEvolutionary Technologies International, Passport de Carleton Corporation et Warehouse Manager de Prism Solutions Inc. La qualit et la notorit de ces produits ne doivent cependant faire oublier ni le caractre confidentiel (en France) de leur diffusion, ni les budgets somptueux quils impliquent, ni lapparition doffres concurrentes plus abordables dans les projets ordinaires.
122

Notamment dans les environnements de production IBM IMS et DB2.

Jean-Marie Gouarn

108

Le Projet Dcisionnel

Figure 7-3 Paramtrage dune extraction de donnes123

Il faut noter au passage que, au-del de leurs fonctions fondamentales de capture, de slection et de restructuration des donnes, ces produits contribuent lexploitation rgulire de la chane dalimentation, en assurant notamment lordonnancement et le contrle dexcution des procdures. Dautre part, leur champ dapplication ne se limite pas forcment au Systme de Collecte et dIntgration : on peut en effet tirer parti des mmes outils pour alimenter, partir de lentrept de donnes, les bases de diffusion. Ladoption de tels outils suppose naturellement un choix darchitecture prcis : leur mode de fonctionnement implique lexcution dune partie des traitements sur la machine source, et dune autre sur la machine dintgration. Certains ncessitent, en outre, des capacits de stockage intermdiaires importantes. Quelles que soient les options retenues en matire doutillage de base, la problmatique de lalimentation ne doit jamais tre dissocie de celle de ladministration. Cette administration doit tre expressment prise en considration sur le plan fonctionnel et sur le plan technique : Lentrept de donnes, au cours de sa croissance, doit toujours rester conforme un Modle dIntgration. Cela veut dire notamment que la capture de nouvelles sources et lextension du primtre fonctionnel, qui impliquent terme des modifications invitables dans la structure des donnes, ne doivent en aucun cas altrer sa cohrence smantique. Cela veut dire aussi que, quelle que soit son volution, la base de donnes doit toujours tre dcrite par un dictionnaire unique, jour, complet et accessible ; Lalimentation de lentrept est, de tous les processus dun SID, celui dont la mise en uvre est la plus complexe, celui qui subit les contraintes les plus fortes, et celui qui prsente le plus de risques dincident. Ce processus, dont lactivit est gnralement priodique et parfois continue, ncessite un ordonnancement prcis et un contrle dexcution permanent. Dans les premires tapes de lexistence dun entrept de donnes, les volumes sont modestes, les sources peu nombreuses et les utilisations limites. Cette situation initiale ne doit pas faire illusion. Le double problme de ladministration des donnes et de ladministration des traitements de mise jour peut devenir une difficult majeure sil nest pas correctement pris en charge au dpart. La maintenance des mtadonnes, celle des structures physiques de la base de donnes et celle des procdures dalimentation doivent
123

Source : Evolutionary Technologies International.

Jean-Marie Gouarn

109

Le Projet Dcisionnel

tre synchrones. Le choix initial des stratgies et des outils doit en tenir compte, faute de quoi des options qui auront sembl simples et conomiques au dpart pourront trs vite se transformer en impasses.

Jean-Marie Gouarn

110

Le Projet Dcisionnel

8. Le Systme de Diffusion et de Prsentation

Le rle fondamental du SDP est la mise disposition, sous la forme informationnelle approprie, des donnes acquises par le SCI. Le SDP sappuie, pour son alimentation, sur une source unique et normalise, en loccurrence lentrept central de donnes cr et maintenu par le SCI. Il na donc pas de liaison directe avec les sources de donnes124, de mme que les utilisateurs nont pas de liaison directe avec le SCI. En revanche, partir de cette base de donnes intgre sur laquelle il sappuie, le SDP peut (et gnralement doit) fournir linformation selon des conditionnements varis et travers des canaux multiples. En effet : A partir du Modle dIntgration, le Modle de Diffusion doit tre adapt chaque domaine dcisionnel ; Dans le cadre de chaque domaine (voire de chaque contexte) le Modle de Prsentation doit tre adapt chaque forme de restitution demande. En pratique, cela signifie quun SDP peut comporter une ou plusieurs bases de donnes supportant chacune une version du Modle de Diffusion. La sparation entre les diffrentes bases de donnes de diffusion peut tre purement logique (ou virtuelle) ou bien physique (cest--dire matrialise par des dispositifs techniquement distincts). La multiplicit et lautonomie possibles des domaines et des contextes dcisionnels, qui soppose lunicit du SCI, relativisent la porte des choix techniques et justifient une grande varit doptions.

8.1 Les limites de lapproche oriente outil


Dans la construction dun systme dinformation, les outils sont officiellement des moyens et non des fins. Mais la pratique des grandes organisations, lorsquon lobserve dun point de vue un peu critique, donne une impression inverse. Le choix dun environnement de dveloppement est gnralement peru comme stratgique non seulement pour un projet particulier, mais encore pour lentreprise. De ce fait, les choix
124

Les outils de prsentation dcisionnels permettent ventuellement de consulter les bases de donnes oprationnelles. Mais il ne sagit, en ralit, que dartifices limits permettant lutilisateur, sans changement apparent denvironnement, de quitter momentanment un contexte dcisionnel pour effectuer un contrle de nature oprationnelle sur les donnes primaires.

Jean-Marie Gouarn

111

Le Projet Dcisionnel

doutils sont gnralement des choix a priori. Au lieu dtre des questions techniques traites dans les tapes de conception, ce sont des dcisions politiques qui ont un poids souvent comparable (voire suprieur) celui des spcifications fonctionnelles. Bien que ce phnomne ne soit que partiellement fond sur des critres techniques et conomiques rationnels, il nest pas dpourvu de justification. La raison la plus souvent invoque est le souci de lunification et de la bonne gestion des comptences. Depuis la grande mutation des annes 1980, aucun langage na acquis, dans le monde agit des interfaces fentres et des transactions client-serveur, une position aussi durablement dominante que celle du COBOL sur les plates-formes traditionnelles. La prolifration doutils aussi varis quincompatibles complique la tche des directions informatiques responsables de la maintenance des applications, qui sont donc obliges de ragir pour tenter de conserver un minimum dhomognit125. Les choix doutils sont par consquent des dcisions globales dpassant le cadre des projets. En ralit, les choix doutils a priori natteignent pas souvent leur objectif unificateur. Ces choix nont quune porte limite dans lespace et dans le temps. Dabord, pour toutes sortes de raisons, il est pratiquement impossible de prononcer et dappliquer de telles dcisions lchelle dune grande entreprise. Ensuite, la prennit des outils de dveloppement daujourdhui est tellement rduite 126 quaucun choix ne reste applicable longtemps. Malgr tout, la prcdence des choix doutils sur lexpression des besoins est, dans chaque projet, une ralit difficile contourner, quelle que soit sa valeur et sa porte. En matire dinformatique de gestion, ce phnomne na quun impact limit. Sans aller jusqu' prtendre que tous les outils sont quivalents, le choix dun langage de programmation 127 nest ni un lment structurant pour le contenu dune application, ni un facteur essentiel de succs pour un projet. Ce choix conditionne bien sr la manire de procder, mais na quune influence limite sur le rsultat final. Toutefois, dans le cadre dun SID, la question ne se pose pas tout fait dans les mmes termes. Certes, ce ne sont jamais les outils qui font les projets, mais les outils introduisent des contraintes qui peuvent tre incompatibles avec les objectifs. Dans un environnement de production, les aspects techniques de la mise en uvre dun traitement algorithmique prdfini comptent peu par rapport au rsultat du traitement. Mais dans le monde de laide la dcision, les modalits dinteraction entre lutilisateur et la base de donnes font partie du rsultat attendu. Par consquent, le principe de fonctionnement de loutil dcisionnel nest pas neutre. Le march des interfaces de prsentation de donnes et des SGBD optimiss pour le traitement des requtes dcisionnelles nest pas peupl que de produits concurrents et plus ou moins interchangeables. Il est dusage de classer ces produits par catgories, mais deux produits rputs appartenir la mme catgorie peuvent ne pas jouer exactement le mme rle, voire se complter au sein dun mme projet. La slection des outils ou ce qui est pire la slection dun outil avant la dfinition du besoin est donc ici classer sans complaisance dans la liste des facteurs de risque. Un choix na de chances srieuses dtre bien adapt que sil tient compte des rponses apportes trois questions : Loutil correspond-il exactement, ou au moins partiellement, aux modalits pratiques du dialogue entre lutilisateur et le SID ? Comment se situe exactement loutil dans larchitecture logique du SDP, et quelle est sa fonction prcise ?
125

Le mot SICOB na jamais t autant prononc que depuis la disparition de linstitution elle-mme. Il est parfois utilis comme une arme dfensive contre la panoplie technologique du SID.
126

Certains croient, assez navement, que la prennit dun outil logiciel est garantie par la robustesse financire de son ralisateur. En fait, on pourrait compter des kilomtres de placards occups par des logiciels prims dont les diteurs affichent des rsultats plus florissants que ceux de leurs clients.
127

Nous crivons langage de programmation pour simplifier, et pour viter une discussion hors sujet sur les nuances qui distinguent gnrateurs dapplications , ateliers logiciels , botes outils et autres langages de diverses gnrations destins produire des algorithmes excutables sous une forme quelconque.

Jean-Marie Gouarn

112

Le Projet Dcisionnel

Loutil est-il compatible avec lensemble des contraintes techniques dexploitation du SID ?

8.2 Modalits daccs linformation


Le SDP est une application, ou un ensemble dapplications, destin rpondre des requtes. Pour jouer ce rle efficacement, la structure des requtes connues et prvisibles doit trouver un cho dans la structure des contextes du Modle de Diffusion. On a vu comment cette structure pouvait tre labore partir des vues sous-jacentes au requtes (cf. chapitre 4). La connaissance des vues, toutefois, ne suffit pas. Les conditions dexploitation des vues, lergonomie de leur prsentation, le degr de responsabilit laiss lutilisateur, le mode de restitution des rsultats sont autant dlments de spcification qui compltent le Modle Conceptuel des Donnes. Ces modalits pratiques dutilisation des donnes relvent de plusieurs profilstypes. Larchitecture du SDP ne doit pas rsulter de choix a priori ; elle doit rsulter dune anticipation aussi raliste que possible de ces profils dexploitation, dont nous proposons ici une classification.

8.2.1 Etats prdfinis


Le service minimal quon attend dun nouveau SID est la reprise des fonctions classiques de production priodique dtats imprims initialement assures soit directement par les applications de production, soit par des outils vocation plus dcisionnelle comme les infocentres (cf. section 6.1) dj en place. Il y aurait sans doute beaucoup redire sur ces ditions systmatiques. Beaucoup dentre elles, mises en place une poque recule et en rponse un besoin conjoncturel, nont plus aucune utilit, mais continuent de circuler un rythme immuable, de limprimante au casier, du casier au bureau et du bureau au pilon, parce que personne ne prend la responsabilit de les arrter. Larrive du data warehouse est une bonne occasion de faire le tri entre le ncessaire et linutile, et dallger ainsi les chanes de traitement tout en ralentissant la dforestation de la plante. Cependant, la mise en place du SID avec son arsenal de prsentations interactives la demande ne fait en aucun cas disparatre la demande de tableaux et de graphiques figs et imprims des dates prdtermines, au moins pour les raisons suivantes : Le climat du projet est gnralement tendu et il nest pas opportun de crer des inquitudes supplmentaires en laissant croire a priori que le SID ne serait pas capable de refaire ce qui se faisait avant lui ; Tant que les utilsateurs ne se sont pas rellement appropris leur nouvel outil, ils ne lui accordent quune confiance relative et veulent avoir la garantie du maintien des restitutions existantes ou au moins dune partie dentre elles. Ils ne peuvent dailleurs pas savoir lavance dans quelle mesure le SID leur permettra de changer leurs mthodes de travail ; Quelles que soient les nouvelles possibilits offertes par le systme, il reste vrai que, pour la plupart des utilisateurs (notamment ceux qui ont prendre rgulirement des dcisions programmes telles quelles sont dfinies la page 15), les ditions priodiques en format fixe restent effectivement utiles et mieux appropries que des dialogues en ligne. Le data warehouse ne russira sans doute pas plus que le courrier lectronique instituer le bureau sans papier. Toutefois, sans remettre en question le principe des ditions fixes, larchitecture du SDP doit tre tudie de manire en optimiser la distribution et lusage, en tirant parti des nouvelles technologies. A lavenir, les impressions proprement dites ne devraient avoir lieu que sur commande des destinataires, ces derniers recevant systmatiquement les tats sous forme numrique. La circulation des tats passera, de plus en plus, par lintermdiaire dune messagerie lectronique ou, mieux, dune base documentaire partage sur une plate-forme logicielle de travail en groupe (groupware) ou dhypertexte distribu (intranet). Les tats prdfinis, quel que soit leur support matriel, impliquent des requtes de format fixe et ne comportant aucun paramtre. Ces requtes sexcutent des instants prvus lavance en tche de fond ;

Jean-Marie Gouarn

113

Le Projet Dcisionnel

leur traitement ncessite de la puissance brute, mais ne pose pas le problme de la rponse immdiate. Les outils de dveloppement appropris sont des gnrateurs de rapports classiques, voire des langages de programmation. Par ailleurs, les utilisateurs ne voient que des rsultats, et la structure des donnes ne leur apparat pas directement, mme si la prsentation des documents reflte les combinaisons dimensionnelles du MCD.

8.2.2 Requtes paramtrables


Les restitutions interactives qui ont connu la plus grande expansion au cours des dernires annes sont de type semi-dirig. Chacune de ces restitutions est caractrise essentiellement par une requte dont le format gnral est prdfini mais dont certains paramtres sont choisis par lutilisateur et dont lexcution est dclenche la demande. Ces restitutions ncessitent une interface de dialogue qui masque autant que possible le schma de la base de diffusion en prsentant un schma apparent, orient mtier , conforme au Modle de Prsentation choisi. Larchitecture approprie aux interactions de ce type comporte un dispositif technique, interpos entre lutilisateur et la base de donnes, spcifiquement destin supporter le Modle de Prsentation. Cette architecture a pour but et pour effet de masquer le modle physique global des donnes et de prsenter lutilisateur des vues spcialises et un vocabulaire proche de son mtier. Gnralement mise en uvre laide des outils de prsentation les plus connus du monde de linfocentre, appels requteurs128. Linterface de dialogue offre lutilisateur la possibilit de choisir un certain nombre doptions de restitution et de paramtres de slection, et dexprimer ses requtes dans un langage non technique . A partir des choix de lutilisateur, loutil met des requtes techniques en SQL destination du SGBD, puis formate les donnes obtenues en retour selon le cadre de prsentation en vigueur. Linteraction stable ainsi comprise ne permet pas lutilisateur de voir la structure relle des donnes, et elle le canalise dans un cadre de dialogue prdfini. Ce cadre peut lui laisser un degr quelconque de libert et dinitiative, ou au contraire lui laisser le seul droit de produire un tat strictement prdtermin. Mais il est exclu que lutilisateur navigue librement dans les donnes relles. Dans ce mode dexploitation des donnes, la base de diffusion nest pas la disposition directe de lutilisateur. Ce dernier est en interaction avec un moteur de prsentation qui lui propose des vues prorganises129. Ces vues doivent avoir t pralablement prpares. Or cette prparation, quelle que soit limpression de facilit que donnent les dmonstrations commerciales de requteurs, est une authentique tche de dveloppement informatique. La charge imputable ce dveloppement est dailleurs dautant plus redoutable quelle est systmatiquement sous-estime. Destine guider et encadrer lutilisateur dans des chemins daccs aux donnes soigneusement choisis lavance, tout en lui laissant une certaine initiative, cette organisation suppose une certaine stabilit dans la structure des interrogations. Il nest pas question, en effet, dimproviser de nouveaux cadres de prsentation tous les jours. La mise au point et la maintenance de ces cadres ne relvent pas du mtier de lutilisateur, quels que soient les talents de ce dernier. Toute demande dvolution dans les vues est donc assimilable une demande dvolution de logiciel, cest--dire la passation dune commande par un utilisateur un informaticien. Cest la contrepartie majeure des avantages de cette solution.

8.2.3 Manipulation dimensionnelle libre


La navigation libre dans les bases de donnes de diffusion est sans doute le service le plus reprsentatif dun SID accompli. Ce service semble, jusqu' prsent, rserv une minorit restreinte, des utilisateurs dlite. Mais il ne faut pas sy tromper : cest prcisment cette population, quotidiennement confronte des situations exigeant des rponses non programmes, qui joue le rle moteur dans la plupart des projets.
128

Cette famille doutils comprend par exemple Business Objects, Impromptu (Cognos Inc.), GQL (Andyne Computing), et beaucoup dautres.
129

Ces vues, selon les outils de prsentation, sont appeles univers, catalogues, modles, dossiers, etc.

Jean-Marie Gouarn

114

Le Projet Dcisionnel

La libert dexploration et de calcul dans les donnes est un rve ancien. Cest sans doute au moins en grande partie ce rve qui a t lorigine du modle relationnel et des langages de manipulation associs, notamment le SQL. Notre dcennie, plus raliste que la prcdente sur ce point, a toutefois renonc sans quivoque mettre lutilisateur final directement aux prises avec une base de donnes, ft-elle relationnelle. Quand on parle de requtes libres, il sagit dune libert surveille. La cration de requtes non programmes par lutilisateur implique que ce dernier dispose dune interface montrant la structure dimensionnelle du contexte auquel il sintresse et lui permettant de composer ses propres vues. La composition dune vue dcoule presque toujours, en pratique, dune autre vue. Dans une session danalyse non programme, les rsultats dune requte suggrent en gnral une ou plusieurs autres requtes ayant des points communs avec la premire. Lutilisateur ayant par exemple cru remarquer une tendance intressante sur les marges ralises au cours dun trimestre sur une ligne de produits peut chercher sexpliquer ce rsultat travers des vues plus fines. Il peut notamment descendre un niveau hirarchique infrieur dans chaque dimension, choisissant une vue par produit par mois. Il peut ensuite affiner encore en ajoutant un dimension supplmentaire, pour obtenir une vue par produit par mois par segment de clientle. Il peut enfin remonter au niveau initial, mais en choisissant un trimestre dune autre anne pour comparaison avec le premier rsultat. Et ainsi de suite. Les manuvres multidimensionnelles de base sont : la navigation verticale dans les donnes (drill down, drill up), cest--dire le passage dun certain niveau de prsentation dun ensemble de donnes un niveau plus dtaill ou au contraire plus agrg ; la rotation, cest--dire le changement dorientation dimensionnelle dans la prsentation des donnes, notamment par permutation entre lignes et colonnes. Les interfaces les mieux adaptes ce type de dialogue sont videmment celles qui favorisent davantage la construction des vues plutt que lexcution des requtes. Ce sont donc celles qui montrent la structure des donnes (au lieu de la masquer) et permettent lutilisateur de faire ses propres assemblages. Malgr les efforts faits par certains fournisseurs pour combiner les genres, lassociation du requteur traditionnel avec une base de donnes relationnelle nest pas ici la solution la plus indique. La navigation libre dans les contextes implique plutt des moteurs de diffusion et de prsentation intgrant les notions de dimension, de hirarchie et dagrgat dans leur logique native. Louverture dun systme aux requtes libres introduit une plus grande incertitude que les autres options quant aux volumes et aux performances. Seuls les contextes (au sens prcis o on les dfinit dans ce livre) sont ventuellement connus lavance ; les requtes ne le sont pas, et les vues drives (voir 4.2.3) peuvent tre trs nombreuses. De plus, faute de spcification prcise, toute requte a potentiellement pour cible la totalit de la base de donnes existante. Lorsquun utilisateur libre peut se satisfaire dun sousensemble restreint des donnes disponibles, mme si la structure de ses requtes est imprvisible, il est utile de le savoir en amont des choix technologiques. En reprenant le prcdent exemple, il est possible que chaque utilisateur ne sintresse qu quelques lignes de produits et quelques segments de clientle. Il se peut aussi que chacun soit concern par toutes les combinaisons possibles de produits et de clients. Or larchitecture optimale nest pas la mme dans le premier cas que dans le second.

8.2.4 Simulation
La simulation consiste dune manire gnrale rechercher des rsultats en combinant des donnes objectives indpendantes de la volont de lutilisateur avec des donnes fictives choisies par ce dernier selon une logique qui lui est propre. Les requtes de la forme que se passerait-il si... ? relvent typiquement de ce genre dexercice, dont lobjectif est lvaluation des consquences dune hypothse ou dun scnario. La simulation est une activit bien connue et systmatiquement utilise depuis longtemps dans divers domaines de la recherche scientifique. Elle se pratique aussi en matire de management, quoique dans une

Jean-Marie Gouarn

115

Le Projet Dcisionnel

mesure beaucoup plus restreinte, depuis une poque largement antrieure lide de data warehouse130. On peut en tirer parti dans des applications diverses, allant du marketing direct la planification budgtaire en passant par ltude dimpact dune mesure fiscale. Les applications de simulation ncessitent au moins une possibilit technique qui, pour toutes les autres applications dcisionnelles, est superflue : la possibilit pour le SDP dabsorber des donnes arbitraires introduites par lutilisateur, et de tenir compte de ces donnes au mme titre que des donnes authentiques provenant du SCI dans le traitement des requtes ultrieures. Toutefois, les informations saisies des fins de simulation ne doivent tre visibles que dans le primtre dun groupe dutilisateurs fortement homogne. A terme, un scnario de simulation doit tre soit dtruit, soit archiv titre priv par le groupe de travail ou par lutilisateur concern. Il peut ventuellement tre vers dans lentrept de donnes, si larchitecture fonctionnelle du projet intgre explicitement lapplication de simulation comme une source de donnes parmi dautres, et condition de ne pas introduire un anomalie dans larchitecture dalimentation du systme (cf. 8.2.8). La simulation implique donc : une interface de dialogue permettant non seulement dexprimer des requtes et de restituer des rsultats, mais aussi de saisir des donnes ; un moteur de calcul capable dassimiler immdiatement les donnes saisies par lutilisateur aux donnes initiales. Une telle application exclut en gnral les requteurs classiques, qui ne comportent pas de fonction de saisie, et les bases de donnes relationnelles, qui supportent mal les mises jour concurrentes dans un contexte dcisionnel.

8.2.5 Recherche de connaissances


La plupart des applications dcisionnelles sarrtent la mise en vidence de mesures dtermines par des associations de variables. Mais dautres, plus volues, vont au-del : leur objectif est de vrifier ou dtablir des estimations ou des prvisions de comportement ; des classifications, regroupements par affinit ou segmentations de toutes natures. Ces applications relvent de ce quil est convenu dappeler le data mining, bien que cette expression ne soit pas parfaitement approprie. Certains auteurs on propos Knowledge Discovery in Databases (KDD), expression sans doute un peu trop sophistique mais qui rendait mieux compte de ce en quoi consiste le data mining131. Il sagit plus en effet de recherche de connaissances dans des donnes dj extraites (et de prfrences raffines) que dextraction primaire partir de gisements bruts. Il est vrai que les techniques du data mining peuvent aussi tre mises profit, dans le SCI, pour contribuer la dtection des donnes de production intressantes . Mais il ne sagit, pour linstant, que dun aspect secondaire. Les outils actuels du data mining sont encore fortement spcialiss, chacun mettant en uvre une technologie et une mthodologie particulires. Certains sont conus autour de mthodes statistiques classiques, notamment lanalyse factorielle des correspondances (AFC) ou lanalyse en composantes principales (ACP). Certains, plus particulirement orients vers la classification, utilisent la technique des arbres de dcision. Dautres ont recours aux rseaux neuromimtiques pour la prdiction et la dtection des rgularits de comportement. Dautres enfin sappuient sur des algorithmes gntiques qui mettent en uvre une logique de mutation et de slection naturelle en vue de produire les modles explicatifs les plus efficaces. Et cette liste nest pas limitative. Ces techniques, aujourdhui largement disperses dans des produits relativement ferms, sont sans doute appeles, terme, se dcloisonner. Elles prendront vraisemblablement une importance croissante dans les
130 131

Voir notamment ce sujet louvrage prcit de R.E. Shannon, Systems Simulation, the art and science , Prentice Hall 1975.

Prcisons toutefois que la notion de KDD, pour ses promoteurs, dsigne un type volu dapplications, pouvant tre considr comme une avance, ou comme une seconde gnration, par rapport au data mining.

Jean-Marie Gouarn

116

Le Projet Dcisionnel

organisations. Le data mining devra toutefois, pour tenir ses promesses, tre intgr larchitecture des Systmes dInformation Dcisionnels au lieu dtre conu comme une application isole. Le data mining constitue pratiquement une spcialit dans le domaine de linformation dcisionnelle. Sa prsentation complte nous carterait du cadre et de la vocation de cet ouvrage 132. Il prsente cependant (sous rserve des particularits de chaque produit) des caractristiques gnrales dont limpact sur larchitecture nest pas ngliger. Les applications nont pas pour but dafficher des rsultats de requtes mais plutt de vrifier, voire de dtecter automatiquement, lexistence de probabilits dinfluence de certaines variables sur certains indicateurs, en rponse des questions faiblement directives. Des questions telles que : quels sont les facteurs qui, dans le profil sociologique de ma clientle, ont le plus dinfluence sur le taux dimpays et/ou sur le nombre de dossiers passs au contentieux ? quels sont les tranches dge, les professions et le type dhabitat qui maximisent le taux de rponse mes campagnes promotionnelles ? relvent typiquement du data mining. Le data mining peut se concevoir et sutiliser dans une perspective confirmatoire, pour vrifier la validit statistique de rgles ou dhypothses dj formules, ou exploratoire, pour dcouvrir des modles dinfluence insouponns. Ces deux perspectives impliquent deux formes de dialogue profondment diffrentes entre lutilisateur et le systme. Les demandes du data mining ont plusieurs consquences sur larchitecture dalimentation, sur les volumes et sur la qualit des donnes : La recherche de rsultats statistiquement significatifs implique lexploitation dun grand volume de donnes par lapplication. Le data mining a notamment pour objectif la dtection de signaux faibles qui ne peuvent tre mis en vidence qu condition de passer au crible des sries trs importantes ; Compte tenu de leur logique probabiliste, les applications sont ncessairement trs sensibles la qualit du rapport signal-bruit dans les donnes. La pollution des donnes, en introduisant une proportion mme insignifiante de valeurs errones ou aberrantes, peut introduire des carts statistiques compromettant gravement la fiabilit des rsultats. Le problme de la qualit des donnes est donc plus important pour ce type dapplications dcisionnelles que pour les autres ; Beaucoup des outils actuels de data mining ne sont techniquement capables dexploiter un stock de donnes que sil est conditionn selon une structure physique qui leur est propre et nexploitent pas directement les SGBD ordinaires. Leur utilisation peut donc impliquer, priodiquement ou la demande, des procdures spciales de chargement.

8.2.6 Alertes
Laccs linformation nimplique ncessairement ni la production dtats des dates prdtermines ni des consultations la demande de lutilisateur, mme si ces deux manires de procder sont aujourdhui largement dominantes. Une application dcisionnelle peut galement tre dclenche sur alerte. Un vnement, au sens oprationnel, nest gnralement quune transition banale qui fait passer le systme oprant dun tat un autre selon une rgle de gestion (cf. 3.5.3). Dans une base de donnes dcisionnelle, une alerte est lie la prsence dune valeur ou dune combinaison de valeurs considre comme anormale ou remarquable et justifiant ventuellement une prise de dcision. La dfinition des alertes, galement appeles exceptions, peut tre plus ou moins labore. Une alerte peut tre dtermine par la simple comparaison dun indicateur lmentaire avec une valeur de rfrence. Elle peut aussi tre lie la rpartition statistique dun trs grand nombre de valeurs lmentaires (par exemple

132

Voir, sur ce sujet P.W. Adriaans et R. Zantinge, Data Mining , Addison-Wesley 1996, ou encore M.J.A. Berry et G.S. Linoff, Data Mining Techniques for Marketing, Sales and Customer Support , John Wiley & Sons 1997.

Jean-Marie Gouarn

117

Le Projet Dcisionnel

lenveloppe gnrale dun nuage de points, o la diffrence entre un cart instantan et un cart-type en longue priode). Le dclenchement sur alerte comporte une varit infinie dutilisations possibles dont il nest pas question de dresser la liste ici. Cette technique a parfois donn lieu une certaine dramatisation journalistique. Elle permet en effet une simple variation dindicateurs de provoquer le dclenchement automatique de ractions oprationnelles, et donc denvisager des chanes dinformation-dcision-action dont lhomme serait exclu133. Pour dmystifier un peu la matire, et au risque de dcevoir les amateurs de science-fiction, il convient de rappeler que les dclenchements sur alertes, dans le monde rel, sont presque toujours utiliss pour avertir les dcideurs et non pour dcider leur place. Dans limmense majorit des cas, en effet, une alerte active dans un SID a pour seule consquence technique directe lenvoi dun message destin un tre humain par un moyen de communication quelconque (tlcopie, courrier lectronique, pageur ou autre). La dtection des exceptions est assure par des routines de contrle prprogrammes qui sexcutent en arrire-plan, mais que lutilisateur peut ventuellement, moyennant un outillage appropri, dfinir et installer lui-mme. Les formes les plus volues de ces alerteurs tendent actuellement tre qualifies dagents intelligents. Il nexiste pas de standard dans leur mise en uvre pratique, chaque type dagent tant li un outil de diffusion particulier. Le processus de dtection peut tre situ le plus en amont possible, soit immdiatement la suite du processus de mise jour de la Base de Collecte et dIntgration134, et avoir sa disposition lentrept de donnes dans son ensemble. Il peut aussi tre li un domaine ou un contexte particulier, et sintgrer plutt au Systme de Diffusion et de Prsentation. Son fonctionnement implique dans tous les cas un certain environnement technique (notamment de messagerie). Ce processus, lui non plus, nest donc pas neutre par rapport au choix de larchitecture gnrale.

8.2.7 Applications verticales


Certains types de restitutions informationnelles, fortement structures, intimement lies au mtier de lutilisateur et impliquant des traitements algorithmiques lourds, justifient parfois des applications programmes plutt que des outils de prsentation. Ces applications peuvent comporter des lments de logiciel spcifiques, crs avec les outils de dveloppement du march. La difficult technique majeure est linadquation de ces outils, du moins jusqu' ce jour, au monde dcisionnel. Les langages de dveloppement actuels, notamment, sont pour la plupart mal adapts aux associations dimensionnelles de donnes135. De plus en plus souvent, cest sur des progiciels verticaux quon sappuiera. Ces derniers tendent, dune manire ou dune autre, adopter une ergonomie et un style de prsentation proche du tableur. En termes darchitecture, ces produits ont gnralement tendance exploiter des bases de donnes de type matriciel (voir section 8.4), bien que certains fonctionnent plutt en liaison avec une base de donnes relationnelle. Certains intgrent leur propre mcanisme de gestion de donnes, dautres fonctionnent en mode clientserveur synchrone avec un SGBD du march. La prsentation du panorama des applications dcisionnelles spcialises est extrieure au cadre de ce livre. Nous devons simplement signaler ici que le choix dun outil applicatif vertical, surtout sil sagit dun progiciel, impose une architecture, des contraintes et des dlais, exactement comme dans un systme financier, comptable ou productique.

133

Le grand public imagine volontiers quun enchanement fatal dordres de vente auto-dclenchs par des alertes sur seuils a t lune des causes essentielles du krach boursier de 1987. En fait, mme si la cyber-panique a jou un rle, linformatique a surtout contribu limiter les effets de la crise en fournissant aux autorits rgulatrices, en temps rel, les donnes qui leur ont permis de prendre des contre-mesures rapides.
134

Une alerte peut bien entendu tre associe une application de production. Cest dailleurs le cas le plus frquent. Mais il sagit dans ce cas dune alerte oprationnelle, lie au contrle dexcution dune fonction particulire, qui ne situe pas dans le domaine du SID.
135

On peut citer comme une exception notoire la suite Delphi 3 Client-Server, de Borland International, dont la bote outils contient tout ce qui est ncessaire pour construire et manipuler des structures de donnes multidimensionnelles, condition toutefois de sen tenir des volumes modestes.

Jean-Marie Gouarn

118

Le Projet Dcisionnel

8.2.8 Mises jour interactives


Dans le cadre de certaines applications dcisionnelles, les utilisateurs peuvent avoir effectuer des saisies ou des modifications interactives de donnes persistantes, indpendamment de toute ide de simulation. Les saisies de ce type doivent tre considres comme des sources de donnes parmi dautres. Bien quelles soient faites en rponse des consultations (par exemple dans un but de correction ou de complment) et au cours dactivits danalyse, il ne faut pas leur attribuer un statut conceptuellement distinct de celui des sources principales de mise jour du SID. La chane dalimentation du SID ne doit jamais tre utilise contre-courant, sous peine dintroduire des incohrences et des rigidits, et dimposer au SID, en plus de toutes les autres contraintes, celles quimpose la logique dun systme transactionnel (contrle dintgrit rfrentielle, gestion des accs concurrents, etc.). Autrement dit, la possibilit de faire remonter des saisies ou des mises jour du poste de lutilisateur, via la base de diffusion, jusqu' lentrept de donnes, doit tre exclue. Cependant, cette restriction, impose par la logique de ladministration du systme, peut ne pas tre visible pour lutilisateur. Ainsi, une application fonctionnant en mode client-serveur peut parfaitement, dune part, tre connecte une base de donnes de diffusion et, dautre part, produire des fichiers de donnes qui, en temps et en heure, pourront tre pris en charge par les procdures normales dexploitation du SCI. Ceci suppose, sur le poste de travail, la mise en uvre combine dune application de saisie et dune application de consultation.

8.2.9 Consultation de donnes oprationnelles


La distinction entre information oprationnelle et information dcisionnelle nest pas ncessairement visible pour tous les utilisateurs. Un SID peut, en marge de sa vocation stratgique, tre accessoirement utilis des fins de contrle. Au cours dune session danalyse libre ou dirige lutilisateur peut avoir besoin de faire une incursion momentane dans un espace de donnes refltant directement les oprations. Lobjectif peut tre notamment de rechercher lexplication ou la preuve dune situation ou dun vnement remarquable ou anormal rvl par lanalyse. Par exemple, ayant dcouvert un montant daffaires exceptionnellement lev, pour un client et un produit donns une certaine date, lutilisateur peut vouloir aussitt prendre connaissance des commandes ou des factures en rapport avec ce phnomne. Le SID ne doit pas, pour des raisons de purisme mthodologique, interdire systmatiquement ce type de manipulation. Certes, laccs direct aux bases de donnes de production est viter. En revanche, laccs la Base de Collecte et dIntgration est acceptable dans les conditions suivantes : les procdures dalimentation et de maintenance du SCI ont toujours priorit sur les consultations des utilisateurs ; la consultation directe de la BCI ne produit, en matire de restitution de donnes, que de la visualisation brute dont linterprtation est la seule charge de lutilisateur ; lquipe informatique ne doit pas avoir dvelopper et maintenir les requtes concernes. Si ce besoin est justifi, les utilisateurs concerns doivent alors tre dots dinterfaces de requte permettant, sans rupture apparente denvironnement, daccder alternativement aux bases de diffusion et lentrept de donnes.

Jean-Marie Gouarn

119

Le Projet Dcisionnel

8.3 Modle Relationnel de Diffusion


On emploie quelquefois les expressions modle relationnel et modle dimensionnel en les opposant lune laure. Cette opposition est en ralit la manifestation dune double erreur. La notion de modle dimensionnel recle une ambigut, car elle peut tre considre sur deux plans compltement distincts : Sur le plan conceptuel, un modle dimensionnel est la reprsentation, indpendante de tout choix technologique, dune base de donnes organise en contextes selon les principes prsents au chapitre 4 ; Sur le plan physique, le modle dimensionnel reprsente une technologie particulire pouvant ventuellement tre utilise dans le SDP. Mme si une base de diffusion est conue selon une approche dimensionnelle, elle peut parfaitement tre mise en uvre sur une plate-forme relationnelle. Cest dailleurs la pratique la plus frquente. Le SDP peut donc tre adoss la mme technologie que le SCI. A condition toutefois que la distinction entre Modle dIntgration et Modle de Diffusion soit respecte. La mise en uvre dun MCD sur un support relationnel implique une plus ou moins forte dnormalisation des donnes. Cette dnormalisation, en loccurrence, doit apporter un gain en performances dexploitation et, si possible, en productivit de dveloppement, sans pour autant dtruire la structure dimensionnelle des contextes.

8.3.1 Etoiles ou flocons


La reprsentation directe dun contexte dimensionnel dans une base de donnes relationnelle est un rseau de tables jointes selon une figure particulire dite schma en flocon136. Dans ce mode de reprsentation, qui est le moins dnormalis possible, lassociation conceptuelle qui contient les faits devient une table, dite table de faits, et chacune des entits dimensionnelles devient une table distincte. La table de faits, outre les indicateurs significatifs quelle comporte par dfinition, possde dans sa structure un ensemble de cls trangres dont chacune assure la liaison avec la table du niveau le plus fin de chaque dimension. La Figure 8-1 est un exemple de schma en flocon sans concession. Dans cet exemple, le modle logique de la base de donnes possde exactement la mme structure que le modle conceptuel correspondant, sauf sur deux points : la reprsentation des faits sous la forme dune table (la technologie relationnelle ne faisant pas de diffrence entre une entit et une association) ; la prsence des cls. Il est important de noter que, dans un contexte rel, la table de faits est gnralement une trs grande table, puisquelle comporte autant denregistrements quil existe de combinaisons pertinentes entre tables dimensionnelles. Dans le cas de la Figure 8-1, le nombre denregistrements de la table de faits ( Activit ) peut thoriquement tre gal au produit du nombre dEtablissements par le nombre de Produits par le nombre de Jours de lhistorique mmoris. Il ne sagit bien sr que dun maximum, car il ny a peut-tre pas eu dactivit relle pour chaque combinaison possible. Cependant, mme si le nombre de combinaisons relles ne reprsente quune faible proportion du nombre de combinaisons potentielles, la table de faits a pratiquement toujours une taille suprieure dun ou plusieurs ordres de grandeur la taille de la plus grande table dimensionnelle. Lexprience montre que les tables de faits reprsentent gnralement entre 95 et 99 pour cent du volume total des bases de donnes.

136

Ou snowflake schema, parce que ceux qui ont popularis cette reprsentation y ont vu la forme stylise dun flocon de neige.

Jean-Marie Gouarn

120

Le Projet Dcisionnel

Groupe
cl groupe code groupe co. Dsignation Type de structure

Anne
cl anne Anne

Entreprise
cl entreprise cl groupe SIREN Raison sociale Forme juridique CA

Etablissement
cl tablissement cl entreprise Nom tabl. Adresse tabl. Effectif tabl.

Activit
cl tablissement cl jour cl produit Nb d'oprations Nb units vendues Montant cumul

Jour
cl jour cl mois Date

Mois
cl mois cl anne Numro mois Nom mois

Produit
cl produit cl gamme Code produit Libell produit Prix unitaire

Gamme
cl gamme Code gamme Nom gamme

Figure 8-1 Schma en flocon

Lors de lexcution dune requte, les critres de slection fournis par lapplication portent sur les tables dimensionnelles et les rsultats, par le jeu des jointures, sont extraits de la table de faits137. La gnration de cls techniques, souvent ncessaire dans la Base de Collecte et dIntgration (cf. 7.1.6), est pratiquement imprative dans une base de diffusion relationnelle. Ce principe dcoule de la grande taille et du rle particulier des tables de faits. Pour tre logiquement connecte, une table de faits doit possder une cl pour chaque dimension, ce qui reprsente un nombre de cls allant de deux une douzaine (voire plus). On peut donc dire que, dans chaque enregistrement dune table de faits, les cls prennent une place importante. Si la table de faits possde des centaines de milliers, voire des millions denregistrements (ce qui nest pas rare), lespace occup par les cls dans la base de donnes est loin dtre ngligeable. Do lintrt de minimiser cet espace. Lutilisation de cls signifiantes , cest--dire didentifiants appartenant la liste des proprits descriptives connues de lutilisateur (ex : le numro de scurit sociale dun employ, ou le code de fabrication dun produit, ou le nom dun pays) est viter cet gard. Une cl signifiante est faite prcisment pour signifier quelque chose, et non pour conomiser de la place. Nous recommandons par consquent de nutiliser que des cls techniques numriques, gnres ventuellement lors du chargement de la base de diffusion (si elles nont pas dj t gnres dans lentrept de donnes). Le format de ces cls doit tre homogne et le plus petit possible compte tenu de la cardinalit (cest--dire le nombre maximum possible doccurrences) de chaque table de dimension. Supposons, en reprenant lexemple de la Figure 8-1, que la profondeur de lhistorique soit de 3 ans (environ 1095 jours), quil y ait 2.500 produits et 84.000 tablissements. La cl jour peut tre formate sur deux octets138. La cl produit aussi. Quant la cl tablissement , qui dpasse de peu la capacit de deux
137

Ce schma est thorique, car en ralit les SGBD relationnels nacceptent pas les noms de variables comportant des blancs ou des lettres accentues.
138

Groupe de huit lments binaires, loctet est la plus petite unit denregistrement en mmoire ; il peut reprsenter jusqu' 256 (28) valeurs possibles.

Jean-Marie Gouarn

121

Le Projet Dcisionnel

octets, il lui en faut trois. Un seul octet suffit parfois ; ce serait le cas si, dans notre exemple, le grain priodique tait le Mois (la dimension comportant alors 36 priodes). Ce principe de slection au plus juste du type de cl doit tre pondr de deux manires : Les Systmes de Gestion de Bases de Donnes ne permettent pas toujours de choisir exactement le format qui convient. Les formats les plus courants pour les cls sont lentier court (2 octets) et lentier long (4 octets). Lentier trs court (1 octet) est parfois disponible ; lentier moyen (3 octets) nexiste pas ; Il serait extrmement imprudent de se fier la cardinalit actuelle dune table de dimension, cette cardinalit pouvant sensiblement augmenter terme. Il convient donc de choisir un format numrique possdant au moins le triple de la capacit strictement ncessaire, pour viter les dboires dune prochaine restructuration de la base de donnes. La structure en flocon prsente lavantage dtre pour ainsi dire calque sur le MCD dimensionnel, cest-dire dtre en FDN139 et donc de ne laisser place aucune redondance dans les donnes dimensionnelles. Mais cet avantage de principe ne compense pas quelques inconvnients majeurs dans un environnement ouvert aux consultations complexes : Les requtes invoquant des conditions sur des proprits situes un niveau lev dans une hirarchie (i.e. logiquement loignes de la table de faits) sont sensiblement pnalises, puisquelles impliquent une navigation plus longue (dans notre dernier exemple, le traitement dune requte par Anne, par Groupe et par Gamme sera bien plus complexe que celui dune requte par Mois, par Etablissement et par Produit). Or la complexit et le temps de traitement dune requte, toutes choses gales par ailleurs, augmentent en raison directe du nombre de tables impliques dans la jointure ; Le nombre de cls techniques gnrer, pour jalonner correctement les chemins hirarchiques, est important, ce qui complique la tche des programmes de chargement de la base de diffusion ; Dans certains cas, la reprsentation dun niveau hirarchique par une table spcifique ne fait qualourdir le schma sans aucun avantage technique. (Par exemple, dans la Figure 8-1, il est vident que la mise en place dune table des Annes jointe par une cl la table des Mois est une solution plus encombrante et plus complique que le regroupement des proprits Mois et Anne dans une seule table.) Pour liminer ces inconvnients, on a recours une forme dnormalise du schma en flocon : le schma en toile.
Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.

Activit
cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul

Priode
cl priode Date Numro mois Nom mois Anne

Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme

Figure 8-2 Schma en toile

139

Voir section 4.4.

Jean-Marie Gouarn

122

Le Projet Dcisionnel

La Figure 8-2 reprsente un schma en toile driv du mme modle conceptuel que le schma en flocon de la Figure 8-1. Un schma en toile ne comporte, en plus de la table de faits, quune table par dimension. Cette simplification est obtenue au prix dune forte dnormalisation. Dans la dimension Client , par exemple, toutes les proprits descriptives de lEntreprise et du Groupe sont regroupes dans la mme table que les proprits de lEtablissement. Cela signifie notamment que, dans le cas dun Groupe contrlant 100 Etablissements, la description du Groupe sera rpte dans 100 enregistrements. Le modle en toile est donc gnrateur dune forte redondance, et cest l son principal dfaut. Mais ce dfaut est sans grande consquence ici car : la redondance des donnes ne compromet pas la cohrence dune base de donnes destine la consultation et ne subissant pas de mises jour transactionnelles ; lespace occup par les tables dimensionnelles tant insignifiant par rapport au volume de la table de faits, la redondance dimensionnelle na quun effet ngligeable sur lencombrement total de la base de donnes. Lavantage technique procur en contrepartie est vident. Toutes les tables dimensionnelles ont une liaison directe avec la table de faits. Le nombre de tables pouvant tre impliques dans une requte, en plus de la table de faits, est infrieur ou gal au nombre de dimensions du contexte, quelle que soit la complexit des dimensions. Et le temps dexcution dune requte est indpendant du niveau hirarchique des proprits conditionnelles invoques. Ltoile comme le flocon implique une gestion rigoureuse de lintgrit rfrentielle : il est indispensable, en effet, que chaque enregistrement de la table de faits possde une cl valide assurant la liaison avec chacune des dimensions. Au-del du modle en toile, il est possible de pousser plus loin la dnormalisation en intgrant directement dans la table de faits les proprits de certaines dimensions. On parle alors de dimensions dgrades.
Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.

Activit
cl client cl produit Nb d'oprations Nb units vendues Montant cumul Date Mois Anne

Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme

Figure 8-3 Schma en toile avec dimension dgrade

La Figure 8-3 prsente une restructuration possible de lexemple de la Figure 8-2, dans laquelle on a dgrad la dimension priodique. Dans cet exemple, la table Priode a disparu, et toutes les proprits de la dimension priodique ont t intgres dans la table de faits. La cl de jointure avec la table Priode , devenue inutile, a disparu. La mmorisation dune dimension sous cette forme a pour effet de rduire le nombre de tables, donc le nombre de jointures. Elle peut permettre damliorer les performances, si on lapplique aux dimensions trs frquemment sollicites. Il ny a pas de restriction thorique a priori lusage des dimensions dgrades, et on peut donc concevoir la rigueur un contexte complet enregistr en une seule table, toutes les proprits dimensionnelles tant reportes dans la table de faits. Toutefois, en pratique, dautres contraintes interdisent de recourir systmatiquement ce procd, la dnormalisation des tables de faits ayant des consquences dune autre ampleur que celle des dimensions.

Jean-Marie Gouarn

123

Le Projet Dcisionnel

Le transfert dun ou plusieurs attributs supplmentaires dans la table de faits augmente considrablement le volume de la base de donnes. Il peut en outre avoir un effet global ngatif sur les performances, ou occasionner des difficults supplmentaires doptimisation, la gestion des trs grandes tables tant un problme majeur pour les systmes relationnels. Dautre part, la dgradation dune dimension ne peut ventuellement favoriser que les requtes qui utilisent cette dimension ; elle pnalise au contraire toutes les autres requtes, en alourdissant la table de faits. La dgradation dune dimension nest donc envisageable que si : Le volume des donnes ajoutes chaque enregistrement de la table de faits, aprs dduction du volume reprsent par les cls de jointure supprimes, est trs faible ; Les proprits dimensionnelles intgres dans la table de faits sont utilises par la grande majorit des requtes. Dans une base de donnes relle, il est prfrable de ne pas sen tenir un choix rigide et universel de dnormalisation, et de garder une attitude pragmatique et opportuniste. Aucun schma de base na lieu dtre purement en flocon ou en toile 140 ; certaines proprits dune dimension peuvent tre intgres dans une table de faits sans que la dimension soit compltement dgrade. Dautre part, lorsque plusieurs contextes ont une grande partie de leurs donnes en commun, ce qui est un cas extrmement frquent, ils sont physiquement fusionns autour dune seule grande table de faits.

8.3.2 Traitement des agrgats


Le problme des cumuls pr-calculs complique toujours les applications associes des bases de donnes relationnelles. Ce problme na pas, ce jour, de solution lgante et simple. Les performances des SGBD relationnels classiques sont trs mauvaises en matire de calcul de cumuls sur de trs grandes collections de valeurs. Dans les contextes la fois volumineux et fortement hirarchiss, il est difficile dassurer des temps de rponse acceptables en calculant ces cumuls au moment o ils sont demands. Quand une requte demande le calcul dun cumul (somme, moyenne, comptage) rsultant, disons, de plusieurs centaines de milliers denregistrements de la table de faits, le dlai dattente est normalement incompatible avec les exigences dune utilisation interactive des donnes. Sauf si ce cumul (ou un ensemble de cumuls partiels dont il peut facilement tre dduit) a t calcul lavance et rang dans la base de donnes avec les faits ordinaires. Le stockage de ces agrgats est un aspect de la dnormalisation des donnes. Il sagit de donnes redondantes, puisque abstraction faite des questions de performances elles sont calculables tout moment partir dautres donnes prsentes dans la base. Il sagit donc dun artifice technique doptimisation, et non dun problme conceptuel. Par consquent, il est prfrable de saffranchir de tout parti pris anticip ce sujet, tant quon ne dispose pas dune ide prcise des volumes et de la structure des contextes. Enfin, on ne doit jamais oublier que la solution la plus simple, en matire de gestion dagrgats, est de ne grer aucun agrgat. En dautres termes, on ne doit y avoir recours quaprs avoir acquis la certitude de ne pas pouvoir sen passer. Il existe plusieurs procds pour limplantation physique des agrgats dun contexte dans la base de donnes. En faisant abstraction dune infinit de variantes possibles, on distingue deux stratgies gnrales : les tables de faits multiples ; la table de faits unique plusieurs niveaux. Pour prsenter ces deux procds, repartons du schma en toile de la Figure 8-2. Dans cet exemple, le grain est dfini par la combinaison Produit / Etablissement / Jour. Supposons que, dans le mme cadre dimensionnel, on veuille pr-enregistrer des cumuls par Gamme / Groupe conomique / Mois.
140

Nos confrres anglo-saxons ont adopt le concept de starflake (contraction de star et de snowflake), qui sapplique un schma dimensionnel dont certaines dimensions sont contractes comme dans le modle en toile tandis que dautres restent proches de la forme normale comme dans le modle en flocon.

Jean-Marie Gouarn

124

Le Projet Dcisionnel

La premire option consiste traiter chaque catgorie dagrgats comme si elle correspondait au grain dun contexte particulier, et mettre en place une table de faits spciale pour ce grain. Ici, on a donc deux tables de faits, correspondant chacune un niveau de consolidation, comme le montre la Figure 8-4. La table Activit N1 reprsente les faits de premier niveau (Produit / Etablissement / Jour) et la table Activit N2 les agrgats correspondant au second niveau (Gamme / Groupe conomique / Mois). Cette structure, dont le principe est assez facile prsenter, est cependant complexe dans sa mise en uvre effective.
Activit N1
Donnes par Etablissement/Produit/Jour cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul

Activit N2
cl client cl priode cl produit Nb d'oprations Nb units vendues Montant cumul Donnes par Groupe/Gamme/Mois

Client
cl client Nom tabl. Adresse tabl. Effectif tabl. SIREN Raison soc. entrep. Forme jur. entrep. CA entreprise Code groupe co. Dsignation grp. Type structure grp.

Priode
cl priode Date Numro mois Nom mois Anne

Produit
cl produit Code produit Libell produit Prix unitaire Code gamme Nom gamme

Figure 8-4 Tables de faits spcialises par niveau d'agrgation

Dabord, il existe une grande varit de niveaux envisageables. On pourrait imaginer, dans notre exemple, des agrgats par Produit / Entreprise / An, par Gamme / Etablissement / Mois, par Entreprise / Mois, etc. En ralit, toute combinaison de niveaux hirarchiques et de dimensions dfinit un type dagrgat potentiel. Et il faut crer autant de tables de faits quil y a dagrgats pr-enregistrs, ce qui peut amener une forte complication du schma de la base. Lvolution des besoins doptimisation peut en outre amener de frquentes oprations de maintenance, lies la cration et la suppression de tables dagrgats. Ensuite, et surtout, la pluralit des tables de faits complique lutilisation de la base de donnes. En effet, pour tirer parti des cumuls pr-calculs, les applications doivent savoir choisir quelle table de faits utiliser pour chaque requte. Les requtes libres sont donc particulirement difficiles optimiser. Quant aux requtes structure prdfinie, elles impliquent des cots de dveloppement levs, sachant quelles doivent tre codes (et ventuellement recodes) en fonction de la cartographie des tables. La seconde option consiste placer tous les cumuls pr-calculs dans la mme table que les faits lmentaires. Ainsi, quelle que soit la varit des niveaux dagrgation, il ny a quune table de faits. Mais cette table devient smantiquement htrogne, puisquelle contient des enregistrements de niveaux diffrents. Ainsi, en restant sur notre dernier exemple, on insrerait dans la table de faits, parmi les enregistrements de base, des enregistrements de cumul correspondant chacun une combinaison Gamme / Groupe conomique / Mois. Le seul avantage est de rendre la structure gnrale du contexte indpendante des choix dagrgation, donc plus simple et plus stable. Cette mthode permet en particulier une adaptation plus facile des applications programmes des changements dans les choix de pr-calcul dagrgats. Mais elle ne simplifie en rien le problme des requtes libres, car celles-ci doivent tre expressment formules, l aussi, de manire slectionner les enregistrements de cumul lorsquils sont ncessaires, et ne pas traiter sur le mme plan des faits de niveaux diffrents. Les enregistrements doivent donc tre distingus les uns des autres laide dinformations techniques supplmentaires, non significatives pour lutilisateur : les indicateurs de niveau.

Jean-Marie Gouarn

125

Le Projet Dcisionnel

Cette mthode prsente, en outre, linconvnient daugmenter la taille de la table de faits, au risque de produire un effet globalement ngatif sur les performances. Lexpos de la mise en uvre pratique de chacune de ces mthodes se situe hors du sujet de ce livre. Les quelques indications qui prcdent devraient cependant donner une ide de la complexit technique du problme des agrgats sur une plate-forme relationnelle classique.

8.3.3 Contextes rsums et partitions


Le pr-enregistrement de cumuls nest pas le seul procd doptimisation logique. On peut galement avoir recours deux autres sortes de dnormalisations : Les contextes rsums ; Les partitions. Un contexte rsum peut tre le reflet pur et simple dun contexte de base, mais avec un niveau de grain plus synthtique. Ce nest donc quune table de faits agrgs associe la mme structure dimensionnelle quun contexte dtaill. Mais cela peut tre aussi le rsultat de la simplification structurelle dun contexte. Exemple : Imaginons une campagne danalyse de comportement dans laquelle 90% des requtes sont focalises sur les clients ayant achet des produits lectro-mnagers au cours de lanne 1996. On peut rduire considrablement le temps dexcution de ces requtes en crant un contexte dans lequel seuls figurent les clients ayant achet ces produits dans cette priode. En utilisant ce contexte rsum, on bnficie dune double optimisation : dabord on utilise une table de faits beaucoup moins importante, ensuite on limine la ncessit dexcuter chaque fois un filtrage sur les produits et sur la priode. Eventuellement, la dimension Produit peut ne pas apparatre dans le contexte rsum. Un contexte rsum peut tre cr pour rpondre un besoin momentan (ex : une campagne de promotion cible, une analyse de risque de crdit pour un certain segment de clientle, une tude de rentabilit pour un canal de distribution, etc.) et supprim aprs usage. Le partitionnement rpond une proccupation dallgement des tables de faits, mais sans remise en question du niveau de dtail. Il consiste dcouper le contexte sur un ou plusieurs critres de segmentation. Exemple : Soit une entreprise dont la force de vente est organise en 20 rgions. Chaque directeur rgional a besoin daccder des donnes dtailles sur un historique trs profond. En revanche, un directeur rgional na pas sintresser au dtail des affaires concernant les clients nappartenant pas sa rgion. On peut alors partitionner le contexte sur le critre rgional, divisant (en moyenne) par 20 la taille de la table de faits. (Si ncessaire, on pourra crer en outre un ou plusieurs contextes rsums, ouverts tous, montrant quelques indicateurs communs.) Le partitionnement qui vient dtre voqu est de type logique : il correspond un critre de slection sur le contenu des donnes. Mais on peut aussi, selon la technologie matrielle et logicielle adopte, pratiquer un partitionnement physique consistant, sans que ce soit visible pour les utilisateurs, rpartir la charge de stockage et de manipulation des donnes sur des supports oprant en parallle. Comme la gestion des agrgats, tout ceci suppose des efforts importants dadministration de la base de donnes. Le recours ces optimisations doit donc, dans chaque cas, tre soumis une analyse du rapport cot-avantage.

8.3.4 Systmes relationnels optimiss


Les SGBD relationnels en usage depuis environ deux dcennies sont conus pour une utilisation gnrale. Ils ne sont donc pas particulirement optimiss pour les requtes complexes et non rptitives, alors quils comportent par ailleurs des mcanismes superflus dans un univers dcisionnel. Les techniques de paralllisation, voques dans la section 7.5 propos de la Base de Collecte et dIntgration, apportent une premire rponse technique au problme des trs grandes bases de diffusion. Ces techniques permettent notamment desquiver les consquences pnalisantes de la taille des tables de faits. Elles permettent aussi il faut bien lavouer de compenser provisoirement par de la puissance brute

Jean-Marie Gouarn

126

Le Projet Dcisionnel

un certain nombre derreurs de conception. Mais les avantages du paralllisme ne peuvent devenir effectifs quau prix dun effort dadministration complexe et toujours renouvel. Tout repose en effet sur la qualit et la finesse du partitionnement physique des donnes. Indpendamment des architectures parallles, lessor du march des applications dcisionnelles a suscit le dveloppement, dans le monde des SGBD relationnels, de nouvelles techniques exclusivement conues pour optimiser le traitement des requtes de consultation complexes. Les plus remarquables dentre elles mritent dtre rapidement voques ici. La plus connue de ces techniques est celle de lindex binaire (bitmap index)141. Elle consiste remplacer une variable susceptible dtre un critre de slection (i.e. une proprit dimensionnelle, dans un schma en toile) par un ensemble de tableaux de bits142. Chaque tableau correspond une valeur possible de la variable. Pour prsenter le principe gnral de lindex binaire, utilisons lexemple de la Figure 8-5.
Code client Profession Agriculteur Cadre Ouvrier Employ Artisan Cadre Agriculteur Artisan Artisan Commerant Agric. Empl. Ouvrier Cadre Artisan Comm.

AZ001 XB452 ZS456 KX223 BF322 AB652 GC278 TU612 AA545 FG054

1 0 0 0 0 0 1 0 0 0

0 0 0 1 0 0 0 0 0 0

0 0 1 0 0 0 0 0 0 0

0 1 0 0 0 1 0 0 0 0

0 0 0 0 1 0 0 1 1 0

0 0 0 0 0 0 0 0 0 1

Figure 8-5 Index binaire sur une proprit

La partie gauche du tableau reprsente une table de Clients (simplifie pour lexemple) comportant deux proprits (ou deux colonnes), correspondant respectivement au Code client et la Profession . On admet quil y a six valeurs possibles pour la proprit Profession : Agriculteur, Employ, Ouvrier, Cadre, Artisan, Commerant. On peut alors indexer la colonne Proprit avec un groupe de six tableaux binaires correspondant chacun une catgorie professionnelle. Chacun de ces tableaux ne possde quune colonne. Pour chaque enregistrement (ou ligne) de la table des Clients, la valeur 1 est inscrite dans le tableau binaire correspondant la profession du client, et tous les autres tableaux contiennent 0 pour cette ligne. Cette disposition permet au SGBD, pour toute requte comportant une slection sur la proprit Profession , de parcourir un ou plusieurs tableaux de bits, extrmement compacts et susceptibles de rsider en mmoire centrale, plutt que de parcourir la table elle-mme. De plus, elle acclre considrablement le comptage des individus possdant une proprit indexe ; ce comptage peut tre fait dans les tableaux binaires sans que la lecture de la table soit ncessaire. On voit dans notre exemple quil suffit de compter les valeurs 1 dans le vecteur Artisan , sans mme regarder la table de rfrence, pour savoir quil y a 3 artisans parmi les clients.

141

Lindex binaire est une technique effectivement disponible dans plusieurs SGBD du march, quil sagisse de produits vocation gnrale (comme Oracle) ou de produits ddis aux applications dcisionnelles (comme Sybase IQ).
142

Rappelons que le bit est la plus petite unit dinformation numrique, et quil ne peut reprsenter que lune ou lautre de deux valeurs appeles conventionnellement 0 et 1.

Jean-Marie Gouarn

127

Le Projet Dcisionnel

Sachant que lindexation binaire implique la cration dun tableau de bits pour chaque valeur possible de la proprit indexe, ce procd nest utilisable que sur des proprits discrtes, cest--dire ne pouvant prendre quun nombre fini de valeurs. Il est dailleurs prfrable que ce nombre ne soit pas exorbitant. Lespace occup en mmoire par un index binaire est dtermin par la formule : (NE NV) / 8 dans laquelle NE reprsente le nombre denregistrements de la table, NV le nombre de valeurs possibles de la proprit indexe (cest--dire le nombre de tableaux binaires ncessaires). La division par 8 du produit de ces deux nombres donne le rsultat en octets. Si, dans lexemple prcdent, on avait un million de clients, notre index binaire 6 tableaux reprsenterait un encombrement de 750.000 octets, soit un peu plus de 0,7 mgaoctet, ce qui est modeste par rapport au gain de performances prvisible. Cependant, lexistence obligatoire dun tableau de bits pour chaque valeur devient une contrainte insupportable si le nombre de valeurs possibles de la variable indexe est trop lev. Il est difficile aujourdhui de tracer une limite prcise. On peut cependant considrer que cette technique est dune remarquable efficacit et ne prsente aucun inconvnient majeur au moins jusqu quelques dizaines de valeurs possibles ; au-del, la question est tudier de plus prs, en fonction des limites de chaque produit et de la mmoire disponible. Une seconde technique doptimisation remarquable est celle de lenregistrement par colonnes ou stockage vertical143. Cette technique consiste dissocier les diffrentes proprits ou colonnes dune table et les enregistrer dans des espaces physiques spars. Ainsi, lorsquune requte sintresse une proprit en particulier, le SGBD na besoin dexplorer que la colonne correspondante, au lieu de lire toute la table comme dans une architecture classique. Cette possibilit est dautant plus utile quune requte na pratiquement jamais besoin de toutes les proprits des tables auxquelles elle sadresse. Elle est particulirement intressante si on lapplique aux tables de faits. Le stockage vertical est invisible pour les applications : il nintervient que dans le Modle Physique de la base de donnes, et naltre pas le Modle Logique. Ainsi, quune table soit divise par colonnes ou non naffecte pas la syntaxe des requtes. La troisime technique remarquable est celle qui consiste tablir lavance des liaisons physiques entre les tables susceptibles dtre frquemment jointes dans les requtes. Dans les SGBD classiques, les jointures nont pas dexistence physique a priori ; elles sont spcifies chaque requte et construites la vole. On connat depuis longtemps dj les clusters (voisinages) qui pour simplifier peuvent tre assimils des associations prdfinies de tables. Ce procd, plutt sommaire, est assez lourd administrer et a pour effet de pnaliser fortement les requtes qui nutilisent pas toutes les tables de lassociation ; en outre, il ne peut pas tre combin avec lutilisation du stockage vertical. Cest pourquoi, dans certains outils spcifiquement ddis aux bases de donnes dcisionnelles, est apparue la jointure en toile (star join)144. Grce cette technique, il devient possible de faire correspondre chaque contexte une structure physique prdfinie. Les jointures entre tables de dimensions et tables de faits sont balises lavance, et donc traites beaucoup plus efficacement.

8.4 Les avatars de lhypercube


Les techniques de diffusion et de prsentation qui connaissent les dveloppements les plus spectaculaires ces derniers temps sont ceux qui intgrent dans leur architecture native avec des variantes de vocabulaire selon les fournisseurs les notions de fait, de dimension, de hirarchie et dagrgat. Ces outils assurent une correspondance plus directe que les bases de donnes relationnelles entre le Modle Logique et le Modle
143

Ce procd est notamment mis en uvre dans le SGBD Sybase IQ, o il est assorti de techniques de compression qui permettent de rduire sensiblement lespace occup par les tables.
144

La jointure en toile est une caractristique majeure du SGBD Red Brick Warehouse de Red Brick Systems.

Jean-Marie Gouarn

128

Le Projet Dcisionnel

Conceptuel des Donnes. En effet, ils organisent les donnes selon une structure matricielle qui reflte la vision dimensionnelle quen ont les utilisateurs. Comme on la indiqu au chapitre 4, les donnes dun contexte sont conceptuellement perues sous la forme de matrices deux ou plusieurs dimensions. Ces matrices sont communment appeles hypercubes145, mais la loi du moindre effort tend imposer lusage du mot cube, bien que le nombre de dimensions ne soit pas limit trois. La technologie matricielle prsente trois avantages majeurs : Les donnes sont techniquement reprsentes sous une forme qui reflte directement le modle conceptuel et rend les manipulations libres beaucoup plus intuitives. Un hypercube est un modle de donnes pour ainsi dire auto-document ; Laccs aux donnes contenues dans les cellules dun hypercube est beaucoup plus direct que dans toute autre structure de donnes complexe. La notion de jointure nexiste pas, puisque toutes les donnes sont dans un seul tableau. Les temps de rponse sont donc trs courts, compars ceux dune base de donnes relationnelle mme spcialement optimise ; Ladministration dun schma matriciel est beaucoup plus simple que celle dune base de donnes relationnelle. La transcription du Modle Conceptuel de Donnes ( condition quil soit en forme dimensionnelle, naturellement) est presque directe. Les seules vritables dnormalisations envisageables sont celles qui ont pour objet de faire cohabiter, dans le mme hypercube physique, plusieurs contextes conceptuels. Le traitement des agrgats pr-calculs est automatique et transparent 146. Cette technologie a cependant des limites. La plus contraignante dentre elles est le dlai de prparation dun hypercube aprs chargement initial ou mise jour des donnes. Ce dlai tient principalement, non pas au transfert entre la source de donnes (gnralement un serveur relationnel) et le cube, mais au temps de calcul du cube partir des donnes transfres. Un hypercube contient en effet beaucoup plus de valeurs calcules que de valeurs charges, puisque les rsultats correspondant toutes les combinaisons dimensionnelles peuvent tre calculs lavance. Cette caractristique, qui est un avantage au moment de lexcution des requtes, est un handicap au moment de la mmorisation des donnes. Le traitement direct des donnes sous forme multidimensionnelle existe depuis trs longtemps. Il tait dj, dans les annes 80, au cur de quelques Systmes Interactifs dAide la Dcision (SIAD) ou Executive Information Systems (EIS). Mais ces outils, rservs une lite, mis en uvre sans vritable perspective de SID dentreprise, ont connu cette poque une trs faible diffusion. Plus prs de lutilisateur ordinaire, la logique dimensionnelle est galement prsente, sous forme embryonnaire, dans les tableurs147.

8.4.1 OLAP, mais encore ?


Le vritable essor de la technologie matricielle a commenc en 1993. Il concide pratiquement avec le lancement du concept dOLAP (On Line Analytical Processing)148. Cet acronyme a pris une norme importance dans le discours relatif linformation dcisionnelle. Suscitant un dbordement frntique dimagination, il est aujourdhui accompagn dune collection de drivs dont leffectif augmente de jour en jour et dont chacun est cens apporter une nuance ou une prcision : ainsi a-ton vu surgir, dans lenthousiasme dun lcher de ballons, les MOLAP, ROLAP, DOLAP, HOLAP,
145

Un hypercube est en principe une matrice dont le nombre de dimensions est suprieur trois. Dans le vocabulaire de linformatique dcisionnelle, ce mot dsigne une matrice dont le nombre de dimensions est quelconque.
146

Certains moteurs matriciels permettent de dcider si les valeurs cumulatives doivent tre calcules au moment du chargement du cube et pr-enregistres, ou si elles ne doivent tre calcules qu la demande, en rponse aux requtes intresses. On peut donc rduire, au choix, les temps de rponse ou lencombrement. Mais quelle que soit loption retenue, elle ne change pas le schma de diffusion et de prsentation des donnes.
147

Elle y est cependant largement sous-utilise. Combien de bureauticiens avertis savent-ils composer un tableau crois dynamique avec leur tableur favori ?
148

Voir E.F. Codd, S.B. Codd et C.T. Salley, Providing OLAP (On-line Analytical Processing) to User-Analysts : An IT Mandate , Computerworld 1992. Le premier des trois auteurs, E.F. Codd, a jou, en dautres temps, un rle essentiel dans la dfinition des principes applicables aux SGBD relationnels. Mais le concept dOLAP est loin davoir la rigueur de lalgbre relationnelle.

Jean-Marie Gouarn

129

Le Projet Dcisionnel

WebOLAP et autres x-OLAP. Pour le responsable impliqu dans un projet dinformation dcisionnelle, cette avalanche de concepts nest pas de nature faciliter la perception des alternatives technologiques. Il est donc indispensable de la considrer avec un recul critique, plutt que dessayer de la suivre au jour le jour. Le choix des quatre lettres OLAP a t voulu par ses auteurs comme le pendant de lOLTP (On Line Transaction Processing) de manire qualifier les applications danalyse des donnes (cest--dire les applications daide la dcision) en les opposant aux applications transactionnelles de production 149. LOLTP est, dans la pense des professionnels, une notion classique qui voque linformatique srieuse . Derrire le symbole OLAP, qui se distingue de lOLTP tout en y faisant implicitement rfrence, il y a videmment une intention pdagogique : donner ses lettres de noblesse une autre informatique, tout aussi srieuse , mais diffrente, qui est en loccurrence linformatique dcisionnelle. La premire limite de ce concept rcent concerne les deux premires lettres. On imagine bien ce que on line veut dire dans un environnement oprationnel o les programmes dapplication consultent et modifient des bases de donnes de production avec lesquelles ils sont en connexion directe. Mais dans un SID, avec quoi au juste lutilisateur est-il en ligne ? Compte tenu de larchitecture gnrale du systme (cf. chapitre 6), il naccde pas directement, sauf pour des applications trs limites, aux sources de donnes. Il peut mme excuter des analyses multidimensionnelles trs sophistiques hors connexion, sur des donnes pralablement copies sur sa station individuelle. OLAP pourrait donc tout aussi bien signifier Off Line Analytical Processing. La seconde est en rapport avec les deux dernires lettres. Celles-ci voquent les traitements danalyse en gnral. Compris au pied de la lettre, lOLAP pourrait donc englober lensemble des applications dcisionnelles interactives. Or ce concept qualifie plutt, en fait, la mise en uvre des techniques matricielles de diffusion et de prsentation de donnes au service de manipulations dimensionnelles non prdtermines (du type prsent au 8.2.3). Il dsigne un type denvironnement danalyse et non lanalyse de donnes en gnral. En ralit, ce concept a t dvelopp dans un climat de comptition commerciale trs active, et en liaison directe avec la promotion de lun des leaders du march des SGBD matriciels 150. Il est par consquent fortement color de marketing. Quant aux nombreuses et subtiles dclinaisons de lOLAP (tous les x-OLAP du march), elles dcoulent au moins en partie du souci quont les diffrents fournisseurs en comptition de faire valoir leurs diffrences tout en bnficiant dune lgitimit technologique dsormais incontournable. Chacune delles reprsente en ralit lassociation de deux technologies dont lune au moins est base sur lhypercube. Par exemple, la notion de ROLAP (Relational OLAP), dsigne la combinaison dun service de prsentation et/ou de diffusion dimensionnel adoss une base de donnes relationnelle. Le MOLAP (Multidimensional OLAP) dsigne la technologie nativement multidimensionnelle, dont les promoteurs avaient lanc le concept initial dOLAP, et semble avoir t invent surtout pour montrer que cette technologie nest quune solution OLAP parmi dautres. Un certain nombre de fournisseurs ont cr lOLAP Council, une structure de concertation thoriquement charge de dfinir des standards mais qui, handicape par la ncessit de mnager chacun de ses sponsors, ny est gure parvenue jusqu' prsent. Cet organisme est cependant une source intressante pour sinitier aux principes de lOLAP151. Ces principes sarticulent autour de douze rgles fondamentales152 : Vue multi-dimensionnelle sur les donnes ; Invisibilit, pour lutilisateur, des modalits techniques de mise disposition des donnes ;
149

LOLTP concerne lensemble des applications interactives impliquant des utilisateurs multiples accdant concurremment des bases de donnes partages. Il met souvent en uvre des moniteurs transactionnels. On loppose traditionnellement au traitement par lots en temps diffr (batch processing).
150

Larticle cit dans la note 148 comporte, outre la prsentation des concepts de lOLAP, celle du SGBD matriciel EssBase. Il est notoire que cet article est le rsultat dune tude commande par Arbor Software, lditeur dEssBase, pour favoriser le lancement commercial de son produit.
151 152

http://www.olapcouncil.org

Ces 12 rgles, nonces dans larticle cit en note 148, ont t ultrieurement dveloppes par E.F. Codd dans Twelve rules for the On Line Analytical Processing , Computerworld, Avril 1995.

Jean-Marie Gouarn

130

Le Projet Dcisionnel

Invisibilit, pour lutilisateur, de lhtrognit ventuelle des sources de donnes ; Performances stables et indpendantes de la complexit dimensionnelle des contextes danalyse ; Architecture client-serveur, le ct serveur ayant la charge de lhomognisation des donnes153 ; Traitement gnrique des dimensions, cest--dire possibilit deffectuer le mme type dopration sur toutes les dimensions154 ; Gestion dynamique efficace des matrices creuses, cest--dire aptitude ne pas encombrer la mmoire de la machine avec les cellules correspondant des combinaisons dimensionnelles nulles ; Possibilit daccs simultan un mme contexte danalyse pour plusieurs utilisateurs ; Possibilit deffectuer, sans restriction technique, des calculs sur toutes les combinaisons possibles de dimensions et de niveaux hirarchiques ; Manipulation intuitive des donnes ; Flexibilit des restitutions ; Absence de limite a priori dans le nombre de dimensions et dans le nombre de niveaux hirarchiques par dimension. Les douze rgles en question peuvent permettre, dans un dbat thorique, dattribuer ou de refuser ltiquette OLAP tel ou tel produit du march. Mais elles ne disent pas quel est loutil OLAP le mieux adapt un projet rel, et encore moins si une application dcisionnelle justifie ladoption dune technologie OLAP . Le concept dOLAP a eu le grand intrt de lgitimer et de populariser lapproche dimensionnelle en gnral. Mais il na pas vocation servir de base un choix doutil.

8.4.2 Serveur matriciel ou serveur relationnel ?


Les techniques matricielle et relationnelle sont souvent considres tort comme concurrentes. En ralit, les deux peuvent tre parfaitement complmentaires dans le cadre dune architecture de diffusion et de prsentation deux ou plusieurs niveaux. La vue multidimensionnelle sur les donnes, requise par la premire rgle de lOLAP, nimplique pas ncessairement une vritable architecture OLAP. A condition de mettre en uvre les outils de prsentation adquats, elle saccommode parfaitement dune base de donnes relationnelle de diffusion. Autrement dit, le fait dopter pour une prsentation multidimensionnelle des donnes ne suffit pas ; ce choix ne fait quouvrir une nouvelle alternative, sachant que le conditionnement matriciel peut tre assur soit par la base de diffusion, soit par loutil de prsentation. Si la base de donnes commune est relationnelle, la structure dhypercube doit tre constitue et gre du ct du poste de travail individuel. Ce dernier doit donc possder la logique, la puissance de calcul et la capacit de mmorisation adquates. On est donc dans une architecture de type client lourd . Cette solution est rsume par la Figure 8-6.

153

Cette 5me rgle de lOLAP ne fait pas de distinction claire entre Base de Collecte et dIntgration et Base de Diffusion. Prise au pied de la lettre, elle peut donner lieu de dangereux mcomptes. Bien que la technique ne linterdise pas a priori, nous dconseillons vivement dutiliser un moteur OLAP en prise directe avec des sources de donnes nombreuses, htrognes et asynchrones dans un projet stratgique.
154

Cette rgle ninterdit pas, en fait, certains moteurs matriciels dment estampills OLAP daccorder un statut particulier certaines dimensions en offrant des jeux doprations prdfinies spcifiquement adapts ces dimensions. On peut citer, entre autres exemples, la gestion de calendrier sophistique quon trouve associe aux dimensions priodiques dans le moteur Analysis Server de Pilot Software.

Jean-Marie Gouarn

131

Le Projet Dcisionnel

Hypercubes clients

requtes donnes

Serveur relationnel

Figure 8-6 Architecture mixte relationnelle-matricielle

A loppos, lutilisation dun SGBD matriciel, partag entre plusieurs utilisateurs, comme serveur de diffusion, apporte la vue multidimensionnelle recherche de la manire la plus directe possible. Le rle du service de prsentation, dans ces conditions, est celui dune simple interface de dialogue entre lutilisateur et la base de donnes. Ce type dorganisation est reprsent par la Figure 8-7.

Interface de prsentation

requtes donnes

Serveur matriciel

Figure 8-7 Architecture client-serveur multidimensionnelle

Ces deux architectures offrent lutilisateur la mme vision dimensionnelle sur les donnes. Elles sont aussi faciles (ou aussi difficiles) mettre en place lune que lautre, avec les outils offerts aujourdhui par le march. Pourtant, elles impliquent des choix sensiblement diffrents (et sur certains points diamtralement opposs) concernant aussi bien le mode dutilisation des donnes que les modalits techniques dexploitation du systme. Lhypercube local laisse lutilisateur la libert et la responsabilit de manipuler comme il lentend un jeu de donnes qui lui est rserv. Il dispose dune vritable base de donnes multidimensionnelle autonome sur sa station. Les requtes ne sont adresses la base de diffusion que lorsquil est ncessaire de recharger lhypercube, soit pour mettre jour des donnes, soit pour changer de contexte. Lutilisateur travaille donc de manire asynchrone par rapport la base de diffusion. Ce mode de fonctionnement est dailleurs adapt lutilisation de postes de travail itinrants, connects de faon intermittente au rseau dentreprise. Le chargement des cubes personnels peut en effet tre accompli en sappuyant sur un service de messagerie ou de distribution de documents ordinaire155. Il permet par ailleurs de minimiser le cot de licence du SGBD de
155

Lotus Notes, SMTP/POP, etc.

Jean-Marie Gouarn

132

Le Projet Dcisionnel

diffusion. En effet, les tarifs des diteurs de SGBD relationnels dpendent largement du nombre dutilisateurs simultanment connects ; or lhypercube local permet justement aux utilisateurs de travailler, la plupart du temps, hors connexion. Les outils de cette architecture sont disponibles sur un march fortement comptitif, auprs de fournisseurs dont certains sont dj largement connus156. Leurs cots dacquisition habituels schelonnent entre 2.000 et 6.000 francs par poste, ce qui est trs largement infrieur linvestissement initial que reprsente une solution 100% OLAP . Ces quelques atouts ont naturellement un prix et des limites. Les dmonstrations et les maquettes ne montrent pas les contraintes qui en sont la contrepartie, et qui ne doivent pourtant pas tre ignores : Lhypercube local, mme si son administration nest pas dune grande complexit, doit tout de mme tre gr. Le dploiement dun outil sur un certain nombre de postes de travail ne suffit pas. Encore faut-il que les schmas dimensionnels correspondant aux besoins de chaque utilisateur soient mis en place. Certains utilisateurs sont peut-tre mme de construire eux-mmes leurs modles dhypercubes et de concevoir les requtes ncessaires leur chargement. Mais la plupart dentre eux ont besoin de structures dimensionnelles et de slections dindicateurs prdfinies. Tout cela reprsente naturellement un cot de dveloppement et de maintenance de logiciel, potentiellement alourdi par la diversit ventuelle des profils des utilisateurs ; Un hypercube local correspondant un contexte danalyse raliste (et non une maquette davant-vente) implique une capacit de mmorisation qui peut encore de nos jours, pour un poste de travail individuel, tre considre comme importante157. Et, durant la vie du projet dcisionnel, les besoins en la matire ne peuvent quaugmenter. Pour les entreprises disposant dun parc micro-informatique vieux de plus de 18 ou 24 mois, cette option peut donc impliquer simultanment une mise niveau (ou un renouvellement) dquipement, et une migration denvironnement158 ; Quelles que soient les performances techniques du poste de travail, le chargement dune matrice de donnes volumineuse est une opration lourde, qui sintgre difficilement dans une sance de travail interactif. A moins daccepter plusieurs fois par jour des temps dattente de quelques minutes quelques dizaines de minutes, lutilisateur doit donc se contenter de cubes de taille modeste par rapport au volume dune base de donnes de diffusion moyenne. En dautres termes, lhypercube local nest srieusement praticable que si on est certain de pouvoir dcouper le domaine danalyse en contextes restreints, et si les utilisateurs nont pas rafrachir ces contextes ou en changer trop souvent. Lhypercube partag, cest--dire le SGBD matriciel multi-utilisateurs, nimpose pas les mmes limites. Avec cette solution, cest sur un serveur que la puissance de calcul et de mmorisation est essentiellement requise. La mise jour des donnes, partir du SCI, peut (et doit) tre traite par des procdures dexploitation aux heures creuses. La cration et la maintenance des schmas dimensionnels sont centralises sur ce serveur. Le fait de partager un seul cube de donnes nexclut pas la possibilit de personnaliser les contextes selon le profil des utilisateurs : il est facile, pour ladministrateur, de moduler les droits daccs par indicateur, par dimension, par niveau ou par segment dans une dimension. Il sagit encore aujourdhui dune solution luxueuse, compte tenu notamment du cot des licences logicielles. Ainsi, pour une modeste dizaine dutilisateurs, les cots dacquisition initiaux se ngocient souvent entre 150.000 et 400.000 francs selon les marques et les options retenues. Par rapport de tels montants, le prix de la plate-forme (qui est gnralement un serveur muni dun quatre processeurs Intel, de

156

Parmi les produits conus nativement autour de la notion dhypercube local aliment partir dune source relationnelle, on peut citer de nombreux produits dont PowerPlay de Cognos Inc., PaBLO dAndyne Computing, BrioQuery de Brio Technology, Forest & Trees de Platinum, etc. Cette technologie a, plus rcemment, t intgre dans Business Objects dont la conception initiale tait celle dun requteur.
157

Pour ce type darchitecture, nous considrons 16 Mo de mmoire centrale comme un strict minimum, et nous recommandons 32 Mo (voire 64 Mo dans certains cas). Avant la fin de 1998, nous considrerons vraisemblablement 32 Mo comme le minimum. Pour complter cette mise en garde, ajoutons quil serait imprudent, aujourdhui, de dployer des hypercubes dans un environnement logiciel nayant quune capacit dadressage sur 16 bits, comme les anciennes versions de MS-Windows.
158

Hormis les plates-formes Apple (que nous nexcluons dailleurs pas dun point de vue technique), lhypercube individuel est aussi bien support par Windows 95 que par Windows NT, lessentiel de laffaire tant ici ladressage sur 32 bits, la protection de la mmoire et le fonctionnement multi-tche.

Jean-Marie Gouarn

133

Le Projet Dcisionnel

64 512 mgaoctets de mmoire centrale, de quelques paires de giga-octets de disques et dun systme dexploitation Windows NT) parat presque ngligeable. En contrepartie, le service rendu nest pas seulement laccs immdiat un plus gros volume de donnes. Les SGBD matriciels disposent en outre de fonctions de calcul beaucoup plus labores que celles quoffrent les gestionnaires de cubes personnels. Enfin, ils acceptent les mises jour interactives, ce qui permet aux utilisateurs dexcuter des simulations (cf. 8.2.4). Les SGBD matriciels sont en gnral des modules appartenant des suites logicielles intgres159 destines constituer des solutions compltes pour les SDP (voire mme pour certaines tches du SCI). Cependant, quoi quen disent les diteurs, un tableur ordinaire160 est gnralement la meilleure interface de dialogue et le seul logiciel dapplication ncessaire sur le poste de travail pour tirer parti dun hypercube partag. Lutilisation dun outil de dialogue ddi, acquis auprs du fournisseur du SGBD matriciel, peut se justifier en cas de dveloppement spcifique dun EIS (ou dune application verticale quelconque destine encadrer le dialogue). Mais pour toutes les activits impliquant des requtes libres et concernant des utilisateurs dj familiariss avec le tableur, nous recommandons systmatiquement dviter dimposer une interface propritaire . Le tableur permet en particulier aux utilisateurs les plus avancs (ceux qui, en gnral, tirent les projets dcisionnels) de combiner leurs propres modles danalyse et de restitution avec les schmas contextuels du SID dentreprise, sans engager la responsabilit des quipes informatiques. Par ailleurs, pour permettre le dveloppement dapplications programmes, les moteurs matriciels sont, tout comme les moteurs relationnels, munis dinterfaces adaptes aux outils de dveloppement dusage gnral (PowerBuilder, Delphi, Visual Basic, C/C++, etc.) et dun langage de commande. Mais, comme il nexiste, sur le march des bases de donnes matricielles, aucun standard comparable au SQL, la syntaxe diffre radicalement dun produit un autre. Lhypercube serveur nest pourtant pas prs de dtrner le SGBD relationnel dans le rle de moteur de diffusion, et ce nest pas uniquement pour des raisons culturelles. Le partage dun serveur multidimensionnel permet daller beaucoup plus loin, en matire de volume, que lhypercube individuel. Mais, dans un grand projet, ce ne peut tre quune solution partielle. Un cube charg de quelques dizaines de gigaoctets de donnes peut, aprs calculs des valeurs drives, occuper un espace physique se mesurant en centaines de gigaoctets, et le calcul peut impliquer plusieurs dizaines dheures. Certes, la mise jour des donnes peut tre, dans certains cas (mais pas toujours) excute en mode incrmental, de manire viter de trop frquents recalculs. Malgr tout, au-del dune vingtaine de gigaoctets par serveur, et dans ltat actuel des outils, il est prudent de ne pas saventurer sans une vrification prcise de faisabilit dans la voie du client-serveur OLAP. Les limites volumtriques daujourdhui sont sans doute trs provisoires : lvolution des techniques de compression de matrices creuses, et plus rcemment lapparition des hypercubes rpartis161, permettent denvisager terme la mise en place de grandes bases de donnes structure matricielle.

8.4.3 Serveurs hybrides


Lirrsistible attraction de lapproche multidimensionnelle, en se heurtant aux limites techniques de lhypercube, a naturellement suscit des architectures de compromis. La plus remarquable dentre elles combine les approches relationnelle et dimensionnelle. Cest donc, si lon tient absolument utiliser le vocabulaire du moment, une architecture de type ROLAP. Mais il ne sagit pas dun hypercube client aliment par un serveur relationnel. En loccurrence, lhypercube est ici virtuel.

159

Quils soient ou non commercialiss avec une interface de requte spcifique, la plupart des serveurs multidimensionnels largement connus, comme EssBase (Arbor Software), Express (Oracle), Pilot Analysis Server (Pilot Software), TM/1 (Applix), Acumate E/S (Kenan Systems), etc. sont utilisables laide de tableurs. Techniquement, linterface entre le tableur et le serveur est assure par un module logiciel, fourni (tantt doffice, tantt en option) par lditeur du SGBD matriciel, qui fait apparatre lhypercube comme sil tait une extension du tableur.
160 161

En pratique, Microsoft Excel ou Lotus 1-2-3.

La rpartition ou le partitionnement consiste diviser le contenu dun hypercube global en plusieurs hypercubes distribus sur des machines distinctes, sans perdre la vision logique unifie des dimensions et des faits. Cette possibilit est offerte par certains outils OLAP de haut de gamme.

Jean-Marie Gouarn

134

Le Projet Dcisionnel

Physiquement, les donnes sont stockes dans une base de donnes relationnelle, mais le serveur les montre aux clients sous une forme matricielle. Le serveur conserve en mmoire un schma multidimensionnel quil associe au schma des tables. Les utilisateurs, travers leurs interfaces de prsentation, mettent des requtes exprimes en termes strictement dimensionnels et ignorent le schma relationnel sous-jacent. Le serveur, recevant ces requtes, extrait les donnes ncessaires, effectue les calculs et les tris appropris, et restitue les rsultats comme sils avaient t prpars lavance dans un vritable hypercube.

Interface de prsentation

requtes donnes

Hypercube virtuel

Base de donnes relationnelle

Figure 8-8 Serveur relationnel-OLAP

En ralit, cette architecture est bien plus ancienne que les notions dOLAP et de ROLAP. Mais elle connat un essor fulgurant depuis 1996, avec larrive maturit dune nouvelle gnration de produits162. Le service de lhypercube virtuel suppose lexistence dun gnrateur de SQL dynamique extrmement puissant appuy sur une excellente gestion des mta-donnes. En effet, linstant o le serveur multidimensionnel reoit la requte du client, il doit lanalyser daprs un catalogue qui lui indique dans quelles tables de la base relationnelle, selon quels critres de slection, et dans quel format, trouver les donnes ncessaires la construction de la rponse ; il lui reste ensuite construire les requtes en SQL et les adresser au SGBD relationnel. Compte tenu des limitations trs contraignantes du SQL, le traitement dune seule requte du client ncessite souvent plusieurs requtes du serveur dimensionnel vers le serveur relationnel. Pour tre efficace, un tel outil doit tre capable doptimiser ses changes avec la base de donnes, notamment en utilisant les possibilits doptimisation avance du SGBD relationnel, au lieu de sen tenir un dialogue SQL standard. Il doit aussi tre capable de sappuyer, voire de grer lui-mme, dans la base de donnes, des agrgats pr-calculs.

162

Les offres de MicroStrategy (DSS Server), Informix Software (MetaCube), Information Advantage (Decision Suite Server) en sont des exemples.

Jean-Marie Gouarn

135

Le Projet Dcisionnel

La Figure 8-8 prsente une vision simplifie de cette architecture. En ralit, le serveur multidimensionnel ne rside pas forcment sur la mme plate-forme matrielle que la base de donnes. La logique multidimensionnelle peut tre mise en uvre sur un serveur intermdiaire, ou encore distribue entre serveur et clients. Un serveur matriciel peut, accessoirement, autoriser lutilisateur passer travers lhypercube pour excuter une requte directe lentrept de donnes qui lalimente, rpondant ainsi aux besoins voqus au 8.2.9. Certains fournisseurs classiques de SGBD relationnels, plutt que de laisser des diteurs indpendants le soin de le faire, croient devoir aujourdhui ajouter eux-mmes dans leurs offres des services de diffusion de donnes multidimensionnels. Cette tendance (qui nest pas universelle) a aussitt donn lieu linvention dun nouveau concept, encore plus dnu de contenu technique prcis que les autres : le DOLAP (Database OLAP). Lobjectif est de fournir une meilleure intgration entre lhypercube virtuel et le serveur relationnel sous-jacent. Dun point de vue commercial, certains utilisateurs peuvent en outre tre rassurs par la prise en charge dune architecture complexe par un fournisseur unique. Toutefois, jusqu' prsent, renonant rinventer eux-mmes la technologie dimensionnelle, les fournisseurs en question ont prfr la rechercher lextrieur, tantt par acquisition, tantt par entente avec un diteur spcialis163.

8.4.4 Lhypercube et le Web


Lexplosion de linformatique dcisionnelle tant contemporaine de celle de linternet et de tout ce qui en dcoule, les utilisateurs et les fournisseurs ont rapidement compris lintrt dutiliser les techniques du second au service de la premire. Linternet, cependant, nest pas une application, mais seulement un moyen de transport dinformation qui prsente le double intrt de vhiculer un certain nombre de standards rellement appliqus et de pouvoir servir de base un grand nombre dapplications. Les entreprises qui ont dans leurs perspectives moyen terme le dploiement dun intranet164 ne peuvent se permettre den faire abstraction lors de la conception du SID. Le parti le plus spectaculaire quon en ait tir jusqu' prsent sappuie sur lhypertexte distribu du World Wide Web, cest--dire sur le HTML165 et le service de transfert associ HTTP166. Ces techniques facilitent le dploiement et ladministration des interfaces de prsentation. Elles permettent en effet lutilisateur, quip seulement dun navigateur167 dusage gnral, non seulement daccder des tats statiques, mais aussi deffectuer la plupart des manipulations lies aux requtes interactives. Lintrt majeur de ces techniques est la philosophie du client universel. Le logiciel jouant le rle dinterface de dialogue na pas, en effet, tre physiquement pr-install sur le poste de travail de chaque utilisateur. De plus, les caractristiques matrielles du poste peuvent, dans une certaine mesure, tre mises entre parenthses, ce qui autorise un dploiement dapplications standardises sur des matriels htrognes168. Les requtes interactives, notamment les manipulations dimensionnelles libres, ne saccommoderaient gure des limitations du HTML, qui demeure avant tout un langage de description de pages statiques. Certains diteurs proposent donc des modules dextension (plug-ins) destins apporter aux navigateurs Web des
163

Cest ainsi quInformix Software a absorb le Stanford Technology Group, crateur de MetaCube, ou quIBM a conclu un accord avec Arbor Software pour dvelopper un DB2-OLAP qui peut tre considr comme une intgration de DB2 (Data Base 2), le grand classique du relationnel, avec le SGBD matriciel EssBase.
164

Cest--dire, pour simplifier, dun internet dentreprise. La mme remarque est valable pour lextranet (autre tmoin du besoin incompressible de traduire la moindre nuance par un concept spar), qui est un intranet tendu certains correspondants habituels de lentreprise (clients, fournisseurs).
165 166 167

Hyper Text Markup Language, langage de description de document hypertexte. Hyper Text Transfer Protocol, protocole dactivation de liaisons hypertexte entre documents distribus sur un rseau.

Toujours coincs avec les mots simples et familiers, les Franais rpugnent employer le mot brouteur , ou plus exactement prfrent lutiliser en anglais (browser) avec une prononciation exotique (brzeur). Cela dit, le navigateur en question peut tre dune marque quelconque (Internet Explorer de Microsoft, Navigator de Netscape, HotJava de Sun/JavaSoft, etc.).
168

PC sous Windows 3.x, Windows 95, Windows NT x.x, station Unix, MacIntosh, Network Computer...

Jean-Marie Gouarn

136

Le Projet Dcisionnel

fonctions spciales de manipulation de donnes. Mais le march a par ailleurs adopt de nouveaux standards permettant de tldistribuer non seulement des documents, mais aussi de la logique. Ces standards, nomms Java et ActiveX169, ne sont pas particulirement destins aux SID. Mais ils permettent notamment au navigateur dacqurir dynamiquement auprs du serveur de diffusion lintelligence de calcul et de prsentation lie chaque application dcisionnelle.

Figure 8-9 Restitution graphique dans un navigateur Web170

On peut considrer aujourdhui que tous les grands diteurs de logiciels de diffusion et/ou de prsentation de donnes ont une offre adapte une architecture internet/intranet. Cependant, cest trs clairement la logique de prsentation dimensionnelle qui lemporte sur ce terrain. Do lapparition du WebOLAP, qui vient son tour enrichir le catalogue des concepts disponibles. Cette architecture, la diffrence dune organisation client-serveur classique, interpose entre la base de donnes de diffusion et le poste de travail distant un serveur Web. Ce dernier est, en fait, le seul client directement connect la base. Les modalits pratiques de communication entre les deux impliquent soit la CGI171 classique, soit une liaison plus performante mais plus propritaire entre le serveur Web et le SGBD. Il y a encore peu de temps, lintgration avec le World Wide Web tait un thme diffrentiateur pour quelques fournisseurs doutils ; cette fonctionnalit est aujourdhui largement banalise.

169

Ces deux techniques, correspondant des philosophies distinctes et partiellement concurrentes (lune tant originaire de Sun et lautre de Microsoft), sont de plus en plus largement employes pour distribuer des traitements entre serveurs et postes de travail dans des architectures de type intranet.
170 171

Source : Cognos Incorporated.

Common Gateway Interface, interface de communication normalise permettant un serveur HTTP de commander lexcution dune tche externe, utilise notamment pour adresser une requte une source de donnes. La CGI prsente lavantage dtre un standard, mais elle est mal adapte au droulement de sessions interactives avec des bases de donnes ; moins dutiliser des artifices trs complexes, elle ne permet pas notamment de maintenir entre deux requtes la connexion de lutilisateur avec la base de donnes.

Jean-Marie Gouarn

137

Le Projet Dcisionnel

8.4.5 Combinaisons complexes


Les solutions dont on a cherch dans cette section dresser linventaire simplifi ne sont videmment pas exclusives lune de lautre. Dans un SID adressant une population diversifie et offrant des restitutions et des interfaces de dialogue varies, on peut mettre en uvre des filires technologiques de diffusion et de prsentation distinctes et indpendantes mais sappuyant toutes sur le mme Systme de Collecte et dIntgration. Dautre part, au sein dune mme filire, la technique autorise un grand nombre de montages hybrides, dont nous donnons deux exemples ici, faute de pouvoir en donner une liste exhaustive. Exemple 1 : La prsence dun serveur matriciel partag ninterdit pas certains utilisateurs de disposer dun hypercube local. Les architectures prsentes dans la Figure 8-6 et dans la Figure 8-7 peuvent tre combines. Exemple 2 : Un serveur de diffusion matriciel peut tre aliment partir dun serveur de diffusion relationnel, et non pas directement partir de lentrept de donnes, dans le cadre dun SDP plusieurs niveaux. Ces architectures complexes ne doivent pas tre bties ex nihilo dans les phases initiales dun projet. Cependant, malgr le souci des Directions Informatiques de limiter la diversit des outils et des chanes de liaison, il nest pas ncessairement opportun, dans un grand projet, dimposer un mode de fonctionnement uniforme des mtiers diffrents.

Jean-Marie Gouarn

138

Le Projet Dcisionnel

9. Environnement et organisation des projets

Bien peu de projets informatiques cest un fait de notorit publique aboutissent des rsultats conformes ce qui tait attendu. Ceci sapplique aux projets dcisionnels comme aux autres. On aurait grand tort, cependant, de mettre les causes principales des checs sur le compte de la technique. Ces causes sont rechercher avant tout dans le contexte politique et dans lorganisation des projets. Malgr lintense agitation dveloppe autour des annonces de produits, ce nest pas tant la technologie que le contenu qui constitue la nouveaut de ces projets. Ce contenu est cens reflter une vision des processus fondamentaux de lorganisation qui nest pas conforme aux habitudes dominantes. Et cest de l que proviennent les risques propres aux chantiers dcisionnels. La simple connaissance des vritables raisons dtre du SID, des piges habituels, et la mise en uvre dune organisation approprie, suffiraient pourtant dans la plupart des cas viter limpasse.

9.1 Raisons et justifications


Tout investissement informatique doit tre justifi. Justifi nest pas synonyme de raisonn. La justification est un exercice oblig, un examen de passage pour les promoteurs dun projet. Une justification est valable si elle parvient ses fins, cest--dire vendre le projet. La raison du projet peut ne pas tre intgralement reflte par le discours justificateur. Une bonne justification peut mme cacher une mauvaise raison, et vice versa. Pour initier et mener bien la construction dun SID, il ne suffit pas dtre un virtuose de la justification. Le responsable du projet ne peut pas se dispenser de comprendre et danalyser avec la plus grande lucidit les vritables raisons dtre, conscientes ou inconscientes, du systme attendu. Lapproche traditionnelle de la justification des projets informatiques est invariablement lie lide de rduction des cots. Cela provient naturellement du rle classique de linformatique de production, qui est dautomatiser des fonctions particulires sans remettre en question les processus gnraux. A la limite, bien que la pudeur interdise de le clamer trop fortement, linformatisation est justifie par la perspective de minimiser la force de travail ncessaire pour assurer un certain nombre doprations existantes ou prvues

Jean-Marie Gouarn

139

Le Projet Dcisionnel

court terme. Les directions gnrales comprennent plus facilement les critres de choix lorsquils sexpriment par des diffrences arithmtiques simples. En ralit, bien des projets (mme russis) ont eu pour effet, sinon pour raison, tout autre chose que de simples gains de productivit. Par exemple, lexplosion dune bureautique de plus en plus luxueuse et de plus en plus souvent renouvele peut difficilement tre mise en rapport avec lide de faire des conomies. En loccurrence, mme si largument de la productivit continue parfois, pour la forme, tre mis en avant, les raisons de cette course la puissance et la richesse fonctionnelle des postes de travail sont lies la culture et la psychologie ambiantes. En matire de Systme dInformation Dcisionnel, la justification par la rduction dun cot opratoire particulier est difficilement imaginable. Par dfinition, un SID na pas pour vocation dautomatiser quoi que ce soit. Un SID nest pas essentiellement un outil de productivit au sens habituel. Plus exactement, le gain de productivit direct quil apporte ne concerne que les tches lies lobservation et lanalyse de linformation. Malgr ces remarques, il ne saurait tre question de renoncer purement et simplement toute justification conomique directe : ce serait, dans beaucoup de situations, signer larrt de mort des projets. Le SID est un instrument du changement. Mais, accessoirement, il possde aussi la capacit de prendre en charge un certain nombre de fonctions pr-existantes, et peut donc tre peru, par rapport ces fonctions, comme un outil de productivit. Les oprations que le futur systme permettra doptimiser ou dliminer doivent donc tre soigneusement identifies au cours de ltude dopportunit, mme si les vritables horizons du SID se situent bien au-del de ces comptes dapothicaire. Il existe des arguments quantitatifs trs gnraux, relatifs aux conomies ralisables grce au data warehouse. Ainsi, on peut imaginer des hypothses172 telles que : 50% du temps de travail des utilisateurs est pass traiter de linformation ; les quatre cinquimes de ces 50% sont consomms collecter et assimiler les donnes ; avec un entrept de donnes bien conu, bien document et assorti dun Systme de Diffusion et de Prsentation adquat, on peut escompter un gain de productivit moyen de 10 40% sur les tches lies la recherche des donnes. De ces hypothses, on peut immdiatement dduire une estimation chiffre du temps et donc de largent que pourrait faire gagner le SID par utilisateur et par an. Une telle estimation est cependant trop thorique et trop macroscopique pour tre rellement convaincante, dautant plus que les hypothses elles-mmes sont difficiles tablir et contiennent forcment une part dapprciation arbitraire. Il est recommand dviter cet gard un usage abusif du mot stratgique , mme sil sapplique effectivement au projet dcisionnel. Cette pithte est trop souvent utilise pour justifier des investissements dont le bilan cot-avantage est douteux ou indmontrable. Elle peut agacer et mme inquiter des dirigeants pragmatiques, et ne suffit plus pour appter les visionnaires. Do la ncessit dune focalisation sur des fonctions prcises. Les opportunits doptimisation de traitements identifis peuvent se trouver dans le systme oprant (cest-dire dans lactivit des utilisateurs) ou dans le systme dinformation existant. Du ct des utilisateurs, les deux exemples qui suivent illustrent ce propos. Exemple 1 : Le back-office dune importante salle des marchs est trait par un ensemble htrogne dapplications informatiques, chacune en charge dune famille doprations. Les indispensables contrles de cohrence entre ces applications mobilisent, loccasion de chaque consolidation comptable mensuelle, deux ou trois personnes hautement qualifies pendant une dizaine de jours. Ces personnes, dont les comptences financires pourraient tre affectes des tches plus nobles, passent le plus clair de leur temps dvelopper et utiliser des modles compliqus, quelles sont seules matriser, laide dun tableur quelles alimentent en donnes extraites du back-office par des procds de fortune. Si lon dmontre que, sur la base dun modle fdrateur des donnes et dune plate-forme technique approprie, en naviguant des cumuls les plus synthtiques aux montants les plus dtaills et en oprant des recoupements
172

Hypothses proposes par B. Devlin, Data Warehouse, from Architecture to Implementation , Addison-Wesley 1996.

Jean-Marie Gouarn

140

Le Projet Dcisionnel

instantans entre Contreparties, Produits, Centres de profits et autres axes danalyse, la dtection des incohrences peut tre faite en quelques heures, on dispose dune justification quantitative prcise. Certes, il sagit dun argument oprationnel et non dcisionnel, puisquon sintresse une fonction de contrle. Mais, aprs avoir mis en avant cette justification productiviste, il sera ensuite plus facile de faire valoir et de concrtiser le potentiel stratgique de loutil, notamment en matire danalyse et de prvision de march. Exemple 2 : Une quipe de marketing direct, pour dlimiter la cible dun publipostage trimestriel, consacre plusieurs semaines lanalyse dune quantit importante de donnes. Certaines de ces donnes proviennent de la chane de facturation, dautres de ladministration des ventes, tantt sur disquettes et tantt sur papier. Dautres donnes, concernant le march et la clientle, viennent dun organisme syndical extrieur et dun institut de sondage. Enfin, une collection de dossiers Excel reprsente la mmoire des mailings passs et de leurs rsultats. Une bonne solution de dcouverte semi-automatique de modles de comportement, adosse une base de donnes normalise intgrant toutes ces informations sous une forme cohrente, peut permettre une seule personne daccomplir le mme travail en moins dune journe. Il ne faut pas se priver de cette justification directe. Mme si, en ralit, le systme mis en place a pour objectif doptimiser lensemble du marketing direct (et au-del) et non damliorer la productivit dune fonction. Du ct de linformatique, les justifications conomiques sont lies la ncessit, faute de SID, dalimenter les tableaux de bord de contrle destins au management (cf. 6.1.1), cest--dire de dvelopper des extractions spcifiques de donnes. Le cot de ces extractions, dissmin (voire dissimul) dans des budgets de fonctionnement pars, est difficile apprhender, mais il est souvent considrable. Son estimation globale, si on parvient ltablir, est un argument conomique trs puissant et trs raliste en faveur du SID173. Souvent indispensables, parfois faciles, mais toujours partielles, ces justifications sont gnralement insuffisantes en regard de linvestissement engag. Les critres fondamentaux dapprciation de cet investissement sont plus subtils et plus difficiles valuer. Ils impliquent une mesure du prix de linformation, un prix dont le calcul relve dj lui-mme dun choix politique. Dans certaines situations, on admet que linformation na pas de prix , cest--dire quelle a un prix infini, parce que cest la survie de lentreprise qui est en jeu. Dans dautres, ce prix est fix sur la base dun acte de foi concernant le potentiel doptimisation dun processus. Bien que linformation dcisionnelle soit indispensable, lanalyse de sa valeur repose largement, en fait, sur des hypothses indmontrables. Mais la mme remarque ne sapplique-t-elle pas toutes sortes dinvestissements dans lentreprise ? A ct des justifications, les raisons profondes qui peuvent ne pas tre exclusivement conomiques doivent tre soigneusement cernes. Dans le monde des projets dcisionnels, le non-dit est souvent aussi important que le dit, et le chef de projet doit savoir lire entre les lignes. Dabord, il existe des projets caractre semi-dcisionnel (voire pseudo-dcisionnel), dans lesquels les vrais objectifs prioritaires sont de rationaliser le contrle de fonctions existantes. Il faut cet gard bien distinguer entre les projets dcisionnels qui peuvent offrir accessoirement des services de suivi doprations, et les projets oprationnels qui utilisent des outils et un discours emprunts au monde de linformation dcisionnelle. La mode du data warehouse peut tre mauvaise conseillre cet gard, en aiguillant les projets vers des mthodes et des techniques non appropries aux vrais objectifs. La politique intrieure de lentreprise peut elle aussi, parfois, tre une source de malentendus. La pression des vnements peut susciter, ici ou l, le dveloppement dun data warehouse dfensif , cest--dire dun outil prsentant la couleur et la saveur dun SID, mais limit dans son envergure au cadre strict dun dpartement fonctionnel de lorganisation, sans lien avec un processus transversal. Li, peut-tre inconsciemment, des soucis de conservation de frontires existantes, un tel systme a peu de chances de crer une forte valeur ajoute informationnelle. La plus grande prudence notamment budgtaire est de rigueur face ce type dinitiative. La connaissance de la liste des utilisateurs et de leurs fonctions, lanalyse fine de leurs motivations, et linventaire des sources de donnes pressenties, sont pour le responsable du projet des indicateurs irremplaables sur les vritables raisons du SID.
173

Mme si, en dfinitive, on renonce au SID, le chiffrage du cot global des extractions spcifiques de donnes nest pas un exercice inutile pour lentreprise.

Jean-Marie Gouarn

141

Le Projet Dcisionnel

9.2 Linformation dcisionnelle dans lorganisation


La prennit dun SID est directement lie son adquation avec les mcanismes de la dcision, qui dterminent largement les besoins informationnels des utilisateurs. Mais le SID nest pas lui-mme un lment neutre dans lorganisation, et il est de nature susciter des changements dans les mcanismes de dcision et donc dans lquilibre des pouvoirs. Ces changements doivent tre acceptables par la structure si on veut viter que le SID ne finisse prmaturment, victime dune raction de rejet. Les besoins ntant jamais formuls de manire prcise et exhaustive en dbut de projet, lanalyste est plus ou moins oblig de les deviner et de les anticiper. Pour y parvenir, il doit dabord se faire une ide de lenvironnement organisationnel du projet.

9.2.1 Le projet dcisionnel et la culture dentreprise


La plupart des grandes organisations sont en cours de mutation, sous leffet des turbulences actuelles (cf. section 2.4). De ce fait, chacune se situe quelque part entre deux modles culturels thoriques, quon peut nommer respectivement la culture du contrle et la culture du march 174. La position de lentreprise entre ces deux modles dtermine les enjeux et les fonctions du SID. La culture du contrle correspond une structure hirarchique forte et des procdures de dcision rigoureusement formalises. La prudence y est une valeur dominante, et les comportements qui en dcoulent sont gnralement conservatoires et dfensifs. Linformation est organise et pense selon un dcoupage qui concide prcisment avec les hirarchies fonctionnelles. Elle est tourne vers lintrieur : laccent est mis sur la mesure des carts entre des performances oprationnelles et des objectifs dtermins par des dcisions internes. Sa diffusion est soigneusement planifie. Linformation est perue avant tout comme une arme et comme une source de pouvoir. Le systme dinformation dans son ensemble est stable, les orientations stratgiques aussi. Le principal inconvnient de ce profil culturel est une excessive rigidit, donc une capacit insuffisante ragir rapidement aux menaces et aux opportunits. A lextrme oppos, la culture du march est essentiellement tourne vers lenvironnement extrieur (notamment le client au sens large). Elle caractrise des organisations faiblement stratifies, dans lesquelles les dcisions sont largement dcentralises et assorties dun formalisme minimal. Elle est plus conqurante que dfensive. Elle tend attribuer un large pouvoir de dcision aux dirigeants du terrain. Linformation est en grande partie dorigine externe. Elle est utilise comme un outil ou une ressource, plutt que comme une arme. Les rsultats sont tout ; les procdures importent peu. Les divisions organiques sont calques sur les segments du march. Cette culture privilgie avant tout la rapidit dadaptation au changement. Mais, ennemie de la stabilit, elle est pratiquement incompatible avec lexistence de spcifications fermes en matire de systme dinformation. Face ces deux modles, il convient dviter les positions idologiques simplistes telles que : Entre les deux, cest le modle du march qui va lemporter, donc faisons comme si lautre nexistait pas ; Dans une organisation marque par la culture du contrle, la mise en place dun SID est impossible et, de toute faon, personne nen a rellement besoin. Une entreprise nest jamais conforme un modle dentreprise. La ralit dune grande organisation comporte toujours des emprunts aux deux cultures, avec des nuances importantes entre les diffrents dpartements. Dautre part, la culture du contrle nest pas incompatible avec la prise de conscience des faiblesses de lorganisation et de la ncessit vitale dy remdier, notamment par le dploiement dun systme dinformation trans-fonctionnel. Quant la culture du march, elle favorise des revirements frquents de stratgie ventuellement dfavorables aux projets de grande envergure, donc notamment aux grands projets informatiques. Un projet dcisionnel est donc gnralement motiv par un mlange complexe de proccupations. Un mme outil peut tre, pour certains utilisateurs, un moyen de suivi des performances dun organe de lenterprise,
174

S. Kelly, Data Warehousing - The Route to Mass Customization , John Wiley & Sons 1996.

Jean-Marie Gouarn

142

Le Projet Dcisionnel

et, pour dautres, linstrument dune rforme. Pour faire face des demandes parfois contradictoires, le SID doit tre une crature hybride, tenant la fois du coffre-fort et du libre-service. Un SID est un outil destin permettre la fois de comprendre le prsent et de matriser lavenir. Mais il est essentiel, au moins dans les phases initiales, de savoir laquelle de ces deux fonctions fondamentales correspond aux objectifs recherchs. Enfin, on doit faire en sorte que les managers intermdiaires et de terrain ne considrent pas demble le SID comme un organe de contrle oprationnel sur leurs performances respectives. Il nest pas rare que certains voient se profiler, derrire le data warehouse, lombre de Big Brother. Ceci est plus particulirement vrai dans les organisations marques par la culture du contrle. Il est prudent de tenir le plus grand compte de cette ventuelle perception car, de deux choses lune : Ou bien elle est justifie, et, dans ce cas, le projet nest pas dcisionnel au sens o nous lentendons dans ce livre. Il sagit alors de mettre en place un nouveau systme de reporting oprationnel, justifiant des mthodes et des architectures techniques qui ne sont pas celles dun SID. Il ne faut pas se tromper de projet, et ne pas prendre pour argent comptant lutilisation ventuelle dun vocabulaire de type stratgique et dcisionnel ; Ou bien elle est sans fondement, et il est alors vital pour la matrise douvrage de calmer les inqutudes et de mettre en valeur les avantages que le systme va apporter au plus grand nombre. En effet, le SID ayant toujours de fortes rsistances surmonter, il est prfrable de ne pas laisser augmenter le nombre de ses adversaires. Pour viter de buter mi-parcours sur des impasses politiques, notamment propos de laccs aux sources de donnes et du choix des modalits de diffusion de linformation, le chef de projet a tout intrt tre conscient de larrire-plan culturel. Cela peut contribuer, par surcrot, clarifier les lments non crits du cahier des charges et gagner du temps dans les spcifications.

9.2.2 Le projet dcisionnel et la ringnierie de lentreprise


Le data warehouse est en rapport avec lide de changement, et il est impossible den faire abstraction. Il faut pourtant viter de confondre les genres et de lutter sur trop de fronts la fois. Nul nignore que, sil rpond ses promesses, le SID sera lun des instruments dune future (et ventuellement prochaine) rorganisation de lentreprise. Thoriquement, il peut ouvrir la voie une rinvention de la structure, en supprimant quelques barrires informationnelles. Mais le pragmatisme doit ici temprer lambition. Le SID est tenu de produire des rsultats tangibles dans un dlai trs court et dans la structure actuelle de lentreprise. Il doit donc tre conu pour tre au service des utilisateurs daujourdhui et pour puiser ses donnes dans les systmes dinformation tels quils sont. Moteur du changement, le projet dcisionnel ne doit pas compter sur le changement. Il doit cependant compter avec le changement. En effet, indpendamment des consquences de lutilisation du data warehouse sur le management, lenvironnement informationnel volue dans le temps. Cela ne concerne pas seulement les besoins des utilisateurs du SID, mais aussi les sources de donnes. Il nest dailleurs pas rare que, ds le dbut dun projet dcisionnel, la disparition ou la restructuration prochaine dune ou plusieurs des sources de donnes pressenties soit annonce. La ringnierie des processus dentreprise175, lance outre-Atlantique au dbut de la dcennie, a eu une certaine influence sur la conduite des organisations et, bien que le souffl soit un peu retomb aujourdhui, il en reste un lment essentiel. Cet lment est la prise de conscience que le succs dune organisation quelle quelle soit est li au bon accomplissement des processus fondamentaux qui constituent sa mission , et non lefficacit de chacun de ses organes fonctionnels ; ces processus fondamentaux sont transversaux par rapport la structure de lentreprise, et leurs primtres ne correspondent pas aux divisions hirarchiques.
175

Cest--dire le BPR, pour Business Process Reengineering, n avec louvrage de M. Hammer et J. Champy, Reengineering the Corporation , Harper Business, 1993. Le conseil en management tant aussi fertile en concepts que linformatique dcisionnelle, on dispose dune grande varit dexpressions alternatives comme Business Process Redesign, Business Process Change, Process Improvement, Process Innovation, Business Transformation, etc.

Jean-Marie Gouarn

143

Le Projet Dcisionnel

Derrire la ringnierie des processus, il y a donc indiscutablement la mme ide fondamentale que derrire le SID. Par consquent, si une telle dmarche est en cours la mme poque que le projet dcisionnel, il y a lieu de mettre en place une trs forte concertation entre les deux. Mais, dans tous les cas, le SID doit garder un profil bas vis--vis des structures de lentreprise. Lassociation trop troite du SID, dans les esprits, avec le bouleversement des structures pourrait inquiter outre mesure et susciter de trs fortes rsistances de la part de ceux qui dtiennent les cls des sources de donnes. Dautre part, on ne doit pas oublier que lefficacit des projets de ringnierie de processus na pas t aux Etats-Unis, jusqu ce jour, la hauteur de la popularit initiale du concept176, et que ce dernier est manier avec une extrme prudence dans notre environnement social. Un projet dinformation dcisionnelle nest pas, en soi, un projet de rforme. Mais il nest pas pour autant compatible avec limmobilisme. Il doit tre inclus comme un sous-projet dans le cadre dun effort de rorganisation plus gnral. Un SID construit sans rapport avec la moindre intention de changement dans lorganisation ne serait quun gadget technique sans application. Pour que le projet ait une chance srieuse de russir, son promoteur doit avoir compris, non pas quel changement il va provoquer, mais quel changement il va accompagner.

9.3 Facteurs de succs et risques majeurs


Il existe un grand nombre de causes possibles de succs ou dchec qui sont communes non seulement tous les projets informatiques mais aussi toute activit impliquant des acteurs et des moyens nouveaux et htrognes. Certains de ces facteurs ont cependant une influence particulire dans les projets dcisionnels.

9.3.1 La porte du projet


Le rle et lenvergure du SID sont des sujets classiques de malentendus. En premier lieu, la notion mme dinformation dcisionnelle qui, il faut le reconnatre, na pas de dfinition universelle nest pas perue de la mme manire par tous les acteurs concerns. Nous avons dit que le SID ntait pas organisationnellement neutre dans lentreprise. Mais en revanche, il se doit dtre techniquement neutre vis--vis du SIO. Le SID doit se borner capturer les donnes du SIO de la manire la plus transparente possible. Il ne doit pas rtro-agir directement sur les traitements ou les donnes de production ; le flot de donnes entre SIO et SID est sens unique. Cependant, il nest pas rare que, dans lesprit de certains responsables informaticiens ou utilisateurs lentrept de donnes soit vu comme une occasion et un support pour la rnovation dapplications existantes. Ce malentendu doit tre dissip aussitt quil se manifeste. La prise en charge dapplications transactionnelles en interaction directe avec la BCI ou avec une base de diffusion introduit des objectifs inconciliables entre eux dans le projet et mne immanquablement limpasse. La refonte du systme dinformation est une chose, le SID en est une autre. Lexistence dun consensus clair sur la porte du projet dcisionnel, entre le concepteur et lutilisateur dune part, entre les divers utilisateurs dautre part, est un second facteur critique de succs. A cet gard, le projet doit trouver sa voie quelque part entre deux tentations extrmes : la simple copie physique des donnes dune application de production sur une plate-forme technique ddie des requtes de consultation ; lentrept de donnes global de lentreprise.

176

A vrai dire, le BPR a souvent t pratiqu dune manire simpliste, non pas dans une perspective de remise en question des structures et de redploiement des forces vives de lentreprise, mais dans le seul but de dtecter des redondances , cest--dire tout simplement de faire des coupes sombres dans la masse salariale.

Jean-Marie Gouarn

144

Le Projet Dcisionnel

La premire dmarche, qui se limite transfrer des donnes oprationnelles sans transformation ni intgration dans un nouvel environnement, en comptant sur la technique pour faciliter les requtes, napporte quune valeur ajoute informationnelle insignifiante. A terme, elle est sans issue, car, en labsence de vision densemble, elle na pratiquement aucune chance de mener une architecture volutive capable dintgrer des sources multiples. La seconde est dautant plus dangereuse quelle est intellectuellement sduisante. Quoi de plus rationnel en apparence que de concevoir demble le SID de toute lentreprise, la base de donnes intgre qui contiendra, sans lacune ni redondance, la seule version de la vrit ? Cette rationalit-l, pourtant, a bien peu de chances de rsister lpreuve des faits. Compte tenu du nombre de points de vue et de vocabulaires concilier, de consentements runir, de systmes interfacer et de financements trouver, la fixation dun tel objectif est lun des meilleurs moyens de mobiliser des armes de consultants sans rien produire de concret dans un dlai raisonnable. Les grands projets fdrateurs, en matire dinformation oprationnelle, ont trs rarement abouti ; il ny a pas le moindre dbut de raison de croire que la construction directe dun SID global ait plus de chances de succs. Le SID doit transcender les fonctions de lentreprise ; il nest pas tenu pour autant denglober la totalit des processus. Pour un premier projet dcisionnel, la bonne mesure consiste choisir une cible modeste mais prcise et dapporter aux utilisateurs, dans un dlai trs court, une valeur ajoute concrte et mesurable. Ensuite, en tenant compte de lutilisation effective de loutil et des indications de retour dinvestissement obtenues, on peut envisager une extension progressive du primtre. Lessentiel de la difficult consiste alors tablir des priorits, cest--dire faire des choix entre des demandes concurrentes et inscrire certains utilisateurs sur des listes dattente. Mieux vaut affronter des utilisateurs impatients que des utilisateurs dus. Dans la dfinition de ce primtre, il faut renoncer lide dune cible finale . En ralit, il ny en a pas. La seule mise en service dune premire version du SID, sans mme parler de lvolution gnrale de lenvironnement du projet, provoque immanquablement une redfinition des besoins.

9.3.2 Les spcifications


Dans lordre chronologique, la difficult qui apparat la premire dans le projet dcisionnel est la formulation des besoins. Ceux-ci ne sont en effet pratiquement jamais exprims de faon prcise dans un document pouvant tre considr comme contractuel au moment o le projet arrive en phase de conception. Pour constituer le document-cl en matire de spcification fonctionnelle, savoir le Modle Conceptuel de Donnes de Diffusion, et pour dresser la liste des modalits prcises de restitution des informations, lquipe de dveloppement ne peut pas compter sur une description a priori des requtes par les utilisateurs eux-mmes. Les tats existants, les applications bureautiques danalyse (notamment les feuilles de calcul que les utilisateurs crent et utilisent laide de tableurs) et les ventuelles applications proto-dcisionnelles existantes sont les seuls lments tangibles au dpart. Les dolances des utilisateurs et du management propos des limites de cet existant fournissent un second niveau de formulation des besoins ; mais partir de l, les points de vue commencent diverger quant aux souhaits dvolution. Lun des objectifs immdiats toujours imposs un SID est la reprise de fonctions existantes en matire dditions structure et priodicit fixes. Il sagit en quelque sorte dun examen de passage auquel le projet doit se soumettre avant davoir loccasion de prouver que ces ditions, compte tenu des nouvelles possibilits daccs interactif aux donnes, sont en partie inutiles. Les spcifications initiales donnent donc gnralement une importance exagre ces fonctions, au dtriment des requtes paramtrables ou libres (cf. 8.2.2 et 8.2.3) qui, en fait, auront la prfrence des utilisateurs les plus intresss par le systme. Ce dcalage entre un impratif culturel court terme et un besoin prvisible doit tre pris en considration dans la spcification des restitutions. Les tats existants ne doivent donc pas tre analyss seulement pour eux-mmes, mais surtout pour servir de base la modlisation des vues conceptuelles sous-jacentes et pour permettre de prvoir, par extrapolation, les requtes interactives probables sur ces vues. Il appartient donc au responsable du projet de faire un certain nombre de choix fonctionnels dont certains seront ncessairement arbitraires, mais qui sont indispensables pour viter lenlisement. Le responsable du projet dcisionnel, quels que soient son titre et sa fonction dans lorganisation, doit donc faire preuve,

Jean-Marie Gouarn

145

Le Projet Dcisionnel

loccasion, dune forte autorit personnelle, tout en ayant la subtilit et la souplesse ncessaires pour valuer rapidement leffet de ses propositions et en remanier tout aussi rapidement le contenu en consquence. On atteint cependant un niveau de risque maximal quand, faute dune expression formelle des besoins, les seuls lments vritablement contractuels du projet sont le budget et le dlai. En ralit, cette situation ne semble pas rare. Elle dcoule gnralement de ce que la matrise douvrage, mal informe des tenants et des aboutissants de linformation dcisionnelle, prend pour des spcifications formelles de vagues listes dindicateurs assorties dexemples de requtes, et confre le statut de cahier des charges des documents plus exploratoires que normatifs. Elle provient aussi, secondairement, de la rupture chronologique et culturelle entre le consultant qui dfinit les axes danalyse et les indicateurs en termes de mtier, et linformaticien qui arrive plus tard et qui sefforce de les traduire sa manire en termes techniques. Enfin, une spcification, mme valide, est provisoire, et le chef de projet qui croirait tirer son pingle du jeu en lappliquant au pied de la lettre se tromperait lourdement. Tout besoin exprim doit tre considr comme le point de dpart dun besoin non exprim.

9.3.3 Les rsistances culturelles


Leur importance prvisible est proportionnelle lampleur du projet. Elles peuvent avoir une effet considrable sur les cots et les dlais, voire faire purement et simplement chouer le projet, si elles ne sont pas correctement values et traites en temps et en heure. Ces rsistances peuvent avoir des origines diverses, dont voici les principaux exemples : inquitude des responsables fonctionnels, habitus tre seuls matres des donnes de leurs services respectifs, quant aux consquences organisationnelles possibles, terme, dune redfinition des circuits de linformation ; rflexes dfensifs et attitudes de propritaires de la part des responsables techniques des sources de donnes ; agacement dune partie des quipes informatiques, face un projet qui occupe le devant de la scne, bouscule les normes de dveloppement en vigueur et introduit de nouvelles comptences ; rflexes dfensifs des responsables ayant engag des projets proto-dcisionnels ponctuels que le SID, terme, pourrait rendre redondants ; scepticisme de dirigeants rservs lgard de linnovation informatique en gnral et considrant le data warehouse comme un gadget de technicien ; inquitude de dirigeants attachs aux modalits traditionnelles de la dcision, et croyant moins linformation quau gnie, lintuition et lexprience ; raction ngative de dirigeants habitus apprcier un projet informatique en fonction dun objectif de rduction directe dun cot identifi ; procdures et formalismes inadapts, en matire de gestion des achats, de ngociation contractuelle et de recette, au processus de dveloppement incrmental rapide du SID. Ces rsistances peuvent trs bien ne pas se manifester au dpart, puis apparatre brusquement la premire difficult ponctuelle du projet, donnant une rsonance dramatique un incident ou un retard mineur. Il nexiste pas de recette pour y faire face. Mais il est clair que le sponsor du projet doit avoir une connaissance aussi fine que possible de la psychologie ambiante et consacrer une part importante de son nergie et de ses talents des activits diplomatiques.

9.3.4 Lestimation des charges


Comme dans tout projet informatique, les cots de dveloppement dun SID peuvent tre dcomposs en quelques postes budgtaires classiques : Equipement logiciel ;

Jean-Marie Gouarn

146

Le Projet Dcisionnel

Equipement matriel ; Ressources humaines (internes et externes). Lestimation des charges est un exercice semi-alatoire dans tous les projets, et on sestime gnralement heureux quand les drives ne dpassent pas 20% du budget. Mais si lon ny prend pas garde, les dpassements peuvent, dans le second et le troisime postes, tre explosifs dans un projet dcisionnel. Les risques sont exceptionnellement levs sur trois points prcis : La complexit des mcanismes de capture et de transformation des donnes est difficile estimer. Le cot de dveloppement des programmes ou de mise en uvre des progiciels destins lalimentation de lentrept a donc une forte tendance pulvriser les prvisions ; Lintgration du systme, qui fait appel des technologies plus htrognes et plus rcentes que dans les applications de production, rserve toujours quelques surprises, notamment en matire dinterfaces ; Les volumes de donnes ne sont pas moins surprenants. Ds le dbut, ils sont presque toujours suprieurs aux estimations bases sur ltude pralable, et ils ne font que crotre par la suite. Le calibrage du matriel doit donc tre revu la hausse. Dans le financement du projet, on doit donc prvoir des marges de scurit extrmement confortables, en doublant les charges et les volumes raisonnablement estims sur ces trois points.

9.3.5 Lvolutivit
Un SID volue un rythme beaucoup plus rapide que nimporte quelle application de gestion, et dune faon faiblement prvisible. Cette volution agit dans quatre directions : le nombre dutilisateurs augmente ; les volumes de donnes augmentent ; les services offerts changent et se diversifient ; les sources de donnes aussi. Le SID doit tre capable dassumer cette volution sans rupture fonctionnelle ou technique, de manire progressive. Mme si cela induit un surcot initial, le projet doit donc ds le dpart se rserver des ouvertures aussi larges que possible en vitant les outils logiciels monolithiques et excessivement spcialiss ; choisissant des configurations matrielles disposant de trs vastes capacits dextension, tant en espace de stockage quen puissance de calcul ; relativisant constamment, auprs des informaticiens et des utilisateurs, la porte des choix techniques initiaux, tout en conservant un cadre mthodologique stable.

9.4 Organisation
Un projet de systme daide la dcision quel que soit le nom quon lui donne est avant tout un projet dingnierie informatique. Il convient donc dliminer demble tout exotisme inutile dans le vocabulaire utilis et de ne pas exagrer le caractre spcial de ce type de projet. Cependant, parmi les divers aspects des projets informatiques en gnral, certains ont une importance ou une coloration particulire dans le domaine de laide la dcision :

Jean-Marie Gouarn

147

Le Projet Dcisionnel

Lintgration de systme, avec les problmes darchitecture htrogne quelle implique, est un aspect beaucoup plus important que dans un applicatif de production ferm ; Les utilisateurs, de par leur profil et leurs proccupations, acceptent mal les contraintes et le jargon imposs par la technique. Lquipe de projet doit en tenir compte tout instant, pour ce qui concerne non seulement lergonomie de linterface homme-machine, les temps de rponse et la qualit de linformation, mais aussi la dmarche de spcification fonctionnelle ; Le cycle de vie itratif qui, dans les applications de production, est considr comme une option, est obligatoire en matire dcisionnelle. Il est en effet inconcevable dattendre des spcifications fonctionnelles figes qui ne viendront sans doute jamais avant de commencer le dveloppement ; Le dploiement de loutil dcisionnel nest pas de mme nature que celui dun outil de production. Le SID est l pour offrir un service, et non pour imposer une procdure. Il doit tre propos, accept et volontairement utilis. Le dploiement nest donc pas ici une simple affaire de technique et de logistique ; Aussi paradoxal que cela puisse paratre, un SID qui russit natteint jamais ses objectifs. Plus le systme est utilis, plus les objectifs changent. Cette ralit doit tre intgre au contrat qui lie le matre douvrage, le matre duvre et lquipe de projet. La notion de livraison clefs en mains, dj difficile mettre en uvre dans certains contextes applicatifs oprationnels, na pratiquement aucun sens en matire dcisionnelle. Ces quelques caractristiques distinctives, qui saccordent mdiocrement avec les normes classiques de lingnierie des systmes dinformation, ont naturellement un impact important sur la conduite du projet. Notre dcennie est moins favorable que la prcdente aux cathdrales mthodologiques. Et un projet dcisionnel se prterait de toute faon trs mal leur mise en uvre. Les manuels de conduite de projet rellement utilisables sont encore rares dans cette matire 177. Mais ceci ne justifie en aucun cas limprovisation.

9.4.1 Participants
Il y a, dans la problmatique de constitution des quipes, plus de ressemblances que de diffrences entre les projets dcisionnels et les autres. Mais, en matire de SID, les postes-cls correspondent des profils particuliers. Quels que soient leurs titres officiels dans lentreprise, les acteurs essentiels du projet sont : le Promoteur ; lArchitecte ; le Ralisateur ; lAdministrateur ; le Bibliothcaire. Les intituls de fonctions indiqus dans cette liste sont bien entendu fictifs et purement pdagogiques. Chacun est invit les traduire en fonction des profils et des structures de sa propre organisation. Naturellement, dans beaucoup de projets de taille modeste, plusieurs de ces fonctions sont cumules sur une seule tte. A loppos, dans les grands projets, des quipes danalystes, de concepteurs-ralisateurs, plus ou moins spcialiss dans certains mtiers de lentreprise ou dans certaines techniques informatiques, gravitent autour de ce noyau. Le rle de Promoteur dans un projet dcisionnel, mme dimportance moyenne, appartient une personnalit qui, dans son organisation, dtient une comptence transversale. En effet, le projet dcisionnel
177

Mais le genre littraire guide pratique , sous une forme la fois assez gnrale et assez prcise, commence cependant apparatre. En anglais, naturellement. Voir par exemple S. Anahory et D. Murray, Data Warehousing in the real world , AddisonWesley 1997.

Jean-Marie Gouarn

148

Le Projet Dcisionnel

est, par nature, orient vers la stratgie et les affaires, et non calqu sur les structures organiques. En effet, court ou moyen terme, le systme dinformation dcisionnel aura besoin de donnes en provenance de plusieurs systmes dinformation, cest--dire de plusieurs groupes de travail ou structures hirarchiques de lentreprise. De ce fait, plus la vision et lautorit du responsable fonctionnel du projet sont larges, plus le projet a de chances de succs. Il arbitre en dernier ressort les conflits ventuels concernant les objectifs et les priorits. Travaillant en liaison troite avec lArchitecte et le Ralisateur, ce manager sintresse la technique mais ne se laisse jamais mystifier par elle. Le Promoteur est matre douvrage178 pour le projet. Il occupe en gnral une fonction de direction qui ne lui permet pas de se consacrer temps complet au projet dcisionnel. Il faut alors sattendre ce que des impratifs prioritaires court terme, sans rapport avec le SID, sinscrivent tout instant dans son agenda, et ceci peut introduire une discontinuit dans la direction du projet. Il est donc indispensable que le promoteur ait ses cts un proche collaborateur qui, lui, soit affect au projet dcisionnel de faon strictement prioritaire. La matrise douvrage est en effet une activit permanente179 : il ny a pas, dans un projet dcisionnel, de priode pendant laquelle les seules dcisions prendre sont des dcisions techniques. Pour ce qui concerne la conception et la mise en uvre du systme, il nest pas vraiment souhaitable de rechercher exclusivement des profils ncessairement exotiques de spcialistes du data warehouse ou de tel ou tel aspect de linformatique dcisionnelle. Cette rserve est fonde sur plusieurs considrations : Lexpansion du march des systmes dcisionnels telle que nous la connaissons aujourdhui est un phnomne beaucoup trop rcent pour quon puisse srieusement esprer trouver suffisamment de vritables spcialistes. Cest vrai non seulement au sein du personnel informatique interne, mais aussi dans les effectifs des prestataires de service extrieurs ; Linformatique dcisionnelle nest pas rellement une spcialit ; cest une combinaison de mthodes et de techniques dont certaines sont spcifiques, mais dont la plupart sont communment utilises dans les systmes oprationnels. Un vrai spcialiste en informatique dcisionnelle ne peut donc tre quun gnraliste180. LArchitecte, en fonction des besoins exprims, des sources disponibles et des contraintes connues, tudie les alternatives de mise en uvre. Il labore le schma gnral dagencement des diffrents organes du SID et les choix technologiques pour chacun de ces organes. Il est responsable de lorganisation des procdures de pr-slection et de test des outils. Informaticien, il est cependant en contact permanent avec le Promoteur et avec les utilisateurs, avec lesquels il doit avoir une grande capacit de dialogue, car les choix doutils sont troitement dpendants des modalits dutilisation des donnes. Il doit galement avoir suffisamment dassurance et dautorit reconnue pour tre en mesure de rsister aux pressions techniciennes ou politiques qui, presque toujours, tendent favoriser des choix doutils indpendants de lexpression des besoins. Il doit aussi avoir les talents diplomatiques ncessaires pour sassurer la collaboration des responsables techniques des sources de donnes. Le Ralisateur est responsable de la mise en uvre effective de la solution technique dans le respect du budget et du calendrier contractuels. Sa mission, au premier abord, semble celle dun chef de projet classique . Toutefois, compte tenu des conditions trs informelles dans lesquelles les spcifications slaborent dans ce type de projet, le Ralisateur doit aussi tre un ngociateur capable daffronter sans tats dme les situations floues. Il ne peut pas systmatiquement sen remettre au Promoteur, qui na ni une vision suffisamment dtaille des problmes, ni une disponibilit totale, pour chaque dcision fonctionnelle. Aid si ncessaire par une quipe danalystes, il est notamment responsable, outre la conduite du chantier, de llaboration des Modles Conceptuels de Donnes.
178

La dfinition des responsabilits de matrise douvrage et de matrise duvre est gnralement mal tablie, voire absente, dans les projets dingnierie informatique, o elle est pourtant tout aussi indispensable quen matire de BTP. Cette carence contractuelle est une cause majeure dchec.
179 180

y compris faut-il le prciser ? en juillet et en aot.

Le mot gnraliste est trs souvent peru ngativement, comme sil tait synonyme de dilettante ou de touriste . Dans le milieu informatique, nous considrons comme rellement gnraliste un professionnel possdant une forte comptence technique dans au moins un domaine-cl, des connaissances thoriques prcises dans un grand nombre dautres domaines, et une bonne capacit de communication avec des non-techniciens.

Jean-Marie Gouarn

149

Le Projet Dcisionnel

LAdministrateur est un expert des bases de donnes. Dans le jargon informatique, cest un DBA181. Cest lui qui est responsable de la mise en uvre, de loptimisation et de la scurit de la Base de Collecte et dIntgration et, le cas chant, des bases relationnelles de diffusion 182. Il possde galement une bonne matrise du systme dexploitation (ou au moins, si le SID comporte des plates-formes htrognes, de celle sur laquelle sappuie le SCI). Mais sa comptence va largement au-del car le SID nest pas seulement un entrept de donnes, cest aussi un ensemble complexe de processus (cf. 9.4.7). Le Bibliothcaire183 est en quelque sorte lui aussi un administrateur de donnes, mais son profil est plus proche de celui dun utilisateur que de celui dun technicien. Il est rarement envisageable que lAdministrateur lui-mme joue ce rle en parallle avec ses responsabilits techniques. Le Bibliothcaire matrise le catalogue des donnes (cest--dire la partie documentaire des mta-donnes, lexclusion de leur description technique). Il est en mesure dexpliquer la signification et lorigine de chaque information diffuse par le SID. Il assure, auprs des utilisateurs, lassistance technique de premier niveau. Ils recueille les dolances et observe la frquence et les modalits dutilisation effective du SID. Son rle devient essentiel ds que la premire version du SID est mise en service : cest lui qui est le mieux plac pour savoir comment loutil est peru et exploit, donc pour fournir des indications capitales pour lavenir du projet. De prfrence, cest un proche collaborateur du Promoteur dont il comprend bien les ides et les objectifs. Il doit tre particulirement motiv pour vendre le SID, et avoir des qualits pdagogiques certaines. Il est linterlocuteur le plus habituel, en rgime de croisire, de lAdministrateur, auprs duquel il ngocie les compromis ncessaires entre la qualit du service, la scurit et les contraintes techniques. Il na pas forcment dexprience informatique, mais il est form la problmatique gnrale du SID et la comprhension des Modles Conceptuels de Donnes ; de plus, il est parfaitement laise dans la manipulation des outils bureautiques. Cest en quelque sorte le technico-commercial du projet.

9.4.2 Etude pralable


Le lancement du projet ne doit tre dcid quaprs tude pralable. Cette tude ne doit en aucun cas commencer par le traitement de questions oprationnelles et encore moins par des discussions techniques. Un projet dinformation dcisionnelle nest srieusement fond que sil est en relation directe avec un changement significatif dans la politique de lentreprise. Ce changement doit tre identifi et assorti dchances prcises. Les lments essentiels de cette tude, normalement mene par le Promoteur du projet, sont La dtermination exacte des changements dans la stratgie ou dans lenvironnement de lentreprise qui pourraient justifier de nouveaux besoins informationnels ; Lidentification des raisons prcises pour lesquelles le systme dinformation existant ne peut pas rpondre convenablement ces nouveaux besoins ; Lexpos chiffr des avantages attendus court, moyen et long terme ; Linventaire des diverses contraintes, notamment budgtaires, connues ce stade, et du niveau de priorit du projet dcisionnel par rapport dautres ; La dsignation prcise des utilisateurs prioritaires et, le cas chant, des autres utilisateurs concerns moyen terme. Cette tude, qui peut durer de quelques semaines quelques mois, doit donner lieu la rdaction de conclusions formelles. Tant quelle nest pas termine, la dcision ventuelle de renoncer au projet doit rester possible, et il convient de prendre les prcautions psychologiques ncessaires pour quune telle dcision ne soit pas perue comme un chec. Il ne faut donc ni commencer vendre le projet tant quil nest pas lanc, ni mener ltude initiale avec un tapage excessif, mme si la confidentialit nest pas de rigueur.
181 182

Database Administrator

Une base de donnes matricielle (OLAP) ne ncessite pas la comptence dun DBA. Sa mise en uvre relve plutt du dveloppement dapplications dcisionnelles.
183

Les amateurs de modes verbales rcentes peuvent aussi lappeler le Facilitateur.

Jean-Marie Gouarn

150

Le Projet Dcisionnel

Dans cette phase, aucun choix de mise en uvre technique ne doit tre pressenti et il nest pas utile de consulter directement les fournisseurs de matriel ou de logiciel.

9.4.3 Dmarche
Lun des premiers obstacles rencontrs par une quipe informatique abordant un projet dcisionnel est lextrme difficult obtenir des spcifications. Certes, les cahiers des charges imprcis et informels, ainsi que les remises en cause fonctionnelles en pleine ralisation ne sont pas rares dans les applications oprationnelles. Mais, en matire dcisionnelle, cest un phnomne structurel que la matrise douvrage la mieux organise ne peut viter. Cest lutilisation qui dfinit le besoin. Les utilisateurs dcisionnels savent mieux voir et approuver que dfinir et attendre. Par consquent, les spcifications initiales ne peuvent pas avoir la prtention de dcrire ce que sera le produit fini. Il est dautre part indispensable doffrir au moins un premier aperu concret des possibilits de loutil dans un dlai trs court. Face ces diverses contraintes, il convient de dterminer en dbut de projet, dune part, les contours essentiels du systme envisag moyen terme et, dautre part, un objectif de ralisation prcis court terme. Ce nest quaprs une premire livraison quon peut envisager ltablissement dun vritable cahier des charges assorti dun calendrier. Cette premire livraison prsente un caractre dcisif pour lavenir du projet ; on pourra lappeler prototype, premire version, version 1.0 ou application pilote, au gr de la matrise douvrage, mais il ne sagira en aucun cas dune maquette184. Le terme exact devra tre choisi par le Promoteur bon escient : certains mots, dans certaines entreprises, sonnent mieux que dautres. Le mot prototype , par exemple, est souvent mal peru, alors que le mot pilote qui, dans le vocabulaire informatique, en est pratiquement synonyme, est plutt bien accept. Le systme voluera ensuite de manire incrmentale. Le rythme de livraison des nouvelles versions devra tre constant et prdtermin. Le contenu de chaque version, en revanche, ne devra pas tre fonctionnellement fig avant la recette de la version prcdente.

9.4.4 Dveloppement initial


La phase initiale de conception et de ralisation doit fournir deux rsultats distincts : la dfinition du primtre global du projet tel quil est connaissable la date de fin de ltude pralable ; un prototype rellement utile et vocateur des services que rendra le SID. La dure de cette phase doit imprativement tre infrieure six mois. En effet, faute de rsultats visibles dans ce dlai, on peut sattendre des phnomnes de lassitude et de dmobilisation, et une perte de crdit du Promoteur vis--vis de ses collgues et de la Direction Gnrale. En outre, une attente trop longue peut inciter certains utilisateurs impatients rechercher des solutions alternatives. Quil y ait ou non appel la sous-traitance, il est indispensable dadopter ds le dpart un minimum de formalisme contractuel, de manire ne pas aggraver, par des malentendus en matire de distribution des responsabilits, une problmatique dj complexe. Des tches prcises sont accomplir dans cette tape : Identification formelle, en complment du dossier dtude pralable, du ou des domaines concerns, des objectifs fonctionnels gnraux, des utilisateurs concerns. Dsignation contractuelle du matre douvrage (ou Promoteur) et du matre duvre (Ralisateur) ; Etablissement de la liste des sources de donnes ncessaires et accessibles pour le projet. Dsignation contractuelle des interlocuteurs auprs desquels lquipe de projet trouvera toutes les informations techniques et smantiques sur ces sources de donnes. Il est essentiel de dsigner, pour chaque source, un
184

Nous considrons comme prototype un produit non fini, voire primitif, mais capable de fonctionner utilement. Une maquette, en revanche, nest quune reprsentation inerte du produit, ne permettant que dapprcier sa forme extrieure.

Jean-Marie Gouarn

151

Le Projet Dcisionnel

et un seul responsable ayant autorit non seulement pour renseigner, mais aussi pour permettre (ou interdire) laccs aux donnes ; Inventaire des moyens existants ou pouvant tre mis en uvre en moins de trois mois pour lextraction et la transformation des donnes utiles ; Identification et dnombrement des contextes de chaque domaine (mais sans dfinition prcise, ce stade, des faits et des dimensions), puis attribution dun niveau de priorit chacun ; En fonction de (3) et (4), choix contractuel dun domaine et, dans celui-ci, dun contexte, voire de plusieurs contextes simples185, pour le prototype ; Dveloppement complet et document des Modles Conceptuels de Donnes de Diffusion et dIntgration du prototype. Dtermination des algorithmes de transformation entre sources et MI dune part, entre MI et MD dautre part. En cas dincohrence constate entre les modles, retour en (5), voire en (4) ; Le choix des outils du prototype, sil na pas t arrt avant (ce qui est prfrable) peut tre fait ici. Notons que le choix, ce stade, doit tre minimal, cest--dire limit ce qui est strictement ncessaire pour la mise en uvre du prototype (le SGBD dintgration, un seul moteur de diffusion, un seul outil de prsentation). Ce choix est rput valable pour le prototype, et ne doit pas tre peru comme exclusif et dfinitif pour le projet ; Installation des outils ; Dveloppement du schma physique de la base dintgration et, le cas chant, de celui de la base de diffusion ; Dveloppement des procdures dalimentation et dadministration du systme ; Dveloppement dun environnement de prsentation. Si loutil de prsentation est un requteur classique, cet environnement doit tre simple mais complet, et la possibilit pour lutilisateur dexporter simplement ses rsultats vers sa panoplie bureautique habituelle doit tre amnage. Si la prsentation est faite directement sous un tableur, ou avec un autre outil de manipulation dimensionnelle libre, on dveloppera un jeu de trois ou quatre feuilles de calcul ou pages de prsentation. Les graphiques doivent tre utiliss avec modration. Le prototype doit prsenter un jeu limit dditions fixes, mais essentiellement en tant que preuve de faisabilit ; Formation des utilisateurs pilotes ; Dploiement du prototype et assistance permanente aux utilisateurs ; Aprs deux six semaines dutilisation effective de cette version initiale, spcification contractuelle du calendrier des livraisons et du contenu de la version suivante. Le choix des objectifs de la premire version est un problme dlicat dont la solution est dterminante pour la suite du projet. Ces objectifs doivent tre situs avec prcision sur trois axes distincts et ventuellement divergents : Un axe technique : le prototype est cens tre une preuve de faisabilit et un moyen de valider ou de modifier un choix darchitecture ; Un axe fonctionnel : le prototype doit apporter une premire preuve dutilit apprciable par les utilisateurs ; Un axe politique : le prototype doit accrotre ou au moins conserver le capital de confiance et de notorit dont le projet a besoin pour se dvelopper ; il doit donc tre dmonstratif et attractif. En ralit, les conditions propres chaque projet font que lun de ces trois axes prdomine presque toujours. Il est cependant dangereux de faire une impasse totale sur les deux autres. Un prototype purement technique ne saurait rassurer que les informaticiens. Un prototype purement fonctionnel ne peut rpondre, dans un
185

La notion de simplicit est trs relative. Cependant, titre indicatif, nous considrons que la structure reste simple si, tous contextes confondus, le modle des donnes en FDN ne comporte pas plus dune douzaine dentits et de trois ou quatre indicateurs. Au besoin, on simplifiera un contexte pour les besoins du prototype, si cette simplification na pas pour effet de le rendre totalement inutile.

Jean-Marie Gouarn

152

Le Projet Dcisionnel

dlai raisonnable, qu un besoin extrmement ponctuel ; ventuellement satisfaisant pour une poigne dutilisateurs, il risque donc fort de convaincre l opinion publique de lentreprise que le SID nest rien dautre quune application verticale de plus. Quant au prototype purement publicitaire, sa sduction a toutes chances de retomber comme un souffl si les utilisateurs, derrire les graphismes somptueux, ne trouvent pas linformation utile. Le but principal de la premire version du SID doit tre ajust en fonction de lenvironnement politique du projet. Mais, compte tenu de ce qui vient dtre signal, le Promoteur veillera au moins ce que : les donnes prsentes, mme si larchitecture dalimentation est incomplte, soient relles, jour et utiles ; larchitecture technique comporte bien, au moins sous une forme embryonnaire, les deux soussystmes du SID (SCI et SDP), et soit capable de salimenter automatiquement au moins lune des sources prvues dans le projet ; loutil interactif daccs aux donnes soit facile utiliser et prsente une ergonomie sobre mais attrayante. Enfin, un intense accompagnement pdagogique est de rigueur lors de la prise en main de loutil par ses utilisateurs.

9.4.5 Dveloppement itratif


A lissue de la phase initiale de dveloppement, selon un rythme et des modalits qui dpendent de lincrment fonctionnel et technique li chaque livraison, lquipe de projet devra mener en parallle et en interaction plusieurs tches fondamentales : Enrichissement de la chane technique dextraction, de transport et de chargement de donnes. Cet aspect du projet donnera lieu une laboration itrative si les sources sont multiples et htrognes, mais dans les cas les plus simples larchitecture dalimentation sera intgralement disponible ds la seconde livraison ; Maintenance du MCD dintgration et de sa documentation, ainsi que du schma physique correspondant dans la BCI. Maintenance des rgles de transformation et de nettoyage des donnes. En rgime de croisire, lutilisation systmatique dun outil de gnie logiciel classique est recommande ; Maintenance et enrichissement des outils logiciels dextraction, de transformation et de nettoyage. Installation et paramtrage, le cas chant, de progiciels du march utiliss pour cette fonction ; Maintenance du MCD de diffusion et des schmas logiques et physiques correspondants ; Enrichissement et diversification des applications de prsentation ; Administration fonctionnelle et technique du systme. Toutes ces tches sont mener en parallle dans le cadre de chaque itration. Il est prfrable de sen tenir un rythme de livraison relativement rgulier, quel que soit le contenu fonctionnel et technique de chaque itration. Lintervalle entre deux itrations doit tre de trois six mois, pour respecter un bon compromis entre le foisonnement des demandes et les contraintes techniques et organisationnelles. Cette dmarche implique un cadre de conduite de projet radicalement diffrent de ce qui est ou tait prconis pour les grands projets dinformatique oprationnelle. Pour certains, elle voque la mthodologie du RAD (Rapid Application Development), qui a connu un certain succs au dbut des annes 90 186. Le RAD na jamais t, contrairement aux apparences, une mthode de dveloppement rapide. Cest simplement une mthode selon laquelle, grce une dmarche itrative, des produits apparaissent rapidement, la ralisation nattendant pas la fin des spcifications. Cependant lacronyme RAD lui-mme, peu vocateur et pouvant
186

Voir J. Martin, Rapid Application Development , MacMillan 1991.

Jean-Marie Gouarn

153

Le Projet Dcisionnel

donner lieu des perceptions pjoratives, est viter dans les conversations et les documents lis au projet. Lexpression prototypage volutif est encore plus dconseille. Mais le mot volutif doit cependant figurer en bonne place dans la dfinition officielle du SID.

9.4.6 Sous-traitance
Le SID ne peut pas tre achet comme un produit. Son dveloppement ne peut pas non plus tre globalement externalis. Toutefois, les dlais tendus qui simposent toujours au projet, et limpossibilit pratique de constituer du jour au lendemain des quipes internes adquates, rendent presque toujours obligatoire le recours des prestataires extrieurs. La forme contractuelle de lappel la sous-traitance nest pas toujours ajustable la nature particulire de chaque projet. Le projet dcisionnel doit souvent se plier des normes dentreprise qui, un moment donn, sappliquent tous les projets dintgration de systme et de dveloppement de logiciel. Le choix entre une obligation de rsultat (forfait) ou une obligation de moyens (rgie) pour le prestataire peut donc tre un choix impos. Le cas de la rgie ne pose pas de problme particulier, sinon un problme classique de recrutement intuitu person. Toutefois, si le profil recherch correspond lun des postes-cls voqus au 9.4.1, on doit viter quelques piges qui, bien que grossiers, ne sont jamais trop signals : Les fonctions de Ralisateur (chef de projet) et dArchitecte ne doivent pas tre confies des spcialistes directement lis lditeur de logiciel ou au constructeur187 fournissant lune des technologies principales du projet. Mme sil ny a aucun doute sur leur valeur professionnelle et leur dontologie, ces experts ne peuvent pas avoir la mme libert daction et la mme indpendance de vues que dautres en matire de choix techniques. Par ailleurs, la remise en question dun choix technique ne doit pas avoir pour consquence automatique celle de lencadrement du projet. Et il est trs imprudent de considrer un choix technique comme dfinitif en matire dcisionnelle ; Les notions dinformation dcisionnelle, de systme de pilotage, de data warehouse, etc., ayant des significations trs varies selon les interlocuteurs, et les perspectives ayant profondment chang depuis les annes 80, la longueur dune exprience antrieure en la matire nest pas forcment un gage de comptence en rapport avec le projet ; Le Ralisateur doit tre recrut dabord selon sa valeur comme chef de projet en gnral, et ensuite selon son exprience des projets dcisionnels ; LArchitecte doit tre recherch dabord pour sa connaissance des architectures htrognes et sa vision transversale de la technique, et ensuite pour sa connaissance des outils du SID ; Pour lensemble des autres postes techniques, la connaissance pralable de la problmatique des SID est souhaitable, mais la matrise des bases de donnes relationnelles et des environnements clientserveur est obligatoire ; Et enfin mieux vaut insister sur ce point les fonctions de Promoteur et de Bibliothcaire ne se sous-traitent pas. Le cas du forfait est beaucoup plus pineux. Comment, en effet, fixer un sous-traitant une obligation de rsultat, assortie dun dlai et dun budget, lorsque le rsultat lui-mme nest pas contractuellement formul ? La solution la moins dangereuse en pareil cas autant pour le ralisateur que pour son client consiste dcouper la mission en deux phases successives, assorties de rgimes contractuels diffrents : Une premire mission, dune dure de 6 8 semaines, impliquant personnellement le Promoteur et un ou deux intervenants de lentreprise prestataire, tablit dun commun accord le cahier des charges de la version initiale du SID. Dun point de vue contractuel, pour cette phase, le prestataire est tenu une obligation de moyens ; il sagit pour lui dune mission de conseil, pouvant tre qualifie d assistance
187

On peut naturellement faire exception cette rgle, lorsque lintervenant a une comptence personnelle allant trs au-del de loffre de son employeur, et sil appartient une quipe de conseil notoirement autonome par rapport aux activits de diffusion de produits.

Jean-Marie Gouarn

154

Le Projet Dcisionnel

la matrise douvrage , mme si le cahier des charges peut tre considr comme un lot livrable une date convenue ; La ralisation de la version initiale, sur la base du cahier des charges valid par lentreprise et accept par le prestataire (qui a particip sa rdaction) peut alors avoir lieu en tant que prestation forfaitaire de dveloppement logiciel et/ou dintgration. La recette conscutive la livraison du systme peut servir de base llaboration dun nouveau contrat de dveloppement forfaitaire pour une seconde version, et ainsi de suite188. Dans lintrt des deux parties, tant que le rgime du forfait reste en vigueur, il est impratif que chaque itration soit dveloppe sur la base dun nouveau contrat. Ceci prsente le double avantage de permettre chacun de renoncer la poursuite du projet sans consquence dramatique, et de maintenir la cohrence entre les objectifs contractuels et lvolution des besoins. Mais tout cela ne fonctionne que si, compte tenu de la charge de travail du Promoteur et des procdures de passation de commande en vigueur, ltablissement de contrats successifs frquents est possible189. Indpendamment du cadre juridique des prestations, le transfert de comptences techniques et mthodologiques du prestataire vers lentreprise doit explicitement faire partie de la mission. En contrepartie, il appartient lentreprise de faire en sorte que le Promoteur (ou son reprsentant qualifi) soit facilement accessible et en mesure de fournir tout moment les informations dont le prestataire a besoin pour russir sa mission ; le prestataire, pour viter tout malentendu, a intrt ce que le degr de disponibilit de la matrise douvrage soit indiqu dans le contrat. La sous-traitance ne commence pas ncessairement avec la ralisation. Ltude pralable est souvent effectue avec laide de consultants externes. Appartenant gnralement des cabinets de conseil en management, organisation, logistique, marketing ou autre domaine de comptence vertical , ils matrisent mieux le discours du business que celui de linformatique. La plupart du temps, une mission de conseil laisse derrire elle un certain nombre de dossiers sur la base desquels, aprs quelques semaines ou quelques mois, la Direction Gnrale prononce, ventuellement, une dcision de lancement de projet. A ce moment, les techniciens entrent en scne et dcouvrent le projet ; mais les auteurs de ltude pralable sont loin. On peut alors tre confront une alternative fcheuse : ou bien le dossier de ltude, quelle que soit sa pertinence stratgique, est trop gnral pour servir de base une spcification informatique, et dans ce cas les techniciens auront dfinir eux-mmes une grande partie des fonctions du systme, avec tous les malentendus potentiels que cela suppose ; ou bien les consultants ont voulu tre trop prcis et, sortant de leur sphre de comptence, ont dj traduit certains besoins en termes de solutions techniques avec lesquelles les informaticiens ont de fortes chances dtre en dsaccord. Pour ne pas en arriver l, il est indispensable, dune part, que le Promoteur du projet ne manque pas dacqurir, avant le dpart de lquipe de conseil, une connaissance personnelle approfondie du dossier, et dautre part quil y ait au moins une priode de recouvrement entre la fin de la mission de conseil et le dbut de la mission du Ralisateur et de lArchitecte. La question ne se pose pas, toutefois, dans les trs grands projets dcisionnels o la mission de conseil continue en parallle avec la mission de mise en uvre.

9.4.7 Administration
Le SID ne peut fonctionner et voluer terme que moyennant un effort soutenu dadministration des donnes, des traitements et des utilisateurs. Lactivit dadministration est permanente ds lors que le systme est construit, mme en version initiale simple. Elle contrle lactivit et les performances et gre le changement et la croissance190.
188

Il peut arriver aussi que, aprs un ou deux cycles de dveloppement, lentreprise poursuive le projet en rgie, en intgrant demeure une partie de lquipe de ralisation. En ralit, le forfait peut tre un moyen dvaluation initiale des comptences et de la ractivit du prestataire.
189 190

Lobligation, par exemple, de procder un appel doffres public chaque itration exclut une telle dmarche. W.H. Inmon, J.D. Welch, K.L. Glassey, Managing the Data Warehouse , John Wiley & Sons 1997.

Jean-Marie Gouarn

155

Le Projet Dcisionnel

Les lments fondamentaux justiciables de cette administration sont La structure et le contenu de la Base de Collecte et dIntgration ; Les processus dalimentation ; La structure logique et physique des bases de diffusion ; Les processus de transfert de donnes entre le SCI et le SDP ; Les mta-donnes ; Les modalits et lintensit dutilisation ; La scurit. Ces lments sont tous fortement interdpendants et ne peuvent donc pas tre grs isolment. La charge de maintenance de lentrept de donnes est certainement la plus importante. Lessentiel de cette charge ne vient pas des incidents techniques alatoires. La structure de la BCI doit tre adapte et roptimise chaque fois quune nouvelle source de donnes est intgre. Le seul coulement du temps ayant pour effet dapprofondir les historiques mmoriss, le volume de la BCI augmente et, fatalement, franchit des seuils techniques qui ncessitent des rorganisations. Les mises jour priodiques provoquent la longue, sur les supports physiques, des phnomnes de fragmentation qui, eux aussi, imposent des rorganisations. Il nest pas souhaitable, par principe, que lAdministrateur cherche sopposer laugmentation inexorable des volumes. Mais il lui appartient de faire en sorte que cette augmentation soit justifie. Dans toutes les organisations, une dcision de jeter est toujours plus difficile prendre quune dcision de conserver (plus exactement, labsence de dcision quivaut une dcision de conserver). Faute dun suivi rigoureux, on peut donc sattendre ce que le contenu de lentrept de donnes, utile 90 ou 100% lors de la phase pilote, ne le soit plus qu 50 ou 60% aprs deux ou trois ans de croissance. On ralisera donc des conomies considrables en se donnant les moyens didentifier les donnes inutiles. Sur ce point, il faudrait tre dune grande navet pour croire que les utilisateurs eux-mmes donneront expressment les indications ncessaires. La seule vraie solution consiste, pour lAdministrateur, se donner les moyens techniques dobserver lusage effectif des donnes. Le suivi des requtes est trs instructif cet gard. Loin de toute ide de contrle policier sur laccs aux donnes, il permet, dune part, de reprer les informations qui ne sont jamais utilises et, dautre part, de dtecter les problmes de performances. Cette fonction administrative, lorsquelle peut tre mise en uvre avec des outils appropris, est un moyen essentiel doptimiser lutilisation des ressources et la qualit du service. Lactivit darrire-plan du SID, qui joue un rle aussi essentiel que discret quand tout va bien, implique un grand nombre de processus interdpendants, et la dfaillance dun seul dentre eux peut avoir des consquences dramatiques. Ces processus doivent, avec une rgularit dhorloge, assurer de bout en bout la mise jour cohrente de lensemble du systme. Les incidents doivent donc non seulement tre traits, mais encore anticips. LAdministrateur doit donc dfinir un certain nombre de seuils dalerte (taux doccupation dun disque, taux dactivit dun processeur, arrt ou lancement anormal dun processus, dure anormale dexcution dune requte, etc.) afin de pouvoir agir, le cas chant, avant la panne plutt quaprs. Il doit aussi prvoir des mesures de fonctionnement en mode dgrad en cas dincident paralysant un des organes du SID ou dindisponibilit dune source de donnes. La complexit de ces tches nest pas compatible, dans un projet important, avec une administration manuelle. Il est donc indispensable, dans certains cas, de sappuyer sur des plates-formes ou des automates logiciels dadministration de systme appropris 191. La prsentation et la classification de ces outils naurait gure sa place dans ce livre. Mais il est quand mme opportun de mettre le lecteur en garde sur lexistence dune distinction prcise, dans le vocabulaire de lexploitation informatique, entre ladministration de systme et ladministration de base de donnes. Les outils ne couvrant que ladministration de systme contrlent les processus, les ressources physiques et les utilisateurs, mais ils ne voient pas les objets
191

Les outils dadministration de systme les plus connus sont proposs par des constructeurs comme Hewlett-Packard, IBM, Bull ou des diteurs de logiciel comme Computer Associates et BMC. Ces outils ne sont pas particulirement ddis linformatique dcisionnelle.

Jean-Marie Gouarn

156

Le Projet Dcisionnel

propres aux SGBD tels que les tables, les requtes, les transactions. Lactivation dune fonction dadministration de systme agissant sans coordination avec une fonction dadministration de base de donnes peut donc induire une incohrence dans les donnes, voire rendre la base inutilisable. Lintgration des outils doit donc tre faite sans ngliger la coordination entre ces deux niveaux dadministration. La scurit du SID, mme si ce nest pas toujours le premier sens quon lui attribue, cest dabord lassurance de sa continuit de fonctionnement, cest--dire lensemble des mesures dadministration prises pour la prvention et la rparation des incidents. Cest cependant la confidentialit qui est, dans beaucoup de cas, la question sensible. Il est vrai que la valeur dun entrept de donnes augmente avec sa disponibilit ; plus une donne est accessible, plus elle est utile ; la philosophie dun SID efficace est celle de linformation partage. Cependant, pour un ensemble de raisons lies la comptition, la lgislation ou la culture, la confidentialit demeure un problme incontournable pour toute base de donnes dentreprise. Dans les projets les plus simples, la gestion de la scurit se limite au contrle lentre : une fois la connexion accepte, lutilisateur peut accder toutes les donnes disponibles. Mais ds que la population des utilisateurs se diversifie, la logique du tout ou rien doit cder la place une modulation plus fine des droits daccs, selon le profil de chacun. On est alors amen faire une classification des utilisateurs et une classification des donnes, puis dtablir les relations entre les deux, et enfin de mettre en place les dispositifs techniques disolation appropris. Ces dispositifs nimpliquent pas seulement des charges de dveloppement informatique supplmentaires ; ils ont aussi un impact important sur les volumes et/ou sur les performances. La personnalisation des droits daccs peut en effet tre ralise de deux manires : par redondance, en ne donnant accs chaque utilisateur qu une copie partielle de la base de diffusion192, dleste de tout ce quil na pas voir ; par masquage, en activant dans la base de diffusion des filtres bass sur les classifications de scurit en vigueur. La premire mthode est difficile appliquer grande chelle, compte tenu de lexplosion du nombre de bases de donnes logiques alimenter et grer, et des volumes de donnes redondantes. La seconde est plus praticable long terme, mais elle a un effet ngatif sur les performances. Le procd le plus classique pour la mettre en uvre dans une base de donnes relationnelle consiste interdire laccs direct aux tables et noffrir aux utilisateurs que des vues193 adaptes leurs profils respectifs. Mais, terme, lexplosion des possibilits combinatoires induites par la classification des utilisateurs et celle des donnes peut compliquer les choses : il nest pas possible, dans un systme en volution, dadministrer des centaines ou des milliers de vues. Au pire, on peut tre amen adopter un SGBD de haute scurit, capable de grer lui-mme une classification des donnes enregistrement par enregistrement194. La confidentialit est une question sensible ne pas ngliger. Toutefois, si elle prend une trop grande importance par rapport aux autres aspects du projet, cela peut tout simplement vouloir dire que le SID nest pas possible, ou que la rflexion son sujet nest pas mre. Ladministration des mta-donnes (dont on a propos une dfinition au 3.5.4) doit assurer la correspondance entre les donnes et leur description tout au long des chanes dalimentation du SID. Les mta-donnes, si elles forment logiquement un tout, sont physiquement clates, rpliques et multiformes. Lutilisateur final les voit sous forme de documentation textuelle (lectronique ou imprime). Pour les outils de prsentation, elles contiennent linformation ncessaire la construction des requtes techniques aux bases de donnes selon les actions de lutilisateur. Pour lAdministrateur et pour les procdures
192

Ceci nimplique pas ncessairement lexistence dune base de donnes physique distincte pour chaque profil dutilisateur. La redondance peut tre organise, par exemple, en tablissant, dans une mme base physique, des copies partielles de chaque contexte.
193

Une vue, en termes techniques, na pas la mme signification quune vue conceptuelle au sens qui a t prsent dans la section 4.1. Dans une base de donnes relationnelle, une vue est une table virtuelle correspondant une pr-slection de donnes appartenant physiquement une ou plusieurs tables. Pour lutilisateur, une vue apparat comme une vraie table. Mais lexcution dune requte sur une vue implique, de la part du SGBD, des traitements plus complexes et plus longs que sur une table.
194

Il sagit de versions blindes , compatibles avec le niveau de scurit F-B1/E3 de lITSEC, sachant que les SGBD ordinaires, qui grent les droits de proprit mais pas les classifications, sont gnralement au niveau F-C2/E3. Mais il convient de prciser que le SGBD seul ne peut garantir un niveau de confidentialit ; cest la combinaison du SGBD, du systme dexploitation, de la machine et du rseau qui est considrer.

Jean-Marie Gouarn

157

Le Projet Dcisionnel

dalimentation et de transfert, elles dcrivent des structures physiques de donnes sources et cibles. Matriellement, elles sont consignes pour partie dans la BCI, pour partie dans les bases de diffusion et dans les interfaces de prsentation, et pour partie dans des manuels dutilisation 195. Lensemble doit avoir une cohrence globale, et chacun doit le voir sous langle qui lintresse. Il nexiste pas de procd universel pour traiter cette question : les solutions applicables dpendent de la combinaison des outils mis en uvre (de lextraction primaire jusquau bureau de lutilisateur) et des possibilits de coordination entre ces outils.

9.5 Choix des outils


Le foisonnement des outils et des alternatives de mise en uvre est souvent peru comme la premire difficult par ceux qui sont chargs de larchitecture dun SID. Pour ce qui concerne le Systme de Collecte et dIntgration, la problmatique du choix est en ralit la mme que dans un systme de production, sauf dans les cas encore peu frquents o lampleur du projet justifie le recours des technologies massivement parallles et des progiciels dalimentation trs coteux (cf. chapitre 7). Trs complexe dans son intgration et son administration, le SCI ne se distingue pas particulirement par lexotisme et la varit des outils avec lesquels il est fabriqu. Il en va tout autrement du Systme de Diffusion et de Prsentation. Les tentatives de classification doutils y compris celle qui est propose dans le chapitre 8 nont quune valeur indicative et ne suffisent pas aplanir cette difficult, au moins pour deux raisons. Dans un march en trs forte turbulence, les produits changent de contenu, de nom et mme de fournisseur un rythme effrn, et de nouveaux arrivants bousculent tout moment les catgories prtablies. Une classification trop prcise est gnralement simpliste, voire inexacte, et ne peut gure rester utilisable plus de quelques mois ; Les produits trs sophistiqus (par exemple les serveurs matriciels ou relationnels-matriciels) ne sont jamais comparables deux deux. En fait, chacun de ces outils pourrait dfinir une catgorie spare, tant leurs fonctions et leurs architectures sont diverses 196. Cependant, la plus importante de ces difficults ne provient pas de la richesse anarchique de loffre, mais plutt de la manire de lapprhender. Autant il est intressant dassister en spectateur naf deux ou trois sminaires commerciaux pour sinitier aux tendances technologiques du moment, autant il faut se garder dentreprendre une procdure de choix doutils avant de disposer au moins dun dbut de dossier sur les types dapplications envisags (cf. section 8.2) et sur le Modle Conceptuel des Donnes. Aucune dmarche de choix doutils ne doit donc tre entreprise avant la fin de ltude pralable. Dautre part, un composant ne doit tre valu quen tenant compte de ses capacits dintgration dans un ensemble. La cohrence globale prime sur les avantages intrinsques de tel ou tel produit. Cette cohrence doit naturellement tre assure sur le plan technique : les donnes et les mta-donnes doivent pouvoir transiter facilement dun outil lautre. Elle doit aussi ltre sur le plan fonctionnel : il est absurde de combiner entre eux un outil de prsentation et un outil de diffusion ne correspondant pas aux mmes types dactivits197, mme si leur interconnexion est techniquement possible. Les articles et publications divers manant dauteurs indpendants ou dorganismes de veille technologique ont souvent une grande valeur dinformation gnrale sur ltat de lart. Confronts avec le discours des
195

Il ne sagit pas seulement des manuels destins lutilisateur du SID, mais aussi de la documentation technique des sources de donnes (dossiers dtude et de ralisation des applications de production, notices des fournisseurs externes dinformation).
196

N. Raden, Choosing the right OLAP technology , in Planning and Designing the Data Warehouse , recueil publi sous la direction de R. Barquin et H. Edelstein, Prentice Hall 1997.
197

Par exemple un requteur destin aux interrogations prformates et un serveur de donnes matriciel.

Jean-Marie Gouarn

158

Le Projet Dcisionnel

fournisseurs eux-mmes198, ils constituent une aide prcieuse la formulation des problmes. Ils ne sont cependant pas des guides comparatifs efficaces, linstant du choix. La rapidit de lvolution leur interdit en effet dtre la fois complets et jour. Certains consultants ou socits de services proposent des fiches danalyse comparative doutils tablies la demande, donc prsentant une garantie dactualit ; cette approche peut tre efficace, condition toutefois que le prestataire ait un rel intrt la russite du projet et que la matrise douvrage sintresse autant la mthodologie de ltude qu ses conclusions. Quant aux mesures de performances, trs importantes pour les serveurs de donnes, elles sont difficiles tablir. Certes, il existe des bancs dessais officiels. Il sagit, pour les bases de donnes relationnelles, du TPC-D199 et, pour les bases de donnes matricielles, de lAPB-1200. Nous ne discuterons pas ici de la valeur probante trs relative en dcisionnel comme en transactionnel dun benchmark gnral qui met en uvre un scnario sans rapport avec le projet envisag. Le TPC-D et lAPB-1, quant eux, sont de toutes faons beaucoup trop coteux et trop longs dvelopper par rapport au budget et aux dlais dun projet moyen. En outre, ils ne mettent pas assez laccent sur les performances de mise jour massive des bases de donnes201. Il est donc gnralement plus sr de dvelopper des bancs dessais spcifiques, bass sur des structures et des volumes en rapport direct avec les applications. Le meilleur banc dessai est le prototype du projet. La principale difficult est alors de se procurer des donnes en volume suffisant. Les choix doutils intervenant normalement avant que le Systme de Collecte et dIntgration soit disponible, la constitution du jeu de test oblige recourir des expdients provisoires (extraction et formatage sommaires de donnes de production, voire fabrication pure et simple de donnes fictives). Il est cependant imprudent de faire limpasse sur la mesure des performances, au moins pour ce qui concerne les serveurs de diffusion, pour lesquels les temps de rponse aux requtes et les temps de chargement ont une importance dcisive. Dans la pratique, on est donc souvent amen prslectionner, plus ou moins arbitrairement, une liste courte limite deux ou trois produits 202. Pour mettre valablement lpreuve un moteur de diffusion relationnel ou matriciel il faut compter entre deux et quatre semaines pour la prparation du banc dessais, deux jours (y compris, ventuellement, une nuit de test de chargement massif) pour son excution, et encore une semaine pour les conclusions. Lopration mobilise pratiquement deux personnes temps complet, ncessite la mise disposition exclusive dune plate-forme matrielle et implique, de la part du fournisseur, une assistance qui nest pas forcment gratuite. Pour ce qui concerne les outils de prsentation, lapproche est diffrente. On commencera plutt par dresser une liste de 6 10 produits pouvant correspondre la catgorie dutilisation vise (avec toutes les rserves quon a voques au sujet de la valeur des classifications doutils). Une tude documentaire rduira cette liste deux ou trois noms. Les fournisseurs seront ensuite invits prter leurs produits pour une dure de trois cinq semaines au cours desquelles on procdera, sur la base dun scnario prdfini, une valuation technique par des informaticiens suivie dune valuation fonctionnelle par des utilisateurs. Les tests doivent naturellement tre faits en liaison avec le serveur de diffusion 203. Laide du fournisseur, pour ce type de produits, doit se rduire une simple assistance tlphonique (si la prsence physique du fournisseur est ncessaire pendant le test, cest une premire indication ngative pour un outil de prsentation). Tout ceci est, somme toute, assez classique ; mais le cadre particulier dans lequel se droulent les projets dcisionnels, et linexprience des quipes informatiques internes en la matire, sont autant dobstacles au bon droulement du processus.

198

Les diteurs de logiciel et les constructeurs publient de nombreux articles et livres blancs. Certains dentre eux, au-del de leur aspect promotionnel, ont une relle valeur pdagogique.
199

Le Transaction Processing Council (TPC) a mis au point plusieurs bancs dessais respectivement nomms A, B, C et D. Le dernier dentre eux, le TPC-D, introduit en 1995, est le seul destin mesurer des performances de type dcisionnel.
200 201 202

LAPB-1 (Analytical Processing Benchmark n 1) est propos par lOLAP Council. LAPB-1 prend en compte les temps de mise jour incrmentale des donnes.

Sachant que le prix dacquisition dun de ces logiciels se ngocie comme celui dun revtement de sol sur un march mditerranen, il est toujours prfrable de mettre au moins deux fournisseurs en concurrence. Sans oublier, si le fournisseur est un diteur de logiciel amricain, de passer commande un soir de clture trimestrielle.
203

Si le choix de loutil de prsentation est techniquement li au choix du moteur de diffusion, on valuera videmment lensemble de la chane en une seule session dessais.

Jean-Marie Gouarn

159

Le Projet Dcisionnel

Dun autre ct, le choix prmatur des outils de prsentation-diffusion peut tre, dans certains cas, une vritable bombe retardement. Il risque en effet de mettre lquipe de conception en face dune alternative dsastreuse, en la forant choisir, dlibrment ou non, entre forcer linterprtation des besoins pour lamener concider avec les possibilits de la technique choisie, cest--dire construire un SID dinformaticien , qui aura peu de chances dtre rellement utilis ; remettre les choix techniques en question mi-parcours, avec les consquences que cela peut avoir dans le climat politiquement tendu dun projet dcisionnel. Le choix, arbitr par le Promoteur, doit rsulter dune concertation srieuse entre celui-ci, le Ralisateur et lArchitecte. Les dcisions imposes par des instances dirigeantes nayant quune relation distante avec le projet sont dangereuses, prcisment parce quelles interviennent presque toujours prmaturment et sans rapport avec les tudes en cours. Elles sont cependant frquentes, et ont deux origines principales. La premire est le souci dharmonisation voqu la section 8.1, qui tend, parfois mal propos, tablir des classifications rigides doutils et imposer un produit et un seul dans chaque catgorie. La seconde est la tactique commerciale des fournisseurs doutils daide la dcision, base sur une approche systmatique des Directions Gnrales et des responsables fonctionnels potentiellement concerns (marketing, ventes, contrle de gestion, etc.). Brillante, gratifiante, appuye sur un discours proche du mtier (et des modes verbales qui sy rapportent), cette approche politique directe est de nature sduire le manager qui a limpression de dcouvrir une informatique nouvelle, proche de lui, intelligente et bien leve. Ce phnomne est dangereux plus dun titre car il favorise la construction du SID autour dun outil et non autour dun besoin ; il peut prcipiter des choix techniques sans vrification de faisabilit ni valuation des cots indirects ; il peut avoir un effet dmobilisateur sur les quipes informatiques qui se voient imposer des dcisions techniques auxquelles on ne les a pas associes. Autant il est indispensable que les dirigeants jouent un rle moteur dans la cration du SID, autant les dcisions relatives lintgration des composants techniques doivent sinscrire en leur temps et leur place dans le processus de ralisation.

Jean-Marie Gouarn

160

Le Projet Dcisionnel

10. Conclusion

Identifier des enjeux, spcifier des modles daccs aux donnes, choisir une architecture sont les actes fondateurs les plus dcisifs pour le dveloppement dun Systme dInformation Dcisionnel. Enjeux, modles et architectures sont dailleurs, bien plus que les outils, les vritables lments distinctifs dun projet dcisionnel. Construire un SID, cest dabord se donner les moyens de dpasser ou de contourner des limites propres aux systmes dinformation existants. Or ces limites sont plus organisationnelles et mthodologiques que technologiques, et cest l que rside la difficult majeure. Sil fallait dire, en rsum, quelles sont les cls de la russite dun tel projet, on pourrait en proposer deux : La premire est la valeur du contenu, qui repose elle-mme sur deux impratifs essentiels. Dabord, le contenu informationnel ne peut tre valablement conu que sur la base dune modlisation de donnes complexe et multiforme, jouant le rle dun trait dunion entre les structures smantiques respectives des sources et des points de vue. Ensuite, la disponibilit effective de ce contenu ne peut tre assure que par une chane dalimentation plusieurs niveaux, aussi robuste que prcise ; La seconde est lappropriation de linformatique par le dcideur. Le projet dcisionnel se caractrise par une relation nouvelle entre le management et linformatique. Ne pouvant saccommoder dune matrise douvrage distante ou vanescente, il implique lengagement rel et constant de son promoteur. Pour devenir un outil de dcision, linformatique ne doit plus tre regarde de loin comme un centre de cot gr par une secte de techniciens. Une Direction Informatique livre elle-mme naurait gure de chances mme si elle en avait la prtention de mener bien un projet dcisionnel digne de ce nom. Ces deux cls, mme si elles nouvrent pas toutes les portes, doivent permettre au moins de franchir les seuils les plus dcisifs. Elles correspondent aux ides essentielles que ce livre sest efforc de prsenter.

Jean-Marie Gouarn

161

Le Projet Dcisionnel

11. Lectures conseilles

Enjeux, stratgie et alternatives fondamentales


SEAN KELLY, Data Warehousing : the route to mass cistomization, John Wiley & Sons, 1996. JEAN-MICHEL FRANCO et EDS-PROMETHEUS, Le Data Warehouse - Le Data Mining, Eyrolles, 1997.

Conception, architecture, conduite de projet


BARRY DEVLIN, Data Warehouse, from architecture to implementation, Addison-Wesley, 1997 SAM ANAHORY et DENNIS MURRAY, Data Warehousing in the real world, John Wiley & Sons, 1997.

Modlisation des bases de donnes relationnelles


RALPH KIMBALL, The Data Warehouse Toolkit, John Wiley & Sons, 1996.

Administration
WILLIAM H. INMON, J.D. WELCH et KATHERINE L. GLASSEY, Managing the Data Warehouse, John Wiley & Sons, 1997.

Jean-Marie Gouarn

162

Le Projet Dcisionnel