Vous êtes sur la page 1sur 67

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Le dcisionnel

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Aspects thoriques

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Introduction
Lobjectif de ce document est de prsenter dans les dtails comment mener un projet de dveloppement dun outil dcisionnel. Il prsente les tapes partant de lide de projet loutil. Les outils de mises en place du systme dcisionnel sont les outils de la suite Microsoft Business Intelligence. Mais quest-ce quun projet ? Quest que manager un projet ? quest que linformatique dcisionnelle ? Pourquoi avoir recours une solution dcisionnelle dans une entreprise quand on sait que ce sont des projets trs couteux ? Toutes ces questions seront traites dans les dtails dans ce document.

1 Projet :
Cest un effort temporaire exerc dans le but de crer un produit, un service ou un rsultat unique. La nature temporaire des projets implique un commencement et une fin dtermine. La fin est atteinte lorsque les objectifs sont satisfaits ou lorsque le projet est arrt parce que ses objectifs ne seront pas atteints ou ne peuvent ltre, ou lorsque le projet nest plus utile.

2 Manager un projet
Cest lapplication des comptences, doutils et de techniques aux activits dun projet afin den satisfaire les exigences. Il consiste identifier les exigences. aborder pendant la planification et lexcution du projet, les divers besoins, soucis et attentes des parties prenantes. Pondrer les contraintes concurrentes du projet provoques, entre autres par o Le contenu o La qualit o Lchancier o Le budget o Les ressources o Les risques etc.

3 Informatique dcisionnelle ?
Cest une discipline qui recouvre tous les moyens informatiques destins amliorer la prise de dcision des dcideurs dune organisation. Elle doit rpondre progressivement trois attentes : Amliorer laccs et la qualit des donnes Gagner en finesse danalyse et de comprhension de donnes Grer les performances de lorganisation et de ses politiques

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Dans ses dbuts, linformatique dcisionnelle sest contente tout dabord de dupliquer les bases de donnes des systmes de gestion, afin disoler les requtes danalyse de donnes des requtes oprationnelles. Les requtes danalyse tant souvent trs lourdes, lobjectif tait surtout de prserver les performances des systmes oprationnels. Ensuite cette base de donnes ddie aux requtes et lanalyse a progressivement mut et sest organise. Partant du constat quil tait difficile de croiser des donnes contenues dans des bases de donnes distinctes, le plus simple a t de regrouper ces donnes parses. Le concept de la base unique pour centraliser les donnes de lentreprise est plus que jamais dactualit. Il sagit du concept dentrept de donnes (ou Data Warehouse). Sil est plus simple danalyser ces donnes une fois quelles sont dans lentrept de donnes, il nen reste pas moins quil faut tout de mme remplir lentrept de donnes. Lextraction et le croisement des donnes diffrents systmes oprationnels puis le chargement dans lentrept de donnes, ont fait merger des outils ddis cette tche, avec des concepts mtiers qui leur sont propres : les outils dETL (Extract Transform Load). Si au dbut, les requtes danalyses portaient sur une base relationnelles (dites OLPT pour OnLine Transaction Processing), le concept de base multidimensionnelle (dites OLAP pour OnLine Analitical Processing) sest dmocratis fin des annes 90. Ce concept de bases de donnes offrait des performances trs largement suprieures aux bases OLPT pour rpondre des requtes danalyse. Ces bases OLAP se sont alors couples avantageusement avec lutilisation de lentrept de donnes. En effet, elles offraient la fois un environnement plus performant, mais permettaient galement aux utilisateurs finaux de bnficier dune interface simplifie daccs aux donnes, beaucoup plus intuitive dune base de donnes OLPT. On parle alors de mta-modle. Linformatique dcisionnelle est en gnral constitue de deux pans : La prparation et le stockage des donnes, soit dans sa forme la plus aboutie, la construction et lalimentation dun entrept de donnes, le Data Warehouse (DW). Cette activit est parfois nomme le Data Warehousing. Elle comprend la cration de bases de donnes normalises et dnormalise, ainsi que lalimentation de ces bases grce des outils ddis : les ETL (Extract, Transform and Load, soit en franais, Extraire, Transformer et Charger). Ce pan est la back end du systme dcisionnel. Les objectifs tant darchiver dans une mme entit les donnes mtiers des diffrentes chaines transactionnelles avec une profondeur dhistorique plus importante que dans leurs sources, de nettoyer ces donnes des lments inutiles ou incohrentes, didentifier et de crer des liens entre les diffrents rfrentiels utiliss dans lentreprise, de proposer un socle ddi aux oprations danalyse. La distribution des donnes aux utilisateurs mtier. Ce domaine est souvent dsign par lexpression spcifique dapplications de BI (Business Intelligence) (BI). Il couvre la cration des axes mtier, les dimensions, qui serviront daxes danalyse, le traitement des donnes en vue de crer de la valeur ajoute mtier, et la mise disposition des indicateurs mtier aux utilisateurs finaux. Cest le font end. Le mot cl est Business (mtier) : il sagit
4

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

de mettre la porte des experts mtier linformation cache dans les s ystmes informatiques.

4 Du transactionnel vers le dcisionnel


Avec lapparition de linformatique de gestion, les annes 60 ont vu naitre les premires bases de donnes. Des entreprises essayent de comprendre comment fonctionnent nos socits, et ce que linformatique peut leur apporter. Faire entrer les registres, les fichiers, les transactions dans la mmoire de lordinateur permet lentreprise daller plus vite, de grer plus de volume dactivit, daugmenter ses profits. En 1970, Edgar Frank CODD chercheur au sein dIBM, nonce 8 formes normales pour concevoir un systme transactionnel robuste. Il vient dinventer le SGBDR (Systme de Gestion de Base de Donnes Relationnelles, RDBMS en anglais) qui va rapidement devenir le socle indispensable de lOLPT (On Line Transaction Processing, soit en franais : processus de transaction en ligne). Toutes les oprations de gestion de lentreprise peuvent tre modlises comme des transactions : encaisser un article en magasin, ajouter un client au fichier, saisir un inventaire, enregistrer les congs dun salari etc. Une transaction est atomique : cest un ensemble indivisible. Une transaction est cohrente : elle modifie les objets de la base de donnes de telle manire quils soient dans un tat cohrent fonctionnellement sa fin. Une transaction est isole des autres : elle ne les voit pas et les autres ne le voient pas tant quelle est en cours. Enfin, une transaction est durable : ltat du systme sa fin est mmoris. Les systmes OLPT et les SGBDR ont littralement envahi lentreprise moderne qui ne peut fonctionner sans ERP (Enterprise Ressource Planning ou Progiciel de Gestion Intgr), CRM (Customer Relationship Management ou Gestion de la Relation Client), gestion des stocks, comptabilit, caisses lectroniques etc. Toutes ces applications remplissent des bases de donnes transactionnelles : des millions denregistrements, des milliards de transactions, dans des milliers de tables parfois lies les unes aux autres par un schma complexe, dit normalis, qui rpond parfaitement au besoin de gestion de lactivit, mais qui reste opaque pour les gestionnaires de lentreprise. Et si partir de cette mine dinformations, on essayait daugmenter notre connaissance sur le fonctionnement de lentreprise ? sur les actions qui ont t profitables ? sur les produits en forte croissance ? sur les gouts des clients ? sur la qualit de la production ? sur les niveaux de stock ? augmenter la connaissance pour amliorer le processus de prise de dcision : dcider mieux et plus vite. Le dcisionnel ou linformatique dcisionnelle est lensemble des rponses ces question. Il concentre les diffrentes techniques qui permettent une organisation de disposer de linformation juste et temps pour prendre des dcisions et mesurer leurs rsultats. Son principe de base est la modlisation OLAP (On Line Analytical Processing, soit en franais : processus danalyse en ligne), formalise de nouveau par Edgar Frank CODD, la fin de lanne 1993. Son objectif est dapporter aux utilisateurs finaux de linformatique linformation cache dans les systmes de lentreprise, dtre capable de distribuer les donnes aux utilisateur sans les obliger apprendre des langages de programmation,
5

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

dinterrogation ou mme quils aient programmer des tableurs . Elle repose sur une remise plat du schma normalis, la dnormalisation, cration daxe danalyse simple et orients mtier : les dimensions. Le second principe est la distribution ou la mise disposition de linformation qui doit tre accessible facilement un utilisateur non initi. Les donnes sont soit pousse vers lui soit retires par lui. Lanalyse est soit statique soit dynamique. Comme lOLPT a peu peu envahi notre univers, lOLAP est aisment accessible ou vient lutilisateur. Il faut progressivement son apparition dans notre quotidien : les clients qui ont command tel produit ont aussi command ceux l etc. Le troisime principe est de conserver les donnes produites par les transactions dans une base de donnes isole des systmes de production : lentrept ou le magasin de donnes. Il permet de conserver un historique plus important, de fusionner dans une mme unit, les donnes de diffrents systmes. Il constitue un socle pour raliser toutes les analyses souhaites sans gner et tre incommod par les milliers de transactions qui touchent le cur des systmes de gestion de lentreprise. Enfin, il est la source unique dinformation des diffrents dcideurs de lentreprise. Cela permet de mettre tout le monde daccord sur les chiffres, et dviter quune analyse soit lance autant de fois quil y a de personnes concernes par son rsultat.

5 Pourquoi a-ton besoin de linformatique dcisionnelle ?


En effet, sous le modle du taylorisme1 et jusque dans les 80-90, les organisations taient organises de manire pyramidale selon une approche verticale. Les dcisions taient prises au sommet de la pyramide et les ordres taient transmis de manire descendante et unilatrale tous les niveaux oprationnels. Dans ce type dorganisation, les dcideurs taient seulement les dirigeants de lorganisation. Lefficacit de ce type dorganisation reposait sur le fait que le march tait localis et il suffisait juste de produire pour vendre. Mais avec la complexit grandissante du march lie : A la mondialisation : les concurrents sont plus nombreux, plus innovants, mieux arms. A une modification des comportements dachats : lorganisation se doit dtre centre client. En effet, les produits sont de plus en plus personnaliss (on parle de one-to-one). Au fait que le monde va de plus en plus vite : le critre de dlai de livraison ou de disponibilit de linformation 7 jours sur 7, 24h sur 24 associ la mondialisation et la personnalisation du besoin client, dmultiplie la complexit de lcosystme de lorganisation.

Dautres approches ont t mises en uvre vers la fin des annes 90 et les annes 2000 avec lavnement du web. Ces approches ont fait en sorte que les cadres oprationnels sont devenus des dcideurs de terrain. En fait, dans les entreprises modernes la prise de dcision ne peut plus tre centrale, celle ci doit tre dlgue. De fait, tout cadre devient un dcideur de

Les explications sur ce modle sont donnes plus bas. On y donne sa structure, ses avantages et ses limites.

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

terrain et dispose dune autonomie relative. Cette explosion du nombre de dcideurs cause un gros problme : Linformatique, qui se voit dmultiplier le nombre de demandes de rapports et dextraction d donnes. La direction, qui a besoin doutils pour manager ses dcideurs : de la cohrence est ncessaire afin que les dcisions prises tous les niveaux de lentreprise, le soient en accord avec la stratgie dentreprise.

6 Taylorisme
6.1 dfinition
Le taylorisme est une mthode de travail qui tire son nom de son inventeur, l'ingnieur amricain Frederick Winslow Taylor (1856-1915). Apparue vers 1880, elle prconise l'organisation scientifique du travail au moyen d'une analyse dtaille des modes et techniques de production (gestes, rythmes, cadences, etc.) visant tablir the one best way , c'est--dire la meilleure faon de produire (dfinition, dlimitation et squenage des tches), de rmunrer (passage du salaire la tche au salaire horaire), et finalement d'obtenir des conditions propres fournir le rendement maximum. Taylor conduit en ralit une double clarification , car le travail d'organisation pour tre complet doit se dployer selon son point de vue sous deux dimensions complmentaires : La dimension verticale, pour tablir une stricte distinction entre d'une part les tches de conception du travail et de formation et d'autre part celles d'excution : Les ingnieurs pensent le travail et les ouvriers doivent l'excuter conformment aux instructions et la formation que les premiers leur fournissent . La dimension horizontale, pour dcomposer le processus de production d'un bien en une suite de tches simples confies chacune un ouvrier spcialis. L'objectif est d'identifier la manire la plus efficace de dcouper le travail. Doivent tre chargs de cette mission des ingnieurs qui de manire scientifique vont chronomtrer chaque mouvement lmentaire, liminer les temps inutiles, tudier les meilleurs outils pour raliser chaque mouvement, dfinir un temps optimal pour chaque stade de production, rdiger les recettes de fabrication.

6.2 Limites du Taylorisme


Les tches rptitives sont alinantes et posent parfois aux ouvriers des problmes de sant au travail ou d'attention (pouvant se traduire par une augmentation du taux de malfaon). Ds les annes 1960, les protestations se font plus vives et l l'absentisme augmente. Les ouvriers les plus cultivs, les moins pauvres ou les plus organiss sont lasss d'un mtier sans place pour l'initiative et la crativit ou se rvoltent.

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

6.3 Au-del du Taylorisme


Si l'organisation dite scientifique du travail, telle que pratique par Taylor et ses disciples est considre encore aujourd'hui comme utile dans certains cas de figure ou certaines activits, elle n'a plus du tout aujourd'hui le monopole de la rflexion en matire d'organisation du travail. Les mthodes venues du Japon en particulier, et dcrites par Kiyoshi Suzaki dans son ouvrage Le nouveau dfi industriel8 ont ouvert des perspectives nouvelles :

Le paradigme d'une production de masse organis selon un cadre strict, rptitif et continu, n'est qu'un mode d'organisation parmi d'autres, et ne garantit plus l'atteinte des meilleures performances. La division verticale du travail selon laquelle il y a des gens qui pensent et d'autres qui excutent reprsente une vritable mutilation sociale : d'une part elle enferme une foule de personnes dans un cadre dshumanis, d'autre part elle mprise la capacit d'valuation et de proposition qui existe chez n'importe quel participant une action ou processus dtermin. La division horizontale du travail, qui dlimite strictement les primtres d'intervention de chaque oprateur, ne parat plus pouvoir tre justifie :

dans le cadre d'activits de service ou de production qui impliquent une forte diffrenciation ds qu'un certain degr de flexibilit et d'adaptation est ncessaire pour comprendre et dlivrer le livrable attendu par le client.

7 Dcideur ?
Un dcideur est un individu qui a le pouvoir de dcision. Les dcideurs sont classs en trois catgories : Les dcideurs stratgiques2 (par exemple la direction gnrale dans une entreprise) : Ces dcideurs impulsent une politique, dfinissent les valeurs de lorganisation et donnent les moyens aux ambitions de lorganisation. Leur primtre de travail stend tous les services, tous les territoires et leur horizon de travail est le long terme. Les dcideurs tactiques (par exemple sur un axe horizontal on aura la direction financire, la direction des ventes, la direction des achats, la direction de la logistique, sur un axe vertical on aura un responsable de filiale, un responsable rgional etc.) : Ces dcideurs sont les relais des caps stratgiques, fixs par les dcideurs stratgiques. Ce sont eux qui fixent les objectifs de leur direction ou de leur territoire, qui laborent et choisissent la meilleure tactique3 pour atteindre ces objectifs. Leur primtre de travail stend un service ou un territoire. Leur horizon de travail est le moyen terme. Les dcideurs oprationnels (par exemple un commercial, un acheteur, un responsable de magasin, lagent de maitrise dune ligne de production ou dun atelier) : Ces dcideurs sont ceux qui prennent les dcisions chaud sur le terrain. Ils

2 3

Politique, art de diriger et de coordonnes des actions pour atteindre un objectif, manuvre Procd, moyen, art de mener une opration

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

font face la ralit du terrain, ils grent le quotidien. Leur primtre de travail est un service ou un territoire. Leur horizon de travail est le court terme. A ces trois catgories il faut ajouter les analystes. Lanalyste est charg de rcolter et de travailler linformation, fiabiliser les donnes, expliquer les rsultats. Leur rle est daider la prise de dcision des dcideurs. Les analystes varient suivant le type dorganisation (industrie, ngoce, service public etc.) et le service auquel ils appartiennent. Par exemple, les analystes de la direction financire sont des contrleurs de gestion, ceux du service marketing peuvent tre des statisticiens, dans une socit industrielle lanalyste peut tre aussi un qualiticien ou un gestionnaire des stocks etc. Dans beaucoup dentreprises, ce sont les secrtaires de direction qui rcoltent les chiffres et les consolident pour leur directeur de rattachement.

8 Les facteurs damlioration de la prise de dcision ?


Trois facteurs de prise de dcision existent : La connaissance et lanalyse du pass. La reprsentation du prsent. Lanticipation du futur

Les informations permettant dapprhender ces facteurs peuvent tre de deux natures diffrentes : Les informations quantitatives : ce sont toutes les donnes chiffres telles que les montants, quantits, pourcentages, dlais etc. Les informations qualitatives : ce sont toutes les informations non quantifiables telles quun commentaire accompagnant un rapport, des mcontentements, un sentiment, une directive, une nouvelle procdure etc.

Les dcideurs stratgiques ont besoin dune vision 360 de leur organisation. Sils ont besoin dune valuation rgulire de leur politique, ils travaillent surtout sur lanticipation de lavenir. Ils ont besoin de projections chiffres internes et externes lorganisation (donnes quantitatives), mais aussi de beaucoup de donnes qualitatives remontant du terrain : commentaires, comptes rendus. La conviction repose sur des chiffres, mais aussi sur lapprhension et la comprhension dun contexte et dun climat interne et externe lorganisation. Les dcideurs tactiques sont souvent es plus grands demandeurs doutils dcisionnels, car ils sont les intermdiaires entre des dcideurs stratgiques qui leur demandent des valuations de leur politique, et des dcideurs de terrain, parfois trs nombreux, quil faut cadrer et suivre. Ces dcideurs tactiques ont besoin dune parfaite comprhension du pass, travaillent peu avec le prsent, mais se doivent de travailler avec des prvisions pour recadrer leur politique. Les donnes chiffres sont bien videmment essentielles, encore faut-il que les diffrents systmes saccordent entre eux.
9

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Les dcideurs oprationnels travaillent surtout avec le prsent : il leur faut des donnes oprationnelles brutes instantanes. Lanalyse du pass relve surtout dun suivi oprationnel pour vrifier ladquation avec les objectifs. Lanticipation de lavenir relve de la fourniture de donnes oprationnelles en amont du service. Par exemple, sil y a beaucoup de prises de commandes lors dune journe, le responsable dun centre logistique sait que le lendemain ou la semaine suivante la charge de son service va augmenter. Pour les dcideurs tactiques et oprationnels, les informations qualitatives quant elles ne sont pas dans les systmes informatiques traditionnels : elles sont dans les mails et circulent de vive voix.

9 Architecture dcisionnelle
9.1 Gnralits
Cest une structuration dun systme dexploitation de donnes informatiques en termes de composants et dorganisation de ses fonctions. Cette architecture est la base des systmes informatiques dits systme dcisionnel . Depuis les premires requtes sur les sources de donnes OLPT consolides dans un tableur, les systmes dcisionnels se sont dvelopps et ont pris maintes formes Mais si la constitution dun Data WareHouse (DW) dentreprise est considre comme le must, cette solution est souvent surdimensionnes. Linformatique dcisionnelle a pour but de mettre linformation mtier cache dans les systmes oprationnels la porte des dcideurs, fussent-ils eux mme oprationnels. Le systme dcisionnel doit tre adapt au besoin des utilisateurs. Si le systme oprationnel est loin dtre surcharg, et que la structure de stockage des donnes est connue, crer un simple outil dextraction mtier peut suffire. Si les clients de cet outil sollicitent trop la base, cest souvent quils sont plusieurs demander la mme information au mme moment, juste avant une runion par exemple. Dans ce cas publier cette information sur lintranet, ou la pousser dans leur boite aux lettres, permet de diminuer cette sollicitation. Lorsque les extractions deviennent trop longues ou quelles provoquent un ralentissement de lactivit, une simple rplication synchrone ou asynchrone de la base oprationnelle de donnes peut servir de source aux analyses et supprimer la surcharge. Et certaines solutions prfrent embarquer avec le schma ddi au reporting automatiquement maintenu jour. Si cette rplication nest pas optimale car plusieurs bases de donnes sont concernes, la mise en place dun Operational Data Store (ODS) est envisageable. LODS est une base de donnes dans laquelle plusieurs bases oprationnelles sont rpliques. La rplication comporte une valeur ajoute : identification des liens entre les diffrentes sources, suppression des donnes aberrantes etc. Elle est utile pour le reporting oprationnel et sert de sources aux systmes dcisionnels. Au sein de lODS les donnes sont volatiles : elles ont la mme profondeur dhistorique que dans les systmes rpliqus. Si cet historique ne suffit pas aux yeux des dcideurs, ils peuvent lancer un projet de DW oprationnel. LODS est aussi souvent appel SAS de donnes et reprsente une structure intermdiaire qui stocke les donnes issues des systmes oprationnels dans un format proche de ces derniers. Cest un stockage tampon avant lintgration dans un DataWareHouse
10

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

proprement dit. LODS assure lisolation entre le monde oprationnel (performance) et le monde dcisionnel (exploitabilit) et permet de reconstituer tout ou une partie du DataWareHouse partir de donnes lmentaire (par exemple sur de nouveaux critres dagrgation etc.). Lentrept de donnes oprationnel est proche de lODS, mais la profondeur dhistorique y est plus consquente. Le DW oprationnel isole les systmes sources des traitements analytiques, mais du fait de sa structure proche de celle des systmes OLPT il napporte pas de rponse la complexit des lectures. Une couche applicative, parfois nomme univers, peut suffire masquer cette complexit au travers dobjets mtier familiers aux utilisateurs finaux. Mais pour certains utilisateurs finaux, les volumes de donnes traiter sont tels quune couche logique mtier seule ne suffit pas. Pour ceux-l, il est possible de crer un Data Mart (DM), ou un cube, voire les deux. Le DM est un ensemble de tables de donnes organises dans une structure qui favorise le reporting analytique, la lecture, et sur un historique plus important que celui conserv en production. Le DM est rellement orient vers lutilisateur final et les donnes et les axes danalyses sont prpars selon son besoin. Le cube est trs proche du DM, mais il contient en plus des donnes pr-agrges sur les divers niveaux des axes danalyses. Ces agrgats constitus lavance permettent de rduire considrablement les temps de rponse aux demandes des utilisateurs. Il existe plusieurs types dagrgat, le plus courant tant la somme. Toute donne qui peut tre somme sur nimporte quel axe danalyse tirera un grand avantage du cube, partir du moment o vous en avez plusieurs millions de lignes. Le cube peut tre construit partir du DM ou directement partir dune autre source. La runion dans une mme base de plusieurs DM prend souvent le nom de DW dcisionnel (Data Warehouse dcisionnel). Enfin certains appellent la runion de plusieurs cubes un hypercube.

9.2 Data Mart (DM) et Data Warehouse (DW)


Une des premires choses raliser quand un projet BI est lance, est de clarifier le sens des termes DM et DW. Les dfinitions de ces deux expressions donnent lieu dincessants dbats. A lorigine des confusions de vocabulaires, il y a deux grands maitres de la BI dont les thories sont opposes. Pour Bill Inmon, le DW consolide les donnes dtailles de toute lentreprise. Les DM sont ensuite construits selon les demandes des utilisateurs mtier partir de cette source complte. Pour Ralph Kimball, le DW est lensemble des DM ; chaque nouveau Data Mart vient enrichir le DW.

9.3 Sardines et baleines au sujet des DM et DW


Ces deux coles nont jamais trouv de point dentente, si ce nest la notion de DM. Lorsque Kimball dit le DW nest rien dautre que lunion de tous les DW , Inmon lui rpond que : Vous avez beau pcher toutes les sardines de locan, et les rassembler, vous nobtiendra jamais une baleine etc. .

11

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Lapproche Inmon ncessite de crer en premier ce fameux DW, pour ensuite pouvoir dlivrer des DM. Linconvnient est que la cration du DW est un travail consquent, la livraison du premier DM se fera donc attendre. Lavantage est quune fois le DW complet cre, nimporte quel DM peut tre rapidement construit, y compris sur des besoins qui nont pas t exprims au dmarrage du projet. Lapproche Kimball permet de rduire la dure globale du projet dcisionnel, donc de diminuer son cot. Les utilisateurs voient plus rapidement arriver les premiers tableaux. Par contre, les donnes non intgres aux DM ne sont pas historises dans lentrept.

9.4 Data Mart


Un DM est un ensemble de donnes isol des systmes oprationnels, ddi laide la prise de dcision, et son primtre fonctionnel est gnralement focalis sur un point prcis de lactivit de lentreprise. Les donnes du DM sont entre autres exprimes sur un axe temporel, avec une profondeur dfinie. Par exemple lexpression des ventes aux grossistes en Europe par jour pour les trois dernires annes est un DM. Il intressera dautant plus les utilisateurs sil contient des informations sur les produits vendus, les promotions accordes, les rgions des clients etc. Autre exemple de DM, les quantits de SMS passs le mois dernier heure par heure. Comme le DM est cr pour tre lu par des outils de dcision, les donnes y sont structures dune manire adapte la lecture. Les crateurs du systme OLPT normalisent les tables. Ceux des systmes dcisionnels effectuent lopration inverse : la dnormalisation. Le DM peut consolider plusieurs sources de donnes OLPT pour ce faire les donnes sont pralablement nettoyes et rapproches.

9.5 Data Warehouse


Sil y a gnralement un consensus autour du DM, les choses se compliquent avec le DM. Il existe des DW oprationnels et des DW dcisionnels. Le primtres du DW dfinit galement deux catgorie : le DW dentreprise et le DW dapplication etc. Le DW oprationnel est normalis logiquement comme les applications sources dont il conserve lhistorique des donnes. Il est prcieux comme source de construction des DM. Le DW dcisionnel est dnormalis. Cest un ensemble cohrent de DM. Le DW dentreprise a pour primtre lensemble des oprations de lentreprise : les activits commerciales, les ressources humaines, la comptabilit, la gestion du parc automobile etc. Grer un DW dentreprise na pas de fin, car lentreprise volue. Le DW dapplication na quune source de donnes, par exemple un ERP. Plus gnralement, de nombreux DW possdent un primtre fonctionnel limit soit une application, soit une activit, soit une entit juridique etc.

12

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

10 Mthodologie de conception
10.1 La dmarche itrative
Construire un DW dentreprise et les applications qui vont avec est un projet colossal. Il est souvent conseill de le dcouper en itrations par domaine fonctionnel. Cette dmarche a plusieurs avantages : dcouper le projet en lots de plus petite taille, satisfaire au plus tt une partie des utilisateurs finaux, avoir une monte en charge progressive du systme dcisionnel.

10.2 Les tapes de la conception du Data Mart


Chaque itration dbute par la modlisation du DM. Cette opration peut tre mene en suivant les tapes suivantes. Choisir le processus mtier analyser :

Il faut commercer par choisir le primtre fonctionnel du DM crer. Certaines informations sont plus vitales que dautres pour lentreprise ou intressent un plus grand nombre dutilisateurs finaux. Certains utilisateurs finaux sont plus stratgiques que dautres : il est important de cibler leurs besoins ds la premire itration. Par exemple, le DM sur les commandes clients. Dfinir le grain du DM :

Le grain du DM est le niveau de dtail des donnes archives dans la table de faits. Dans un projet de DW dcisionnel, en labsence de DW oprationnel, il est conseill de choisir le niveau atomique des faits du systme oprationnel source. Par exemple, le DM des commandes clients contient les lignes de commandes. Dfinir les dimensions :

Les axes danalyses utiles aux dcideurs sont dfinis. Pour chaque dimension, les attributs et les hirarchies sont lists. Il convient de distinguer les attributs utiliss pour lanalyse des informations, comme ladresse. Pour lexemple des commandes client, les dimensions suivantes sont indispensables pour mener une analyse : le calendrier organis en deux hirarchies Jour Mois Anne et Jour - Semaine Anne, les clients contenant une hirarchie gographique Ville Rgion Pays et les produits par sous catgories et catgories. Comme chaque produit peut avoir plusieurs fournisseurs, une dimension fournisseur est galement demande. Dfinir les mesures des faits :

Les mesures des faits enregistrs dans la table des faits sont dfinies. Chaque ligne de commande client a une quantit et un montant. Les informations retenues pour linstant ne permettent pas de calculer un montant moyen de commande. Il faut ajouter une mesure nombre distinct de commande. Pour cela une colonne identifiant la commande doit tre ajoute la table de faits. Dfinir la frquence et le mode dalimentation :
13

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Quelle est la fraicheur des donnes attendues par les utilisateurs. Est-ce du temps rel, les donnes de la veille ? Et quelles sont les possibilits pour alimenter votre schma en toile partir des sources ? Une alimentation diffrentielle est-elle possible ? Dfinir la profondeur dhistorique en ligne :

La profondeur dhistorique se mesure en nombre dunits de temps : nombre dannes, nombre de mois etc. Il est important de la dfinir avec les utilisateurs tt dans le processus afin destimer la volumtrie des donnes traites.

11 Modlisation OLAP
Le DM est construit en dnormalisant les donnes OLPT pour obtenir une structure lisible et proche du mtier.

11.1 Modlisation en toile et en flocon


Le modle de rfrence pour les DM est le modle dit en toile. Le cur du schma est la table de faits. Les faits sont les oprations analyser qui sont enregistres par els transactions des systmes OLPT et qui sont soit quantifiables numriquement, soit dnombrables, soit les deux. Chaque enregistrement de la table de faits reprsente un fait. La finalit du DM est de permettre lanalyse des faits au travers daxes danalyse, nomms dimensions. Dans le schma en toile, chaque dimension se rduit une table et chaque enregistrement de la table de faits est li chaque dimension. Prenons lexemple des commandes chez un marchand. Pour chaque ligne de commande prsente dans le systme OLPT, il est possible de dfinir le client qui a pass commande, la date de la commande, le produit ainsi que le fournisseur du produit. Et pour chaque ligne, le montant et la quantit sont connus. La table de faits contient ces six informations : le client, la date, le produit, le fournisseur, la quantit et le montant. La dimension client contient les informations utiles du client pour les analyses.

14

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

La caractristique du schma en toile, le fait daplatir chaque dimension dans une table unique est le rsultat de la dnormalisation. Dans le systme OLPT, la dimension fait lobjet dune multitude de tables normalises. Par exemple, le produit est modlis, au minimum, avec trois tables.

La modlisation OLPT normalise est conue pour lcriture, la modlisation en toile est conue pour la lecture. Seulement le DM doit tre cr et mis jour. Lorsquune souscatgorie A de produits est dplace sous une nouvelle catgorie dans le systme oprationnel, la mise jour du schma en toile doit tre effectue sur tous les produits de la sous-catgorie A. Dans le cas dun DM priodiquement mis jour, la dnormalisation nest pas sans poser de problmes. Un schma semi-dnormalis est souvent prfr. Il porte le nom de schma en flocon.

15

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

La quantit et le montant sont les mesures de faits. Chaque ligne de commande reprsentant un fait, il est possible de compter les lignes de commande : le nombre de lignes de commande est galement une mesure.

11.2 Dimension
La dimension est la fondation du systme dcisionnel. Il convient dapporter le plus grand soin sa conception. La dimension stocke les attributs qui dcrivent les faits.
11.2.1 Dimensions classiques 11.2.2 Dimensions fourre-tout

11.2.3 Attributs

Une dimension est constitue dattributs. Le nom du client, son adresse, sa ville, son dpartement, sa tranche dge sont les attributs de la dimension client. Quand un attribut est le pre dun autre, comme pour le dpartement et la ville, le terme de hirarchie est utilis. Une hirarchie peut tre constitue de plus de 2 attributs. Cest le cas de la hirarchie calendrier : Anne, Semestre, Trimestre, Mois, Jour. Enfin parmi les attributs de la

16

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

dimension, il faut bien distinguer ceux qui serviront lanalyse, comme la ville, le dpartement, de ceux qui sont uniquement des informations comme ladresse.
11.2.4 Cls

La dimension contient au minimum une cl commune avec le systme OLPT. La cl fonctionnelle ou oprationnelle est utilise pour mettre jour la dimension. Elle identifie de manire unique chaque ligne de la dimension dans la source et dans la dimension. Une pratique courante veut quune autre cl primaire propre lenvironnement dcisionnel soit substitue cette cl fonctionnelle. Cette cl est souvent gnre par une squence du moteur de base de donnes : elle na aucun sens fonctionnel. Elle est dsigne comme cl technique, cl de substitution ou surrogate key. Elle demeure inconnue des utilisateurs du DM. Parmi les nombreux intrts de la cl de substitution, retenez : Ces cls sont des nombres entiers donc de petite taille. Les jointures entre les tables de faits et les dimensions sen trouvent considrablement optimises. Lorsquune dimension possde un attribut volutif, cette cl permet de suivre cette volution. Par exemple, dans la dimension des clients, un client peut dmnager. Ses premires commandes doivent rester lies sa ville dorigine alors que ses nouvelles commandes seront lies sa nouvelle ville. Le client doit tre scind en deux clients, chacun avec une cl propre, forcment diffrente de la cl fonctionnelle : la cl de substitution. La cl de substitution est indpendante de la source donc ne varie pas si la source change. Lorsquil y a plusieurs sources pour la mme dimension, ces sources peuvent avoir des cls communes pour des enregistrements diffrents.

La cl de substitution a galement des avantages : Elle est souvent accompagne dun index supplmentaire. Le modle est plus complexe et les requtes sont galement plus complexes et parfois moins performantes.

La cl de substitution est normalement une squence. Cependant, il est admis dans certains cas que la cl de substitution peut tre calcule, ou le rsultat dune conversion partir de la cl fonctionnelle. Par exemple, dans la dimension calendrier, la cl fonctionnelle est la date, la cl technique retenue pourrait tre une valeur entire au format AAAAMMJJ.
11.2.5 Variation des dimensions

La dimension est constitue dattributs. Les attributs peuvent voluer dans le temps. La date de naissance du client fait lobjet dune correction, le client dmnage, ces informations doivent tre reportes dans le systme dcisionnel. Pour chaque attribut, il faut dterminer la frquence dvolution et la manire dont les analyses doivent restituer cette volution : lorsquun client dmnage de Brest Nice, si lattribut ville de la dimension client est simplement mis jour, tous les faits antrieurs se retrouvent brutalement rattachs la ville de Nice. Ce nest peut-tre pas ce que souhaitent les utilisateurs mtier. Lors de la modification dun attribut, le systme dcisionnel peut :
17

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Ne pas en tenir compte, lignorer. Les faits seront alors automatiquement attribus la premire valeur de lattribut. Tracer la modification de telle sorte que les faits soient comptabiliss sur la valeur juste de lattribut.

Dans ce cas, il faut sintresser la frquence des modifications de lattribut : Les modifications sont rares : on parle de dimensions variation lente (Slow Changing Dimension), la solution est de crer chaque occurrence un nouvel enregistrement dans la dimension qui va mmoriser la modification. Les nouveaux faits seront rattachs ce nouvel enregistrement. Lattribut est dit de type 2. Les modifications sont courantes : il convient de crer une ou plusieurs nouvelles dimensions avec les attributs concerns et de modliser le lien directement dans la table de faits. Ecraser lancienne valeur de lattribut, pour ne conserver que la dernire, ou la valeur courante. Les faits seront alors comptabiliss sur la dernire valeur prise par lattribut. Peu importe la frquence des modifications, on parle dattributs de type 1.

Lvolution dun attribut de type 1 ncessite une simple mise jour de la dimension . Lvolution dun attribut de type 2 est plus complique. Considrons le client suivant dans la dimension Client : Cl Client 4556 Cl fonctionnelle QJ45 Nom Jean Ville Quimper Tranche dge 30-60 ans

Ce client a pass plusieurs commandes enregistres dans la table de faits des Commandes : Cl Client 4556 4556 Date 10/10/2005 05/01/2009 Cl Produit 15865 25424 Qt 2 2 Montant 1.80 36.40

Au cours de sa dernire commande, le client signale quil a dmnag Toulouse. Un nouveau client est cr dans la dimension partir de lancien. Cl Client 4556 9755 Cl fonct. QJ45 QJ45 Nom Jean Jean Ville Quimper Toulouse Tranche dge 30-60 ans 30-60 ans Validit dbut 10/10/2005 03/04/2010 Validit fin 02/04/2010 31/12/9999

Et sa nouvelle commande est enregistre dans la table de faits : Cl Client 4556 4556 9755 Date 10/10/2005 05/01/2009 03/04/2010 Cl Produit 15865 25424 5468 Qt 2 2 3 Montant 1.80 36.40 33.00
18

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Pour grer les attributs de type 2, il est ncessaire dajouter une ou plusieurs colonnes ddies dans la table de dimension. Dans lexemple, ValiditeDebut et ValiditeFin dterminent lintervalle de temps durant lequel lenregistrement est valide. Il est facile de trouver lenregistrement courant en recherchant la cl fonctionnelle et lintervalle de temps comprenant la date du jour.

11.3 Faits, agrgation et cubes


Le niveau des faits dans le systme source oprationnel est appel le niveau atomique ou granulaire. Par exemple, dans la table de faits des commandes prsentes plus haut, le niveau des faits est le niveau atomique : la ligne de commande. Une table de faits nest pas ncessairement au niveau atomique, elle peut tre cre un niveau dj agrg.

Le schma en toile permet de lire des faits selon des axes danalyse, dans lobjectif des agrgats au niveau de certains attributs, notamment ceux qui constituent des hirarchies. Un agrgat est une valeur obtenue par la combinaison de plusieurs valeurs selon un oprateur mathmatique. Dans le cas dune table de faits atomique qui contient des milliards de lignes, calculer une mesure agrge, par exemple le CA (Chiffre daffaires) command au premier trimestre 2010 par les clients de la Seine-Maritime, peut prendre un certain temps, mme si ce type schma est optimis pour la lecture, et que le temps ncessaire au mme calcul sur le systme OLPT serait beaucoup plus long. Pour calculer le CA, il suffit de parcourir les dizaines de milliers de lignes de faits correspondants aux journes des trois premiers mois de 2010 pour tous les clients ayant dclar leur adresse de facturation en Seine-Maritime, et de faire le cumul des montants etc. Si le systme avait pr-calcul les CA mensuels des villes, le mme calcul serait beaucoup plus rapide. Un cube est schma en toile ou en flocon dans lequel un certain nombre dagrgats ont t pr-calculs. Le cube offre aussi une couche mtier au-dessus des donnes stockes dans le schma en toile.
19

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Le cube est particulirement performant dans certaines conditions. Tout dabord, il doit tre utilis lorsque le besoin est dextraire, de lire des rsultats agrgs et non des faits dtaills atomiques, comme les lignes de factures. Ensuite lapport du cube dpend des mesures mtier analyser. Pour chaque mesure un oprateur dagrgat est dfinir par le mtier : par exemple pour le CA, lagrgat peut tre le minimum, pour un taux aucun agrgat ne convient, pour un niveau de stock la somme est adapte sauf sur la dimension calendrier. Cela na pas de sens dadditionner le niveau de stock de mars avec celui davril . Le cube est prconis pour des mesures de type somme ou dnombrement (nombre denregistrements) sur lensemble des axes danalyse. Un cube peut bien sur avoir plus de 3 dimensions : le terme de base de donnes multidimensionnelle est galement employ.

11.4 Analyse multidimensionnelle


Elle consiste modliser des donnes selon plusieurs axes. Voici lexemple le plus classique : le calcul du chiffre daffaires par catgorie de client sur une gamme de produits donne qui combine trois axes (le chiffre ralis, la catgorie de clients et la ligne de produits). De nombreux autres axes supplmentaires peuvent tre dfinis : zone gographique ou quipe commerciale en charge des oprations par exemple. Le cube OLAP (Onligne Analytical Processing) dsigne la technologie analytique qui sapplique ce modle de reprsentation.

11.5 Base de donnes multidimensionnelle


Elle stocke les donnes de manire permettre une recherche rapide dindicateurs en fonction de plusieurs axes danalyse. Dans cette base de donnes, linformation est modlise sous forme de cubes permettant doptimiser laccs aux informations suivant des requtes non prvues lors de la cration de la base.

11.6 Base de production


Dans un contexte dexploitation de donnes, on appelle souvent base de production (ou systmes oprationnels) les bases de donnes utilises par les applications non dcisionnelles de lentreprise. On y trouve ainsi les systmes comptables, les bases de gestion commerciales, les systmes de paie, etc.

11.7 Dimension
Cest un axe danalyse, chaque information dans la base de donnes dcisionnelle est lie une ou plusieurs dimensions. Pra exemple, une dimension temps peut prendre en compte lanne, le semestre, le trimestre, le mois, la semaine ; une dimension gographie peut inclure le pays, la rgion, la ville.

11.8 Drill down, drill up


Drill down dsigne le processus dexploration qui part dune donne agrge vers une donne plus dtaille. Par exemple, un utilisateur peut observer un chiffre daffaires par pays, puis procder une analyse du chiffre daffaires par rgion, puis par ville. Le drill up est lopration inverse qui part du dtail vers les donnes agrges.
20

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

11.9 Indicateur
Instrument de mesure issu de plusieurs sources dtermines par lentreprise pour tudier les volutions dun vnement par rapport des objectifs fixs.

11.10 Reporting
Extraction de donnes en vue dune reprsentation synthtique sous forme de rapport, tableau de bord.

11.11 Cube multidimensionnelle


Structure de donnes plusieurs dimensions permettant de visualiser les mesures (axes danalyse) extraites dune base de donnes multidimensionnelles.

12 La solution Microsoft BI 2008


Loffre BI ne Microsoft est structure autour de trois promesses du dcisionnel : amliorer laccs et la qualit des donnes : on y retrouve tous les outils destins concevoir un entrept de donnes bien modlis, performant et contenant des donnes fiabilises. Gagner en finesse danalyse et de comprhension de donnes : on y retrouve tous les outils qui permettent aux utilisateurs finaux danalyser et de naviguer dans leurs donnes en toute autonomie, sans avoir recourir au service informatique. Grer les performances de lorganisation et de ses politiques : on y retrouve tous les outils destins partager, communiquer et organiser les performances de lorganisation tels que les outils de tableaux de bord et les outils dintranet.

Sur la forme, loffre Microsoft BI est structure au sein de trois licences. Chacune de ces licences contient de nombreux outils usage dcisionnel correspondant aux tches nonces plus haut : Sql Server 2008 R2: Integration Services, Master Data Services, Analysis Services, Reporting Services. Office 2010 : Excel 2010, PowerPivot SharePoint Server 2010 : Excel Services, PerfomancePoint Services.

12.1 SQL Server 2008 R2


Si lorigine, la licence SQL Server correspond uniquement une base de donnes relationnelle (OLPT), assez rapidement la licence stoffe pour couvrir lensemble des outils ddis au stockage et au traitement de donnes. Dans le langage courant, SQL server voque la base de donnes relationnelle. Il existe nanmoins dautres outils ou services couverts par cette mme licence, dont la plupart trouve un usage dans le cadre de la mise en uvre dun systme dcisionnel. Pour btir notre systme daide la dcision, nous aurons besoin de :

21

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

SQL Server Integration Services : lETL. SQL Server Master Data Services : le gestionnaire de donnes de rfrence. SQL Server Analysis Services : la base de donnes multidimensionnelle (OLAP) et le mtamodle SQL Server Reporting Services : loutil de reporting oprationnel et de reporting de masse .

Le terme reporting dsigne une famille d'outils de Business intelligence destins assurer la ralisation, la publication et la diffusion de rapports d'activit selon un format prdtermin. Ils sont essentiellement destins faciliter la communication de rsultats chiffrs ou d'un suivi d'avancement.

12.2 SQL Server Integration Services (SSIS) : lETL.


Une des grandes valeurs ajoutes du dcisionnel est laccs confortable aux donnes contenues dans lentrept de donnes, il nen reste pas moins que la majeure partie dun projet dcisionnel se situe dans lalimentation de lentrept de donnes. En effet, lalimentation dun entrept de donnes reprsente gnralement prs de 80% de la charge du projet. De prime bord, beaucoup de services informatiques qui dcouvrent le dcisionnel ont largement tendance sous-estimer le temps ncessaire rcuprer linformation, mais aussi la croiser. SSIS est lETL de Microsoft et il permet de dcouper un flux dalimentation en une multitude de petites tches de transformation de donnes distinctes et ordonnances. SSIS permet aussi de suivre trs prcisment le droulement du flux de donnes. Entre chaque tche de transformation de donnes, il est possible de visualiser les valeurs, ainsi que les transformations qui leur ont t appliques.

12.3 SQL Server Master Data Services (SSMDS): MDM, Master Data Management
MDM est un systme de gestion des donnes de rfrence. Cest une pratique durbanisation des systmes dinformation qui contribue sensiblement la qualit de linformation dans les entreprises. Les donnes de rfrence sont les donnes transversales de lentreprise. Ce sont les lments cls qui dcrivent et dfinissent un domaine de lentreprise : clients, produits, fournisseurs, sites, organisations, services, employs. Dans une organisation efficiente, ces donnes de rfrences sont la source de vos principales tables de dimensions : client, produit, fournisseur, organisation etc. Le MDM regroupe les pratiques et les outils permettant de rassembler, grer et partager les donnes pour lesquelles il est primordial quil ne subsiste aucune erreur. Le rle du MDM est de fournir aux diffrents systmes des donnes de rfrence exactes, compltes et actualises. Le MDM cre une ressource centralise, indpendante des applications et des processus mtier, qui gre le cycle de vie des donnes de rfrence. Avec la mise en place dune telle pratique impliquant les services fonctionnels et le service informatique, la cohrence des donnes dans les divers systmes de transactions et danalyses est ainsi

22

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

garantie. Ainsi, les problmes de qualit des donnes peuvent tre rsolus de manire proactive, plutt quaprs coup, dans lentrept de donnes.

12.4 SQL Server Analysis Services (SSAS)


SSAS est la base multidimensionnelle (OLAP) de la licence SQL Server et de data mining. Elle est souvent prsente comme tant la solution de cubes de Microsoft. Avec laugmentation des volumes des donnes, les bases de donnes OLAP simposent progressivement comme des solutions incontournables pour reprsenter les donnes contenues dans lentrept de donnes. A loppos des bases OLPT, plus les requtes utilisateurs portent sur les donnes globales et agrges, plus la rponse est rapide. A linverse, plus la requte porte sur les donnes de dtail, moins la requte est performante. Il ne faut donc pas considrer Analysis Services (AS) comme une base de donnes permettant des extractions de donnes. Les modles AS doivent tre conus pour fournir la finalit de lanalyse attendue par lutilisateur. Les donnes dtailles de lentrept de donnes sont contenues dans la base relationnelle, mais cest AS qui les agrge et les prsente aux utilisateurs finaux. Etant la partie merge de lentrept de donnes, il offre ainsi la possibilit de grer vritablement de trs grands volumes de donnes avec des temps de rponse de lordre de la seconde. Les rsultats sont souvent assez bluffants pour les utilisateurs habitus travailler avec des bases de donnes OLPT. SSAS ne craint pas de gros volumes de donnes, il est taill pour cela. Attention toutefois conserver une modlisation appropris, car la performance de son moteur OLAP est directement lie la modlisation de la base de donnes sous-jacente. Les donnes de lentrept de donnes sont manipules directement et exclusivement par le biais dAS, celui-ci offre aux utilisateurs une interface simplifie et intuitive daccs aux donnes. Dans les faits, les utilisateurs naccdent pas directement AS. Ce sont les outils de restitution qui proposent et consomment les donnes du cube. Il est donc indispensable lorsque vous mettez en place SSAS de proposer en parallle aux utilisateurs des outils de restitution adapts (par exemple Excel).
12.4.1 OLAP

Le serveur OLAP de SSAS4 est une brique fondamentale du systme dcisionnel. Il assume les rles suivants : o Il runit dans un mme modle des donnes htrognes. Larchitecture classique veut que toutes les donnes soient dj agrges dans le DW, mais ce nest pas toujours le cas et la construction dun DW est une tche lourde et couteuse. SSAS permet de lire de nombreuses sources de donnes. Des outils comme ceux de SSIS permettent galement dcrire des donnes directement dans la base SSAS. o Il offre des objets mtier aux utilisateurs pour consulter le contenu des donnes. Il propose un systme de navigation dans les donnes sur les axes mtier : linterrogation dynamique des rsultats est trs intuitive.

Le critre dterminant de choix dun SSAS doit tre le besoin dagrgats. Cest lorsque les utilisateurs interrogent 90% des donnes agrges que le moteur SSAS est intressant. Si les utilisateurs ne demandent que de la donne atomique, SSAS narrivera jama is galer les performances de SQL Server.
4

23

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

o Il calcule et stocke des agrgations. Cette fonctionnalit permet aux utilisateurs daccder des rsultats hebdomadaires, mensuels, trimestriels avec les mmes temps de rponse que sils interrogent les rsultats quotidiens. o Il centralise une intelligence mtier au travers des dimensions, mais aussi des formules de calcul et des indicateurs de performances cls (KPI). Une base de donnes OLAP peut comprendre comme une base de donnes SQL Server plusieurs Data Mart (DM). Les dimensions sont lies aux DM avec plusieurs types de relations offrant ainsi une souplesse de modlisation de la base multidimensionnelle.
12.4.2 OLAP temps rel5

Dans les entreprises le besoin de tableau de bord de gestion en temps rel est de plus en plus fort, pour rassortir au plus juste, prendre les dcisions le plus rapidement possible. La possibilit de se passer dun magasin de donnes et de son alimentation ETL permet denvisager des scnarios de BI quasi temps rel, puisque le moteur OLAP est directement branch sur la source avec la technologie de mise en cache proactive (proactive caching). SQL Server 2008 R2 propose une nouvelle technologie pour se rapprocher encore plus du temps rel, StreamInsight. StreamInsight est ddie lanalyse temps rel dun flux de donnes avant mme quils aient t traits par le reste du SI. (Faudra penser ajouter MOLAP et HOLAP)
12.4.3 Data mining6

Le Data Mining sadresse aux statisticiens. Sa prsence a un sens dans une solution BI car il prend en entre les donnes de lentreprise, si possible dj prpares, et donne en sortie des informations utiles pour amliorer les processus de lentreprise. Le moteur de Data Mining SSAS utilise des algorithmes reconnus pour identifier dans vos donnes des groupes homognes (segmentation automatique) ou prdire une donne (analyse prdictive). La segmentation automatique permet de regrouper les membres des dimensions, par exemple les clients ou les produits, afin de faciliter par la suite leur gestion, car le groupe identifie un comportement homogne. De plus, cette segmentation est utilisable dans le cube comme un axe danalyse. Lanalyse prdictive est utilise pour prdire une donne manquante. Par exemple, quels sont les prospects qui potentiellement achteront tel produit ? Combien de produits seront vendus le mois prochain ? Une force du moteur de data mining de SSAS est de pouvoir utiliser la puissance du moteur OLAP pour lire les donnes.
12.4.4 PowerPivot

La grande nouveaut de SQL Server 2008 R2 est la capacit ajoute au moteur OLAP SSAS de grer le OLAP en mmoire (In Memory OLAP). Cette technologie prsente des

Plus les volumes de donnes traits seront faibles et plus le modle sera proche du temps rel. Le systme de partitionnement permet de slectionner une partition en temps rel et les autres en normal. 6 Coupl avec le composant SSIS Transformation dextraction de terme, le data mining permet dimplmenter une solution de text mining

24

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

performances sidrantes sans commune mesure avec le MOLAP (Multidimensionnal OLAP), mais ne permet de travailler sur des volumes de donnes aussi importants. Si cette nouveaut est intgre la technologie SSAS, sous le nom de VertiPaq, son emploi est brid lutilisation du Powerpivot. Lanctre du Powerpivot est le tableau crois dynamique dans Excel (PivotTable). Powerpivot permet de grer des volumes de donnes importants allant jusqu des centaines de millions de lignes de faits.
12.4.5 SQL Server Reporting Services (SSRS)

Enfin, la suite SQL Server dispose dun serveur de rapports permettant dafficher et de diffuser des informations. SSRS est avant tout un produit destin un public dinformaticiens. Sa parfaite intgration avec lenvironnement .net, sa capacit de mise en page, ses possibilits de diffusion en font un excellent outil de reporting oprationnel. SSRS est loutil parfait pour mettre en page une facture, un bon de livraison, un suivi de commande, un inventaire, un catalogue produit, la liste des clients relancer etc. Tous les tats, dont une application de gestion a besoin, sont parfaitement ralisables avec SSRS. SSRS nest pas un outil danalyse destin des utilisateurs finaux. En revanche, il a totalement sa place dans la diffusion de rapports de masse, cest--dire dans les rapports dcisionnels destins de nombreux dcideurs oprationnels. Par exemple, la diffusion par mail au format PDF, du rapport mensuel de suivi des ventes tous les commerciaux de lentreprise.
12.4.6 Office 2010

Microsoft Excel (ME) est surement et de loin, le premier outil dcisionnel dans le monde et ce, depuis de nombreuses annes. Il rpond aux besoins danalyse de tous les services, de toutes les organisations et sert toutes les tches : stockage de donnes, traitement de linformation et restitution. Si ME seul rpond assez bien des problmatique sectorielles (pour le service Marketing ou pour le service contrle de gestion uniquement), il atteint toutefois ses limites lorsque : Il sagit de croiser les donnes de rfrence de plusieurs applications : les fichiers Excel deviennent alors de vritables usines GAZ trs difficiles maintenir. Il sagit de rduire les dlais de production des tableaux de bord : il est difficile dautomatiser le traitement de donnes dans Excel. On peut toujours y arriver par le biais de macro, mais on augmente alors sensiblement la difficult de maintenance des rapports. Les donnes traiter deviennent trop importantes : Excel 2003 gre quelque 65000 lignes, Excel 2007 jusqu un peu plus de 1 million. Mais les systmes produisent toujours plus de donnes et les demandes des dcideurs ont aussi tendance se complexifier. Il sagit de scurit : un fichier Excel diffus par mail contient lintgralit des donnes dtailles quil affiche et ses donnes sont potentiellement modifiables. Il sagit dautomatiser la diffusion des rapports : les fichiers sont de plus en plus volumineux. La limite admise par le serveur de messagerie est parfois atteinte.
25

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Pour toutes ces raisons et bien dautres encore, Excel a besoin de sadosser un systme dcisionnel. Au sein de la solution BI de Microsoft, Excel est loutil danalyse des utilisateurs finaux. Toutefois, Excel nest utilis que pour accder, manipuler et naviguer dans les donnes dAnalysis Services. Les donnes ne sont plus contenues directement dans le fichier, mais sur un serveur. Et ces donnes ne sont plus traites directement par les utilisateurs fonctionnels mais par le service informatique par le biais dETL. Excel conserve toutefois toutes ses capacits de reprsentation graphique, de mise en page et de personnalisation laide de formules.
12.4.7 MicroSoft Office Sharepoint WorskSpace 2010

Accdez facilement vos ressources et partagez-les en ligne avec vos collaborateurs grce Microsoft Office SharePoint Workspace 2010. Vos fichiers, vos listes de tches, vos calendriers, vos discussions, etc. sont stocks sur un serveur SharePoint et accessibles partir de n'importe quel poste de travail via un simple navigateur Internet. Chaque modification effectue sur un document est automatiquement synchronise, mme lorsque vous tes dconnect du serveur - les modifications sont alors mises en cache en attendant la reconnexion. Microsoft Office SharePoint Workspace 2010 permet, notamment, de crer des espaces de travail pour partager vos documents, travaill simultanment sur un mme fichier avec des collaborateurs situs l'autre bout du monde et de trouver vos documents en un clic grce l'intgration de Windows Search !
12.4.8 Sharepoint 2010

Sharepoint est une plate forme de services de portail. Sharepoint est notamment utilis pour raliser des portails Intranet/Extranet et des plates formes despaces collaboratifs et documentaires. Sharepoint est une solution trs vaste regroupant de trs nombreux services, tels que : Le moteur de recherche de lentreprise ; La gestion documentaire ; La gestion des processus mtier par le biais des flux de travail (WorkFlows) ; La gestion de contenus (Content Management Services ou CMS) Laffichage des donnes applicatives.

Sharepoint se veut tre le point de convergence de tous les contenus de lentreprise. Les informations dcisionnelles font bien videmment partie de ce contenus. Comme nous lavons plus haut, le dcisionnel a pour but de mettre disposition des dcideurs, tous les lments ncessaires la prise de dcision. Les contenus ncessaires la prise de dcision sont trs vastes et ne se limitent pas uniquement aux informations quantitatives mises disposition par lentrept de donnes. Lintranet, cest dire Sharepoint dans la solution Microsoft, est le relais idal du systme dcisionnel pour toucher les dcideurs et concevoir des espaces de dcision complets, contenant : Rapports et analyses chiffres ; Commentaires et analyses des analystes mtier ; Bibliothques de documents Word et Excel ;
26

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Lien direct pour contacter un collaborateur et engager une action ; Lien direct vers le moteur de recherche pour une ouverture sur des informations internes ou externes lorganisation, etc.

Sharepoint est vritablement loutil idal pour sadresser aux dcideurs de lentreprise. Sharepoint dispose de deux solutions pour raliser de vritables tableaux de bord : Excel Services PerformancePoint Services Ect.

12.4.9 Excel Services (ES)

ES est un serveur offrant la possibilit de transformer tout ou partie du contenu dune feuille Excel en une page web au format HTML. La grande force des services Excel est de rendre dynamique ce contenu. Cela signifie que lutilisateur qui publie sur Sharepoint un tableau crois dynamique bas sur lAnalysis Services verra le contenu de celui -ci, sur son portail Sharepoint, actualis pour afficher dynamiquement les toutes dernires donnes. Le tableau crois dynamique publi conserve aussi ses capacits de navigation et de filtre comme le tableau crois dynamique du fichier Excel originel. Le fonctionnement est simple : lutilisateur conoit ses analyses sous Excel 2010. Puis il publie le fichier sur une liste Sharepoint (un rpertoire virtuel). Le contenu de ce fichier publi est alors calcul par le serveur Excel pour tre restitu laide dune webpart Sharepoint.
12.4.10 PerformancePoint Services (PS)

PS est destin aux utilisateurs mtier (type contrleurs de gestion), est un outil destin laborer et grer la performance de lentreprise. Ce service sinscrit totalement dans une approche de Management de la performance, appele aussi Business Performance Management (BPM) ou Corporate Performance Management (CPM). PS permet, la solution BI de Microsoft de rpondre la dernire attente de linformatique dcisionnelle : Grer les performances de lorganisation et de ses politiques ;

PS est une des toutes meilleures solutions sur ce sujet et il est aussi le seul outil de la suite Microsoft souvrir sur cette dmarche. La management de la performance a pour lobjectif lalignement et la mise en cohrence des objectifs des dcideurs tactiques et oprationnels sur les objectifs stratgiques de lorganisation. Cette dmarche favorise lmergence de tableaux de bord penss et construits autour dindicateurs cls (KPI pour key Performance Indicator). PS offre aux utilisateurs mtier non-informaticiens la possibilit de : Crer et grer des espaces de dcision complets ; Crer et grer des tableaux de bords dynamiques constitus dindicateurs cls ;

27

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Crer et grer des indicateurs cls, modifier les seuils datteinte ainsi que les visuels de mto (feux vert en cas datteinte dun objectif par exemple, flche rouge vers le bas lors de tendance la baisse, etc.) Crer des analyses de donnes plus dynamiques que nele permettent les services dExcel. Cest en ce sens un bon complment au service Excel. Rfrencer et grer les ressources officielles complmentaires aux tableaux de bord : tableau de bord crois dynamique Excel Services, graphique danalyse en mode web, commentaires, ressources documentaires etc.

PS dlivre aux dcideurs des espaces de dcision en mode web, complets, riches et dynamiques.
12.4.11 PowerPivot pour SharePoint

Il permet de distribuer les classeurs Excel avec Powerpivot. En effet, un utilisateur Excel peut crer une petite solution BI dans Excel, en utilisant les ressources de son poste local, grce au OLAP en mmoire. Le classeur Excel devient une petite base Analysis Services comme un cube mais avec des performances extrmement couples une interface graphique Excel qui constitue une application de BI. Le classeur peut tre distribu comme un simple fichier mais il peut galement tre publi sur le PowerPivot pour SharePoint. Le serveur SharePoint prend alors en charge la gestion complte de cette application BI, cre une base sur le serveur SSAS, assure son actualisation, fournit des statistiques dutilisation etc. le tout sans passer par le service informatique.

13 Droulement du projet
De par mon exprience, je constate gnralement que la premire intention dun service informatique, souhaitant raliser un systme dcisionnel, est de partir des donnes leur disposition. Si ce reflexe est parfaitement comprhensible, il est loppos de ce que quil faut faire si lon souhaite mener bien un projet et obtenir des rsultats. Un projet dcisionnel ncessite, tout dabord et forcment, dtre men en duo avec un service fonctionnel. Ce projet doit si possible sinscrire dans un projet dentreprise, disposant du sponsoring ou du moins de la bndiction dun membre influant de la direction. Ce mode de fonctionnement est essentiel, car il est indispensable de mener chaque tape du projet du haut vers le bas, cest dire du besoin global, le plus stratgique, vers la donne la plus dtaille. Pour dbuter, on commence par sassurer le primtre projet auprs des dcideurs stratgiques. Mener lensemble du primtre en un seul bloc projet mnerait invitablement le projet sa perte. Un projet dcisionnel doit tre vivant. Ne pouvant pas mener tout le primtre dun seul tenant, le projet sera men par itration successive. Le primtre projet initial est alors factionn en lots que lon va prioriser et taler dans le temps. On dit alors que lon lotit le projet. Un lot est gnralement un sujet fonctionnel, ni trop petit, afin dapporter une cohrence et une valeur ajoute, ni trop gros, afin dobtenir des itrations projet courtes de lordre de quelques mois au maximum. Lordre de priorit dun lot est dfini suivant deux critres : la facilit de ralisation et la valeur ajoute.

28

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

En fait, on commence toujours si possible par le primtre le plus simple raliser (disponible de linformation, disponibilit du service, rflexion dj bien avance etc.) et par le primtre qui apporte le plus de valeur ajoute (criticit de la qualit de linformation, transversalit fonctionnelle du lot, orientation stratgique majeure etc.). Pour mener bien un projet, de DM, de DW ou de cube, il faut ds son initialisation penser distribuer la donne analytique vers les utilisateurs. Les interactions entre le BackEnd et le Front-End sont souvent plus importantes que prvu. Il faudra dfinir diffrentes catgories dutilisateurs, dfinir leurs profils, leur besoins, et loutil quils utiliseront. Certains demandent creuser en profondeur la base de donnes dcisionnelle pour y dcouvrir des modles statistiques (data mining), dautres attendent un graphique sur leur smartphone, sans parler de ceux qui dsirent manipuler les chiffres dans leur tableur favori etc. Le systme sappuie sur les applications de Business Intelligence (BI application) utilises pour distribuer les informations stockes dans le systme.

14 Dcouverte des outils SQL Server


Pour lensemble des outils, SQL Server dispose de deux consoles de gestion principales : La console SQL Server Management Studio (SSMS) est la console destine aux administrateurs. Vous pouvez y crer des bases de donnes relationnelles, programmer vos sauvegardes, y faire vos restaurations etc. tine aux dveloppeurs. Vous pouvez y dvelopper des flux ETL, des rapports ou des cubes.

La console Business Intelligence developpement Studio (BIDS) est la console des

14.1 SQL server Management Studio (SSMS)

Cette fentre vous permet de vous connecter un serveur, quel que soit son type : Moteur de base de donnes Analysis Services Reporting Services Integration Services
29

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Pour se connecter Analysis Services.

Pour dsactiver lempchement des modifications des tables via linterface graphiques.

Dcochez cette case.

14.2 Business Intelligence Developpement Studio (BIDS)


Linterface de dveloppement BIDS nest autre en fait que Visual Studio 2008. Linterface de dveloppement dcisionnel bnficie donc de la richesse de tous les complments et outils de productivit complmentaires existants sur le march pour Visual Studio 2008.

30

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

BIDS est une version allge de Visual Studio 2008, vous ne bnficiez pas de la possibilit de crer des projets de dveloppement .Net. en revanche, il vous est offert la possibilit de crer des projets : Analysis Services, pour crer des bases multidimensionnelles Integration Services, pour raliser les flux dalimentation ETL Reporting Service, pour crer des rapports

31

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Aspects pratiques

32

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Introduction
Dans cette partie on se focalisera sur une entreprise commerciale en traitant de lanalyse des factures qui permettra danalyser le chiffre daffaires (CA), ses marges et ses couts. Lanalyse des factures est primordiale pour deux raisons : Raison technique : gnralement le systme de facturation est assez bien maitris par le service informatique et les donnes sont structures, prsentes et accessibles dans le systme dinformations de lentreprise. Raison mtier : les donnes de facturation intressent la plupart des services tels que la direction gnrale, la direction des ventes, la finance, le marketing et la mise disposition dun systme danalyse des factures est souvent assez riche en informations et donc en valeur ajoute.

Les donnes de facturation seront analysables par les utilisateurs suivant quatre axes principaux : Laxe produit, Laxe client, Laxe site, qui permettra de connaitre le site lorigine de la vente, Laxe temps

Lapproche utilise est celle de Kimball, on crera des Data Marts.

1 Cration table de faits et de dimension


1.1 Cration de lentrept de donnes
Cration dune base de donnes de manire classique dans SSMS avec un nom suffix par DW. Pour a on doit utiliser le mode de recouvrement simple car une base dcisionnelle ne doit pas enregistrer les logs de transaction. Dune part parce que les logs seraient trop volumineux, dautre part parce que le systme de recouvrement au quotidien sera gr par le systme daudit. Cette explication sera plus dtaille au niveau de lalimentation de l entrept via lETL SSIS. Les tables de faits seront prfixes par Fact et les tables de dimension par Dim . Une table de fait ne doit jamais contenir de cl primaire.

1.2 Cration dune table de faits


La cration des tables de faits se fait en trois blocs : 1. Le premier bloc Cration du bloc contenant les liaisons avec les tables de dimension. Ces champs de liaison sont en ralit des cls trangres. Les cls trangres de la table de faits ne doivent pas accepter les valeurs nulles.

33

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Les quatre axes pour analyser les factures sont les suivants : DateFacturation_FK permettra didentifier la date de facturation et fera la liaison avec la dimension Temps. Site_FK permettra didentifier le site de facturation et fera la liaison avec la dimension Site. Produit_FK permettra didentifier le produit factur et fera la liaison avec la dimension Produit. Client_FK permettra didentifier le client factur et fera la liaison avec la dimension Client.

Ces champs dfinissent la granularit de notre table faits. Dans ce cas la granularit de la table de faits FactFacture correspond une ligne : par jour (date de facturation), par site de facture, par produit et par client. Cela signifie que, potentiellement, nous pourrons regrouper et sommer en une seule ligne, les lignes de facture ayant les mmes critres. Ce regroupement est appel un agrgat. 2. Le deuxime bloc Cration du bloc contenant les mesures de la table de faits. Les mesures de la table de faits ne doivent pas accepter les valeurs nulles.

Ces mesures sont issues dun travail conjoint avec le service contrle de gestion de Distrisy. La facture est loccasion de redfinir les termes et le dcoupage des diffrents montants. Suite latelier nous avons pos les relations suivantes entre ces diffrentes mesures : Prix catalogue = CA TTC + Remise CA TTC = CA HT + TVA CA HT = Cout Indirect + Cout Direct main duvre + Cout Direct matire + Marge

34

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Les mesures de la table de faits sont tous de type numeric (9,2) afin de grer les nombres rels compris entre 1 000 000,00 et 1 000 000,00. La prcision 9, reprsentant le nombre de chiffre total et 2, le nombre de chiffres aprs la virgule. Pour mieux comprendre le fonctionnement du type numrique, veuillez-vous reporter au tableau ci-dessous : Numeric (9,1) Numeric (9,2) Numeric (9,3) Mini -10 000 000,0 -1 000 000,00 -100 000,000 Maxi 10 000 000,0 1 000 000,00 100 000,000 Cout en octet 5 5 5

Le type numeric (9,x) coute donc 5 octets. Ce type de donnes reprsente le stockage de la valeur relle, le moins couteux en octets. 3. Le troisime bloc Cration du bloc contenant les champs dits de dimensions dgnres :

Ces champs nont pas dutilit dans lanalyse. Ils reprsentent gnralement une rfrence au grain de la table de faits. Ces champs permettront de faire le lien entre le systme dcisionnel et le systme source. En effet, les factures ne seront jamais analyses par le numro de facture. En revanche, nos utilisateurs souhaiteront peut tre connaitre la liste des numros de factures qui compose les ventes du mois dun produit, pour un client et pour un site en particulier. Attention, des champs sont assez couteux en espace, car ils sont gnralement en type varchar : 1 octet par caractres. Un varchar (6) coute jusqu 6 octets par ligne dans la table de faits.

1.3 Cration des tables de type dimension


Nous allons donc crer les tables de type dimension suivantes :
35

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

DimProduit, pour la dimension produit, DimSite, pour la dimension site, DimClient, pour la dimension client

Nous commencerons par la table de dimension Produit. Comme pour les tables de faits, la table de dimension Produit est construite en deux blocs. Ces deux blocs devront se retrouver dans chacune de nos tables de type dimension. 1. Le premier bloc, identifie le champ de cl technique de la table de dimension Produit.

Cette cl technique ne doit pas tre issue de votre systme source. Elle ne doit pas non plus tre une codification mtier. Il est important que votre entrept de donnes utilise et gre ses propres identifiants de table de dimension. Nous aurons donc dans toutes les tables de dimension, une cl technique de type int, en incrmentation automatique. 2. Le deuxime bloc de colonnes liste les attributs de la dimension Produit.

Nous remarquons que les attributs sont tous de type varchar, pour supporter une valeur sous forme de chaine de caractres. Le nombre spcifi entre parenthses correspondant au nombre de caractres maximum du champ. La dimension Produit se dcomposera en trois niveaux : Le niveau Famille, Le niveau Sous Famille, Le niveau Produit.

Chacun des attributs Famille, Sous famille et Produit est dcompos en deux champs au sein de la table de dimension de lentrept de donnes. Le champ suffix de Code (ProduitCode par exemple) servira de cl didentification unique de lattribut, tandis que lautre champ (Produit par exemple) correspondra sa dsignation : la valeur affiche pour lutilisateur. Par exemple, pour le champ ProduitCode LL1100, le champ produit correspondant est LAGON LL 1100. Cette faon de procder est ncessaire dans le cas des attributs disposant dj dune codification ou des attributs gnrant de nombreuses valeurs comme les produits, les clients, les fournisseurs, les actions commerciales .
36

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

La valeur unique que prend chaque attribut est appele un membre. Ainsi, dans notre exemple, lattribut produit dispose de dix membres. De mme lattribut Famille dispose de deux membres : Gros Mnager et Petit Mnager. Le nombre de lignes de la dimension est appel la cardinalit de la dimension. Dans notre exemple, la dimension Produit a une cardinalit de 10.

2 La dimension temps
Dans un systme dcisionnel, la dimension temps revt une importance particulire et doit faire lobjet de la plus grande attention. La table Temps est unique et sa prsence est obligatoire dans toute table de faits, quelle quelle soit. La prsence de la dimension Temps dans une table de faits est une des caractristiques dun systme dcisionnel par rapport un systme transactionnel. La table de dimension Temps a une granularit au jour. Dans certains cas, vous aurez besoin de faire des analyses lheure : il sagira alors de crer une dimension Heure. Nous nintgrerons jamais les heures au sein de la dimension Temps. Dans dautres cas, vous aurez une table de faits la granularit mois : il sagira alors de considrer le premier jour du mois, comme tant reprsentatif du mois.

Pour crer la dimension Temps via lassistant, dmarrer BIDS et slectionnez un projet type Projet Analysis Services :

2.1 Cration de la source de donnes Crer une nouvelle source de donnes :

37

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Ensuite suivre les instructions de lassistant. Crer une nouvelle rfrence une source de donnes Nouveau

Cliquez sur Nouveau

38

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

La dernire tape crer la source de donnes.

39

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

2.2 Cration dune nouvelle dimension


Crer une nouvelle dimension :

40

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Dans notre cas, nous naurons besoin que du calendrier rgulier. Dans la ralit, il est trs probable que des services tels que le service financier, les ventes ou les services production et logistique aient chacun leur propre calendrier qui diffre du calendrier standard. Le calendrier standard commence le 1er janvier et finit le 31 dcembre. Le calendrier fiscal dune entreprise peut par exemple commencer le 1er septembre et terminer le 31 aout de lanne suivante.

41

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

42

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Ce procd cre automatiquement la dimension Temps dans la base de donnes.

Il est recommand dutiliser une cl Temps_PK de type int au format aaaaammjj. Cette cl sert viter de nombreux cueils lors du chargement de vos donnes. Les champs de type Date tant souvent sources de problmes dalimentation. Dautre part, ce type de cl vous permettra dobtenir de meilleures performances. Cette codification au format aaaaammjj devra tre gnralise tous les niveaux de notre axe temps : anne, semestre, trimestre, mois, semaine etc.
43

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Il est suggr que chaque niveau (anne, semestre, trimestre, mois, semaine, jour) soit compos de trois attributs distincts : Code Date Nom

Par exemple, le mois devra tre compos des attributs suivants : Attribut
MoisCode

Type
Int

Valeur exemple
20091101

Commentaire
Format aaaammjj, par dfaut doit toujours se rfrer la 1ere date de la priode Format date Valeur au format affiche

MoisDate MoisNom

SmallDateTime Varchar(50)

2009-11-01 00 :00 :00 Novembre 2009

3 Cration des toiles


Nous avons cr une table de faits et les tables de dimensions associes. Le schma en toile permet de mettre la table de fait au centre dun rseau de table de dimension.

44

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

4 Gnration du jeu de test


Le jeu de test permet de valider le modle et surtout davoir une vision des futurs rsultats.

A demander Bertand.

45

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

5 Crer et utiliser simplement un cube brut


Cette partie consiste rendre linformation contenue dans lentrept de donnes de manire simple, prsentable et rapide. Simple et prsentable : Cela signifie que lutilisateur qui accde linformation ne doit pas voir la complexit du traitement de linformation. Rapide signifie quun utilisateur qui accde des informations mises disposition, doit avoir un temps dattente de lordre de la seconde. Attendre 10 secondes peut dj tre considr comme long. Crer une vue pour la source de donnes.

46

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Crer un nouveau diagramme.

Crer le cube.

Dployer le cube

47

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Excuter ou traiter le cube Concrtement, traiter le cube revient alimenter et calculer les agrgats dans la structure dploye ltape prcdente. Plus vous aurez de donnes, plus le temps de traitement va sallonger. Ce nest pas une tche anodine, son optimisation relve du travail de ladministrateur Analysis Services.

48

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Explorer le cube Il faut aller dans longlet Navigateur . Pour que le systme affiche les informations relatives au cube, il faut installer au pralable Office Web Components7 ou Web office . Les composants Web Office sont un ensemble de contrles COM (Component Object Model) conus pour la publication de feuilles de calcul, de graphiques et de bases de donnes sur le Web.

Cette visualisation est aussi possible depuis SSMS.


7

Tlchargeable cette adresse http://www.microsoft.com/downloads/details.aspx?FamilyID=7287252c-402e4f72-97a5-e0fd290d4b76&DisplayLang=en

49

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

6 Peaufiner le cube
6.1 Dimensions : hirarchies et attributs
Cette section consiste prsenter comment amliorer laffichage de donnes dun cube pour que ce dernier soit facilement accessible pour un utilisateur donn. Pour cela il faut juste retravailler les dimensions de ce cube. Dans un premier temps nous modifions la dimension Temps

Lobjectif est de modifier la donne affiche, au lieu davoir la cl technique (de type entier), on va lui demander dafficher le jour de lanne lutilisateur.

Dans cette fentre nous allons spcifier le champ afficher la place de la cl technique.

50

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Une fois cela fait, il faut traiter la dimension.

Aprs cela il faut dfinir la hirarchie des attributs de la dimension Temps.

6.2 Mise en forme des mesures


Cette section traite des finitions au niveau des mesures dun cube comme le CA, la remise etc. pour chaque mesure on peut dfinir son format daffichage comme suit :
51

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

6.3 Organisation des mesures


Les mesures peuvent tre ranges dans des rpertoires afin den faciliter la lecture et la prsentation pour lutilisateur final.

52

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

6.4 Mesures calcules


Les mesures et les valeurs sont dfinies au niveau de a base de donnes et agrges lors du traitement du cube. Nanmoins certaines mesures relatives, comme un calcul de poids (pourcentage) ou de rang, ne peuvent tre stockes en base de donnes au sein de la table de faits. Ces mesures devront tre dduites (ou calcules) en fonction du contexte de prsentation. On parle alors de mesures calcules. Les mesures calcules vont nous permettre deffectuer toutes sortes de calculs arithmtiques entre mesures (addition, soustraction, division, multiplication etc.) ou dutiliser des fonctions proposes en standards par Analysis services. On parle alors de fonction MDX. Pour cela il faut aller dans longlet Calcul .

6.5 Le cube et la matrice dimensionnelle


Les sections prcdentes ont prsent comment construire des cubes sur les entrepts de donnes. Dans cette section, nous allons aborder la notion de matrice dimensionnelle. La matrice dimensionnelle est la manire la plus efficace de modliser et de reprsenter un
53

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

entrept de donnes. Dans la matrice, les lignes sont les dimensions et les colonnes les Tables de faits. Lintersection dune dimension avec la table de faits spcifie si les mesures de la table de faits sont analysables par cette dimension.

7 La modlisation dimensionnelle
7.1 La matrice dimensionnelle
La matrice dimensionnelle est la description des processus stratgiques ou du moins les plus important de lorganisation. Ces descriptions de processus apparaissent en colonnes dans la matrice dimensionnelle sous forme de groupes de mesures (ou tables de faits). Il faut savoir quil existe trois types de tables faits : Les tables de faits de type transaction, il sagit de dcrire en dtail ltape dun processus (lvnement). Les tables de faits de type bilan, il sagit de faire le rcapitulatif de certaines tapes du droulement dun processus. Les tables de faits de type photo, il ; sagit de faire ltat des lieux dun processus en un instant T (linventaire).

Pour illustrer ces types de tables de faits, nous allons extraire un exemple tir de [rfrence du livre]. Prenons lexemple dun situation de la vie quotidienne, comme lacte dachat dun article sur Internet. Le client navigue sur un site Internet, il dtecte le produit qui lui plairait, il commande cet article. Trois jours plus tard, nayant toujours pas reu le colis, il contacte le support qui le rassure. Le lendemain, en effet, le client reoit son colis, il signe un bon de rception. Son colis est accompagn de la facture et dun bon de livraison. Voyons maintenant du ct de lentrept de donnes de lentreprise comment serait traduite cette situation : Tout dabord, chacune des pages vues du site Internet pourrait faire lobjet dune ligne (de faits) dans la table de faits de Navigation du Site Internet (transaction). En fin de session Internet, une ligne de faits, dans la table de faits, Session Site Internet, pourrait faire le bilan du temps pass par linternaute. Elle pourrait galement comptabiliser le nombre de pages totales vues, le nombre darticles consults et pourrait noter si le client potentiel a achet. Il sagit alors dune table de fait de type Bilan. La commande de larticle par le client ajouterait une ligne de faits la table de faits Commande (Transaction). Au sein de lentreprise, la commande serait prpare, la facture dite (transaction), larticle serait sorti du stock (transaction) et, au moment du dpart vers le livreur, le bon de livraison serait dit (transaction).

54

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Pendant ce temps, le client appelle le support de lentreprise : ajout dune ligne de faits dans la table des appels entrants du support (transaction). Puis, le livreur fait signer au client un bon de rception lectronique, acte qui permet dajouter une ligne de faits dans la table de faits des rceptions (transaction). A la rception du colis, une nouvelle ligne de faits est ajoute la table de faits de bilan de commande, permettant de savoir comment sest droul le processus de vente : dlai coul, retard, nombre dincidents, temps pass avec le support, couts additionnels etc. (Bilan). En fin de mois, un inventaire des stocks est ralis tant en quantit quen valeur (Photo). Une photo des clients est galement faite afin de comptabiliser leur nombre sous diffrents aspects : segmentation, comportement dachat, localisation gographique etc. il sagit l aussi dune table de faits de type Photo. Tout lment dun processus peut tre sujet mesure, et dans une entreprise, les processus peuvent tre trs nombreux. En effet, nous souhaitons une vision globale du projet mais galement obtenir les grandes orientations de lentreprise afin de nous concentrer sur les processus les plus stratgiques. Des documents complmentaires tels que le plan stratgique ou la cartographie des processus de lentreprise sont des documents majeurs pour nous aider lors de cette tape. Cette vision globale est trs importante car elle permet : De se concentrer sur les processus les plus importants et donc daider prioriser la ralisation du projet. En effet, si la modlisation doit tre globale, la ralisation de lentrept de donnes doit se faire tape par tape. Dtablir la matrice dimensionnelle et ainsi davoir une vision exhaustive des dimensions qui doivent croiser un processus.

Un processus nest pas la proprit dune activit. Lvaluation des stocks intresse autant le service de gestion des stocks, que le service financier, de vente, dachat, de production etc. mme sil est presque certain que ces diffrents services nanalyseront pas les stocks avec le mme angle de vue. Nanmoins, pour la bonne marche de lentreprise, aucun de ces services ne peut avoir une vision prpondrante sur ces voisins. Par exemple il nest pas rare de voir des responsables marketing, production, achat ou de service financier parler dun axe produit qui na de commun, au premier abord, que le nom Une des grandes tches du projet sera alors de travailler de concert, afin que la remonte dun mme processus puisse permettre tous les services de faire les analyses spcifiques de leur activit, tout en retrouvant et comprenant les analyses de lactivit voisine. Lexemple extrait de [rfrence du livre] prsente une matrice dimensionnelle couvrant les domaines fonctionnels suivants : Activit commerciale : facture entte, facture, budget vente, bilan commande client. Les stocks : Stock photo et Stock Mouvement.

55

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Le service achat : Facture fournisseur, Bilan Commande Achat, Commande Achat en transit et Retour fournisseur.

Lintrt dune telle dmarche est dores et dj dannoncer que les principaux axes Temps, Produit, Site, Client et Fournisseur, permettront une analyse commune de processus parfois trs loigns ou difficiles rapprocher.

7.2 Modlisation et schma en toile


Dans longlet Navigateur on peut observer le rsultat. On peut donc visualiser les donnes de deux tables de faits diffrentes via les mmes dimensions.

On peut ensuite crer deux nouvelles mesures calcules : panier Moyen et le Nombre Moyen Article Facture.

On constate aussi quune mesure calcule comme Panier Moyen peut tre produite partir de deux mesures provenant chacune, de deux tables de faits distinctes.

7.3 Tests sur les bilans des commandes

56

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Lorsquon glisse la dimension Temps en ligne dans le tableau crois dynamique, on remarque que la mesure Nb Commande livre affiche uniquement la valeur total : cela signifie que le groupe de mesures Bilan Commande Client nest pas analysable par laxe Temps. Sur la figure suivante on peut le constater. A lintersection du groupe de mesures Bilan Commande Client et la dimension Temps on constate que la case est grise et vide.

Pour que le systme puisse analyser selon laxe temps, il faut lui dire quelle date prendre en compte, comme fait ci-aprs. Analysis Services gre plusieurs type de relation, dont les plus communes sont les relations : Normale, Plusieurs plusieurs et Rfrenc.

57

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

7.4 Cration des perspectives


La perspective est simplement une vue simplifie de la matrice dimensionnelle : une vue cohrente pour un sujet danalyse donn. Lide dune perspective est de donner aux utilisateurs finaux une vue cohrente entre groupes de mesures et dimensions, et donc entre mesures et attributs. Les perspectives se travaillent et saffinent en contact des utilisateurs de votre cube. Attention, il ne sagit pas dun lment de scurit permettant de restreindre laccs des informations cruciales certains utilisateurs. Il sagit seulement dun lment de confort dutilisation fort utile. Limportance de la perspective va croissant avec le dveloppement du primtre fonctionnel de lentrept de donnes. Toutes les tables de faits et de dimensions ne se croisent pas. De nombreuses intersections se retrouvent vides. Lide dune perspective est de montrer une vue oriente mtier. Pour crer une perspective allez dans longlet Perspective et cliquez sur Nouvelle perspective .

58

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Une fois les perspectives cres, allez dans longlet Navigateur et faite comme ci-aprs :

7.5 Cration des actions


Toujours dans un esprit de finalisation du primtre des ventes, nous allons mettre en uvre une fonctionnalit vraiment apprcie des utilisateurs : la fonctionnalit daudit. Au sein de SSAS, laudit de donnes se traduit par la possibilit donne lutilisateur, tout moment, dobtenir un extrait des lignes qui compose une cellule dun tableau crois dynamique. Pour cela allez dans longlet Action et puis cliquez sur Nouvelle action dextraction .

59

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Une fois laction cre, allez dans longlet Navigateur et cliquez slectionnez la cellule concerne et faite clic droit sur la cellule et vous slectionnez laction que vous venez de crer.

Rsultat de laction dextraction.

En fait, lobjectif des actions nest pas de transformer le cube en extracteur de donnes, mais juste dauditer les lignes et de donner la possibilit aux utilisateurs de faire la passerelle entre
60

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

les donnes du systme dcisionnel et celles du systme oprationnel (source). A partir de cela, on voit bien lintrt dintgrer dans nos modles ou les tables de faits les dimensions dgnres, comme NumFacture .

7.6 Introduction au MDX


Au mme titre que le langage SQL est un langage de requtes dune base de donnes relationnelle, le MDX est le langage permettant de faire des requtes sur un cube.
7.6.1 7.6.2 7.6.3 La requte MDX Comparaison de valeurs date, utilisation de la fonction ParallelPeriod La somme cumule, utilisation de la fonction PeriodsToDate

7.7 Modlisation des mouvements de stocks


Cette modlisation permet davoir une valorisation historise du stock en permanence.
7.7.1 7.7.2 Les mouvements de stock La photo de stock

Les types de mesures : Additives, ce sont celles qui se somment sur tous les axes, et semi additives sont celles qui ne se somment pas sur la dimension Temps. Pour caractriser les mesures semi additive dans Analysis Service faites comme suit : vous allez dans longlet Structure du Cube et vous slectionnez la mesure concerne et vous allez dans ses proprits. Changez la valeur de la proprit AggregateFunction LastNonEmpty .

61

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

8 Dcouverte de SSIS
Dans cette section nous allons apprendre et comprendre comment va se raliser la remonte des donnes du systme source vers un entrept de donnes. La principale difficult est que celui-ci dispose dune modlisation dimensionnelle conforme, trs loigne de la structure de vos donnes actuelles. Dans la gamme SQL Server, loutil qui va permettre de raliser le chargement de ces donnes est SQL Server Integration Services (SSIS). SSIS a deux aspects : Un aspect classique avec une logique de flux de tches, organises par des rgles de prcdence. Cet aspect est appel Flux de contrles. Un aspect plus spcifiques au dcisionnel, avec une logique purement E-T-L. cet aspect est appel Flux de donnes.

On peut utiliser SSIS sans pour autant faire de lETL. Par exemple, vous pouvez vous servir de SSIS pour excuter des tches de maintenance de bases de donnes, pour lancer une suite de batch un peu complexe ou pour raliser de la rplication de donnes.

Les tches disponibles donnent une assez bonne ide du rle que lon pourrait faire jouer SSIS et de ses possibilits : connexion un service web, excution de requte SQL, excution dapplication, criture et excution de scripts, connexion un serveur FTP, tche de traitement de SSAS, tche de sauvegarde de la base de donnes etc.
62

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Dans le flux dcisionnel, les tches de flux de contrle vont avoir des fonctions de support et dorchestration, mais ce ne sont pas ces tches qui vont faire proprement dit le chargement des donnes. Le flux de contrle permet de piloter lexcution dun flux de donnes et doit, autant que possible, ne pas avoir dinfluence directe sur les donnes. Le flux de donnes ralise lextraction et le chargement. Il na dinfluence que sur les donnes elles-mmes. Le chargement de donnes va se raliser avec la tche de flux de donnes. La barre doutils de SSIS est organise autour de trois thmatiques : Sources de flux de donnes Transformations du flux de donnes Destination du flux de donnes

Lacronyme ETL signifie que le flux va tre organis en trois grandes phases : La phase E signifie quune tche va se connecter une source, pour en Extraire des lignes de donnes. La phase T signifie que ces lignes vont passer par des tches de Transformation pour subir des tests, des validations ou des modifications. La phase L signifie que ces lignes, une fois traites et transformes, vont tre charges (Load en anglais) dans la base de donnes destination.

Lensemble de ces phases va se drouler uniquement en mmoire, do des gains de performance qui peuvent tre substantiels par rapport au SQL, si on exploite correctement loutil.

8.1 Raliser son premier flux SSIS


8.1.1 Raliser le chargement des donnes partir dun seul site Dans tous les flux de donnes SSIS, on doit avoir au minimum trois tches (composants) : E : une source qui peut de nature fichier plat, fichier Excel, table, vue etc. T : une transformation qui peut tre la mise jour dune colonne particulire au moyen dune expression
63

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

L : destination qui peut tre de nature table dans une base de donnes, un fichier plat, un fichier Excel, etc.

8.1.2 Raliser le chargement des donnes partir de plusieurs fichiers Excel Cette partie consiste montrer comment agencer un ensemble de flux de contrle et aussi comment charger les donnes en prenant en compte un rpertoire de fichiers sources. Nous avons montr prcdemment comment mettre ne place un flux de donnes. Pour excuter un flux on va sur le package et on procde comme suit :

8.2 Dvelopper des flux ETL pour le dcisionnel


8.2.1 Droulement de lexcution dun processus ETL Cette partie consiste prsenter les diffrents types de flux quon peut utiliser pour alimenter un entrept de donnes dans un projet dcisionnel. Dans les faits, les donnes ne vont pas transiter directement des systmes sources vers lentrept de donnes. Les donnes vont transiter par au moins un palier : le sas de donnes appel en anglais Staging Area (SA). Le SA plusieurs rles :
64

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

Rapatrier les informations manant de sources multiples, en garantissant quil ny ait pas de pertes de donnes lors du processus. Faire une zone mmoire tampon dun tat brut de la source un instant pass et ainsi, faciliter la mise en uvre dun processus de reprise de donnes.

La mise en place dun SA est une tape indispensable la bonne mise en uvre de vos flux ETL. Les rles peuvent tre rpartis comme suit : Les flux entre les systmes sources et le SA seront des flux de copie de donnes (EL). Nous viterons donc, dans le SA, toute contrainte dintgrit, et dans les flux, toute rgle de gestion et autre requte avec jointure interne, qui peut provoquer une dperdition de donnes sources. Les tables du SA ne sont pas soumises une modlisation. Le SA est simplement but pratique afin de simplifier la seconde tape. Les flux entre le SA et le DW seront de vritables flux ETL. Nous utiliserons alors pleinement longlet Flux de donnes de SSIS ainsi que les tches de transformation. Cest cette tape-ci, que nous raliserons un audit prcis de nos flux.

On peut lister les flux en dcisionnel comme suit : Les flux de copie des donnes sources vers le SA Les flux de gestion et de mise jour des dimensions du DW Les flux de chargement des tables de faits du DW

8.2.2 Raliser un flux pour charger le SAS de donnes

65

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

66

DONFACK GUEFACK Sidoine

Rennes le 20 janvier 2013

67