Vous êtes sur la page 1sur 119

CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL ASSOCIE DE BOURGOGNE

MEMOIRE prsent en vue d'obtenir le DIPLOME D'INGENIEUR C.N.A.M. SPECIALITE : INFORMATIQUE

OPTION : SYSTEMES DINFORMATION

par

Joachim PELLICIOLI ______

Conception dun entrept de donnes corrlant les effectifs en apprentissage et le suivi financier des centres de formation au sein des Conseils rgionaux

Soutenu le 28 juin 2010 _______

Prsident : Jacky AKOKA Encadrant : Christophe NICOLLE Membres : Christophe CRUZ Didier MACKE Eric JACQUIN

C.N.A.M. Paris Universit de Bourgogne Universit de Bourgogne Socit Ymag Socit Ymag

Remerciements

Remerciements

Je tiens remercier toutes les personnes qui ont donn de leur temps, talent et exprience tout au long de ce projet et durant mes huit annes dtudes au C.N.A.M.

Je souhaite notamment remercier Monsieur Christophe Nicolle, maitre de confrences, pour ses remarques pertinentes et ses prcieux conseils pour llaboration de mon mmoire. Je remercie messieurs Jacky Akoka et Christophe Cruz qui ont accept de faire partie de mon jury.

Je tiens galement remercier mon entreprise qui a su me faire confiance et me laisser grer un dossier aussi important et sensible. Je remercie tout particulirement Messieurs Didier Macke et Eric Jacquin qui ont accept dtre prsents mon jury.

Bien entendu, je naurais probablement pas ralis tout cela sans le soutien de mon pouse Mlanie. Une page ne suffirait pas pour lui tmoigner toute ma gratitude.

Joachim PELLICIOLI

Glossaire

Glossaire
AFPI : Association de formation professionnelle de lindustrie. Centre de formation continue pour lindustrie. BI : Business intelligence : Ensemble de donnes consolides qui permet la prise de dcision. BO : Business Objects, solution de la socit SAP. CAP : Certificat daptitude professionnelle, diplme de niveau 5 reconnu par lducation nationale. CCI : Chambre du commerce et de lindustrie. Ce sont des organismes chargs de reprsenter les intrts des entreprises commerciales, industrielles et de service [WIK2]. CFA : Centre de formation dapprentis. Ce sont des tablissements denseignement en alternance accueillant des apprenants gs de 16 25 ans. CFAI : Centre de formation dapprentis industriels. Idem quun CFA, mais pour les techniques industrielles. CIF : Contrainte dintgrit fonctionnelle ou dpendance fonctionnelle. Une CIF fait rfrence une notion mathmatique entre ensemble. CPA : Classe prparatoire lapprentissage pour les apprenants de moins de 16 ans. Cube : Structure matricielle trois dimensions. DARES : Direction de lanimation de la recherche, des tudes et des statistiques. Cest une direction du ministre du travail franais. Data warehouse : Entrept de donnes. Concept de stockage de donnes. Data mart : Magasin de donnes. Cest un sous ensemble de lentrept de donnes. DLL : Dynamic Link Library : Bibliothque de codes pouvant tre exploite par plusieurs applications. DSI : Direction des systmes dinformation. Elle rgit lintgralit du parc informatique, du rseau et de linformation. ETL : Extract Transfort Load ou datadumping. Processus ayant pour but de rcuprer les donnes des bases de production pour les injecter dans le data warehouse aprs avoir effectu des transformations. Joachim PELLICIOLI 2

Glossaire ETP : Equivalence temps plein. Permet de comparer les charges salariales sur lquivalence dun emploi en temps plein. Hypercube : Structure matricielle quatre dimensions ou plus. MCD : Modle conceptuel des donnes. Reprsentation graphique de la structure de donnes dune entit analyser. Merise : Mthode danalyse et de conception dun systme dinformation. NAF : Nomenclature dactivits franaise. OLAP : On-Line Analytical Processing : Concept permettant de traiter des donnes multidimensionnelles des fins danalyse. OLTP : On-Line Transactional Processing : Concept permettant de traiter des donnes transactionnelles. SGBD : Systme de gestion de base de donnes. SGBDR : Systme de gestion de base de donnes relationnelle. SGBDM : Systme de gestion de base de donnes multidimensionnelle. SI : Systme dinformation. Il reprsente lensemble des lments participant la gestion, au stockage, au traitement, au transport et la diffusion de linformation au sein d'une organisation. SID : Systme dinformation dcisionnelle. SIG : Systme dinformation gographique. Outil informatique de restitution de carte gographique. SIO : Systme dinformation oprationnelle. SQL : Structured query language permet linterrogation des bases de donnes relationnelles afin den extraire des donnes tout en les restreignant en fonction de critres. THR : Transport Hbergement Restauration. Cest un abrg frquemment utilis pour parler des aides fournies aux apprentis pour leur permettre dassister aux cours. XML Schema : ou XSD : Document permettant de dfinir la structure dun document XML. XML : Extend Markup Language : Langage de balisage, servant stocker et transfrer des donnes.

Joachim PELLICIOLI

Tables des matires

Tables des matires


REMERCIEMENTS.............................................................................................................................. 1 GLOSSAIRE .......................................................................................................................................... 2 TABLES DES MATIERES .................................................................................................................. 4 1 2 INTRODUCTION ......................................................................................................................... 7 CONTEXTE DU PROJET ......................................................................................................... 10
2.1 2.2 Le groupe YMAG SAS .................................................................................................................10 Lquipe rgion..........................................................................................................................12 2.2.1 Objectifs.............................................................................................................................. 12 2.2.2 Organisation ....................................................................................................................... 12 Les Conseils rgionaux...............................................................................................................12 2.3.1 Objectifs.............................................................................................................................. 12 2.3.2 Organisation ....................................................................................................................... 13 2.3.3 Centre de formation dapprentis ........................................................................................ 13 2.3.4 Ymag dans les Conseils rgionaux ...................................................................................... 14 2.3.5 Interlocuteurs principaux ................................................................................................... 14 Les solutions dYmag .................................................................................................................15 Dfinition du besoin ..................................................................................................................16 2.5.1 Contexte du projet ............................................................................................................. 16 2.5.2 Comment dfinir le besoin ................................................................................................. 16 2.5.3 Analyse du besoin ............................................................................................................... 18 2.5.4 Primtre de ltude........................................................................................................... 18 Synthse....................................................................................................................................19 Le data warehouse ....................................................................................................................21 3.1.1 Dfinition ............................................................................................................................ 21 3.1.2 Objectifs.............................................................................................................................. 22 Le data mart ..............................................................................................................................23 3.2.1 Dfinition ............................................................................................................................ 23 3.2.2 Avantages ........................................................................................................................... 25 3.2.3 Inconvnients ..................................................................................................................... 25 Modlisation dun data mart .....................................................................................................25 3.3.1 Les composants .................................................................................................................. 25 3.3.1.1 Les faits ou indicateurs ............................................................................. 25 3.3.1.2 Les dimensions ............................................................................................... 26 3.3.1.3 Exemple de table des faits et dimensions ............................................................ 26 3.3.2 Modlisation en toile........................................................................................................ 27 3.3.3 Modlisation en flocon de neige ........................................................................................ 28 3.3.4 Modlisation en constellation ............................................................................................ 29 Concept OLAP ............................................................................................................................30 3.4.1 Dfinition ............................................................................................................................ 30 3.4.2 Comparaison entre OLAP et OLTP ...................................................................................... 33 3.4.2.1 Dfinition de OLTP................................................................................................ 33 3.4.2.2 Tableau comparatif .............................................................................................. 33 3.4.3 Fonctions lies OLAP ........................................................................................................ 34 3.4.3.1 Dfinition .............................................................................................................. 34 3.4.3.2 Exemples .............................................................................................................. 34 Processus dalimentation du data warehouse ...........................................................................37

2.3

2.4 2.5

2.6

LENTREPOT DE DONNEES EN THEORIE ........................................................................ 20


3.1

3.2

3.3

3.4

3.5

Joachim PELLICIOLI

Tables des matires


3.5.1 Sous processus de lETL ...................................................................................................... 37 3.5.1.1 Extraction ............................................................................................................. 37 3.5.1.2 Transformation ..................................................................................................... 38 3.5.1.3 Chargement .......................................................................................................... 38 3.5.2 Type dETL........................................................................................................................... 38 3.5.3 Stratgie de chargement .................................................................................................... 39 3.5.3.1 Extraction complte ............................................................................................. 39 3.5.3.2 Extraction incrmentale ....................................................................................... 39 Synthse....................................................................................................................................41 Dfinition des phases du projet .................................................................................................42 4.1.1 Contexte ............................................................................................................................. 42 4.1.2 Identification des diffrentes phases du projet ................................................................. 42 4.1.3 Calendrier de ralisation des phases .................................................................................. 43 Phase dtude ...........................................................................................................................44 4.2.1 Mthodologie ..................................................................................................................... 45 4.2.2 Gnralits sur lexistant .................................................................................................... 46 4.2.3 Objectifs.............................................................................................................................. 48 4.2.4 Risques................................................................................................................................ 50 4.2.5 Choix technologiques ......................................................................................................... 50 4.2.6 Dtail des tches raliser ................................................................................................. 54 4.2.7 Synthse ............................................................................................................................. 56 Phase ETL ..................................................................................................................................57 4.3.1 Analyse ............................................................................................................................... 57 4.3.2 Ralisation .......................................................................................................................... 59 4.3.1 Synthse ............................................................................................................................. 64 Mthodologie de conception dun data mart ............................................................................65 4.4.1 Axes danalyses ................................................................................................................... 65 4.4.2 Portefeuille dindicateurs ................................................................................................... 67 4.4.3 Modlisation ....................................................................................................................... 68 4.4.4 Synthse de la mthode ..................................................................................................... 69 Phase effectifs ...........................................................................................................................70 4.5.1 Objectifs.............................................................................................................................. 70 4.5.2 Axes danalyse .................................................................................................................... 70 4.5.3 Portefeuille dindicateurs effectifs ..................................................................................... 75 4.5.4 Schmatisation ................................................................................................................... 77 4.5.5 Ralisation .......................................................................................................................... 78 4.5.6 Synthse ............................................................................................................................. 79 Phase financier ..........................................................................................................................80 4.6.1 Comptes gnraux .............................................................................................................. 81 4.6.1.1 Objectifs ............................................................................................................... 81 4.6.1.2 Axes danalyse ...................................................................................................... 81 4.6.1.3 Portefeuille dindicateurs ..................................................................................... 83 4.6.1.4 Schmatisation et volumtrie .............................................................................. 85 4.6.1.5 Ralisation ............................................................................................................ 86 4.6.2 Frais de personnel .............................................................................................................. 88 4.6.2.1 Objectifs ............................................................................................................... 88 4.6.2.2 Axes danalyse ...................................................................................................... 88 4.6.2.3 Portefeuille dindicateurs ..................................................................................... 90 4.6.2.4 Schmatisation ..................................................................................................... 92 4.6.2.5 Ralisation ............................................................................................................ 93 4.6.3 Taxe dapprentissage .......................................................................................................... 94 4.6.3.1 Objectifs ............................................................................................................... 94 4.6.3.2 Axes danalyse ...................................................................................................... 94 4.6.3.3 Portefeuille dindicateurs ..................................................................................... 95 4.6.3.4 Schmatisation ..................................................................................................... 97

3.6

LENTREPOT DE DONNEES EN PRATIQUE ..................................................................... 42


4.1

4.2

4.3

4.4

4.5

4.6

Joachim PELLICIOLI

Tables des matires


4.6.3.5 Ralisation ............................................................................................................ 97 Dpense thorique ............................................................................................................. 99 4.6.4.1 Objectifs ............................................................................................................... 99 4.6.4.2 Axes danalyse ...................................................................................................... 99 4.6.4.3 Portefeuille dindicateurs ................................................................................... 100 4.6.4.4 Schmatisation ................................................................................................... 102 4.6.4.5 Ralisation .......................................................................................................... 103 4.6.5 Synthse ........................................................................................................................... 104 Phase de finalisation ...............................................................................................................106 4.7.1 Business Objects ............................................................................................................... 106 4.7.2 Documentation ................................................................................................................. 108 4.7.3 Formation ......................................................................................................................... 108 4.7.4 Synthse ........................................................................................................................... 110 4.6.4

4.7

CONCLUSION .......................................................................................................................... 111


Listes des figures ................................................................................................................................114 Listes des tableaux .............................................................................................................................115

TABLE DES ILLUSTRATIONS .................................................................................................... 114

REFERENCES BIBLIOGRAPHIQUES ........................................................................................ 116


Livres .................................................................................................................................................116 Livres blancs .......................................................................................................................................116 Sites internet .....................................................................................................................................116

Joachim PELLICIOLI

1 Introduction

1 Introduction
Linformatique dcisionnelle ou business intelligence (BI) est depuis quelques annes un fort ple dattraction pour lentreprise. Beaucoup de salons, de revues ou de livres font les loges de ces technologies. Tous les grands acteurs ont apport leurs solutions (Oracle, Microsoft, SAP, ). Toujours le mme but recherch par les consommateurs de BI, celui doptimiser les cots de production, de rentabiliser, de corrler les donnes ou plus simplement dinterroger des systmes dinformations. Au cours des deux dernires dcennies, les entreprises ont acquis beaucoup de solutions pour grer chaque activit de leur organisation. Elles estiment que les logiciels spcifiques augmentent la performance du service gr. De nos jours, les dirigeants souhaitent avoir une vue globale de leur activit afin de prendre les dcisions en fonction dindicateurs prcis. Cest pour cela que les entreprises sont demandeuses doutils daide la dcision qui vont leur permettre de mettre en vidence les donnes importantes.

En France et plus particulirement dans les Conseils rgionaux, la tendance est identique. Avec la politique de rduction des cots, il devient trs important pour les lus de contrler et trouver les incohrences prsentes dans leur systme dinformation. Lactivit des Conseils rgionaux est trs varie. La Rgion participe lducation, la formation, lemploi et est active sur le plan conomique et social, sans oublier les transports quelle gre (trains entre rgion, bus scolaire, ). Dernirement le Conseil rgional sest engag sur le dveloppement durable. Cette diversit en fait un modle complexe modliser et analyser en un seul ensemble.

La socit dans laquelle je travaille (Ymag) a, depuis de nombreuses annes, aid et apport un soutien informatique aux services de la formation et de lapprentissage des Conseils rgionaux. Ymag a acquis une grande expertise depuis les annes 1990 en travaillant avec les centres de formation dapprentis (CFA). Ainsi au dbut des annes 2000, lorsque les Rgions ont eu besoin de nouveaux logiciels, nous avons su nous dmarquer de nos concurrents grce notre expertise sur les mtiers de la formation. Cest donc tout naturellement que nous avons t sollicits afin de concevoir leur base de donnes dcisionnelle. Joachim PELLICIOLI 7

1 Introduction Ma socit navait aucune exprience en base de donnes dcisionnelle, elle devait donc rpondre un besoin sans avoir les comptences requises. Cest alors que la direction ma propos de changer de service en intgrant lquipe rgion pour raliser ce projet (avant mon stage je travaillais sur le logiciel Ypareo destin aux CFA). Jai accept ce dfi qui offre un double avantage : le premier, professionnel, qui permet mon entreprise dvoluer et dacqurir de nouvelles comptences en rpondant ainsi positivement une demande client. Et le second, plus personnel, qui conclut ma formation dingnieur C.N.A.M. avec la ralisation de mon stage. Lorganisation de la Rgion tant complexe, mon stage prendra en charge ltude et la ralisation dune base de donnes dcisionnelle pour le service de la formation et de lapprentissage. Par abus de langage dans la suite de ce rapport, nous parlerons parfois du Conseil rgional pour le service de la formation et de lapprentissage.

Dans ce mmoire nous commencerons par dcrire le contexte du projet. Puis nous prsenterons les diffrents participants ainsi que leurs rles. Ensuite nous dfinirons lobjectif de ce travail ainsi que le primtre de ltude.

Dans un second temps, nous nous attarderons sur les notions thoriques des entrepts de donnes. Comme je viens de lindiquer, pour mon entreprise et pour moi-mme au dbut du projet, linformatique dcisionnelle tait une notion abstraite. Il est important de bien comprendre la thorie afin de dterminer les principaux lments. Linformatique dcisionnelle fait partie dun effet de mode, il est parfois difficile de discerner une vision marketing dun fondement mathmatique. Ltude thorique permet de rpondre de nombreuses questions. Elle permettra galement daugmenter la connaissance de lentreprise avec des axes de recherches tablis pour ce projet et ceux venir. En dernire partie, nous tudierons la mise en place de lentrept de donnes pour les Conseils rgionaux. Celle-ci va mettre en valeur plusieurs tapes, dont la planification, lanalyse et la ralisation. Nous pouvons ds prsent dcouper la ralisation en deux grandes familles. La premire porte sur lanalyse des effectifs dapprentis des CFA. Ceux -ci transmettent rgulirement aux Conseils rgionaux des donnes sur les effectifs qui sont contenues dans leur systme dinformation. La deuxime porte sur ltude financire des Joachim PELLICIOLI 8

1 Introduction CFA. Elle peut se sous diviser en plusieurs parties. La premire concernera ltude des comptes financiers des CFA, puis ltude des frais de personnel. Nous aurons galement une partie sur la taxe dapprentissage et enfin sur la dpense thorique des CFA. Bien entendu, une corrlation entre les effectifs et les donnes financires sera effectue afin dobtenir des donnes financires par effectifs. Enfin nous terminerons ce chapitre en donnant quelques informations sur la finalisation de ce projet. Nous verrons lexploitation de lentrept de donnes par les outils utiliss par les agents des Conseils rgionaux. Nous voquerons les notions de documentations ralises. Et pour finir nous expliquerons comment se droule les formations.

Joachim PELLICIOLI

2 Contexte du projet

2 Contexte du projet
2.1 Le groupe YMAG SAS
Ymag est une socit de service en ingnierie informatique dijonnaise. Son domaine dactivit se concentre sur la cration de logiciels ddis la formation. Sa zone dactivit stend sur la France et les dpartements dOutre Mer, avec trois types de clients principaux : La formation initiale (CFA, CFAI, ). La formation continue (CCI, AFPI, .). Les Conseils rgionaux. La socit Ymag sest spcialise dans la formation et accompagne les centres de formation en apprentissage dans leur informatisation. Ce partenariat nous a permis de comprendre le mtier de la formation . Grce cette exprience et lvolution des centres de formation, nous avons tendu nos comptences la formation continue. Par la suite nous avons offert nos comptences aux services de formation des Conseils rgionaux qui sont en contacts permanent avec les CFA. Ymag a su se positionner sur le march de la formation grce son expertise du besoin. Actuellement forte de ses 30 annes dcoute et de collaboration avec les clients, elle est capable de rpondre aux besoins du march. Nous travaillons avec nos clients, dans un mme contexte et sur un processus mtier bien maitris.

Quelques chiffres sur la socit : Cration : 1979. Salaris : 50. Age moyen : 30 ans. 90% dhomme et 10% de femme. Quelques chiffres sur lactivit : 5.2 millions deuro de chiffre daffaire en 2009. 663 CFA sur 1049 quips par une solution informatique Ymag. Joachim PELLICIOLI 10

2 Contexte du projet 1 110 Clients. 14 Conseils rgionaux quips dune solution informatique Ymag. Ymag soutient depuis quelques annes une forte croissance. Elle trouve son origine dans la demande importante des centres de formation : demande en logiciels, en volution des produits ou en modules complmentaires. Voici deux schmas qui montrent lvolution au cours des cinq dernires annes du chiffre daffaire et du nombre de salaris.

Figure 1 Ymag nombre de salaris et chiffre d'affaire

Lorganigramme de la socit Ymag est le suivant :

1 PDG

1 Directeur gnral

1 Directeur commercial

4 Chefs de projets

2 Secrtaires / 1 comptable

25 Dveloppeurs

15 Formateurs

Figure 2 Ymag organigramme

Joachim PELLICIOLI

11

2 Contexte du projet Au sein de cet organigramme, la socit se divise en deux quipes : La premire tant rattache aux logiciels qui quipent les centres de formation. La deuxime est rattache aux logiciels qui quipent les Conseils rgionaux.

2.2 Lquipe rgion


2.2.1 Objectifs
Lquipe rgion a pour objectif de rpondre aux besoins concernant le suivi dapprentissage par le Conseil rgional. Elle prend en compte les demandes et les volutions de la lgislation franaise et fait voluer ses solutions. Elle accompagne les projets des Conseils rgionaux dans le domaine de la formation. Elle fait part de son exprience et surtout de lexprience des autres Conseils rgionaux. Elle a pour but galement de consolider le dialogue entre les CFA et les Rgions. Une grande partie du travail des Conseils rgionaux est issue des donnes que leur transmettent les CFA.

2.2.2 Organisation
Lquipe rgion est constitue de six analystes programmeurs encadrs par un chef de projet. Les analystes programmeurs ont en charge lanalyse du besoin, la mise en place de la solution et le suivi volutif du produit. Ce suivi peut se faire via une assistance tlphonique ou au cours de runions avec le Conseil rgional.

2.3 Les Conseils rgionaux


2.3.1 Objectifs
La Rgion a la responsabilit des CFA ainsi que des tablissements du domaine sanitaire et social (paramdical, sage-femme, travail social, ). Elle centralise les besoins des professionnels sur son territoire et adapte ses sections de formation pour y rpondre (elle Joachim PELLICIOLI 12

2 Contexte du projet ouvre et ferme les diffrentes formations.). Par exemple les chantiers de Saint Nazaire peuvent demander plus de soudeurs la Rgion. Elle cofinance les centres de formation. Elle impose en retour une information dtaille des comptes des CFA. Grce ces informations financires elle organise le budget de chacun des centres.

2.3.2 Organisation
Les dcisions sont prises par le prsident du Conseil rgional, puis mises en accord avec les Conseillers rgionaux. Dans notre cas nous travaillons avec le service nomm Direction de la formation et de lapprentissage ainsi quavec le service Direction des systmes dinformation (DSI). Ces deux services sont trs importants pour la Rgion comme en rfre le budget 2010 du Conseil rgional Centre :

Figure 3 Budget 2010 Rgion Centre [REG1]

2.3.3 Centre de formation dapprentis


Le centre de formation dapprentis dispense aux apprentis une formation gnrale et technique ; il assure la coordination entre la formation quil dispense et celle que ralise lentreprise dans le cadre du contrat dapprentissage. La Rgion cofinance les CFA et finance les aides individuelles aux apprentis : aide lachat du premier quipement professionnel, au transport, l'hbergement, la restauration et gratuit des manuels scolaires. La Rgion a

Joachim PELLICIOLI

13

2 Contexte du projet aussi dcid de favoriser lembauche de jeunes en difficult scolaire ou sociale en modulant les primes verses aux entreprises. Les CFA sont soumis des conventions rgionales de fonctionnement. Les deux sources de revenus principaux dun centre de formation sont [LAP1] : Les subventions de la rgion. La taxe dapprentissage.

2.3.4 Ymag dans les Conseils rgionaux


Nous apportons trois solutions : Premire solution : Le recueil dinformations sur les effectifs et leurs descriptifs au sein des diffrentes formations des CFA. Ces donnes permettent dorienter les choix du Conseil rgional dans louverture ou la fermeture des formations. Deuxime solution : Le recueil et lanalyse des donnes financires des centres. Elle permet dallouer les fonds la formation et de calculer le budget prvisionnel. Cela permet dinstruire les dossiers utiliss lors des ngociations. La troisime solution est lie aux primes verses aux employeurs. Pour soutenir leffort de formation des matres dapprentissage, chaque rgion a mis en place un systme dattribution daide lemployeur.

2.3.5 Interlocuteurs principaux


Nos applications actuelles sont utilises par le personnel de production des services apprentissages. Ces services sont constitus de huit dix-huit personnes, grants linformation change avec les CFA sur les formations et les effectifs, les contrats dapprentissage, mais aussi les donnes financires. Nous collaborons avec ces personnes afin de collecter leurs difficults et leurs besoins pour faire voluer nos solutions. Nous sommes galement leur coute afin de rpondre des problmes ponctuels (difficult sur lapplication, changement de lgislation, question sur un CFA, ).

Ces agents sont encadrs par le directeur du service de la formation et de lapprentissage. Il est linterlocuteur entre son service et les lus. Il nous donne les grandes Joachim PELLICIOLI 14

2 Contexte du projet orientations pour nos applications et nous tient informs des changements politique et lgislatif. Cest galement avec cette personne que nous organisons des rencontres avec les CFA. Elles ont pour but dexpliquer les choix du Conseil rgional aux centres de formation afin de les aider apprhender les changes dinformations (Rgion <=> CFA). La partie technique et lorientation physique des systmes dinformation (SI) sont traites avec la direction des systmes dinformation (DSI). Cette branche gre lintgralit des ressources informatiques du Conseil rgional. Elle encadre le changement technique et fonctionnel li aux systmes dinformations et elle se charge de la formation du personnel sur les nouvelles technologies, . Elle influence sur le plan technique lvolution de nos logiciels. Par exemple nous sommes ltude sur limplmentation de nos applications en Full Web .

2.4 Les solutions dYmag


Comme voqu dans le paragraphe 2.3.4 Ymag dans les Conseils rgionaux, nous allons dcrire les deux solutions mises disposition par Ymag afin de satisfaire la demande des clients : WinCRApprentissage : Logiciel permettant de grer les conventions de formation et avenants entre les CFA et la Rgion. La convention dfinit un seuil mini et maxi dapprentis pour les ouvertures et fermetures de chaque formation dun CFA. Pour cela WinCRApprentissage intgre un module denqute qui est diffus dans tous les CFA. Cette enqute est standardise et permet une remonte nationale. Une autre fonctionnalit importante est la collecte des donnes financires du CFA. Le centre doit justifier ses cots de fonctionnement. Nous entendons par cot de fonctionnement, tout ce qui gravite autour de la formation (salaire des formateurs, frais de fonctionnement des infrastructures, ). Aprs avoir collect ces informations, les Conseils rgionaux peuvent tablir des budgets prvisionnels pour allouer les subventions aux diffrents CFA. Ils rgularisent galement les comptes financiers en fonction des comptes rels.

Joachim PELLICIOLI

15

2 Contexte du projet WinCRPrimes : Logiciel permettant de grer les contrats dapprentissage. Ces contrats donnent lieu des primes verses aux employeurs. Historiquement, cette comptence tait gouvernementale. Pour suivre les mesures de dcentralisation cette comptence a t transmise aux Rgions en 2003. Les Conseils rgionaux ont donc personnalis les types daides (aide lembauche, aide favorisant lgalit entre les sexes, ). Les Rgions favorisent ainsi la formation des apprentis et leurs emplois leur sortie de formation. La Rgion a plus de visibilit sur les entreprises de son secteur, elle a donc la possibilit dadapter ses aides afin doptimiser le dynamisme dapprentissage sur son territoire.

2.5 Dfinition du besoin


2.5.1 Contexte du projet
Ce projet a dbut avec un ex-collaborateur dYmag, qui nous a quitts en pleine phase dtude. Ma Direction a cherch la personne qui pouvait sadapter le plus rapidement afin de reprendre ce projet et le mener bien. Ils mont donc propos la gestion de ce dossier. Jai chang de service pour intgrer lquipe de dveloppement pour les Conseils Rgionaux. Dans un premier temps jai t form sur les solutions Ymag leur tant destines. Pour augmenter mes connaissances jai effectu de la maintenance volutive. Ensuite jai pu mimpliquer dans le projet avec une meilleure vision du travail de la Rgion. Mon ex-collgue nayant laiss que trs peu de notes sur lavancement du projet, ma direction ma autoris reprendre contact avec notre Rgion pilote afin dtablir le besoin.

2.5.2 Comment dfinir le besoin


Pour tablir le besoin je me suis bas sur un systme dinterview cibl pour chaque type dinterlocuteur : Les lus : Les lus ont un rle dcisionnel. Ils votent les modifications et les grandes orientations qui leur sont soumises. Dans notre cas, ils peuvent valider ou non un budget ; ouvrir ou fermer des CFA. Ils ont besoin de croiser leurs Joachim PELLICIOLI 16

2 Contexte du projet informations afin dobtenir des cartes gographiques chiffres. Ces cartes doivent tre claires afin dtre prsentes aux administrs. Ils ont besoin de chiffres globaux sur le nombre dapprentis, sur les budgets ainsi que sur les comptes financiers. Le directeur de la formation et de lapprentissage : Il est linterlocuteur principal des lus, cest lui qui va rendre compte de ltat actuel de linformation et de lanalyse effectue. Il propose les orientations aux lus. Le directeur a donc besoin davoir des tableaux de bord prcis afin de donner trs rapidement les valeurs globales aux lus. Il a galement besoin de chiffres prcis pour un CFA donn afin douvrir ou fermer les formations, adapter le budget, Le personnel de la formation et de lapprentissage : Ce sont les agents de production, ils ont un besoin de requtes ponctuelles sur des donnes varies afin de trouver des solutions des attentes bien particulires. Ils ont besoin de requtes sur les effectifs et sur la gestion financire des CFA. Leurs attentes peuvent varier en fonction du commanditaire (CFA, directeur, organisme gestionnaire,). La direction des systmes dinformation : Elle a une vision globale du fonctionnement de la Rgion ; elle coordonne les diffrentes applications et donc les diffrentes branches dactivits de la Rgion. Cest elle qui accorde la cartographie des logiciels. Elle est dcisionnaire dans les choix techniques et oriente les choix fonctionnels. Leur besoin est de croiser les informations des diffrentes solutions afin de dceler des anomalies de fonctionnement. Elle souhaite ainsi rapprocher les donnes de diffrents services.

Joachim PELLICIOLI

17

2 Contexte du projet

2.5.3 Analyse du besoin


Compte tenu des informations collectes durant ces entretiens, jai cherch quelles solutions soffraient nous. En premier lieu, essayons de comprendre ce que souhaitent les diffrentes personnes travaillant pour le Conseil rgional. Besoin dexcuter des requtes dynamiques : il faut avoir accs des donnes quantifiables mises en valeur par diverses informations. Besoin de tableaux de bord : il faut obtenir des tableaux de bord de vue globale afin daider la dcision et de planifier lavenir. Besoin de croiser les donnes de diffrentes applications : il faut pouvoir combiner les donnes de diffrentes bases de production afin de contrler la cohrence des donnes. Grce ces informations, jai propos la cration dune base de donnes dcisionnelle (ou data warehouse). Cette base de donnes a pour but de rpondre nos trois besoins principaux.

2.5.4 Primtre de ltude


Aprs concertation avec les Conseils rgionaux, jai dcid de cibler notre projet sur la mise en place dune base de donnes dcisionnelle, oriente sur le service formation et apprentissage. Ceci est la premire brique mise en place pour la cration dune base de donnes dcisionnelle. Mes choix seront faits en concertation avec la Rgion pour que les donnes puissent sintgrer facilement dans une vision de base de donnes dcisionnelle rgionale. Nous intervenons pour le compte des Rgions en tant que prestataire. Il ne nous est pas demand de crer lentrept de donnes de la rgion, mais uniquement celui du service dapprentissage et de la formation. Il faudra bien videmment tre lcoute et influer pour obtenir suffisamment dinformation sur les donnes qui seront communes dautres services.

Mon rle sera de traiter les donnes situes dans la base de production du logiciel fournie par Ymag. Puis de les mettre disposition dans une base de donnes dcisionnelle. Le projet portera le nom de WinCRAnalyse . Deux orientations se dessinent : Gestion des effectifs : Module de comptage des effectifs. Gestion financire : Module regroupant plusieurs sous modles (compte financier, taxe dapprentissage, ). Joachim PELLICIOLI 18

2 Contexte du projet

2.6 Synthse
Dans ce chapitre de prsentation, nous venons de dfinir les diffrents acteurs concerns par le projet. Nous avons dun ct la socit Ymag dans laquelle je suis salari dans le service ddi aux logiciels Rgion . Dun autre ct nous avons les Conseils rgionaux avec leurs divers services. Nous retiendrons le service de lapprentissage et de la formation ainsi que la direction des systmes dinformation. Jai dfini les deux solutions de production mises disposition par Ymag pour les Conseils rgionaux (WinCRApprentissage et WinCRPrimes). Nous avons tabli le besoin des Rgions en termes dinformatique dcisionnelle, nous venons de dfinir leurs attentes et leurs besoins. Deux orientations sont raliser, une pour la gestion des effectifs et lautre pour la gestion financire. Nous allons maintenant voir en dtails les diffrents concepts de linformatique dcisionnelle, avant de pouvoir concevoir une base de donnes rpondant aux attentes du client.

Joachim PELLICIOLI

19

3 Lentrept de donnes en thorie

3 Lentrept de donnes en thorie


Dans ce chapitre nous allons expliquer les concepts des systmes dinformation dcisionnels (SID) avant de donner des dtails sur la ralisation du projet dcisionnel des Conseils rgionaux. Les SID sont les pendants dcisionnels des systmes dinformation oprationnels (SIO). Voici un schma qui offre une visibilit sur les diffrents flux de lentrept de donnes (data warehouse). Nous dfinirons tous ces composants afin de comprendre le principe global.

Figure 4 Flux du data warehouse

Nous allons dfinir ce quest un entrept de donnes, puis nous aborderons les concepts de data mart et dOLAP. Ensuite nous expliquerons comment les donnes sont intgres dans lentrept.

Joachim PELLICIOLI

20

3 Lentrept de donnes en thorie

3.1 Le data warehouse


3.1.1 Dfinition
Un data warehouse ou entrept de donnes est utilis pour collecter et stocker de manire dfinitive des informations provenant dautres bases de donnes. Daprs Ralph Kimball, le data warehouse se reprsente ainsi [KIM1] :

Figure 5 Composants de base du data warehouse

Sa dfinition du data warehouse est assez large et englobe tout le processus de cette conception. Il prend en premier lieu les systmes sources. Daprs son modle les systmes sources sont comparables aux systmes de production. Nous y retrouvons les donnes lies lactivit. En seconde partie nous trouvons la zone de prparation de donnes . Il dfinit ainsi tout un processus qui a pour but de nettoyer (purge, suppression de doublon, .) les donnes provenant des systmes sources. Ce nettoyage permet dalimenter la phase suivante.

Joachim PELLICIOLI

21

3 Lentrept de donnes en thorie En troisime plan nous avons le serveur de prsentation du data warehouse . Celui-ci est dcoup en sous parties, elles-mmes alimentes par la zone de prparation des donnes . Enfin la partie portail de restitution correspond la partie utilisateur. Elle permet laccs aux donnes contenues dans le serveur de prsentation du data warehouse . Reprenons le cur de ce que lon appelle communment le data warehouse. Bill Inmon dfinit le data warehouse de cette manire: A warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process [INM1]. Nous pouvons traduire cette phrase ainsi : Un entrept de donnes est une collection de donnes orientes sujet, intgres, non volatiles, historises, rsumes, organises pour le support dun processus daide la dcision. . Reprenons les termes utiliss dans sa situation afin de les expliquer : Orientes sujet : Les donnes sont regroupes en familles, afin de dfinir des thmes. Intgres : Les donnes peuvent provenir de sources diffrentes, il faut donc les manipuler afin de dterminer les donnes identiques. Non volatiles : Les donnes ne sont ni modifies ni supprimes, afin de garantir lintgrit dans le temps. Historises : Les donnes ont une notion de temps afin de conserver leur volution dans le temps. Rsumes : Les donnes peuvent tre agrges dans certains cas, pour optimiser la prise de dcision. Processus daide la dcision : Les utilisateurs doivent avoir accs aux donnes qui leur sont autorises.

3.1.2 Objectifs
Le data warehouse permet de sparer des informations identiques mais qui nont pas la mme utilit. Dun ct nous avons les systmes dinformation oprationnels qui collectent linformation (cration, mise jour et suppression). De lautre nous avons les systmes dinformation dcisionnels qui restituent linformation (uniquement de la lecture). Il ne faut pas oublier que linformation est essentielle pour lentreprise, cest une richesse importante. Il Joachim PELLICIOLI 22

3 Lentrept de donnes en thorie faut absolument que ces donnes soient fiables et traites afin datteindre des objectifs concrets. Nous pouvons dfinir trois points que lentrept de donnes doit prendre en compte : Il doit restituer linformation de lentreprise dune manire cohrente. Le but premier de lentrept est laccs aux donnes. Celles-ci doivent tre cohrentes dans leur ensemble. De plus certaines donnes peuvent provenir de diffrents services, avoir des noms diffrents mais tre identiques en termes de contenu. Il faut donc rendre cohrentes toutes ces donnes. Les donnes doivent tres souples et adaptables. Un entrept de donnes nest jamais vraiment termin, il doit pouvoir accueillir de nouvelles donnes, rpondre de nouvelles questions, sans pour autant remettre en cause son existence. Lentrept constitue la base dcisionnelle de lentreprise. Grce cette centralisation dinformations, laccs aux donnes est simplifi. Lentrept facilite la prise de dcision.

3.2 Le data mart


3.2.1 Dfinition
Nous retrouvons encore une fois plusieurs dfinitions. Nous allons tudier deux des plus importantes dfinitions [WIK1] : Inmon : Le data mart est issu dun flux de donnes provenant du data warehouse. Contrairement ce dernier qui prsente le dtail des donnes pour toute lentreprise, il a vocation prsenter la donne de manire spcialise, agrge et regroupe fonctionnellement. Kimball : Le data mart est un sous-ensemble du data warehouse, constitu de tables au niveau dtaill et des niveaux plus agrgs, permettant de restituer tout le spectre dune activit mtier. Lensemble des data marts de lentreprise constitue le data warehouse.

Joachim PELLICIOLI

23

3 Lentrept de donnes en thorie Un data mart est donc un sous ensemble du data warehouse qui permet de restituer linformation lie un mtier. Un data warehouse est constitu de plusieurs data marts. Nous traduisons data mart par magasin de donnes (mise disposition de linformation classifie, comme un magasin met disposition des marchandises par rayon). Reprenons le schma du data warehouse et orientons-le sur les data marts.

Figure 6 Data mart

Notre data warehouse contient plusieurs data marts. Nous pouvons dcouper les data marts de diffrentes manires : Dcoupage par service : Nous recherchons les fonctions de lentreprise et crons un data mart par service, par exemple un data mart pour les ressources humaines, un pour les ventes, un pour les commandes, Dcoupage par sous-ensemble organisationnel : En fonction de lorganisation de lentreprise nous crons des data marts, par exemple un data mart par succursale, filire, .. Mais quels sont les avantages et les inconvnients des data marts ?

Joachim PELLICIOLI

24

3 Lentrept de donnes en thorie

3.2.2 Avantages
Processus de conception simplifi. Donnes cibles un mtier. Gain de temps sur la recherche dinformation. Donnes classifies et clarifies. Maintenance simplifie. Lisibilit par des non informaticiens.

3.2.3 Inconvnients
Moins de flexibilit. Impossible dextraire une information qui sort du cadre habituel dfini dans le data mart. Augmentation des cots pour obtenir une requte complexe. Difficults de conception des liens entre data marts.

3.3 Modlisation dun data mart


Nous venons de prsenter le cur de la base de donnes dcisionnelle. Le projet global peut se nommer data warehouse. Au sein de celui-ci nous retrouvons les data marts. Maintenant nous allons expliquer comment sont organises les donnes au sein dun data mart.

3.3.1 Les composants


La base de donnes dcisionnelle a pour but de restituer des donnes quantifies mises en valeur par des libells. 3.3.1.1 Les faits ou indicateurs Les faits reprsentent les informations quantifies de lentreprise. Nous pouvons les nommer faits, indicateurs ou encore mesures. Ce sont les donnes analyser qui Joachim PELLICIOLI 25

3 Lentrept de donnes en thorie correspondent lactivit de lentreprise. Les indicateurs ont la particularit dtre additifs. Ils sont contenus dans une table physique de la base de donnes dcisionnelle. Nous nommerons portefeuille dindicateurs , table des faits ou table des mesures le regroupement de plusieurs indicateurs. Les indicateurs nont dintrt que sils sont mis en valeur par des informations. Une ligne de faits correspond aux valeurs de lintersection des tables des dimensions. Grce aux dimensions, nous dterminons le grain (la finesse) des rsultats contenus dans la table des faits. 3.3.1.2 Les dimensions Tout comme les faits, les dimensions sont contenues dans des tables physiques de la base de donnes. Ce sont des informations qui vont mettre en vidence les donnes contenues dans les tables des faits. Lorsque nous parlons de dimension nous parlons galement daxe danalyse . Une dimension regroupe les valeurs de mme type. Par exemple dans la dimension gographique nous pourrions avoir : le continent, pays, rgion, ville, quartier, rue, btiment, tage, porte. Grce cet exemple nous comprenons mieux le sens d axe danalyse , puisque nous distinguons tout de suite une hirarchie au sein de la dimension. Nous nous apercevons immdiatement de la corrlation entre les tables des faits et les tables des dimensions. La dimension a deux rles principaux. Afficher les donnes : Ce seront les enttes des lignes ou des colonnes pour regrouper les faits. Nous caractrisons ainsi la donne brute contenue dans la table des faits. Filtrer les donnes : Nous allons choisir telle ou telle valeur de dimension afin dobtenir un tableau correspondant nos attentes. 3.3.1.3 Exemple de table des faits et dimensions Voici un exemple reprsentant linteraction entre les tables des faits et les tables des dimensions. Prenons une quantit dun produit vendu pour remplir notre table des faits (lment de mesure). Pour mettre en valeur cette quantit nous prenons deux dimensions qui sont la situation gographique du point de vente (commune) et la gamme du produit vendu.

Joachim PELLICIOLI

26

3 Lentrept de donnes en thorie Nous pouvons rpondre plusieurs requtes avec ces donnes : Quelle est la quantit de produit vendue par commune ? Quelle est la quantit de produit vendue par gamme ? Quelle est la quantit de produit vendue par commune et par gamme ? Quelle est la commune qui vend le plus de produit de la gamme x ? Voici la modlisation correspondant notre exemple :

Figure 7 Exemple de table des faits et dimensions

Nous venons de voir les concepts de table des dimensions et table des faits. Celles-ci peuvent se structurer de diffrentes faons. Nous allons tudier deux techniques de modlisation multidimensionnelle : La modlisation en toile. La modlisation en flocon de neige.

3.3.2 Modlisation en toile


La modlisation en toile (ou star join schema) doit son nom sa forme. Au cur de ce modle se trouve la table des faits. Autour nous retrouvons des satellites qui donnent chacun un axe danalyse diffrent. Ces satellites correspondent aux dimensions. Cette modlisation ne tient pas compte des formes normales, car elle a uniquement une proccupation, celle de lanalyse (lecture des donnes). La table des faits est la seule table contenir des jointures avec les dimensions. Ce schma est trs performant pour la restitution de donnes, mais il est plus gourmand en espace de stockage. Joachim PELLICIOLI 27

3 Lentrept de donnes en thorie Voici une reprsentation dun modle en toile sur un exemple trs simple de gestion des ventes avec analyse du lieu, de la priode de vente et du produit :

Figure 8 Modlisation en toile

3.3.3 Modlisation en flocon de neige


Le modle en flocon de neige (ou snowflake schema) est constitu dune table des faits au centre et des tables des dimensions autour, comme pour le modle en toile. La diffrence se situe au niveau des tables des dimensions, qui peuvent galement se diviser en plusieurs branches diffrentes. Ces branches sont souvent utilises pour modliser des hirarchies. Cependant daprs Ralph Kimball, elles peuvent engendrer un certain nombre de points ngatifs [KIM2] : Difficult de comprhension par des non informaticiens. Requtes alourdies par un nombre grandissant de jointure. Il estime mme que largument du gain de place nest pas forcement fond, lorsquil est compar la table des faits qui est trs volumineuse.

Joachim PELLICIOLI

28

3 Lentrept de donnes en thorie Reprenons lexemple cit dans le paragraphe 3.3.2 Modlisation en toile. Nous allons clater la dimension produit, afin de crer une hirarchie :

Figure 9 Modlisation en flocon

3.3.4 Modlisation en constellation


Les modles en toile ou en flocon ne grent quune seule table des faits. Par contre, il est trs frquent pour dcrire une activit dentreprise que nous ayons plusieurs tables des faits, donc plusieurs toiles. Ces diffrentes toiles auront peut tre des dimensions communes. Si nous relions ces dimensions ensemble nous obtenons une constellation. Reprenons lexemple cit dans le paragraphe 3.3.2 Modlisation en toile. Nous allons ajouter la table des faits achat et la dimension fournisseur , la dimension produit est commune aux deux tables des faits. Nous obtenons la constellation suivante : Joachim PELLICIOLI 29

3 Lentrept de donnes en thorie

Figure 10 Modlisation en constellation

3.4 Concept OLAP


3.4.1 Dfinition
On Line Analytical Processing est un systme daccs aux donnes en lecture uniquement. Les programmes accdant aux informations travaillent sur de trs grandes quantits de donnes, ce qui permet de raliser des analyses complexes. Le systme OLAP regroupe linformation provenant de diverses sources. Il les regroupe, les intgre, les stocke, tout ceci afin de donner une vue mtier lutilisateur. Cette vue mtier va laider retrouver linformation rapidement. Une notion importante est lhistorisation des donnes au sein des bases OLAP. Ceci entraine, avec une architecture diffrente, une grandeur de base de donnes suprieure aux bases de donnes classiques. Joachim PELLICIOLI 30

3 Lentrept de donnes en thorie En 1993 E.F. Codd a dfinit dans Providing OLAP to user-analyst le concept de OLAP. Il a mit en vidence 12 rgles [COD1] que doivent respecter les bases pour tre OLAP : 1. Multidimensional Conceptual View (Vue conceptuelle multidimensionnelle) Permet d'avoir une vision multidimensionnelle des donnes. Linverse se nomme les tables unidimensionnelles. 2. Transparency (Transparence) L'utilisateur ne doit pas se rendre compte de la provenance des donnes si celles-ci proviennent de sources htrognes. Ces sources peuvent provenir des bases de donnes de production, de fichiers plats, . 3. Accessibility (Accessibilit) Lutilisateur doit disposer dun accs aux donnes provenant de sources multiples en faisant abstraction des conversions et extractions de celles-ci. 4. Consistence Reporting Performance (Performance continue dans les rapports) Les performances ne doivent pas tre diminues lors de l'augmentation du nombre de dimensions ou lors de laugmentation la taille de la base de donnes, mais doivent tre proportionnelles la taille des rponses retournes. 5. Client-Server Architecture (Architecture client-serveur) Il est essentiel que le produit soit client-serveur. Le serveur stocke les donnes et le client les restitue. 6. Generic Dimensionality (Dimensionnement gnrique) Chaque dimension doit tre quivalente par rapport sa structure et ses capacits oprationnelles pour ne pas fausser les analyses. 7. Dynamic Sparse Matrix Handling (Gestion dynamique des matrices creuses) Certaines cellules de lhypercube peuvent tres vides. Elles doivent tre stockes de manires ne pas dtriorer les temps daccs. 8. Multi-User support (Support multi-utilisateurs) Les outils OLAP doivent fournir des accs concurrents, l'intgrit, la scurit et la gestion des mises jour. 9. Unrestricted Cross-dimensional Operations (Opration non restrictive entre les dimensions) Les calculs doivent tre possibles travers toutes les dimensions qui sont rgies par les rgles de gestion. Toutes les tranches de cube doivent tre visualises. Joachim PELLICIOLI 31

3 Lentrept de donnes en thorie 10. Intuitive Data Manipulation (Manipulation intuitive des donnes) La manipulation des donnes se fait directement travers les cellules d'une feuille de calcul, sans recourir aux menus ou aux actions multiples. Au final, il doit permettre l'analyse intuitive dans plusieurs dimensions. 11. Flexible Reporting (Flexibilit dans la cration des rapports) La cration des rapports ou des graphiques se doit dtre simple et efficace pour les utilisateurs. 12. Unlimited Dimensions & Aggregation Levels (Nombre illimit de niveaux dagrgation et de dimensions) Dimensions et niveaux d'agrgation illimits, afin dautoriser les analyses les plus pointues. Ces 12 rgles ont pour but de normaliser une base de donnes dcisionnelle. Cette base de donnes peut tre un systme de gestion de base de donnes relationnelle ou multidimensionnelle, respectivement SGBDR et SGBDM. Dans les SGBDM, le stockage des donnes se base sur le principe des hypercubes. Un hypercube est une matrice dcisionnelle avec au minimum quatre dimensions danalyse. Nous parlons galement du cube, qui est une matrice dcisionnelle avec trois dimensions. Le concept dOLAP est dclin en plusieurs sous concepts qui orientent la structure physique des donnes ou les techniques de traitements.

M-OLAP : Multidimensional on line analytical processing. M-OLAP est la forme la plus classique. Elle utilise les tables multidimensionnelles pour sauver les informations et raliser les oprations. Les donnes sont stockes dans une base de donnes multidimensionnelle.

R-OLAP : Relationnal on line analytical processing. R-OLAP utilise une structure de base de donnes relationnelle. Son avantage rside en la simplicit de mise en place puisquelle ne ncessite aucun investissement dans une base multidimensionnelle.

H-OLAP : Hybrid on line analytical processing. H-OLAP utilise R-OLAP et M-OLAP en fonction des donnes quil traite. Sur les donnes agrges il utilise M-OLAP, par contre sur les donnes plus dtailles, il utilise R-OLAP.

Joachim PELLICIOLI

32

3 Lentrept de donnes en thorie S-OLAP : Spatial on line analytical processing. S-OLAP est une plateforme visuelle pour lexploration et lanalyse spatio-temporelle. Ceci dans le but de prsenter les donnes sous une autre forme que celle tabulaire.

D-OLAP : Desktop on line analytical processing. D-OLAP les donnes sont rcupres sur le poste du client. Ensuite un moteur OLAP local traite ces donnes.

3.4.2 Comparaison entre OLAP et OLTP


3.4.2.1 Dfinition de OLTP On Line Transaction Processing est le modle utilis dans les bases de donnes de production. Il utilise un mode de travail transactionnel. Son rle principal est linteraction sur les donnes avec les actions suivantes : ajout, suppression et mise jour. Il permet galement linterrogation des donnes avec des requtes simples. OLTP permet laccs ces donnes et ces traitements un grand nombre dutilisateurs simultans. Les transactions ainsi gnres travaillent sur de petits ensembles de donnes. 3.4.2.2 Tableau comparatif
Tableau I Comparaison OLAP vs OLTP

Caractristiques Orientation Utilisateur Nombre dutilisateurs Accs Type dopration Granularit danalyse Quantit dinformation change Quantit dinformation stocke Longvit des donnes

OLAP Multidimensionnelle Base dcisionnelle Rduit Lecture Analyse Globale Importante Importante Historique

OLTP Ligne Base de production Elev Lecture et criture Mise jour Elmentaire Faible Faible En cours

Joachim PELLICIOLI

33

3 Lentrept de donnes en thorie

3.4.3 Fonctions lies OLAP


3.4.3.1 Dfinition Dans lanalyse OLAP nous retrouvons plusieurs fonctions qui permettent lanalyse et la restitution des donnes contenues dans le cube dinformations. Ces fonctions donnent un accs prcis et rapide aux donnes et permettent le changement de vue danalyse.

Voyons les fonctions un peu plus en dtail : Drill up (Monter) : Parcours vers le sommet dune hirarchie (obtention de donnes de plus en plus agrges). Drill down (Descendre) : Linverse du drill up, permet de plonger dans la hirarchie afin davoir plus de dtails. Drill through (Entrer) : Possibilit dobtenir des valeurs sur une donne agrge. Cette fonction nest valable que sur certain mode OLAP tel quHOLAP qui change automatiquement entre la base de donnes relationnelle et multidimensionnelle. Rotate (Rotation) : Slectionne un couple de dimensions analyser, en conserve un et fait voluer lautre. Slicing (Couper en tranche ) : Extraction dune tranche dinformation. Scoping (Couper un morceau ) : Extraction dun bloc de donnes, sur le principe du slicing mais plus gnraliste. 3.4.3.2 Exemples Pour mieux apprhender ces notions nous allons voir quelques exemples. Nous allons les illustrer par des tableaux dinformations ainsi que par une reprsentation graphique du cube. La vision dun cube aide la comprhension de la structure de donnes, elle augmente la vision et linterprtation des fonctions que nous allons voir. En exemple nous travaillerons sur les vhicules vendus durant trois annes. Nous distinguons les ventes de voitures doccasions et neuves ainsi que la marque du constructeur. Drill : Grce au drill, nous plongeons dans le dtail des donnes ou l'inverse nous remontons pour avoir une vue globale. La dimension temps au dpart de notre exemple est trs agrge, elle donne une vue globale sur deux annes Joachim PELLICIOLI 34

3 Lentrept de donnes en thorie "2007-2009". Puis nous plongeons dans les donnes mises en valeur par la dimension temps afin d'obtenir plus de dtails. Nous passons une vue par anne pour finir par une vue par trimestre de l'anne "2009". En ce qui concerne la dimension "produit", nous partons d'une donne agrge "Voiture" puis nous descendons dans le dtail entre les voitures neuves et d'occasions, pour enfin voir la rpartition des voitures d'occasions par marque.

Figure 11 OLAP Drill up et drill down

Rotate : Cette vue nous montre deux dimensions qui sont le temps et le type de vente. Grce la fonction rotate, nous allons intervertir une dimension afin dobtenir une vue par rgion la place du type de vente.

Figure 12 OLAP Rotate

Joachim PELLICIOLI

35

3 Lentrept de donnes en thorie Slicing : Nous prenons les donnes dune dimension complte ou par tranche dinformation. Dans notre exemple nous souhaitons voir les ventes de 2008 tout en gardant le dtail des ventes de voitures neuves ou doccasions ainsi que le lieu de vente.

Figure 13 OLAP Slicing

Scoping : Nous allons cibler notre recherche dinformations en limitant les donnes de plusieurs dimensions, nous extrayons un bloc dinformation. Nous voulons dans ce cas limiter notre analyse aux annes 2008-2009 et pour les vhicules neufs, tout en gardant la prcision sur le lieu de vente.

Figure 14 OLAP Scoping

Joachim PELLICIOLI

36

3 Lentrept de donnes en thorie

3.5 Processus dalimentation du data warehouse

Figure 15 ETL

Ce processus est connu sous le nom de Extract Transform Load (ETL) qui signifie littralement extraire transformer charger (ou data dumping). Pour alimenter le data warehouse il faut collecter les donnes dans les bases de donnes de production pour les injecter dans la base de donnes dcisionnelle. LETL rcupre les donnes de production histories et ceci dune manire cyclique. Etudions les sous processus que sont lextraction, la transformation et le chargement des donnes.

3.5.1 Sous processus de lETL


3.5.1.1 Extraction Le but de ce processus est de rcuprer les donnes de production. Attention ces donnes ne sont pas forcment stockes dans une seule base de donnes. Les donnes pourront tre issues de structures propritaires, de logiciels, de systmes de fichier, . De plus, elles ne sont pas obligatoirement stockes au mme endroit gographiquement (ex : sige social Paris et succursale Madrid). En partant de ce constat, il est important de ne pas minimiser cette tape. Elle implique une trs bonne connaissance des sources de donnes, afin de connatre la structure et la smantique de chaque information.

Joachim PELLICIOLI

37

3 Lentrept de donnes en thorie Toutes les donnes sources nont pas systmatiquement de lintrt pour la base de donnes dcisionnelle. Le processus dextraction aura galement pour mission de filtrer les donnes utiles. 3.5.1.2 Transformation Ce sous processus travaille sur les donnes provenant de lextraction. Il a pour but de transformer les donnes afin de rpondre des contraintes dordre techniques ou fonctionnelles. Les transformations les plus frquentes sont le changement de monnaie ou la correction de casse sur un libell. Nous pouvons aussi transformer des informations afin de correspondre une nomenclature, ce qui aura pour effet duniformiser les dimensions dans lentrept de donnes. Lors de la transformation nous pouvons scinder ou consolider des donnes afin doptimiser les futures requtes. La liste des tches lies ce sous processus nest pas exhaustive, elle dpend de la qualit des donnes sources et de lobjectif du data warehouse. 3.5.1.3 Chargement Ce sous processus est la troisime phase du processus dalimentation. Il intgre les donnes au data warehouse en rcuprant le rsultat du processus de transformation. Il contrle galement lintgrit des donnes. Il pourra, le cas chant, ajouter des donnes afin de respecter toutes les contraintes dintgrit du modle dcisionnel. Par exemple si pour une vente nous navons pas la dimension gographique nous indiquerons inconnue . Le chargement est le garant de lvolution des donnes. Lors de celui-ci, deux possibilits soffrent nous : soit historiser les changements des donnes, soit conserver les dernires modifications.

3.5.2 Type dETL


Les ETL se regroupent en trois familles, en fonction de leur mode de fonctionnement et plus particulirement en fonction des traitements effectus [SYS1] : Engine-based : Les transformations sont effectues par le moteur de lETL en fonction dun rfrentiel. Il offre lavantage de pouvoir effectuer des transformations multi-base.

Joachim PELLICIOLI

38

3 Lentrept de donnes en thorie Database-embedded : Les transformations sont ralises par la base de donnes sources. Il offre lavantage davoir un accs complet au traitement. Code-generators : Un code est gnr en fonction des transformations apporter. Il offre lavantage dtre compltement indpendant de la source de donnes.

3.5.3 Stratgie de chargement


Il y a plusieurs faons dextraire et de charger les donnes pour un ETL. Les critres tels que larchitecture physique, la taille des donnes ou la disponibilit des serveurs vont permettre de choisir le mode de chargement. Le chargement des donnes peut se faire de deux faons distinctes au sein dun ETL : complte ou incrmentale. 3.5.3.1 Extraction complte Le chargement complet consiste vider la table de destination avant de rintgrer les donnes de la table source. Elle est intressante pour les structures de donnes simples et de taille modeste.

Avantages : Simplicit de mise en uvre. Aucune diffrence de traitement entre les anciennes et les nouvelles donnes. Inconvnients Besoin de beaucoup de ressources surtout si la source de donnes est importante ou que les traitements sont lourds. Gestion de lhistorique impossible, car nous perdons la trace de lexistant. 3.5.3.2 Extraction incrmentale La mise jour incrmentale consiste comparer la prcdente remonte dinformations vis--vis de la nouvelle remonte. Toutes les modifications seront intgres. Il existe plusieurs solutions afin de trouver les diffrences entre les remontes : Joachim PELLICIOLI 39

3 Lentrept de donnes en thorie Comparaison des remontes. Marquer les modifications au niveau de la source de donnes. Analyser les fichiers de log des moteurs de base de donnes. Lextraction incrmentale apporte la possibilit dhistoriser les donnes. Par contre son implmentation savre plus complique que lextraction complte.

Avantages : Rapidit sur de gros ensembles. Historisation des donnes possible. Inconvnients : Difficult de mise en uvre. Historique difficile rechercher.

Joachim PELLICIOLI

40

3 Lentrept de donnes en thorie

3.6 Synthse
Dans ce chapitre nous venons de poser les briques qui nous permettent dapprhender les notions lies aux bases de donnes dcisionnelles et au business intelligence (BI).

Le projet data warehouse englobe un certain nombre de notions. En amont de ce processus, nous avons lETL qui va rcuprer les donnes dans les bases de donnes de production afin de les restituer lentrept de donnes. Le rle de lETL est important, car il est le garant des donnes, il les travaille, les nettoie, vrifie leur intgrit puis les fournit lentrept.

Ensuite le data warehouse peut se dcomposer en plusieurs data marts, qui reprsente une partie des donnes stockes cible. Nous parlons de data mart des ressources humaines, de la paie, de la production, . Les data marts sont composs de tables des dimensions ainsi que de tables des faits. Les lments quantifiables de lorganisme gr sont contenus dans la table des faits. Les dimensions sont des axes danalyse. Elles regroupent les notions de mme famille, par exemple la dimension temporelle peut tre constitue dun sicle, dune dcenn ie, dune anne, dun semestre, dun mois, dune semaine, dun jour, dune heure et dune minute. Nous remarquerons quil y a souvent une hirarchie au sein dune dimension. Les faits nont aucune valeur sans la mise en vidence par une dimension.

Une fois cette structure mise en place, elle peut tre exploite par des mcanismes tels que le drill, scoping, que nous venons de dfinir. Ces mcanismes sont des outils mis disposition pour les logiciels de restitutions des donnes.

Joachim PELLICIOLI

41

4 Lentrept de donnes en pratique

4 Lentrept de donnes en pratique


Ce chapitre traite de ltude et de la ralisation du projet dcisionnel. Nous nommons ce projet WinCRAnalyse et il se dcoupe en deux modules : WinCRAnalyseEffectifs le data mart des effectifs. WinCRAnalyseFinancier le data mart financier.

4.1 Dfinition des phases du projet


4.1.1 Contexte
Nous avons dfini au chapitre 2.5 Dfinition du besoin le primtre de notre projet. Nous avons vu comment nous avons extrait les informations lies au besoin et le rsultat vers lequel nous voulons tendre. A partir de cette tude prliminaire nous allons mettre en place un calendrier prvisionnel afin de planifier les diffrentes tches excuter, ainsi que lordre dans lesquelles elles doivent ltre.

4.1.2 Identification des diffrentes phases du projet


Ce projet se dcoupe en cinq grandes phases : Phase dtude : Elle se divise en deux sous parties. La premire recense le besoin. A partir de celui-ci, nous allons tablir le but du projet et les moyens techniques et humains mettre en uvre dans un temps restreint afin de latteindre. La deuxime consiste crer un cahier des charges qui fera office de contrat de ralisation entre la Rgion et Ymag.

Phase ETL : Celle-ci se dcompose galement en deux sous parties. Tout dabord nous allons concevoir un ETL, qui permettra lchange et la transformation des donnes des bases de production au data warehouse. Ensuite nous raliserons une interface de pilotage de lETL. Celle-ci aura pour but de Joachim PELLICIOLI 42

4 Lentrept de donnes en pratique paramtrer et programmer lexcution de lETL, ainsi que le contrle de lexcution.

Phase effectifs : Conception de la structure de base de donnes du data mart effectifs. Ralisation des transformations apporter avec lETL pour obtenir les donnes traites. Cration de lunivers dans le logiciel choisi ainsi que les documents associs. Une fois le data mart ralis nous entrerons dans une phase de test de recette avec la Rgion pilote. Phase financire : Nous allons nous appuyer sur lexpertise du data mart effectifs pour raliser le data mart financier. Les points raliser restant identiques dun data mart lautre.

Phase de finalisation : Dernire tape de ce projet, avec la finalisation des phases prcdentes. Aprs validation par la Rgion pilote des data marts nous pouvons les dployer dans les autres Conseils rgionaux. Nous aurons installer lETL et le data warehouse sur les serveurs. Dans un deuxime temps nous aurons la formation des utilisateurs.

4.1.3 Calendrier de ralisation des phases


Il est important dans un projet de dfinir un calendrier de ralisation. Ce calendrier apporte plusieurs points intressants. Tout dabord il permet de communiquer avec les intervenants du projet. Communication avec la hirarchie de lentreprise qui a besoin dune vue densemble sur ses activits. Communication avec lquipe projet, pour se donner des objectifs et se donner une trame dorganisation de travail. Communication avec le client pour justifier des grandes tapes du projet et rendre compte de lavancement de celui-ci. Le calendrier permet galement de dfinir lordre mais aussi les synchronisations entre nos diffrentes tches. Reprenons nos cinq tapes principales du projet, voici le calendrier donnant une vue synthtique de la ralisation :

Joachim PELLICIOLI

43

4 Lentrept de donnes en pratique

Tableau II Calendrier des phases

Mars Avril Mai Juin Juillet Aot

2009 2009 2009 2009 2009 2009

Etude

ETL

Septembre 2009 Octobre 2009

Effectifs

Novembre 2009 Dcembre 2009 Janvier Fvrier 2010 2010

Financier Finalisation

Dans notre contexte le calendrier prcis nest pas vident mettre en uvre. Ymag ne possde aucune exprience en termes de conception de base de donnes dcisionnelle. Cest pour cela quil faudra dans chacune des tapes prvoir un temps de scurit plus important que sur dautres projets informatiques. Cela tant, ce projet doit servir dlment de rfrence pour les projets dcisionnels venir.

4.2 Phase dtude


Suite ltude prliminaire, nous avons obtenu une vision plus globale des projets mens par les Conseils rgionaux. Actuellement tributaires de nombreux prestataires, ils mnent des campagnes de cration de data marts pour chaque prestataire. Leur projet a pour but de crer un immense data warehouse. Chaque Conseil rgional fonctionne dune manire autonome. Cela signifie quil ny a pas forcment de concertation au niveau de la cration de ces entrepts. La DSI aura pour rle de coordonner ces diffrents data marts. Nous travaillons avec le service de lapprentissage et de la formation, nous considrerons celui-ci comme une entit autonome et indpendante. Nous aurons harmoniser les besoins des diffrentes Rgions pilotes afin dobtenir un entrept cohrent dans les diffrentes Rgions clientes. Notre objectif est de fournir des data marts mtiers correspondant parfaitement aux attentes des utilisateurs. Si nous atteignons cet objectif, ces Joachim PELLICIOLI 44

4 Lentrept de donnes en pratique data marts pourront tre exploits par les diffrents services de lapprentissage et de la formation de toutes les Rgions puisquils fonctionnent de la mme manire (mme mtier). Au sein du service de lapprentissage et de la formation, nous avons galement vu en tude prliminaire quil y avait deux orientations pour notre base de donnes dcisionnelle. Nous parlerons ds prsent de data mart effectifs et de data mart financier. Ces deux data marts pourraient tre considrs comme deux projets, nous verrons par la suite comment lun et lautre vont se croiser afin damliorer le rsultat global. Dans ce mmoire nous naborderons pas laspect mercatique (devis, chiffrage, marge, .), ceci fait partie dune stratgie mene par la direction. Dans un premier temps nous allons expliquer la mthodologie mise en uvre, nous allons ensuite dterminer les objectifs du projet. Ensuite nous dfinirons lenvironnement technique. Tout ceci nous permettra dtablir la liste des tches du projet et en crer le calendrier global.

4.2.1 Mthodologie
La socit Ymag a fortement volue ces quelques dernires annes. En passant de 20 50 salaris, lorganisation gnrale de lentreprise doit tre remise en cause. Nous sommes en pleine rflexion sur la mthodologie adopter. Il ny a donc pas rellement de schma de conduite de projet au sein de ma socit. La ralisation de chaque projet est laisse au bon soin de la personne responsable du module. Je ne peux donc pas me baser sur une mthodologie dentreprise. Cest galement le premier projet de ce type, je ne peux donc pas me rfrer lexprience des chefs de projets actuels. Dans mon cas, jai souhait mettre en application les mthodes et outils dcouverts dans les cours du C.N.A.M. tels que management de projet, management social . Ensuite jai essay de rechercher ce qui devait, dans le cas dun projet de base de donnes dcisionnelle, tre amplifi pour atteindre nos objectifs. Jai donc plac le client au centre du projet. Bien souvent, ses considrations sont prises en compte au dbut du projet, puis durant les phases de ralisation il est mis de ct. Dans un projet dcisionnel, il est la cl de voute, il est le seul avoir linformation sur son mtier . Cest pour cela que tout au long des phases du projet, celui-ci sera sollicit, pour valider, sexprimer ou modifier chacune des tapes. Joachim PELLICIOLI 45

4 Lentrept de donnes en pratique Pour simplifier ce dialogue et ne pas runir les douze Rgions clientes chaque phase du projet, jai dcid de choisir deux Rgions pilotes. Comment cest fait ce choix ? Il ma paru judicieux den prendre deux, une pour le data mart effectifs et une autre pour le data mart financier. Chacune ayant son rle dfini avec une vision globale du projet. Ainsi les parties communes auront un double point de vue. Les parties spcifiques seront pilotes par une Rgion et valides par une autre. Grce ce fonctionnement je pourrai garantir ladhsion des autres Rgions au produit, une fois celui-ci termin. Le data mart effectifs sera dvelopp avec la Rgion Centre et le data mart financier avec la Rgion Lorraine.

4.2.2 Gnralits sur lexistant


Au sein du logiciel WinCRApprentissage, nous retrouvons les deux grandes parties qui sont les effectifs et le financier. Je vais donner quelques lments sur le fonctionnement de lapplication actuelle, cela permettra de donner un contexte sur le mtier de lapprentissage et de la formation.

Effectifs et conventions Le CFA signe une convention qui rgit louverture des formations au sein de son tablissement. Cette convention a une dure de vie de cinq ans et dfinit le seuil minimal et maximal deffectifs dans chaque formation. Par exemple le lyce X de Dijon a sign une convention pour louverture dune formation de soudeur au niveau de certificat daptitude professionnelle (CAP). La Rgion Bourgogne estime que le besoin en soudure est important et accepte cette ouverture. Ensuite elle va dfinir le seuil minimal pour lequel la formation lieu douvrir. Elle fera de mme pour le seuil maximal, auquel cas une nouvelle formation sera ouverte. Toute cette dmarche fait partie de ngociation entre la Rgion et le CFA. La convention une fois signe fait office de contrat. Pour contrler le respect de ces seuils, la Rgion demande au CFA de lui transmettre les effectifs par classe. Pour sexcuter le centre de formation extrait les informations de son logiciel administratif et les transfre sur le site de la Rgion : ce traitement est communment appel une remonte deffectifs . Cette enqute permet de vrifier le respect de la convention. Si les seuils sont approchs ou franchis, la Rgion contactera le CFA afin de rguler la formation. Cette rgulation se Joachim PELLICIOLI 46

4 Lentrept de donnes en pratique concrtise par un avenant la convention. La Rgion peut demander autant de remonte deffectifs quelle le souhaite. Ainsi il nest pas rare de voir une remonte deffectifs tous les mois en dbut danne scolaire pour contrler lvolution des formations. Au niveau des traitements, lintgralit de cette gestion est effectue via lapplication WinCRApprentissage. Au fur et mesure des demandes, nous avons sorti de nouveaux tableaux de bord rpondant aux besoins. Ces tableaux sont fixes et accessibles depuis lapplication. Nous avons cr quelques exports dans un tableur afin que les utilisateurs oprent les modifications souhaites aux rsultats.

Financier

La Rgion doit subvenir financirement aux besoins du CFA. Pour cela elle doit contrler lintgralit de la comptabilit du centre de formation. Pour rappel, un CFA bnficie de deux types de ressources, la premire tant la taxe dapprentissage que versent les entreprises et la deuxime est la subvention verse par la Rgion. Nous comprenons bien pourquoi il est important que la Rgion rgule louverture et la fermeture des formations comme nous lavons voqu dans le paragraphe prcdent. La Rgion prend en charge des cots tels que lamortissement des locaux et des machines, le personnel et les frais de fonctionnement. La Rgion finance galement les aides verses aux apprentis aux titres du transport et de lhbergement. Ces aides sont donnes aux CFA qui les reversent aux apprentis. Le module financier sarticule en deux grandes notions : Le prvisionnel : La rgion, en fonction de la convention et dautres paramtres tels que le nombre dheures de cours, les infrastructures, les investissements, les transports, lhbergement, va dfinir un budget prvisionnel. Ce budget va concerner lanne venir. Il permettra de faire des paiements par avance pour le fonctionnement du CFA. Attention dans la partie financire, une anne est considre comme une anne civile, alors que dans la partie sur les effectifs une anne est considre comme une anne scolaire. Le ralis : Le ralis correspond la comptabilit saisie par le CFA. Grce ces donnes ayant un impact rel, la Rgion pourra effectuer des corrections visJoachim PELLICIOLI 47

4 Lentrept de donnes en pratique -vis du prvisionnel et combler ou rcuprer des fonds allous. Ces comptes seront tudis afin dadapter le prochain budget prvisionnel du CFA. De mme que pour la partie sur les effectifs de WinCRApprentissage, nous avons mis en place des tats accessibles depuis lapplication.

4.2.3 Objectifs
Je pense quil est important de fixer les objectifs raliser. Ceux-ci ont un double intrt. Ils permettent de dfinir le but du projet et galement de le qualifier en fin de phase de conception. Ils nous donnent les cibles atteindre pour pouvoir justifier de la russite du projet. Les objectifs sont galement le pivot de la communication avec le client. Ltude des objectifs ne se fera pas data mart par data mart. Nous avons opt pour une analyse globale des buts atteindre, nous les prsenterons en deux parties diffrentes : les optimisations et les volutions.

Optimisations Lapplication actuelle ne fournit pas toutes les garanties sur les donnes pour raliser une analyse performante. WinCRApprentissage vhicule un lourd historique, qui a conduit des erreurs danalyse et de conception. Ce point empche certaines requtes dans la version actuelle de la structure. Les Rgions et les CFA travaillent avec de nombreuses nomenclatures, parfois communes, parfois diffrentes. Il faudra prendre en compte tous ces points afin dunifier et doptimiser les informations de notre SID. Ensuite certaines donnes sont particulirement longues obtenir. Par exemple sur les effectifs, chacune des enqutes traitent plusieurs dizaines de milliers de lignes : les requtes en sont alourdies. Il faudra que le SID puisse ressortir des informations sur de gros ensembles de donnes.

Evolutions Les autres types de demande sont les volutions des possibilits actuelles. Il nest pas rare que les Rgions appellent pour savoir comment ressortir les effectifs par formation et par Joachim PELLICIOLI 48

4 Lentrept de donnes en pratique sexe en fonction de tel ou tel critre. Limplication croissante des Rgions dans la vie locale, les oblige rendre davantage de comptes. Cest pour cela que les demandes sont de plus en plus frquentes et varies. Il faut donc donner la possibilit aux utilisateurs dexcuter des requtes ponctuelles dune manire autonome, sans faire appel socit Ymag. Dans lapplication actuelle, les deux modules effectifs et financiers sont indpendants. Nous avons beaucoup de demandes afin de croiser les deux. Les Rgions ont besoin de connaitre le cot de formation par apprenti. Les lus souhaitent aller plus loin et utiliser leur systme dinformation gographique (SIG) afin de crer des cartes qui mettent en valeur les donnes du service de lapprentissage et de la formation. Ces cartes ont une forte valeur ajoute en termes de communication pour les Rgions. Elles permettent une communication visuelle avec tous les administrs (entreprise, parent, CFA, formateur, ). Un autre objectif serait de pouvoir mettre en corrlation certaines informations afin de mieux organiser le service de lapprentissage et de la formation. Actuellement la Rgion ne peut pas contrler toutes ses donnes, ce qui peut entrainer des erreurs trs difficiles dceler. Ces erreurs peuvent avoir un impact financier important. Grce un entrept de donnes, la Rgion pourra mettre en comparaison deux formations dans deux CFA diffrents et vrifier quil ny ait pas dcart trop important sur le budget. La Rgion aura ainsi un outil de contrle. Pour finir, chaque Rgion a besoin de tableaux de bord pour le pilotage qui lui est propre. Il est difficile de grer ce point dans les applications actuelles.

Synthse des objectifs


Tableau III Objectifs synthse

Type Analyser des donnes fiables. Optimisation

Objectifs

Amliorer les temps de rponse des requtes. Pouvoir faire de lanalyse la demande (ad hoc). Croiser les donnes sur les effectifs et le financier.

Evolution

Croiser avec les donnes SIG. Mettre en corrlation certaines informations difficilement comparables.

Joachim PELLICIOLI

49

4 Lentrept de donnes en pratique

4.2.4 Risques
Lenjeu le plus important dans ce projet est de bien faire comprendre l intrt et les objectifs de celui-ci. Il intgre des acteurs trs varis avec des besoins diffrents. Pour les lus, le SID donnera des rponses des questions auxquelles ils narrivent pas avoir actuellement de rponse. Par contre pour les oprationnels, il est difficile de ne pas vouloir la mme chose que dans les logiciels de production (donnes dtailles, rapports dj existants, ). Lenjeu lors de cette phase dtude et durant toute les autres et de bien dfinir lobjectif de linformatique dcisionnelle. Les prsidents de Rgions ainsi que les DSI ont choisi de crer des SID. Ils ont communiqu sur ce sujet et ont expliqu aux diffrents intervenants les objectifs dune telle technologie. Nous devons, en tant que prestataire, suivre cet objectif dinformation.

4.2.5 Choix technologiques


Les choix technologiques sont multiples dans la cration dun SID. Tout dabord il faut choisir une technologie pour lETL, pour le stockage de lentrept de donnes et pour les outils danalyse, de conception de requte et de reporting.

ETL

Le march offre diffrents outils pour extraire les donnes des SIO. Comme nous lavons vu dans le chapitre 3.5 Processus dalimentation du data warehouse, les ETL sont multiples. Ils peuvent fonctionner en automatique ou sur la base de donnes sources. Il existe beaucoup dETL sur le march, certains payants et dautres libres. Voici quelques exemples dETL du march : Offre commerciale : SAP Business Objects Data Integrator, Informatica PowerCenter, ... Offre libre : Talend Open Studio, KETL, Pour la ralisation du projet, nous pouvons galement crer notre propre ETL. Nous allons essayer de donner quelques critres permettant dvaluer les avantages et les Joachim PELLICIOLI 50

4 Lentrept de donnes en pratique inconvnients dun ETL dvelopp en interne ou dun ETL du march. Voici les avantages de chacun :

ETL du march Dveloppement simplifi. Ce qui donne un gain au niveau du cot et du temps. De nombreux connecteurs sont intgrs afin dextraire et de charger dans des sources diverses. Optimis pour les grandes structures de donnes. Outil permettant de faire des analyses dimpact lors de modification. Utilisable par des personnes ayant une connaissance mtier et non informaticien. Gnration automatique de documentation, en fonction de la description des donnes (mtadonnes). ETL dvelopp en interne Contrle total sur les traitements effectus dans lETL. Grande souplesse sur les traitements et les mtadonnes. Aucune limitation lie au fournisseur. Possibilit de crer des outils de test unitaire. Indpendant de toute structure commerciale. Attention ce choix est faire en fonction du projet et de lenvironnement de travail. Compte tenu de la situation de ce projet, nous sommes en train de traiter des donnes htroclites provenant des bases de production de la socit Ymag. LETL aura un rle limit en termes de connectivit. Nous avons la matrise des donnes provenant de la source. Nous avons dcid de crer notre propre ETL pour les raisons suivantes : Autonomie dans la conception, lvolution et la maintenance de lETL. Type de source quasi unique. Excellente connaissance de la source de donnes. Simplicit du dploiement dans les Rgions. Pour raliser cet ETL nous travaillerons avec lenvironnement DELPHI 7, certaines donnes pourront provenir de fichiers XML et nous rcuprerons les donnes de production dans les bases en SQL Server 2000. Joachim PELLICIOLI 51

4 Lentrept de donnes en pratique Entrept de donnes Pour grer lentrept de donnes nous avons la possibilit de le faire dans des SGBD classiques ou dautres orients sur lanalyse dimensionnelle. Par rapport nos donnes et la mthodologie mettre en uvre, jai choisi dutiliser une base relationnelle avec une mthodologie OLAP. Nous navons pas de donnes consquentes, ainsi les traitements de restitution ne devraient pas tre pnaliss. Compte tenu du fait que nous avons cibl une base de donnes de type relationnel, il reste un nombre important dditeurs. Nous pouvons citer Oracle, Interbase, SQL Server, MySQL, PostgreSQL, Pour choisir entre ces diffrents diteurs, nous avons fait appel nos clients. Certains travaillent dj avec un diteur pour un produit ou ont dj commenc la cration de data mart. Il savre que pour des raisons de cot dinvestissement, les Rgions prfrent travailler avec les produits actuels acquis. Tous les services de lapprentissage et de la formation ayant rpondu notre questionnaire travaillent avec le moteur SQL Server 2000 de Microsoft. Nous avons dcid de stocker lentrept de donnes dans une base SQL Server en fonction de ces raisons : Cot diminu par mutualisation pour nos clients. Cot diminu pour ma socit car nous travaillons dj avec SQL Server. Outil adapt au traitement par SQL standard.

Outils de construction de requte et reporting Lapplication retenue devra avoir des caractristiques de : Gnrateur de rapport ou Reporting. Lanalyse multidimensionnelle : navigation dans les donnes (drill up, drill down, scoping, ). Analyse la demande ou ad hoc. Plusieurs diteurs sont sur le march du reporting et de lanalyse dimensionnelle. Nous pouvons citer par exemple les produits suivants [SMI1] : Joachim PELLICIOLI 52

4 Lentrept de donnes en pratique Business Object de SAP. Reporting Services de Microsoft. Cognos dIBM. JasperReports de Jasper. . Tous ces logiciels sont des suites doutils permettant les traitements spcifis. Les outils de restitutions sont la charge des DSI, ce sont eux qui dcident des outils les mieux adapts leurs besoins. Les Rgions (Centre, Lorraine, Rhne-Alpes, ) ont investit dans le produits Business Object XI R2 de la socit SAP (BO). Cette suite logicielle comprend : Business Object Desktop Intelligence pour la cration de rapport et la navigation dans les donnes ainsi que pour grer les requtes la demande. Business Object WebIntelligence offre les mmes possibilits que BO Deskop Intelligence, mais via un navigateur web. WebIntelligence repose sur la technologie D-OLAP (cf 3.4.1 Dfinition). Toutefois il faut garder lesprit que ce produit ne sera pas utilis par toutes les Rgions. Nous nous sommes engags raliser la mise en place ainsi que les dveloppements sur la suite Business Object XI R2 puisque cette solution est globalement utilise par les Rgions. Nanmoins nous inclurons la quasi-totalit des traitements sur les donnes dans lentrept. Comme par exemple la concatnation de deux champs pour en crer un troisime. Ainsi les Rgions comme la Rgion Bretagne qui utilise une technologie diffrente ne perd pas, ou que trs peu, de fonctionnalit vis--vis des Rgions utilisant BO.

Synthse des choix technologiques


Tableau IV Synthse des choix technologiques

Domaine ETL Entrept de donnes Reporting, navigation et requte ad hoc

Choix ETL dvelopp en Delphi par Ymag SQL Server 2000 Business Object XI R2

Joachim PELLICIOLI

53

4 Lentrept de donnes en pratique

4.2.6 Dtail des tches raliser


Compte tenu de lanalyse qui vient dtre explique, nous allons dterminer les diffrentes tches du projet. En amont, nous avons dfini les phases qui correspondent aux briques de celui-ci, nous allons maintenant dtailler plus finement. La gestion du planning sest rvle complexe. Jai pris linitiative de mettre le client au centre du projet pour amliorer la qualit de lentrept de donnes. Cela a entrain beaucoup de runions : runions de validations techniques, fonctionnelles ou encore de prsentations. Chacune dentre elles a runi un public diffrent, voir crois. Nous avons eu des runions avec la DSI, le chef de service de lapprentissage et de la formation, mais aussi avec les agents de terrain. Parfois les runions taient organises avec un panach de ces personnes. Cela a compliqu lorganisation du projet puisquil est trs difficile de runir toutes les personnes concernes.

Nous allons voir mois par mois les ralisations effectues :

Mars : Runion de projet entre Ymag et les Rgions pilotes. Dfinition des objectifs. Avril : Recherche sur les diffrents ETL. Recherche sur les diffrents outils de reporting, de cration de requte et de navigation dans les donnes. Validation des choix techniques. Dfinition du planning. Mai : Formation reue sur SQL Server. Formation reue sur WinCRApprentissage module effectifs. Formation reue sur Business Object XI R2 cration dunivers. Analyse de lETL. Analyse de la structure du data mart effectifs. Joachim PELLICIOLI 54

4 Lentrept de donnes en pratique Juin : Validation de lETL. Conception de lETL. Conception de linterface de pilotage de lETL. Juillet : Validation du data mart effectifs. Ralisation du data mart effectifs. Tests et recettes de lETL. Aot : Cration dun programme dinstallation pour le projet WinCRAnalyse. Cration de la documentation sur lETL. Cration de la documentation sur linstallation du projet WinCRAnalyse. Cration de la documentation sur les transformations de lETL pour le data mart effectifs. Dbut des tests et recettes de WinCRAnalyseEffectifs Ymag. Septembre : Formation reue sur Business Object XI R2 WebIntelligence. Formation reue sur WinCRApprentissage module financier. Dbut de lanalyse de la structure du data mart financier. Octobre : Validation de WinCRAnalyseEffectifs Ymag. Cration de la documentation sur lunivers data mart effectifs. Installation de WinCRAnalyseEffectifs la Rgion pilote. Formation des personnels lunivers effectifs. Dbut des tests par le site pilote sur lunivers effectifs. Analyse de la structure du data mart financier. Novembre : Analyse de la structure du data mart financier. Joachim PELLICIOLI 55

4 Lentrept de donnes en pratique Validation du data mart financier. Dbut de la ralisation du data mart financier. Validation WinCRAnalyseEffectifs par la Rgion pilote. Dcembre : Ralisation du data mart financier. Dbut des tests et recettes de WinCRAnalyseFinancier Ymag. Janvier : Validation de WinCRAnalyseFinancier Ymag. Cration de la documentation sur lunivers data mart financier. Installation de WinCRAnalyseFinancier la Rgion pilote. Formation des personnels lunivers financier. Dbut des tests par le site pilote sur lunivers financier. Fvrier : Validation WinCRAnalyseFinancier par la Rgion pilote. Sortie officielle sur le march de WinCRAnalyse.

4.2.7 Synthse
Durant cette partie nous avons dcrit le projet. Nous avons prsent lexistant, ce qui avec les demandes de nos clients, nous a permis de dfinir les objectifs du projet. Les deux plus importants sont lamlioration des temps de rponse lors de linterrogation des donnes ainsi que la corrlation des donnes financires avec les effectifs. Nous avons valu un certain nombre de risques et nous avons choisi les technologies mettre en uvre dans ce projet. Le contexte et les objectifs ayant t dfinis, nous avons dress un planning prcis sur les tches accomplir.

Nous allons dans les prochaines parties dcrire les principales phases du projet.

Joachim PELLICIOLI

56

4 Lentrept de donnes en pratique

4.3 Phase ETL


4.3.1 Analyse
Sources et destination des donnes : LETL doit tre capable de lire les donnes dans la base de production de WinCRApprentissage ; celle-ci utilise SQL Server. Il devra galement insrer les donnes dans lentrept qui sera galement en SQL Server. LETL devra pouvoir traiter des donnes en extraction et en chargement sur des serveurs diffrents. Nous aurons besoin dinsrer de nouvelles donnes dans lentrept. Par exemple nous devrons intgrer la liste des communes, dpartements et rgions suivant la nomenclature de lINSEE. Pour lajout de donnes diverses, jai dcid dutiliser un import par fichier XML. Celui-ci a lavantage dtre souple, standardis, volutif et dune manire gnrale facilement compris.

Rfrentiel des donnes : Pour lappairage des donnes sources avec les donnes destinations, jai dcid dutiliser un rfrentiel en XML. Grce ce fichier, nous garderons une dpendance entre le rfrentiel et lETL. Ainsi si par la suite nous dcidons de dvelopper un nouvel ETL, le rfrentiel resterait inchang. Il apporte un autre avantage, celui dtre dploy facilement en clientle pour apporter une modification, suite une demande dvolution urgente. Pour faciliter le dveloppement de ce fichier, jai dcid de le coupler une grammaire XML Schema. La grammaire apporte une vrification sur la structure du fichier XML. Elle permet galement de dfinir des listes de possibilits ou des rgles de saisies. Par exemple pour dfinir un type de champ, nous pouvons dfinir une liste comme suit : Int, varchar, date, datetime, Chargement des donnes dans lentrept : LETL apportera des modifications directes sur les donnes. Par exemple en tronquant vingt caractres une chaine ou en supprimant des espaces mal positionns. LETL pourra Joachim PELLICIOLI 57

4 Lentrept de donnes en pratique galement corriger par procdure stocke linformation pr-charge dans lentrept de donnes. Il effectuera certains calculs sur les tables des faits (agrgation, moyenne, .). Il est le garant de la cohrence des donnes. Il doit ainsi charger un ensemble de donnes ayant un lien entre elles, sans le rompre. En cas derreur ou danomalie lETL doit informer lutilisateur quil est en train de travailler sur des donnes partielles charges un instant t . Modification de la structure physique de lentrept de donnes : Outre les donnes, la structure de lentrept peut changer. Nous pouvons ajouter, modifier ou supprimer une colonne dune table. LETL devra tre en mesure de mettre en phase la structure de donnes physique. Pour raliser cette opration, lentrept doit connaitre son numro de version. LETL aura pour mission de vrifier la cohrence du numro du rfrentiel avec le numro de lentrept. Dans la socit Ymag nous utilisons dj une dynamic link library (DLL) pour raliser ce type de manipulation. Elle utilise des fichiers de description de la structure (tables, champs, dclencheurs, contraintes, ) de la base de donnes et applique les modifications sur la base traite. Jai dcid dutiliser cette DLL afin de mutualiser ce concept. Grce elle, nous viterons la duplication du code et nous gagnerons du temps en ralisation et en maintenance. Interface de gestion de lETL : LETL sera pilot par une interface graphique qui aura pour rle principal de grer la planification. Elle permettra galement le lancement du chargement des donnes ou la modification de la structure. Cette interface sera utilise pour le paramtrage global de lETL lors de la phase dinstallation par Ymag. Par ailleurs elle sera accessible par les agents de la DSI pour interagir avec lETL. LETL devra tracer les actions quil produit au sein dun fichier de log. Ce fichier sera plac sur la machine contenant lETL et sera visible depuis linterface de gestion. Jai choisi de ne pas placer cette trace en base de donnes pour pouvoir loguer les problmes de connexion celle-ci. La planification se fera laide dun service Windows, qui vrifiera les heures de dclenchement et soumettra le travail lETL.

Joachim PELLICIOLI

58

4 Lentrept de donnes en pratique Schma de la structure physique de lETL :

Figure 16 Graphique des interactions de l'ETL

4.3.2 Ralisation
Rfrentiel : Le concept est de pouvoir faire un appairage dun champ source vers un champ destination. Pour cela il faut indiquer les tables sources et destinations. Voici un exemple simple qui illustre ce concept. Pour la table statut_cfa_2 de la source, je souhaite extraire le lib_statut_cfa et lenvoyer dans la table destination categorie_centre et le champ lib_categorie_centre .
<table src="STATUT_CFA_2" dest="CATEGORIE_CENTRE"> <col src="LIB_STATUT_CFA_2" dest="LIB_CATEGORIE_CENTRE"/> </table>

Pour construire une table destination (une dimension), nous aurons besoin de plusieurs tables sources. Nous rappelons que les dimensions ne suivent pas les mmes rgles de normalisation que les tables dune base de donnes relationnelle. Dans la base de do nnes

Joachim PELLICIOLI

59

4 Lentrept de donnes en pratique source, les donnes sont clates dans plusieurs tables afin de rpondre la troisime forme normale (3FN). De mme il est impratif de pouvoir joindre deux tables de destination afin de recrer les cls trangres qui lient les deux tables ensemble. Voici un exemple dans lequel nous allons extraire la table source examen pour la charger dans la table destination examen . Ici nous allons joindre la table secteur_pro la base de donnes dcisionnelle afin de rcuprer la cl qui correspond lenregistrement du secteur_pro de la table source.
<table src="EXAMEN" dest="EXAMEN" > <col src="CODE_EXAMEN" dest="EXAMEN" /> <col src="LIBELLE" dest="LIB_EXAMEN" /> <col src="SECTEUR_PRO" dest="CODE_SECTEUR_PROFESSIONNEL"> <join table="SECTEUR_PROFESSIONNEL" joinCol="SECTEUR_PROFESSIONNEL" selCol="CODE_SECTEUR_PROFESSIONNEL" oblig="1"/> </col> </table>

Pour nettoyer certaines donnes, jai cr des fonctions SQLServer. Dans le rfrentiel nous pouvons indiquer si une donne besoin dun traitement. Dans lexemple ci-dessous, nous contrlons la taille du libell des nomenclatures dactivits franaise (NAF) 100 caractres maximum.
<table src="NAF" dest="NAF"> <col src="CODE_NAF" dest="NAF" /> <col src="LIBELLE" dest="LIB_NAF" fonctionDestination="left(%s, 100)"/> </table>

De la mme manire nous pouvons donner une valeur par dfaut un champ vide, pour rpondre une contrainte fixe sur une dimension.
<table src="EXAMEN" dest="EXAMEN" > <col src="CODE_EXAMEN" dest="EXAMEN" /> <col src="LIBELLE" dest="LIB_EXAMEN" fonctionSource="dbo.ConvertVarcharInNotNull(%s, 'Non renseign')"/> </table>

Le rfrentiel dtermine le type de chacun des champs (int, varchar, date, .). Jai mis en place la collecte dun certain nombre dinformations ; pour faire la distinction entre un champ classique et un identifiant ; la mise jour de donnes, le type de jointure, Enfin dans certaines situations, nous avons besoin de faire une mise jour dun ensemble de donnes insr dans lentrept. Par exemple, nous avons un tat qui permet de Joachim PELLICIOLI 60

4 Lentrept de donnes en pratique savoir si le site de formation est ouvert, ferm ou en projet douverture. Dans WinCRApprentissage cette notion est le rsultat de plusieurs champs diffrents. Nous allons ajouter notre tat aprs insertion des donnes dans lentrept.
<update col="ETAT_SITE" value="En projet" type="varchar"> <clause col="CREAT_EFFECTIVE" value="N" type="varchar"/> <clause col="FERMETURE" value="N" type="varchar"/> </update> <update col="ETAT_SITE" value="Ferm" type="varchar"> <clause col="CREAT_EFFECTIVE" value="O" type="varchar"/> <clause col="FERMETURE" value="O" type="varchar"/> </update>

Afin de traiter les ensembles de donnes complexes, il nous a fallu excuter des procdures stockes, soit du ct de lentrept de donnes soit dans la base dorigine. En reprenant lexemple ci-dessus sur les NAF, lapplication WinCrApprentissage a conserv les NAF rev. 1 et les NAF rev. 2 qui ont fait leur apparition en fvrier 2008 [INS1]. Du ct de lentrept de donnes, nous allons fusionner les deux rvisions de NAF afin dobtenir un ensemble homogne de NAF rev. 2.
<procedure name="Maj_Naf"/>

Ci-dessous, nous avons un graphique reprsentant le XML Schema du rfrentiel. Il permet de distinguer toutes les possibilits offertes par le rfrentiel. Jai dcid de joindre aux documents XML une grammaire afin de contrler la cohrence du document qui est la base de la cration du data warehouse. Nous pouvons sparer en deux la grammaire, dun ct lexcution des procdures, de lautre la slection et la mise jour des donnes.

Joachim PELLICIOLI

61

4 Lentrept de donnes en pratique Excution des procdures :

Figure 17 XML Schma - procdure de l'ETL

Slection et mise jour des donnes :

Figure 18 XML Schma - table de l'ETL

Joachim PELLICIOLI

62

4 Lentrept de donnes en pratique ETL : Jai choisi comme nom de programme YmagETL . Je suis rest neutre sur ce nom afin que lETL soit adapt et amlior le jour o dautres projets dYmag auront besoin de transfrer des donnes. Jai dvelopp lETL dans le langage Delphi, qui est le langage de rfrence dans ma socit. Nos applications sont classiquement programmes en vnementiel. Pour ce projet jai dcid de le dvelopper en orientation objet. Ceci pour les raisons suivantes : Des concepts objets ressortent de la modlisation du rfrentiel. Rutilisabilit dune ou plusieurs classes. Tests facilits. LETL comporte un certain nombre doptions qui lui permettent de savoir comment il doit sexcuter. Certaines options sont facultatives comme par exemple le lancement en mode trace complte ou chaque action mme sans incidence va tre trace dans le fichier de log. En parallle ce dveloppement jai cr un service Windows, dvelopp galement en objet avec Delphi. Ce projet a pour nom YmagService. Il a en charge la lecture du fichier de configuration fourni par linterface de paramtrage de lETL et le dclenchement du processus le moment voulu. Il est garant galement de la non superposition de deux tches.

Linterface de pilotage : Le projet de linterface graphique se nomme ServiceManager . Linterface graphique a galement t conue en Delphi. Le ServiceManager permet : De configurer laccs au serveur de production. De configurer laccs au serveur dcisionnel. De grer le compte servant faire les requtes. De grer le compte ayant les droits pour faire migrer la structure. De configurer les horaires de dclenchement de lETL. Joachim PELLICIOLI 63

4 Lentrept de donnes en pratique Dinteragir avec le service Windows (Arrt, dmarrage, redmarrage). De charger les donnes en direct. De modifier les donnes en direct (rserv un usage de maintenance). Cest le centre de configuration et de pilotage de lETL. Nous avons donn la possibilit de mmoriser deux configurations diffrentes, une pour la production et lautre pour le test. Ainsi la DSI pourra, la livraison dune nouvelle version, passer en mode de test avant de basculer en production. Bien videmment cette tape aura dj t ralise par Ymag avant la livraison dune nouvelle version aux Rgions. Voici linterface dveloppe pour piloter lETL :

Figure 19 Interface de gestion de l'ETL

4.3.1 Synthse
Jai cr lETL en gardant lesprit quil devait voluer. Cest pour cela quil a t dvelopp en langage objet. Sur chacune des dcisions prises durant sa ralisation, jai pris soin de rester gnrique et ouvert sur lavenir. Nous gardons lesprit, compte tenu du plan

Joachim PELLICIOLI

64

4 Lentrept de donnes en pratique durbanisation dcisionnelle des Rgions, quelles pourront nous demander la cration de data mart pour dautres solutions proposes par Ymag (WinCRPrimes, ). Linterface de gestion ainsi que le service permettent de manipuler lETL facilement pour des tches dadministration. Linterface a t pense pour les utilisateurs des Rgions, afin quils naient besoin que de quelques explications pour la prendre en main.

4.4 Mthodologie de conception dun data mart


Afin de concevoir les data marts jai mis en place une mthodologie de construction que nous allons prsenter dans cette partie. Tout dabord il est impratif de travailler sur un ensemble restreint afin de concevoir un modle simple. Un modle simple se reprsente par une activit prcise analyser. Une fois une activit choisie, la mthode consiste dfinir les grandes parties quil faut mettre en uvre : Gestion des dimensions : axes danalyses. Gestion des faits : portefeuille dindicateurs. Reprsentation graphique : modlisation. Encore une fois lobjectif est dinclure le client au cur du projet. Dans ce sens nous allons voir comment jai articul le travail afin de faire participer les non informaticiens la conception des diffrents data marts.

4.4.1 Axes danalyses


Suite aux diffrents entretiens mens, nous pouvons recenser les axes danalyse lis lactivit que nous voulons reprsenter. Reste alors regrouper ces notions en famille mtiers afin de crer nos dimensions. Ces familles sont le rsultat de croisement entre les donnes que nous avons dans les bases sources et les diffrents points relevs durant les entretiens dans les Conseils rgionaux. Cest galement le moment dentrevoir les hirarchies contenues dans les informations. Une hirarchie se caractrise par une structure dlment s allant dun tat gnraliste un tat spcifique. Elles ont un rel intrt pour les changements dchelle (drill down, drill up). Joachim PELLICIOLI 65

4 Lentrept de donnes en pratique Il est important de reprciser que cette recherche de dimension passe par une dnormalisation de la structure de donnes. Voici un petit exemple pour illustrer cette dnormalisation : Le schma de base de donnes est reprsent par un modle conceptuel des donnes (MCD) tir de la mthode Merise. La table groupe_secteur_pro a une cl primaire (code_groupe_secteur_pro) ainsi quun libell (lib_groupe_secteur_pro), idem pour les tables secteur_pro et formation. La table groupe_secteur_pro est relie la table secteur_pro par une relation de type contrainte dintgrit fonctionnelle (CIF) ce qui veut dire quun secteur_pro a un et un seul groupe_secteur_pro (idem pour le table formation). La d-normalisation entraine la cration dune seule table compose dune nouvelle cl primaire ainsi que les trois champs libell des tables prcdentes.

Figure 20 D-normalisation

Afin de bien prciser le travail, que ce soit avec le client ou le reste de lquipe, il est important de dfinir quels sont nos axes danalyse, quels attributs les constituent et quoi correspondent chacun de ces attributs. Pour raliser cela, jai utilis des grilles qui permettent de dtailler chacun des axes danalyse.

Grille de description des dimensions :


Tableau V Grille de description des dimensions

Axe danalyse : Nom de laxe danalyse Description Description dtaille de laxe danalyse. Nous le replaons dans le contexte et nous prcisons le rle de celui-ci. Comptage Estimation ou nombre rel doccurrences charges dans la dimension. Attributs

Joachim PELLICIOLI

66

4 Lentrept de donnes en pratique


Nom de lattribut 1 Description Source de donnes : Description de lattribut, explication mtier. : Dfinition de lemplacement dorigine de cette information. Type de donnes : Type de donnes de lattribut (entier, chaine de caractres, ). Rgle de calcul : Rgle de calcul pour crer lattribut de la dimension (condition, concatnation, ). Contrainte Nom de lattribut 2 : Contrainte impose au chargement de lattribut dans la dimension. Description Source de donnes : Description de lattribut, explication mtier. : Dfinition de lemplacement dorigine de cette information. Type de donnes : Type de donnes de lattribut (entier, chaine de caractres, ). Rgle de calcul : Rgle de calcul pour crer lattribut de la dimension (condition, concatnation, ). Contrainte Nom de lattribut : Contrainte impose lors du chargement de lattribut dans la dimension.

4.4.2 Portefeuille dindicateurs


Comme nous venons de le voir, nous devons cibler notre analyse sur une activit particulire. Le portefeuille dindicateurs porte sur les lments quantifiables de cette activit. Les faits ont pour but de rpondre aux questions releves durant les entretiens. Par exemple les utilisateurs veulent savoir si les effectifs en BAC PRO comptabilit ont volu durant les 3 dernires annes et si cette hausse est suprieure 2% par anne. Les faits reprsentent lactivit analyser et trs souvent nous aurons les modifier afin de les rendre cohrents notre ensemble de restitution. Ces modifications seront plus particulirement des mises chelle afin dagrger ou de faire un prorata dune valeur numrique. Comme pour les axes danalyse jai dcrit dans une grille les diffrents indicateurs. Toujours en gardant lesprit le double impact de ces grilles : lun sur les utilisateurs, lautre sur lquipe en charge du data warehouse. Grille de description des indicateurs : Joachim PELLICIOLI 67

4 Lentrept de donnes en pratique


Tableau VI Grille de description des indicateurs

Indicateur : Nom de lindicateur Description Nous dcrivons prcisment quoi correspond notre indicateur. Nous donnons galement son contexte et la notion quil vhicule, lchelle de grandeur utilise. Rgles de calcul Dans cette partie nous dtaillons la formule de calcul qui a permis dobtenir notre indicateur (agrgation, prorata, .). Type de donnes Type de donnes de lindicateur. En rgle gnrale un fait est un lment numrique. Nous pourrons prciser si nous travaillons en entier, en rel et avec quelle prcision. Fonction dagrgation Fonction utilise pour restituer notre indicateur (rappel : un indicateur est un fait additif, nous pourrons par exemple lindiquer par la commande SQL SUM ). Unit de mesure Quelle est lunit de mesure de notre indicateur (mtrique, montaire, nombre, .). Source de donnes Indique la provenance de linformation source qui nous a permis de crer lindicateur du data warehouse. Contraintes Contrainte impose lors du chargement de lindicateur dans la table des faits.

4.4.3 Modlisation
Une fois la collecte et lorganisation de linformation effectues, nous pouvons organiser les informations dans un modle en toile. Ce modle se veut simple pour permettre le dialogue avec les personnes qui ne sont pas familires avec les mthodes de conception informatique. Le modle met en vidence les relations entre les dimensions et les tables des faits. Pour rappel dans un modle en toile nous avons la table des faits au centre et les tables des dimensions qui gravitent autour. Ainsi nous pouvons recenser les interactions entre une table des faits et toutes les dimensions qui mettent en valeur les indicateurs. Ces interactions sont maquettes (cration de rapports ou de tableaux de bord) pour donner une vue sur les possibilits du modle aux futurs utilisateurs.

Joachim PELLICIOLI

68

4 Lentrept de donnes en pratique

4.4.4 Synthse de la mthode


Comme nous venons de le voir durant cette description de la mthodologie que jai mise en uvre pour la ralisation des data marts effectifs et financier, tous les modles et descriptifs ont un double intrt : Aide la conception et validation des data marts. Les modles vont tre utiliss durant les runions pour contrler les possibilits ainsi que les limites du data mart. Aide la ralisation des data marts. Ils offriront une aide prcieuse pour la maintenance volutive. Le tableau ci-dessous rsume la mthodologie de conception dun data mart :
Tableau VII Mthodologie de conception

Etapes
- Slection dune activit analyser. - Collecte des informations de dimensions et cration des axes danalyse. - Recherche des hirarchies et formalisation. - Cration du portefeuille dindicateurs. - Cration dun modle en toile mettant en relation les dimensions avec les faits. - Maquettage (rapports et tableaux de bord) - Prsentation aux clients pour validation.

Une fois ces tapes conceptuelles ralises, nous raliserons limplmentation du transfert et des modifications dans lETL.

Joachim PELLICIOLI

69

4 Lentrept de donnes en pratique

4.5 Phase effectifs


4.5.1 Objectifs
La priorit de ce data mart consiste analyser lenqute des effectifs collecte par la Rgion. Cette enqute est dj exploite dans lapplication WinCRApprentissage, mais elle noffre pas assez de souplesse. Les Rgions souhaitent pouvoir crer des rapports plus pousss avec des volutions sur plusieurs annes pour une formation. Ils souhaitent galement pouvoir rpondre des questions ponctuelles que leur posent les lus. Nous rappelons que les donnes lies aux effectifs sont remontes des CFA vers le Conseil rgional par un systme informatis. Cest une enqute anonyme. Elle permet de dterminer les effectifs par formation dans un centre de formation. Le CFA envoie une ligne dinformation par apprenant (sexe, ge, dpartement, anne de formation, diplme, CFA, effectifs de lentreprise, .). Le data mart effectifs doit principalement permettre lanalyse des effectifs et les diffrentes volutions par formation. Nous allons crer la premire brique qui nous permettra de travailler avec le data mart financier que nous verrons dans le prochain paragraphe.

La table des faits et les tables des dimensions stockes en mmoire ne dpassent pas la centaine de mga-octets. Les disques durs ainsi que les moteurs de base de donnes actuels grent sans difficult des giga-octets de donnes. Cest pour cela que nous ntablirons pas de chiffrage dans ce data mart.

4.5.2 Axes danalyse


Nous dterminons les diffrents axes danalyse qui seront en relation avec notre table des faits.

Formation Laxe danalyse sur la formation regroupe toutes les notions de celle-ci. Prenons un intitul afin de bien comprendre tous les termes faisant partie de cette dimension : 1er anne BAC PRO commerce en 3 ans.

Joachim PELLICIOLI

70

4 Lentrept de donnes en pratique La premire notion est lanne de formation que nous associons au nombre total dannes de formation (1re anne sur 3 ans). La deuxime notion se situe au niveau du diplme prpar (baccalaurat professionnel). La troisime notion est le mtier (commerce). Ce mtier fait partie dune hirarchie dfinie par une nomenclature des spcialits de formation (NSF) : 3- Domaines technico-professionnels des services. 31 - Echanges et gestion. 312 - Commerce, vente. Cette dimension possde des informations propres la formation ainsi qu lanne dans laquelle est lapprenant. Afin de concevoir des dimensions communes au data mart financier, nous avons dcid de sparer en une dimension lanne de formation et en une sous dimension la formation. Afin dviter le modle en flocon (optimisation des requtes), nous nallons pas relier la formation lanne de formation mais conserver deux dimensions indpendantes : Formation. Anne de formation. Pour ne pas surcharger ce document, nous dcrirons titre dexemple, quelques dimensions comme dfinies dans la mthodologie :
Tableau VIII Axe danalyse : Formation Axe danalyse : Formation Nom Description Formation Description des formations dispenses dans les centres. Nous retrouvons les informations sur lexamen, le niveau du diplme, Comptage Environ 800. Attributs Code Examen Description Source de donnes Destination Type de donnes Rgle de calcul Contrainte Lib_Examen Description Source de donnes Destination : Code de l'examen (ex : 51321302, ....). : Examen.Code_Examen : Examen : Varchar(10) : Aucune : Aucune : Libell de l'examen (ex : Coiffure, ...). : Examen.Lib_Examen : Lib_Examen

Joachim PELLICIOLI

71

4 Lentrept de donnes en pratique


Type de donnes Rgle de calcul Contrainte Niveau Diplome Description diplmes (ex : 1, 2, ...). Source de donnes Destination Type de donnes Rgle de calcul Contrainte Nb Total Annee Formation Description Source de donnes Destination Type de donnes Rgle de calcul Contrainte Code GFE Description Emploi (GFE2). Source de donnes Destination Type de donnes Rgle de calcul : GFE2.Code_GFE2 : GFE : Varchar(6) : : Dip_Form.Niveau : Niveau_Diplome_Examen : Integer : Aucune : Aucune : Nombre d'anne total de la formation. : Dip_Form.Niveau : Nb_Annee_Diplome_Examen : Integer : Aucune : Aucune : Code regroupant des examens. Groupe Formation : Varchar(50) : Aucune : Aucune : Niveau du diplme suivant la nomenclature des

Si (GFE2.Code_GFE2= ) alors ? Sinon GFE2.Code_GFE2 Contrainte Lib GFE Description Emploi (GFE2). Source de donnes Destination Type de donnes Rgle de calcul : GFE2.Libelle_GFE2 : Lib_GFE : Varchar(50) : : Aucune : Libell regroupant des examens. Groupe Formation

Si (GFE2.Libelle_GFE2 = ) alors Non renseign Sinon GFE2.Libelle_GFE2 Contrainte Lib Groupe Secteur Pro Description : Aucune : Libell du regroupement de secteur professionnel de

l'examen (ou GFE = Groupe Formation Emploi). Source de donnes Destination Type de donnes Rgle de calcul : Groupe_Secpro.Libelle : Lib_Groupe_Secteur_Pro : Varchar(50) :

Si (Groupe_Secpro.Libelle = ) alors Non renseign Sinon Groupe_Secpro.Libelle Contrainte Code Secteur Professionnel Description : Aucune : Code du secteur professionnel de l'examen.

Joachim PELLICIOLI

72

4 Lentrept de donnes en pratique


Source de donnes Destination Type de donnes Rgle de calcul : Secteur_Pro.Code_Sec_Pro : Secteur_Professionnel : Varchar(6) :

Si (Secteur_Pro.Code_Sec_Pro = ) alors ? Sinon Secteur_Pro.Code_Sec_Pro Contrainte Lib Secteur Professionnel Description Source de donnes Destination Type de donnes Rgle de calcul : Aucune : Libell du secteur professionnel de l'examen. : Secteur_Pro.Libelle : Lib_Secteur_Professionnel : Varchar(50) :

Si (Secteur_Pro.Libelle = ) alors Non renseign Sinon Secteur_Pro.Libelle Contrainte Code Groupe Diplome Description Source de donnes Destination Type de donnes Rgle de calcul : Aucune : Code de regroupement des diplmes. : Groupe_diplome.Code_GDiplome : Groupe_Diplome : Varchar(6) :

Si (Groupe_diplome.Code_GDiplome = ) alors ? Sinon Groupe_diplome.Code_GDiplome Contrainte Lib Groupe Diplome Description Source de donnes Destination Type de donnes Rgle de calcul : Aucune : Libell de regroupement des diplmes. : Groupe_diplome.Libelle_GDiplome : Lib_Groupe_Diplome : Varchar(50) :

Si (Lib_Groupe_Diplome = ) alors Non renseign Sinon Lib_Groupe_Diplome Contrainte Code Diplome Description Source de donnes Destination Type de donnes Rgle de calcul : Aucune : Code du diplme (ex : BP, ...). : Diplome.Code_Dip : Diplome : Varchar(10) :

Si (Diplome.Code_Dip = ) alors ? Sinon Diplome.Code_Dip Contrainte Lib Diplome Description Source de donnes Destination Type de donnes Rgle de calcul : Aucune : Libell du diplme (ex : Brevet professionnel, ...). : Diplome.Libelle : Lib_Diplome : Varchar(50) :

Joachim PELLICIOLI

73

4 Lentrept de donnes en pratique


Si (Diplome.Libelle = ) alors Non renseign Sinon Diplome.Libelle Contrainte : Aucune

Site de formation Cet axe danalyse correspond la structure des centres de formation. Un CFA peut possder un ou plusieurs sites de formation. Ceux-ci sont des subdivisions du CFA, souvent lis des situations gographiques diffrentes. Le CFA est encadr par un organisme gestionnaire. Un organisme peut grer un ou plusieurs CFA. Cela met en vidence la hirarchie que nous allons citer en exemple : Organisme gestionnaire. Centre. Site. Cette hirarchie permet de faire des tudes dtailles par centre mais galement des tableaux agrgs par organisme gestionnaire. Nous pouvons regrouper les informations de cette dimension en grandes familles : Statut : Date douverture/fermeture, capacit daccueil, identifiant, type de structure (agricole, btiment, ). Gographique : Adresse, bassin. Campagne La dimension campagne est notre dimension de temps (anne et mois). Les Rgions collectent les effectifs par campagne. Par exemple la Rgion demande une remonte en octobre pour contrler le dbut de lanne scolaire, une remonte en dcembre pour contrler les carts lis aux ruptures de contrat et une remonte en mai pour vrifier les carts lis aux abandons. Dans cet exemple nous avons trois campagnes.

Apprenant Nous pourrions nommer cet axe danalyse apprenant anonyme . Comme nous lavons dj soulign, la Rgion rcupre certaines informations sur lapprenant, mais rien qui permet de lidentifier (pas de nom prnom, ni numro de tlphone, ni numro de rue). Uniquement des caractristiques sur les apprenants sont mises en vidence dans cette dimension. Nous retrouverons des notions sur le lieu dhabitation, la distance kilomtrique Joachim PELLICIOLI 74

4 Lentrept de donnes en pratique effectue par lapprenti, son ge, . . Voici les grandes familles dinformations sur la dimension apprenant : Dmographique : Age, sexe, nationalit. Gographique : Dpartement dhabitation, kilomtres parcourus entre le centre et le domicile. Antriorit : Qualit (interne, demi pensionnaire), origine scolaire avant CFA (par exemple 3me gnrale). La particularit de cette dimension est quelle ne reprsente pas les apprenants physiques . Nous stockerons un produit cartsien des diffrentes caractristiques possibles.

Entreprise Lapprentissage met en relation un apprenant avec une entreprise. De la mme manire que pour les apprenants, nous naurons pas dinformation sur la raison sociale de lentreprise ou sur le nom du dirigeant, mais uniquement des informations de localisation et de caractrisation de celle-ci. Nous pouvons citer en exemple, le secteur dactivit, leffectif de la socit, la localisation gographique, . . Reprsentons les grandes familles dinformations : Activit : Nomenclature dactivits franaise (NAF), nombre de salaris, origine du contrat (agricole, commerce, ). Gographique : Dpartement de lentreprise, kilomtres parcourus entre le centre et lentreprise.

4.5.3 Portefeuille dindicateurs effectifs


Pour la Rgion lobjectif de ce data mart est lexploitation de cette enqute, en comptant des effectifs dapprenants. Cela correspond notre premire table des faits que nous nommerons Fait_Effectif . Cette table des faits a pour particularit de ne pas disposer dlments calculs. Comme nous lavons vu dans le chapitre 3.3.1.1 Les faits ou indicateurs , une table des faits reflte habituellement une activit calcule. Dans notre cas, les effectifs se matrialisent par un comptage du nombre doccurrences. Ce type de table des faits se nomme : table des faits sans fait [KIM2]. Nous navons pas dindicateur

Joachim PELLICIOLI

75

4 Lentrept de donnes en pratique numrique contenu dans la table des faits, ce qui peut poser problme lors de la gnration des requtes par le logiciel de restitution. Nous allons essayer de dterminer limpact de la table des faits sans fait sur notre modle travers un exemple. Notre modle comprendra la table des faits effectif et la table des dimensions entreprise . La dimension entreprise sera simplifie au maximum, elle contiendra uniquement sa cl et la tranche deffectif.

Figure 21 Table des faits sans fait effectifs

Voici la requte gnre par un logiciel de restitution, pour obtenir les effectifs par ge :
SELECT DA .Tranche_Effectif, COUNT(DISTINCT(FE.Code_Dim_Entreprise)) FROM Fait_Effectif AS FE INNER JOIN Dim_Apprenant AS DA ON (FE.Code_Dim_Entreprise = DA.Code_Dim_Entreprise) GROUP BY DA.Effectif_Entreprise

Nous sommes obligs de passer par une formule comptant le nombre doccurrences dune valeur de la table des faits (cela correspond au nombre de lignes de la table des faits). Afin doptimiser la lisibilit des requtes nous allons ajouter un champ nomm effectif ayant pour valeur 1. Ceci nous permettra de standardiser les requtes sur la table des faits effectifs, en passant par linstruction SQL : SUM. Reprenons notre exemple avec ce nouveau champ.

Figure 22 Table des faits sans fait effectifs, avec champ effectifs

Nous pouvons modifier la requte afin de lcrire ainsi :


SELECT DA . Tranche_Effectif, SUM(FE.Effectif) FROM Fait_Effectif AS FE INNER JOIN Dim_Apprenant AS DA ON (FE.Code_Dim_Entreprise = DA.Code_Dim_Entreprise) GROUP BY DA.Effectif_Entreprise

Joachim PELLICIOLI

76

4 Lentrept de donnes en pratique Nous pouvons donner le portefeuille dindicateurs, qui dans notre cas ne correspond qu un seul indicateur :
Tableau IX Indicateur "effectifs" Indicateur : Effectif Description Rgles de calcul Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes Chaque ligne reprsente un apprenant. Si (Existe (une occurrence)) Alors 1 Boolean SUM Nombre Effectif.code_effectif Uniquement si une ligne existe dans la table source.

4.5.4 Schmatisation
Afin dapprhender les volumes changs, tudions les donnes du data mart sur les effectifs : Campagne : Site : Formation : Annee_formation : Apprenant : Entreprise : Fait_effectif : 30 campagnes. 140 sites par Rgion. 800 formations dispenses dans une Rgion. 2 500 annes de formation (anne par diplme). 300 lignes de caractristiques apprenants. 200 lignes de caractristiques entreprises. 450 000 faits.

Voici une reprsentation graphique des diffrentes dimensions et de la table des faits que nous venons dtudier :

Joachim PELLICIOLI

77

4 Lentrept de donnes en pratique

Figure 23 Modle effectifs

4.5.5 Ralisation
Comme nous lavons dfini, lobjectif primaire de ce data mart des effectifs est de grer plus facilement lanalyse des effectifs des apprentis au sein des centres ou du moins dune manire plus globale. Voici par exemple un document qui permet de ressortir lvolution des effectifs par niveau entre deux campagnes de collecte dinformation. Est galement mise en valeur la rpartition entre les effectifs fminins et masculins par niveau sur une anne prcise.

Joachim PELLICIOLI

78

4 Lentrept de donnes en pratique

Figure 24 Evolution des effectifs par niveau

Sans oublier que nous pouvons maintenant rpondre des questions ponctuelles, ce qui taient difficiles auparavant, voire infaisables. Voici quelques requtes ralises par les Conseils rgionaux : Obtenir les noms des dix CFA ayant le plus gros pourcentage deffectif fminin dans les mtiers du bois (technicien constructeur bois, charpentier, scieur, ). Obtenir la rpartition des apprentis handicaps par dpartement. Obtenir la liste des diplmes qui ont subi le plus fort taux de croissance durant trois annes conscutives.

4.5.6 Synthse
Le data mart effectifs apporte des lments de rponse aux diffrentes questions ad hoc des utilisateurs rgionaux. Il offre la possibilit de construire des documents de synthse sur les diffrentes formations ainsi que sur lvolution. Il met en vidence les tendances de lapprentissage de la Rgion. Comme nous lavons expliqu, certaines rponses taient trs difficiles obtenir, voire impossibles. Grce ce data mart les Conseils rgionaux peuvent maintenant y remdier.

Joachim PELLICIOLI

79

4 Lentrept de donnes en pratique Lintrt de ce data mart nest pas uniquement la restitution de lenqute et de son analyse. Nous allons pouvoir, grce aux effectifs, faire des corrlations entre les cots de fonctionnement et le nombre dapprenants. Pour pouvoir raliser ce type de tableau de bord nous devons construire un data mart financier. Nous allons ltudier dans la partie suivante.

4.6 Phase financier


Cette deuxime partie dtude porte sur les lments financiers. Les centres de formation procdent diverses saisies de donnes sur le portail de la Rgion. Ces saisies peuvent tre plus ou moins riches en termes de contenu dune Rgion une autre. Pour le Conseil rgional, cette partie devra mettre en valeur certaines donnes pour linstruction des dossiers. Mais avant tout il devra permettre de contrler les donnes en croisant les diffrentes saisies des CFA. Nous allons identifier les grandes familles qui donneront naissance aux diffrents data marts financiers : Comptes gnraux : Ce data mart est orient sur les comptes financiers. Cest lquivalent du plan comptable avec les valeurs financires des CFA. Il gre galement le budget en fonction de ces comptes. Frais de personnel : Les frais de personnel sont une charge importante pour les Rgions. Elles demandent aux centres de justifier avec plus ou moins de dtail les salaires des diffrents agents, ainsi que la rpartition horaire. Taxe dapprentissage : La taxe dapprentissage est la deuxime source de revenu dun CFA. La Rgion souhaite tre informe des montants que peroit le centre afin dadapter la subvention alloue. Dpense thorique : Data mart donnant des indicateurs sur les cots rels engags par les CFA ainsi que sur les aides mises disposition par la Rgion. Nous avons galement des indicateurs sur le transport, lhbergement et la restauration (THR). Cette partie ncessite des comptences importantes dans la structure du modle WinCRApprentissage afin de rcuprer, traiter et mettre en forme les donnes. Pour optimiser

Joachim PELLICIOLI

80

4 Lentrept de donnes en pratique les temps de dveloppement du projet, jai dcid dimpliquer un dveloppeur de WinCRApprentissage, ceci en accord avec la Direction. Je lui ai affect deux tches importantes, quil a ralises sur chaque data marts financier : Cration de procdure en SQL afin de prparer les donnes pour les tables des faits en fonction des rgles de calcul. Tests de cohrence des donnes entre le data warehouse et lapplication existante (phase de test unitaire et test dintgration). Comme pour le data mart sur les effectifs, nous ne raliserons pas de chiffrage prcis. Nous allons donner une estimation du nombre de ligne des dimensions et des faits. Cette estimation donnera un contexte sur les volumes globaux.

4.6.1 Comptes gnraux


4.6.1.1 Objectifs Ce premier data mart financier a pour but de restituer linformation des comptes financiers. Nous utilisons la classification des comptes comptables de la Rgion. Toutes les donnes sont reprsentes en deux notions : Ralis : Compte financier valid. Budgtis : Compte financier prvisionnel. Grce ces notions, la Rgion souhaite ressortir des donnes afin de valider les dossiers des centres (Le ralis suit-il le budget ? Quelle est lvolution dun compte particulier sur les cinq dernires annes ? .). Ce modle donnera galement accs une vision plus globale de la comptabilit, vision inter-centre. Ceci dans le but de croiser les donnes avec le service financier et contrler ainsi les dpenses publiques. 4.6.1.2 Axes danalyse Les comptes sarticulent autour de quatre grands axes danalyse : Comptes gnraux. Comptes analytiques. Joachim PELLICIOLI 81

4 Lentrept de donnes en pratique Priode comptable. Site de formation. Comptes gnraux Cette dimension reprendra les comptes du plan comptable gnral. Pour chaque compte la Rgion peut dfinir une famille ainsi quune sous famille. Ces deux notions permettent un regroupement diffrent de ceux dfinis par larborescence du plan comptable. Nous pouvons reprsenter ainsi les deux hirarchies : Famille Sous famille Compte du plan comptable gnral Compte du plan comptable gnral sur une position Compte du plan comptable gnral sur deux positions Comptes analytiques Les Rgions ont mis en place une comptabilit analytique. Cette comptabilit est trs frquemment utilise pour diffrencier les types de formations et les types daides. Pour formaliser ce besoin, les Rgions utilisent une notion de centre dactivit. Dans la majorit des cas, les centres dactivit se dcouperont de cette faon : Apprentissage : Dcoupe la part financire lie lapprentissage. Classe prparatoire lapprentissage (CPA) : Dcoupe la part lie aux classes prparatoires lapprentissage. Autre formation : Dcoupe la part de formation qui nest pas prise en compte par les deux premiers centres dactivits. Hbergement : Dcoupe la part concernant lhbergement (internat). Restauration : Dcoupe la part concernant la restauration (demi-pension). Transport : Dcoupe la part lie au transport (entre le centre et le lieu dhabitation de lapprenti). Tous les centres dactivits peuvent tre affins avec des comptes analytiques choisis par la Rgion.

Joachim PELLICIOLI

82

4 Lentrept de donnes en pratique Priode comptable Nous avons cr une dimension pour la priode comptable. Actuellement toutes les Rgions clientes travaillent en anne civile, allant du 1er janvier au 31 dcembre. La dimension nous garantira une structure volutive en cas de changement ou si une nouvelle Rgion devient consommatrice de lentrept de donnes. La priode comptable va permettre de sparer et comparer plusieurs annes afin de mettre en valeur les volutions du data mart sur les comptes gnraux, mais galement tous les autres data marts lis au financier.

Site de formation Cette dimension est commune au data mart effectifs. Nous lallons dcrite dans le paragraphe 4.5.2 Axes danalyse. 4.6.1.3 Portefeuille dindicateurs Afin de travailler avec la granularit la plus fine, nous devons descendre au niveau analytique les donnes de la table des faits. Pour un montant donn dun centre de formation, nous avons un montant ventil en fonction des comptes analytiques. Dans le schma ci-dessous, nous allons montrer la granularit de notre table des faits. Dans cet exemple nous travaillons sur les comptes dun site en particulier. Pour le compte 606120 fourniture : eau le solde dbiteur est de 500 : crdit de 200 et dbit de 700. Nous nallons pas enregistrer cette valeur, puisque nous ne pourrions pas recrer de tableau avec une prcision analytique . Pour pallier cette contrainte nous ajoutons deux lignes dans notre table des faits, une pour lanalytique apprentissage avec le solde dbiteur de 400 et une seconde ligne avec le solde dbiteur de 100 pour les CPA (donnes provenant de lapplication). Grce cette rpartition nous pouvons calculer les comptes dbit et crdit avec une prcision analytique.

Joachim PELLICIOLI

83

4 Lentrept de donnes en pratique

Figure 25 Granularit de la table des faits : comptes gnraux

Nous avons repris les indicateurs lis la comptabilit : Report au crdit, report au dbit : Montant report de lexercice comptable prcdent. Crdit, dbit : Montants saisis sur lexercice comptable actuel. Solde dbiteur, solde crditeur : Diffrence calcule entre le dbit et le crdit ainsi que les reports. Pour obtenir une granularit suffisante (dimension analytique), nous avons appliqu une rpartition des montants sur les diffrents comptes. Voici par exemple la description de lindicateur crdit :
Tableau X Indicateur "crdit" Indicateur : Crdit (C) Description Rgles de calcul Crdit de la priode comptable en cours. MA = Montant Analytique CS = Crdit Saisi

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Dcimal(10,3) SUM Euro WinCRApprentissage.TEMP_BO_FIN_FAIT.MNT_CRE Aucune

Joachim PELLICIOLI

84

4 Lentrept de donnes en pratique Pour faciliter les traitements jai ajout un nouvel indicateur solde sign afin dobtenir une valeur positive ou ngative en fonction du compte crditeur ou dbiteur. Voici la description de cet indicateur :
Tableau XI Indicateur "solde sign" Indicateur : Solde sign (SS) Description Solde positif ou ngatif. Nous avons besoin de cette distinction puisque pour une classe 6 le solde est dbiteur, mais si nous avons un montant au crdit plus important que le montant au dbit, le solde va devenir crditeur. Dans la colonne signe nous aurons un montant ngatif. Rgles de calcul Rappel SS = solde sign RC = Report crdit => RD = Report dbit C = Crdit => D = Dbit

Si (compte crditeur) alors

Sinon

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Dcimal(10,3) SUM Euro WinCRApprentissage.TEMP_BO_FIN_FAIT.MNT_SIGN Aucune

Les Rgions travaillent galement sur des donnes types budget pour prparer les comptes et les dossiers des centres de formation pour lanne venir. Ils ont la possibilit de travailler sur plusieurs budgets la fois. Il a t dfini que dans lentrept de donnes nous ne travaillerons quavec deux budgets, le budget de rfrence ainsi que le budget retenu par la Rgion. 4.6.1.4 Schmatisation et volumtrie Etudions les donnes volumtriques du data mart sur les comptes gnraux : Periode_comptable : Site : Compte_general : Compte_analytique : Fait_cpt_g : Joachim PELLICIOLI 10 priodes comptables (anne). 140 sites par Rgion. 520 comptes gnraux. 10 comptes analytiques. 160 000 faits. 85

4 Lentrept de donnes en pratique

Figure 26 Modle comptes gnraux

4.6.1.5 Ralisation Les Rgions ont besoin dobtenir des tableaux rcapitulatifs sur les comptes. Dans notre exemple, elles souhaitent obtenir une synthse des volutions des budgets des centres de formation tous comptes confondus. Un alerteur leur permet de cibler les centres ayant un budget en augmentation de plus de 10% (pourcentage en rouge). De la mme faon elles mettent en vidence les centres dont le budget diminue de la mme proportion (pourcentage en vert).

Joachim PELLICIOLI

86

4 Lentrept de donnes en pratique


Tableau XII Evolution du budget pour les centres

Joachim PELLICIOLI

87

4 Lentrept de donnes en pratique

4.6.2 Frais de personnel


4.6.2.1 Objectifs Dans la partie prcdente nous venons de dcrire le data mart sur les comptes financiers. Celui-ci ne suffit pas la Rgion pour grer un centre. Elle a besoin dans certains cas de plus de dtails, dexplications sur les chiffres et les montants fournis par les centres de formation. Cest le cas des frais de personnel, quils soient administratif ou formateur, personnel de direction ou sur un emploi de service. La Rgion peut ensuite transposer les chiffres par formation, par centre dactivit, . . Un autre intrt consiste valider les donnes saisies dans les comptes financiers et ainsi contrler la bonne gestion des centres. La Rgion a besoin de comparer les charges salariales sur une base commune pour le personnel. Il est dlicat de comparer plusieurs personnes car beaucoup de formateurs travaillent sur des contrats particuliers qui diffrent en termes dhoraire annuel. Pour pouvoir effectuer les comparaisons, nous utilisons un systme dquivalence temps plein (ETP) par catgorie de personnel (formateur, administratif, direction, ). Les Rgions ne travaillent pas toutes avec la mme prcision sur les donnes. Certaines se contentent de donnes globales dcoupes par analytique uniquement. Dautres prfrent obtenir les valeurs en dcoupant les salaires des formateurs par formations enseignes. Un autre objectif pour la Rgion est de travailler sur des donnes financires qui proviennent de la saisie des centres, mais galement de travailler sur des extrapolations afin de prparer ou confirmer leur budget. 4.6.2.2 Axes danalyse Voici les axes danalyse qui ont t relevs durant la phase danalyse : Priode comptable. Site de formation. Compte analytique. Formation. Personnel. Activit du personnel. Dans la liste ci-dessus certaines dimensions ont t dfinies dans dautres data marts. Les dimensions priode comptable , site de formation , compte analytique ont t Joachim PELLICIOLI 88

4 Lentrept de donnes en pratique dcrites dans le data mart compte financier. La dimension formation la t dans le data mart effectifs.

Personnel Cette dimension est lune des plus importantes de cette partie. Cest autour de celle-ci que vont seffectuer la majorit des analyses. Voici les grandes notions regroupes au sein de cette dimension : Etat civil : Nom, prnom, civilit, . Emploi : Catgorie professionnelle (enseignant, direction, administratif, surveillant, ), fonction (directeur, directeur adjoint, ), statut (contractuel, mise disposition, titulaire, ). Nous pourrons ainsi avoir accs aux informations financires avec une granularit de lordre de lindividu des niveaux dagrgation bien suprieurs comme par catgorie professionnelle ou encore par genre. La dimension personnel est une dimension volution lente [SYS2], certaines parties comme le nom peuvent changer (ex : en cas de mariage). Aprs concertation avec les Conseils rgionaux, il a t dcid de ne pas suivre lvolution dans le temps ; nous garderons uniquement la dernire valeur des bases de production.

Activit du personnel Les activits des personnels correspondent aux diffrentes tches que peut effectuer une personne. Par exemple un formateur a comme activit lenseignement, mais il peut galement prendre en charge la surveillance des devoirs, le soutien, . Certaines Rgions, comme la Rgion Lorraine, souhaitent perfectionner leur analyse en dterminant limpact par formation de chaque activit du personnel. Prenons lexemple dun formateur qui a ralis 1 250 heures sur la priode comptable, ceci donne un cot global enregistr dans les comptes. Pour que la Rgion puisse dfinir combien a cot le soutien, nous devons rcuprer les donnes correctement ventiles. Dans notre cas nous aurions : 900 heures de formation et 350 heures de soutien (la ventilation des heures va nous permettre de rpartir les montants).

Joachim PELLICIOLI

89

4 Lentrept de donnes en pratique 4.6.2.3 Portefeuille dindicateurs Afin de satisfaire toutes les Rgions, nous devons utiliser la granularit la plus fine. Dans ce data mart nous allons obtenir un dcoupage par personnel dun centre puis par analytique et enfin par activit et formation. Grce ce dcoupage les Rgions travaillant sur des donnes dtailles pourront ventiler leurs rsultats. Les autres Rgions travailleront sur des donnes agrges. Prenons un exemple afin de mieux comprendre ce dcoupage qui caractrise notre table des faits frais de personnel. Si le formateur Franck dun CFA X enseigne 100h durant la priode comptable, nous rpartirons les heures comme indiques sur le schma ci dessous :

Figure 27 Granularit de la table des faits : frais de personnel

Grce ce modle nous pouvons rpondre des questions retournant un rsultat agrg : Combien dheures ont t dispenses sur la priode comptable . Nous pouvons galement rpondre des questions retournant un rsultat dtaill : Quelle dure de surveillance a t dispense pour les CAP boulanger par des formateurs vacataires ? .

Nous sparons les faits de notre table en trois catgories : Heures : Nous avons plusieurs faits sur les heures afin de grer le suivi. Par exemple en heure classique, heure supplmentaire ou spciale. Charges : Toutes les charges lies aux personnels font parties de cette catgorie. Charges horaires, charges sociales, Joachim PELLICIOLI 90

4 Lentrept de donnes en pratique Masse salariale : Ce sont des indicateurs agrgs des diffrentes charges vues prcdemment. ECT : Nombre dheures, charges horaires et sociales des personnels calculs sur une base commune de travail afin de comparer les personnels. Afin de ne pas alourdir ce document, nous allons tudier un fait par catgorie voque. Voici le nombre dheures normales celui-ci correspond au nombre dheures inscrites au contrat et travailles sur la priode comptable.
Tableau XIII Indicateur "heures normales" Indicateur : Heures normales (HN) Description Nombre dheures normales par personnel pour une anne, un domaine analytique, ainsi quune formation. Rgles de calcul HNSF = Heures Normales Saisies par Formation MA = Montant Analytique Si rpartition par formation :

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Dcimal(10,3) SUM Heure au centime WinCRA.TEMP_BO_PERS_FAIT.NB_HEU_NO Sil nexiste pas de saisie du nombre dheures par formation, on prend le nombre dheures globales.

Les heures normales tant calcules, nous allons pouvoir nous baser dessus afin dtablir la charge lie aux heures normales.
Tableau XIV Indicateur "charges normales" Indicateur : Charges normales (CN) Description Cot du personnel pour les heures normales ralises. Note les CN tiennent compte de la rpartition analytique et de la formation puisque les HN sont dj ventiles. Les charges normales sont galement appeles salaire brut . Rgles de calcul Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes Dcimal(10,3) SUM Euro WinCRA.TEMP_BO_PERS_FAIT.MNT_HEU_NO Aucune

Joachim PELLICIOLI

91

4 Lentrept de donnes en pratique Voici le calcul de la masse salariale brute, elle correspond la somme des charges horaires et des charges sociales.
Tableau XV Indicateur "masse salariale brute" Indicateur : Masse salariale brute (MSB) Description Masse salariale brute paye pour le formateur, ventile par analytique et formation. Correspond la charge lie aux heures de formation plus les charges. Rgles de calcul CN CS CSP : Charges Normales/Sociales/Spciales CISA CE CS IT : Charges ISA/Externes/Sociales/Impts et taxes. Pour un personnel et une anne donne :

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Dcimal(10,3) SUM Euro WinCRA.TEMP_BO_PERS_FAIT.MASSE_SALARIALE_BRUT Aucune

Voici la charge horaire pour lquivalence temps plein qui permettra la comparaison sur une base commune des personnels :
Tableau XVI Indicateur "charges horaires quivalence temps plein" Indicateur : Charges horaires quivalence temps plein (CHETP) Description Correspond au cot horaire (cot li aux heures sans les charges) pour un formateur comme sil avait eu un temps plein (temps plein = nombre dheures HETP). Rgles de calcul CN CS CSP : Charges Normales/Sociales/Spciales HETP : Heure Equivalence Temps Plein HC : Heures Cumules Pour un personnel et une anne donne :

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Dcimal(10,3) SUM Euro WinCRA.TEMP_BO_PERS_FAIT. COUT_NO_TPS_PLEIN Aucune

4.6.2.4 Schmatisation Examinons les donnes volumtriques du data mart sur les frais de personnel que nous navons encore pas tudies :

Joachim PELLICIOLI

92

4 Lentrept de donnes en pratique Personnel : Rgion. Activite_personnel : Formation : Fait_frais_perso : 15 activits diffrentes. 800 formations dispenses dans une Rgion. 50 000 faits. 7 000 personnes travaillent dans les centres dune

Figure 28 Modle frais de personnel

4.6.2.5 Ralisation Voici un exemple livr aux Conseils rgionaux, qui met en valeur le cot dun formateur, ainsi que son quivalence en temps plein afin de comparer les enseignants dun CFA. Attention tous les chiffres prsents dans les exemples sont des donnes issues de base de test, il ne faut donc pas chercher faire des corrlations ou des rapprochements avec le monde rel. Joachim PELLICIOLI 93

4 Lentrept de donnes en pratique


Tableau XVII Exemple de rapport sur les frais de personnel

4.6.3 Taxe dapprentissage


4.6.3.1 Objectifs La taxe dapprentissage est lun des moyens de financement dun CFA. La Rgion a besoin de connaitre exactement les montants collects par un centre afin dadapter les subventions quelle reverse celui-ci. A des fins danalyses plus prcises, les donnes sont rparties dans diffrentes catgories. La Rgion veut pouvoir piloter un centre en particulier, mais aussi avoir des indicateurs plus globaux afin de se rendre compte de lutilisation de la taxe dapprentissage. Par exemple elle souhaite connaitre la rpartition entre les cots de fonctionnement et linvestissement. Comme pour le data mart sur les frais de personnel, la taxe dapprentissage doit permettre de confronter ces donnes avec les comptes financiers. Ce data mart dlivre aussi deux types de donnes, une sur les ralisations et une autre sur les budgets des centres de formation. 4.6.3.2 Axes danalyse De la mme manire que pour les autres data marts nous allons dterminer les axes danalyse de la taxe dapprentissage : Joachim PELLICIOLI 94

4 Lentrept de donnes en pratique Priode comptable. Site de formation. Eclatement de la taxe. Collecte de la taxe. La dimension priode comptable est commune au data mart sur les comptes financiers. Celle de site de formation est commune avec le data mart sur les effectifs.

Eclatement de la taxe Le montant de la taxe est un montant global rcupr par un centre de formation. A des fins danalyses nous le dcoupons en plusieurs familles : La catgorie : Elle permet de faire une premire distinction entre les diffrentes sommes verses (ex : quota rserv lapprentissage). La rpartition : Autre clatement permettant de dterminer la part de la taxe utilise pour une action particulire (ex : contribution aux dpenses des CPA). La ventilation : Permet de diviser le montant de la taxe en investissement ou en fonctionnement (ex : investissement : renouvellement normal de matriel). Collecte de la taxe Cette dimension offre des informations sur la provenance de la taxe dapprentissage. La Rgion a dfini quelques notions pour crer des regroupements sur la collecte de la taxe. Ainsi elle souhaite savoir si les fonds collects proviennent dentreprise s extrieures ses dpartements administratifs, . . 4.6.3.3 Portefeuille dindicateurs Pour la taxe dapprentissage, nous avons deux principaux indicateurs : Montant prvu de la taxe : Le montant estim de la taxe dapprentissage vers par les entreprises. Montant vers de la taxe : Le montant effectivement vers par les entreprises. Le schma ci-dessous montre comment un montant agrg peut tre rparti en fonction des informations sur la taxe dapprentissage. Dans cet exemple nous prenons un versement de 100 pour une entreprise X faisant partie de la catgorie apprentissage : Joachim PELLICIOLI 95

4 Lentrept de donnes en pratique

Figure 29 Granularit de la table des faits : taxe d'apprentissage

Comme dans nos autres data marts nous allons donner un exemple de fait. Ici nous tudions le montant vers de taxe :
Tableau XVIII Indicateur "Montant taxe vers" Indicateur : Montant taxe vers (MTV) Description Rgles de calcul Cest le montant de la taxe saisi sur le compte financier. MC : Montant catgorie MV : Montant ventilation MR : Montant rpartition MCol : Montant collecte Si ( ) Alors Si (Rpartition = Contribution aux dpenses du C.F.A. )

Sinon

Sinon Si (Rpartition = Contribution aux dpenses du C.F.A. )

Sinon

Joachim PELLICIOLI

96

4 Lentrept de donnes en pratique


Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes Dcimal(10,2) SUM Euro WinCRA.TEMP_BO_TAXE_APP.MONTANT Aucun

4.6.3.4 Schmatisation Examinons les donnes volumtriques du data mart sur la taxe dapprentissage que nous navons pas encore tudies dans les data marts prcdents : Eclatement_taxe : Collecte_taxe : Fait_taxe : 40 clatements diffrents. 10 types de collectes. 155 000 faits.

Figure 30 Modle taxe d'apprentissage

4.6.3.5 Ralisation Voici un exemple de ralisation forte valeur ajoute pour la Rgion. Comme nous lavons vu, les centres justifient la taxe dapprentissage collecte en la rpartissant dans diffrentes rubriques. Le centre transmet galement cette information via une criture comptable. Grce au tableau ci-dessous nous pouvons afficher les valeurs comptables ainsi que la saisie du centre, ce qui va nous permettre de mettre en vidence les diffrences. Nous Joachim PELLICIOLI 97

4 Lentrept de donnes en pratique utilisons un alerteur visuel en trois couleurs ; vert : le compte et la saisie sont quilibrs ; orange : un cart de moins de 20% est dtect ; rouge : pour les carts de plus de 20%.
Tableau XIX Exemple de rapport sur la taxe d'apprentissage

Joachim PELLICIOLI

98

4 Lentrept de donnes en pratique

4.6.4 Dpense thorique


4.6.4.1 Objectifs La dpense thorique est un indicateur primordial pour la Rgion. Elle correspond aux charges constates ou estimes dun centre de formation. Elle permet de se confronter la subvention rgionale. Chaque Rgion a mis en place un systme de calcul plus ou moins compliqu de la subvention. Celle-ci, comme nous lavons dj vu, doit couvrir les frais des CFA. La Rgion veille complter sous forme de subvention les fonds dj collects par la taxe dapprentissage pour couvrir les charges. Attention les Rgions travaillent sur la priode comptable (majoritairement lanne civile) et elles subventionnent les formations qui se droulent par anne scolaire. Pour arriver des donnes cohrentes, de nombreuses Rgions utilisent des coefficients de pondration, quelles appliquent sur les effectifs du premier semestre de la priode comptable ainsi que sur le deuxime. La Rgion demande aux centres de saisir les frais engags par formation. Elle leur demande galement de remplir les charges lies au transport, lhbergement ainsi qu la restauration. Nous parlons ici de transport puisque le CFA fait lintermdiaire entre lapprenti et la Rgion qui subventionne ses dplacements. La Rgion souhaite pouvoir obtenir des tableaux de bord comparant la subvention verse dun CFA un autre pour une formation donne. Ces indicateurs sont importants car ils permettent de confronter les dossiers des centres des moyennes de terrain et ainsi la Rgion pourra mettre en uvre une politique daccompagnement pour rduire les carts. Elle souhaite avoir galement des tats donnant des indicateurs sur les cots globaux de formation. Ce que la Rgion dfinie par cots globaux correspond la dpense thorique de formation et la dpense lie aux THR. 4.6.4.2 Axes danalyse Nous concevrons la mme mthodologie que pour les autres data marts et nous listons les diffrents axes danalyse : Priode comptable. Site de formation. Formation. Paramtrage de la formation. Qualit de lapprenti. Joachim PELLICIOLI 99

4 Lentrept de donnes en pratique Les dimensions priode comptable , site de formation et formation ont dj t dfinies dans les autres data marts.

Paramtrage de la formation Cette dimension donne un certain nombre dinformations sur la formation : date douverture de celle-ci, effectifs maximum et minimum autoriss dans une classe, pourcentage de subvention de la Rgion, . Dans notre modle nous avons souhait crer une seule dimension avec ces informations. Nous avons ainsi cr le produit cartsien des diffrentes possibilits de paramtrage des formations. Nous sparons ces diffrentes informations en trois familles : Formation : Nous retrouvons les informations sur les effectifs, les dates douverture et fermeture de la formation, lanne de formation, . Financire : Nous retrouvons les diffrents barmes ou taux de prise en charge de la formation par la Rgion. Anne de formation : Elle correspond lanne de formation ralise par les apprentis. Qualit Cette dimension a une utilit pour les indicateurs lis aux transports, lhbergement ainsi quaux repas. Nous la retrouvons dans les diffrentes qualits : interne, demipensionnaire et externe. Certaines Rgions travaillent avec dautres qualits comme interneextern . 4.6.4.3 Portefeuille dindicateurs Nous avons plusieurs indicateurs pour grer cette partie : Effectifs : Nous retrouvons les effectifs par semestre, les effectifs pondrs, redoublants ou encore denseignement spcialis Heures : Nous avons des mesures sur les heures prvues la convention, sur les heures subventionnes, les heures par semestres, en enseignement spcialis, Montants : Nous retrouvons comme indicateurs les montants de dpense thorique engags par le centre de formation, les montants de subvention, les montants pour lenseignement spcialis, .

Joachim PELLICIOLI

100

4 Lentrept de donnes en pratique Transport : Nous regroupons toutes les mesures lies aux transports (nombre de transports, montant de la charge, montant de la subvention). Hbergement : Nous regroupons toutes les mesures lies lhbergement (nombre de nuites, montant de la charge, montant de la subvention). Restauration : Nous regroupons toutes les mesures lies aux repas (nombre de repas, montant de la charge, montant de la subvention). Afin de bien comprendre la granularit mise en place dans ce data mart, prenons un exemple. Nous avons une dpense thorique (DTO) de 100 pour la formation BTS Comptabilit dun site X. La Rgion prend en charge 60% du montant de la dpense thorique (Sub).

Figure 31 Granularit de la table des faits : dpense thorique

Voici quelques exemples de faits mis en uvre dans ce data mart, nous commenons par un fait sur les mesures des effectifs :

Joachim PELLICIOLI

101

4 Lentrept de donnes en pratique

Tableau XX Indicateur "effectifs pondrs" Indicateur : Effectifs pondrs (EP) Description Effectifs pondrs en fonction dun coefficient entre les effectifs d u 1er et du 2me semestre. Utiles pour le calcul de la subvention. Rgles de calcul ES1/ES2 : effectifs semestre 1 / effectifs semestre 2

Exception pour CR Centre a = Anne de formation

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Rel SUM Aucune WinCRA.TEMP_BO_DTO_THR.EFF_PONDERE Aucune

Voici un autre indicateur, cette fois nous mesurons la subvention verser :


Tableau XXI Indicateur "Montant subvention" Indicateur : Montant subvention (MS) Description Montant de subvention rgionale attribu. Nous prenons un pourcentage du montant de la dpense thorique. Rgles de calcul MDT : Montant de la dpense thorique

Type de donnes Fonction dagrgation Unit de mesure Source de donnes Contraintes

Decimal(10,3) SUM Euro WinCRA.TEMP_BO_DTO_THR.MNT_SUBVEN Aucune

4.6.4.4 Schmatisation Comme pour les autres modles nous allons examiner les donnes volumtriques du data mart sur la dpense thorique que nous navons encore pas tudie : Formation_centre : Qualite : Fait_dto : 7500 paramtrages diffrents de formations. 4 qualits diffrentes. 41 500 faits.

Joachim PELLICIOLI

102

4 Lentrept de donnes en pratique

Figure 32 Modle dpense thorique

4.6.4.5 Ralisation Voici un exemple de tableau de bord comparant le cot de formation des BEPA travaux paysagers dun centre un autre. La Rgion peut ainsi contrler les divergences, bien entendu ce tableau ne suffit pas prendre une dcision rationnelle. Il faut absolument croiser les donnes avec dautres indicateurs (investissements, charges de personnel, .). Comme dans de nombreux documents mis disposition des Rgions, nous avons un systme dindicateur visuel. Dans cet exemple, il souligne les CFA ayant un cart de plus de 10% entre la subvention verse et la moyenne des subventions pour la formation en question.

Joachim PELLICIOLI

103

4 Lentrept de donnes en pratique


Tableau XXII Exemple de rapport sur la dpense thorique

4.6.5 Synthse
Cette partie vient de dcrire lanalyse et la mise en place du data mart financier. Celuici se dcoupe en plusieurs domaines. Chacun offrant un certain nombre dindicateurs lis au domaine analys. Presque tous ces data marts ont une dimension commune : celle de la formation. Grce celle-ci nous pouvons croiser linformation contenue dans chaque sous ensemble. Par exemple nous pouvons afficher pour la formation X, le montant des charges salariales provenant du data mart frais de personnel , le montant de la subvention rgionale provenant du data mart dpense thorique . Grce au data mart sur les effectifs nous pouvons maintenant crer des tableaux de bord avec des cots par apprenti. Ceci a un fort impact pour les hommes politiques et pour la gestion de lducation. Il ne faut pas oublier que lentrept offre des donnes fiables et corriges, correspondant aux tudes actuelles (NAF homognise, nomenclature, ). Enfin la corrlation du data mart effectifs et financier se schmatise par une constellation :

Joachim PELLICIOLI

104

4 Lentrept de donnes en pratique

Figure 33 Constellation WinCRAnalyse

Ces diffrents data marts apportent un support pour les requtes des utilisateurs. De nombreux croisements sont possibles afin danalyser, voire dextrapoler les donnes. Les utilisateurs pourront ainsi prvoir avec plus de prcisions les budgets. Les requtes, grce au modle en toile, sont globalement rapides. Ceci offre un rel confort aux utilisateurs qui sollicitent plus facilement loutil. Comme nous avons transpos les donnes dans lentrept, nous offrons de nouvelles perspectives lutilisateur, certaines donnes dcoupes en prorata pourront tre agrges et mises en valeur par une dimension en particulier. Ces traitements taient impossibles avec le SIO actuel.

Joachim PELLICIOLI

105

4 Lentrept de donnes en pratique

4.7 Phase de finalisation


La phase de finalisation est excute pour chacune des sous parties (ETL, effectifs, financier, ). Nous allons la dcrire globalement dans ce chapitre, en montrant le dveloppement effectu dans Business Objects (BO) ainsi que les diverses documentations ralises. Puis nous terminerons par ma mthodologie de formation prpare pour les agents rgionaux.

4.7.1 Business Objects


La solution retenue pour la restitution de donnes est la suite logicielle de Business Objects XI R2. Nous travaillons avec deux des produits de la suite : BO Designer. BO WebIntelligence. BO Designer Afin de prparer les donnes, BO impose la cration de ce quil appelle un univers . Celui-ci a pour but de rassembler un certain nombre dinformations pour faciliter la cration des rapports, ainsi que pour optimiser la navigation dans les donnes. Lunivers est le pendant du data mart, il donne une vue mtier sur des donnes cibles pour un ensemble dinformations analyser. BO Designer permet la cration de diffrents objets qui seront utiliss par les agents. Ces objets correspondent la mme notion que nous avons dj vue. Nous retrouvons les dimensions pour les champs dinformations et les indicateurs pour les champs calculs. Nous avons galement la possibilit de crer des classes dinformations afin dengendrer une arborescence fonctionnelle. Pour tous ces objets, nous pouvons ajouter des commentaires qui complteront la documentation pour les utilisateurs finaux. Dans BO Designer nous prparerons galement les hirarchies contenues au sein de nos dimensions afin de permettre les actions de drill down et drill up. Enfin une autre fonctionnalit de BO Designer est de crer des filtres pr-paramtrs afin de faciliter le travail des utilisateurs. Dans notre cas ces filtres ont t tablis avec les agents du Conseil rgional. Nous restons leur disposition afin dajouter dans les versions suivantes les nouveaux filtres. Joachim PELLICIOLI 106

4 Lentrept de donnes en pratique Toute la partie de cration dunivers, dobjet, de filtre, est ralise par Ymag puis fournie la Rgion. Compte tenu de nos objectifs, nous avons limit au maximum les interactions avec lunivers, afin de ne pas dfavoriser les Rgions nayant pas BO. Ainsi les traitements sur les donnes, comme par exemple, la concatnation de deux champs, sont dplacs dans lentrept de donnes et sont traits par lETL.

BO WebIntelligence Cest une solution permettant dinterroger lentrept de donnes via lunivers cr dans le BO Designer. Cette partie est utilise par les agents du Conseil rgional et permet : De crer des rapports et des tableaux de bord. De crer des requtes dynamiques. Danalyser des donnes (principe OLAP). BO WebIntelligence est ce que nous appelons un client lger, il est accessible via un navigateur internet et ne ncessite aucune installation sur les postes clients. BO WebIntelligence exploite la technologie D-OLAP (cf. 3.4.1 Dfinition) et sappuie sur les informations qui ont t dfinies dans BO Designer (hirarchie, indicateur, .). Voici comment se construit une requte utilisateur dans BO WebIntelligence :

Figure 34 BO WebIntelligence : requte

Joachim PELLICIOLI

107

4 Lentrept de donnes en pratique

4.7.2 Documentation
Jai souhait ralis plusieurs documentations, pour rpondre des problmatiques internes de suivi de projet, mais galement pour transmettre le maximum dinformations aux clients. Jai structur la documentation en trois axes : Documentation technique : Elle vise les diffrents collaborateurs dYmag qui auront travailler sur ce projet. Elle dcrit les diffrentes phases de ralisation, les choix techniques et les manipulations sur les donnes. Elle donne une description de chaque champ de lentrept de donnes, du type utilis ainsi que des informations sur la source de celui-ci. Jai galement crit quelques normes pour le nommage des tables et des champs pour la base de donnes, idem pour objets crs dans BO. Documentation fonctionnelle : Elle est conue pour les utilisateurs. Elle apporte des descriptions de chaque champ. Elle explique les diffrents changements sur les donnes. Les faits sont galement expliqus et des tableaux avec des formules aident comprendre la structure des donnes. Pour les utilisateurs de la suite Business Object, nous donnons galement des informations sur les hirarchies cres ainsi que sur les filtres prdfinis. Rapports types : Nous offrons avec notre solution un ensemble de rapports types crs en BO WebIntelligent. Ceux-ci donnent aux utilisateurs un exemple de requtes plus ou moins complexes, ainsi que de rsultat obtenu. Ces exemples sont issus de cas concrets et apportent les premiers lments de rponses aux problmatiques rencontres par les agents (accessibilit de certaines donnes, manque de souplesse, .).

4.7.3 Formation
Dans cette phase de finalisation, jai prpar les formations pour les utilisateurs des Conseils rgionaux. Ces formations concernent un public vari avec des attentes diffrentes. Dans tous les cas la mme mthodologie est applique : utilisation des documents fournis, explication thorique du fonctionnement, sances de questions-rponses et enfin mise en pratique des nouvelles notions acquises. Normalement les utilisateurs sont dj forms aux outils de cration de requtes et mise en forme des documents (BO WebIntelligence, .). Joachim PELLICIOLI 108

4 Lentrept de donnes en pratique Jai dcoup en deux familles le public vis par les formations : Service informatique. Service de la formation et de lapprentissage. Service informatique : La formation du service informatique concerne les points techniques de notre solution. La premire partie consiste sensibiliser ce service sur larchitecture que nous avons mise en place (ETL, base de donnes, communication entre serveurs). Ensuite en fonction de leurs besoins (souvent exprims au cours dune runion tlphonique au pralable), nous adaptons notre modle et notre formation afin de correspondre leur architecture. Une fois que tous ces dtails techniques sont rsolus nous passons la phase dapprentissage sur linstallation des diffrents composants de notre solution. Ensuite nous voyons comment le service informatique devra ragir lors des mises jour que nous leur fournirons (changement de version de lentrept de donnes). Ces changements de version seront le rsultat de la maintenance volutive du produit. En dernier point, nous travaillons sur le paramtrage et surtout sur le contrle de lexcution de lETL. Cette partie leur permet de rester autonome et de pouvoir ragir en cas de disfonctionnement du module ETL. Service de la formation et de lapprentissage Cette partie sadresse lensemble des personnes du service de la formation et de lapprentissage, cela signifie que nous formons autant les chefs de service que les agents de terrain. La formation dure 2 jours voici comment elle est structure : Rappel sur le principe de base de donnes dcisionnelle : Explications sur les objectifs et les attentes dun tel outil. Nous donnons des exemples sur les possibilits ainsi que les limites. Prsentation des univers effectifs et financiers : Explications sur les diffrents concepts utiliss. Nous en profitons pour expliquer quelques transformations apportes. Manipulation des donnes : Dans cette partie nous tudions diffrentes requtes sur les donnes de notre entrept. Nous commenons par de petites requtes simples et nous augmentons progressivement leurs complexits (filtre, filtre complexe, multi requte). Une fois ces concepts maitriss, nous passons au Joachim PELLICIOLI 109

4 Lentrept de donnes en pratique requtes multi data marts (ou univers pour BO). Ce qui leur permet dentrevoir les possibilits de loutil mis disposition. Un dernier point est abord, celui de la cohrence des donnes. Au sein de lentrept, jai mis une table qui donne la date et lheure du dernier chargement des donnes ainsi que ltat des donnes (donnes partiellement charges, compltement charges, .). Grce cela les agents pourront ajouter ces indicateurs qui justifieront la qualit des donnes du document prsent (donnes rcentes ou datant de plus de trois semaines, ).

4.7.4 Synthse
Je suis persuad que ces diffrentes tapes de documentation et de formation sont primordiales au sein de ce projet. Nous offrons aux utilisateurs un outil trs performant, qui demande tre exploit. Si les personnes ne savent pas lutiliser ou perdent trop de temps, le projet est vou lchec. Durant la formation il nest pas rare de ctoyer des personnes rticentes vis--vis de loutil, mais leur attitude change en voyant les solutions apparaitre leurs problmes de tous les jours. De plus les diffrentes documentations leur permettent dvoluer dune faon autonome et leur vitesse. Jai galement souhait apporter beaucoup dimportance aux documentations, souvent ngliges dans les projets, afin de gagner en temps de maintenance. Il est important de laisser une trace des diffrentes tapes du projet, ainsi que les explications techniques de faon ce quYmag puisse affecter dautres personnes sur ce projet.

Joachim PELLICIOLI

110

5 Conclusion

5 Conclusion
Le service de la formation et de lapprentissage du Conseil rgional a sollicit ma socit afin que nous les aidions raliser une base de donnes dcisionnelle. Le Conseil rgional nous a fait part de ses contraintes et de ses attentes : tableaux de bord, requte la demande, analyse des donnes, recherche de solutions et tout ceci sur des donnes fiables. Nous avons, au travers de ce mmoire, prsent la conception et la ralisation de ce projet. Dans un premier temps, je me suis form aux diffrentes technologies et concepts quil me manquait afin de raliser un entrept de donnes. Ensuite en me basant sur les acquis thoriques, jai ralis celui-ci.

Le data mart effectifs apporte de nouvelles perspectives aux Conseils rgionaux. Le service de la formation et de lapprentissage devient autonome face aux requtes ponctuelles qui sont ncessaires la ralisation de leurs travaux. Avec la vision globale quoffre le data mart effectifs, la Rgion peut effectuer des tableaux volutifs sur X annes et ainsi prvoir les volutions par centre de formation, mais aussi plus globalement par filire. Elle peut veiller plus efficacement aux problmes de mixit de certains mtiers et agir en consquence pour diminuer les carts. Ces donnes permettent de prvoir les cots longs termes (cration dun nouveau CFA, ). Le data mart financier quant lui apporte un lment de contrle et de cration de requte. Grce cet outil, les utilisateurs ressortent des donnes financires brutes afin dtablir des documents propres une instruction de dossier. Cet outil, au del des possibilits de reporting ou de cration de requte la demande, met en valeur des incohrences dans les donnes financires. La Rgion peut contrler la taxe collecte en la comparant aux comptes financiers dun CFA et rguler la prime verse en fonction de lanalyse. Avec le dcoupage effectu lors de la ralisation des diffrents modules de ce data mart, nous arrivons estimer un cot de formation par apprenant (en croisant avec les donnes du data mart effectifs). Les chiffres obtenus donnent la possibilit aux Conseils rgionaux de comparer les CFA pour une mme formation. Toutes ces informations leur permettent de mieux grer les finances publiques. Comme nous lavons vu, le poste de dpense de la formation est le plus important dun Conseil rgional.

Joachim PELLICIOLI

111

5 Conclusion Ce travail a apport la connaissance de linformatique dcisionnelle Ymag. Il nous ouvre de nouvelles perspectives pour nos autres produits. Les Conseils rgionaux ont la solution quils attendaient et peuvent continuer leur politique de contrle des dpenses publiques. Le dveloppement de ce projet est termin, les retours de la Rgion Centre sont positifs, les autres Rgions prennent rendez-vous pour linstallation et la formation. Nous entrons progressivement dans une phase de maintenance volutive, en fonction des futures remontes des Conseils rgionaux. Actuellement la solution que jai ralise durant ce stage est en production dans la Rgion Centre : Rgion pilote. Je suis en train de dployer lentrept en Rgion Rhne-Alpes et Lorraine, suivront les sances de formations. Nous venons de recevoir des contacts de la Rgion Bourgogne ainsi que de la Rgion Provence Alpes Cte dAzur pour la mise en place de lentrept. La Rgion Bretagne quant elle, a command uniquement le data warehouse sans prendre lunivers Business Object que nous livrons. Ce projet a t techniquement trs riche pour moi. La Direction dYmag ma offert une grande libert dexcution. Jai pu travailler sur une technologie inconnue de mon entreprise. Rechercher linformation, la structurer, la valider et enfin crer lentrept de donnes pour les Conseil rgionaux. Auparavant jai toujours volu sur des bases de donnes relationnelles. Structurer diffremment ma logique pour travailler sur les bases de donnes dcisionnelles ma ouvert lesprit dautres conceptions. Passer par cette d-normalisation afin de rpondre une problmatique de restitution a t trs enrichissant. Ma vision a galement volu avec la cration du module dintgration des donnes (ETL). Celui-ci doit rpondre de nombreuses contraintes (donnes pr-charges, cls externes, donnes calcules, .), il doit tre robuste, rapide et sans faille. Il est le garant des donnes prsentes dans lentrept. Malgr cette complexit, son interface de gestion est simplifie au maximum pour les utilisateurs. Afin de raliser lETL, je me suis familiaris avec la syntaxe SQL de Microsoft SQL Server. En parallle lentrept de donnes, mon entreprise ma financ une formation sur les outils de SAP, jai acquis les comptences en matire de cration dunivers BO ainsi que sur la cration de document WebIntelligence. Le travail dinvestigation a t particulirement captivant avec la Rgion Centre. Grce la concertation avec les agents nous avons obtenu de nombreuses rponses conceptuelles qui ont amlior la ralisation du projet. La diversit des personnes (assistantes, responsables, Joachim PELLICIOLI 112

5 Conclusion chefs de service, lus) avec lesquelles jai travaill en Rgion a compliqu la tche. Cest pourtant grce cette richesse que nous avons atteint nos objectifs. Pour acclrer la ralisation du data mart financier, il tait important que je fasse participer un collgue ce projet. Afin quil puisse travailler dans un environnement connu, je lai form linformatique dcisionnelle, en le sensibilisant aux objectifs danalyse et de pilotage de lentrept de donnes. Il maurait t difficile de raliser ce projet sans le soutien des cours que jai effectus durant mes six annes passes au C.N.A.M. Ma formation ma permis de prendre de la hauteur sur un tel projet. Des cours, tel que lingnieur au XXIme sicle, mont permis de synthtiser les demandes des clients. Dautres cours comme la communication mont aid prendre la parole avec des personnes ayants de nombreuses responsabilits, comme les chefs de services. Grce ma formation et mon entreprise, jai ralis un entrept de donnes qui rpond aux attentes des Conseils rgionaux. Suite celui-ci, un nouveau besoin est n et dautres data marts sont en projet Ymag.

Joachim PELLICIOLI

113

Table des illustrations

Table des illustrations


Listes des figures
Figure 1 Ymag nombre de salaris et chiffre d'affaire .................................................... 11 Figure 2 Ymag organigramme ........................................................................................ 11 Figure 3 Budget 2010 Rgion Centre [REG1] ................................................................ 13 Figure 4 Flux du data warehouse .................................................................................... 20 Figure 5 Composants de base du data warehouse ........................................................... 21 Figure 6 Data mart .......................................................................................................... 24 Figure 7 Exemple de table des faits et dimensions ......................................................... 27 Figure 8 Modlisation en toile....................................................................................... 28 Figure 9 Modlisation en flocon ..................................................................................... 29 Figure 10 Modlisation en constellation ......................................................................... 30 Figure 11 OLAP Drill up et drill down ........................................................................... 35 Figure 12 OLAP Rotate .................................................................................................. 35 Figure 13 OLAP Slicing ................................................................................................. 36 Figure 14 OLAP Scoping ................................................................................................ 36 Figure 15 ETL ................................................................................................................. 37 Figure 16 Graphique des interactions de l'ETL .............................................................. 59 Figure 17 XML Schma - procdure de l'ETL ............................................................... 62 Figure 18 XML Schma - table de l'ETL ........................................................................ 62 Figure 19 Interface de gestion de l'ETL .......................................................................... 64 Figure 20 D-normalisation ............................................................................................ 66 Figure 21 Table des faits sans fait effectifs ..................................................................... 76 Figure 22 Table des faits sans fait effectifs, avec champ effectifs.................................. 76 Figure 23 Modle effectifs .............................................................................................. 78 Figure 24 Evolution des effectifs par niveau .................................................................. 79 Figure 25 Granularit de la table des faits : comptes gnraux ...................................... 84 Figure 26 Modle comptes gnraux .............................................................................. 86 Figure 27 Granularit de la table des faits : frais de personnel ....................................... 90 Figure 28 Modle frais de personnel ............................................................................... 93 Joachim PELLICIOLI 114

Table des illustrations Figure 29 Granularit de la table des faits : taxe d'apprentissage ................................... 96 Figure 30 Modle taxe d'apprentissage ........................................................................... 97 Figure 31 Granularit de la table des faits : dpense thorique .................................... 101 Figure 32 Modle dpense thorique ............................................................................ 103 Figure 33 Constellation WinCRAnalyse ....................................................................... 105 Figure 34 BO WebIntelligence : requte ...................................................................... 107

Listes des tableaux


Tableau I Comparaison OLAP vs OLTP ........................................................................ 33 Tableau II Calendrier des phases .................................................................................... 44 Tableau III Objectifs synthse ........................................................................................ 49 Tableau IV Synthse des choix technologiques .............................................................. 53 Tableau V Grille de description des dimensions ............................................................ 66 Tableau VI Grille de description des indicateurs ............................................................ 68 Tableau VII Mthodologie de conception....................................................................... 69 Tableau VIII Axe danalyse : Formation ........................................................................ 71 Tableau IX Indicateur "effectifs" .................................................................................... 77 Tableau X Indicateur "crdit" ......................................................................................... 84 Tableau XI Indicateur "solde sign" ............................................................................... 85 Tableau XII Evolution du budget pour les centres.......................................................... 87 Tableau XIII Indicateur "heures normales" .................................................................... 91 Tableau XIV Indicateur "charges normales" .................................................................. 91 Tableau XV Indicateur "masse salariale brute" .............................................................. 92 Tableau XVI Indicateur "charges horaires quivalence temps plein"............................. 92 Tableau XVII Exemple de rapport sur les frais de personnel ......................................... 94 Tableau XVIII Indicateur "Montant taxe vers" ............................................................. 96 Tableau XIX Exemple de rapport sur la taxe d'apprentissage ........................................ 98 Tableau XX Indicateur "effectifs pondrs" ................................................................. 102 Tableau XXI Indicateur "Montant subvention" ............................................................ 102 Tableau XXII Exemple de rapport sur la dpense thorique ........................................ 104

Joachim PELLICIOLI

115

Rfrences bibliographiques

Rfrences bibliographiques
Livres
[KIM1] KIMBALL (Ralph). REEVES (Laura). ROSS (Margy). THORNTHWAITE (Warren). - Le data warehouse : Guide de conduit de projet. - Paris : Eyrolles, 2008.576 p. [KIM2] KIMBALL (Ralph). Entrept de donnes : Guide pratique de conception de data warehouse . - Paris : International Thomson Publishing, 1997.- 368 p. [CHA1] CHARTIER-KASTLER (Cyrille). - Prcis de conduite de projet informatique. - Les ditions dorganisation, 1997.

Livres blancs
[COD1] CODD (E.F.). CODD (S.B.). SALLEY (C.T.) - Providing OLAP to User-Analysts. E.F. CODD & Associate, 1993.- 20 p. [SMI1] Smile open source solution - Providing OLAP to User-Analysts. Smile open source solution, 2010.- 78 p.

Sites internet
[INM1] A definition of Data Warehousing . In Intranet Journal [En ligne] http://www.intranetjournal.com/features/datawarehousing.html (Page consulte le 29 septembre 2009). [INS1] Nomenclature d'activits franaise - NAF rv. 2, 2008 . In INSEE [En ligne] http://www.insee.fr/fr/methodes/default.asp?page=nomenclatures/naf2008/naf2008.h tm (Page consulte le 09 novembre 2009).

Joachim PELLICIOLI

116

Rfrences bibliographiques [LAP1] Le financement de lapprentissage . In lapprentis [En ligne]

http://www.lapprenti.com/html/cfa/financement.asp (Page consulte le 29 septembre 2009) [REG1] Budget 2010 In Rgion Centre [En ligne]

http://www.regioncentre.fr/jahia/Jahia/site/portail/Budget-2010 (Page consulte le 15 fvrier 2010). [SYS1] Le portail des systmes ETL . In systemetl [En ligne]

http://www.systemeetl.com/Portail_etl.htm (Page consulte le 01 octobre 2009) [SYS2] Dimensionsdiffrents types . In systemetl [En ligne]

http://www.systemeetl.com/types_dimensions.htm (Page consulte le 05 fvrier 2010) [WIK1] Data mart . In Wikipedia [En ligne] http://fr.wikipedia.org/wiki/Data mart (Page consulte le 8 dcembre 2009) [WIK2] Chambre du commerce et de lindustrie . In Wikipedia [En ligne] http://fr.wikipedia.org/wiki/Chambre_de_commerce_et_d%27industrie consulte le 30 septembre 2009) (Page

Joachim PELLICIOLI

117

Conception dun entrept de donnes corrlant les effectifs en apprentissage et le suivi financier des centres de formation. Mmoire dingnieur C.N.A.M., Dijon 2010.

Rsum
Les travaux prsents dans ce mmoire concernent la construction dun entrept de donnes pour le service de la formation et de lapprentissage des Conseils rgionaux. Cette solution offre un outil daide la dcision sur les effectifs en apprentissage de la Rgion, ainsi que sur les donnes financires des centres de formation. Mon travail sest structur en trois parties. La premire concerne lanalyse thorique des diffrents composants qui constituent linformatique dcisionnelle. La seconde sattache la mise en pratique des notions thoriques dans la mise en place dun magasin de donnes pour la gestion des effectifs et pour la gestion financire des centres de formation par alternance. La troisime partie correspond la mise en place de la solution chez nos clients : formations, documentations et maintenance volutive. Mots cls : Systme dinformation dcisionnelle, ETL, entrept de donnes, magasin de donnes.

Summary
The project presented in this dissertation relates to the construction of a data-warehouse for the training and apprenticeship department of the Region councils. This solution offers a support tool to facilitate decisions concerning the apprentices in the Region as well as financial data in the training centres. My dissertation is structured in three parts. The first part deals with the theoretical analysis of the different components which factored in the decision support system. The second part concerns the application of the aforementioned theories in order to create a data-mart to manage information regarding both personnel and finance in alternating training centres. The third part looks at how to put a solution in place within our clients' companies; training, documentation and ongoing maintenance. Key words: Decision support system, ETL, data-warehouse, data-mart.