Vous êtes sur la page 1sur 22

Analyse

Dimensionnelle Datawarehouse et moteur OLAP.


Rapport de ltude pour le module dArchitecture Logicielle Joris VASSOU Jordan DECOT Alexandre LEBLUN Bastien BARBE Architecture logicielle 8 Novembre 2012

Sommaire :
Table of Contents
1. Introduction ............................................................................................................................... 3 1.1. Les outils usuels des bases de donnes ........................................................................................ 3 1.2. Des donnes toujours plus volumineuses .................................................................................... 3 2. Larchitecture dcisionnelle ................................................................................................. 5 2.1.1. Datamart .............................................................................................................................. 10 2.2. Analyse des donnes .................................................................................................................. 10 2.2.1. Datamining .......................................................................................................................... 10 2.2.2. OLAP ..................................................................................................................................... 10 3. Avantages/Inconvenients du moteur OLAP ................................................................. 13 3. Structures et Agrgations .................................................................................................. 15 4.1. . Datawarehouseonclusion ....................................................................................................................................... 22 Bibliographie ......................................................................................................................................... 22

1. Introduction
1.1. Les outils usuels des bases de donnes
Avant de commencer dcrire le datamining et aux outils qui gravitent autour, il faut comprendre pourquoi les autres outils de bases de donnes ne susent parfois plus. Les intrts des SGDB usuels Le datamining qui sera prsent plus loin ne rvolutionne pas le monde de la persistance. Il napporte pas certaines qualits quore un outil que nous qualierons de plus classique. Pour comprendre cela il faut comprendre dans quel but les outils de SGBD, tel que le trs rpandu SGBD relationnel, ont t conus. Le cadre des annes 70 Le datamining qui sera prsent plus loin ne rvolutionne pas le monde de la persistance. Il napporte pas certaines qualits quore un outil que nous qualierons de plus classique. Pour comprendre cela il faut comprendre dans quel but les outils de SGBD, tel que le trs rpandu SGBD relationnel, ont t conus. Besoin de rapidit Cest dans la priode 65-75 que grandit le besoin de pouvoir organiser de grandes quantits de donnes, de manire pouvoir saranchir dune partie de lintelligence lie leurs gestions. On besoin de systmes btes et mchants qui font ce quon leurs demandent, des systmes o lon a pas besoins de spcier comment chercher, mais o on garde un maximum de contrle sur lorganisation. Nous sommes dans une priode o linformatique est jeune, la mmoire est limite, et aucun cycle nest nglig. Pour un exemple plus concret, si aujourdhui une norme base de donnes se mesure en Terabyte, dans les annes 80 elle se mesure en Megabyte !

1.2. Des donnes toujours plus volumineuses


Bien sr chaque concept des limites, et les SGBD classiques ne sont pas une exception.Au fur et mesure que linformatique sest complexi, rpandu, ces outils on continus tre utiliss, mais dans certains cas ils ne sont plus susant.

1.1.1.

La gestion

Les ordinateurs, tous les 18 mois, doublent sa puissance de calcul. Cela sest aussi vrier pour les units de stockages. Cela veut dire que la taille des donnes prsentes sur les units de stockage travers le monde a littralement explos au cours des dernires annes. Le problme ne vient certainement pas de la vitesse de rponse des SGBD classiques, ils sont faits pour a, mais plutt de la gestion de ces donnes par lhomme. Imaginez-vous devoir analyser des revenus annuels en dtail, arm de votre tableur Excel et de votre petit programme de gestion de base de donnes, font des milliers voir des millions de rponses vos requtes. De plus de tels systmes sont grs par plusieurs personnes simultanment, ce qui conduit une multiplication du risque dune erreur humaine dans la base. Face un million de lignes en rponse, comment trouver lerreur si elle existe ? Lhomme ne doit pas tre linstrument de la machine, cest linverse qui devrait se produire 1.1.2. La conception Si le problme prcdent sur la gestion et lutilisation existe, il ne faut pas non plus ngliger celui de la conception dun programme qui doit puiser dans la base de donnes.Format de donnes dirents, mise jour perptuelle due un changement dans les bases, architecture trop complique, trop coteuse : les bases de donnes normes semblent plus causer de problmes quelles nen rsolvent

1.2. Quel march, quelles possibilits ?


1.2.1. Linformatique dcisionnelle Linformatique dcisionnelle est un terme qui dsigne une branche de linformatique qui pour but de fournir ses utilisateurs des aides la prise de dcision. Cette informatique est souvent mise en uvre dans des domaines tels que lanalyse nancire, pour permettre de corriger le cap pris par une entreprise si celui-ci napporte pas les rsultats escompts par exemple. Pourquoi pas les SGDB classiques ? Lorsque lon travaille dans le cadre dune entreprise, il faut comprendre que la base de donnes de celle-ci est en fait un agrgat de plusieurs bases de donnes, dont le format a pu changer au fur et mesure du dveloppement de lentreprise, o les donnes, dune base une autre peut tre radicalement dirente. Les outils usuels deviennent de plus en plus dicile grer. Prendre des dcisions rapides, ou mme faire de la prvision long terme

en se basant sur le plus de donnes possible est quasiment impossible. Il faut dautres outils, pour aller chercher les donnes quil faut, l o elles sont, sans que cela soit un casse-tte pour lutilisateur.

1.3.1. Rintroduire de lintelligence dans la recherche Le problme vient du fait que les SGBD ne sont simplement pas faits pour passer une certaine chelle sur un certain type dutilisation. Le problme lair trs spcique, mais denos jour il est de plus en plus rcurent. Il repenser ces systmes, orir une couche par dessus, pour introduire de lintelligence en plus par le biais dune architecture ecace, notamment. Runir les donnes virtuellement Une solution envisageable est dorir un systme de super base de donnes, charger de jouer le rle dinterface. Grce ce genre de systme, on pourrait runir les donnes virtuellement en faisant oce de pont entre lutilisateur et la base de donnes, orant mme peut-tre le service de passerelle pour traduire les formats de donnes si ncessaire. Plus besoin de mettre jour les logiciels, il faut mettre jour linterface si la base de donnes change. Si certaines donnes ne sont utilises que localement, nul besoin de les mettre dans linterface global : a permet de dspaissir les bases de donnes virtuellement pour simplier la tche des utilisateurs. Runir les donnes spcifiquement Puisque lon parler de ltrage de donnes, autant ltrer compltement. Au lieu de donner une interface unique, on multiplie les interfaces pour pouvoir les spcialiser un mtier particulier. Du point de vue de lutilisateur la base de donnes est toute simple, facile daccs, facile grer, facile utiliser.

2. Larchitecture dcisionnelle
Comme nous avons pu le voir prcdemment, les SGDB ne sont pas assez efficaces pour traiter et analyser des flots de donnes de plus en plus importants. Linformatique dcisionnelle a besoin de nouveaux outils et support adapt pour avoir des donnes pertinentes. Les systmes dcisionnels sont complexes et utilisent de nombreux nouveaux concepts que nous allons dfinir.

2.1. Vue globale


Ce schma reprsente une architecture dcisionnelle classique. On peut distinguer que lillustration est spare en cinq parties, reprsentant le cheminement et les transformations

des informations. Les donnes sont reprsentes de nombreuse manire diffrente (fichier csv, xml, base de donnes, etc..), elles vont tre modifi, transform et stocker pour enfin tre analys.

2.1. Dataware House


2.1.1. Principe des dataware house
Une entreprise possdant un systme dinformation trs dvelopp peut possder de nombreuse base de donnes permettant de stocker toutes les informations ncessaires son activit. Ces diverses donnes sont souvent stockes de diffrente faon et ont pour unique but de rpondre un besoin fonctionnel de lentreprise. Elles ne sont donc pas adaptes la prise de dcision. On a donc besoin dune base de donnes adapte : les datawarehouse ou entrepts de donnes.

2.1.2. Dfinition Selon Bill Inmon, le crateur de ce concept, une dataware house est : une collection de donnes orientes sujets, intgres, non volatiles et historises, organises pour le support d'un processus d'aide la dcision.


-Orientes sujet Les donnes provenant des bases de donnes sont regroupes sous forme de thme (ou sujet) propre lentreprise. Lintrt de cette organisation est de pouvoir Lintrt de cette organisation est de

disposer de lensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise.
-Intgres Les donnes provenant de diffrentes bases doivent tre unifies afin dtre intgres au dataware house. Cest le processus le plus difficile mettre en place lors de la mise en place dun entrept de donne, car les donnes provenant des bases de donnes sont htrognes. -Non volatiles Une fois que les donnes sont stockes dans le dataware house, aucune modification ou suppression ne peut tre faite. Une requte adresser lentrept de donnes un mois dintervalle aura donc le mme rsultat. -Historises Les informations stockes ne sont jamais mises jour comme nous lavons vu prcdemment. Les donnes ont donc besoin dtre rfrenc dans le temps afin de retrouver les retrouver pour une date donne. Une datawarehouse est donc le regroupement de toutes les informations de lentreprise stocke dune nouvelle manire avec lajout de plus value permettant lexploitation grce aux nouveaux outils danalyse.

2.1.1. Alimentation de lentrept de donnes


Les informations contenues dans lentrept de donnes provenienent des diffrentes sources de lentreprise. Ce transfert dinformation est assur par les middlewares de type ETL (Extraction / Transformation / Loading) ou datapumping. Comme est lindice, ces outils permettent dextraire les donnes partir de diffrentes sources, les modifier et les charger dans lentrept de donnes.

2.1.2. Datawarehouse VS oprationnel


Comme nous lavons vu, les datawarehouse ne sont pas structurs de la mme manire quun systme transactionnel classique. Voici un rsum des diffrences que lon peut trouver ente un datawarehouse et un un systme oprationnel classique

2.1.3. Structure dune dataware house


Un entrept de donnes peut se structurer en quatre classes de donnes organises selon un axe historique et un axe de synthse. Les donnes agrges Les donnes agrges correspondent des lments spcifiques danalyse dont un utilisateur pourrait avoir besoin. On peut donc voir quune premire analyse est effectue au niveau du datawarehouse Elles constituent dj un rsultat danalyse et une synthse de linformation contenue dans le systme dcisionnel, et doivent tre facilement accessibles et comprhensibles.

Les donnes dtailles

Les donnes dtailles refltent les vnements les plus rcents. Les intgrations
rgulires des donnes issues des systmes de production vont habituellement tre ralises ce niveau. Les mtadonnes

Les mtadonnes constituent l'ensemble des donnes qui dcrivent des rgles ou processus attachs d'autres donnes. Ces dernires constituent la finalit du systme d'information.
Les donnes historises Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit

pas les anciennes valeurs, mais crer une nouvelle occurrence de la donne.

2.1.4. Modlisation des donnes


Les donnes stockes dans le dataware house peuvent tre modlises de trois manires diffrentes

-Le modle en toile Ce modle est constitu dune table centrale appele table des faits a laquelle vont se greffer les autres tables appeler tables de dimension. La table des faits contient toutes les cls trangres des tables des dimensions ainsi que des attributs appels mesure


Figure 1Modle en toile


Le modle en flocon se distingue par rapport celui de ltoile uniquement par les tables de dimension. En effet, ces tables vont tre plus dtailles et donner naissance de nouvelles tables. On va donc avoir une hirarchie des tables de dimension.

2.1.1.
Un datamart (ou magasin de donnes) est un sous-ensemble dun datawarehouse. Il permet de focaliser les informations sur un secteur dactivits particulier de lentreprise. Cela va notamment permettre de donnes aux utilisateurs un outil adapt leur besoin et avoir un accs plus rapide aux donnes.

Datamart

2.2. Analyse des donnes


2.2.1.
Le datamining ou fouille de donnes est un outil trs performant pour lanalyse dun trs grand nombre de donnes afin dextraire des connaissances permettant de faire apparatre des corrlations jusqualors caches entre les donnes. Lobjectif du datamining est de pouvoir extraire des informations riches et dcouvrir des modles (ou pattern) partir des donnes contenues dans le dataware house.

Datamining

2.2.2. Dfinition

OLAP

Les bases de donnes relationnelles ne sont pas adaptes lanalyse de donnes dcisionnelle, car elles demandent beaucoup de ressource machine. Les transactions effectues travers un datawarehouse sont donc diffrentes dun systme classique. On parle ici de systme OLAP (On Line Analytical Processing) qui soppose au systme OLTP ( On Line Transaction Processing).

Les technologies bases sur OLTP sont le systme de transaction utilise par les SGDB. Elles permettent dinsrer, modifier et dinterroger les bases. Ces transactions sont adaptes pour de faibles quantits de donnes.

La technologie OLAP quant elle repose la plupart du temps sur des datawarehouse. Il va rcuprerles informations du datawarehouse en informations stratgiques.

Fonctionnement de OLAP


OLAP propose une approche multidimensionnelle. Les donnes vont tre reprsentes sous la forme dhypercube n dimensions, on parle de manire gnrale de cube OLAP.

Ces cubes sont une nouvelle couche intermdiaire entre les bases de donnes et lutilisateur. Un cube de donnes est compos de dimensions et de mesures. Une dimension reprsente un axe danalyse par exemple Magasins, Catgories et Mois dans limage ci-dessous. Une dimension contient des membres organiss en hirarchie,chacun des membres appartenant un niveau hirarchique (ou niveau de granularit) particulier Dans lexemple prcdent, pour la dimension Mois les membres hirarchiques peuvent tre les semaines, les jours, etc.. Les analyses OLAP vont se porter sur des lments de donnes que lon appelle mesure. Ex. : Vente de chaussure au mois de janvie

Les diffrents aspects de OLAP


MOLAP Multidimensionnal Online Analytical Processing. Il sagit comme son nom lindique dune structure de donne multidimensionnelle. Ce type de base est rapide et trs performant. Avec MOLAP on cre un cube qui prcalcule lensemble des donnes, ce qui prend de la place et du temps. La limite des donnes dpend sur le serveur sur lequel il est dploy.

ROLAP Relationnal Online Analytical Processing

ROLAP est le plus souvent utilis, car il se greffe une donne relationnelle classique,
mais qui est organise pour fonctionner comme une base OLAP avec un cube classique.

Les analyses sont transformes en requte SQL pour tre excutes sur les tables. Cette mthode lavantage davoir un faible cout de mise en place de mise en
place tant donn que les ressources sont dj prsentes dans lentreprise. Par contre, lutilisation dun SGDB classique va ralentir le temps de rponse, car la gnration des requtes SQL nest pas encore optimise.

HOLAP Hybrid Online Analytical Processing

HOLAP est en quelque sorte un mlange des deux technologies. Les donnes
agrges sont stockes sous formes multidimensionnelles, alors que les autres sont stockes dans des structures relationnelles.

3. Avantages/Inconvenients du moteur OLAP


3.1. Avantages OLAP permet de rendre accessible des personnes non exprimentes le traitement dune masse trs importante de donnes, qui aurait t autrefois rserv des statisticiens. Laccs cette immense base dinformation permet donc aux experts du mtier de raliser des requtes afin de rsoudre des problmes complexes et ainsi leur facilite la prise de dcision sans pour autant tre expert en informatique ou statistique. Ceci permet notamment une entreprise de pouvoir maximiser ses profits en analysant toutes les donnes de son historique. Les donnes, souvent agrges, peuvent provenir dune multitude de sources diffrentes. Le fait de combiner toutes ces informations diffrentes dans une mme base homogne permet alors de pouvoir raliser des requtes dont il aurait t impossible de faire sur des bases de donnes spares. En effet, des donnes spares peuvent prendre un tout nouveau sens une fois runi. Le fait dhomogniser les donnes permet aussi davoir une structure plus cohrente, et ainsi amliorer les performances de stockage et de calcul de ces donnes. Le travail initial de nettoyage des donnes permet aussi de relever les incohrences dans les bases de donnes actuelles et de les corriger. Lutilisation dune structure OLAP sous forme de cube permet danalyser les donnes dans de multiples dimensions et permet par exemple de favoriser la rapidit daccs aux donnes en prcalculant diffrents faits sur les donnes sous toutes les dimensions. Une structure OLAP est base sur des dimensions que lon cre au pralable. Elles sont indpendantes les unes des autres. Ce qui en fait donc un outil trs flexible : on peut faire plusieurs cubes avec des dimensions en commun, ou mme en supprimer une ou deux sans que les autres donnes ne soient affectes. Un cube de donnes nest donc compos que des mesures qui sont agrges, ce qui offre une grande flexibilit et volutivit.

3.2. Inconvnients Une structure comme OLAP ncessite une mise en place couteuse. En effet, comme les sources de donnes sont trs souvent htrognes, il y a un trs grand travail d'homognisation raliser au pralable. Les donnes doivent tre nettoyes afin de pouvoir tre cohrente une fois toutes runies. Cela a naturellement un cot lev et nest donc pas une tape ngliger pour une entreprise souhaitant mettre en place une technologie comme celle-l. Aprs la mise en place, il faut galement prendre en compte les cots de maintenance. En effet, il est ncessaire de continuellement mettre jour les donnes au sein de la base afin de pouvoir toujours offrir des rsultats pertinents. Il est donc ncessaire lentreprise de dterminer si les avantages apports par la mise en place dun datawarehouse sont suprieurs aux cots de mise en place initiale et de maintenance. Si lon souhaite raliser un cube OLAP, il faut savoir que la structure des donnes diffre dune base de donnes classique. Le travail ncessaire afin dintgrer les donnes est assez important, et donc si le volume de donnes est trs lev, il ne sera pas possible dactualiser les donnes de faon trs rgulire, ce qui peut avoir un impact non ngligeable si lentreprise a besoin de donnes trs rcentes.

3. Structures et Agrgations
Un systme de bases de donnes classique atteint vite ses limites lorsquil sagit dinformatique dcisionnelle. Par exemple un tuple va tre parcouru un grand nombre de fois, alors que lon aurait besoin de linformation que sur un plus haut niveau. Si on veut le chiffre daffaires dune grande enseigne par pays, avec une requte SQL classique on reprendra chaque vente de chaque magasin. Quelles que soient les optimisations qui seront faites, le temps dexcution de la requte sera donc trs long. Certaines requtes en SQL seul peuvent mme tre impossibles formuler. Pour de linformatique dcisionnelle il est donc impratif de reprendre ces technologies et de les adaptes a lutilisation quon veut en faire. Cest donc pour cela quil existe un certain nombre de structures : le datawarehouse, la base de toute architecture dcisionnelle, puis viennent les technologies OLAP avec MOLAP (OLAP Multidimensionnel), ROLAP (OLAP Relationnel) et HOLAP (OLAP Hybride, un mlange des deux dernires approches). Ma liste nest pas exhaustive, mais elle reprsente bien les technologies majeures des analyses dcisionnelles. Ce sera lune dentre elles qui sera utilise dans 90% des projets impliquant de la prise de dcision.

4.1. . Datawarehouse
Un datawarehouse (ou entrept de donnes) est une base de donnes o les donnes sont tries, nettoy, donc fiable. Le plus souvent il sagit dune base de donnes complexe et optimise pour la performance. Les donnes seront donc conserves sous forme lmentaire et dtaille (exemple : pour une banque, chaque opration sur chaque compte de chaque client) si la volumtrie le permet. Elles prsentent des avantages vidents, mais reprsentent un plus grand volume et ncessitent donc des matriels plus volus. Il est aussi possible quelles sous forme agrge selon les axes ou dimensions d'analyse. Les donnes agrges prsentent d'autres avantages (facilit d'analyse, rapidit d'accs, moindre volume). Il est cependant impossible de retrouver le dtail des donnes une fois ceux-ci agrgs : on prend le risque de figer les donnes et de ne plus pouvoir revenir aux donnes initiales.

4.2. OLAP
Le terme OLAP dsigne un ensemble de moyens et de techniques pour raliser des systmes daide la dcision. De nombreux traitements se mi-automatiques sont mis en uvre pour interroger, visualiser et synthtiser les donnes. Une base OLAP doit tre trs rapide et elle a pour but de donner lutilisateur une rponse fiable de faconde quasi instantane. Gestion de la granularit La granularit est le niveau de dtail des donnes dans une base de donnes. La hirarchisation de l!information en diffrents niveaux de dtails appels niveaux de granularit, le niveau le plus bas est celui de lentrept. Les donnes au sein dune structure OLAP sont tre groupes diffrents niveaux de granularit : les regroupements sont prcalculs, par exemple, le total des ventes pour lanne calcule partir de la somme de toutes les ventes des mois (et non des jours, le calcul du total des mois tant fait auparavant). Des oprateurs OLAP permettent de grer cette granularit: -Forer (drill-down) : Descent dans la hirarchie de la dimension. Cest par exemple quand le chiffre daffaires de lanne est affich et on veut lobtenir moins par mois. On descend donc dun niveau dans la dimension Temps. (niveau de granularit infrieur, plus dtaill). - Remonter (drill-up) : Contrairement au drill-down on remonte dans la dimension. (niveau de granularit suprieur)

Voici les autres oprateurs important au sein de OLAP pour la restructuration : - Pivoter (Rotate) : cest une rotation des axes du cube pour avoir une vue alternative sur les donnes.

Figure 2: exemple de rotaite sur un petit cube de donnes

Si on considre que la face tudie est celle qui est en gras, on pivote le cube pour avoir laffichage des dpartements (dimension gographique) au lieu de celle qui contient les catgories de produits (dimension catgorie).

Le scapin : qui consiste ne se focaliser que sur un sous ensemble du cube, avec une ou plusieurs lignes et colonnes. En ne gardant quun sous-ensemble de catgories produit et un sous-ensemble dannes par exemple.

Figure 3: exemple de l'operateur scoping

- Le slicing : cest le mme principe que le scapin, mais sur une tranche du cube , une des dimensions est alors rduite une seule valeur.

Figure 4 exemple de slicing

3.2.1 MOLAP Le modle MOLAP est un systme multidimensionnel pur, cest--dire quil gre des structures multidimensionnelles de manire native , comme des tableaux n dimensionnent (hypercube), des axes et des mesures qui seront lintrieur de notre cube. Les donnes sont stockes sous forme de tableaux, do une grande rapidit, il ny a aucune jointure faire.En gnral, dans un cube de donnes il peut y avoir jusqu 90% de cases vides. Lide est donc de stocker ces cases sous forme de gros blocs pour gagner en temps lors du parcours du cube. Agrger est le fait de parcourir et dappliquer une fonction dagrgat sur des lignes du tableau, ils peuvent tre calculs la demande ou prcalculs et stocks comme des lignes du tableau. En MOLAP les agrgats sont calcules en divisant le cube en sous cubes (chunks) qui tiendront en mmoire principale et qui seront compresses et optimises. Puis les agrgats sont calculs en parcourant chaque cellule de chaque sous-cube en y calculait les prdicats partiels. La principale force dun cube OLAP est ses trs bonnes performances. Elles sont dues la ralisation de nombreuses pragrgations et de prcalculs de donnes sur tous les niveaux de hirarchies des dimensions. Cependant ces prcalculs de donnes raliss gnrent de trs importants volumes de donnes, en particulier quand la taille de la base dpasse quelques Go, les performances se dgradent vite. La technologie MOLAP doit donc tre utilise si lentreprise souhaite des rsultats trs rapides au dtriment de lespace de stockage. Le prcalcul gnral de toutes les donnes ncessite de reconstruire priodiquement. chaque fois que lon souhaite rafraichir le contenu du cube, il faut le rgnrer. Il y a des modles de donnes dont cette reconstruction ne posera aucun problme. Par exemple une enseigne qui veut connatre le chiffre daffaires de ces magasins pendant lanne, on ne souhaite pas intgrer les ventes du jour. Au contraire, pour du temps reel ou une base trs ractive aux nouvelles donnes il faudra choisir un modle relationnel ou hybride.

3.2.2. ROLAP Tout comme MOLAP cet outil a t cr pour analyser des donnes via un modle multidimensionnel, mais il diffre dans la mesure ou il ne ncessite aucune tape de gnration comme cest le cas avec MOLAP. Les outils ROLAP accdent la base relationnelle et gnrent des requtes SQL pour calculer les informations au niveau de granularit demande par lutilisateur. Avec ROLAP, il est possible de crer de nouvelles tables qui rsumeront les donnes avec nimporte quelle combinaison de dimensions. Le systme ROLAP utilise une technologie de stockage relationnelle, il traduit dynamiquement le modle logique de donnes multidimensionnelles modles de stockage relationnel. Il a lavantage de sappuyer sur une technologie mature quest la gestion des donnes relationnelle. Dans une structure du type ROLAP, le recalcul des agrgats prend une place trs importante dans loptimisation du temps dexcution et de lespace disque. Il est ncessaire de stocker certains de ces rsultats dagrgation, mais ils prennent de lespace disque et les stockers prennent du temps. Pour va dfinir les rsultats qui seront stockes en fonction du niveau dagrgation ncessaire (dfinit la conception de la solution), mais aussi des requtes utilisateurs frquents. Pour de bonnes performances, une bonne conception est primordiale, le niveau de dtails ne doit pas tre trop bas, mais il doit pouvoir rpondre toutes les requtes. Ces rsultats sont stocks dans des vues matrialises. Une vue matrialise (snapshot) est une table contenant les rsultats dune requte, elle sert amliorer lexcution des futures requtes qui sappuieront sur ces donnes. Cette vue matrialise peut servir a en construire dautres par la suite. En conclusion les trois moteurs dune architecture ROLAP sont lindexation spcifique des donnes, qui doit tre tudie au cas par cas, la slection et la matrialisation des vues, pour en stocke le plus possible pour gagner du temps de calcul, et la fragmentation des tables de lentrept de donnes qui doit tre sous forme de schma en toile adapte aux requtes que lon souhaite faire.

3.2.3. HOLAP Cette approche consiste utiliser les tables comme structure permanente de stockage des donnes et les tableaux comme structure pour les requtes. En clair cette version de OLAP combine les bons cots de ROLAP et MOLAP en stockant les donnes dtailles de la base de donnes dans un systme de gestion de base de donnes relationnelle, les donnes agrges sont stockes dans un systme multidimensionnel. La proportion de ROLAP et MOLAP dpend de notre base de donnes et de lutilisation quon va en faire. En combinant ces deux architectures, on peut grer des entrepts de donnes trs importants en gardant des temps de rponse satisfaisants.

Figure 5: Representation d'une structure HOLAP

Conclusion
En conclusion, les outils comme les datawarehouse ou OLAP ont trouv leurs places dans l'informatique moderne. Ils rpondent vraiment un besoin grandissant: la gestion de trs gros volume de donnes. C'est st un secteur en pleine croissance, aussi bien du ct de la demande que de l'offre. De nombreuses variantes (parfois exotiques) du moteur OLAP existent ce jour, ils permettent de rpondre aux besoins d'aide la dcision, mais galement de choisir une solution sur mesure aux besoins des utilisateurs.

Bibliographie
Cours : http://www.lsis.org/espinasseb/Supports/DWDM-2009/3-OLAP-2010-4p.pdf http://www.info.univ-tours.fr/~marcel/BD/dw_notes2.pdf http://cs.ulb.ac.be/public/_media/teaching/cubesolap.pdf http://www.lirmm.fr/~laurent/CNAM/cycleC.pdf Forums et sites persos http://www.developpez.net/forums/d942143/logiciels/solutions-dentreprise/business- intelligence/approche-theorique-decisionnel/alimentation/difference-entre-datawarehouse- olap/ http://blerubrus.free.fr/cnam/ueeng111/solap_html/sectOlap.html http://www-poleia.lip6.fr/~doucet/CoursBDWA/BDWA2-Cube2010.pdf http://xpose.avenir.asso.fr/viewxpose.php?site=39&subpage=/multidim.html