Académique Documents
Professionnel Documents
Culture Documents
Cubesolap
Cubesolap
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
OLAP 2.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Architecture OLAP . . . . . . . . . . . . . . . . . . . . 2.2.1 Congurations de la base de donn ees . . . . . 2.2.2 Structures des m etadonn ees . . . . . . . . . . . 2.3 Op erateurs OLAP . . . . . . . . . . . . . . . . . . . . . 2.3.1 Op erateurs dagr egation . . . . . . . . . . . . . 2.3.2 Op erateurs de pr esentation pour la navigation 2.4 Langage de requ etes . . . . . . . . . . . . . . . . . . . 2.5 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Serveurs . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Clients . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
D emonstration 17 3.1 Structure de la base de donn ee : Oracle 10g . . . . . . . . . . 17 3.2 OLAPCube Writer . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 OLAPCube Reader . . . . . . . . . . . . . . . . . . . . . . . . 19
toile . . . . . . . . . . 17 Base de donn ees exemple - mod` ele en e Interface de OLAPCubeWriter . . . . . . . . . . . . . . . . . . 18 Interface de OLAPCubeReader . . . . . . . . . . . . . . . . . 19
Introduction
D enition
tant le p` Selon Bill Inmon, connu comme e ere du Data Warehouse, un datawarehouse est une collection de donn ees th ematiques, int egr ees, non volatiles et historis ees pour la prise de d ecisions. De mani` ere plus concr` ete, nous pouvons le d enir comme une structure pour lorganisation des syst` emes dinformation. Il sagit un process daide ` la prise de d a ecision et la gestion de la connaissance tant pour lusage ` long terme. quotidien que pour l elaboration de strat egies a
1.1.2
Architecture
La gure 1.1 offre une vision g en erale de larchitecture du Data Warehouse. Parmi les composantes de cette architecture, on distingue : 1. Sources de donn ees ... 2. Back-end tier ... 3. Data Warehouse tier ... 4. OLAP tier ... 5. Front-end tier ...
1.2
Le Data Warehouse diff` erent sur de nombreux points avec le domaine dit Op erationnel (ou transactionnel). Ci-apr` es un aperc u de ces diff erences. Data Warehouse orient e sujet R esum e, afn e, d etaill e volue avec le temps e Besoins d ecisionnels Lecture seule Traitement par lots Analyse Model dimensionnel Large amount of data Diponibilit e relative Structure exible Op erationnel/transactionnel orient e application D etaill e Statique Besoins quotidiens ` jour possible Mise a Transactions temps r eel Transaction Diagramme Entit e-Relation Petite quantit e de donn ees Grande disponibilit e Structure statique
1.3
Concepts relatifs
Lobjet de ce travail concerne un point particulier du Data Warehouse. Mais avant de le d etailler, il serait int eressant de sarr eter sur les concepts qui sont relatifs et de les d enir. Ainsi, le Data Mart est un sous-ensemble du Data Warehouse qui concerne une branche particuli` ere de lentreprise (d ependant ou ind ependant). Ex : ... On y fait appel au Business Intelligence (BI). Il sagit dun ensemble de proc ed es pour la collecte, la comparaison et lanalyse dinformations d ecisionnelles.
1.3.1
Business Intelligence
Parmi les proc ed es existants du Business Intelligence, il y a OLAP qui fait lobjet de ce travail. OLAP ou On-Line Analytical Processing est une cat egorie de logiciels ax es sur lexploration et lanalyse rapide des donn ees ` plusieurs niveaux dagr selon une approche multidimensionnelle a egation. Datawarehouse : Cubes OLAP
Marlyse Dieungang Ghilani Khaoula Les objectifs attendus par lutilisation dOLAP sont les suivants :
1. Assistance pour une analyse optimale des donn ees sans se focaliser sur les moyens utilis es (abstraction), 2. Rapidit e et facilit e, 3. Visualisation multidimensionnelle des donn ees (lacune des R-DBs).
Chapitre 2 OLAP
2.1 Vocabulaire
tablissons Avant dexpliquer le fonctionnement proprement dit des OLAP, e ` ce domaine. Comme nous lavons dit plus haut, le vocabulaire propre a ` OLAP propose une approche multidimensionnelle ce qui nous am` ene a la notion d(hyper)cube. Un cube repr esente un ensemble de mesures organis ees selon un ensemble de dimensions. Une dimension est un axe danalyse cest-` a-dire une base sur laquelle seront analys ees les donn ees. galement appel Ex : le temps. Une dimension poss` ede des instances, e ees ` un niveau hi membres. Chaque membre appartient a erarchique. Il sagit du principe de granularit e. Ex : 2009 est membre de la dimension temps du niveau hi erarchique ann ee. Une mesure est l el ement de donn ee que lon analysa. Ex : nombre de ventes. Enn, un fait repr esente la valeur dune mesure selon un membre de chacune des dimensions. ` la marge de prot La gure 2.1 est un exemple de cube danalyse ou en pourcent pour les v elos au mois de f evrier est un fait qui exprime la valeur de la mesure marge de prot pour le membre f evrier du niveau mois de la dimension temps et le membre v elos de la dimension produits.
2.2
Architecture OLAP
tant e tabli, nous pouvons d` Le vocabulaire e es lors aborder le vif du sujet. Nous commencerons par d etailler larchitecture dun OLAP. Celle-ci est constitu ee de trois parties qui sembo tent : La base de donn ees constitue un support de donn ees agr eg ees ou r esum ees (notion de niveaux hi erarchiques). de donn Les donn ees quelle contient peuvent provenir dun entrepot ees. Elle poss` ede une structure multidimensionnelle cest-` a-dire bas ee sur un SGDB multidimensionnel ou relationnel. La serveur OLAP permet la gestion de la structure multidimensionnelle dans le SGDB. la gestion de lacc` es aux donn ees de la part des utilisateurs. Le module client permet ` lutilisateur de manipuler et dexplorer les donn a ees. lafchage des donn ees sous formes de graphiques ou de tableaux. En ce qui concerne la base de donn ees, il existe plusieurs congurations possibles.
10
2.2.1
Stockage des donn ees de base Stockage BD relationnelle des agr egations Structure Mod` ele particulier de la BD ( etoile, ocon, etc) Fonctionnement
Le serveur extrait les donn ees par des requ etes SQL et interpr` ete les donn ees selon une vue multidimensionnelle avant de les pr esenter au module client. Le moins perfor- Le plus mant mant
2.2.2
Lusage des congurations ROLAP et HOLAP n ecessite de simuler une structure multidimensionnelle dans un SGDB relationnel. Pour cela, il existe des mod` eles pr ed enis : toile (Star Schema) caract en e eris e par une simplicit e dutilisation. en ocon (Snowake Schema) repr esente la vision des donn ees du point de vue de lutilisateur : respect de lhi erarchie. toile et en ocon et mixte (Mixed Schema). Fusion des mod` eles en e Datawarehouse : Cubes OLAP
11
toile F IG . 2.2 Mod` ele en e consiste en une normalisation des grandes tables lorsquil y a trop de redondance. ` relier plu en constellation (Fact Constellation Schema) consiste a toile ayant une dimension commune. sieurs mod` eles en e Les gures 2.2, 2.3, 2.4 et 2.5 illustrent ces mod` eles.
2.3
Op erateurs OLAP
Les op erateurs OLAP pour la manipulation des cube de donn ees sont de deux types : les op erateurs dagr egation et les op erateurs de pr esentation pour la navigation.
2.3.1
Etant donn e le principe de granularit e, la navigation dans le cube de ` lutilisateur de passer de donn ` des donn donn ees permet a ees d etaill ees a ees moins d etaill ees. Ce genre de manipulation n ecessite de r esumer les donn ees. Datawarehouse : Cubes OLAP
12
13
F IG . 2.5 Mod` ele en constellation Pour cela, il faut mettre en place des op erateurs ad equats. Ex : Passer du nombre de vente par ville au nombre de vente par r egion consiste ` agr a eger ces donn ees par une addition. Il sagit, en fait, dop erations l e ementaires telles la somme, la moyenne, le comptage, le min, le max ou ` utiliser, toute autre fonction statistique. An de d eterminer lop eration a il faut restecter des conditions dagr egation des mesures et fournir une classication de celles-ci. Conditions dagr egation Disjonction des instances : le regroupement dinstances dun niveau ` leurs parents produit des ensembles disjoints. Par exemple, relatif a ` plusieurs r une ville ne peut appartenir a egions ou provinces. ` un niveau qui Architecture compl` ete : chaque instance est rattach ee a ` un parent de niveau sup est relatif a erieur. Ex : les magasins dune ` son tour multinationale se trouvent dans une ville qui se trouve a dans un pays. Usage convenable des fonctions dagr egation : les diff erents types de mesures d eterminent quelle fonction dagr egation utiliser. Classication des mesures Il existe deux classications diff erentes des mesures.
14
La premi` ere tient compte du caract` ere additif ou non de la mesure. Ainsi, on distingue : tre additionn Les mesures additives : elles peuvent e ees le long de toutes les dimensions (temporelle, spatiale, cat egories, etc.) tre somm Les mesures semi-additives : elles peuvent e ees le long de certaines dimensions seulement. Ex : il nest pas pertinent de sommer les volumes de stocks le long de la dimension temporelle. tre Les mesures non additives ou value-per-unit measures ne peuvent e somm es le long daucune dimension. Ex : Prix dun produit. La seconde classication permet d eviter des calculs redondants en utilisant des r esultats d ej` a obtenus an doptimiser les calculs. On distingue : tre calcul ` partir dautres Les mesures distributives. Peuvent e ees a r esultats. Ex : Min et max. tre calcul ` partir dautres r Les mesures alg ebriques. Peuvent e ees a esultats moyennant certaines conditions. Ex : Moyenne. tre calcul ` partir dautres Les mesures holistiques. Ne pouvant e ees a r esultats. Ex : M ediane.
2.3.2
Les outils OLAP utilisent des op erateurs particuliers pour la navigation dans les hypercubes. ` r Roll-up Passage de mesures d etaill ees a esum ees en remontant dans la hi erarchie de la dimension. Drill-down Descendre dans la hi erarchie de la dimension. Rotate Rotation des axes du cube pour fournir une vue alternative des donn ees. Slicing Extraction dune tranche dinformations : S election dune dimen` un sous-cube. sion pour passer a Dice Extraction dun bloc de donn ees : S election de deux ou plusieurs dimensions. Drill-accross Ex ecution de requ etes impliquant plus dun cube ayant une dimension commune. Datawarehouse : Cubes OLAP
15
` lautre ou dun membre dune diDrill-through Passage dune mesure a ` un autre. mension a
2.4
Comme SQL pour les bases de donn ees relationnels, il existe des langages de requ etes pour lutilisation des OLAP. Il sagit de langage de cal` celle des tableurs. Linconv cul avec une syntaxe similaire a enient est quil ny a pas de langage universel. N eanmoins, on peut distinguer deux tendances : ` Microsoft MDX de langlais Multidimensional Expressions int egr ea SQL Server 2005. ` Oracle 10g. OLAP DML (Data Manipulation Language) int egr ea
2.5
Logiciels
Il existe de nombreux logiciels qui permettent dutiliser des cubes OLAP pour lanalyse de donn ees. Nous fournissons ci-apr` es une liste non-exhaustive des logiciels class es en modules serveurs et clients.
2.5.1
Serveurs
SAS Business Analytics SAP PALO OLAP Server (Open Source) OlapCubes de AderSoft Oracle SQL Server Services analysis ALG Software Applix Microstrategy Descisys INEA/Cartesis
16
2.5.2
Clients
Panorama Software Proclarity AppSource Cognos Business Objects Brio Technology Crystal Reports Microsoft Excel Microsoft Reporting Services.
Chapitre 3 D emonstration
3.1 Structure de la base de donn ee : Oracle 10g
t La base de donn ees qui a e e utilis ee pour les tests porte sur la vente darticles (chaussures) dune entreprise qui poss` ede des magasins dans ` travers le monde. Elle est constitu plusieurs villes diff erentes a ee de 5 ffectu tables : Les ventes qui enregistre toutes les ventes e ees dans diff erents magasins et concernant les chaussures de diff erents mod` eles pour diff erentes pointures et couleurs.
18
3.2
OLAPCube Writer
OLAPCube Writer est un outil d evelopp e par AderSoft, il permet de se ` une base de donn connecter a ees, de r ecuperer les tables dont on a besoin r les cubes OLAP, de cr pour cr ee eer les dimensions ainsi que les mesures et champs calcul es du cube. On peut d` es lors visualiser les donn ees relatives ` OLAPCube Reader. au cube gr ace a
19
3.3
OLAPCube Reader
OLAPCube Writer est un outil de visualisation (reporting) des cubes OLAP. Il permet entre autre dappliquer des ltres sur les donn ees, de g en erer des diagrammes de diff erentes formes (camembert, histogrammes, tableaux, etc).
Bibliographie
[am09] Comment c a marche. Datawarehouse et datamart. http ://www.commentcamarche.net/contents/entreprise/datawarehouse-datamart.php3, Mai 2009. Lupin B. Osez olap ! http ://pagespersoorange.fr/bernard.lupin/index.htm, Mai 2009.
[B.09]
[JAAH97] Gray J., Bosworth A., Layman A., and Pirahesh H. Data cube : A relational aggregation operator generalizing group-by, crosstabs, and sub-totals. Journal of Data Mining and Knowledge Discovery, 1997. [LMR+ 02] A. Laurent, P. Marcel, F. Ravat, O. Teste, and G. Zurlfuh. En de donn trepot ees et olap : un aperc u orient e recherche. Groupe de travail GaFOLAP - Action sp ecique GaFoDonn ees, 2002. [M.09] Taslimanka Sylla M. Initiation au d ecisionnel (business intelligence, datawarehouse, olap). http ://taslimanka.developpez.com/tutoriels/bi/, Mai 2009. DW Mantra. Data warehouse. http ://www.dwmantra.com/dwconcepts.html, Mai 2009. Zim anyi E. Malinowski E. Advanced Data Warehouse Design. Springer, Decembre 2008. Microsoft Developer Network. Guide de r ef erence du langage mdx. http ://msdn.microsoft.com/frfr/library/ms145595.aspx, Mai 2009. Boussaid O. Action sp ecique stic-cnrs. http ://bdd.univlyon2.fr/ boussaid/GafOLAP.htm, Mai 2009. 20
[O.09]
21
[YMJS08] Bedard Y., Proulx M.-J., and Rivest S. Enrichissement du olap pour lanalyse g eographique : exemples de r ealisations et diff erentes possibilit es technologiques. Facult e de Foresterie et de G eomatique, 2008.