Vous êtes sur la page 1sur 14

Fiche de lecture OLAP NFE107 Urbanisation des Systmes dInformation Karim Sekri

Informatique dcisionnelle

BI, Business Intelligence Systme interprtant des donnes complexes permettant aux dirigeants d'entreprise de prendre des dcisions en connaissance de cause. Les donnes sont analyses selon plusieurs dimensions (type de produits, rgions et saisons par exemple). De plus en plus, l'informatique dcisionnelle se rapproche de l'intelligence d'affaires, o un systme informatique permet la recherche active et l'exploitation, sur le plan dcisionnel, de l'ensemble des renseignements stratgiques essentiels qu'une entreprise doit possder, si elle veut faire face la concurrence et occuper la premire place, dans son secteur d'activits.

Larchitecture dun systme dcisionnel peut tre dcompose en un ensemble de composants. Cette dcomposition permet de rpartir les taches entre diffrents responsables du systme et de comprendre la synergie de leurs diffrents mtiers. 1.Les sources de donnes (ou bases de production) Cest lensemble des sources de donnes qui contiennent les informations qui serviront alimenter un entrept de donnes. Ces sources sont dans la grande majorit internes lentreprise (capitalises dans les bases de donnes oprationnelles), mais peuvent galement tre externes lentreprise (donnes du march mondial, audits, documents diffuss sur le WEB, etc.). 2.Un ensemble doutils ETTL (ou ETL) Les sources de donnes utilises pour constituer un entrept de donnes sont htrognes et diffuses. Elles contiennent galement des donnes qui ne seront pas utilises par lentrept de donnes. Il est donc ncessaire de disposer doutils performants et rapides permettant dextraire (ETTL) les donnes utiles de ces sources. Ces donnes extraites doivent tre par la suite transformes (ETTL) pour les rendre globalement homognes (standards). Si ces donnes sont rparties sur diffrents ordinateurs dans un rseau diffus, elles doivent initialement tre transportes (ETTL) vers le (ou les) ordinateur grant lentrept de donnes. Pour finir ces donnes normalises sont charges (ETTL) dans lentrept de donnes.

ETL

Extraction, Transformation and Loading Outil d'extraction Outil informatique destin extraire des donnes de diverses sources (bases de donnes de production, fichiers, Internet, etc.), les transformer et les charger dans un entrept de donnes.

3.Un entrept de donnes Lentrept de donnes correspond une reprsentation multidimensionnelle de lensemble des donnes extraites des sources de donnes initiales, ainsi qu un ensemble de mta-donnes contenant les informations relatives lenvironnent de cet entrept. La partie essentielle de lentrept est constitue dune ou plusieurs bases de faits qui traduisent la vie dune entreprise. Ces bases de faits sont relies la description de plusieurs dimensions intervenant dans la reprsentation multidimensionnelle. Un entrept peut tre physiquement rparti dans plusieurs magasins mtiers (datamarts) regroups sur un mme ordinateur ou sur plusieurs.

DATA MART( entrepot metier) Sous-partie dun entrepts de donnes orient vers un mtier particulier de lentreprise (marketing, finance, gestion de stock, etc.). Le datamart peut tre interne ou lment satellite de lentrept de donnes.

4.Des reprsentations OLAP de lentrept de donnes Ce sont des cubes de donnes multidimensionnelles extrait dynamiquement de lentrepts de donnes (ou des datamarts). Ils sont assujettis aux rapports, requtes et analyses devant tre fournis aux diffrents fournisseurs de lentreprise. 5.Des outils de visualisation et danalyse Ensemble des outils permettant : dobtenir les diffrents indicateurs et rapports de synthse sur la vie dune entreprise, de raliser de faon interactive travers des interfaces graphiques utilisateurs des requtes exploratoires dans les cubes dimensionnelles, dexploiter des techniques de data-mining sur ces donnes dimensionnelles.

Datamining

Exploration des donnes Technique d'analyse utilisant un logiciel (TANAGRA, SIPINA, R-PROJECT,) pour dnicher des tendances ou des corrlations caches parmi des masses de donnes, ou encore pour dtecter des informations stratgiques ou dcouvrir de nouvelles connaissances, en s'appuyant sur des mthodes de traitement statistique.

OLAP

OnLine Analytical Processing nous avons vu que la structure en hyper-cube des donnes tait la faon la plus naturelle pour visualiser une entreprise comme un tout, car elle est fonde sur les structures relles de l'activit d'une entreprise et non sur des constructions artificielles dictes par l'informatique. L'exploitation des donnes d'un entrept doit donc correspondre la manipulation aise de l'hyper-cube. C'est ce que propose l'approche OLAP. L'objectif est de permettre aux dcideurs de naviguer simplement dans les informations, via la manipulation des diverses dimensions, en vue de dgager plus rapidement les tendances intressantes de l'entreprise. La figure ci-dessous, dj utilise dans la squence 1, permet de situer OLAP dans l'architecture globale d'un systme dcisionnelle. Technique d'analyse, labore en 1993 par E.F. Codd, un des crateurs des bases de donnes relationnelles, la demande de la firme Arbor Software (devenue aujourdhui Hyperion). L'objectif tait de pouvoir slectionner des donnes selon des critres multiples. Aujourd'hui, OLAP permet aux dcideurs, en entreprise, d'avoir accs rapidement et de manire interactive une information pertinente prsente sous des angles divers et multiples, selon leurs besoins particuliers. Trs utiliss dans les secteurs de la banque, des tlcommunications et de la grande distribution, les serveurs OLAP sont des outils oprationnels, qui permettent de valider une stratgie mise en oeuvre ou de vrifier des tendances. Ainsi, on pourra souhaiter examiner lvolution des ventes dun produit donn, dans une rgion gographique prcise, au cours dune saison donne. Il suffira de prciser ces trois dimensions danalyse au moteur OLAP. Les

valeurs trouves dans la base pourront tre reprsentes sous la forme dun cube. Si lon avait souhait examiner plus de trois critres ou dimensions, on parlerait alors dhypercube. Exemple : on mesurera l'volution sur trois ans (axe 1) du chiffre d'affaires (axe 2) li aux ventes d'une gamme de produits (axe 3) ralises en direction d'un profil client particulier (axe 4) sur une zone gographique prcise (axe 5).

Technique d'analyse, labore en 1993 par E.F. Codd, un des crateurs des bases de donnes relationnelles Les bases de donnes relationnelles (SGBDR) ne sont pas adaptes aux traitements dcisionnels L'objectif tait de pouvoir slectionner des donnes selon des critres multiples ( multidimensionnelles). Aujourd'hui, OLAP permet aux dcideurs, en entreprise, d'avoir accs rapidement et de manire interactive une information pertinente prsente sous des angles divers et multiples, selon leurs besoins particuliers.

OLAP dsigne les bases de donnes multidimensionnelles (appeles aussi cubes ou hypercubes) destines a des analyses complexes sur des donnes .

Les 12 rgles de base Pour rpondre cet objectif, E.F. Codd dfinit 12 rgles de base permettant de qualifier le concept global nomm OLAP (On Line Analytical Processing). Transparence : le systme doit tre transparent pour l'utilisateur qui doit pouvoir accder la base par l'intermdiaire d'outils standards tels que des tableurs ou des formulaires HTML. Accessibilit : Les sources multiples servant alimenter l'entrept doivent tre facilement accessibles travers la structure logique del'entrept.

Manipulation des donnes : La navigation doit pouvoir s'effectuer simplement et intuitivement travers des interfaces graphiques forte ergonomie. Souplesse d'affichage : le systme doit pouvoir retourner les rsultats des requtes sous une forme graphique. Ces rsultats doivent pouvoir tre manipuls et servir de base d'autres requtes. Multidimensionalit : le systme doit permettre une manipulation multidimensionnelle de l'ensemble des donnes de l'entrept. Dimensionalit gnrique : toutes les dimensions d'un hypercube doivent tre accessibles travers un mme protocole. Client/serveur : l'approche doit respecter l'architecture clientserveur afin que plusieurs utilisateurs puissent manipuler l'entrept sans difficult. Multi-utilisateur : Des requtes sur l'entrept de donnes doivent pouvoir tre ralises en simultanes par plusieurs utilisateurs. Accs stable : le nombre de dimensions et/ou le nombre de niveaux d'agrgation doivent pouvoir changer sans perturber le fonctionnement de l'entrept. Gestion des matrices creuses : Les cellules " vides " d'un hypercube doivent tre gres de faon efficace afin de limiter les capacits de stockage ncessaire et les temps d'accs aux donnes de l'hypercube. Croisement des dimensions : Les dimensions dans les diffrents entrepts mtiers (datamarts) doivent tre accessibles et croises. Toutes les rgles de gestion doivent pouvoir s'appliquer l'ensemble des tranches des hyper-cubes correspondant. Nombre illimit de dimension et de niveaux d'agrgation : il ne doit pas y avoir de limites imposes au nombre de dimension et de niveaux d'agrgation manipulable.
Selon le groupe Valoris, un systme OLAP est un systme d'analyse rapide d'information multidimensionnelle partag. Cette dfinition l'avantage d'tre concise et elle est en adquation avec les 12 rgles proposes par Codd. Elle insiste galement sur le fait qu'un systme OLAP doit tre rapide. Le groupe Valoris a galement propos les 5 caractristiques principales d'un systme OLAP de la faon suivante : Multidimension : C'est la caractristique essentielle d'un tel systme. Il doit fournir une vue multidimensionnelle des donnes, incluant le support des

hirarchies simples et multiples des diffrentes dimensions. Analyse : Le systme doit permettre tout type d'analyses statistiques sur les donnes multidimensionnelles sans que l'utilisateur ait besoin de connaissances avances en programmation. La cration de scripts d'analyse doit tre la plus ergonomique possible (via interface graphique par exemple). Rapidit : Le systme doit tre conu pour fournir une rponse en quelques secondes aux requtes les plus courantes afin que les utilisateurs puissent raliser une exploration et une analyse interactive des donnes de l'entrept. Pour les requtes les plus complexes, le systme doit pouvoir prvenir l'utilisateur de leurs dures importantes et si possible fournir une estimation. Information : Le systme doit pouvoir manipuler des quantits d'information importantes. Il doit galement capitaliser l'ensemble des manipulations qu'il ralise travers la constitution de mtadonnes. Ces capitalisations doivent permettre au systme d'tre plus performant par la suite. Partage : Le systme doit permettre le partage des donnes multidimensionnelles un grand nombre d'utilisateur. Toutes les conditions de scurit et de confidentialit doivent tre satisfaites, avec possibilit de descendre jusqu'au niveau de la cellule.

MOLAP : Les donnes dtailles de base ainsi que les donnes agrges de lentrept sont stockes dans une base de donnes multidimensionnelle (souvent appele cube ou hypercube) Une base de donnes multidimensionnelle utilise une structure propritaire au logiciel utilis ( matrice) Le serveur MOLAP extrait les donnes de lhypercube et les prsente directement au module client

ROLAP : Les donnes dtailles de base ainsi que les donnes agrges de lentrept sont stockes sous forme de tables dans une base de donnes relationnelle La base de donnes relationnelle doit tre structure selon un modle particulier (toile, flocon, ) Le serveur extrait les donnes par des requtes SQL et interprte les donnes selon une vue multidimensionnelle avant de les prsenter au module client HOLAP Architecture qui consiste en un croisement des architectures MOLAP et ROLAP Les donnes dtailles de base de lentrept sont stockes dans une base de donnes relationnelle et les donnes agrges sont stockes dans une base de donnes multidimensionnelle Le serveur HOLAP accde deux bases de donnes et les prsente au module client, selon une vue multidimensionnelle dans le cas des donnes de la BD relationnelle SOLAP Une plate-forme visuelle supportant lexploration et lanalyse spatio-temporelle faciles et rapides des donnes selon une approche multidimensionnelle plusieurs niveaux

dagrgation via un affichage cartographique, tabulaire ou en diagramme statistique.

PLATE FORMES ET OUTILS Dans cette squence, nous nous intrssons la plateforme dcisionnelle Pentaho. Cette plateforme l'avantage d'aborder tous les lments de la chane dcisionnelle : Extraction de donnes sources dans des supports de stockages htrognes, Manipulation et navigation des donnes multidimensionnelles, Cration de rapports synthtiques pour la visualisation et lanalyse des donnes, Fouille des donnes dans un entrept partir de diffrentes catgories dalgorithmes issus du datamining, Gestion des mtadonnes travers lexploitation de rfrentiel, Communication scurise travers les diffrents rseaux informatiques dune entreprise, Plateforme de dveloppement avec un fort potentiel volutif.

Pentaho, est une suite logiciel qui intgre de faon homogne des composants open source existants pour constituer une plateforme dcisionelle performante : Kettle pour lextraction des donnes sources et lalimentation des datamarts, Mondrian, JPivot, JRubik pour la gestion et lanalyse des donnes multi-dimensionnelles (OLAP), Weka pour la fouille des donnes,

BIRT, JfreeReport, JaspertReports, Pentaho Reporting pour la ralisation de rapport graphiques et/ou textuelles, Enhydra Shark pour la modlisation et la gestion des flux d'informations au sein des entits d'une entreprise, Hibernate pour la persistance des objets, IDE Eclipse comme environnement de dveloppement, Java comme langage principale de dveloppement, Jboss comme serveur d'applications et d'intgration, PHP et JSP comme langage et outils web pour la cration de rapport dans un navigateur Internet, HSQLDB, MYSQL comme base de donnes relationnelle, Quartz pour la ralisation de la planification des taches.

GLOSSAIRE La technologie OLAP regroupe un certain nombre de termes prcis dsignant des lments de la structure multidimensionnelle. De plus, plusieurs abrviations spcifiques sont souvent rencontres dans le monde OLAP. Un glossaire s'impose donc. Ce glossaire n'a qu'une vocation didactique et ne constitue donc pas une rfrence stricte, il est appel voluer suivant vos critiques. Agrgation Action de calculer les valeurs associes aux positions parents des dimensions hirarchiques. Cette agrgation peut tre une somme, une moyenne, ou tout autre processus plus complexe comme la deuxime plus forte valeur. Attribut Un fait dcrivant chaque position d'une dimension. Axe Correspond une dimension. Cellule

Une donne dfinie par une position de chaque dimension. Les cellules d'un hypercube peuvent tre vides ou remplies. Lorsqu'un grand nombre de cellules sont vides, on parle de donnes parses. Cube Le plus souvent, synonyme d'hypercube. Datamart L'ensemble des donnes se rapportant un des mtiers de l'entreprise. Plusieurs datamart forment le datawarehouse de l'entreprise. Datawarehouse Entrept de donnes. Ce terme anglais est utilis pour dsigner l'ensemble des informations d'une entreprise, enregistres sous un format informatique. Dimension Un ensemble de donnes du mme type, permettant de structurer la base multidimensionnelle. Une dimension est parfois appele un axe. Chaque cellule d'une mesure est associe une seule position de chaque dimension. Temps, pays, produit sont des dimensions classiques. DOLAP Desktop OLAP. Ce terme dsigne un petit produit OLAP faisant de l'analyse multidimensionnelle en local. Il peut y avoir une mini base multidimensionnelle (faon Personal Express), ou bien de l'extraction de cube (faon Business Objects). DSS Decision Support System, ou systme d'information dcisionnel. C'est un systme d'interrogation et de prsentation des donnes adapt pour l'aide la dcision. Le terme franais quivalent est

SIAD, ou Systme d'Information d'Aide la Dcision. Un autre terme anglais est EIS, ou Executive Information System. EIS Executive Information System. Le terme anglais plus courament utilis est DSS, ou Decision Support System. FASMI Fast Analysis of Shared Multidimensional Information, ou analyse rapide d'information multidimensionnelle partage. Ces cinq termes ont tous leur importance dans la dfinition de la technologie OLAP. Formule C'est un hypercube virtuel, c'est dire que les valeurs obtenues sont le plus souvent calcules la vole mais non stocke dans la base de donnes. Hirarchie Les positions d'une dimension organises selon une srie de relations 1-n en cascade. Cette organisation de donnes est comparable un arbre logique, ou chaque membre n'a pas plus d'un pre mais un nombre quelconque d'enfants. HOLAP Hybrid OLAP. Dsigne les outils d'analyse multidimensionnelle qui rcuprent les donnes dans des bases relationnelles ou multidimensionnelles, de manire transparente pour l'utilisateur. Hypercube Une construction multidimensionnelle forme de la conjonction de plusieurs dimensions. Chaque cellule est dfinie par un seul membre de chaque dimension. MDB

Multidimensional DataBase. Permet le stockage, le traitement et la restitution de donnes multidimensionnelles. Mesure Un hypercube, le plus souvent de type entier ou dcimal, structur par des dimensions. Salaire, Prix, Quantit, Cot sont des mesures classiques. MOLAP Multidimensional OLAP. Ce terme dsigne plus spcifiquement une technologie de stockage cartsien. MOLAP s'oppose ROLAP. Pour le premier, les jointures sont dja faites, ce qui explique les performances. Dans le second, les jointures entre les tables de dimension et de fait sont effectues au moment de la requte. Multicube Une construction multidimensionnelle forme de plusieurs hypercubes partageant certaines dimensions. Multidimensionnel Structure de donnes ayant au moins trois dimensions indpendantes. Niveau hirarchique Au sein d'une hirarchie, les positions sont en gnral organises en niveaux. Les positions d'un mme niveau correspondent une classification prcise. Par exemple, on peut concevoir une dimension "temps", pour laquelle les jours sont au niveau 1, les mois au niveau 2 et les annes au niveau 3. OLAP Littralement, On-Line Analytical Processing. Dsigne une catgorie d'applications et de technologies permettant de collecter, stocker, traiter et restituer des donnes multidimensionnelles, des fins d'analyse. Une autre dfinition est rsume dans l'acronyme FASMI

(Fast Analysis of Shared Multidimensional Information), ou analyse rapide d'information multidimensionnelle partage. Les outils OLAP doivent respecter 12 rgles prcises que vous pouvez dcouvrir cette page. Position Une valeur d'une dimension. RDBMS Relational DataBase Management System. Permet le stockage, le traitement et la restitution de donnes stockes dans des tables relationnelles. Son quivalent franais est SGBDR, ou Systme de Gestion de Base de Donnes Relationnelle. Relation Une relation entre les positions de deux dimensions distinctes permet d'effectuer facilement des calculs la vole pour dfinir de nouvelles formules. ROLAP Relational OLAP. Il s'agit d'un ou plusieurs schmas en toile stocks dans une base relationnelle. Cette technique permet de faire de l'analyse multidimensionnelle partir de donnes stockes dans des bases relationnelles. SGBDR Systme de Gestion de Base de Donnes Relationnelle. Equivalent de RDBMS. SIAD Systme d'Information d'Aide la Dcision. Equivalent de EIS. Schma en toile Arrangement de tables dans une base de donnes relationnelle. Au centre, on trouve la table de faits, dont les colonnes constituent les

mesures du multidimensionnel. Les branches de l'toile qui rayonnent partir de la table de fait correspondent aux dimensions. Le modle conceptuel de donnes permet de retrouver cette forme en toile. Variable En gnral synonyme de mesure. BIBLIOGRAPHIE

http://pagesperso-orange.fr/bernard.lupin/ http://www.journaldunet.com/solutions/0301/030108_o
lap.shtml

http://www.piloter.org/businessintelligence/olap.htm

http://fr.wikipedia.org/wiki/OLAP Cours informatique dcisionnelle (NFE115) Cnam de


basse-Normandie Gilles LEBRUN et Christophe CHARRIER