Vous êtes sur la page 1sur 7

informatique dcisionnelle

On qualifie d'informatique dcisionnelle l'exploitation des donnes de l'entreprise dans le but de

faciliter la prise de dcision par les dcideurs, c'est--dire la comprhension du


fonctionnement actuel et l'anticipation des actions pour un pilotage clair de l'entreprise.
Les outils dcisionnels sont bass sur l'exploitation d'un systme d'information dcisionnel
aliment grce l'extraction de donnes diverses partir des donnes de production,
d'informations concernant l'entreprise ou son entourage et de donnes conomiques.
Elle permet une slection des informations oprationnelles pertinentes pour l'entreprise.
Celles-ci sont ensuite normalises pour alimenter un entrept de donnes. De ce concept
est ne la notion de modlisation dimensionnelle. Cette dernire est fondamentale pour
rpondre aux exigences de rapidit et de facilit d'analyse. Elle permet, en outre, de
rendre les donnes d'un entrept cohrentes, lisibles, intelligibles et faciles d'accs.
L'informatique dcisionnelle doit produire des indicateurs et des rapports l'attention des
analystes. Elle doit galement proposer des outils de navigation, d'interrogation et de
visualisation de l'entrept.

ETL
Un outil appel ETL (Extract, Transform and Load) est ainsi charg d'extraire les donnes
dans diffrentes sources, de les nettoyer et de les charger dans un entrept de donnes.

Reporting
Enfin des outils d'analyse dcisionnelle permettent de modliser des reprsentations base de
requtes afin de constituer des tableaux de bord, on parle ainsi de reporting.

Datawarehouse/Datamart

II. Le modle multidimensionnel


Le modle multidimensionnel est la combinaison de tables de dimensions et de faits. Le
fait est le sujet de l'analyse. Il est form de mesures, gnralement numriques,
renseignes de manire continue. Ces mesures permettent de rsumer un grand nombre
d'enregistrements des donnes sources en quelques-uns. Le fait est analys selon des
perspectives, nommes dimensions. Chacune contient une structure hirarchique ; la
dimension temps , par exemple, pourrait tre divise en annes, trimestres, mois,
semaines, jours...

Cube multidimensionnel
trois perspectives d'analyse (inspir de 'Introduction pratique aux bases de donnes
relationnelles')

De cette hirarchie dcoule le niveau de granularit de l'entrept, et donc, les niveaux


d'agrgations. La figure ci-dessus montre le cube permettant l'analyse de l' indicateur
de vente selon trois dimensions : produit, temps (divis en trimestres), et rgion.

III. Architecture d'un systme dcisionnel

Ensemble des composants


intervenant dans un systme dcisionnel (Source: 'Informatique Dcisionnelle' NFE115)

Cette section propose de parcourir les diffrents lments ncessaires la mise en place
d'une solution d'aide la dcision, depuis l'extraction des donnes jusqu' leur restitution
sous forme agrge, synthtise et normalise.

III-A. Sources de donnes


Afin d'alimenter les entrepts, les informations doivent tre identifies et extraites de
leurs emplacements originels. Il s'agit majoritairement de donnes internes
l'entreprise, mais diffuses, car stockes dans les bases de donnes de production des
diffrents services (legacy systems). Ce peut tre aussi des sources externes, rcupres
via des services distants, des web services, par exemple. Ce sont des donnes complexes
: plusieurs technologies (types de fichiers, encodages, liens d'accs aux systmes de
gestion de bases de donnes SGBD), environnements (systmes d'exploitation,
matriels) et principes de scurit pour les atteindre (mcanismes rseaux,
authentifications) entrent en jeu pour les acqurir.

III-B. Outils d'extraction, transformation et chargement


Plus connus sous le terme anglo-saxon Extract Transform Load (ETL), ces outils sont
fondamentaux pour la construction des entrepts de donnes. Ils extraient les donnes
des systmes htrognes sources, les normalisent et les rendent cohrentes entre elles,
pour qu'elles puissent tre utilises ensemble. Les donnes sont fournies dans un format
permettant leur stockage immdiat dans les entrepts, et ultrieurement exploitables,
sans recalculs par les dcideurs et les analystes.

En accord avec le rsultat obtenir, et une fois les donnes importantes localises dans
les systmes sources, l'outil doit les extraire, selon une frquence dtermine
(planification).
Elles sont alors stockes temporairement (staging). Cette tape et le type de fichier
choisi pour ce stockage (fichiers plats, XML, tables relationnelles, etc.) sont dcisifs car
ils permettent de filtrer et fdrer les donnes afin de les rendre homognes :

Le filtrage sert identifier les donnes aberrantes ou problmatiques, notamment


les donnes manquantes ;
Le ddoublonnage est ncessaire lorsque plusieurs sources de donnes partagent
des donnes communes ;
Le formatage est crucial, notamment dans le cas de donnes codifies (par
exemple, des abrviations difficilement convertibles), ou de dates qui doivent tre
dcomposes en un ensemble de champs (anne, mois, jour, heure, minute,
etc.), contenant chacun une information pertinente ;
La dnormalisation est invitable si la source est une base de donnes
relationnelle, qui utilise gnralement la troisime forme normale (3FN),
interdisant toute redondance. noter que le formatage et la dnormalisation
peuvent tre contradictoires car dans le cas de fichiers sources dont les
informations sont dj dnormalises, il est alors prfrable de les normaliser
nouveau ;
La synchronisation garantit la cohrence des agrgats de l'entrept ;
L'agrgation est une collection d'oprations possibles effectuer sur les donnes.
Les plus courantes sont la somme, la moyenne, le comptage, la somme cumule,
le minimum, le maximum. Ces oprations sont considrer compte tenu du
niveau de granularit de l'entrept.

Ces tches conditionnent la qualit des donnes du systme dcisionnel. ce titre, cette
tape apparat comme la plus importante et la plus complexe effectuer lors de
l'implantation d'un entrept de donnes .

III-C. Entrept de donnes


L'entrept de donnes est une base de donnes architecture pour des requtes et des
analyses, plutt que pour le traitement transactionnel des donnes , et les rsultats de
ces requtes doivent tre obtenus rapidement.
L'entrept est organis sur le modle multidimensionnel voqu prcdemment. Il y a
nanmoins deux types de stockage :

L'entrept (data warehouse), qui concentre toutes les donnes ;


Le march de donnes (data mart) focalise sur une partie du mtier, comme les
relations clients, par exemple.

Yvan Bdard a prcis que l'entrept [...] est prvu pour l'entreprise dans son
ensemble alors que le march de donnes est sectoriel (il peut tre un sous-ensemble
exact ou modifi de l'entrept de donnes) .

III-D. Traitement analytique en ligne OLAP


En 1993, Edgar Frank Codd introduit le terme On-Line Analytical Processing (OLAP) qui
dsigne une catgorie d'applications et de technologies permettant de collecter, stocker,
traiter et restituer des donnes multidimensionnelles des fins d'analyses .
Il a aussi introduit 12 rgles de base permettant de qualifier l'OLAP :

1. Transparence : l'utilisateur doit pouvoir accder la base, sans se proccuper de


l'emplacement du serveur ;
2. Accessibilit : les donnes doivent toutes tre accessibles, sans ambigut ;
3. Manipulation des donnes : la navigation doit pouvoir s'effectuer intuitivement via
des interfaces ergonomiques ;
4. Souplesse d'affichage et flexibilit : le serveur doit permettre souplesse pour
l'dition et rutilisation des rapports gnrs ;
5. Multidimensionnalit : il s'agit de la nature mme d'OLAP ;
6. Client-serveur : architecture du systme ;
7. Multi-utilisateur : l'accs et les recherches simultans de la base doivent tre
possibles ;
8. Stabilit : les performances sont indpendantes du nombre de dimensions, ce
nombre et le niveau d'agrgation doivent pouvoir tre modifis sans impact sur
les temps de rponse ;
9. Gestion complte : le serveur supporte la reprsentation d'informations
manquantes ;
10. Croisement des dimensions : le systme permet d'effectuer des oprations entre
et dans les dimensions ;
11. Dimensionnalit gnrique : toutes les dimensions d'un hypercube doivent tre
accessibles de manire gnrique, elles sont, de plus, indpendantes ;
12. Analyse sans limite : le nombre de dimensions et de niveaux d'agrgation permet
des analyses complexes.
Entre entrept et OLAP, il n'y a qu'un pas. En effet, l'entrept est le lieu de stockage
physique des donnes, tandis que l'OLAP est l'outil permettant leur analyse
multidimensionnelle.
Celle-ci est l'objet d'une requte particulire, mise par l'utilisateur, a contrario du forage
(data mining) qui vise la recherche de corrlations entre les donnes dans l'intgralit de
l'entrept.
Afin de rendre l'analyse la moins contraignante et la plus souple possible, l'OLAP propose
des oprateurs. Il s'agit de mcanismes servant naviguer dans les hirarchies et les
dimensions. Les oprateurs permettent de :

Tailler (slicing, scoping) : autorise l'extraction d'une tranche, d'un bloc


d'informations. Il s'agit d'une slection classique ;

Oprateurs Slicing et Scoping

Pivoter (rotate ou swap) : permet d'interchanger deux dimensions ;

Oprateur Rotate

Remonter (roll-up) : synthtise les informations en fonction d'une dimension. Par


exemple, sur la dimension gographique, il s'agirait de passer du niveau
dpartement au niveau rgion ;
Forer (drill-down) : il s'agit de l'inverse du (drill-up), on zoome sur une des
dimensions (de la rgion au dpartement) ;

Oprateurs Roll-Up et DrillDown

Forer latralement (drill-accross) : en restant au mme niveau de dimension,


permet de changer l'une des valeurs. Par exemple, passer de l'anne 1998
l'anne 1999. Le forage latral sur une dimension spatiale peut paratre aussi
simple, si l'on considre que l'on passe, par exemple, d'un dpartement un
autre. On peut s'interroger sur la pertinence de passer de l'Ain l'Aine. Ne seraitil pas plus pertinent de rester dans la rgion ? Ou de considrer des critres de
voisinage ?

Oprateur Drill Across

Percer (drill-through) : permet d'accder au dtail des informations, lorsqu'on ne


dispose que de donnes agrges (possible uniquement avec Hybrid OLAP).

L'architecture d'un systme OLAP peut se dcliner sous plusieurs formes, selon la
technologie utilise. On peut rencontrer des approches sans serveur OLAP, il s'agit alors
de bases de donnes relationnelles, o rien n'est nativement prvu pour l'informatique
dcisionnelle. Il faut alors que la requte, construite dans le langage SQL (Structured
Query Language), fasse tat des agrgations. Ceci demande des comptences
spcifiques, que tous les analystes n'ont pas forcment. L'approche ROLAP (Relationnal
OLAP) est aussi base sur une BDR, mais simulant une structure multidimensionnelle.
L'approche MOLAP (Multidimensional OLAP) est optimise, comme son nom l'indique,
pour l'analyse multidimensionnelle dont elle en gre la structure de manire physique.
HOLAP (Hybrid OLAP) est un croisement des approches MOLAP et ROLAP. Les donnes
dtailles sont stockes dans une BDR tandis que celles agrges le sont dans une BDM.

III-E. Outils de visualisation


Les outils de restitution sont la partie visible offerte aux utilisateurs. Par leur biais, les
analystes sont mme de manipuler les donnes contenues dans les entrepts et les
marchs de donnes. Les intrts de ces outils sont l'dition de rapports et la facilit de
manipulation. En effet, la structure entire du systme dcisionnel est pense pour
fournir les rsultats aux requtes des utilisateurs, dans un temps acceptable (de l'ordre
de quelques secondes), et sans connaissance particulire dans le domaine de
l'informatique. Gnralement, les outils offrent des facilits de manipulation, comme le
glisser-dposer , permettant une prise en main rapide, intuitive et conviviale.

III-F. Mtadonnes
Les mtadonnes, prsentes tous les niveaux, permettent de connatre les donnes,
qu'elles soient brutes ou transformes. Moriarty et Greenwood ont dclar, en 1997, que
les mtadonnes sont aussi essentielles aux usagers que ne le sont les donnes ellesmmes . Elles dcrivent le schma de l'entrept, ainsi que l'ensemble des rgles, des
dfinitions, des transformations et des processus qui sont appliqus chacune des
donnes. Il y a deux types de mtadonnes :

Structurelles : dcrivant la structure et le contenu de l'entrept (aussi appeles


mtaschma) ;
Accessibilit : permettant le lien entre l'entrept et les utilisateurs (description des
donnes).

Vous aimerez peut-être aussi