Vous êtes sur la page 1sur 24

Chapitre 3

Etat de l’art

Introduction
L’informatique décisionnelle offre une immense variété de procédures et de concepts dans
toutes les étapes de réalisation d’un projet BI , choisir la bonne méthode est primordiale
pour chaque étape.
Ce chapitre sera réservé pour définir le système décisionnel, les différentes méthodes proposées
dans chaque étapes, et a chaque fois une comparaison est faites pour choisir la méthode la plus
adaptés à notre solution. Nous présentons dans un premier temps les notions sur le décideur,
des concepts clés sur la BI en détaillant les notions de système décisionnel et d’entrepôt de
données. Puis, nous aborderons l’ETL.

3.1 Notion sur le décideur :


3.1.1 Décideur :
Le décideur est une personne dotée d’un pouvoir de décision, il peut-être le responsable
d’une entreprise, le responsable d’une fonction ou d’un secteur. Il est donc celui qui engage
la pérennité ou la raison d’être de l’entreprise. Pour ces raisons, il doit être doté de différents
moyens lui permettant la prise de décision la plus pertinente et la plus appropriée possible.
Parmi ces moyens, les data Warehouses ont une place primordiale et privilégié. En effet, ils
contiennent les données de toute l’activité de l’entreprise jugée utile pour la prise de déci-
sion. Le principal problème réside dans l’exploitation de ces informations. Pour cela, il est
primordial de bien penser au datamining.[]

Le décideur se réparti en 3 catégories :

30
CHAPITRE 3. ETAT DE L’ART

• Les décideurs stratégiques : Ces décideurs définissent les grandes lignes que l’en-
treprise doit prendre et mobilisent les moyens nécessaires pour y parvenir. Donc ils
orientent la politique et les valeurs de l’organisation.
• Les décideurs tactiques : les décideurs tactiques sont les relais des caps stratégiques,
fixés par les décideurs stratégiques. Ce sont eux qui fixent les objectifs de leur direction
ou de leur territoire, qui élaborent et choisissent la meilleure tactique pour atteindre
ces objectifs..
• Les décideurs opérationnels : faire face à la réalité du terrain, gérer le quotidien.À
ces trois profils de décideurs s’ajoute celui des analystes. Le rôle des analystes est
de récolter et de travailler l’information, fiabiliser les données, expliquer les résultats.
Leur rôle est d’aider à la prise de décision des décideurs. Les analystes varient sui-
vant le type d’organisation (industrie, négoce, service public...) et le service auquel ils
appartiennent.[]

3.1.2 Les facteurs d’amélioration de la prise de décision


Généralement, on présente les trois facteurs de prise de décision comme étant :
La connaissance et l’analyse du passé.
La représentation du présent.
L’anticipation du futur.
Les informations permettant d’appréhender ces facteurs peuvent être de deux natures
différentes :
Les informations quantitatives : ce sont toutes les données chiffrées telles que
les montants, quantités, pourcentages, délais...
Les informations qualitatives : ce sont toutes les informations non quanti-
fiables telles qu’un commentaire accompagnant un rapport, des mécontentements,
un sentiment, une directive, une nouvelle procédure...

3.2 Système d’information


3.2.1 Définition d’un système d’information
Le système d’information(système de pilotage) est l’ensemble des méthodes et moyens de
recueil de contrôle et distribution des informations nécessaires à l’exercice de l’activité en
tout point de l’organisation. Il a pour fonction de produire et de mémoriser les informations
de l’activité en tout point de système opérant il en existe deux types [17]

31
CHAPITRE 3. ETAT DE L’ART

3.2.2 Les systèmes opérationnels (transactionnelle)


Ce sont les outils que nous utilisons chaque jour. Ils assurent le bon fonctionnement de
l’ensemble de l’organisation.
Toutes ses applications répondent à la même attente : permettre la saisie d’informations,
leur traitement, et la production en sortie de résultats, sous forme de documents papier, de
consultations à l’écran ou d’autres informations. Les trois principales caractéristiques d’un
système transactionnel sont donc :
— La capacité à gérer de grands volumes de données,
— Des temps de réponse très réduits,
— offre des requêtes relativement simples du point de vue informatique[17].

3.2.3 Les systèmes décisionnels


Le principe même de la prise de décision est de s’appuyer sur des informations précises
pour en déduire des comportements et passer à l’action.
Le système d’information décisionnel est un ensemble de données organisées de façon spéci-
fiques, facilement accessibles et appropriées à la prise de décision. La finalité d’un système
décisionnel est le pilotage d’entreprise. Les systèmes de gestion sont dédiés aux métiers de
l’entreprise. Les systèmes décisionnels sont dédiés au management de l’entreprise
Toutes ses applications répondent au même processus : analyser des données préalablement
collectées par les applications opérationnelles de l’entreprise, les mettre en forme, aider à dis-
tinguer les grandes tendances, et publier des résultats sous forme de graphiques, de tableaux,
ou de rapports.[15]
Les trois principales caractéristiques d’un système décisionnel sont donc :
— La capacité à gérer de grands volumes de données,
— Ils appliquent des requêtes beaucoup plus complexes,
— Ils disposent de plus de temps pour les exécuter.

Architecture d’un système décisionnels

Tout système décisionnel est architecturé globalement de la même façon :


— Plusieurs sources de données en lecture
— Un DW fusionnant les données requises
— Un ETL permettant d’alimenter le DW à partir des données existantes
— Des applications d’exploitation de reporting, exploration et/ou prédiction
— D’éventuels DM permettant de simplifier le DW en vue de certaines applications
— Plusieurs sources de données en lecture

32
CHAPITRE 3. ETAT DE L’ART

Figure 3.1 – Schéma representant l’architecture d’un système décisionnels[15]

Conception d’un système décisionnel :

Un projet de système décisionnel se structure selon quatre grands axes[15] :


1. Étude des besoins et de l’existant : Étude des besoins utilisateurs Étude des données
existantes
2. Modélisation et conception : Modélisation dimensionnelle Architecture technique Spé-
cification des outils d’exploitation
3. Implémentation du data Warehouse : Implémentation du DW et des DM Mise en place
de l’ETL
4. Implémentation des outils d’exploitation : Implémentation des outils de reporting Im-
plémentation des outils d’exploration Implémentation des outils de prédiction

3.2.4 Système opérationnel Vs système décisionnel


Le tableau suivant récapitule en bref les différences qu’il peut y avoir entre les deux
systèmes :

33
CHAPITRE 3. ETAT DE L’ART

Caractéristique SI Transactionnel SI Décisionnel

Objectif Gestion courante, pro- Analyse, support à la dé-


duction cision

Model de données Entité relation Etoile, flocon, de neige

Normalisation Fréquent Plus rare

Donnée Actuelles, brutes Historiés, parfois agré-


gées

Mise à jour Immédiate, temps réel Souvent différée

Niveau de consolida- Faible Elevée


tion

Perception Bidimensionnelle Multidimensionnelle

Opération Lectures, mises à jour, Lectures, analyses croi-


suppression sées rafraichissements

Taille EN gigaoctet En téraoctets

Table 3.1 – Table comparatif entre les deux systèmes.[14]

34
CHAPITRE 3. ETAT DE L’ART

3.3 Concepts de base des systèmes d’aide à la décision :


3.3.1 L’entrepôt de données (Data Warehouse) :
Les entrepôts de données sont apparus en 1996, réponse au besoin de rassembler toutes
les informations d’une entreprise en une base de données unique destinée aux analystes et
aux gestionnaires. Cela en intégrant des informations provenant de différentes sources de don-
nées internes mais aussi externes à l’environnement de l’organisme et en offrant la possibilité
de faire des analyses et des corrélations sur des agrégations créées dynamiquement à partir
de plusieurs démentions. Les bases de données des systèmes existants de type OLTP (On-
line Transaction Processing) ne sont pas appropriées comme support d’analyse, vu que leur
conception ne vise pas les fonctions spécifiques réalisées dans l’entreprise. D’où la nécessité
de la mise en place d’un système décisionnel qui fournit une vue globale des informations de
l’entreprise et aussi un moyen stratégique de prise de décision. Avant de passer à la phase de la
conception et de la mise en œuvre de ce système décisionnel qui est l’entrepôt de données.[10]

Lors de la conception d’un Data Warehouse, deux approches se confrontent la méthode de


Bill Inmon et celle de Ralph Kimball, chacune adaptée à son environnement d’intégration et
présentant ses avantages et inconvénients.
Nous allons ici entreprendre une analyse comparative des deux approches, tout en mettant
en avant les critères significatifs de choix

L’approche d’Inmon (approche Top-Down) William H. Inmon (communément


appelé Bill Inmon) est un informaticien américain né en 1945, reconnu par beaucoup
comme le père du Data Warehouse, ayant contribué à la définition de ses fondements.
L’approche d’Inmon, souvent opposée à celle de Ralph Kimball est caractérisée comme
étant « Top-Down Dans son approche, le Data Warehouse est un referentiel centralise
d’entreprise (ou CIF) stockant l’information au niveau le plus detaille. Des Datamarts
modelises sous forme de schemas en etoile sont ensuite crees a partir de ce Data
Warehouse[22].
Voici la représentation schématique de l’approche :

35
CHAPITRE 3. ETAT DE L’ART

Figure 3.2 – Représentation schématique de l’approche Top-Down[22].

Inmon définit par ailleurs le Data Warehouse via les termes suivants :
. « Subject-Oriented » : les données du Data Warehouse sont organisées, de telle
sorte que tous les éléments se rapportant à un même événement ou objet réel sont
liés entre eux
. « Time-Variant » : les différentes modifications apportées aux données de la base
de données sont suivies et enregistrées, des rapports synthétiques peuvent ainsi
être élaborés ;
. « Non-Volatile » : les données de la Data Warehouse ne sont jamais ré-écrites
ou supprimées une fois engagées, les données sont statiques, en lecture seule et
retenues pour les futures rapports de synthèse ;
. « Integrated » : la base de données contient des données de la plupart ou totalité
des application de l’organisation, ces données oeuvrant en parfaite symbiose.
L’approche de Kimball ( approche Bottom-Up)
Ralph Kimball est un informaticien et chef d’entreprise américain. Il est connu comme
auteur d’ouvrages informatiques, notamment sur le thème du décisionnel.
Son approche s’oppose à celle de William H. Inmon, affirmant qu’un Data Warehouse
doit être rapide et compréhensible.
Le Data Warehouse peut etre vu, selon l’auteur, comme l’union des datamarts cohe-
rents entre eux grace aux dimensions conformes (data warehouse bus). La modelisa-
tion dimensionnelle permet un requetage facile et performant pour les utilisateurs [22].

Voici la représentation schématique de l’approche :

36
CHAPITRE 3. ETAT DE L’ART

Figure 3.3 – Représentation schématique de l’approche Bottom-Up[22].

Caractéristique Inmon Kimbal

Construction Couteux en temps Rapide

Maintenance Facile Redondance à


gérer

coût coût intial élevé coût initial modéré

Durée mise en Long court si mode


oeuvre incrémentale

compétances utiles Equipe spécialisée Equipe généraliste

Intégration des Au niveau Par domaine


données entreprise métier

Table 3.2 – Table comparatif entre les deux approches[22]

Malgré une opposition effective des deux modèles, aucun d’entre eux n’est à privilégier et
le choix de la meilleure approche dépend de l’activité de l’entreprise ainsi que de ses objectifs
à long et court terme sur le plan décisionnel.

37
CHAPITRE 3. ETAT DE L’ART

Source de données :

Afin d’alimenter l’entrepôt, les informations doivent être identifiées et extraites de leurs
emplacements originels. Il s’agit des sources de données hétérogènes qui peuvent comporter
des données internes à l’entreprise, stockées dans les bases de données de production des
différents services. Elles peuvent être aussi des sources externes, récupérées via des services
distants et des web services ou des sources qui peuvent être sous format de fichiers plats.

Structure des données de l’entrepôt

Les données de l’entrepôt sont structurées en trois classes. Ces dernières sont organisées
selon un axe historique et un axe de synthèse :

Les données agrégées : Ce sont les données qui correspondent à des éléments d’ana-
lyse représentant les besoins des utilisateurs. Elles constituent un résultat d’analyse et
une synthèse de l’information contenue dans le système décisionnel, qui est facilement
accessible et compréhensible.
Les données détaillées : Reflètent les événements les plus récents. Les intégrations
régulières des données issues des systèmes de production sont réalisées habituellement
à ce niveau. Les données historiées Chaque nouvelle insertion de données provenant
du système de production ne détruit pas les anciennes valeurs, mais crée une nouvelle
occurrence des données.
Les métadonnées : Elles constituent l’ensemble des données qui décrivent des règles
ou processus attachés à d’autres données, qui représente la finalité du système d’information[10].

Choix du modèle concéptuel

Au niveau logique cela peut se traduire par trois modèles différents :


Le modèle en Etoile : Le centre est la table des faits, et les branches en sont les
dimensions. Ces dimensions n’ont pas de lien entre elles[13].

38
CHAPITRE 3. ETAT DE L’ART

Figure 3.4 – Exemple d’un model en étoile[13]

Le modèle en flocon de neige : Le principe est le même que pour le modèle en


étoile, mis à part le fait que les dimensions peuvent être décomposées en hiérarchies.
Le niveau hiérarchique le plus bas est relié à la table de faits. Cependant c’est un
modèle complexe qui requiert un nombre important de jointure. Cela affecte la
performance des requêtes[13].

39
CHAPITRE 3. ETAT DE L’ART

Figure 3.5 – Exemple d’un model en flocon de neige[13]

Le modèle en constellation de faits : Il est encore basé sur le modèle en étoile.


Il rassemble plusieurs tables de faits qui peuvent avoir des dimensions en commun.

40
CHAPITRE 3. ETAT DE L’ART

Figure 3.6 – Exemple d’un schéma en constellation[13]

Afin de mieux comprendre le niveau conceptuel de la modélisation d’un Datawarehouse,


nous allons définir deux concepts la table de faits et la table de dimensions.

La Table de Dimensions :

Elle représente les axes d’analyse selon lesquels vont être étudiées les données observables
(les faits). En résumé, on part du principe que les données sont des faits à analyser selon
plusieurs dimensions.[8]

La Table de Fait :

Elle représente la table principale du modèle dimensionnel. Elle se compose :


Des clés étrangères des axes d’analyse.
Des mesures représentant des valeurs fournissant des descriptions sur le fait étudié[12]

3.3.2 Le magasin de données (DataMart) :


Data warehouse et data Mart :

Un data Warehouse et un data Mart se distinguent par le spectre qu’il recouvre :

41
CHAPITRE 3. ETAT DE L’ART

— Le data Warehouse recouvre l’ensemble des données et problématiques d’analyse visées


par l’entreprise.
— Le data Mart recouvre une partie des données et problématiques liées à un métier ou
un sujet d’analyse en particulier Un data Mart est fréquemment un sous-ensemble du
data Warehouse de l’entreprise, obtenu par extraction et agrégation des données de
celui-ci[19].

Figure 3.7 – Ilustration d’un Datawarehouse et de datamarts[19]

Pourquoi des data Marts ?

Les data marts sont destinés à pré-agréger des données disponibles de façon plus détaillée
dans les data warehouse, afin à traiter plus facilement certaines questions spécifiques, cri-
tiques, etc.[19]

3.3.3 Le cube de données


C’est une représentation multidimensionnelle d’un fait et de ses dimensions. Comme le
montre la Figure-ci dessus par exemple, dans le cas de vente de produits dans des pays
dans le temps ; le fait est les ventes et les dimensions sont : pays, produit et temps. Pour
chaque combinaison des trois dimensions (pays, produit, temps), on peut accéder à la mesure
numérique associée au fait ventes (cellule non vide). Les interrogations s’interprètent souvent
comme l’extraction d’un plan, d’une droite de ce cube (par exemple, lister les ventes d’un
produit X), ou l’agrégation de données le long d’un plan ou d’une droite (par exemple,
total des ventes de produit X). Théoriquement, un cube peut contenir un nombre inni de

42
CHAPITRE 3. ETAT DE L’ART

dimensions. Mais dans la pratique, la plupart des cubes contient quatre à douze dimensions.
Des problèmes de performance sont observés au-delà de cet intervalle.[11]

Figure 3.8 – schéma d’un Cube de données [11]

3.3.4 Caractéristiques d’un bon modèle décisionnel :


• Être performant pour le calcul d’agrégats sur de gros volumes de données (exploration
de données, reporting).
• Être appréhendable par un utilisateur final, en particulier pour formuler facilement
des requêtes (exploration de données).
• Être suffisamment performant au chargement pour répondre aux sollicitations de mise
à jour (ETL)
• Être évolutif en fonction des évolutions amont (sources transactionnels) et aval (be-
soins d’exploitation).

3.4 Informatique décisionnelle :


L’informatique décisionnelle, également Business Intelligence ou BI en anglais, désigne les
moyens, les méthodes et les outils qui apportent des solutions en vue d’offrir une aide à la
décision aux professionnels afin de leurs permettre d’avoir une vue d’ensemble sur l’activité
de l’entreprise et de leurs permettre de prendre des décisions plus avisées à travers des ta-
bleaux de bord de suivi et des analyses.[18]

43
CHAPITRE 3. ETAT DE L’ART

Avantages du BI :

Déployer une solution BI apporte de nombreux avantages[18] :


• Améliorer la visibilité sur les chiffres, les écarts et les anomalies.
• La combinaison de plusieurs sources de données (ERP, systèmes comptable, feuilles
de calcul, des budgets . . . ).
• La présentation uniforme d’informations fiables.
• L’automatisation permettant l’accélération de la collecte et de la diffusion de l’infor-
mation.
• La performance dans le calcul d’agrégats sur de gros volume de données.
• La prise de décision grâce à des indicateurs pertinents et à une structure cohérente
des informations.
• L’aide à nettoyer les données présentes dans différents logiciels.
• L’anticipation des événements et la projection dans l’avenir.

Limites du BI :

Parmi les limites de la Business Intelligence[18] :


• La mise en place d’une solution de BI prend beaucoup du temps : de nom-
breuses entreprises dans le scénario industriel rapide ne sont pas assez patientes pour
attendre la mise en place du système décisionnel dans leur organisation.
• Complexité : un autre inconvénient de BI pourrait être sa complexité dans la mise
en œuvre des données.
• Erreur : les résultats produits par les systèmes décisionnels sont le résultat de concep-
tions informatiques et mathématiques complexes, qui peuvent révéler des erreurs, par
ailleurs les résultats sont souvent statistiques, donc non déterministes. La possibilité
d’une erreur ou d’une approximation inadaptée devra toujours être prise en compte
dans les décisions.[18]

3.5 Etapes du processus décisionnel :


Le Processus décisionnel passe par quatre étapes à savoir la collecte, le Stockage, La dis-
tribution et l’exploitation des données[10].

44
CHAPITRE 3. ETAT DE L’ART

Figure 3.9 – Les étapes du processus décisionnel[10]

3.5.1 La Collecte de données :


Une fonction remplie par des outils nommé ETL (Extraction, Transformation, Charge-
ment). L’ETL est un processus d’intégration de données procédant à l’extraction de celles-ci
via diverses sources, pour ensuite les transformer et les charger au niveau de l’entrepôt de
données

3.5.2 Le stockage
Les éléments, préalablement (nettoyés) et consolidés, seront stockés dans des dataware-
houses ou des datamarts sous forme de données orientées sujet, non volatiles, historiées et
intégrées[10].

3.5.3 La Distribution
Cette étape met les données à la disposition des utilisateurs. Elle permet la gestion des
droits d’accès en respectant des schémas correspondant au profil ou au métier de chacun.
Ainsi l’accès direct à l’entrepôt de données n’est pas autorisé.
L’objectif principal de cette étape est de segmenter les données collectées en contextes de
telle façon à ce qu’ils soient cohérents, simples à utiliser et correspondent à une activité
décisionnelle particulière (par exemple aux besoins d’un service particulier)[10].

45
CHAPITRE 3. ETAT DE L’ART

3.5.4 L’exploitation des données


Les outils de restitution constituent l’aboutissement du processus décisionnel. Une fois
les données stockées, nettoyées, consolidées et accessibles, elles sont utilisées à travers dif-
férents types d’outils de restitutions, notamment : les tableaux de bords, le reporting et le
datamining.

Le Tableau de Bord

Il permet la visualisation, le suivi et l’exploitation facile des données pertinentes sous


forme de chiffres, de ratios ou de graphiques. Ces indicateurs appelés aussi KPI, sont reliés
à des objectifs dans le but de prendre des décisions. La finalité principale d’un Tableau de
bord est de piloter une activité. Il peut toutefois être utilisé pour analyser une situation :
comprendre les raisons d’un échec (ou même d’un succès), anticiper des menaces, etc.
Les étapes de construction d’un tableau de bord se présentent comme suit :
— Mission de la maitrise d’ouvrage et de la maîtrise d’œuvre : Définir les objectifs de
l’unité utilisatrice du tableau de bord.
— Points clés de la gestion du projet : Retenir les éléments importants permettant d’at-
teindre l’objectif, influençant le résultat.
— Paramètres exprimant les points clés : Recenser tous les indicateurs possibles et ima-
ginables.
— Choix des indicateurs les plus représentatifs : Tester l’indicateur ou les indicateurs
pour en retenir les plus pertinents.

Le Reporting

Il est destiné à assurer la réalisation, la publication et la diffusion de rapports d’activité


selon un format prédéterminé. Nous distinguons 3 types :
— Le Rapport statique : C’est un rapport dont la structure est prédéfinie et figée en ce
qui concerne le périmètre des données présentées.
— Le Rapport dynamique : Il s’agit d’un rapport de structure semi statique où le péri-
mètre de données peut varier. L’utilisateur final peut choisir les paramètres à intégrer
dans le rapport.
— Le Rapport Ad hoc : C’est un rapport à la demande, où même l’utilisateur final peut
accéder directement aux données et élaborer le rapport avec les représentations qu’il
souhaite utiliser.

46
CHAPITRE 3. ETAT DE L’ART

Le DataMining

Appelé aussi forage de données, explorations de données ou encore fouilles de données. Il


désigne l’analyse de données sous différents angles. Le DataMining permet de transformer les
données en informations utiles et ce, en établissant des relations entre elles. Ces informations
peuvent ensuite être utilisées par les entreprises pour réduire les coûts ou encore augmenter
leurs chiffres d’affaires. Elles peuvent également servir à mieux comprendre une clientèle
afin d’établir de meilleures stratégies marketing. Il existe deux classes d’apprentissages :
L’Apprentissage Supervisé et L’Apprentissage Non-supervisé .

3.6 Objectifs du processus décisionnel :


Le processus décisionnel vise à [9] :
— Donner une vision globale aux managers et responsables de la direction SIG de toute
les activités de l’entreprise afin de trouver le bon équilibre.
— Prendre des décisions pour améliorer la performance de l’entreprise et accroitre la
production.
— Calculer et suivre les écarts de réalisation par rapport à une valeur de référence qui
est l’objectif fixé : prévision de réalisation.
— Etablir une synthèse justifiant les écarts et les différentes anomalies relatives aux
différences opérations.

3.7 Conception de l’entrepôt de données


La solution pour laquelle nous avons opté repose sur une mise en place un ensemble de
magasins de données, d’un point de vue global ce choix est justifié par le fait qu’il s’accorde
bien avec la nature des objectifs à atteindre qui peuvent se résumer à :
Rendre l’information de l’entreprise facilement accessible et compréhensible
Assurer la disponibilité et la cohérence des informations en tenant compte de la fiabilité
des sources
Minimiser le temps d’accès à l’information
Constituer une base d’informations capable de s’adapter aux inévitables changements
que subit l’entreprise sans pour autant toucher aux données et technologies déjà exis-
tantes.
Servir de support décisionnel en mettant en évidence les informations de sortie sur la
base desquelles la décision est prise. (Kimball and Ross 2002)

47
CHAPITRE 3. ETAT DE L’ART

3.7.1 Choix de la méthode de conception :


Il existe trois méthodes de conception, Les méthodes orientées données, Les méthodes
orientées besoins et Les méthodes hybrides
Pour illustrer la différence entre les trois, voici un aperçu de chacune

Méthodes orientées besoins

Ces méthodes s’inspirent souvent des approches de génie logiciel, et notamment de l’in-
génierie des besoins. Leur points de départ est l’expression des besoins en termes d’aide à la
décision, afin de cerner la conception dès le début, et d’éviter les résultats aberrants. Parmi
ces méthodes, celle de Ralph Kimball, est sans doute la plus connue. Celle-ci constitue un
cadre assez complet pour la conception d’un entrepôt de données selon la vision botom-top
propre à l’auteur de la méthode.

1.Choisir la procédure
La procédure (ou fonction) fait référence au sujet d’un magasin de données particulier. Le
premier magasin de données à construire est celui qui est susceptible d’être livré à temps,
en respectant les budgets, et est destiné à répondre aux questions professionnelles les plus
importantes au point de vue commercial

2.Choisir le grain
Choisir le grain signifie décider exactement de ce que représente un enregistrement d’une
table de faits.

3.Identifier les dimensions et s’y conformer


Les dimensions déterminent le contexte dans lequel nous pourrons poser des questions à pro-
pos des faits établis dans la table de faits. Un ensemble de dimensions bien constitué rend le
magasin de données compréhensible et en simplifie l’utilisation.

4.Choisir les mesures


Le grain de la table de faits détermine les faits utilisables dans le magasin de données. Tous
les faits doivent être exprimés au niveau implicite imposé par le grain. Les mesures doivent
être numériques, et additifs.

5.Emmagasiner les calculs préliminaires dans la table des faits


Une fois que les faits ont été choisis, il est nécessaire de les réexaminer un à un, pour déter-

48
CHAPITRE 3. ETAT DE L’ART

miner si des opportunités apparaissent d’exploiter des calculs préliminaires.

6.Finaliser les tables de dimensions


Au cours de cette étape, nous revenons aux tables de dimensions et y ajoutons toutes les
descriptions textuelles possibles aux dimensions. Les descriptions textuelles seront aussi in-
tuitives et compréhensibles que possible pour les utilisateurs.

7.Choisir la durée de la base de données


La durée mesure le saut dans le passé qu’une table de faits permet d’effectuer.

8.Suivre les dimensions à modification lente


Le problème des dimensions à modification lente signifie par exemple que la description ap-
propriée d’un ancien client et d’une ancienne filiale doit intervenir en accord avec un ancien
historique de transaction.
Nous pouvons distinguer trois types fondamentaux de dimensions à modification lente :
1. le Type 1, où un attribut de dimension modifié est écrasé ;
2. le Type 2, où un attribut de dimension modifié provoque la création d’un nouvel enregis-
trement de dimension ;
3. le Type 3, où un attribut de dimension modifié provoque la création d’un attribut alter-
natif, pour que les deux valeurs, l’ancienne et la nouvelle, soient simultanément accessibles
dans le même enregistrement de dimension.

9.Décider des priorités de requêtes et des modes de requêtes


Au cours de cette étape, nous prenons en considération les soucis liés au design physique.
Les soucis les plus prédominants, relatifs au design physique et qui affectent la perception
du magasin de données par l’utilisateur, sont l’ordre de tri physique de la table de faits sur
disque et la présence de résumés ou d’agrégats pré-enregistrés

10.Finalité
À la fin de la mise en pratique de cette méthodologie, nous obtenons un design d’un ma-
gasin de données qui respecte les exigences d’un processus métier déterminé et assure aussi
une intégration aisée avec les autres magasin de données liés, pour constituer en définitive
l’entrepôt de données de toute l’entreprise.[7]

Méthodes orientées données :

Les méthodes orientées données mettent l’accent sur la structuration des données sources
existantes (souvent relationnelles), afin de découvrir les caractéristiques déterminantes des

49
CHAPITRE 3. ETAT DE L’ART

concepts multidimensionnels (mesures, faits, attributs de dimensions, hiérarchies). Dans cette


catégorie nous citons les travaux de Moody et Kortink qui se basent sur une expertise des
données sources représentées au niveau conceptuel par un modèle entité relation, ou logique
par un modèle relationnel.
Cette expertise conduit en premier lieu à une classification des structures de données
sources en trois groupes :
Entités transactionnelles
Entités composants
Entités Classification
Entités transactionnelles Qui vont par la suite constituer la base de la table des faits dans
des schémas en étoile puisque ce sont les événements que les décideurs vont analyser.
Entités composants Qui sont les entités sont directement liées à une entité transaction
via une relation un-à-plusieurs. Elles définissent des détails ou des parties constitutives de
chaque événement d’entreprise. Ces entités donneront lieu à des tables de dimensions dans
les schémas en étoile.
Entités Classification Ces entités sont liées à des entités composants par une chaîne de
relations ’un-à- plusieurs’. Elles représenteront les hiérarchies de la dimension dans le schéma
multidimensionnel.[7]

Méthodes hybrides :

Plusieurs travaux ont tenté de regrouper les avantages des deux approches afin d’en élimi-
ner les inconvénients. Certaines en préconisant carrément deux conceptions parallèles, l’une
orientée besoin et l’autre orientée données, une étape de confrontation permet de sélectionner
les concepts inhérents aux deux conceptions, afin de satisfaire les exigences des décideurs dans
le cadre des données disponibles, dans ce cas nous pouvons citer les travaux de Bonifatti.
Bonifatti propose : Une phase de conception orientée besoins, dans laquelle les objectifs
des décideurs sont dévoilés à travers un cycle d’abstraction et un ensemble de directives pour
la génération d’un schéma logique multidimensionnel. Une autre phase orientée données peut
être déroulée en parallèle afin de découvrir faits et dimensions à partir de l’analyse de la
structure des données sources (présence d’attributs additifs, relation un à plusieurs...etc.).
Des graphes centrés sur les faits sont construits et traduits automatiquement en modèles
multidimensionnels en étoiles. Enfin une étape d’intégration consiste à unifier en premier lieu
la terminologie des deux modèles logiques produits, et une phase d’appariement qui donne
lieu au modèle cible concilié.[7]

50
CHAPITRE 3. ETAT DE L’ART

3.7.2 Démarche de construction de l’entrepôt de données :


L’entreposage de données se déroule en quatre phases principales :
— Modélisation et conception de l’entrepôt.
— Alimentation de l’entrepôt.
— Mise en œuvre de l’entrepôt.
— Administration et maintenance de l’entrepôt.

Modélisation et Conception de l’entrepôt :

Les approches les plus connues dans la conception des entrepôts sont :
• L’approche descendante qui est basée sur les besoins d’analyse.
• L’approche ascendante qui est basée sur les sources de données.
• L’approche mixte qui est une combinaison des deux approches.

Alimentation de l’entrepôt :

Une fois l’entrepôt est conçu, il faut l’alimenter et le charger en données. Cette alimenta-
tion s’effectue à travers le processus ETL et se déroule en trois phases :
1. L’extraction des données : Il s’agit de la première étape de récupération des in-
formations dans l’environnement de l’entrepôt de données. L’extraction comprend la
lecture et la compréhension de la source de données, ainsi que la copie des parties né-
cessaires à une exploitation ultérieure dans la zone de préparation. Ainsi, nous avons
deux types d’extraction :
— Extraction complète : il s’agit d’une capture de données à un certain temps. Elle
est employée dans deux situations à savoir le chargement initial des données ou
le rafraîchissement complet des données en cas d’une modification de source par
exemple.
— Extraction incrémentale : il s’agit de capturer uniquement les données qui ont
changé ou ont été ajoutées depuis la dernière extraction. Nous distinguons alors
deux manières pour faire l’extraction incrémental.
— Extraction temps-réel qui s’effectue au moment où les transactions surviennent
dans les systèmes sources.
— Extraction différée qui extrait tous les changements survenus durant une période
donnée (ex : heure, jour, semaine, mois) à posteriori.
2. La transformation des données Une fois que les données sont extraites dans la
zone de préparation nous appliquons plusieurs étapes de transformations qui ont pour
but de rendre les données cibles homogènes afin qu’elles puissent être traitées de façon
cohérente :

51
CHAPITRE 3. ETAT DE L’ART

— Résolution des cas d’informations manquantes et conversion en format standard.


— Combinaison des sources de données par mise en correspondance exacte avec des
valeurs clé ou par mise en correspondance approximative d’attributs hors clé et y
compris la recherche d’équivalents textuels des codes des systèmes sources.
— Construction d’agrégats pour optimiser les performances des requêtes les plus cou-
rantes.
— Application de filtres.
3. Le chargement des données C’est la dernière phase de l’alimentation d’un entrepôt
de données, le chargement est une étape indispensable. Elle reste toutefois très délicate
et exige une certaine connaissance des structures du système de gestion de la base
de données afin d’optimiser au mieux le processus. Nous distinguons trois types de
chargement :
— Chargement initial : se fait une seule fois lors de l’activation de l’entrepôt de
données.
— Chargement incrémental : se fait une fois le chargement initial complété et peut se
faire en temps réel ou en lot.
— Chargement complet : est employé lorsque le nombre de changements rend le char-
gement incrémental trop complexe.

Administration :

Cette étape est constituée de plusieurs tâches pour assurer :


• La qualité et la pérennité des données aux différents applicatifs.
• La maintenance et le suivi.
• La gestion de configuration.
• La gestion de l’évolution et les demandes d’expansion.
• L’organisation et l’optimisation du SI.
• La documentation et les formations.

Restitution :

C’est la dernière étape d’un projet d’entreposage de données, soit son exploitation. L’ex-
ploitation de l’entrepôt se fait par le biais d’un ensemble d’outils analytiques développés
autour de ce dernier. Il s’agit de regrouper tout ce qui a attrait à la représentation et la trans-
mission des résultats d’analyse de données. Le principe de la restitution, donc, est d’agréger
et de synthétiser des données nombreuses et complexes sous forme d’indicateurs, de tableaux,
de graphiques permettant d’en avoir une appréhension globale et simplifiée pour faire toutes
les analyses nécessaires.

52
CHAPITRE 3. ETAT DE L’ART

conclusion
Dans ce chapitre, a été détaillé toutes les notions relatives aux systèmes décisionnels, à
l’informatique décisionnelles et aux différentes démarches de construction utilisés pour les
maîtriser afin de favoriser le bon déroulement du projet

53

Vous aimerez peut-être aussi