Etat de l’art
Introduction
L’informatique décisionnelle offre une immense variété de procédures et de concepts dans
toutes les étapes de réalisation d’un projet BI , choisir la bonne méthode est primordiale
pour chaque étape.
Ce chapitre sera réservé pour définir le système décisionnel, les différentes méthodes proposées
dans chaque étapes, et a chaque fois une comparaison est faites pour choisir la méthode la plus
adaptés à notre solution. Nous présentons dans un premier temps les notions sur le décideur,
des concepts clés sur la BI en détaillant les notions de système décisionnel et d’entrepôt de
données. Puis, nous aborderons l’ETL.
30
CHAPITRE 3. ETAT DE L’ART
• Les décideurs stratégiques : Ces décideurs définissent les grandes lignes que l’en-
treprise doit prendre et mobilisent les moyens nécessaires pour y parvenir. Donc ils
orientent la politique et les valeurs de l’organisation.
• Les décideurs tactiques : les décideurs tactiques sont les relais des caps stratégiques,
fixés par les décideurs stratégiques. Ce sont eux qui fixent les objectifs de leur direction
ou de leur territoire, qui élaborent et choisissent la meilleure tactique pour atteindre
ces objectifs..
• Les décideurs opérationnels : faire face à la réalité du terrain, gérer le quotidien.À
ces trois profils de décideurs s’ajoute celui des analystes. Le rôle des analystes est
de récolter et de travailler l’information, fiabiliser les données, expliquer les résultats.
Leur rôle est d’aider à la prise de décision des décideurs. Les analystes varient sui-
vant le type d’organisation (industrie, négoce, service public...) et le service auquel ils
appartiennent.[]
31
CHAPITRE 3. ETAT DE L’ART
32
CHAPITRE 3. ETAT DE L’ART
33
CHAPITRE 3. ETAT DE L’ART
34
CHAPITRE 3. ETAT DE L’ART
35
CHAPITRE 3. ETAT DE L’ART
Inmon définit par ailleurs le Data Warehouse via les termes suivants :
. « Subject-Oriented » : les données du Data Warehouse sont organisées, de telle
sorte que tous les éléments se rapportant à un même événement ou objet réel sont
liés entre eux
. « Time-Variant » : les différentes modifications apportées aux données de la base
de données sont suivies et enregistrées, des rapports synthétiques peuvent ainsi
être élaborés ;
. « Non-Volatile » : les données de la Data Warehouse ne sont jamais ré-écrites
ou supprimées une fois engagées, les données sont statiques, en lecture seule et
retenues pour les futures rapports de synthèse ;
. « Integrated » : la base de données contient des données de la plupart ou totalité
des application de l’organisation, ces données oeuvrant en parfaite symbiose.
L’approche de Kimball ( approche Bottom-Up)
Ralph Kimball est un informaticien et chef d’entreprise américain. Il est connu comme
auteur d’ouvrages informatiques, notamment sur le thème du décisionnel.
Son approche s’oppose à celle de William H. Inmon, affirmant qu’un Data Warehouse
doit être rapide et compréhensible.
Le Data Warehouse peut etre vu, selon l’auteur, comme l’union des datamarts cohe-
rents entre eux grace aux dimensions conformes (data warehouse bus). La modelisa-
tion dimensionnelle permet un requetage facile et performant pour les utilisateurs [22].
36
CHAPITRE 3. ETAT DE L’ART
Malgré une opposition effective des deux modèles, aucun d’entre eux n’est à privilégier et
le choix de la meilleure approche dépend de l’activité de l’entreprise ainsi que de ses objectifs
à long et court terme sur le plan décisionnel.
37
CHAPITRE 3. ETAT DE L’ART
Source de données :
Afin d’alimenter l’entrepôt, les informations doivent être identifiées et extraites de leurs
emplacements originels. Il s’agit des sources de données hétérogènes qui peuvent comporter
des données internes à l’entreprise, stockées dans les bases de données de production des
différents services. Elles peuvent être aussi des sources externes, récupérées via des services
distants et des web services ou des sources qui peuvent être sous format de fichiers plats.
Les données de l’entrepôt sont structurées en trois classes. Ces dernières sont organisées
selon un axe historique et un axe de synthèse :
Les données agrégées : Ce sont les données qui correspondent à des éléments d’ana-
lyse représentant les besoins des utilisateurs. Elles constituent un résultat d’analyse et
une synthèse de l’information contenue dans le système décisionnel, qui est facilement
accessible et compréhensible.
Les données détaillées : Reflètent les événements les plus récents. Les intégrations
régulières des données issues des systèmes de production sont réalisées habituellement
à ce niveau. Les données historiées Chaque nouvelle insertion de données provenant
du système de production ne détruit pas les anciennes valeurs, mais crée une nouvelle
occurrence des données.
Les métadonnées : Elles constituent l’ensemble des données qui décrivent des règles
ou processus attachés à d’autres données, qui représente la finalité du système d’information[10].
38
CHAPITRE 3. ETAT DE L’ART
39
CHAPITRE 3. ETAT DE L’ART
40
CHAPITRE 3. ETAT DE L’ART
La Table de Dimensions :
Elle représente les axes d’analyse selon lesquels vont être étudiées les données observables
(les faits). En résumé, on part du principe que les données sont des faits à analyser selon
plusieurs dimensions.[8]
La Table de Fait :
41
CHAPITRE 3. ETAT DE L’ART
Les data marts sont destinés à pré-agréger des données disponibles de façon plus détaillée
dans les data warehouse, afin à traiter plus facilement certaines questions spécifiques, cri-
tiques, etc.[19]
42
CHAPITRE 3. ETAT DE L’ART
dimensions. Mais dans la pratique, la plupart des cubes contient quatre à douze dimensions.
Des problèmes de performance sont observés au-delà de cet intervalle.[11]
43
CHAPITRE 3. ETAT DE L’ART
Avantages du BI :
Limites du BI :
44
CHAPITRE 3. ETAT DE L’ART
3.5.2 Le stockage
Les éléments, préalablement (nettoyés) et consolidés, seront stockés dans des dataware-
houses ou des datamarts sous forme de données orientées sujet, non volatiles, historiées et
intégrées[10].
3.5.3 La Distribution
Cette étape met les données à la disposition des utilisateurs. Elle permet la gestion des
droits d’accès en respectant des schémas correspondant au profil ou au métier de chacun.
Ainsi l’accès direct à l’entrepôt de données n’est pas autorisé.
L’objectif principal de cette étape est de segmenter les données collectées en contextes de
telle façon à ce qu’ils soient cohérents, simples à utiliser et correspondent à une activité
décisionnelle particulière (par exemple aux besoins d’un service particulier)[10].
45
CHAPITRE 3. ETAT DE L’ART
Le Tableau de Bord
Le Reporting
46
CHAPITRE 3. ETAT DE L’ART
Le DataMining
47
CHAPITRE 3. ETAT DE L’ART
Ces méthodes s’inspirent souvent des approches de génie logiciel, et notamment de l’in-
génierie des besoins. Leur points de départ est l’expression des besoins en termes d’aide à la
décision, afin de cerner la conception dès le début, et d’éviter les résultats aberrants. Parmi
ces méthodes, celle de Ralph Kimball, est sans doute la plus connue. Celle-ci constitue un
cadre assez complet pour la conception d’un entrepôt de données selon la vision botom-top
propre à l’auteur de la méthode.
1.Choisir la procédure
La procédure (ou fonction) fait référence au sujet d’un magasin de données particulier. Le
premier magasin de données à construire est celui qui est susceptible d’être livré à temps,
en respectant les budgets, et est destiné à répondre aux questions professionnelles les plus
importantes au point de vue commercial
2.Choisir le grain
Choisir le grain signifie décider exactement de ce que représente un enregistrement d’une
table de faits.
48
CHAPITRE 3. ETAT DE L’ART
10.Finalité
À la fin de la mise en pratique de cette méthodologie, nous obtenons un design d’un ma-
gasin de données qui respecte les exigences d’un processus métier déterminé et assure aussi
une intégration aisée avec les autres magasin de données liés, pour constituer en définitive
l’entrepôt de données de toute l’entreprise.[7]
Les méthodes orientées données mettent l’accent sur la structuration des données sources
existantes (souvent relationnelles), afin de découvrir les caractéristiques déterminantes des
49
CHAPITRE 3. ETAT DE L’ART
Méthodes hybrides :
Plusieurs travaux ont tenté de regrouper les avantages des deux approches afin d’en élimi-
ner les inconvénients. Certaines en préconisant carrément deux conceptions parallèles, l’une
orientée besoin et l’autre orientée données, une étape de confrontation permet de sélectionner
les concepts inhérents aux deux conceptions, afin de satisfaire les exigences des décideurs dans
le cadre des données disponibles, dans ce cas nous pouvons citer les travaux de Bonifatti.
Bonifatti propose : Une phase de conception orientée besoins, dans laquelle les objectifs
des décideurs sont dévoilés à travers un cycle d’abstraction et un ensemble de directives pour
la génération d’un schéma logique multidimensionnel. Une autre phase orientée données peut
être déroulée en parallèle afin de découvrir faits et dimensions à partir de l’analyse de la
structure des données sources (présence d’attributs additifs, relation un à plusieurs...etc.).
Des graphes centrés sur les faits sont construits et traduits automatiquement en modèles
multidimensionnels en étoiles. Enfin une étape d’intégration consiste à unifier en premier lieu
la terminologie des deux modèles logiques produits, et une phase d’appariement qui donne
lieu au modèle cible concilié.[7]
50
CHAPITRE 3. ETAT DE L’ART
Les approches les plus connues dans la conception des entrepôts sont :
• L’approche descendante qui est basée sur les besoins d’analyse.
• L’approche ascendante qui est basée sur les sources de données.
• L’approche mixte qui est une combinaison des deux approches.
Alimentation de l’entrepôt :
Une fois l’entrepôt est conçu, il faut l’alimenter et le charger en données. Cette alimenta-
tion s’effectue à travers le processus ETL et se déroule en trois phases :
1. L’extraction des données : Il s’agit de la première étape de récupération des in-
formations dans l’environnement de l’entrepôt de données. L’extraction comprend la
lecture et la compréhension de la source de données, ainsi que la copie des parties né-
cessaires à une exploitation ultérieure dans la zone de préparation. Ainsi, nous avons
deux types d’extraction :
— Extraction complète : il s’agit d’une capture de données à un certain temps. Elle
est employée dans deux situations à savoir le chargement initial des données ou
le rafraîchissement complet des données en cas d’une modification de source par
exemple.
— Extraction incrémentale : il s’agit de capturer uniquement les données qui ont
changé ou ont été ajoutées depuis la dernière extraction. Nous distinguons alors
deux manières pour faire l’extraction incrémental.
— Extraction temps-réel qui s’effectue au moment où les transactions surviennent
dans les systèmes sources.
— Extraction différée qui extrait tous les changements survenus durant une période
donnée (ex : heure, jour, semaine, mois) à posteriori.
2. La transformation des données Une fois que les données sont extraites dans la
zone de préparation nous appliquons plusieurs étapes de transformations qui ont pour
but de rendre les données cibles homogènes afin qu’elles puissent être traitées de façon
cohérente :
51
CHAPITRE 3. ETAT DE L’ART
Administration :
Restitution :
C’est la dernière étape d’un projet d’entreposage de données, soit son exploitation. L’ex-
ploitation de l’entrepôt se fait par le biais d’un ensemble d’outils analytiques développés
autour de ce dernier. Il s’agit de regrouper tout ce qui a attrait à la représentation et la trans-
mission des résultats d’analyse de données. Le principe de la restitution, donc, est d’agréger
et de synthétiser des données nombreuses et complexes sous forme d’indicateurs, de tableaux,
de graphiques permettant d’en avoir une appréhension globale et simplifiée pour faire toutes
les analyses nécessaires.
52
CHAPITRE 3. ETAT DE L’ART
conclusion
Dans ce chapitre, a été détaillé toutes les notions relatives aux systèmes décisionnels, à
l’informatique décisionnelles et aux différentes démarches de construction utilisés pour les
maîtriser afin de favoriser le bon déroulement du projet
53