BI Module 1 - Théories Et Concepts de Base v2-1

COURS D’INFORMATIQUE DÉCISIONNELLE /
BUSINESS INTELLIGENCE
MODULE 1 : THEORIES ET CONCEPTS DE BASE
Ecole Supérieure d’Informatique

Salama (ESIS Salama)
Auteur : MASANGU KABOBA Axel Larry
Date de création : 14 novembre 2017
Mise à jour : 28 avril 2023
Version : 1.4
PLAN DU COURS
Module 1 : Théories et concepts de base
I. Introduction
1.1. Définition
1.2. Emergence de l’Informatique Décisionnelle (ID)
1.3. Des SI opérationnels aux SI décisionnels
II. Le modèle multidimensionnel
2.1. Cube
2.2. Du Cube à l’Hypercube
III. Architecture d’un système décisionnel
3.1. Data Sources ou Sources de données
a. Entrepôt de données (Data Warehouse)
b. Data Mart ou magasin de données
c. Fait
d. Dimension
e. Mesure
f. Étoile
g. Flocon
h. Constellation
i. Approche de conception
j. Meta données
a. KPI
b. Agrégation
3.2. OLAP Engine (Moteur d’analyse)
c. X-OLAP
d. Langage d’interrogation d’une base de données en ID
e. Représentation et manipulation
3.3. Front-End Tools
a. Les requêtes et les rapports
b. Les analyses
c. Le data mining
MASANGU KABOBA LARRY 2
d. Machine de Learning
e. Points de différence entre le data mining et les machines
learning
IV. Méthodes d’analyse pour un système décisionnel
Module 2 : Modélisation multidimensionnelle
1. Concepts fondamentaux de la modélisation multidimensionnelle

1.1. La Granularité
1.2. Le Fait
1.3. Les différents types de clefs
1.4. Dimension dégénérée
1.5. Dimension conforme
1.6. Architecture en bus
2. Approche de conception
2.1. Introduction
2.2. Méthode GIMSI
2.3. Méthode Ralph Kimball et Marguy Ross
Module 3 : Cas pratiques (Exercices)
Module 4 : Technologies utilisés en Informatique décisionnelle
2.1. Tutoriel SQL server 2019, Visual Studio 2022 et Ms Excel 2019
2.2. Tutoriel Power BI
V. Sources

I. INTRODUCTION
1.1. Définition
La connaissance en temps voulu de certaines informations pouvant

servir à la prise de décision peut être un facteur crucial à la croissance de
l’entreprise, du fait que les entreprises évoluent actuellement dans un milieu
concurrentiel et cherchent à maximiser leurs recettes.
Mais noyés sous de nombreuses données, éparses, déstructurées et
hétérogènes, les dirigeants sont face à une problématique de taille : comment
analyser ces informations, dans des temps raisonnables ? Celles-ci concernent-
elles toutes les mêmes périodes ? Ces décideurs ont besoin qu’on leur expose
les faits importants, base de leurs décisions.
L’informatique décisionnelle en sigle ID aussi nommée DSS pour Decision

Support System ou encore BI pour Business Intelligence désigne les moyens, les
outils et les méthodes qui permettent de collecter, consolider, modéliser et
restituer les données, matérielles ou immatérielles, d’une entreprise en vue
d’offrir une aide à la décision et de permettre aux responsables de la stratégie
d’entreprise d’avoir une vue d’ensemble de l’activité traitée. (1)
1.2. Emergence de l’Informatique Décisionnelle (ID)
a. Contexte économique et Contexte informationnel actuel
Contexte économique :
- Mondialisation de l'économie, ouverture de nouveaux marchés

- Concurrence toujours plus accrue
- Besoin d’informations pour prises de décisions de plus en plus rapides
Contexte informationnel :
- Décentralisation des données vers les utilisateurs

- Difficulté d'accès à l'information qui est en trop grande quantité
- Un enjeu stratégique d’entreprise

- Les informations, une source de revenu et de compétitivité
Contexte informatique :
- Puissance de calcul croissante

- Capacité de stockage croissante
- Bases de données de plus en plus importantes
- SGBD de plus en plus performants (parallélisme, …)
- Ouverture sur le Web, …
b. Pilotage de l’entreprise et informatique
- Le pilotage d’une entreprise dépend de ses objectifs stratégiques

- Ce pilotage doit prendre en considération :
• Une organisation de plus en plus orientée clients
• Des cycles conception/fabrication de plus en plus courts
• De nouveaux canaux de distribution notamment les ventes en ligne
• Web
• L’exigence d’internationalisation
• etc.
- Dans ce contexte l’entreprise se doit :
• D’anticiper les besoins des clients ;
• De contrôler l’intégrité et la qualité des flux de gestion ;
• D’évaluer la performance des différentes entités la composant
c. Outils informatiques supportant le pilotage des entreprises
- Outils d’analyse :
• Pour constituer et mettre à jour à partir de diverses sources des
réservoirs de grande quantités de données historisées et
multidimensionnelles, …
• Pour extraire selon divers critères des sous-ensembles de données de
tels réservoirs
• Pour analyser ces données selon différents axes (OLAP), d’identifier
des tendances, des corrélations, faire de la prévision (Data Mining)
- Outils de veille stratégique, de recherche d’information (RI) :
• Issus de « l’intelligence économique » (Competitive Intelligence), ces
outils ont pour finalité de recueillir des informations sur le marché et la
concurrence
• Collecter sur le Web d’importante quantité de données, les filtrer et
en extraire les informations pertinentes (Web Mining) pour les analyser
ensuite
 Outils relevant de lʼInformatique Décisionnelle (ID) ou Business
Intelligence (BI).
d. Importance des systèmes de l’ID
- Ils sont utilisés par les décideurs pour obtenir une connaissance
approfondie de l'entreprise et de définir et de soutenir leurs stratégies
d'affaires, par exemple :
• D’acquérir un avantage concurrentiel ;
• D’améliorer la performance de l’entreprise ;
• De répondre plus rapidement aux changements ;
• D’augmenter la rentabilité, et
• D’une façon générale la création de valeur ajoutée de l'entreprise.
e. Historique
Années 70-90 : débuts de lʼInformatique Décisionnelle :
- Développement d'outils d'édition de rapports, de statistiques, exploitant

les BD opérationnelles
- Développement de petits systèmes d’aide à la décision à base de
tableurs (simulation budgétaire, …)
- Développement de systèmes experts (IA) systèmes à base de règles,
conçus par extraction de la connaissance d'un ou plusieurs experts :
intérêts et résultats limités
- Développement de systèmes spécifiques d'aide à la décision : basés sur
des techniques de Recherche Opérationnelle (RO), la simulation,
l’optimisation, …
 Systèmes en général mal intégrés au SI opérationnel
Années 90 - 2000 : essor de l’informatique décisionnelle :
- Technologie informatique permettant le développement d’entrepôts de

données (Data Warehouse)
- Nouveaux algorithmes ;
- Souvent issus des statistiques et de l’IA, permettant d'extraire des
informations à partir de données brutes ;
- Permettant l’extraction d'informations nouvelles ou cachées, de
connaissances à partir de données ;
- Regroupés dans des logiciels de Fouille de données (Data Mining)
- Données issues du Web : Recherche d’Information (RI) et Fouille de
données sur le Web (« Web Mining »)
f. L’ID/BI peut être considérée comme l’opposé de l'Intelligence

Artificielle (IA) :
- Les systèmes d'IA prennent des décisions pour les utilisateurs ;

- Les systèmes de BI permettent aux utilisateurs de prendre les bonnes
décisions sur la base des données disponibles ;
- Mais de nombreuses techniques de BI ont leurs racines dans l’IA.
g. Exemple de question relevant de l’ID/BI
- Q1 : Le 11 Octobre 2013, trouver les 5 produits les plus vendus pour

chaque sous-catégorie de produits qui représente plus 20% des ventes
dans sa catégorie de produits
- Q2 : En date du 15 Décembre 2012, déterminer la priorité d'expédition
(shipping priority) et de revenu brut potentiel (gross revenue) des
commandes qui ont les 10 plus grandes recettes brutes (largest gross
revenues) parmi les commandes qui n'avaient pas encore été

expédiées. On ne considère que les commandes du segment du
marché du livre.
h. Problèmes clés de l’ID/BI
- Modèles de BD opérationnelles complexes et inutilisables :

• Souvent difficiles à comprendre ;
• Ne concerne pas un objectif unique d’affaire ;
- Données des BD opérationnelles :
• Identiques dans différentes BD ;
• Même concept souvent défini différemment ;
• Adaptées pour les systèmes opérationnels (comptabilité, facturation,
…), pas pour l'analyse des fonctions d'affaires ;
• De qualité mauvaise : données manquantes, données imprécises, …
• Volatiles :
▪ Elles sont supprimées périodiquement dans les systèmes
opérationnels (6 mois) ;
▪ La modification des données au fil du temps - aucune
information historique
i. Pyramide de l’ID moderne
Figure 1 : Pyramide de l’ID moderne

j. Terminologie
Tableau 1 : Terminologie
Termes anglais Termes français

Business Intelligence (BI) Informatique Décisionnelle (ID)
Decision Support Systems (DSS) Systèmes d’aide à la décision (SIAD)
Competitive Intelligence (CI) Intelligence Economique (SIAD)
Data warehouse (DW) Entrepôt de données (ED)
On-Line Analytical Processing (OLAP) Analyse en ligne de données
Knowledge Discovery in databases Extraction de connaissances dans les
(KDD) données
Data Mining (DM) Fouille de données, orpilage
Customer Relationship Management Gestion de la relation Client
(CRM)

1.3. Des SI opérationnels aux SI décisionnels
Systèmes d’information opérationnels : OLTP
- Supportent en général une ou plusieurs grandes fonctions de l’entreprise

(production, marketing, commercial, ressources humaines, finance,
comptabilité, recherche, …). Parfois intégrés dans un ERP, ils s’appuient
sur des SGBD traditionnels (Oracle, SQL SEVEUR, DB2, …) pour gérer des
BD « opérationnelles » ou de « production » (Méga Giga octets)
- Un système transactionnel en anglais On-line Transactional Processing
(OLTP) est un environnement informatique à travers lequel des
transactions sont réalisées quasi-instantanément ou en temps réel,
impliquant une ou plusieurs applications ou acteurs internes et/ou
externes à une entreprise (départements, clients, partenaires, etc.) afin
de garantir la gestion courante et la production
- Permettent des processus de traitement en ligne des données – OLTP :
Interactifs, Concurrents, Nombreux, Répétitifs, Structurés, Simples
Exemple : un supermarché ENREGISTRANT ses ventes
Tableau 2 : Système opérationnel et Système décisionnel (du point de vue

utilisateur)
Système opérationnel (OLTP) Système décisionnel (OLAP)
Grand public : ils sont destinés à toute Petit nombre d'utilisateurs : quelques
personne participant à la vie quotidienne personnes dans l'entreprise
de l'entreprise (décideurs)
Utilisateur
Le niveau des besoins analytiques est bas Le niveau des besoins analytiques
est haut
Une seule vision métier Plusieurs visions métiers

Tableau 3 : Système opérationnel et Système décisionnel (du point de vue
donnée)
Données atomiques : on manipule un Données générales : Les décideurs

produit, une ligne de commande, une veulent voir l'ensemble de l'activité
facture traitée
BDD normalisée (3ème forme normale) BDD de normalisée
Petite volumétrie des données : les Gros volumes des données : les SID
systèmes de gestion gèrent des Giga- doivent regrouper toutes les
Données
octets de données données de l'entreprise

Lecture, écriture et modification des Données en lecture seule
données
Hétérogènes : Les systèmes OLTP sont Homogènes
souvent disparates en termes de
technologie utilisée
A besoin des informations récentes A besoin de garder l'historique des
transactions
Tableau 4 : Système opérationnel et Système décisionnel (du point vue

utilisateur)
Extrêmement rapides Plus c'est rapide, mieux c'est
Fermés : on ne laisse pas la place à Ouverts : les environnements d'un

l'improvisation dans les OLTP, les choix SID doivent permettre d'accéder le
sont restreints, les utilisateurs sont guidés plus simples possibles aux données
Système
dans le processus
BDD incompréhensibles pour les BDD compréhensibles pour les
utilisateurs finales utilisateurs finales
Transactionnels : les OLTP fonctionnent Non transactionnels : L'utilisateur
en utilisant le principe de transaction doit pouvoir commencer une
analyse, revenir en arrière…

Fragmentés : ou décentralisés. Sauf Centralisés : toutes les données
dans le cas des ERP. sont regroupées en une même
source
Rappelons qu’une transaction est une opération informatique cohérente

composée de plusieurs tâches unitaires formant un tout indivisible. L'opération
ne sera valide que si toutes les tâches unitaires sont effectuées correctement
(on parle alors de commit). Dans le cas contraire, l'ensemble des données
traitées lors de l'opération reviennent à leur état initial (on parle alors de roll
back).
Tableau
Nouveaux besoins
Pour prendre de « bonnes décisions », on doit pouvoir accéder aux données

de l'entreprise, traiter ces données, extraire l'information pertinente de ces
données, par exemple pour savoir :
- Quelle est l'évolution des chiffres d'affaires par type de magasin et par
période ?
- Comment qualifier les acheteurs de mon produit X ?
- Quels sont les résultats des ventes par gamme de produit et par région
pour l'année dernière ?
Nouvelles attentes des SI :
- Considérer des quantités de données historisées de plus en plus

importantes (Téra, Penta octets), organisées selon différentes dimensions
(temps, espace géographique, gammes de produit, …)
- Passer du traitement en ligne des données (OLTP) à l’analyse en ligne de
ces données (On Line Analytical Processing - OLAP) selon différentes
dimensions pour procéder à des analyses de ces données pour
construire des indicateurs indispensables au pilotage de l’entreprise.

L’informatique opérationnelle ne peut satisfaire ces besoins :
- BD opérationnelles trop complexes pour être appréhendées facilement

par tout utilisateur décideur.
- SI opérationnel ne peut être interrompu pour répondre à des questions
nécessitant des calculs importants
- Processus d’entreposage des données mal adapté
- Analyse en ligne des données très limitée
 Recours à lʼID pour l’élaboration de SI Décisionnels
N.B : Il est important de préciser toutefois que les systèmes décisionnels ne

visent pas à remplacer les systèmes transactionnels déjà en place dans les
organisations. Ils sont plutôt complémentaires en permettant un tout autre type
d’exploitation.

II. Le modèle multidimensionnel
Le modèle multidimensionnel est la combinaison de tables de dimensions

et de faits. Le fait est le sujet de l'analyse. Il est formé de mesures, généralement
numériques, renseignées de manière continue. Ces mesures permettent de
résumer un grand nombre d'enregistrements des données sources en
quelques-uns. Le fait est analysé selon des perspectives, nommées dimensions.
Chacune contient une structure hiérarchique ; la dimension « temps », par
exemple, pourrait être divisée en années, trimestres, mois, semaines, jours...
2.1. Cube OLAP
C’est une représentation abstraite d’informations multidimensionnelles

exclusivement numérique utilisé par l’approche OLAP ou une vue particulière
d’un entrepôt de données. Cela permet de limiter la vue des données aux
données dont j’ai besoin pour faire des analyses.
Figure 2 : Cube multidimensionnel à trois perspectives d'analyse (inspiré de

'Introduction pratique aux bases de données relationnelles')
De cette hiérarchie découle le niveau de granularité de l'entrepôt, et donc,

les niveaux d'agrégations. La figure ci-dessus montre le cube permettant

l'analyse de l’indicateur de vente selon trois dimensions : produit, temps (divisé
en trimestres), et région.
Si on s’intéresse à 3 axes, on parle de Cube.
2.2. Hypercube
Si l’on s’intéresse à un axe d’analyse supplémentaire par exemple Client. On

obtient un cube à plus de 3 dimensions (produit, temps, région et client),
appelé Hypercube. Toutefois quand on a 2 axes d’analyses, on parle de
tableau.
III. Architecture d’un système décisionnel

Figure 4 : Schéma structurel d’un système décisionnel
Voici comment se présente la chaîne de valeur décisionnelle
3.1. Data Sources ou Sources de données
Ils sont constitués : des SGBD relationnels et d'autres systèmes qui

contiennent les données d'exploitation (fichiers Excel, XML, texte, etc.) ;
L’ETL (Extract Transform Load) ou ETC (Extraction Transformation et

Chargement) est un ensemble de composants (logiciels, scripts, librairies, etc.)

nous permettant d’Extraire, de Nettoyer, de Transformer les données provenant
des diverses sources données et de les Charger ou de les Rafraichir dans
l’entrepôt de données.
On transpose donc le modèle entité-relation des bases de données de

production ainsi que les autres modèles utilisés dans les opérations de
l'entreprise, en modèle à base de dimensions et de faits.
PRINCIPAUX ETL
- SQL Server Integration Services (SSIS)

- Business Objects (ActaWorks)
- Ascential Software (DataStage XE)
- Computer Associate (DecisionBase)
- ETI (ETI.Extract)
- Informatica (PowerCenter 5)
3.2. Data Storage ou Sources de stockage
Il est composé de l’Entrepôt de données, des magasins de données et des

métadonnées
a. Entrepôt de données (Data Warehouse)
Un Entrepôt de données ou Data Warehouse, est un ensemble de données

thématiques, cohérentes, évoluant dans le temps, fiables, sur lequel les
dirigeants fondent leur processus de décision. C'est une structure (comme une
base de données) qui a pour but, de regrouper les données de l'entreprise pour
des fins analytiques et pour aider à la décision stratégique. La décision
stratégique est une action prise par les décideurs de l'entreprise et qui vise à
améliorer, quantitativement ou qualitativement, la performance de
l'entreprise.
L'entrepôt de données est l'élément central de l'informatique décisionnelle.

En effet, l'entrepôt de données est actuellement l’un des meilleurs moyens pour
modéliser de l'information pour des fins d'analyse.

b. Data Mart ou magasin de données
Etant donné que les Data Warehouses sont en général, très volumineux et très
complexes à concevoir, il a été décidé de les diviser en bouchées plus faciles
à créer et à entretenir. Ce sont les Data Marts. On peut faire des divisions par
fonction (un Data Mart pour les ventes, pour les commandes, pour les
ressources humaines) ou par sous-ensemble organisationnel (un Data Mart par
succursale).
Ils sont divisés en étoile ou en flocon.
Nous parlerons d’abord de la table de fait et de dimension ensuite de

différentes représentation schématique (étoile, flocon, ...)
c. Fait
Lorsqu'on fait un schéma de Base de Données pour un système d'information

classique, on parle en termes de tables. Ce faisant, en ID/BI, on parle en termes
de Dimension et de Faits.
Les faits, sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent
des informations opérationnelles et qui relatent la vie de l'entreprise. On aura
par exemple des tables de faits sur les ventes pour une entreprise commerciale,
sur les communications pour une entreprise de télécommunications, …
En résumé, un fait est tout ce qu'on voudra analyser.
d. Dimension
On entend par dimensions les axes (critères) avec lesquels on veut faire
l’analyse (évaluer, quantifier, qualifier) des faits. Il peut y avoir une dimension
client, une dimension produit, une dimension géographie (pour faire des
analyses par secteur géographique), etc.
Une dimension est donc tout ce qu'on utilisera pour faire des analyses.

e. Mesure
- Élément de donnée sur lequel portent les analyses, en fonction des
différentes dimensions.
- Ces valeurs sont le résultat d’opérations d’agrégation sur les données
Exemple :
• Coût des travaux

• Nombre d’accidents
f. Meta données
Une métadonnée est une donnée servant à définir ou décrire une autre
donnée quel que soit son support (papier ou électronique).
Un exemple type est d'associer à une donnée la date à laquelle elle a été
produite ou enregistrée, ou à une photo les coordonnées GPS du lieu où elle a
été prise.
Les métadonnées, présentes à tous les niveaux, permettent de connaître les

données, qu’elles soient brutes ou transformées. Moriarty et Greenwood ont
déclaré, en 1997, que « les métadonnées sont aussi essentielles aux usagers
que ne le sont les données elles-mêmes ». Elles décrivent le schéma de
l’entrepôt, ainsi que l’ensemble des règles, des définitions, des transformations
et des processus qui sont appliquées à chacune des données.
Il y a deux types de métadonnées :
• Structurelles : décrivant la structure et le contenu de l'entrepôt (aussi

appelées méta schéma) ;
• Accessibilité : permettant le lien entre l'entrepôt et les utilisateurs
(description des données).
g. KPI

Les analyses réalisées par les fonctions OLAP sont utilisées pour évaluer
l’entreprise. Vient donc la notion de KPI. Les KPI (Key Performance Indicator)
sont, comme leur nom l’indique, des indicateurs clés de performance qui
montrent l’évolution de l’entreprise en matière de qualité et les objectifs à
atteindre. Un KPI indique par une valeur ou une couleur (échelle prédéfinie) la
tendance d’une mesure vis-à-vis des objectifs requis. 1
h. Agrégation
L'agrégation est une collection d'opérations possibles à effectuer sur les

données. Les plus courantes sont la somme, la moyenne, le comptage, la
somme cumulée, le minimum, le maximum, etc. Ces opérations sont à
considérer compte tenu du niveau de granularité de l'entrepôt.
i. Étoile
Une étoile est une façon de mettre en relation les dimensions et les faits
dans un entrepôt de données. La table centrale comprend les faits. On
l’appelle table de fait. Les tables autours sont les tables de dimensions. Le
principe est que les dimensions sont directement reliées à un fait
(schématiquement, ça fait comme une étoile).
1
VALENTIN P., Introduction à la B.I. Avec SQL Server 2008, pp. 11, Dotnet France

Figure 5 : Représentation schématique d’une étoile
j. Flocon
Un autre modèle de mise en relation des dimensions et des faits dans un

entrepôt de données. Le principe étant qu'il peut exister des hiérarchies de
dimensions et qu'elles sont reliées ce qui donne une ressemblance à un flocon.
Les flocons et les étoiles peuvent être vus comme une manière de diviser les
entrepôts de données et les magasins de données. On peut les voir comme
l'atome de l'informatique décisionnelle : le plus petit élément avec lequel on
peut faire des analyses et avec lequel on peut faire des magasins de données
qui, mis ensemble, forment un entrepôt de données.

Figure 6 : Représentation schématique d’un flocon
k. Constellation
Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles ou de flocons avec des dimensions en
commun.
Un environnement décisionnel idéal serait une place où il serait possible de

naviguer d'étoile en étoile, de constellation en constellation et de Data Mart
en Data Mart à la recherche de l'information si précieuse.
Un des indicateurs clés d'une bonne conception d'entrepôt est la grosseur des
constellations. En effet, plus la constellation est grosse, plus cela veut dire que
vous avez réutilisé vos dimensions, et qui dit réutilisation de dimension, dit
dimensions complètes, centralisées et avec une vue orientée entreprise.

Figure 7 : Représentation schématique d’une constellation
l. Approche de conception
Et bien trois méthodes s'offrent à nous :
- Top-Down : c'est la méthode la plus lourde, la plus contraignante et la plus

complète en même temps. Elle consiste en la conception de tout l'entrepôt
(toutes les étoiles), puis en la réalisation de ce dernier.
Imaginons le travail qu'une telle méthode implique : savoir à l'avance toutes

les dimensions et tous les faits de l'entreprise, puis les réaliser tous. Le seul
avantage que cette méthode comporte est qu'elle offre une vision très claire
et très conceptuelle des données de l'entreprise ainsi que du travail à faire.
- Botton-Up : c'est l'approche inverse, elle consiste à créer les étoiles une par
une, puis les regrouper par des niveaux intermédiaires jusqu'à l’obtention d'un
véritable entrepôt pyramidal avec une vision d'entreprise.
L'avantage de cette méthode est qu'elle est simple à réaliser (une étoile à la
fois) tandis que l'inconvénient est le volume de travail d'intégration pour obtenir
un entrepôt de données ainsi que la possibilité de redondances entre les étoiles
(car elles sont faites indépendamment les unes des autres).

- Middle-Out : c'est l'approche hybride, et conseillée par les professionnels du
BI. Elle consiste en la conception totale de l'entrepôt de données (concevoir
toutes dimensions, tous les faits, toutes les relations), puis créer des divisions plus
petites et plus gérables et les mettre en œuvre. Cela équivaut à découper
notre conception par éléments en commun et réaliser les découpages un par
un. Cette méthode tire le meilleur des deux précédentes sans avoir les
contraintes.
Il faut juste noter que cette méthode implique, parfois, des compromis de
découpage (dupliquer des dimensions identiques pour des besoins pratiques)
3.3. OLAP Engine (Moteur d’analyse)
On-Line Analytical Processing (OLAP)
En 1993, Edgar Franck Codd (1923-2003), l'inventeur des bases de données

relationnelles, & associés ont publié un document de présentation technique
à la demande de la compagnie Arbor Software, devenue aujourd'hui
Hypérion, sous le titre 'Providing OLAP (On-Line Analytical Processing) to User-
Analysts : An IT Mandate'.
L’OLAP consiste en l’exploitation (en lecture) d’un entrepôt de données par

analyse (navigation) multidimensionnelle et interactive.
Le modèle de base, attribué à Codd, se repose sur douze règles de base.
Les 12 règles de base sont :
1. Multi dimensionnalité (Multidimensional Conceptual View) : Permet d'avoir

une vision multidimensionnelle des données (ce qui n'est pas le cas avec
une table - unidimensionnel)
2. Transparence (Transparency) : L'emplacement physique du serveur OLAP
est transparent pour l'utilisateur c’est-à-dire L'utilisateur ne doit pas se
rendre compte de la provenance des données si celles-ci proviennent de
sources hétérogènes (système homogène à l'analyste) ; ces sources

peuvent être un fichier Excel, une base de données de production ou
même un fichier texte !
3. Accessibilité (Accessibility) : L'utilisateur OLAP dispose de l'accessibilité à
toutes les données nécessaires à ses analyses. C’est-à-dire OLAP est décrit
comme un middleware qui se place entre les sources de données
hétérogènes et un front-end (sous la forme d'un datawarehouse).
4. Stabilité (Uniform Reporting Performance) : La performance des reporting
restent stables indépendamment du nombre de dimensions.
5. Client-Serveur : Le serveur OLAP s'intègre dans une architecture client
serveur
6. Dimensionnement (Generic Dimensionality) : Le dimensionnement est
générique afin de ne pas fausser les analyses
7. Gestion complète (Automatic Adjustment of Physical Level) : Le serveur
OLAP assure la gestion des données clairsemées c’est-à-dire Le système
OLAP ajuste automatiquement son schéma physique pour s'adapter au
type du modèle et au volume des données (plus on dispose de place plus
on peut agréger).
8. Multi-Utilisateurs (Multi-User support) : Les outils OLAP doivent fournir des
accès concurrents, l'intégrité et la sécurité
9. Inter Dimension (Unrestricted Cross-dimensional Operations) : Le serveur
OLAP permet la réalisation d'opérations inter dimensions sans restriction
c’est-à-dire Les calculs doivent être possibles à travers toutes les
dimensions (les agrégats doivent être faits dans toutes les dimensions).
10. Intuitif (Intuitive Data Manipulation) : Le serveur OLAP permet une
manipulation intuitive des données
11. Flexibilité (Flexible Reporting) : La flexibilité (ou souplesse) de l'édition des
rapports est intrinsèque au modèle c’est-à-dire Lors de la création de
rapports, les dimensions peuvent être présentées de n'importe quelle
manière.
12. Analyse sans limites (Unlimited Dimensions & Aggregation Levels) : Le
nombre de dimensions et de niveaux d'agrégation possibles est suffisant

pour autoriser les analyses les plus poussées c’est-à-dire Dimensions et
niveaux d'agrégations illimités.
En résumé
La technologie OLAP, selon The Olap Report doit être rapide (Fast), doit
permettre de faire des analyses complexes (Analysis), répondre à une
architecture Client/Serveur avec tout ce que cela implique en terme de
sécurité et de gestion d'accès concurrent (Shared). Un outil OLAP doit, comme
dit plus haut, se baser sur une vue multidimensionnelle des données
(Multidimensional) et finalement le volume d'information que peut prendre en
charge ses outils (Information). Ces critères ont été simplifiés par l'acronyme
FASMI (Fast Analysis of Shared Multidimensional Information)
f. X-OLAP
X-OLAP définit la façon dont seront stockées physiquement les données pour
permettre des analyses multi dimensionnelles.
1. R-OLAP
Relational OLAP. Comme son nom l'indique, il utilise le concept relationnel pour
stocker des données modélisées dans le format multidimensionnel. Les analyses
(drill-down, pivot, ajout de dimensions, etc.) sont transformées en requêtes SQL
classiques qui sont exécutées sur les tables.
R-OLAP utilise aussi la notion de tables d'agrégats, c'est-à-dire créer des tables
contenant des données sommaires et les stocker en mémoire en cas
d'utilisation. Les outils modernes permettent aussi la gestion du cache,
l'optimisation des requêtes et la création de tables d'agrégats à la demande.
La technologie R-OLAP perd beaucoup de terrain face à ces concurrents (qui

suivent) car elle implique beaucoup de lourdeur et d'émulation pour son
implémentation. On simule des opérations sur des matrices avec du SQL, et le
fait de simuler deux conceptions apparemment différentes apporte son lot de
gestion lourde et de manque de performances.

R-OLAP reste la solution de choix dans le cas de gros volumes de données avec
un accès restreint.
R-OLAP a aussi comme avantage la mise en œuvre facile
2. M-OLAP
Multi-dimensional OLAP. Contrairement à R-OLAP, M-OLAP permet de stocker

les données directement en un format permettant des opérations matricielles.
Selon le constructeur, on trouvera un mode de stockage à base de tableau
de données, de technologies propriétaires et même à base de fichiers plats.
L'avantage de ce mode de stockage est la capacité à effectuer des calculs
très poussés en un temps record vu que tous les calculs sont précompilés. Le
mode de stockage permet de pré-calculer les résultats afin d'avoir accès
directement à toute donnée, quel que soit le niveau de détail.
M-OLAP reste la meilleure solution du moment en termes de performances et

d'efficacité. Reste que cette solution, à double tranchant, montre très
rapidement ses limites quand on commence à jouer avec de gros volumes de
données. En effet, le " pré-calcul " des résultats devient très pénible quand il
s'agit de gros volumes de données.
3. H-OLAP
Hybrid OLAP. C'est la solution " en vogue " du moment, car elle permet de
minimiser les défaillances des technologies R-OLAP et M-OLAP. Il s'agit en fait
d'un mix des deux solutions.
On utilisera un mode de stockage propriétaire pour les tables d'agrégat et les

tables intermédiaires (permettant de ne pas avoir les points faibles du R -OLAP).
On conservera un mode relationnel pour les tables de bas niveau.
4. D-OLAP
Desktop OLAP. Le cas spécial. Il ne s'agit en fait pas d'une technologie

particulière mais plutôt d'un mode de fonctionnement.

D-OLAP permet à l'utilisateur d'enregistrer une partie de la base de données
multidimensionnelle en local. On voit très vite l'utilité d'une telle solution pour les
commerciaux et les "nomades" de l'entreprise. Cela permettrait à un
commercial, par exemple, de faire des analyses sur les ventes, conserver ses
résultats, et vérifier l'évolution de ses analyses, une fois revenu de son voyage
d'affaire.
g. Langage d’interrogation d’une base de données en ID
g.1. SQL Sever de Microsoft : Le MDX (MultiDimensional eXpressions)
C'est un langage de requêtes pour les bases de données multidimensionnelles,

de la même manière que SQL est utilisé pour les bases de données
relationnelles.
Le langage MDX est très proche du SQL sur la forme des requêtes mais la
ressemblance ne va pas plus loin, on retrouve le squelette : SELECT [X] FROM
[Y] (WHERE[Z])
Exemple de requête
L'exemple suivant, adapté de la documentation en ligne de SQL Server 2000,

présente une requête MDX basique utilisant l'instruction SELECT. Cette requête
renvoie un jeu de résultats comprenant les montants des ventes pour 2003 et
2002 de magasins dans l'État de Californie.
SELECT
{ [Measures].[Store Sales] } ON COLUMNS,
{ [Date].[2002], [Date].[2003] } ON ROWS
FROM Sales
WHERE ( [Store].[USA].[CA] )
Dans cet exemple, la requête renvoie les résultats suivants :

La clause SELECT définit les axes de la requête. Ce sont le montant des ventes
en magasin (Store Sales Amount) ainsi que les dates 2002 et 2003. La clause
FROM indique que la requête utilise le cube "Sales" comme source de données.
La clause WHERE définit le membre "California" de la dimension "Store" en tant
qu'axe de transition
g.2. Essbase d’Oracle : le MaxL et le ESSCMD
Pourquoi deux langages ? Le premier, ESSCMD, est assez rudimentaire et

surtout peu lisible; Le second langage, MaxL a été créé pour répondre aux
défauts d’ESSCMD et le remplacer. ESSCMD et MaxL ont donc le même rôle et
couvrent à peu près les mêmes fonctionnalités ; Toutefois, MaxL est
paramétrable et offre quelques nouvelles instructions. Mécanismes servant à
naviguer dans les hiérarchies et les dimensions
Entre entrepôt et OLAP, il n’y a qu’un pas. En effet, l’entrepôt est le lieu de
stockage physique des données, tandis que l’OLAP est l’outil permettant leur
analyse multidimensionnelle2
Celle-ci est l’objet d’une requête particulière, émise par l’utilisateur, a contrario
du forage (data mining) qui vise la recherche de corrélations entre les données
dans l’intégralité de l’entrepôt.
h. Représentation et manipulation
Afin de rendre l’analyse la moins contraignante et la plus souple possible,

l’OLAP propose des opérateurs. Il s’agit de mécanismes servant à naviguer
dans les hiérarchies et les dimensions. Les opérateurs permettent de faire :
- Transformation de la granularité des données (Forage)

- Sélection / projection sur les données du cube
- Restructuration / réorientation du cube
2
http://tranchant.name/2011/11/informatique-decisionnelle/, consulté le 22/01/2016
h.1. Opérations de forage (liées à la granularité)
Etant donnée le schéma en étoile ci-dessous décrivant l’analyse des Ventes

avec comme axes Temps, Véhicules, Géographie, NomMesures. Nous allons
expliquer les différents opérateurs
Figure 8 : Exemple structurel d’un schéma en étoile
h.1.1. Roll-up (forage vers le haut) :
- Représente les données à un niveau de granularité supérieur selon la

hiérarchie de la dimension désirée
- Agréger selon une dimension
- Semaine -> Mois
h.1.2. Drill-down (forage vers le bas) :
- Inverse du roll-up
- Représente les données à un niveau de granularité inférieur
- Détailler selon une dimension
- Mois -> Semaine

Figure 9 : Roll-up (forage vers le haut) et Drill-down (forage vers le bas)
h.2. Opérations de sélection / projection
h.2.1. Slice
- Sélection
- Tranche du cube obtenu par prédicats selon une dimension
-> Mois = « Avril 2004 »

Figure 10 : Slice (Sélection)
h.2.2. Dice
- Projection selon un axe

- Sorte de cumuls de sélection
➔ Projeter (Région, Produit)

Figure 11 : Dice (Projection)
h.3. Opérations de restructuration / réorientation
- Pivot (ou Rotate)

• Tourne le cube pour visualiser une face différente
▪ (Région, Produit) -> (Région, Mois)
- Switch (ou Permutation)
• Inter-change la position des membres d’une dimension
- Nest
• Imbrique des membres issus de dimensions différentes
- Push (ou Enfoncement)
• Combine les membres d’une dimension aux mesures (les
membres deviennent le contenu des cellules)
- AddM, DelM
• Pour l’ajout et la suppression de mesures à afficher

Figure 12 : Pivot

Figure 13 : Nest

Figure 14 : Push
Quelques solutions commerciales
Figure15 : Solutions commerciales de l’ID

Quelques solutions Open Source
Figure 16 : Solutions open source de l’ID

3.4. Front-End Tools
La partie Front-End Tools désigne l’ensemble d’outils (logiciels) destiné à

produire le résultat exploitable par l’utilisateur final. Elle peut être constituée
par :
- Les requêtes et les rapports

- Les analyses
- Le data mining
3.4.1. Le data mining
C’est un processus de fouille de données, il permet d’extraire des

connaissances à partir d'un volume de données (ou qui vise la recherche de
corrélations entre les données dans l’intégralité de l’entrepôt). Une fois que le
problème en termes de données est identifié, plusieurs étapes sont nécessaires
:
• On accède aux données sélectionnées ;

• On les prépare en vue de leur future utilisation ;
• On les modélise grâce à des analyses et algorithmes de fouille de
données ;
• On extrait et évalue les connaissances résultant de ces analyses ;
• On déploie les connaissances en vue d’une utilisation effective.

Figure 17 : Méthodologie du datamining
Par cette méthodologie et à ses nombreux algorithmes, le data mining

permet de concevoir des schémas et modèles d’exploration de données.
Le data mining propose une série de tâches pour aider dans l’examen des
données :
• La classification en fonction de caractéristiques définies ;

• La régression linéaire qui présente les relations entre les données ;
• La segmentation qui permet la division d’une population en groupes
homogènes ;
• L’association qui examine le comportement de ces groupes ;
• L’analyse de séquences qui identifie les chemins pris par les clients (sur
un site web par exemple).
3.4.2. Machine Learning
Les machines learning peut être décrit comme une technologie

d’apprentissage par la donnée. L’objectif est de rendre un ordinateur
« intelligent » en lui soumettant un algorithme et des modèles de données afin
d’automatiser des tâches complexes.

3.4.3. Points de différence entre le data mining et les machines learning
Il existe des points de différences entre ces deux notions technologiques à

plusieurs niveaux.
Intervention humaine différente
Les informations extraites via le data mining sont utilisées par les individus pour
mieux comprendre leurs clients, être plus performants sur leur marché ou
optimiser leurs processus dans l’organisation. In fine, la donnée est donc utilisée
par l’humain.
Le Machine Learning (ML) peut être supervisé par l’homme au départ pour être
mis en place et fonctionner mais le but final et d’automatiser des processus et
de rendre la machine autonome.
Ressources de différentes natures
Le Data Mining extrait des informations de vastes volumes de données comme

le Big Data. Son fonctionnement est donc basé sur les datas. Le Machine
Learning fonctionne avec des algorithmes et des réseaux de neurones virtuels.
Les données lui sont transmises au départ pour développer son apprentissage
mais ce sont les algorithmes qui lui permettent de fonctionner.
Des technologies complémentaires
Le forage de données extrait les informations les plus utiles d’une base pour
identifier des tendances, schémas, modèles ou des corrélations. Une fois ces
informations triées et les modèles vérifiés, ils peuvent être soumis à l’algorithme
de Machine Learning pour développer son apprentissage et l’entrainer.
Ces deux technologies n’ont donc pas la même finalité, mais sont plutôt
complémentaires. Concrètement, le Data Mining est une ressource sur
laquelle le Machine Learning peut s’appuyer pour accomplir ses fonctions. Ils
participent ensemble à améliorer la performance de l’entreprise et sa
compétitivité.

IV. Cas pratiques (Exercices)
Se référer au Module 3 : Cas pratiques (Exercices)

V. Sources
2.3. Webographie
1. http://fr.wikipedia.org/wiki/informatique_décisionnelle
2. http://grim.developpez.com/cours/businessintelligence/concept
s/conception-datawarehouse/
3. http://grim.developpez.com/articles/concepts/slow-changing-
dimension/
4. http://business-intelligence.developpez.com/tutoriels/quest-ce-
que-la-bi/ consulté le 10/09/2016

5. https://www.talend.com/fr/resources/guide-big-data/, consulté
le 29/04/2021
2.4. Cours
1. Bernard ESPINASSE, Introduction à lʼInformatique Décisionnelle et
la « Business Intelligence », Ecole Polytechnique Universitaire de
Marseille.
2. NEGRE Elsa, Entrepôts de données, Université Paris-Dauphine,
2015-2016
3. VALENTIN Pauline, Introduction à la B.I. Avec SQL Server 2008,
Dotnet France
4. « Data Warehouse Design: Modern Principles and Methodologies
» de Matteo Golfarelli et Stefano Rizzi, 2009, Ed: Osborne/McGraw-
Hill.
5. « Olap Solutions: Building Multidimensional Information Systems »
de E. Thomsen, 2002, Ed: John Wiley & Sons Inc.

VI. Tables de matières
PLAN DU COURS ................................................................................................................................. 2

I. INTRODUCTION............................................................................................................................ 4
1.1. Définition ............................................................................................................................... 4
1.2. Emergence de l’Informatique Décisionnelle (ID) ..................................................... 4
1.3. Des SI opérationnels aux SI décisionnels .................................................................. 10
II. Le modèle multidimensionnel............................................................................................... 14
2.1. Cube OLAP ......................................................................................................................... 14
2.2. Hypercube ......................................................................................................................... 15
III. Architecture d’un système décisionnel ............................................................................. 15
3.1. Data Sources ou Sources de données ....................................................................... 15
3.2. Data Storage ou Sources de stockage ...................................................................... 16
3.3. OLAP Engine (Moteur d’analyse) ................................................................................. 23
3.4. Front-End Tools .................................................................................................................. 37
IV. Méthodologie de conception des entrepôts de données. ......... Erreur ! Signet non
défini.
V. Cas pratiques (Exercices) ...................................................................................................... 40
VI. Sources .................................................................................................................................... 41
VII. Tables de matières ............................................................................................................... 42

BI Module 1 - Théories Et Concepts de Base v2-1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

BI Module 1 - Théories Et Concepts de Base v2-1

Transféré par

Droits d'auteur :

Formats disponibles

COURS D’INFORMATIQUE DÉCISIONNELLE /

MODULE 1 : THEORIES ET CONCEPTS DE BASE

Ecole Supérieure d’Informatique

Auteur : MASANGU KABOBA Axel Larry

Date de création : 14 novembre 2017

Mise à jour : 28 avril 2023

IV. Méthodes d’analyse pour un système décisionnel

Module 2 : Modélisation multidimensionnelle

1. Concepts fondamentaux de la modélisation multidimensionnelle

Module 3 : Cas pratiques (Exercices)

Module 4 : Technologies utilisés en Informatique décisionnelle

MASANGU KABOBA LARRY 3

La connaissance en temps voulu de certaines informations pouvant

L’informatique décisionnelle en sigle ID aussi nommée DSS pour Decision

1.2. Emergence de l’Informatique Décisionnelle (ID)

a. Contexte économique et Contexte informationnel actuel

- Mondialisation de l'économie, ouverture de nouveaux marchés

- Décentralisation des données vers les utilisateurs

MASANGU KABOBA LARRY 4

- Puissance de calcul croissante

- Le pilotage d’une entreprise dépend de ses objectifs stratégiques

Années 70-90 : débuts de lʼInformatique Décisionnelle :

- Développement d'outils d'édition de rapports, de statistiques, exploitant

Années 90 - 2000 : essor de l’informatique décisionnelle :

- Technologie informatique permettant le développement d’entrepôts de

f. L’ID/BI peut être considérée comme l’opposé de l'Intelligence

- Les systèmes d'IA prennent des décisions pour les utilisateurs ;

g. Exemple de question relevant de l’ID/BI

- Q1 : Le 11 Octobre 2013, trouver les 5 produits les plus vendus pour

MASANGU KABOBA LARRY 7

h. Problèmes clés de l’ID/BI

- Modèles de BD opérationnelles complexes et inutilisables :

Figure 1 : Pyramide de l’ID moderne

MASANGU KABOBA LARRY 8

Termes anglais Termes français

MASANGU KABOBA LARRY 9

Systèmes d’information opérationnels : OLTP

- Supportent en général une ou plusieurs grandes fonctions de l’entreprise

Exemple : un supermarché ENREGISTRANT ses ventes

Tableau 2 : Système opérationnel et Système décisionnel (du point de vue

Système opérationnel (OLTP) Système décisionnel (OLAP)

Une seule vision métier Plusieurs visions métiers

MASANGU KABOBA LARRY 10

Système opérationnel (OLTP) Système décisionnel (OLAP)

Données atomiques : on manipule un Données générales : Les décideurs

octets de données données de l'entreprise

Tableau 4 : Système opérationnel et Système décisionnel (du point vue

Système opérationnel (OLTP) Système décisionnel (OLAP)

Extrêmement rapides Plus c'est rapide, mieux c'est

Fermés : on ne laisse pas la place à Ouverts : les environnements d'un

MASANGU KABOBA LARRY 11

Rappelons qu’une transaction est une opération informatique cohérente

Pour prendre de « bonnes décisions », on doit pouvoir accéder aux données

Nouvelles attentes des SI :

- Considérer des quantités de données historisées de plus en plus

MASANGU KABOBA LARRY 12

- BD opérationnelles trop complexes pour être appréhendées facilement

N.B : Il est important de préciser toutefois que les systèmes décisionnels ne

MASANGU KABOBA LARRY 13

Le modèle multidimensionnel est la combinaison de tables de dimensions

2.1. Cube OLAP

C’est une représentation abstraite d’informations multidimensionnelles

Figure 2 : Cube multidimensionnel à trois perspectives d'analyse (inspiré de