Vous êtes sur la page 1sur 42

COURS D’INFORMATIQUE DÉCISIONNELLE /

BUSINESS INTELLIGENCE

MODULE 1 : THEORIES ET CONCEPTS DE BASE

Ecole Supérieure d’Informatique


Salama (ESIS Salama)

Auteur : MASANGU KABOBA Axel Larry

Date de création : 14 novembre 2017

Mise à jour : 28 avril 2023

Version : 1.4
PLAN DU COURS
Module 1 : Théories et concepts de base

I. Introduction
1.1. Définition
1.2. Emergence de l’Informatique Décisionnelle (ID)
1.3. Des SI opérationnels aux SI décisionnels
II. Le modèle multidimensionnel
2.1. Cube
2.2. Du Cube à l’Hypercube
III. Architecture d’un système décisionnel
3.1. Data Sources ou Sources de données
a. Entrepôt de données (Data Warehouse)
b. Data Mart ou magasin de données
c. Fait
d. Dimension
e. Mesure
f. Étoile
g. Flocon
h. Constellation
i. Approche de conception
j. Meta données
a. KPI
b. Agrégation
3.2. OLAP Engine (Moteur d’analyse)
c. X-OLAP
d. Langage d’interrogation d’une base de données en ID
e. Représentation et manipulation
3.3. Front-End Tools
a. Les requêtes et les rapports
b. Les analyses
c. Le data mining
MASANGU KABOBA LARRY 2
d. Machine de Learning
e. Points de différence entre le data mining et les machines
learning

IV. Méthodes d’analyse pour un système décisionnel

Module 2 : Modélisation multidimensionnelle

1. Concepts fondamentaux de la modélisation multidimensionnelle


1.1. La Granularité
1.2. Le Fait
1.3. Les différents types de clefs
1.4. Dimension dégénérée
1.5. Dimension conforme
1.6. Architecture en bus
2. Approche de conception
2.1. Introduction
2.2. Méthode GIMSI
2.3. Méthode Ralph Kimball et Marguy Ross

Module 3 : Cas pratiques (Exercices)

Module 4 : Technologies utilisés en Informatique décisionnelle

2.1. Tutoriel SQL server 2019, Visual Studio 2022 et Ms Excel 2019
2.2. Tutoriel Power BI
V. Sources

MASANGU KABOBA LARRY 3


I. INTRODUCTION
1.1. Définition

La connaissance en temps voulu de certaines informations pouvant


servir à la prise de décision peut être un facteur crucial à la croissance de
l’entreprise, du fait que les entreprises évoluent actuellement dans un milieu
concurrentiel et cherchent à maximiser leurs recettes.
Mais noyés sous de nombreuses données, éparses, déstructurées et
hétérogènes, les dirigeants sont face à une problématique de taille : comment
analyser ces informations, dans des temps raisonnables ? Celles-ci concernent-
elles toutes les mêmes périodes ? Ces décideurs ont besoin qu’on leur expose
les faits importants, base de leurs décisions.

L’informatique décisionnelle en sigle ID aussi nommée DSS pour Decision


Support System ou encore BI pour Business Intelligence désigne les moyens, les
outils et les méthodes qui permettent de collecter, consolider, modéliser et
restituer les données, matérielles ou immatérielles, d’une entreprise en vue
d’offrir une aide à la décision et de permettre aux responsables de la stratégie
d’entreprise d’avoir une vue d’ensemble de l’activité traitée. (1)

1.2. Emergence de l’Informatique Décisionnelle (ID)

a. Contexte économique et Contexte informationnel actuel

Contexte économique :

- Mondialisation de l'économie, ouverture de nouveaux marchés


- Concurrence toujours plus accrue
- Besoin d’informations pour prises de décisions de plus en plus rapides

Contexte informationnel :

- Décentralisation des données vers les utilisateurs


- Difficulté d'accès à l'information qui est en trop grande quantité
- Un enjeu stratégique d’entreprise

MASANGU KABOBA LARRY 4


- Les informations, une source de revenu et de compétitivité

Contexte informatique :

- Puissance de calcul croissante


- Capacité de stockage croissante
- Bases de données de plus en plus importantes
- SGBD de plus en plus performants (parallélisme, …)
- Ouverture sur le Web, …
b. Pilotage de l’entreprise et informatique

- Le pilotage d’une entreprise dépend de ses objectifs stratégiques


- Ce pilotage doit prendre en considération :
• Une organisation de plus en plus orientée clients
• Des cycles conception/fabrication de plus en plus courts
• De nouveaux canaux de distribution notamment les ventes en ligne
• Web
• L’exigence d’internationalisation
• etc.
- Dans ce contexte l’entreprise se doit :
• D’anticiper les besoins des clients ;
• De contrôler l’intégrité et la qualité des flux de gestion ;
• D’évaluer la performance des différentes entités la composant
c. Outils informatiques supportant le pilotage des entreprises

- Outils d’analyse :
• Pour constituer et mettre à jour à partir de diverses sources des
réservoirs de grande quantités de données historisées et
multidimensionnelles, …
• Pour extraire selon divers critères des sous-ensembles de données de
tels réservoirs
• Pour analyser ces données selon différents axes (OLAP), d’identifier
des tendances, des corrélations, faire de la prévision (Data Mining)
MASANGU KABOBA LARRY 5
- Outils de veille stratégique, de recherche d’information (RI) :
• Issus de « l’intelligence économique » (Competitive Intelligence), ces
outils ont pour finalité de recueillir des informations sur le marché et la
concurrence
• Collecter sur le Web d’importante quantité de données, les filtrer et
en extraire les informations pertinentes (Web Mining) pour les analyser
ensuite
 Outils relevant de lʼInformatique Décisionnelle (ID) ou Business
Intelligence (BI).
d. Importance des systèmes de l’ID

- Ils sont utilisés par les décideurs pour obtenir une connaissance
approfondie de l'entreprise et de définir et de soutenir leurs stratégies
d'affaires, par exemple :
• D’acquérir un avantage concurrentiel ;
• D’améliorer la performance de l’entreprise ;
• De répondre plus rapidement aux changements ;
• D’augmenter la rentabilité, et
• D’une façon générale la création de valeur ajoutée de l'entreprise.
e. Historique

Années 70-90 : débuts de lʼInformatique Décisionnelle :

- Développement d'outils d'édition de rapports, de statistiques, exploitant


les BD opérationnelles
- Développement de petits systèmes d’aide à la décision à base de
tableurs (simulation budgétaire, …)
- Développement de systèmes experts (IA) systèmes à base de règles,
conçus par extraction de la connaissance d'un ou plusieurs experts :
intérêts et résultats limités
- Développement de systèmes spécifiques d'aide à la décision : basés sur
des techniques de Recherche Opérationnelle (RO), la simulation,
l’optimisation, …
MASANGU KABOBA LARRY 6
 Systèmes en général mal intégrés au SI opérationnel

Années 90 - 2000 : essor de l’informatique décisionnelle :

- Technologie informatique permettant le développement d’entrepôts de


données (Data Warehouse)
- Nouveaux algorithmes ;
- Souvent issus des statistiques et de l’IA, permettant d'extraire des
informations à partir de données brutes ;
- Permettant l’extraction d'informations nouvelles ou cachées, de
connaissances à partir de données ;
- Regroupés dans des logiciels de Fouille de données (Data Mining)
- Données issues du Web : Recherche d’Information (RI) et Fouille de
données sur le Web (« Web Mining »)

f. L’ID/BI peut être considérée comme l’opposé de l'Intelligence


Artificielle (IA) :

- Les systèmes d'IA prennent des décisions pour les utilisateurs ;


- Les systèmes de BI permettent aux utilisateurs de prendre les bonnes
décisions sur la base des données disponibles ;
- Mais de nombreuses techniques de BI ont leurs racines dans l’IA.

g. Exemple de question relevant de l’ID/BI

- Q1 : Le 11 Octobre 2013, trouver les 5 produits les plus vendus pour


chaque sous-catégorie de produits qui représente plus 20% des ventes
dans sa catégorie de produits
- Q2 : En date du 15 Décembre 2012, déterminer la priorité d'expédition
(shipping priority) et de revenu brut potentiel (gross revenue) des
commandes qui ont les 10 plus grandes recettes brutes (largest gross
revenues) parmi les commandes qui n'avaient pas encore été

MASANGU KABOBA LARRY 7


expédiées. On ne considère que les commandes du segment du
marché du livre.

h. Problèmes clés de l’ID/BI

- Modèles de BD opérationnelles complexes et inutilisables :


• Souvent difficiles à comprendre ;
• Ne concerne pas un objectif unique d’affaire ;
- Données des BD opérationnelles :
• Identiques dans différentes BD ;
• Même concept souvent défini différemment ;
• Adaptées pour les systèmes opérationnels (comptabilité, facturation,
…), pas pour l'analyse des fonctions d'affaires ;
• De qualité mauvaise : données manquantes, données imprécises, …
• Volatiles :
▪ Elles sont supprimées périodiquement dans les systèmes
opérationnels (6 mois) ;
▪ La modification des données au fil du temps - aucune
information historique
i. Pyramide de l’ID moderne

Figure 1 : Pyramide de l’ID moderne

MASANGU KABOBA LARRY 8


j. Terminologie

Tableau 1 : Terminologie

Termes anglais Termes français


Business Intelligence (BI) Informatique Décisionnelle (ID)
Decision Support Systems (DSS) Systèmes d’aide à la décision (SIAD)
Competitive Intelligence (CI) Intelligence Economique (SIAD)
Data warehouse (DW) Entrepôt de données (ED)
On-Line Analytical Processing (OLAP) Analyse en ligne de données
Knowledge Discovery in databases Extraction de connaissances dans les
(KDD) données
Data Mining (DM) Fouille de données, orpilage
Customer Relationship Management Gestion de la relation Client
(CRM)

MASANGU KABOBA LARRY 9


1.3. Des SI opérationnels aux SI décisionnels

Systèmes d’information opérationnels : OLTP

- Supportent en général une ou plusieurs grandes fonctions de l’entreprise


(production, marketing, commercial, ressources humaines, finance,
comptabilité, recherche, …). Parfois intégrés dans un ERP, ils s’appuient
sur des SGBD traditionnels (Oracle, SQL SEVEUR, DB2, …) pour gérer des
BD « opérationnelles » ou de « production » (Méga Giga octets)
- Un système transactionnel en anglais On-line Transactional Processing
(OLTP) est un environnement informatique à travers lequel des
transactions sont réalisées quasi-instantanément ou en temps réel,
impliquant une ou plusieurs applications ou acteurs internes et/ou
externes à une entreprise (départements, clients, partenaires, etc.) afin
de garantir la gestion courante et la production
- Permettent des processus de traitement en ligne des données – OLTP :
Interactifs, Concurrents, Nombreux, Répétitifs, Structurés, Simples

Exemple : un supermarché ENREGISTRANT ses ventes

Tableau 2 : Système opérationnel et Système décisionnel (du point de vue


utilisateur)

Système opérationnel (OLTP) Système décisionnel (OLAP)

Grand public : ils sont destinés à toute Petit nombre d'utilisateurs : quelques
personne participant à la vie quotidienne personnes dans l'entreprise
de l'entreprise (décideurs)
Utilisateur

Le niveau des besoins analytiques est bas Le niveau des besoins analytiques
est haut

Une seule vision métier Plusieurs visions métiers

MASANGU KABOBA LARRY 10


Tableau 3 : Système opérationnel et Système décisionnel (du point de vue
donnée)

Système opérationnel (OLTP) Système décisionnel (OLAP)

Données atomiques : on manipule un Données générales : Les décideurs


produit, une ligne de commande, une veulent voir l'ensemble de l'activité
facture traitée
BDD normalisée (3ème forme normale) BDD de normalisée

Petite volumétrie des données : les Gros volumes des données : les SID
systèmes de gestion gèrent des Giga- doivent regrouper toutes les
Données

octets de données données de l'entreprise


Lecture, écriture et modification des Données en lecture seule
données
Hétérogènes : Les systèmes OLTP sont Homogènes
souvent disparates en termes de
technologie utilisée
A besoin des informations récentes A besoin de garder l'historique des
transactions

Tableau 4 : Système opérationnel et Système décisionnel (du point vue


utilisateur)

Système opérationnel (OLTP) Système décisionnel (OLAP)

Extrêmement rapides Plus c'est rapide, mieux c'est

Fermés : on ne laisse pas la place à Ouverts : les environnements d'un


l'improvisation dans les OLTP, les choix SID doivent permettre d'accéder le
sont restreints, les utilisateurs sont guidés plus simples possibles aux données
Système

dans le processus
BDD incompréhensibles pour les BDD compréhensibles pour les
utilisateurs finales utilisateurs finales
Transactionnels : les OLTP fonctionnent Non transactionnels : L'utilisateur
en utilisant le principe de transaction doit pouvoir commencer une
analyse, revenir en arrière…

MASANGU KABOBA LARRY 11


Fragmentés : ou décentralisés. Sauf Centralisés : toutes les données
dans le cas des ERP. sont regroupées en une même
source

Rappelons qu’une transaction est une opération informatique cohérente


composée de plusieurs tâches unitaires formant un tout indivisible. L'opération
ne sera valide que si toutes les tâches unitaires sont effectuées correctement
(on parle alors de commit). Dans le cas contraire, l'ensemble des données
traitées lors de l'opération reviennent à leur état initial (on parle alors de roll
back).
Tableau
Nouveaux besoins

Pour prendre de « bonnes décisions », on doit pouvoir accéder aux données


de l'entreprise, traiter ces données, extraire l'information pertinente de ces
données, par exemple pour savoir :

- Quelle est l'évolution des chiffres d'affaires par type de magasin et par
période ?
- Comment qualifier les acheteurs de mon produit X ?
- Quels sont les résultats des ventes par gamme de produit et par région
pour l'année dernière ?

Nouvelles attentes des SI :

- Considérer des quantités de données historisées de plus en plus


importantes (Téra, Penta octets), organisées selon différentes dimensions
(temps, espace géographique, gammes de produit, …)
- Passer du traitement en ligne des données (OLTP) à l’analyse en ligne de
ces données (On Line Analytical Processing - OLAP) selon différentes
dimensions pour procéder à des analyses de ces données pour
construire des indicateurs indispensables au pilotage de l’entreprise.

MASANGU KABOBA LARRY 12


L’informatique opérationnelle ne peut satisfaire ces besoins :

- BD opérationnelles trop complexes pour être appréhendées facilement


par tout utilisateur décideur.
- SI opérationnel ne peut être interrompu pour répondre à des questions
nécessitant des calculs importants
- Processus d’entreposage des données mal adapté
- Analyse en ligne des données très limitée
 Recours à lʼID pour l’élaboration de SI Décisionnels

N.B : Il est important de préciser toutefois que les systèmes décisionnels ne


visent pas à remplacer les systèmes transactionnels déjà en place dans les
organisations. Ils sont plutôt complémentaires en permettant un tout autre type
d’exploitation.

MASANGU KABOBA LARRY 13


II. Le modèle multidimensionnel

Le modèle multidimensionnel est la combinaison de tables de dimensions


et de faits. Le fait est le sujet de l'analyse. Il est formé de mesures, généralement
numériques, renseignées de manière continue. Ces mesures permettent de
résumer un grand nombre d'enregistrements des données sources en
quelques-uns. Le fait est analysé selon des perspectives, nommées dimensions.
Chacune contient une structure hiérarchique ; la dimension « temps », par
exemple, pourrait être divisée en années, trimestres, mois, semaines, jours...

2.1. Cube OLAP

C’est une représentation abstraite d’informations multidimensionnelles


exclusivement numérique utilisé par l’approche OLAP ou une vue particulière
d’un entrepôt de données. Cela permet de limiter la vue des données aux
données dont j’ai besoin pour faire des analyses.

Figure 2 : Cube multidimensionnel à trois perspectives d'analyse (inspiré de


'Introduction pratique aux bases de données relationnelles')

De cette hiérarchie découle le niveau de granularité de l'entrepôt, et donc,


les niveaux d'agrégations. La figure ci-dessus montre le cube permettant

MASANGU KABOBA LARRY 14


l'analyse de l’indicateur de vente selon trois dimensions : produit, temps (divisé
en trimestres), et région.

Si on s’intéresse à 3 axes, on parle de Cube.

2.2. Hypercube

Si l’on s’intéresse à un axe d’analyse supplémentaire par exemple Client. On


obtient un cube à plus de 3 dimensions (produit, temps, région et client),
appelé Hypercube. Toutefois quand on a 2 axes d’analyses, on parle de
tableau.

III. Architecture d’un système décisionnel


Figure 4 : Schéma structurel d’un système décisionnel

Voici comment se présente la chaîne de valeur décisionnelle

3.1. Data Sources ou Sources de données

Ils sont constitués : des SGBD relationnels et d'autres systèmes qui


contiennent les données d'exploitation (fichiers Excel, XML, texte, etc.) ;

L’ETL (Extract Transform Load) ou ETC (Extraction Transformation et


Chargement) est un ensemble de composants (logiciels, scripts, librairies, etc.)

MASANGU KABOBA LARRY 15


nous permettant d’Extraire, de Nettoyer, de Transformer les données provenant
des diverses sources données et de les Charger ou de les Rafraichir dans
l’entrepôt de données.

On transpose donc le modèle entité-relation des bases de données de


production ainsi que les autres modèles utilisés dans les opérations de
l'entreprise, en modèle à base de dimensions et de faits.

PRINCIPAUX ETL

- SQL Server Integration Services (SSIS)


- Business Objects (ActaWorks)
- Ascential Software (DataStage XE)
- Computer Associate (DecisionBase)
- ETI (ETI.Extract)
- Informatica (PowerCenter 5)

3.2. Data Storage ou Sources de stockage

Il est composé de l’Entrepôt de données, des magasins de données et des


métadonnées

a. Entrepôt de données (Data Warehouse)

Un Entrepôt de données ou Data Warehouse, est un ensemble de données


thématiques, cohérentes, évoluant dans le temps, fiables, sur lequel les
dirigeants fondent leur processus de décision. C'est une structure (comme une
base de données) qui a pour but, de regrouper les données de l'entreprise pour
des fins analytiques et pour aider à la décision stratégique. La décision
stratégique est une action prise par les décideurs de l'entreprise et qui vise à
améliorer, quantitativement ou qualitativement, la performance de
l'entreprise.

L'entrepôt de données est l'élément central de l'informatique décisionnelle.


En effet, l'entrepôt de données est actuellement l’un des meilleurs moyens pour
modéliser de l'information pour des fins d'analyse.

MASANGU KABOBA LARRY 16


b. Data Mart ou magasin de données

Etant donné que les Data Warehouses sont en général, très volumineux et très
complexes à concevoir, il a été décidé de les diviser en bouchées plus faciles
à créer et à entretenir. Ce sont les Data Marts. On peut faire des divisions par
fonction (un Data Mart pour les ventes, pour les commandes, pour les
ressources humaines) ou par sous-ensemble organisationnel (un Data Mart par
succursale).

Ils sont divisés en étoile ou en flocon.

Nous parlerons d’abord de la table de fait et de dimension ensuite de


différentes représentation schématique (étoile, flocon, ...)

c. Fait

Lorsqu'on fait un schéma de Base de Données pour un système d'information


classique, on parle en termes de tables. Ce faisant, en ID/BI, on parle en termes
de Dimension et de Faits.

Les faits, sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent
des informations opérationnelles et qui relatent la vie de l'entreprise. On aura
par exemple des tables de faits sur les ventes pour une entreprise commerciale,
sur les communications pour une entreprise de télécommunications, …

En résumé, un fait est tout ce qu'on voudra analyser.

d. Dimension

On entend par dimensions les axes (critères) avec lesquels on veut faire
l’analyse (évaluer, quantifier, qualifier) des faits. Il peut y avoir une dimension
client, une dimension produit, une dimension géographie (pour faire des
analyses par secteur géographique), etc.

Une dimension est donc tout ce qu'on utilisera pour faire des analyses.

MASANGU KABOBA LARRY 17


e. Mesure
- Élément de donnée sur lequel portent les analyses, en fonction des
différentes dimensions.
- Ces valeurs sont le résultat d’opérations d’agrégation sur les données

Exemple :

• Coût des travaux


• Nombre d’accidents

f. Meta données

Une métadonnée est une donnée servant à définir ou décrire une autre
donnée quel que soit son support (papier ou électronique).

Un exemple type est d'associer à une donnée la date à laquelle elle a été
produite ou enregistrée, ou à une photo les coordonnées GPS du lieu où elle a
été prise.

Les métadonnées, présentes à tous les niveaux, permettent de connaître les


données, qu’elles soient brutes ou transformées. Moriarty et Greenwood ont
déclaré, en 1997, que « les métadonnées sont aussi essentielles aux usagers
que ne le sont les données elles-mêmes ». Elles décrivent le schéma de
l’entrepôt, ainsi que l’ensemble des règles, des définitions, des transformations
et des processus qui sont appliquées à chacune des données.

Il y a deux types de métadonnées :

• Structurelles : décrivant la structure et le contenu de l'entrepôt (aussi


appelées méta schéma) ;
• Accessibilité : permettant le lien entre l'entrepôt et les utilisateurs
(description des données).

g. KPI

MASANGU KABOBA LARRY 18


Les analyses réalisées par les fonctions OLAP sont utilisées pour évaluer
l’entreprise. Vient donc la notion de KPI. Les KPI (Key Performance Indicator)
sont, comme leur nom l’indique, des indicateurs clés de performance qui
montrent l’évolution de l’entreprise en matière de qualité et les objectifs à
atteindre. Un KPI indique par une valeur ou une couleur (échelle prédéfinie) la
tendance d’une mesure vis-à-vis des objectifs requis. 1

h. Agrégation

L'agrégation est une collection d'opérations possibles à effectuer sur les


données. Les plus courantes sont la somme, la moyenne, le comptage, la
somme cumulée, le minimum, le maximum, etc. Ces opérations sont à
considérer compte tenu du niveau de granularité de l'entrepôt.

i. Étoile

Une étoile est une façon de mettre en relation les dimensions et les faits
dans un entrepôt de données. La table centrale comprend les faits. On
l’appelle table de fait. Les tables autours sont les tables de dimensions. Le
principe est que les dimensions sont directement reliées à un fait
(schématiquement, ça fait comme une étoile).

1
VALENTIN P., Introduction à la B.I. Avec SQL Server 2008, pp. 11, Dotnet France

MASANGU KABOBA LARRY 19


Figure 5 : Représentation schématique d’une étoile

j. Flocon

Un autre modèle de mise en relation des dimensions et des faits dans un


entrepôt de données. Le principe étant qu'il peut exister des hiérarchies de
dimensions et qu'elles sont reliées ce qui donne une ressemblance à un flocon.

Les flocons et les étoiles peuvent être vus comme une manière de diviser les
entrepôts de données et les magasins de données. On peut les voir comme
l'atome de l'informatique décisionnelle : le plus petit élément avec lequel on
peut faire des analyses et avec lequel on peut faire des magasins de données
qui, mis ensemble, forment un entrepôt de données.

MASANGU KABOBA LARRY 20


Figure 6 : Représentation schématique d’un flocon

k. Constellation

Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles ou de flocons avec des dimensions en
commun.

Un environnement décisionnel idéal serait une place où il serait possible de


naviguer d'étoile en étoile, de constellation en constellation et de Data Mart
en Data Mart à la recherche de l'information si précieuse.

Un des indicateurs clés d'une bonne conception d'entrepôt est la grosseur des
constellations. En effet, plus la constellation est grosse, plus cela veut dire que
vous avez réutilisé vos dimensions, et qui dit réutilisation de dimension, dit
dimensions complètes, centralisées et avec une vue orientée entreprise.

MASANGU KABOBA LARRY 21


Figure 7 : Représentation schématique d’une constellation

l. Approche de conception

Et bien trois méthodes s'offrent à nous :

- Top-Down : c'est la méthode la plus lourde, la plus contraignante et la plus


complète en même temps. Elle consiste en la conception de tout l'entrepôt
(toutes les étoiles), puis en la réalisation de ce dernier.

Imaginons le travail qu'une telle méthode implique : savoir à l'avance toutes


les dimensions et tous les faits de l'entreprise, puis les réaliser tous. Le seul
avantage que cette méthode comporte est qu'elle offre une vision très claire
et très conceptuelle des données de l'entreprise ainsi que du travail à faire.

- Botton-Up : c'est l'approche inverse, elle consiste à créer les étoiles une par
une, puis les regrouper par des niveaux intermédiaires jusqu'à l’obtention d'un
véritable entrepôt pyramidal avec une vision d'entreprise.

L'avantage de cette méthode est qu'elle est simple à réaliser (une étoile à la
fois) tandis que l'inconvénient est le volume de travail d'intégration pour obtenir
un entrepôt de données ainsi que la possibilité de redondances entre les étoiles
(car elles sont faites indépendamment les unes des autres).

MASANGU KABOBA LARRY 22


- Middle-Out : c'est l'approche hybride, et conseillée par les professionnels du
BI. Elle consiste en la conception totale de l'entrepôt de données (concevoir
toutes dimensions, tous les faits, toutes les relations), puis créer des divisions plus
petites et plus gérables et les mettre en œuvre. Cela équivaut à découper
notre conception par éléments en commun et réaliser les découpages un par
un. Cette méthode tire le meilleur des deux précédentes sans avoir les
contraintes.

Il faut juste noter que cette méthode implique, parfois, des compromis de
découpage (dupliquer des dimensions identiques pour des besoins pratiques)

3.3. OLAP Engine (Moteur d’analyse)

On-Line Analytical Processing (OLAP)

En 1993, Edgar Franck Codd (1923-2003), l'inventeur des bases de données


relationnelles, & associés ont publié un document de présentation technique
à la demande de la compagnie Arbor Software, devenue aujourd'hui
Hypérion, sous le titre 'Providing OLAP (On-Line Analytical Processing) to User-
Analysts : An IT Mandate'.

L’OLAP consiste en l’exploitation (en lecture) d’un entrepôt de données par


analyse (navigation) multidimensionnelle et interactive.

Le modèle de base, attribué à Codd, se repose sur douze règles de base.

Les 12 règles de base sont :

1. Multi dimensionnalité (Multidimensional Conceptual View) : Permet d'avoir


une vision multidimensionnelle des données (ce qui n'est pas le cas avec
une table - unidimensionnel)
2. Transparence (Transparency) : L'emplacement physique du serveur OLAP
est transparent pour l'utilisateur c’est-à-dire L'utilisateur ne doit pas se
rendre compte de la provenance des données si celles-ci proviennent de
sources hétérogènes (système homogène à l'analyste) ; ces sources

MASANGU KABOBA LARRY 23


peuvent être un fichier Excel, une base de données de production ou
même un fichier texte !
3. Accessibilité (Accessibility) : L'utilisateur OLAP dispose de l'accessibilité à
toutes les données nécessaires à ses analyses. C’est-à-dire OLAP est décrit
comme un middleware qui se place entre les sources de données
hétérogènes et un front-end (sous la forme d'un datawarehouse).
4. Stabilité (Uniform Reporting Performance) : La performance des reporting
restent stables indépendamment du nombre de dimensions.
5. Client-Serveur : Le serveur OLAP s'intègre dans une architecture client
serveur
6. Dimensionnement (Generic Dimensionality) : Le dimensionnement est
générique afin de ne pas fausser les analyses
7. Gestion complète (Automatic Adjustment of Physical Level) : Le serveur
OLAP assure la gestion des données clairsemées c’est-à-dire Le système
OLAP ajuste automatiquement son schéma physique pour s'adapter au
type du modèle et au volume des données (plus on dispose de place plus
on peut agréger).
8. Multi-Utilisateurs (Multi-User support) : Les outils OLAP doivent fournir des
accès concurrents, l'intégrité et la sécurité
9. Inter Dimension (Unrestricted Cross-dimensional Operations) : Le serveur
OLAP permet la réalisation d'opérations inter dimensions sans restriction
c’est-à-dire Les calculs doivent être possibles à travers toutes les
dimensions (les agrégats doivent être faits dans toutes les dimensions).
10. Intuitif (Intuitive Data Manipulation) : Le serveur OLAP permet une
manipulation intuitive des données
11. Flexibilité (Flexible Reporting) : La flexibilité (ou souplesse) de l'édition des
rapports est intrinsèque au modèle c’est-à-dire Lors de la création de
rapports, les dimensions peuvent être présentées de n'importe quelle
manière.
12. Analyse sans limites (Unlimited Dimensions & Aggregation Levels) : Le
nombre de dimensions et de niveaux d'agrégation possibles est suffisant

MASANGU KABOBA LARRY 24


pour autoriser les analyses les plus poussées c’est-à-dire Dimensions et
niveaux d'agrégations illimités.

En résumé

La technologie OLAP, selon The Olap Report doit être rapide (Fast), doit
permettre de faire des analyses complexes (Analysis), répondre à une
architecture Client/Serveur avec tout ce que cela implique en terme de
sécurité et de gestion d'accès concurrent (Shared). Un outil OLAP doit, comme
dit plus haut, se baser sur une vue multidimensionnelle des données
(Multidimensional) et finalement le volume d'information que peut prendre en
charge ses outils (Information). Ces critères ont été simplifiés par l'acronyme
FASMI (Fast Analysis of Shared Multidimensional Information)

f. X-OLAP

X-OLAP définit la façon dont seront stockées physiquement les données pour
permettre des analyses multi dimensionnelles.

1. R-OLAP

Relational OLAP. Comme son nom l'indique, il utilise le concept relationnel pour
stocker des données modélisées dans le format multidimensionnel. Les analyses
(drill-down, pivot, ajout de dimensions, etc.) sont transformées en requêtes SQL
classiques qui sont exécutées sur les tables.

R-OLAP utilise aussi la notion de tables d'agrégats, c'est-à-dire créer des tables
contenant des données sommaires et les stocker en mémoire en cas
d'utilisation. Les outils modernes permettent aussi la gestion du cache,
l'optimisation des requêtes et la création de tables d'agrégats à la demande.

La technologie R-OLAP perd beaucoup de terrain face à ces concurrents (qui


suivent) car elle implique beaucoup de lourdeur et d'émulation pour son
implémentation. On simule des opérations sur des matrices avec du SQL, et le
fait de simuler deux conceptions apparemment différentes apporte son lot de
gestion lourde et de manque de performances.

MASANGU KABOBA LARRY 25


R-OLAP reste la solution de choix dans le cas de gros volumes de données avec
un accès restreint.

R-OLAP a aussi comme avantage la mise en œuvre facile

2. M-OLAP

Multi-dimensional OLAP. Contrairement à R-OLAP, M-OLAP permet de stocker


les données directement en un format permettant des opérations matricielles.
Selon le constructeur, on trouvera un mode de stockage à base de tableau
de données, de technologies propriétaires et même à base de fichiers plats.
L'avantage de ce mode de stockage est la capacité à effectuer des calculs
très poussés en un temps record vu que tous les calculs sont précompilés. Le
mode de stockage permet de pré-calculer les résultats afin d'avoir accès
directement à toute donnée, quel que soit le niveau de détail.

M-OLAP reste la meilleure solution du moment en termes de performances et


d'efficacité. Reste que cette solution, à double tranchant, montre très
rapidement ses limites quand on commence à jouer avec de gros volumes de
données. En effet, le " pré-calcul " des résultats devient très pénible quand il
s'agit de gros volumes de données.

3. H-OLAP

Hybrid OLAP. C'est la solution " en vogue " du moment, car elle permet de
minimiser les défaillances des technologies R-OLAP et M-OLAP. Il s'agit en fait
d'un mix des deux solutions.

On utilisera un mode de stockage propriétaire pour les tables d'agrégat et les


tables intermédiaires (permettant de ne pas avoir les points faibles du R -OLAP).

On conservera un mode relationnel pour les tables de bas niveau.

4. D-OLAP

Desktop OLAP. Le cas spécial. Il ne s'agit en fait pas d'une technologie


particulière mais plutôt d'un mode de fonctionnement.

MASANGU KABOBA LARRY 26


D-OLAP permet à l'utilisateur d'enregistrer une partie de la base de données
multidimensionnelle en local. On voit très vite l'utilité d'une telle solution pour les
commerciaux et les "nomades" de l'entreprise. Cela permettrait à un
commercial, par exemple, de faire des analyses sur les ventes, conserver ses
résultats, et vérifier l'évolution de ses analyses, une fois revenu de son voyage
d'affaire.

g. Langage d’interrogation d’une base de données en ID

g.1. SQL Sever de Microsoft : Le MDX (MultiDimensional eXpressions)

C'est un langage de requêtes pour les bases de données multidimensionnelles,


de la même manière que SQL est utilisé pour les bases de données
relationnelles.

Le langage MDX est très proche du SQL sur la forme des requêtes mais la
ressemblance ne va pas plus loin, on retrouve le squelette : SELECT [X] FROM
[Y] (WHERE[Z])

Exemple de requête

L'exemple suivant, adapté de la documentation en ligne de SQL Server 2000,


présente une requête MDX basique utilisant l'instruction SELECT. Cette requête
renvoie un jeu de résultats comprenant les montants des ventes pour 2003 et
2002 de magasins dans l'État de Californie.

SELECT
{ [Measures].[Store Sales] } ON COLUMNS,
{ [Date].[2002], [Date].[2003] } ON ROWS
FROM Sales
WHERE ( [Store].[USA].[CA] )

Dans cet exemple, la requête renvoie les résultats suivants :

MASANGU KABOBA LARRY 27


La clause SELECT définit les axes de la requête. Ce sont le montant des ventes
en magasin (Store Sales Amount) ainsi que les dates 2002 et 2003. La clause
FROM indique que la requête utilise le cube "Sales" comme source de données.
La clause WHERE définit le membre "California" de la dimension "Store" en tant
qu'axe de transition

g.2. Essbase d’Oracle : le MaxL et le ESSCMD

Pourquoi deux langages ? Le premier, ESSCMD, est assez rudimentaire et


surtout peu lisible; Le second langage, MaxL a été créé pour répondre aux
défauts d’ESSCMD et le remplacer. ESSCMD et MaxL ont donc le même rôle et
couvrent à peu près les mêmes fonctionnalités ; Toutefois, MaxL est
paramétrable et offre quelques nouvelles instructions. Mécanismes servant à
naviguer dans les hiérarchies et les dimensions

Entre entrepôt et OLAP, il n’y a qu’un pas. En effet, l’entrepôt est le lieu de
stockage physique des données, tandis que l’OLAP est l’outil permettant leur
analyse multidimensionnelle2

Celle-ci est l’objet d’une requête particulière, émise par l’utilisateur, a contrario
du forage (data mining) qui vise la recherche de corrélations entre les données
dans l’intégralité de l’entrepôt.

h. Représentation et manipulation

Afin de rendre l’analyse la moins contraignante et la plus souple possible,


l’OLAP propose des opérateurs. Il s’agit de mécanismes servant à naviguer
dans les hiérarchies et les dimensions. Les opérateurs permettent de faire :

- Transformation de la granularité des données (Forage)


- Sélection / projection sur les données du cube
- Restructuration / réorientation du cube

2
http://tranchant.name/2011/11/informatique-decisionnelle/, consulté le 22/01/2016
MASANGU KABOBA LARRY 28
h.1. Opérations de forage (liées à la granularité)

Etant donnée le schéma en étoile ci-dessous décrivant l’analyse des Ventes


avec comme axes Temps, Véhicules, Géographie, NomMesures. Nous allons
expliquer les différents opérateurs

Figure 8 : Exemple structurel d’un schéma en étoile

h.1.1. Roll-up (forage vers le haut) :

- Représente les données à un niveau de granularité supérieur selon la


hiérarchie de la dimension désirée
- Agréger selon une dimension
- Semaine -> Mois

h.1.2. Drill-down (forage vers le bas) :

- Inverse du roll-up
- Représente les données à un niveau de granularité inférieur
- Détailler selon une dimension
- Mois -> Semaine

MASANGU KABOBA LARRY 29


Figure 9 : Roll-up (forage vers le haut) et Drill-down (forage vers le bas)

h.2. Opérations de sélection / projection

h.2.1. Slice

- Sélection
- Tranche du cube obtenu par prédicats selon une dimension

-> Mois = « Avril 2004 »

MASANGU KABOBA LARRY 30


Figure 10 : Slice (Sélection)

h.2.2. Dice

- Projection selon un axe


- Sorte de cumuls de sélection
➔ Projeter (Région, Produit)

MASANGU KABOBA LARRY 31


Figure 11 : Dice (Projection)

h.3. Opérations de restructuration / réorientation

- Pivot (ou Rotate)


• Tourne le cube pour visualiser une face différente
▪ (Région, Produit) -> (Région, Mois)
- Switch (ou Permutation)
• Inter-change la position des membres d’une dimension
- Nest
• Imbrique des membres issus de dimensions différentes
- Push (ou Enfoncement)
• Combine les membres d’une dimension aux mesures (les
membres deviennent le contenu des cellules)
- AddM, DelM
• Pour l’ajout et la suppression de mesures à afficher

MASANGU KABOBA LARRY 32


Figure 12 : Pivot

MASANGU KABOBA LARRY 33


Figure 13 : Nest

MASANGU KABOBA LARRY 34


Figure 14 : Push

Quelques solutions commerciales

Figure15 : Solutions commerciales de l’ID

MASANGU KABOBA LARRY 35


Quelques solutions Open Source

Figure 16 : Solutions open source de l’ID

MASANGU KABOBA LARRY 36


3.4. Front-End Tools

La partie Front-End Tools désigne l’ensemble d’outils (logiciels) destiné à


produire le résultat exploitable par l’utilisateur final. Elle peut être constituée
par :

- Les requêtes et les rapports


- Les analyses
- Le data mining

3.4.1. Le data mining

C’est un processus de fouille de données, il permet d’extraire des


connaissances à partir d'un volume de données (ou qui vise la recherche de
corrélations entre les données dans l’intégralité de l’entrepôt). Une fois que le
problème en termes de données est identifié, plusieurs étapes sont nécessaires
:

• On accède aux données sélectionnées ;


• On les prépare en vue de leur future utilisation ;
• On les modélise grâce à des analyses et algorithmes de fouille de
données ;
• On extrait et évalue les connaissances résultant de ces analyses ;
• On déploie les connaissances en vue d’une utilisation effective.

MASANGU KABOBA LARRY 37


Figure 17 : Méthodologie du datamining

Par cette méthodologie et à ses nombreux algorithmes, le data mining


permet de concevoir des schémas et modèles d’exploration de données.

Le data mining propose une série de tâches pour aider dans l’examen des
données :

• La classification en fonction de caractéristiques définies ;


• La régression linéaire qui présente les relations entre les données ;
• La segmentation qui permet la division d’une population en groupes
homogènes ;
• L’association qui examine le comportement de ces groupes ;
• L’analyse de séquences qui identifie les chemins pris par les clients (sur
un site web par exemple).

3.4.2. Machine Learning

Les machines learning peut être décrit comme une technologie


d’apprentissage par la donnée. L’objectif est de rendre un ordinateur
« intelligent » en lui soumettant un algorithme et des modèles de données afin
d’automatiser des tâches complexes.

MASANGU KABOBA LARRY 38


3.4.3. Points de différence entre le data mining et les machines learning

Il existe des points de différences entre ces deux notions technologiques à


plusieurs niveaux.

Intervention humaine différente

Les informations extraites via le data mining sont utilisées par les individus pour
mieux comprendre leurs clients, être plus performants sur leur marché ou
optimiser leurs processus dans l’organisation. In fine, la donnée est donc utilisée
par l’humain.

Le Machine Learning (ML) peut être supervisé par l’homme au départ pour être
mis en place et fonctionner mais le but final et d’automatiser des processus et
de rendre la machine autonome.

Ressources de différentes natures

Le Data Mining extrait des informations de vastes volumes de données comme


le Big Data. Son fonctionnement est donc basé sur les datas. Le Machine
Learning fonctionne avec des algorithmes et des réseaux de neurones virtuels.
Les données lui sont transmises au départ pour développer son apprentissage
mais ce sont les algorithmes qui lui permettent de fonctionner.

Des technologies complémentaires

Le forage de données extrait les informations les plus utiles d’une base pour
identifier des tendances, schémas, modèles ou des corrélations. Une fois ces
informations triées et les modèles vérifiés, ils peuvent être soumis à l’algorithme
de Machine Learning pour développer son apprentissage et l’entrainer.

Ces deux technologies n’ont donc pas la même finalité, mais sont plutôt
complémentaires. Concrètement, le Data Mining est une ressource sur
laquelle le Machine Learning peut s’appuyer pour accomplir ses fonctions. Ils
participent ensemble à améliorer la performance de l’entreprise et sa
compétitivité.

MASANGU KABOBA LARRY 39


IV. Cas pratiques (Exercices)
Se référer au Module 3 : Cas pratiques (Exercices)

MASANGU KABOBA LARRY 40


V. Sources
2.3. Webographie
1. http://fr.wikipedia.org/wiki/informatique_décisionnelle
2. http://grim.developpez.com/cours/businessintelligence/concept
s/conception-datawarehouse/
3. http://grim.developpez.com/articles/concepts/slow-changing-
dimension/
4. http://business-intelligence.developpez.com/tutoriels/quest-ce-

que-la-bi/ consulté le 10/09/2016


5. https://www.talend.com/fr/resources/guide-big-data/, consulté
le 29/04/2021
2.4. Cours
1. Bernard ESPINASSE, Introduction à lʼInformatique Décisionnelle et
la « Business Intelligence », Ecole Polytechnique Universitaire de
Marseille.
2. NEGRE Elsa, Entrepôts de données, Université Paris-Dauphine,
2015-2016
3. VALENTIN Pauline, Introduction à la B.I. Avec SQL Server 2008,
Dotnet France
4. « Data Warehouse Design: Modern Principles and Methodologies
» de Matteo Golfarelli et Stefano Rizzi, 2009, Ed: Osborne/McGraw-
Hill.
5. « Olap Solutions: Building Multidimensional Information Systems »
de E. Thomsen, 2002, Ed: John Wiley & Sons Inc.

MASANGU KABOBA LARRY 41


VI. Tables de matières

PLAN DU COURS ................................................................................................................................. 2


I. INTRODUCTION............................................................................................................................ 4
1.1. Définition ............................................................................................................................... 4
1.2. Emergence de l’Informatique Décisionnelle (ID) ..................................................... 4
1.3. Des SI opérationnels aux SI décisionnels .................................................................. 10
II. Le modèle multidimensionnel............................................................................................... 14
2.1. Cube OLAP ......................................................................................................................... 14
2.2. Hypercube ......................................................................................................................... 15
III. Architecture d’un système décisionnel ............................................................................. 15
3.1. Data Sources ou Sources de données ....................................................................... 15
3.2. Data Storage ou Sources de stockage ...................................................................... 16
3.3. OLAP Engine (Moteur d’analyse) ................................................................................. 23
3.4. Front-End Tools .................................................................................................................. 37
IV. Méthodologie de conception des entrepôts de données. ......... Erreur ! Signet non
défini.
V. Cas pratiques (Exercices) ...................................................................................................... 40
VI. Sources .................................................................................................................................... 41
VII. Tables de matières ............................................................................................................... 42

MASANGU KABOBA LARRY 42

Vous aimerez peut-être aussi