Académique Documents
Professionnel Documents
Culture Documents
BUSINESS INTELLIGENCE
Version : 1.4
PLAN DU COURS
Module 1 : Théories et concepts de base
I. Introduction
1.1. Définition
1.2. Emergence de l’Informatique Décisionnelle (ID)
1.3. Des SI opérationnels aux SI décisionnels
II. Le modèle multidimensionnel
2.1. Cube
2.2. Du Cube à l’Hypercube
III. Architecture d’un système décisionnel
3.1. Data Sources ou Sources de données
a. Entrepôt de données (Data Warehouse)
b. Data Mart ou magasin de données
c. Fait
d. Dimension
e. Mesure
f. Étoile
g. Flocon
h. Constellation
i. Approche de conception
j. Meta données
a. KPI
b. Agrégation
3.2. OLAP Engine (Moteur d’analyse)
c. X-OLAP
d. Langage d’interrogation d’une base de données en ID
e. Représentation et manipulation
3.3. Front-End Tools
a. Les requêtes et les rapports
b. Les analyses
c. Le data mining
MASANGU KABOBA LARRY 2
d. Machine de Learning
e. Points de différence entre le data mining et les machines
learning
2.1. Tutoriel SQL server 2019, Visual Studio 2022 et Ms Excel 2019
2.2. Tutoriel Power BI
V. Sources
Contexte économique :
Contexte informationnel :
Contexte informatique :
- Outils d’analyse :
• Pour constituer et mettre à jour à partir de diverses sources des
réservoirs de grande quantités de données historisées et
multidimensionnelles, …
• Pour extraire selon divers critères des sous-ensembles de données de
tels réservoirs
• Pour analyser ces données selon différents axes (OLAP), d’identifier
des tendances, des corrélations, faire de la prévision (Data Mining)
MASANGU KABOBA LARRY 5
- Outils de veille stratégique, de recherche d’information (RI) :
• Issus de « l’intelligence économique » (Competitive Intelligence), ces
outils ont pour finalité de recueillir des informations sur le marché et la
concurrence
• Collecter sur le Web d’importante quantité de données, les filtrer et
en extraire les informations pertinentes (Web Mining) pour les analyser
ensuite
Outils relevant de lʼInformatique Décisionnelle (ID) ou Business
Intelligence (BI).
d. Importance des systèmes de l’ID
- Ils sont utilisés par les décideurs pour obtenir une connaissance
approfondie de l'entreprise et de définir et de soutenir leurs stratégies
d'affaires, par exemple :
• D’acquérir un avantage concurrentiel ;
• D’améliorer la performance de l’entreprise ;
• De répondre plus rapidement aux changements ;
• D’augmenter la rentabilité, et
• D’une façon générale la création de valeur ajoutée de l'entreprise.
e. Historique
Tableau 1 : Terminologie
Grand public : ils sont destinés à toute Petit nombre d'utilisateurs : quelques
personne participant à la vie quotidienne personnes dans l'entreprise
de l'entreprise (décideurs)
Utilisateur
Le niveau des besoins analytiques est bas Le niveau des besoins analytiques
est haut
Petite volumétrie des données : les Gros volumes des données : les SID
systèmes de gestion gèrent des Giga- doivent regrouper toutes les
Données
dans le processus
BDD incompréhensibles pour les BDD compréhensibles pour les
utilisateurs finales utilisateurs finales
Transactionnels : les OLTP fonctionnent Non transactionnels : L'utilisateur
en utilisant le principe de transaction doit pouvoir commencer une
analyse, revenir en arrière…
- Quelle est l'évolution des chiffres d'affaires par type de magasin et par
période ?
- Comment qualifier les acheteurs de mon produit X ?
- Quels sont les résultats des ventes par gamme de produit et par région
pour l'année dernière ?
2.2. Hypercube
PRINCIPAUX ETL
Etant donné que les Data Warehouses sont en général, très volumineux et très
complexes à concevoir, il a été décidé de les diviser en bouchées plus faciles
à créer et à entretenir. Ce sont les Data Marts. On peut faire des divisions par
fonction (un Data Mart pour les ventes, pour les commandes, pour les
ressources humaines) ou par sous-ensemble organisationnel (un Data Mart par
succursale).
c. Fait
Les faits, sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent
des informations opérationnelles et qui relatent la vie de l'entreprise. On aura
par exemple des tables de faits sur les ventes pour une entreprise commerciale,
sur les communications pour une entreprise de télécommunications, …
d. Dimension
On entend par dimensions les axes (critères) avec lesquels on veut faire
l’analyse (évaluer, quantifier, qualifier) des faits. Il peut y avoir une dimension
client, une dimension produit, une dimension géographie (pour faire des
analyses par secteur géographique), etc.
Une dimension est donc tout ce qu'on utilisera pour faire des analyses.
Exemple :
f. Meta données
Une métadonnée est une donnée servant à définir ou décrire une autre
donnée quel que soit son support (papier ou électronique).
Un exemple type est d'associer à une donnée la date à laquelle elle a été
produite ou enregistrée, ou à une photo les coordonnées GPS du lieu où elle a
été prise.
g. KPI
h. Agrégation
i. Étoile
Une étoile est une façon de mettre en relation les dimensions et les faits
dans un entrepôt de données. La table centrale comprend les faits. On
l’appelle table de fait. Les tables autours sont les tables de dimensions. Le
principe est que les dimensions sont directement reliées à un fait
(schématiquement, ça fait comme une étoile).
1
VALENTIN P., Introduction à la B.I. Avec SQL Server 2008, pp. 11, Dotnet France
j. Flocon
Les flocons et les étoiles peuvent être vus comme une manière de diviser les
entrepôts de données et les magasins de données. On peut les voir comme
l'atome de l'informatique décisionnelle : le plus petit élément avec lequel on
peut faire des analyses et avec lequel on peut faire des magasins de données
qui, mis ensemble, forment un entrepôt de données.
k. Constellation
Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles ou de flocons avec des dimensions en
commun.
Un des indicateurs clés d'une bonne conception d'entrepôt est la grosseur des
constellations. En effet, plus la constellation est grosse, plus cela veut dire que
vous avez réutilisé vos dimensions, et qui dit réutilisation de dimension, dit
dimensions complètes, centralisées et avec une vue orientée entreprise.
l. Approche de conception
- Botton-Up : c'est l'approche inverse, elle consiste à créer les étoiles une par
une, puis les regrouper par des niveaux intermédiaires jusqu'à l’obtention d'un
véritable entrepôt pyramidal avec une vision d'entreprise.
L'avantage de cette méthode est qu'elle est simple à réaliser (une étoile à la
fois) tandis que l'inconvénient est le volume de travail d'intégration pour obtenir
un entrepôt de données ainsi que la possibilité de redondances entre les étoiles
(car elles sont faites indépendamment les unes des autres).
Il faut juste noter que cette méthode implique, parfois, des compromis de
découpage (dupliquer des dimensions identiques pour des besoins pratiques)
En résumé
La technologie OLAP, selon The Olap Report doit être rapide (Fast), doit
permettre de faire des analyses complexes (Analysis), répondre à une
architecture Client/Serveur avec tout ce que cela implique en terme de
sécurité et de gestion d'accès concurrent (Shared). Un outil OLAP doit, comme
dit plus haut, se baser sur une vue multidimensionnelle des données
(Multidimensional) et finalement le volume d'information que peut prendre en
charge ses outils (Information). Ces critères ont été simplifiés par l'acronyme
FASMI (Fast Analysis of Shared Multidimensional Information)
f. X-OLAP
X-OLAP définit la façon dont seront stockées physiquement les données pour
permettre des analyses multi dimensionnelles.
1. R-OLAP
Relational OLAP. Comme son nom l'indique, il utilise le concept relationnel pour
stocker des données modélisées dans le format multidimensionnel. Les analyses
(drill-down, pivot, ajout de dimensions, etc.) sont transformées en requêtes SQL
classiques qui sont exécutées sur les tables.
R-OLAP utilise aussi la notion de tables d'agrégats, c'est-à-dire créer des tables
contenant des données sommaires et les stocker en mémoire en cas
d'utilisation. Les outils modernes permettent aussi la gestion du cache,
l'optimisation des requêtes et la création de tables d'agrégats à la demande.
2. M-OLAP
3. H-OLAP
Hybrid OLAP. C'est la solution " en vogue " du moment, car elle permet de
minimiser les défaillances des technologies R-OLAP et M-OLAP. Il s'agit en fait
d'un mix des deux solutions.
4. D-OLAP
Le langage MDX est très proche du SQL sur la forme des requêtes mais la
ressemblance ne va pas plus loin, on retrouve le squelette : SELECT [X] FROM
[Y] (WHERE[Z])
Exemple de requête
SELECT
{ [Measures].[Store Sales] } ON COLUMNS,
{ [Date].[2002], [Date].[2003] } ON ROWS
FROM Sales
WHERE ( [Store].[USA].[CA] )
Entre entrepôt et OLAP, il n’y a qu’un pas. En effet, l’entrepôt est le lieu de
stockage physique des données, tandis que l’OLAP est l’outil permettant leur
analyse multidimensionnelle2
Celle-ci est l’objet d’une requête particulière, émise par l’utilisateur, a contrario
du forage (data mining) qui vise la recherche de corrélations entre les données
dans l’intégralité de l’entrepôt.
h. Représentation et manipulation
2
http://tranchant.name/2011/11/informatique-decisionnelle/, consulté le 22/01/2016
MASANGU KABOBA LARRY 28
h.1. Opérations de forage (liées à la granularité)
- Inverse du roll-up
- Représente les données à un niveau de granularité inférieur
- Détailler selon une dimension
- Mois -> Semaine
h.2.1. Slice
- Sélection
- Tranche du cube obtenu par prédicats selon une dimension
h.2.2. Dice
Le data mining propose une série de tâches pour aider dans l’examen des
données :
Les informations extraites via le data mining sont utilisées par les individus pour
mieux comprendre leurs clients, être plus performants sur leur marché ou
optimiser leurs processus dans l’organisation. In fine, la donnée est donc utilisée
par l’humain.
Le Machine Learning (ML) peut être supervisé par l’homme au départ pour être
mis en place et fonctionner mais le but final et d’automatiser des processus et
de rendre la machine autonome.
Le forage de données extrait les informations les plus utiles d’une base pour
identifier des tendances, schémas, modèles ou des corrélations. Une fois ces
informations triées et les modèles vérifiés, ils peuvent être soumis à l’algorithme
de Machine Learning pour développer son apprentissage et l’entrainer.
Ces deux technologies n’ont donc pas la même finalité, mais sont plutôt
complémentaires. Concrètement, le Data Mining est une ressource sur
laquelle le Machine Learning peut s’appuyer pour accomplir ses fonctions. Ils
participent ensemble à améliorer la performance de l’entreprise et sa
compétitivité.