Cours - SID

Introduction aux Systèmes
d’Information Décisionnels
Pegdwendé Sawadogo
sawadogonicholas44@gmail.com
http://eric.univ-lyon2.fr/sawadogop/
1
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
2
1. Introduction
3
Motivations
 Les décideurs ont besoins d’avoir une vision globale de leur activité. Cela se
fait grâce à des tableaux de bord
 Les données produites par les systèmes de gestion dans les entreprises
croissent de façon exponentielle : il est désormais question de tirer partie de
ces données pour détecter, expliquer et prédire les performances.
Exemples:
• Augmentation des ventes d’un produit
→ due à une campagne publicitaire
• Diminution du chiffre d’affaire d’une boutique
→ due à l’arrivée d’un concurrent
• Diminution des ventes d’une alimentation
→ due à l’arrivée d’une caissière peu sympatique
4
Motivations
 A l’ère de l’IA/machine learning et des big data, les organisations ont besoin
de créer des systèmes intelligent permettant d’anticiper et de prédire ces
phénomènes, et bien d’autres.
 Les systèmes d’information décisionnels (SID) servent dans ce contexte à

organiser les données produites par les systèmes de gestion de sorte à ce
qu’elles soient prêtes pour la création de tableaux de bord, et autres analyses.
Exemples de tableaux de bord:
• Classement/évolution des prénoms populaires en France
5
Objectifs
Ce cours vise à donner aux étudiants les éléments pour :
● Comprendre l’importance des SID et leur positionnement dans le SI
● Mettre en place un SID à travers la modélisation conceptuelle la modélisation

logique et la mise en œuvre opérationnelle.
● Alimenter un SID par un processus ETL
● Réaliser des analyses à partir du SID à travers :des opérateurs OLAP, des
outils d’analyse et de visualisation de données (Excel, QlikSense)
6
Quelques references
7
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
8
2. Généralités
9
Contexte
● Avec la diminution des coûts de stockage, les entreprises conservent de plus
en plus de données.
Il est moins coûteux de conserver toutes les données, que de les trier.
II s’agit très souvent de données opérationnelles, issues de logiciels de
gestion (gestion de la comptabilité, ventes, stocks, etc.)
10
Contexte
● L’émergence de “banques de donnée” (réseaux sociaux, open data) donne
de nouvelles sources de données externes
● Ces données souvent appelées big data (mégadonnées / données massives)

sont caractérisées par plusieurs V
Volume
Vélocité
Variété
Véracité
Valeur
11
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.
Volume: chaque seconde, 253k textos sont échangés, 18k vidéos sont
visionnées sur Youtube, 60k requêtes sont lancées sur Google, etc. (2017)
Vélocité: les données proviennent de flux en temps réel comme les réseaux
sociaux et les capteurs (IOT)
12
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.
Variété: seulement 20% des big data sont structurées. La majorité est semi-
structurée (XML, JSON) et non structurées (textes, images, vidéos).
Véracité: L’authenticité et la crédibilité des données reste à prouver. D’où la

chasse actuelle faite aux fake news (infox).
Valeur: Il faut arriver à extraire des informations des données, faute de quoi, elles
ne servent pas.
13
Problématique
● Les données dont disposent les entreprises constituent alors une opportunité,
mais aussi une problématique à savoir « comment transformer ces données en
informations pouvant orienter la prise de décisions »
● Une telle organisation des données devrait permettre à des experts ou

analystes métiers d’analyser aisément les données
14
Problématique
En résumé les entreprises ont besoin de:
● Organiser une grande masse de données volumineuses, très détaillées et
parfois hétérogènes en les normalisant, en vue d’analyses futures
● Ces analyses consistent à synthétiser/résumer, visualiser, analyser, interpoler

les données, le tout pour assister la prise de décision. Ces analyses seront
potentiellement réalisées par des experts métiers.
● C’est pourquoi, les données doivent suivre une organisation spécifique,

permettant des analyses interactives et intuitives.I
● La solution se trouve dans un système d’aide à la décision ou système

d’information décisionnel (SID). On parle d’informatique décisionnelle ou de
business intelligence (BI) 15
Système d’information décisionnel
Définition
Un système d’information décisionnel est un composant du système d’information
d’une entreprise, dédié à la prise de décision.
● Le SID est dédié au pilotage de l’entreprise, et diffère du système

opérationnel qui lui est orienté gestion.
● Le SID inclue des outils comme l’entrepôt de données, le magasin

de données, les plate-formes de visualisation, etc.
● Le système opérationnel est dédié lui à la gestion de l’activité de

l’entreprise : gestion de la comptabilité, gestion des stocks, etc.
16
Informatique décisionnelle vs. Data science
Informatique décisionnelle
Encore appelée business intelligence, désigne les moyens, les outils et méthodes
qui permettent de collecter, organiser et restituer les données d’une entreprise en
vue d’offrir une aide à la décision
Data science
La science des données est une discipline s’appuyant sur un ensemble de
traitements informatiques et statistiques, permettant d’extraire des information à
partir de données.
17
Informatique décisionnelle vs. Data science
Informatique décisionnelle Data science

Type d’analyses Analyses explicatives Analyses prédictives
Agrégats: moyenne, écart- Tests statistiques : chi-deux,
Indicateurs
type, variance, minimum, etc. Student, ANOVA, etc.
Fréquences des
Analyses industrialisées Analyses ponctuelles
analyses
Utilisateurs Experts-métiers Data-scientists
18
Architecture d’un SID
● Les données du SID proviennent
surtout du SI opérationnel
● Les données sont prétraitées, puis

intégrées à l’ED par le processus ETL.
● Les techniques BI et de data science

peuvent ensuite être appliquées sur les
données de l’ED
datawarehouse4u.info
19
Entrepôt de données: définition
Définition – Entrepôt de données
L’entrepôt de données est une collection de données orientées sujet, intégrées, non
volatiles, historisées, organisées pour le support d’un processus d’aide à la décision
● l’ED est une base de données organisée de façon spécifique dans le

but de permettre et de faciliter l’analyse automatisée des données.
● 4 caractéristiques essentielles : organisation orientée sujet, données intégrées,

données non volatiles, données historisées.
● A ne pas confondre avec le magasin de données
Définition – Magasin de données

Le magasin de données est un sous-ensemble de l’entrepôt de données,
permettant de restituer tout le spectre d’une activité métier. 20
Entrepôt de données: caractéristiques
1. Organisation orientée sujet.
● Les données sont organisées par sujets (ex. clients, fournisseurs)

On fait abstraction de l’organisation fonctionnelle, telle qu’implémentée dans le
SI opérationnel
● Lors de la modélisation, les sujets deviendront les faits, ou dimensions à partir

desquelles les analyses pourront être réalisées.
Lydie Soler, AgroTechParis 21

2. Données intégrées.
● Les données provenant de sources hétérogènes, il faut normaliser les données

lors de leur intégration
● Il est alors nécessaire de définir des conventions de conversion.

Cela se fait souvent en utilisant une ontologie.

3. Données non volatiles.
● Les données ne doivent jamais être supprimées de l’entrepôt de données.
● Elles doivent être conservées pour assurer la répétabilité des analyses
SI Opérationnel SI Décisionnel (ED)

4. Données historisées.
● L’évolution temporelle des données est conservée afin d’enrichir les analyses
● On peut ainsi à partir des tendances, interpoler/prédire l’évolution future des données
SI Opérationnel
SI Décisionnel (ED)

Entrepôt de données vs. BD de production
● Un composant typique du SI décisionnel est l’entrepôt de données
● Un composant typique du SI opérationnel est la BD de production.
BD de production Entrepôt de données
Objectifs Gestion Pilotage
Utilisateurs Nombreux Peu nombreux
Taille Giga-octets Terra-octets
Organisation Par traitements Par sujet
Type de données Données courantes Données historisées
Requêtes Simples Complexes
Transactions Courtes et nombreuses Longues et peu nombreuses
Trinidad, 2005 25
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
26
3. Concepts de base
27
Modélisation multi-dimensionnelle
Définition
La conception d’un entrepôt de données est également connue sous
l’apellation “modélisation multi-dimensionnelle”.
Cela consiste à mettre en évidence un sujet d’intérêt, suivant plusieurs axes
d’analyse
● En modélisation multi-dimensionnelle le sujet d’intérêt est appelé « fait », et

les axes d’analyses « dimensions ».
● Le point de départ d’un processus de modélisation multi-dimensionnelle

consiste donc à identifier le(s) fait(s) et les dimensions
28
Concepts de base: le fait
Définition
Le fait représente le sujet d’analyse. Il est composé d’un ensemble de mesures
(indicateurs) qui représentent les différentes valeurs de l’activité analysée.
● Les mesures sont généralement des valeurs numériques qui sont

valorisées de manière continue.
● Lors de l’analyse, les mesures sont agrégées pour donner des statistiques
descriptives sur les données analysée.
Exemples d’agrégations : minimum, maximum, moyenne, écart-type, etc.
● Dans le modèle multi-dimensionnel, chaque fait est représenté par une

table, dont le nom préfixé par l’intitulé “fait". (ex. FAIT_VENTE).
29
Exemple 1
Un super-marché souhaite mettre en place un ED permettant de suivre son
chiffre d’affaire et les quantité de produits vendus
● Ici, les ventes sont le sujet d’analyse, et donc le fait. Autrement dit, une
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvelle vente. FAIT_VENTE
● Chaque opération de vente est caractérisée par la quantité de produits, Quantité

Montant
et le montant. Ce sont les mesures. …
● Lors de l’analyse, on obtient le chiffre d’affaire par une agrégation de

type “somme” sur la mesure “montant”. De même, on pourrait étudier
laquantité moyenne vendue, la quantité totale, etc.
30
Exemple 2
Une ONG travaillant dans la lutte contre les changements climatiques, souhaite mettre
en place un ED lui permettant d’observer l’évolution du climat au fil des années. Pour
ce faire, elle enregistre chaque jour la température et la quantité de précipitation.
● Ici, la météo est le sujet d’analyse, et donc le fait. Autrement dit, une FAIT_METEO
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvel
Température
enregistrement météo. Pluviométrie
…
● Chaque enregistrement météo est caractérisée par la température,
et la pluviométrie. Ces éléments représentent donc les mesures.
● Lors de l’analyse, on peut calculer la température moyenne, l’écart

type de la pluviométrie, la pluviométrie totale, etc. 31
Concepts de base: la dimension
Définition
Une dimension représente une perspective, un axe de l’analyse. Elle se
compose de paramètres (ou attributs) textuels et discrets (catégoriels).
● Les dimensions permettent au moment de l’analyse de restreindre la portée des

requêtes afin de limiter les individus cibles.
Lors de la modélisation, les dimensions sont caractérisées par le préfixe « dim »
(ex. DIM_CLIENT, DIM_MAGASIN),
● Les valeurs des dimensions associées sont renseignées à chaque nouvel

enregistrement dans la table de fait.
Exemples de dimensions: temps (année, trimestre, mois, jour), localisation
(continent, pays, région, province, commune), client, produit.
32
Concepts de base: la dimension
Exemple 1 (bis)
Un super-marché souhaite mettre en place un ED permettant de suivre son chiffre
d’affaire et les quantité vendues de chaque produit. Le super-marché voudrait ainsi
analyser les indicateurs de vente suivant leurs deux magasins (Ouaga et Bobo).
● Deux dimensions sont explicitées dans l’énoncé ci-dessus : magasin, et produit.

La dimension temporelle est ici implicite.
On sait que le chiffre d’affaire se décline généralement par jour, mois ou année.
Cela va donc de soit que le temps constitue une dimension nécessaire aux
analyses futures.
● Pour chaque opération de vente, les valeurs de toutes les dimensions associées
doivent être renseignées : temps (jour/mois/année), magasin (ouaga/bobo) et
produit (savon/biscuits/boisson/...) 33
Concepts de base: hiérarchie de dimensions
Définition
Une hiérarchie représente une relation de type “est plus fin” entre deux dimensions.
La hiérarchie est représentée par une flèche du niveau de granularité le plus fin au
niveau le plus grand.
Hiérarchie temporelle Hiérarchie géographique Hiérarchie organisationnelle

DIM_ANNEE DIM_CONTINENT DIM_TYPE_VOITURE
DIM_TRIMESTRE DIM_PAYS
DIM_MARQUE
DIM_MOIS DIM_REGION
DIM_JOUR DIM_VILLE DIM_MODELE 34

Concepts de base: additivité des mesures
● Dans un fait, les mesures peuvent être additives, semi-additives ou non additives.
Une mesure additive peut être additionnée suivant toutes les dimensions (ex.
quantité_vendue).
● Une mesure semi-additive peut être additionnée suivant certaines dimensions.

L’état des stocks peut ainsi s’additionner sur les magasins. En revanche, une
sommation des stocks sur plusieurs jours n’a aucun sens.
● Une mesure est considérée comme étant non-additive lorsque son addition sur
chacune des dimensions n’a pas de sens (ex. température)
Exercice
La pluviométrie est-elle une mesure additive, semi-additive ou non-additive ?
Et le taux de scolarisation ?
Autres exemples de mesures semi ou non-additives ? 35
Concepts de base: exercices
Exercice 1
Représenter la hiérarchie temporelle en considérant les dimensions numéro du jour,
jour de la semaine, mois, et année.
Exercice 2
Reprendre l’exercice 1 en ajoutant la semaine, le trimestre, le quadrimestre et le
semestre
Exercice 3
Représenter une hiérarchie géographique correspondant au cas du Burkina en
incluant, le quartier, l’arrondissement, la ville, la province et la région.
36
Concepts de base: exercices
Exercice 4
Un pharmacien désire mettre en place un entrepôt de données pour analyser la vente
des produits dans l’ensemble de ses pharmacies.
Les produits sont catégorisés en médicaments de spécialité, et génériques. Une autre
catégorisation distingue les produits pouvant être vendus sans ordonnance, de ceux
pour lesquels une ordonnance est indispensable.
Enfin, chaque produit est associé à un fournisseur pouvant être burkinabè, ivoirien,
français ou américain (USA).
1 Quel est le fait dans cet énoncé ? les mesures ?

2 Quelles sont les dimensions nécessaires à la modélisation de cet ED ?
3 Représenter les différentes hiérarchies qui apparaissent.
37
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
38
4. Modélisation et mise en
oeuvre
39
Modélisation conceptuelle
● La modélisation conceptuelle répond à la question « quoi? » (quelles données)
● Il existe trois principaux types de modèles conceptuels:
Le modèle en étoile
Le modèle en flocons de neige
Le modèle en constellation
Flocons de neige Constellation

Etoile
40
Modélisation conceptuelle: modèle en étoile
● C’est le modèle le plus simple pour représenter un entrepôt de données.
Il s’articule autour d’une unique table de fait centrale, directement liée à
plusieurs dimensions.
● La table de fait inclue une ou plusieurs mesures, qui doivent être observables
sur l’ensemble des dimensions.
Il n’ y a pas de relations directes entre les tables de dimensions, et les
dimensions ne sont pas normalisées.
41
Avantages
Le modèle est très simple de compréhension
Les requêtes sont peu coûteuses
L’intégration des données est simple
Inconvénients
Le stockage est très coûteux
L’alimentation est plutôt complexe
Le schéma est plutôt ambiguë, et laisse
difficilement percevoir les hiérarchies
42
43
Modélisation conceptuelle: modèle en flocons de neige
● C’est un dérivé du modèle en étoile. Il se différencie par la normalisation des
dimensions (3FN).
Il est obtenu en organisant les dimensions du modèle en étoile classique en
hiérarchies de dimensions.
● Les dimensions de plus faible niveau de granularité sont directement liées à la

table de fait.
Le choix de la normalisation des dimensions dépend des analyses futures. Il
est ainsi envisageable d’avoir dans le même ED des dimensions normalisées,
et d’autres non.
44
Avantages
Le stockage est très peu coûteux
Les hiérarchies sont clairement et facilement
perceptibles
Inconvénients
Les requêtes sont très coûteuses
Le modèle est plutôt complexe à modéliser et à
mettre en œuvre
45
46
Modélisation conceptuelle: modèle en constellation
● C’est une série de modèle en étoile, ou en flocons, reliés entre eux par des
dimensions.
● Un modèle en constellation compte plusieurs tables de faits.

C’est le modèle le plus complet, et le plus réaliste pour représenter l’ensemble
de l’activité d’une entreprise
47
Modélisation conceptuelle: modèle en constellation
48
Modélisation logique
● La modélisation logique répond à la question « comment? » (quelle représentation
des données)
● Il existe trois principaux types de modèles logiques:

Le modèle ROLAP (Relational On-Line Analytical Processing)
Le modèle MOLAP (Multidimentional On-Line Analytical Processing)
Le modèle HOLAP (Hibrid On-Line Analytical Processing)
49
Modélisation logique: modèle ROLAP
● La modélisation logique ROLAP consiste à utiliser un SGBDR pour
l’implémentation de l’entrepôt de données.
Chaque fait correspond à une table relationnelle, de même que chaque
dimension.
● Les analyses se font via des requêtes SQL ou MDX.

Une clé primaire est associée à chaque dimension. La clé primaire de la
table de fait est elle constituée de la combinaison des clés étrangères issues
des dimensions associées.
Avantages Inconvénients
Approche est facile et peu coûteuse Requêtes très coûteuses
Elle passe à l’échelle Affichage des données peu intuitif
Évolution facile
50
Exercice 4
Représenter graphiquement le modèle ci-dessous
51
Exercice 5
Représenter graphiquement le modèle ci-dessous
52
Modélisation logique: modèle MOLAP
● La modélisation MOLAP consiste à implémenter l’entrepôt de données sur la
base d’un tableau multidimensionnel (encore appelé cube ou hypercube).
Les mesures sont stockées, dans des cellules.
● Dans l’approche MOLAP, des agrégats sont pré-calculés et stockés.

Exemples de solutions : Hyperion Essbase OLAP Serve, SAS OLAP Server,
Informix MetaCube, etc.
Temps d’accès aux données optimisé Solutions souvent propriétaires
Visualisation intuitive Problème d’eparsité des données
Passe mal à l’échelle
53
Modélisation logique: modèle MOLAP
54
Concept de magasin de données (rappel)
Définition
Le magasin de données est un sous-ensemble de l’entrepôt de données,
constitué de tables au niveau détail et à des niveaux plus agrégés, permettant
de restituer tout le spectre d’une activité métier.
L’ensemble des magasins de données de l’entreprise constitue l’entrepôt de
données.
● Autrement dit, les magasins de données sont des extraits de l’entrepôt de
données orientés métiers. Ex : ventes, RH, stocks, etc.
L’objectif d’un magasin de données est de servir un besoin métier spécifique,
avec un outil d’analyse ou de reporting qui lui est propre
● Selon l’approche de conception utilisée, l’entrepôt peut être constitué avant

les magasins de données, ou inversement
55
Concept de magasin de données (rappel)
56
Approches de conception d’un ED
1. Approche Top-down (Bill Inmon)
Cette approche consiste à concevoir tout l’entrepôt intégralement apriori, pour
ensuite créer les magasins de données à partir de là.
Vision globale du système d’information Difficile et lent à mettre en œuvre
décisionnel Mise en œuvre coûteuse
Données normalisées et uniformisées
Maintenance facile
57
Approches de conception d’un ED
2. Approche Bottom-up (Ralph Kimball)
Il s’agit ici de concevoir d’abord les magasins de données un par un, pour
ensuite les regrouper suivant des dimensions communes pour constituer
l’entrepôt de données
Rapide à mettre en œuvre Maintenance difficile : redondances
Mise en œuvre peu coûteuse à priori Problèmes d’intégration des magasins
de données
58
Cycle de vie d’un SID
1. Conception (définir la finalité de l’entrepôt, choisir le modèle)
2. Acquisition des données/définition d’une stratégie d’ETL
3. Définition des aspects techniques de la réalisation
4. Définition des modes de restitution
5. Stratégies d’administration, évolution, maintenance
59
Exercices
Exercice 6 (Enoncé)
Une société de distribution de carburant souhaite mettre en place un entrepôt de
données pour suivre son chiffre d’affaire. Les ventes sont réalisées par des
commerciaux et concernent plusieurs types de carburant : essence, pétrole et
gasoil. La société dispose de sites de distributions à Somgandé, Dassasgho et
Zogona.
L’entrepôt de données devrait permettre d’identifier les commerciaux les plus
performants, les types de carburant, ainsi que les sites les plus rentables.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant
60
Exercices
Exercice 6 (Corrigé)
● Identification des éléments clés :

fait: vente
mesures: montant
dimensions: commercial, type_carburant, site
hiérarchies ?: oui, commercial→site
● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions
● Proposition de modélisation
61
Exercices
62
Exercices
Exercice 7 (Enoncé)
Une ONG intervenant dans la santé infantile souhaite faire une cartographie des
naissances dans les différentes localités du Burkina Faso. Pour cela, elle
souhaite intégrer les enregistrements journaliers de naissances obtenus à partir
de l’état civil de chaque commune dans un entrepôt de données.
La cartographie devrait ainsi permettre d’obtenir des statistiques par commune,
province et région. Une catégorisation des naissances par sexe est également
prévue.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant
63
Exercices
● Identification des éléments clés :

fait: enregistrement
mesures: nombre_naissances
dimensions: jour, semaine, mois, année, commune, province, région, sexe
hiérarchies ?: oui, jour→semaine→année / jour→mois→année /
commune→province→région
● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions
● Proposition de modélisation
64
Exercices
65
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
66
67
Processus ETL
E comme… Extract
● Il s’agit de se connecter aux sources de données pour identifier et extraire les

nouvelles données afin de les intégrer dans l’entrepôt. Cette opération ne doit
pas perturber les règles de production.
● Cela peut se faire à travers des connecteurs/API ou des scripts/batch

personnalisés. Les connecteurs de bases de données (JDBC, ODBC,
SQLAlchemy, etc.) peuvent être utilisés à cet effet. Dans certains cas, le web
scrapping (Web mining) peut également constituer une solution
● Elle doit suivre une planification précise, prenant en compte les données
cycliques. Il est également indispensable de mettre en place une stratégie de
marquage des données déjà extraites afin d’éviter les doublons.
68
Processus ETL
T comme… Transform
● Il s’agit ici de nettoyer et transformer l’ensemble des données extraites vers

le format cible attendu par l’entrepôt. Il faut ainsi pré-agréger les données si
nécessaire, pour garder le même niveau de granularité.
● Ici aussi, il est indispensable de définir une stratégie/convention de

formatage des données.
Par ex., sexe = h/f ? m/f ? 1/0 ?
● Une harmonisation des unités de mesures/monétaires est aussi nécessaire.

Il faut donc définir des unités de référence (ex. dollars US, kilomètres, degré
Celsius, etc.)
69
Processus ETL
L comme… Load
● Cette dernière phase consiste à charger les données extraites, nettoyées et

préparées dans l’entrepôt de données.
● C’est l’opération inverse de la phase d’extraction. Comme elle, l’opération de

chargement utilise des scripts synchrones ou asynchrones, sur la base de
connecteurs de bases de données.
70
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
71
6. Analyses : OLAP
72
Analyse OLAP: définition
Définition
L’OLAP (On-Line Analytical Processing) est une technologie permettant
d’extraire, comparer et analyser des données de façon interactive, à partir
d’une base de données conçue à cet effet.
● Les données à analysées sont organisées dans un modèle multi-dimensionnel.

L’analyse consiste à croiser plusieurs dimensions pour en extraire des
caractéristiques spécifiques. Cela permet à terme de synthétiser, explorer,
confirmer, expliquer et prédire les données.
● L’analyse OLAP peut être la base de plusieurs autres types d’analyses:

Analyses explicatives: techniques statistiques, visualisations, corrélations
Analyses prédictives: régressions, clustering, réseaux de neurones
73
Analyse OLAP: 12 règles de Codd
1. Multi-dimensionnalité: le Modèle OLAP est multidimensionnel par
nature.
2. Transparence: l’emplacement physique du serveur OLAP est
transparent pour l’utilisateur.
3. Accessibilité: l’utilisateur OLAP doit disposer d’une accessibilité à
toutes les données nécessaires à ses analyses
4. Stabilité: la performance des reportings restent stables
indépendamment du nombre de dimensions
5. Client-Serveur: le serveur OLAP s’articule sur une architecture client
serveur
6. Dimensionnement: le dimensionnement est générique afin de ne pas
fausser les analyses.
74
Analyse OLAP: 12 règles de Codd
7. Gestion complète: le serveur OLAP doit assurer la gestion des
données clairsemées.
8. Multi-Utilisateurs: le serveur OLAP doit offrir un support multi-
utilisateurs (gestion des mises à jour,intégrité, sécurité).
9. Inter-Dimension: le serveur OLAP doit permettre la réalisation
d’opérations inter dimensions sans restriction.
10. Intuitivité: le serveur OLAP doit favoriser une manipulation intuitive des
données.
11. Flexibilité: la souplesse de l’édition des rapports est intrinsèque au
modèle.
12. Analyses sans limites: le nombre de dimensions et de niveaux
d’agrégation possibles doit être suffisant pour autoriser toute analyse
75
Analyse OLAP: opérateurs
Opérateur « cube »
● C’est l’opérateur de base de l’analyse OLAP.

Appliquer l’opérateur CUBE sur un entrepôt de
données (ou magasin de données) consiste à
calculer les différents agrégats.
● Le cube peut être représenté en ROLAP ou

MOLAP.
Le terme « ALL » est utilisé pour représenter
les valeurs agrégées.
76
Opérateur « cube » (MOLAP)
● Eparsité: Un cube est considéré comme étant éparse si plus de 60%de ses
cellules sont vides.
● Exemple pour le cube VENTES
Nombre de cellules vides : 0
Nombre total de cellules : 3*3 = 9
Eparsité=0/9=0% →le cube n’est pas éparse
77
Opérateur « cube » (ROLAP)
78
Opérateur « cube » (ROLAP)
● Nombre (maximal) de lignes:

Soient N le nombre de dimensions,Ci la cardinalité de chaque dimension
dans le cube
Le nombre maximal de lignes, y compris les agrégations sera Π(Ci+1)
Le nombre de niveaux d’agrégations sera 2N−1
● Exemple, pour le cube ventes :

Nombre maximal de lignes : (3+1)∗(3+1) = 4∗4 = 16
Différents niveaux d’agrégations : 2*2−1 = 3
79
Forage vers le haut (ROLL-UP)
engineers2018.wordpress.com 80
Forage vers le bas (DRILL-DOWN)
engineers2018.wordpress.com
81
Sélection/projection (SLICE)
82
Sélection/projection (DICE)
83
Réorientation (PIVOT)
84
Réorientation (SWITCH)
85
Analyse OLAP: requêtes SQL
Syntaxe générale
● Le langage SQL offre des fonctionnalités permettant le calcul automatisé des

agrégats dans un entrepôt ROLAP.
● Il existe des extensions de SQL pour OLAP - nouvelles fonctions de la clause

GROUP BY:
ROLLUP, CUBE, GROUPING, GROUPING SETS
86
GROUP BY ROLLUP
● Cette clause calcule les agrégats (SUM, COUNT, MAX, MIN, AVG) à différents
niveaux d’agrégation
87
GROUP BY CUBE
● La clause CUBE est similaire à ROLLUP mais permet de calculer toutes les
combinaisons d’agrégations possibles
88
Analyse OLAP: requêtes MDX
Syntaxe générale
● Le langage MDX (Multi Dimensional eXpression) est un langage de requêtes

dédié à l’OLAP
Il offre une vue multidimensionnelle des données.
● Il possède une syntaxe proche du SQL: SELECT … FROM … WHERE …
89
Analyse OLAP: requêtes MDX
Exemple
[Espinasse, 2015]
90
Analyse OLAP: Exercices
Exercice 1
1. Compléter les cubes ROLAP suivants puis les représenter suivant
l’approche MOLAP
2. Calculer leur éparsité
91
Analyse OLAP: Exercices
Exercice 2
1. Représenter en mode ROLAP le cube suivant
2. Calculer son éparsité
92
Bonus: Métiers du la BI/Data science
Chief data officer
Il dirige la collecte des données, leur valorisation ainsi que la manière
stratégique dont l’entreprise va les utiliser.
C’est avant tout un manager mais il a une certaine expérience dans le
domaine de la data et a souvent commencé par analyser des données avant
de diriger une équipe.
Data scientist
C’est un profil assez généraliste. Il est capable de construire des modèles
d’interprétation de données en utilisant les outils de statistiques, les langages
de programmation, l’IA et des techniques propres au traitement des Big Data
lorsqu’il y a besoin
93
Bonus: Métiers du la BI/Data science
Data architect
Il intervient dans la mise en place d’architectures décisionnelles, et définit la
façon dont les données vont être stockées. Il maîtrise donc les outils Big Data
comme Hadoop mais gère aussi les solutions cloud.
Data analyst
C’est un spécialiste de l’analyse de données. Il arrive à la fin des projets en
support du data scientist. Il est chargé d’extraire les métriques les plus
importantes et de les présenter de manière pertinente.
94
Plan
1. Introduction
2. Généralités
3. Concepts de base
6. Analyses: OLAP
7. Conclusion
95
7. Conclusion
96
Conclusion
Au delà des SID classiques
● Limites des SID classiques

Non prise en charge de données non numériques (Text-OLAP)
Manque d’évolutivité
Analyses plutôt basiques
● Solutions:
Entrepôts de données avec du NoSQL (MongoDB)
Lacs de données
97
Conclusion
Cette fois, c’est fini!
98

Cours - SID

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours - SID

Transféré par

Droits d'auteur :

Formats disponibles

Introduction aux Systèmes

 Les systèmes d’information décisionnels (SID) servent dans ce contexte à

• Classement/évolution des prénoms populaires en France

● Comprendre l’importance des SID et leur positionnement dans le SI

● Mettre en place un SID à travers la modélisation conceptuelle la modélisation

● Alimenter un SID par un processus ETL

● Ces données souvent appelées big data (mégadonnées / données massives)

Véracité: L’authenticité et la crédibilité des données reste à prouver. D’où la

● Une telle organisation des données devrait permettre à des experts ou

● Ces analyses consistent à synthétiser/résumer, visualiser, analyser, interpoler

● C’est pourquoi, les données doivent suivre une organisation spécifique,

● La solution se trouve dans un système d’aide à la décision ou système

● Le SID est dédié au pilotage de l’entreprise, et diffère du système

● Le SID inclue des outils comme l’entrepôt de données, le magasin

● Le système opérationnel est dédié lui à la gestion de l’activité de

Informatique décisionnelle Data science

● Les données sont prétraitées, puis

● Les techniques BI et de data science

● l’ED est une base de données organisée de façon spécifique dans le

● 4 caractéristiques essentielles : organisation orientée sujet, données intégrées,

● A ne pas confondre avec le magasin de données

Définition – Magasin de données

● Les données sont organisées par sujets (ex. clients, fournisseurs)

● Lors de la modélisation, les sujets deviendront les faits, ou dimensions à partir

Lydie Soler, AgroTechParis 21

● Les données provenant de sources hétérogènes, il faut normaliser les données

● Il est alors nécessaire de définir des conventions de conversion.

Lydie Soler, AgroTechParis 22

● Elles doivent être conservées pour assurer la répétabilité des analyses

SI Opérationnel SI Décisionnel (ED)

Lydie Soler, AgroTechParis 23

Lydie Soler, AgroTechParis 24

● En modélisation multi-dimensionnelle le sujet d’intérêt est appelé « fait », et

● Le point de départ d’un processus de modélisation multi-dimensionnelle

● Les mesures sont généralement des valeurs numériques qui sont

● Dans le modèle multi-dimensionnel, chaque fait est représenté par une

● Chaque opération de vente est caractérisée par la quantité de produits, Quantité

● Lors de l’analyse, on obtient le chiffre d’affaire par une agrégation de

● Lors de l’analyse, on peut calculer la température moyenne, l’écart

● Les dimensions permettent au moment de l’analyse de restreindre la portée des

● Les valeurs des dimensions associées sont renseignées à chaque nouvel

● Deux dimensions sont explicitées dans l’énoncé ci-dessus : magasin, et produit.

Hiérarchie temporelle Hiérarchie géographique Hiérarchie organisationnelle

DIM_JOUR DIM_VILLE DIM_MODELE 34

● Une mesure semi-additive peut être additionnée suivant certaines dimensions.

1 Quel est le fait dans cet énoncé ? les mesures ?

Flocons de neige Constellation

● Les dimensions de plus faible niveau de granularité sont directement liées à la

● Un modèle en constellation compte plusieurs tables de faits.

● Il existe trois principaux types de modèles logiques:

● Les analyses se font via des requêtes SQL ou MDX.

● Dans l’approche MOLAP, des agrégats sont pré-calculés et stockés.

● Selon l’approche de conception utilisée, l’entrepôt peut être constitué avant

2. Acquisition des données/définition d’une stratégie d’ETL

3. Définition des aspects techniques de la réalisation

4. Définition des modes de restitution

5. Stratégies d’administration, évolution, maintenance

● Identification des éléments clés :

● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions

● Identification des éléments clés :

● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions

● Il s’agit de se connecter aux sources de données pour identifier et extraire les

● Cela peut se faire à travers des connecteurs/API ou des scripts/batch

● Il s’agit ici de nettoyer et transformer l’ensemble des données extraites vers