Vous êtes sur la page 1sur 98

Introduction aux Systèmes

d’Information Décisionnels
Pegdwendé Sawadogo
sawadogonicholas44@gmail.com
http://eric.univ-lyon2.fr/sawadogop/

1
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

2
1. Introduction

3
Motivations
 Les décideurs ont besoins d’avoir une vision globale de leur activité. Cela se
fait grâce à des tableaux de bord

 Les données produites par les systèmes de gestion dans les entreprises
croissent de façon exponentielle : il est désormais question de tirer partie de
ces données pour détecter, expliquer et prédire les performances.
Exemples:
• Augmentation des ventes d’un produit
→ due à une campagne publicitaire
• Diminution du chiffre d’affaire d’une boutique
→ due à l’arrivée d’un concurrent
• Diminution des ventes d’une alimentation
→ due à l’arrivée d’une caissière peu sympatique
4
Motivations
 A l’ère de l’IA/machine learning et des big data, les organisations ont besoin
de créer des systèmes intelligent permettant d’anticiper et de prédire ces
phénomènes, et bien d’autres.

 Les systèmes d’information décisionnels (SID) servent dans ce contexte à


organiser les données produites par les systèmes de gestion de sorte à ce
qu’elles soient prêtes pour la création de tableaux de bord, et autres analyses.
Exemples de tableaux de bord:

• Classement/évolution des prénoms populaires en France

5
Objectifs
Ce cours vise à donner aux étudiants les éléments pour :

● Comprendre l’importance des SID et leur positionnement dans le SI

● Mettre en place un SID à travers la modélisation conceptuelle la modélisation


logique et la mise en œuvre opérationnelle.

● Alimenter un SID par un processus ETL

● Réaliser des analyses à partir du SID à travers :des opérateurs OLAP, des
outils d’analyse et de visualisation de données (Excel, QlikSense)

6
Quelques references

7
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

8
2. Généralités

9
Contexte
● Avec la diminution des coûts de stockage, les entreprises conservent de plus
en plus de données.
Il est moins coûteux de conserver toutes les données, que de les trier.
II s’agit très souvent de données opérationnelles, issues de logiciels de
gestion (gestion de la comptabilité, ventes, stocks, etc.)

10
Contexte
● L’émergence de “banques de donnée” (réseaux sociaux, open data) donne
de nouvelles sources de données externes

● Ces données souvent appelées big data (mégadonnées / données massives)


sont caractérisées par plusieurs V

Volume
Vélocité
Variété
Véracité
Valeur

11
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.

Volume: chaque seconde, 253k textos sont échangés, 18k vidéos sont
visionnées sur Youtube, 60k requêtes sont lancées sur Google, etc. (2017)

Vélocité: les données proviennent de flux en temps réel comme les réseaux
sociaux et les capteurs (IOT)

12
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.

Variété: seulement 20% des big data sont structurées. La majorité est semi-
structurée (XML, JSON) et non structurées (textes, images, vidéos).

Véracité: L’authenticité et la crédibilité des données reste à prouver. D’où la


chasse actuelle faite aux fake news (infox).

Valeur: Il faut arriver à extraire des informations des données, faute de quoi, elles
ne servent pas.

13
Problématique
● Les données dont disposent les entreprises constituent alors une opportunité,
mais aussi une problématique à savoir « comment transformer ces données en
informations pouvant orienter la prise de décisions »

● Une telle organisation des données devrait permettre à des experts ou


analystes métiers d’analyser aisément les données

14
Problématique
En résumé les entreprises ont besoin de:
● Organiser une grande masse de données volumineuses, très détaillées et
parfois hétérogènes en les normalisant, en vue d’analyses futures

● Ces analyses consistent à synthétiser/résumer, visualiser, analyser, interpoler


les données, le tout pour assister la prise de décision. Ces analyses seront
potentiellement réalisées par des experts métiers.

● C’est pourquoi, les données doivent suivre une organisation spécifique,


permettant des analyses interactives et intuitives.I

● La solution se trouve dans un système d’aide à la décision ou système


d’information décisionnel (SID). On parle d’informatique décisionnelle ou de
business intelligence (BI) 15
Système d’information décisionnel
Définition
Un système d’information décisionnel est un composant du système d’information
d’une entreprise, dédié à la prise de décision.

● Le SID est dédié au pilotage de l’entreprise, et diffère du système


opérationnel qui lui est orienté gestion.

● Le SID inclue des outils comme l’entrepôt de données, le magasin


de données, les plate-formes de visualisation, etc.

● Le système opérationnel est dédié lui à la gestion de l’activité de


l’entreprise : gestion de la comptabilité, gestion des stocks, etc.

16
Informatique décisionnelle vs. Data science
Informatique décisionnelle
Encore appelée business intelligence, désigne les moyens, les outils et méthodes
qui permettent de collecter, organiser et restituer les données d’une entreprise en
vue d’offrir une aide à la décision

Data science
La science des données est une discipline s’appuyant sur un ensemble de
traitements informatiques et statistiques, permettant d’extraire des information à
partir de données.

17
Informatique décisionnelle vs. Data science

Informatique décisionnelle Data science


Type d’analyses Analyses explicatives Analyses prédictives
Agrégats: moyenne, écart- Tests statistiques : chi-deux,
Indicateurs
type, variance, minimum, etc. Student, ANOVA, etc.
Fréquences des
Analyses industrialisées Analyses ponctuelles
analyses
Utilisateurs Experts-métiers Data-scientists

18
Architecture d’un SID
● Les données du SID proviennent
surtout du SI opérationnel

● Les données sont prétraitées, puis


intégrées à l’ED par le processus ETL.

● Les techniques BI et de data science


peuvent ensuite être appliquées sur les
données de l’ED
datawarehouse4u.info

19
Entrepôt de données: définition
Définition – Entrepôt de données
L’entrepôt de données est une collection de données orientées sujet, intégrées, non
volatiles, historisées, organisées pour le support d’un processus d’aide à la décision

● l’ED est une base de données organisée de façon spécifique dans le


but de permettre et de faciliter l’analyse automatisée des données.

● 4 caractéristiques essentielles : organisation orientée sujet, données intégrées,


données non volatiles, données historisées.

● A ne pas confondre avec le magasin de données

Définition – Magasin de données


Le magasin de données est un sous-ensemble de l’entrepôt de données,
permettant de restituer tout le spectre d’une activité métier. 20
Entrepôt de données: caractéristiques
1. Organisation orientée sujet.

● Les données sont organisées par sujets (ex. clients, fournisseurs)


On fait abstraction de l’organisation fonctionnelle, telle qu’implémentée dans le
SI opérationnel

● Lors de la modélisation, les sujets deviendront les faits, ou dimensions à partir


desquelles les analyses pourront être réalisées.

Lydie Soler, AgroTechParis 21


Entrepôt de données: caractéristiques
2. Données intégrées.

● Les données provenant de sources hétérogènes, il faut normaliser les données


lors de leur intégration

● Il est alors nécessaire de définir des conventions de conversion.


Cela se fait souvent en utilisant une ontologie.

Lydie Soler, AgroTechParis 22


Entrepôt de données: caractéristiques
3. Données non volatiles.
● Les données ne doivent jamais être supprimées de l’entrepôt de données.

● Elles doivent être conservées pour assurer la répétabilité des analyses

SI Opérationnel SI Décisionnel (ED)

Lydie Soler, AgroTechParis 23


Entrepôt de données: caractéristiques
4. Données historisées.
● L’évolution temporelle des données est conservée afin d’enrichir les analyses
● On peut ainsi à partir des tendances, interpoler/prédire l’évolution future des données

SI Opérationnel

SI Décisionnel (ED)

Lydie Soler, AgroTechParis 24


Entrepôt de données vs. BD de production
● Un composant typique du SI décisionnel est l’entrepôt de données
● Un composant typique du SI opérationnel est la BD de production.
BD de production Entrepôt de données
Objectifs Gestion Pilotage
Utilisateurs Nombreux Peu nombreux
Taille Giga-octets Terra-octets
Organisation Par traitements Par sujet
Type de données Données courantes Données historisées
Requêtes Simples Complexes
Transactions Courtes et nombreuses Longues et peu nombreuses
Trinidad, 2005 25
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

26
3. Concepts de base

27
Modélisation multi-dimensionnelle
Définition
La conception d’un entrepôt de données est également connue sous
l’apellation “modélisation multi-dimensionnelle”.
Cela consiste à mettre en évidence un sujet d’intérêt, suivant plusieurs axes
d’analyse

● En modélisation multi-dimensionnelle le sujet d’intérêt est appelé « fait », et


les axes d’analyses « dimensions ».

● Le point de départ d’un processus de modélisation multi-dimensionnelle


consiste donc à identifier le(s) fait(s) et les dimensions

28
Concepts de base: le fait
Définition
Le fait représente le sujet d’analyse. Il est composé d’un ensemble de mesures
(indicateurs) qui représentent les différentes valeurs de l’activité analysée.

● Les mesures sont généralement des valeurs numériques qui sont


valorisées de manière continue.

● Lors de l’analyse, les mesures sont agrégées pour donner des statistiques
descriptives sur les données analysée.
Exemples d’agrégations : minimum, maximum, moyenne, écart-type, etc.

● Dans le modèle multi-dimensionnel, chaque fait est représenté par une


table, dont le nom préfixé par l’intitulé “fait". (ex. FAIT_VENTE).
29
Concepts de base: le fait
Exemple 1
Un super-marché souhaite mettre en place un ED permettant de suivre son
chiffre d’affaire et les quantité de produits vendus

● Ici, les ventes sont le sujet d’analyse, et donc le fait. Autrement dit, une
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvelle vente. FAIT_VENTE

● Chaque opération de vente est caractérisée par la quantité de produits, Quantité


Montant
et le montant. Ce sont les mesures. …

● Lors de l’analyse, on obtient le chiffre d’affaire par une agrégation de


type “somme” sur la mesure “montant”. De même, on pourrait étudier
laquantité moyenne vendue, la quantité totale, etc.
30
Concepts de base: le fait
Exemple 2
Une ONG travaillant dans la lutte contre les changements climatiques, souhaite mettre
en place un ED lui permettant d’observer l’évolution du climat au fil des années. Pour
ce faire, elle enregistre chaque jour la température et la quantité de précipitation.

● Ici, la météo est le sujet d’analyse, et donc le fait. Autrement dit, une FAIT_METEO
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvel
Température
enregistrement météo. Pluviométrie

● Chaque enregistrement météo est caractérisée par la température,
et la pluviométrie. Ces éléments représentent donc les mesures.

● Lors de l’analyse, on peut calculer la température moyenne, l’écart


type de la pluviométrie, la pluviométrie totale, etc. 31
Concepts de base: la dimension
Définition
Une dimension représente une perspective, un axe de l’analyse. Elle se
compose de paramètres (ou attributs) textuels et discrets (catégoriels).

● Les dimensions permettent au moment de l’analyse de restreindre la portée des


requêtes afin de limiter les individus cibles.
Lors de la modélisation, les dimensions sont caractérisées par le préfixe « dim »
(ex. DIM_CLIENT, DIM_MAGASIN),

● Les valeurs des dimensions associées sont renseignées à chaque nouvel


enregistrement dans la table de fait.
Exemples de dimensions: temps (année, trimestre, mois, jour), localisation
(continent, pays, région, province, commune), client, produit.
32
Concepts de base: la dimension
Exemple 1 (bis)
Un super-marché souhaite mettre en place un ED permettant de suivre son chiffre
d’affaire et les quantité vendues de chaque produit. Le super-marché voudrait ainsi
analyser les indicateurs de vente suivant leurs deux magasins (Ouaga et Bobo).

● Deux dimensions sont explicitées dans l’énoncé ci-dessus : magasin, et produit.


La dimension temporelle est ici implicite.
On sait que le chiffre d’affaire se décline généralement par jour, mois ou année.
Cela va donc de soit que le temps constitue une dimension nécessaire aux
analyses futures.

● Pour chaque opération de vente, les valeurs de toutes les dimensions associées
doivent être renseignées : temps (jour/mois/année), magasin (ouaga/bobo) et
produit (savon/biscuits/boisson/...) 33
Concepts de base: hiérarchie de dimensions
Définition
Une hiérarchie représente une relation de type “est plus fin” entre deux dimensions.
La hiérarchie est représentée par une flèche du niveau de granularité le plus fin au
niveau le plus grand.

Hiérarchie temporelle Hiérarchie géographique Hiérarchie organisationnelle


DIM_ANNEE DIM_CONTINENT DIM_TYPE_VOITURE

DIM_TRIMESTRE DIM_PAYS
DIM_MARQUE
DIM_MOIS DIM_REGION

DIM_JOUR DIM_VILLE DIM_MODELE 34


Concepts de base: additivité des mesures
● Dans un fait, les mesures peuvent être additives, semi-additives ou non additives.
Une mesure additive peut être additionnée suivant toutes les dimensions (ex.
quantité_vendue).

● Une mesure semi-additive peut être additionnée suivant certaines dimensions.


L’état des stocks peut ainsi s’additionner sur les magasins. En revanche, une
sommation des stocks sur plusieurs jours n’a aucun sens.

● Une mesure est considérée comme étant non-additive lorsque son addition sur
chacune des dimensions n’a pas de sens (ex. température)
Exercice
La pluviométrie est-elle une mesure additive, semi-additive ou non-additive ?
Et le taux de scolarisation ?
Autres exemples de mesures semi ou non-additives ? 35
Concepts de base: exercices
Exercice 1
Représenter la hiérarchie temporelle en considérant les dimensions numéro du jour,
jour de la semaine, mois, et année.

Exercice 2
Reprendre l’exercice 1 en ajoutant la semaine, le trimestre, le quadrimestre et le
semestre

Exercice 3
Représenter une hiérarchie géographique correspondant au cas du Burkina en
incluant, le quartier, l’arrondissement, la ville, la province et la région.

36
Concepts de base: exercices
Exercice 4
Un pharmacien désire mettre en place un entrepôt de données pour analyser la vente
des produits dans l’ensemble de ses pharmacies.
Les produits sont catégorisés en médicaments de spécialité, et génériques. Une autre
catégorisation distingue les produits pouvant être vendus sans ordonnance, de ceux
pour lesquels une ordonnance est indispensable.
Enfin, chaque produit est associé à un fournisseur pouvant être burkinabè, ivoirien,
français ou américain (USA).

1 Quel est le fait dans cet énoncé ? les mesures ?


2 Quelles sont les dimensions nécessaires à la modélisation de cet ED ?
3 Représenter les différentes hiérarchies qui apparaissent.

37
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

38
4. Modélisation et mise en
oeuvre

39
Modélisation conceptuelle
● La modélisation conceptuelle répond à la question « quoi? » (quelles données)
● Il existe trois principaux types de modèles conceptuels:
Le modèle en étoile
Le modèle en flocons de neige
Le modèle en constellation

Flocons de neige Constellation


Etoile
40
Modélisation conceptuelle: modèle en étoile
● C’est le modèle le plus simple pour représenter un entrepôt de données.
Il s’articule autour d’une unique table de fait centrale, directement liée à
plusieurs dimensions.

● La table de fait inclue une ou plusieurs mesures, qui doivent être observables
sur l’ensemble des dimensions.
Il n’ y a pas de relations directes entre les tables de dimensions, et les
dimensions ne sont pas normalisées.

41
Modélisation conceptuelle: modèle en étoile
Avantages
Le modèle est très simple de compréhension
Les requêtes sont peu coûteuses
L’intégration des données est simple

Inconvénients
Le stockage est très coûteux
L’alimentation est plutôt complexe
Le schéma est plutôt ambiguë, et laisse
difficilement percevoir les hiérarchies

42
Modélisation conceptuelle: modèle en étoile

43
Modélisation conceptuelle: modèle en flocons de neige
● C’est un dérivé du modèle en étoile. Il se différencie par la normalisation des
dimensions (3FN).
Il est obtenu en organisant les dimensions du modèle en étoile classique en
hiérarchies de dimensions.

● Les dimensions de plus faible niveau de granularité sont directement liées à la


table de fait.
Le choix de la normalisation des dimensions dépend des analyses futures. Il
est ainsi envisageable d’avoir dans le même ED des dimensions normalisées,
et d’autres non.

44
Modélisation conceptuelle: modèle en flocons de neige

Avantages
Le stockage est très peu coûteux
Les hiérarchies sont clairement et facilement
perceptibles

Inconvénients
Les requêtes sont très coûteuses
Le modèle est plutôt complexe à modéliser et à
mettre en œuvre

45
Modélisation conceptuelle: modèle en flocons de neige

46
Modélisation conceptuelle: modèle en constellation
● C’est une série de modèle en étoile, ou en flocons, reliés entre eux par des
dimensions.

● Un modèle en constellation compte plusieurs tables de faits.


C’est le modèle le plus complet, et le plus réaliste pour représenter l’ensemble
de l’activité d’une entreprise

47
Modélisation conceptuelle: modèle en constellation

48
Modélisation logique
● La modélisation logique répond à la question « comment? » (quelle représentation
des données)

● Il existe trois principaux types de modèles logiques:


Le modèle ROLAP (Relational On-Line Analytical Processing)
Le modèle MOLAP (Multidimentional On-Line Analytical Processing)
Le modèle HOLAP (Hibrid On-Line Analytical Processing)

49
Modélisation logique: modèle ROLAP
● La modélisation logique ROLAP consiste à utiliser un SGBDR pour
l’implémentation de l’entrepôt de données.
Chaque fait correspond à une table relationnelle, de même que chaque
dimension.

● Les analyses se font via des requêtes SQL ou MDX.


Une clé primaire est associée à chaque dimension. La clé primaire de la
table de fait est elle constituée de la combinaison des clés étrangères issues
des dimensions associées.

Avantages Inconvénients
Approche est facile et peu coûteuse Requêtes très coûteuses
Elle passe à l’échelle Affichage des données peu intuitif
Évolution facile
50
Modélisation logique: modèle ROLAP
Exercice 4
Représenter graphiquement le modèle ci-dessous

51
Modélisation logique: modèle ROLAP
Exercice 5
Représenter graphiquement le modèle ci-dessous

52
Modélisation logique: modèle MOLAP
● La modélisation MOLAP consiste à implémenter l’entrepôt de données sur la
base d’un tableau multidimensionnel (encore appelé cube ou hypercube).
Les mesures sont stockées, dans des cellules.

● Dans l’approche MOLAP, des agrégats sont pré-calculés et stockés.


Exemples de solutions : Hyperion Essbase OLAP Serve, SAS OLAP Server,
Informix MetaCube, etc.

Avantages Inconvénients
Temps d’accès aux données optimisé Solutions souvent propriétaires
Visualisation intuitive Problème d’eparsité des données
Passe mal à l’échelle
53
Modélisation logique: modèle MOLAP

54
Concept de magasin de données (rappel)
Définition
Le magasin de données est un sous-ensemble de l’entrepôt de données,
constitué de tables au niveau détail et à des niveaux plus agrégés, permettant
de restituer tout le spectre d’une activité métier.
L’ensemble des magasins de données de l’entreprise constitue l’entrepôt de
données.
● Autrement dit, les magasins de données sont des extraits de l’entrepôt de
données orientés métiers. Ex : ventes, RH, stocks, etc.
L’objectif d’un magasin de données est de servir un besoin métier spécifique,
avec un outil d’analyse ou de reporting qui lui est propre

● Selon l’approche de conception utilisée, l’entrepôt peut être constitué avant


les magasins de données, ou inversement
55
Concept de magasin de données (rappel)

56
Approches de conception d’un ED
1. Approche Top-down (Bill Inmon)
Cette approche consiste à concevoir tout l’entrepôt intégralement apriori, pour
ensuite créer les magasins de données à partir de là.

Avantages Inconvénients
Vision globale du système d’information Difficile et lent à mettre en œuvre
décisionnel Mise en œuvre coûteuse
Données normalisées et uniformisées
Maintenance facile

57
Approches de conception d’un ED
2. Approche Bottom-up (Ralph Kimball)
Il s’agit ici de concevoir d’abord les magasins de données un par un, pour
ensuite les regrouper suivant des dimensions communes pour constituer
l’entrepôt de données

Avantages Inconvénients
Rapide à mettre en œuvre Maintenance difficile : redondances
Mise en œuvre peu coûteuse à priori Problèmes d’intégration des magasins
de données

58
Cycle de vie d’un SID
1. Conception (définir la finalité de l’entrepôt, choisir le modèle)

2. Acquisition des données/définition d’une stratégie d’ETL

3. Définition des aspects techniques de la réalisation

4. Définition des modes de restitution

5. Stratégies d’administration, évolution, maintenance

59
Exercices
Exercice 6 (Enoncé)
Une société de distribution de carburant souhaite mettre en place un entrepôt de
données pour suivre son chiffre d’affaire. Les ventes sont réalisées par des
commerciaux et concernent plusieurs types de carburant : essence, pétrole et
gasoil. La société dispose de sites de distributions à Somgandé, Dassasgho et
Zogona.
L’entrepôt de données devrait permettre d’identifier les commerciaux les plus
performants, les types de carburant, ainsi que les sites les plus rentables.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant

60
Exercices
Exercice 6 (Corrigé)

● Identification des éléments clés :


fait: vente
mesures: montant
dimensions: commercial, type_carburant, site
hiérarchies ?: oui, commercial→site

● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions

● Proposition de modélisation

61
Exercices
Exercice 6 (Corrigé)

62
Exercices
Exercice 7 (Enoncé)
Une ONG intervenant dans la santé infantile souhaite faire une cartographie des
naissances dans les différentes localités du Burkina Faso. Pour cela, elle
souhaite intégrer les enregistrements journaliers de naissances obtenus à partir
de l’état civil de chaque commune dans un entrepôt de données.
La cartographie devrait ainsi permettre d’obtenir des statistiques par commune,
province et région. Une catégorisation des naissances par sexe est également
prévue.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant

63
Exercices
Exercice 7 (Corrigé)

● Identification des éléments clés :


fait: enregistrement
mesures: nombre_naissances
dimensions: jour, semaine, mois, année, commune, province, région, sexe
hiérarchies ?: oui, jour→semaine→année / jour→mois→année /
commune→province→région

● C’est un modèle en flocons de neige, car il existe une hiérarchie de dimensions

● Proposition de modélisation

64
Exercices
Exercice 7 (Corrigé)

65
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

66
5. Alimentation (ETL)

67
Processus ETL
E comme… Extract

● Il s’agit de se connecter aux sources de données pour identifier et extraire les


nouvelles données afin de les intégrer dans l’entrepôt. Cette opération ne doit
pas perturber les règles de production.

● Cela peut se faire à travers des connecteurs/API ou des scripts/batch


personnalisés. Les connecteurs de bases de données (JDBC, ODBC,
SQLAlchemy, etc.) peuvent être utilisés à cet effet. Dans certains cas, le web
scrapping (Web mining) peut également constituer une solution

● Elle doit suivre une planification précise, prenant en compte les données
cycliques. Il est également indispensable de mettre en place une stratégie de
marquage des données déjà extraites afin d’éviter les doublons.
68
Processus ETL
T comme… Transform

● Il s’agit ici de nettoyer et transformer l’ensemble des données extraites vers


le format cible attendu par l’entrepôt. Il faut ainsi pré-agréger les données si
nécessaire, pour garder le même niveau de granularité.

● Ici aussi, il est indispensable de définir une stratégie/convention de


formatage des données.
Par ex., sexe = h/f ? m/f ? 1/0 ?

● Une harmonisation des unités de mesures/monétaires est aussi nécessaire.


Il faut donc définir des unités de référence (ex. dollars US, kilomètres, degré
Celsius, etc.)

69
Processus ETL
L comme… Load

● Cette dernière phase consiste à charger les données extraites, nettoyées et


préparées dans l’entrepôt de données.

● C’est l’opération inverse de la phase d’extraction. Comme elle, l’opération de


chargement utilise des scripts synchrones ou asynchrones, sur la base de
connecteurs de bases de données.

70
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

71
6. Analyses : OLAP

72
Analyse OLAP: définition
Définition
L’OLAP (On-Line Analytical Processing) est une technologie permettant
d’extraire, comparer et analyser des données de façon interactive, à partir
d’une base de données conçue à cet effet.

● Les données à analysées sont organisées dans un modèle multi-dimensionnel.


L’analyse consiste à croiser plusieurs dimensions pour en extraire des
caractéristiques spécifiques. Cela permet à terme de synthétiser, explorer,
confirmer, expliquer et prédire les données.

● L’analyse OLAP peut être la base de plusieurs autres types d’analyses:


Analyses explicatives: techniques statistiques, visualisations, corrélations
Analyses prédictives: régressions, clustering, réseaux de neurones
73
Analyse OLAP: 12 règles de Codd
1. Multi-dimensionnalité: le Modèle OLAP est multidimensionnel par
nature.
2. Transparence: l’emplacement physique du serveur OLAP est
transparent pour l’utilisateur.
3. Accessibilité: l’utilisateur OLAP doit disposer d’une accessibilité à
toutes les données nécessaires à ses analyses
4. Stabilité: la performance des reportings restent stables
indépendamment du nombre de dimensions
5. Client-Serveur: le serveur OLAP s’articule sur une architecture client
serveur
6. Dimensionnement: le dimensionnement est générique afin de ne pas
fausser les analyses.

74
Analyse OLAP: 12 règles de Codd
7. Gestion complète: le serveur OLAP doit assurer la gestion des
données clairsemées.
8. Multi-Utilisateurs: le serveur OLAP doit offrir un support multi-
utilisateurs (gestion des mises à jour,intégrité, sécurité).
9. Inter-Dimension: le serveur OLAP doit permettre la réalisation
d’opérations inter dimensions sans restriction.
10. Intuitivité: le serveur OLAP doit favoriser une manipulation intuitive des
données.
11. Flexibilité: la souplesse de l’édition des rapports est intrinsèque au
modèle.
12. Analyses sans limites: le nombre de dimensions et de niveaux
d’agrégation possibles doit être suffisant pour autoriser toute analyse

75
Analyse OLAP: opérateurs
Opérateur « cube »

● C’est l’opérateur de base de l’analyse OLAP.


Appliquer l’opérateur CUBE sur un entrepôt de
données (ou magasin de données) consiste à
calculer les différents agrégats.

● Le cube peut être représenté en ROLAP ou


MOLAP.
Le terme « ALL » est utilisé pour représenter
les valeurs agrégées.

76
Analyse OLAP: opérateurs
Opérateur « cube » (MOLAP)

● Eparsité: Un cube est considéré comme étant éparse si plus de 60%de ses
cellules sont vides.
● Exemple pour le cube VENTES
Nombre de cellules vides : 0
Nombre total de cellules : 3*3 = 9
Eparsité=0/9=0% →le cube n’est pas éparse
77
Analyse OLAP: opérateurs
Opérateur « cube » (ROLAP)

78
Analyse OLAP: opérateurs
Opérateur « cube » (ROLAP)

● Nombre (maximal) de lignes:


Soient N le nombre de dimensions,Ci la cardinalité de chaque dimension
dans le cube
Le nombre maximal de lignes, y compris les agrégations sera Π(Ci+1)
Le nombre de niveaux d’agrégations sera 2N−1

● Exemple, pour le cube ventes :


Nombre maximal de lignes : (3+1)∗(3+1) = 4∗4 = 16
Différents niveaux d’agrégations : 2*2−1 = 3

79
Analyse OLAP: opérateurs
Forage vers le haut (ROLL-UP)

engineers2018.wordpress.com 80
Analyse OLAP: opérateurs
Forage vers le bas (DRILL-DOWN)

engineers2018.wordpress.com

81
Analyse OLAP: opérateurs
Sélection/projection (SLICE)

engineers2018.wordpress.com
82
Analyse OLAP: opérateurs
Sélection/projection (DICE)

engineers2018.wordpress.com
83
Analyse OLAP: opérateurs
Réorientation (PIVOT)

engineers2018.wordpress.com
84
Analyse OLAP: opérateurs
Réorientation (SWITCH)

engineers2018.wordpress.com

85
Analyse OLAP: requêtes SQL
Syntaxe générale

● Le langage SQL offre des fonctionnalités permettant le calcul automatisé des


agrégats dans un entrepôt ROLAP.

● Il existe des extensions de SQL pour OLAP - nouvelles fonctions de la clause


GROUP BY:
ROLLUP, CUBE, GROUPING, GROUPING SETS

86
Analyse OLAP: requêtes SQL
GROUP BY ROLLUP

● Cette clause calcule les agrégats (SUM, COUNT, MAX, MIN, AVG) à différents
niveaux d’agrégation

87
Analyse OLAP: requêtes SQL
GROUP BY CUBE

● La clause CUBE est similaire à ROLLUP mais permet de calculer toutes les
combinaisons d’agrégations possibles

88
Analyse OLAP: requêtes MDX
Syntaxe générale

● Le langage MDX (Multi Dimensional eXpression) est un langage de requêtes


dédié à l’OLAP
Il offre une vue multidimensionnelle des données.

● Il possède une syntaxe proche du SQL: SELECT … FROM … WHERE …

89
Analyse OLAP: requêtes MDX
Exemple

[Espinasse, 2015]

90
Analyse OLAP: Exercices
Exercice 1
1. Compléter les cubes ROLAP suivants puis les représenter suivant
l’approche MOLAP
2. Calculer leur éparsité

91
Analyse OLAP: Exercices
Exercice 2
1. Représenter en mode ROLAP le cube suivant
2. Calculer son éparsité

92
Bonus: Métiers du la BI/Data science
Chief data officer
Il dirige la collecte des données, leur valorisation ainsi que la manière
stratégique dont l’entreprise va les utiliser.
C’est avant tout un manager mais il a une certaine expérience dans le
domaine de la data et a souvent commencé par analyser des données avant
de diriger une équipe.

Data scientist
C’est un profil assez généraliste. Il est capable de construire des modèles
d’interprétation de données en utilisant les outils de statistiques, les langages
de programmation, l’IA et des techniques propres au traitement des Big Data
lorsqu’il y a besoin
93
Bonus: Métiers du la BI/Data science
Data architect
Il intervient dans la mise en place d’architectures décisionnelles, et définit la
façon dont les données vont être stockées. Il maîtrise donc les outils Big Data
comme Hadoop mais gère aussi les solutions cloud.

Data analyst
C’est un spécialiste de l’analyse de données. Il arrive à la fin des projets en
support du data scientist. Il est chargé d’extraire les métriques les plus
importantes et de les présenter de manière pertinente.

94
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion

95
7. Conclusion

96
Conclusion
Au delà des SID classiques

● Limites des SID classiques


Non prise en charge de données non numériques (Text-OLAP)
Manque d’évolutivité
Analyses plutôt basiques

● Solutions:
Entrepôts de données avec du NoSQL (MongoDB)
Lacs de données

97
Conclusion
Cette fois, c’est fini!

98

Vous aimerez peut-être aussi