Vous êtes sur la page 1sur 14

Références

- Ouvrages :
Data Warehouse Systems Design and Implementation (Data-Centric
Business Intelligence Systems and Applications). Alejandro Vaisman, Esteban Zimányi (auth.)
Springer-Verlag Berlin Heidelberg (2014)
Data warehouse et data mining, Conservatoire National Des Arts et Métiers
Filière INDIA (Semestre 4) de Lille, Version 1.1
Ecole Nationale Supérieure d Art et Métiers Data mining et statistique décisionnelle, Stéphane Tuffery, 297 pages.
Université Mohammed V de Rabat Internet/Intranet et bases de données : Data Web, Data Media, Data
Warehouse, Data mining, Georges Gardarin, Eyrolles, 2000, 246 pages.
Livre blanc : La business intelligence Keyrus- Mai 2010
Data Warehouses and OLAP Concepts, Architectures and Solutions. Robert
Pr. Abderrahim El Qadi Wrembel, Christian Koncilia
Département Mathématique Appliquée et Génie Informatique
ENSAM, Université Mohammed V de Rabat - Supports :
Cours de Bernard ESPINASSE, Univ. Aix-Marseille
A.U. 2023/2024 Cours de NEGRE Elsa Université Paris-Dauphine

DW & BI -1- A. El Qadi DW & BI -2- A. El Qadi

Plan 1. Informatique décisionnelle


1. Informatique décisionnelle
2. Data Warehouse (Entrepôt de données) Business Intelligence ou
3. BI) désigne les moyens, les outils et les méthodes qui permettent de
4. Schéma du modèle multidimensionnel OLAP collecter, consolider, modéliser et restituer les données d'une
5. ETL : Outils Talend
6. Business intelligence : Outils Power BI nécessaires pour la prise des décisions.

DW & BI -3- A. El Qadi DW & BI -4- A. El Qadi


La BI est composée généralement de 3 grandes phases : Le principe du reporting est d'agréger (GROUP BY en SQL par
La phase : Grace à des outils ETL (Extraction exemple) et de synthétiser des données nombreuses et complexes
Transfert Load) on extrait les données des différentes sources sous forme d'indicateurs, de tableaux, de graphiques permettant d'en
transactionnelles pour les charger ensuite dans un entrepôt central. avoir une appréhension globale et simplifiée.

La phase de modélisation Grâce aux données


centralisées et des mesures
agrégées, il est devenu
La phase de restitution
possible de fournir aux
décideurs des rapports
rapports et des tableaux de bords durant cette phase de reporting.
utiles pour fixer les priorités
et les objectifs futures de
l'entreprise.

DW & BI -5- A. El Qadi DW & BI -6- A. El Qadi

les entrepôts de données alimentés par Pourquoi le décisionnel ?


les ETL. Le décisionnel ne concerne souvent que les entreprises qui gèrent un
Les entrepôts de données (Data Warehouse) servent de supports historique de leurs événements passés (faits, transactions etc.)
pour l'analyse des données sous plusieurs dimensions. Les systèmes décisionnels visent à définir et
stratégies efficaces pour les dirigeants ,
notamment en

fixés.

préalable mettre en place un entrepôt de données ou un data


warehouse afin de concentrer et stocker des données.

https://www.astera.com/fr/type/Blog/types-de-data-marts/

DW & BI -7- A. El Qadi DW & BI -8- A. El Qadi


2.Data Warehouse (Entrepôt de données)

2.1Définition

Le terme entrepôt de données (ou base de données décisionnelle, ou


encore data warehouse) désigne :
une base de données regroupant une partie ou l'ensemble des
données fonctionnelles d'une entreprise.
Son but est de fournir un ensemble de données servant de
référence unique, utilisée pour la prise de décisions dans
l'entreprise par le biais de statistiques et de rapports réalisés via
des outils de reporting.

Architecture d'un Data Warehouse

DW & BI -9- A. El Qadi DW & BI -10- A. El Qadi

2.2OLTP OLAP
Un datamart est un : OLAP (On-Line Analytical Processing) est opposé à OLTP (On-Line
Sous- Transactional Processing) et a pour but d'organiser les données à analyser par
fonction domaine/thème et d'en ressortir des résultats pertinents pour le décideur.
BD (OLTP) DW (OLAP)
Point de vue spécifique selon des critères métiers
Objectifs Gestion et production Consultation et
analyse
Utilisateurs Gestionnaire de production Décideurs, analystes
DM du service Taille de la base Plusieurs Gigaoctets Plusieurs Téraoctets
Marketing Organisation de Par traitement Par métier
DW de données
Types de données Données de gestion
(courantes) (résumées,
DM du service historisées)
Personnel Requêtes Simples, prédéterminées, Complexes,
Données détaillées spécifiques
Agrégations et
group by
DW & BI -11- A. El Qadi DW & BI -12- A. El Qadi
2.3Les données de DW

Le DW est une collection de données orientées sujet, intégrées, non


volatiles et historisées,

DW & BI -13- A. El Qadi DW & BI -14- A. El Qadi

1. Orientées sujet 2. Données intégrées


: Les données doivent être mises en forme et unifiées
état cohérent.
informations utiles sur un sujet le plus souvent transversal aux structures Une donnée doit avoir une description et un codage unique.
Plusieurs types de données :
Chiffres, texte, image
Exemple :
Comportement de la clientèle Flux de données : Compte rendus quotidiens, commandes,
Produit/production livraisons
Ventes (N°, produit, période, magasin, ) Données bruitées, manquantes, erronées

DW & BI -15- A. El Qadi DW & BI -16- A. El Qadi


3. Données historisées 4. Données non volatiles
Le non volatilité des données est en quelque sorte une
pendant une longue période
Les
prises au cours du temps. interrogation et ne peuvent pas être modifiées, sauf dans certains cas
Cette caractéristique donne la possibilité de suivre une donnée de rafraîchissement.
dans le temps pour analyser ses variations.

DW & BI -17- A. El Qadi DW & BI -18- A. El Qadi

3. Les parties interdépendantes qui relèvent de la construction d'un


entrepôt de données :

une analyse profonde de la part de la maîtrise d'ouvrage. 1. L'étude préalable


La conception d'un DW diffère de la conception d'une base de
données relationnelle. 2. L'étude du modèle des données qui représente l'entrepôt
Les bases de données relationnelles tendent le plus souvent à être conceptuellement et logiquement.
normalisées ; 3. L'étude de l'alimentation qui reprend à un niveau plus précis
Les bases de données multidimensionnelles, sont plutôt l'examen des données, le choix des méthodes et des dates
dénormalisées respectant le modèle en étoile ou le modèle en auxquelles les données entreront dans l'entrepôt.
flocon.
4.

DW & BI -19- A. El Qadi DW & BI -20- A. El Qadi


3.1 Étude préalable Exemple Étude des besoins :
Cette partie de l'étude ressemble à toute étape préliminaire à L'expression des besoins par les utilisateurs met souvent en évidence
l'implantation d'un nouveau système d'information décisionnel. la volonté d'obtenir :
Il s'agit de mettre en place un SI qui :
Des analyses sur ce qui s'est passé (par exemple comparer les
performances actuelles d'un magasin avec celles de l'année
donne du sens aux données
dernière)
Des analyses prédictives (par exemple déterminer les achats
(intégration de différentes bases de données)
potentiels pour un type de client, déterminer les clients qui risquent
extrait, regroupe, organise, transforme (résumé, agrégation) les
d'abandonner l'entreprise, ...).
données.
Définir la finalité du DW
faut-il piloter ?

Qui sont les décideurs ?


Quels sont les faits à mesurer ?

DW & BI -21- A. El Qadi DW & BI -22- A. El Qadi

3.2 Etude des Modèles b- Modèle logique :


a- Modèle conceptuel : Au niveau logique, l'unité de base est la table comme dans le modèle
Une modélisation relationnelle est souvent utilisée, chaque sujet relationnel.
correspondant à un objet géré par l'entrepôt : Sujet = faits + dimensions L'implantation classique consiste à considérer un modèle en étoile
Les faits : correspondent à avec au centre la table des faits et les dimensions comme autant de
et sont le plus souvent des données numériques et cumulatives comme des branches à l'étoile.
prix et des quantités. Les branches de l'étoile sont des relations de 1 à plusieurs.
Les dimensions : sont les critères sur lesquels on souhaite évaluer,

plus souvent des données textuelles.


Client 0,n Produit
0,n Vente
NoClient montant RefProduit
Nomville Catégorie
0,n
Période
DateVente
Mois
Années
DW & BI -23- A. El Qadi DW & BI -24- A. El Qadi
3.3 L'étude de l'alimentation
contenant les mesures, entourée par des dimensions non reliées entre
ETL (Extract, Transform, Load):
Les schémas en étoiles permettent d'agréger la table des faits avec
Extraction des informations sources.
n'importe qu'elle dimension en une seule opération de jointure (deux
Nettoyage et transformation des données.
ou trois pour les schémas en flocons).
Chargement des données dans le référentiel départemental.
<<Table> <<Table>>
<<Table>> Vente
Client NoClient Produit : Talend (open source), Microsoft SQL Server
NoClient RefProduit RefProduit
Nomville dateVente Catégorie
montant

<<Table>
Tables de
Table de Période dimensions
faits DateVente
Mois
Années
DW & BI -25- A. El Qadi DW & BI -26- A. El Qadi

3.4 Réalisation 4.Schéma du modèle multidimensionnel OLAP


(Online Analytical Processing)

- Top-Down : Il faut On parle de modèle multidimensionnel OLAP, souvent représenté


sous forme de cube, parce que les données seront toujours des faits
- Bottom-Up (approche inverse) : Créer les datamarts un par un à analyser suivant plusieurs dimensions.
puis les regrouper par des niveaux intermédiaires jusqu'à OLAP a pour but d'organiser les données à analyser par
obtention d'un véritable entrepôt. domaine/thème et d'en ressortir des résultats pertinents pour le
- Middle-Out (approche hybride) : Concevoir intégralement décideur.
l'entrepôt de données (toutes les dimensions, tous les faits, toutes
les relations), puis créer des divisions plus petites et plus
gérables.

DW & BI -27- A. El Qadi DW & BI -28- A. El Qadi


Par exemple, dans le cas de ventes de produits à des clients dans le Les interrogations s'interprètent souvent comme l'extraction d'un
temps (3 dimensions), les faits sont les ventes, les dimensions sont plan, d'une droite de ce cube (lister les ventes du produit A où lister
les clients, les produits et le temps. les ventes du produit A sur période de temps D), ou l'agrégation de
données le long d'un plan ou d'une droite (Obtenir le total des ventes
Table Vente du produit A revient à sommer les éléments du plan indiqué en
NoClient RefProduit dateVente montant figure précédente).
Client Temps
1 10 10/01/2000 100 Produit Cube de données
2 20 10/01/2000 200
SELECT noClient, DateVente,
3 10 10/01/2000 500
1 10 15/01/2000 300 SUM (montant)
3 40 15/01/2000 100
2 60 16/01/2000 200 FROM VENTE
4 60 20/02/2000 400
2 10 20/02/2000 200

DW & BI -29- A. El Qadi DW & BI -30- A. El Qadi

Exemple de requête simple :


NOCLIENT NOARTICLE DATEVENTE MONTANT SELECT
1 10 10/01/2000 100 noClient,noArticle,SUM(montant) Schéma du modèle OLAP
2 20 10/01/2000 200
3 10 10/01/2000 500
FROM Vente OLAP par Exemple
GROUP BY noClient,noArticle ;
1 10 15/01/2000 300
3 40 15/01/2000 100 NOCLIENT NOARTICLE SUM(MONTANT)
2 60 16/01/2000 200 ---------- ---------- ------------ Etape 1 : Les propriétés de la table Vente
1 10 500
4 60 20/02/2000 400 1 20 200
2 10 20/02/2000 200 1 40 100
1 40 25/02/2000 100 1 50 200 La société Au bon pied, désire construire une base de données pour
4 10 04/03/2000 300 1 60 200
1 20 04/03/2000 200 2
2
10
20
700
300
suivre l'évolution de ses ventes de chaussures, par modèle, par
2 60 400
3 10 1000 mois et par magasin.
Tableau croise noArticle 3 20 400
10 20 40 50 60 3 40 100
3 50 200
1 500 200 100 200 200 4 10 300
2 700 300 0 0 400 4 60 500
noClient
3 1000 400 100 200 0
4 300 0 0 0 500
Total 2500 900 200 400 1100

DW & BI -31- A. El Qadi DW & BI -32- A. El Qadi


On peut imaginer une table Vente : six états simples sont déjà possibles :
Mois Modèle Magasin Nombre Total HT Pour chaque magasin ou pour le total des magasins, les deux états
Mars 2000 Botte Torino 10 1 500 précédents,
Avril 2000 Sport Milano 850 260 000 Pour chaque modèle de chaussure ou pour le total, deux états avec
.......... les mois en ligne et les magasins en colonne,
Pour analyser ces données, on peut par exemple placer les mois en ligne et le Pour chaque mois ou pour l'année, deux états avec les magasins en
type en colonne. ligne et les modèles en colonne.
Cela constitue deux états simples en terme de reporting : Ces six états peuvent encore être multipliés par deux si l'on fait pivoter
les axes des abscisses et des ordonnées.
.

Magasin Magasin

Nombre Total HT
Modele Modele

Mois Mois
DW & BI -33- A. El Qadi DW & BI -34- A. El Qadi

- On peut maintenant imaginer que la société désire aussi étudier la


répartition de ses ventes suivant d'autres critères, comme Genre
Magasin Modele (Homme/Femme/Enfant), Pointure, ou encore Couleur.
Mois
Total Total Total
Modele Modele Magasin
- La structure de données relationnelle que nous venons de construire
Mois Magasin Mois est appelée schéma en étoile : le centre de l'étoile est la table vente,
tandis que les branches sont les tables magasin, modèle, couleur, etc.
Ces branches correspondent à des axes d'analyses, c'est à dire à des
critères qu'il est pertinent d'utiliser pour l'analyse des données.

Magasin Mois Modele


Total Total
Total
Mois Magasin Mois

Modele Modele Magasin

DW & BI -35- A. El Qadi DW & BI -36- A. El Qadi


Etape 2 : Les positions et mesures du cube
- La dimension magasin peut prendre plusieurs valeurs, par exemple
'Milano'. Ces valeurs sont des positions ou occurrences de la
dimension magasin.
- Les deux indicateurs suivis par les responsables de la société
(nombre de chaussures vendues et les prix de vente hors taxe), sont
appelés des mesures, ou des variables.
- En général, on ne définit pas de table mois dans un modèle
relationnel. Ici, nous avons absolument besoin d'une dimension
mois, qui aura les positions 'Janvier 2000', etc.
- La mesure Nombre est dimensionnée par Mois, Modèle et Magasin.
Il est donc encore relativement possible de la représenter
graphiquement sur un écran à deux dimensions, elle a vraiment
l'aspect d'un cube.

DW & BI -37- A. El Qadi DW & BI -38- A. El Qadi

Etape 3 : Les hiérarchies sur la dimension temps


Un plan du cube correspond à
toutes les valeurs pour une seule - L'étude des ventes mois par mois est certes utile, mais elle reste
position d'une des trois restrictive. Nous allons donc renommer la dimension mois, et
dimensions. Par exemple, la l'appeler par exemple Temps.
face avant est celle du magasin
- Les positions de la dimension Temps peuvent être des mois, mais
Milano.
aussi des jours, des trimestres ou des années. Ainsi, les
responsables des ventes pourront analyser les résultats des différents
Le cube complet représente une magasins sur des niveaux plus ou moins précis.
mesure, parfois appelée - Pour s'y retrouver entre toutes les positions de la dimension Temps,
population d'analyse, il suffit de créer une hiérarchie. Cette hiérarchie a, dans notre
concernant ici le nombre de exemple, quatre niveaux, qui sont respectivement jour, mois,
chaussures vendues. trimestre, année.

DW & BI -39- A. El Qadi DW & BI -40- A. El Qadi


- Une deuxième hiérarchie sur la dimension temps peut avoir les trois Exemple de schéma DW et hiérarchie
niveaux jour, semaine et année. Ici, le 18/05/00 est rattaché à
semaine 19 2000, puis à 2000.
- Pour décrire les données au sein d'une hiérarchie, on utilise souvent
les termes parents, enfants, frères, ascendants et descendants.
- De la même façon, il est possible de créer une hiérarchie sur la
dimension magasin, par exemple en regroupant ceux-ci par
département, région et pays.

- Une hiérarchie est un ensemble de paramètres d'étude de


granularité croissante appartenant à une même dimension au
sein d'un modèle décisionnel

DW & BI -41- A. El Qadi DW & BI -42- A. El Qadi

Pour définir une hiérarchie, les données doivent être organisées suivant
une série de relations (1,n) en cascade, c'est à dire que chaque
position ne peut avoir qu'un seul parent.
Le nouveau modèle relationnel associé est un "schéma en flocons".

décomposées en sous hiérarchies.

DW & BI -43- A. El Qadi DW & BI -44- A. El Qadi


Différence entre le schéma en étoile et en flocon
Schéma en étoile Schéma en flocon

Contient des tables de sous-


Contient des tables de
Structure du schéma dimension comprenant des tables de
faits et de dimensions.
faits et de dimensions.
Bottom-up
Top-down
(Créer les datamarts un par un puis
(Concevoir tout
Modèle de données les regrouper par des niveaux
intermédiaires jusqu'à obtention
intégralement )
d'un véritable entrepôt)
Complexité de requête Faible Haute
Jointure utilisée Moins Grand nombre de jointure
Plus Moins
Temps consommé lors de
Prend moins de temps
excessive de la jointure.
Utilisation de la
Utilise la normalisation.
normalisation normalisation.
DW & BI -45- A. El Qadi DW & BI -46- A. El Qadi

Etape 4 : Les mesures calculées La formule Prix moyen, représentant le prix moyen d'une paire de
chaussure, est dimensionnée elle aussi suivant Temps, Modèle et
- La base OLAP dispose de deux mesures, qui sont le nombre de Magasin, de type décimal.
chaussures vendues et le prix total hors taxe.
Prix moyen = Total HT / Nombre
- A partir de ces deux mesures, on peut en créer d'autres, qui cette fois
ne seront pas stockées dans la base de données mais calculées
dynamiquement lorsqu'un utilisateur désire y accéder. Comme le taux change souvent, il est possible de créer une nouvelle
variable, TVA, dimensionnée seulement sur le temps.
- Ces mesures sont parfois appelées des formules, en référence au
texte qui les décrit. Total TTC = Total HT * (100+TVA)/100

DW & BI -47- A. El Qadi DW & BI -48- A. El Qadi


Etape 5 : Les attributs

- Savoir combien de chaussures ont été vendues, c'est bien, mais


trouver celles qui se vendent le mieux, voilà qui va permettre à la
société Au bon pied de prospérer.
Pour cela, les différents magasins vont devoir fournir des données
plus précises sur leurs ventes, en indiquant chaque jour le nombre de
modèles vendus dans chaque référence disponible.
- Nous allons donc remplacer la dimension Modèle par la dimension
Référence.

DW & BI -49- A. El Qadi DW & BI -50- A. El Qadi

- Pour se rendre compte de l'état du marché, on définit des attributs


pour chaque référence de chaussure. La base OLAP permet maintenant de répondre à des questions plus
Ceux-ci peuvent être aussi variés que Couleur (bleu, blanc, complexe comme :
rouge), Matière (cuir, toile, synthétique), ou Catégorie Quelle couleur de chaussure se vend le plus en Août 1998 ?
(homme, femme, enfant). Combien le magasin Milano vendu de chaussures femme en cuir
- A chaque fois qu'une nouvelle référence est proposée en magasin, il en 1998 ?
suffit au gestionnaire de saisir ses caractéristiques. Au sein du Quelle est la part de chaussures homme, femme et enfants chez
système OLAP, Couleur, Matière et Catégorie deviennent de Au bon pied ?
nouvelles dimensions. Pour affecter un attribut à chaque référence,
le système va construire des relations.

- A l'aide de ces relations, le système se charge, lors de la consultation,


de cumuler les valeurs par référence pour obtenir un total par attribut.

DW & BI -51- A. El Qadi DW & BI -52- A. El Qadi


Etape 6 : Les calculs temporels 5.ETL (Extract Transform Load)
ETL : Tout le travail pour collecter, transformer et charger des données
Les exemples de calculs proposés dans les étapes précédentes ne provenant de sources différentes et multiples à un SGBD cible structuré
suffisent plus à la société Au bon pied. pour l'analyse.
Pour mieux cibler les actions à entreprendre, il faut en effet pouvoir
étudier l'évolution des données déjà archivées, et si possible prévoir
leur évolution dans le futur.

Avec OLAP, nous pouvons définir des formules répondant aux


questions de ce type :
Quelle est l'évolution de mon bénéfice net par rapport au même mois de
l'année précédente.
Quelle est l'évolution de mon chiffre d'affaire par rapport à la moyenne
des trois derniers mois.
Quelle sera la tendance des 12 prochains mois suivant telle ou telle règle
d'extrapolation.

DW & BI -53- A. El Qadi DW & BI -54- A. El Qadi

Un projet DW se compose de trois tâches techniques principales : ETL, La


conception de la base de données, et techniques et outils chacun
d'eux a des problèmes et des exigences particulières.
Avant tout, il faut tenir compte des problèmes d'accès aux données
détenues par d'autres services, groupes, et ainsi de suite.
L'obtention des autorisations nécessaires pour accéder aux
données n'est pas toujours facile pour des raisons techniques et non
techniques.
Un autre sujet est l'absence de normalisation interne de l'entreprise.
Cela peut être très difficile de retrouver les mêmes règles (même
dans un même service) dans le nommage des dossiers, dans
exprimer une date, choisir une structure pour les fichiers, etc.
Chargement de données : Ces problèmes, impliquent des questions très générales comme la
normalisation, les métadonnées, etc., et couvrir une partie pertinente de la
Batch processing : déplacement de gros volumes de données sous forme
conception du processus ETL.
de bloc et à intervalles répétitifs planifies.
Stream processing
création. Il est utilisé pour des analyses en temps réel.

DW & BI -55- A. El Qadi DW & BI -56- A. El Qadi

Vous aimerez peut-être aussi