Vous êtes sur la page 1sur 97

Datawarehouse:

Conception et réalisation
d’un Entrepôt de données

3ème année ISITD et IIN Année Universitaire : 2023-2024

Professeur : Mme HILAL Imane


PLAN DETAILLE DU COURS
Chapitre 1: Définitions, intérêts des entrepôts de données
1. Positionnement technologique
2. Motivation et intérêts
3. Définition de la Business Intelligence et du Datawarehouse
4. Comparaison des entrepôts de données avec les SGBD traditionnels
Chapitre 2: Architecture d’un système décisionnel
1. L’architecture de référence des systèmes décisionnels
2. Les sources de données
3. Le processus ETL :Extraction Transformation et Chargement
4. ETL VS ELT
5. Le Datawarehouse et les Datamart
6. Data warehouse Vs Data lake
Chapitre 3: Conception d’un Datawarehouse
1. La modélisation Multidimensionnelle (les dimenions, les Faits)
2. Le schéma en étoile
3. Le Schéma en flocon de neige
4. Le schéma en constellation
5. les approches de conception d’un projet d’entrepôt de données
Chapitre 4: Analyses avancées des données
1. Les outils OLAP (On Line Analysis Processing)
2. Les opérations OLAP et introduction du langage MDX
2
3. Les outils de restitutions : Tableaux de bord et rapports
4. Datawarehouse vs Datamining
PLAN et déroulement DU COURS

Cours Magistral : 8h
Chapitre 1: Définitions, intérêts des entrepôts de données
Chapitre 2: Architecture d’un système décisionnel
Chapitre 3: Conception d’un Datawarehouse
Chapitre 4: Analyses avancées des données

Travaux Dirigé : 4h
Travaux Pratiques 12h

3
Chapitre 1: Définitions, intérêts des entrepôts de données

1. Positionnement technologique

2. Motivation et intérêts

3. Définition de la Business Intelligence et du Datawarehouse

4. Comparaison des entrepôts de données avec les SGBD traditionnels

4
1. Positionnement Technologique

Papier Système Base de Décision


personnalisé données

• organiser les • mieux organiser • stocker les • utiliser les


données dans les données des données pour données pour la
des formes organismes fournir un prise de
papiers dans historique décision
des classeurs détaillé de
l'activité
5
1. Positionnement Technologique

6
2. Motivations et intérêts

• STOCKAGE DES GIGAS DE DONNÉES, MAIS DIFFICILES À EXPLOITER ET À ACCÉDER


• BESOIN D’ANALYSER LES DONNÉES DANS TOUS LES SENS
• BESOIN D'OBTENIR LES INFORMATIONS PLUS FACILEMENT

COMMENT UTILISER L'INFORMATION POUR APPUYER UNE PRISE DE


DÉCISIONS PLUS FONDÉES SUR DES FAITS??

7
2. Motivations et intérêts
Qui sont mes
clients? Quels
Quelles sont les produits achètent-
promotions les plus ils? Quels sont mes
efficaces ? meilleurs
clients?

Quelle est la
Qui sont les
période la plus
clients
lucrative?
insatisfaits?
Pourquoi?

8
3. Définition de la Business Intelligence

BUSINESS INTELLIGENCE

L’INFORMATIQUE DÉCISIONNELLE (BUSINESS INTELLIGENCE (BI)), ÉGALEMENT APPELÉE


« INTELLIGENCE D'AFFAIRES » , DÉSIGNE LES SOLUTIONS INFORMATIQUES
APPORTANT UNE AIDE À LA DÉCISION AVEC, EN BOUT DE CHAÎNE, DES RAPPORTS ET
DES TABLEAUX DE BORD À LA FOIS ANALYTIQUES ET PROSPECTIFS.

LE BUT EST DE CONSOLIDER LES INFORMATIONS DISPONIBLES AU SEIN DES BASES DE


DONNÉES DE L'ENTREPRISE.
9
3. Définition de la Business Intelligence

LES NIVEAUX DE DÉCISION DANS LA BI:

• TRAITEMENT OPÉRATIONNEL: LES OPÉRATIONS QUOTIDIENNES COMME


LA CAPTURE, LE STOCKAGE ET LA MANIPULATION DES DONNÉES.

• TRAITEMENT ANALYTIQUE : L'ANALYSE DE CES DONNÉES OU D'AUTRES


FORMES D'INFORMATIONS POUR APPUYER LA PRISE DE DÉCISION
10
3. Définition Entrepôt de donnée/Datawarehouse

ENTREPÔT DE DONNÉE EN ANGLAIS DATAWAREHOUSE:


UN DATAWAREHOUSE EST UNE COLLECTION DE DONNÉES CONÇUE POUR
L'INTERROGATION ET L'ANALYSE PLUTÔT QUE LE TRAITEMENT DE TRANSACTIONS. IL
CONTIENT GÉNÉRALEMENT DES DONNÉES HISTORIQUES DÉRIVÉES DE DONNÉES
TRANSACTIONNELLES, MAIS IL PEUT COMPRENDRE DES DONNÉES D'AUTRES ORIGINES.

LES DATAWAREHOUSES SÉPARENT LA CHARGE D'ANALYSE DE LA CHARGE


TRANSACTIONNELLE. ILS PERMETTENT AUX ENTREPRISES DE CONSOLIDER DES DONNÉES
DE DIFFÉRENTES ORIGINES. AU SEIN D'UNE MÊME ENTITÉ FONCTIONNELLE, LE
11

DATAWAREHOUSE JOUE LE RÔLE D'OUTIL ANALYTIQUE.


4. Comparaison des entrepôts de données avec les
SGBD traditionnels

Les SGBD sont des systèmes conçus pour les traitements transactionnels

Permettent d'insérer, modifier, interroger des informations rapidement, efficacement, en sécurité.

Deux objectifs principaux :

- ajouter, retrouver et supprimer des enregistrements repérés par une clef

"rechercher une aiguille dans une botte de foin"

- ces opérations doivent pouvoir être effectuées très rapidement, et par de nombreux utilisateurs
simultanément.

Les systèmes OLTP sont mal adaptés à l'analyse de données.


12
4. Comparaison des entrepôts de données avec les
SGBD traditionnels

Les entrepôts sont des systèmes conçus pour l’aide à la prise de décision.

Les objectifs principaux sont


regrouper, organiser, coordonner des informations provenant de sources diverses,
les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier,
retrouver et analyser l’information facilement et rapidement.

Questions typiques :
Quels sont les produits qui se vendent le mieux dans chaque région,
et quel est l’impact des données démographiques sur ces résultats
de vente ?
13
4. Comparaison des entrepôts de données avec les
SGBD traditionnels

14
Chapitre 2: Architecture d’un système décisionnel

1. L’architecture de référence des systèmes décisionnels


2. Les sources de données
3. Le processus ETL :Extraction Transformation et Chargement
4. ETL VS ELT
5. Le Datawarehouse et les Datamart
6. Data warehouse Vs Data lake

15
1. L’architecture de référence des systèmes décisionnels

Pourquoi créer un nouveau système??


• RÉCONCILIATION SÉMANTIQUE
• DISPERSION DES SOURCES DE DONNÉES AU SEIN D’UNE ENTREPRISE
• DIFFÉRENTS CODAGE POUR LES MÊMES DONNÉES
• L’ENTREPÔT RASSEMBLE TOUTES LES INFORMATIONS AU SEIN D’UN UNIQUE SCHÉMA
• CONSERVE L’HISTORIQUE DES DONNÉES
• PERFORMANCE
• LES DONNÉES D’AIDE À LA DÉCISION NÉCESSITENT UNE AUTRE ORGANISATION DES
DONNÉES
• LES REQUÊTES COMPLEXES DE L’OLAP DÉGRADENT LES PERFORMANCES DES REQUÊTES
OLTP.
• DISPONIBILITÉ
• LA SÉPARATION AUGMENTE LA DISPONIBILITÉ
• UNE BONNE FAÇON D’INTERROGER DES SOURCES DE DONNÉES DISPERSÉES 16

• QUALITÉ DES DONNÉES


1. L’architecture de référence des systèmes décisionnels

Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structurées Reporting
Extraction
Transformation
Les Load

Data Mining

Base de données
opérationnelles

Data Marts

17
Sources de Entrepôt de données OLAP Reporting et
ETL analyses avancée
données
2. Les sources de données

Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load

Data Mining

Base de données
Opérationnelles/ERP

Data Marts

18
Sources de Entrepôt de OLAP Reporting
données ETL
données
2. Les sources de données

PRINCIPALEMENT NOUS AVONS DEUX TYPES DES SOURCES DE DONNÉES:

BASES DE DONNÉES INTERNES:


• BASES DE PRODUCTION DE L’ENTREPRISE
• BASES CRÉÉES PAR LES UTILISATEURS
BASES DE DONNÉES EXTERNES À L’ENTREPRISE:
• DONNÉES RÉCUPÉRÉES SUR INTERNET: RÉSEAUX SOCIAUX, OPINIONS, RÉCLAMATIONS
ENLIGNE…
• DONNÉES DE VEILLE CONCURRENTIELLE DU MARCHÉ

• DONNÉES ACHETÉES À DES FOURNISSEURS DE DONNÉES 19


3. Le processus ETL :Extraction Transformation et Chargement

Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excels Extraction
Transformation
Les Load

Data Mining

Base de données
Opérationnelles/ ERP

Data Marts

20
Sources de Entrepôt de OLAP Reporting
ETL données
données
3. Le processus ETL :Extraction Transformation et Chargement

UN ETL EST UN OUTIL D’INTÉGRATION DES DONNÉES PERMETTANT D’AUTOMATISER LES


CHARGEMENTS DES DONNÉES DANS LE DATAWAREHOUSE.

UN ETL PERMET DE :
• DÉCOUVRIR, ANALYSER ET EXTRAIRE LES DONNÉES À PARTIR DES RESSOURCES HÉTÉROGÈNES
• NETTOYER ET STANDARDISER LES DONNÉES
• CHARGER LES DONNÉES DANS UN DATAWAREHOUSE

21
3. Le processus ETL :Extraction Transformation et Chargement

EXTRACTION
• EXTRACTION POSSIBLE À PARTIR DE PLUSIEURS PLATEFORMES
• CHARGEMENT INCRÉMENTAL OU COMPLET
TRANSFORMATIONS
• RÉVISIONS DE FORMAT
• TRAITEMENT DES VALEURS NULL
• VALEURS CALCULÉES & DÉRIVÉES
• FUSION DES DONNÉES
• FRACTIONNEMENT DES CHAMPS
• CONVERSION DES UNITÉS DE MESURE
• CONVERSION DES DATES
• DÉDUPLICATION
LOAD
• LES TABLES DU DATAWAREHOUSE/DATAMART 22
3. Le processus ETL :Extraction Transformation et Chargement

RH
Transform

Vente Extract Data Transformation Load Datawarehouse

Finance

23
3. Le processus ETL :Extraction Transformation et Chargement

PRINCIPALE MISSION
1. PROBLÈMES DE NORMALISATION
• DIFFÉRENTS ENCODAGES, LANGUES ..
• DIFFÉRENTES ABRÉVIATIONS
• EQUIVALENCE SÉMANTIQUE
• DIFFÉRENTES NORMES & UNITÉS DE MESURES
2. PROBLÈMES DE DONNÉES
• CHAMPS MANQUANTS (ÂGE, ADRESSE, …)
• VALEURS INCORRECTES
• REDONDANCE SÉMANTIQUE
3. INCOHÉRENCES
• INCOHÉRENCE DES CODES 24

• INCOMPATIBILITÉ RÉFÉRENTIELLE
3. Le processus ETL :Extraction Transformation et Chargement

ETL: EXEMPLE DÉTAILLÉ

Item Customer
records records

Split Filter
Filter Filter Group by
Date - Join non -
invalid invalid customer
time match
Customer
Facture
balance
Invalid Invalid Invalid
dates /times items customers

25
3. Le processus ETL :Extraction Transformation et Chargement

ETL : UN
MARCHÉ
D’OUTILS
ÉMERGENTS

26
4. ETL VS ELT

• ELT: EXTRACT, LOAD, TRANSFORM


• ELT PERMET DE PRÉSERVER LES DONNÉES À L'ÉTAT BRUT ET OFFRE UNE PLUS
GRANDE FLEXIBILITÉ D'UTILISATION DES DONNÉES DANS LE TEMPS.
• LES ELT ONT BEAUCOUP D’AVANTAGES LORSQU'UNE ENTREPRISE A BESOIN DE
TRAITER DE GRANDS VOLUMES DE DONNÉES.
• L'ETL EST LE CHOIX TRADITIONNEL ALORS QUE L'ELT EST PLUS ÉVOLUTIVE

27

Source : https://skyvia.com/blog/elt-vs-etl
4. ETL VS ELT

28

Source : https://skyvia.com/blog/elt-vs-etl
4. ETL VS ELT

29

Source : https://skyvia.com/blog/elt-vs-etl
COMPARAISO
N ETL ET ETL

30

Source : https://skyvia.com/blog/elt-vs-etl
5. Le Datawarehouse et les Datamart

Metadata Repository
Analyse

OLAP
Données semi
structurées Data Reporting
Extraction Warehouse
Transformation
Les Load

Data Mining

Base de données
opérationnelles
Data Marts

31
Sources de Entrepôt de OLAP Reporting
ETL
données données
5. 1 Le Datawarehouse

UN ENTREPÔT DE DONNÉES OU DATAWAREHOUSE EST UNE COLLECTION DE DONNÉES


(UNE BASE DE DONNÉES) INTÉGRÉE, ORIENTÉE SUJET, HISTORISÉE ET NON VOLATILE,
SUSCEPTIBLES D’APPUYER LE PROCESSUS DÉCISIONNEL DANS UNE ENTREPRISE OU
ORGANISATION

Orienté sujet: Les données stockées fournissent Intégré: Intégration de données provenant de
des informations sur un sujet particulier. multiples sources hétérogènes dans un format
cohérent

Propriétés d’un
Datawarehouse

Non Volatile: Les données ne devraient pas historisée: Les données historiques sont
changer. Le but d'un datawarehouse est de conservés dans un datawarehouse. Il est 32

permettre d'analyser ce qui s'est passé. possible de les récupérer à partir de 3, 6, 12


mois, ou encore plus anciennes 5 , 10 ans…
5.2 Les métadonnées

LES MÉTADONNÉES SONT LES INFORMATIONS RELATIVES À LA STRUCTURE DES DONNÉES, LES MÉTHODES D’AGRÉGATION ET LE
LIEN ENTRE LES DONNÉES OPÉRATIONNELLES ET CELLES DU DATAWAREHOUSE.

LES MÉTADONNÉES DOIVENT RENSEIGNER SUR :


• LE MODÈLE DE DONNÉES
• LA STRUCTURE DES DONNÉES TELLE QU’ELLE EST VUE PAR LES DÉVELOPPEURS
• LA STRUCTURE DES DONNÉES TELLE QU’ELLE EST VUE PAR LES UTILISATEURS
• LES SOURCES DES DONNÉES
• LES TRANSFORMATIONS NÉCESSAIRES
• SUIVI DES ALIMENTATIONS

33
5.3 les Datamarts

EN FRANÇAIS : MAGASIN DE DONNÉES

LES DATA MARTS SONT UN SOUS-ENSEMBLE DU DATAWAREHOUSE OU SE PRODUIT LA


PLUPART DES ACTIVITÉS D'ANALYSE DE L'ENVIRONNEMENT BI.
LES DONNÉES DE CHAQUE DATA MART SONT GÉNÉRALEMENT ADAPTÉES POUR UNE
CAPACITÉ OU UNE FONCTION PARTICULIÈRE (L'ANALYSE DE LA RENTABILITÉ DES PRODUITS,
L’ANALYSE DÉMOGRAPHIQUE DE LA CLIENTÈLE, ...)
CHAQUE DATA MART SPÉCIFIQUE N'EST PAS NÉCESSAIREMENT VALABLE POUR D'AUTRES
USAGES

34
5. Le Datawarehouse et les Datamart

DATAWAREHOUSE VS DATAMART
Datawarehouse Data mart

Est défini à l’échelle de l’entreprise Est défini à l’échelle départemental


Contient plusieurs domaines Contient souvent un seul domaine
Contient des informations très détaillées Peut contenir des données plus résumées

Intègre toutes les sources de données Intègre les informations à partir d'un sujet donné ou
d’un ensemble de systèmes sources

35
5. les approches de conception d’un projet
d’entrepôt de données

DEUX PIONNIERS DES DATA WAREHOUSES, BILL INMON ET RALPH KIMBALL, PROPOSENT DEUX APPROCHES
DIFFÉRENTES DE LA CONCEPTION DE CES ENTREPÔTS DE DONNÉES.

• L’APPROCHE DE RALPH KIMBALL A MIS EN AVANCE L’IMPORTANCE DES DATA MARTS, DES DÉPÔTS DE
DONNES APPARTENANT À DES SECTEURS D’ACTIVITÉ PARTICULIERS. LE DATA WAREHOUSE EST SIMPLEMENT
UNE COMBINAISON DE DIFFÉRENTS DATA MARTS QUI FACILITE LE REPORTING ET L’ANALYSE. CETTE
CONCEPTION DE KIMBALL CORRESPOND À L’APPROCHE ASCENDANTE (« BOTTOM-UP »).

• BILL INMON CONSIDÉRAIT LUI LE DATA WAREHOUSE COMME LE DÉPÔT CENTRALISÉ DE TOUTES LES
DONNÉES DE L’ENTREPRISE. DANS CETTE APPROCHE, UNE ORGANISATION CRÉE D’ABORD UN MODÈLE DE
DATA WAREHOUSE NORMALISÉ. LES DATA MARTS DES DIFFÉRENTS SECTEURS SONT ENSUITE CRÉÉS SUR LA
BASE DU MODÈLE DE L’ENTREPÔT. C’EST CE QU’ON APPELLE UNE APPROCHE DESCENDANTE (OU « TOP-
36
DOWN ») DE L’ENTREPOSAGE DES DONNÉES.
5. les approches de conception d’un projet
d’entrepôt de données

37

Source: https://bennyaustin.com/2010/05/02/kimball-and-inmon-dw-models/
5. les approches de conception d’un projet
d’entrepôt de données

38

Source: https://cdn.ttgtmedia.com/rms/enterpriseApplications/Pros%20and%20Cons%20of%20Both%20Approaches.png
5. Le Datawarehouse et les Data Lakes

• DATA LAKE EST UNE BANQUE DE STOCKAGE SERVANT À CONTENIR UNE IMMENSE
QUANTITÉ DE DONNÉES BRUTES DANS LEUR FORMAT D’ORIGINE JUSQU’À CE QUE
L’ENTREPRISE EN AIT BESOIN.
Data lake Data warehouse
Structure des données Brutes Traitées/transformées
Objet des données À déterminer En service
Utilisateurs Data scientists Spécialistes
Modifications plus complexes et
Accessibilité Accès facile, mises à jour rapides
plus coûteuses

39
CHAPITRE 3 : CONCEPTION D’UN DATAWAREHOUSE

1. La modélisation Multidimensionnelle (les dimenions, les Faits)


2. Le schéma en étoile
3. Le Schéma en flocon de neige
4. Le schéma en constellation
5. les approches de conception d’un projet d’entrepôt de données

40
1. La modélisation Multidimensionnelle

Schéma Multidimentiel
SCHÉMA RELATIONNEL –
Fait/Dimension
ENTITÉ/RELATION

41
1. La modélisation Multidimensionnelle

MODÉLISATION MULTIDIMENSIONNELLE

TABLE DE FAIT:
LA TABLE DE FAITS CONTIENT LES MESURES ET LES INDICATEURS QUANTITATIVES QUI
PERMETTENT LE BON SUIVI DES ACTIVITÉS ET PROCESS.

TABLE DE DIMENSION:
LES TABLES DE DIMENSION REPRÉSENTENT LES DIFFÉRENTS AXES D’ANALYSES DES
INDICATEURS DE LA TABLE DE FAIT. ELLES CONTIENNENT DES ATTRIBUTS (CHAMPS)
AVEC LESQUELS LES MESURES SONT CALCULÉ DANS LA TABLE DE FAITS. 42
1. La modélisation Multidimensionnelle

TABLE DE FAIT Table de Fait Vente

LES TABLES DE FAITS SONT DES COLLECTIONS DE MESURES ASSOCIÉES À UN


Clé période
PROCESSUS MÉTIER SPÉCIFIQUE. LES MESURES SONT STOCKÉS DANS LES Clé client
COLONNES. Clé produit
Clé magasin

GRANULARITÉ: Quantité
Chiffre_Affaires
LE GRAIN DÉTERMINE LE NIVEAU DE DÉTAIL DE LA MESURE DE TABLE DE FAITS.
LE PLUS PETIT NIVEAU DE GRANULARITÉ EST MEILLEUR POUR L’ANALYSE CAR IL
PERMET L’ACCÈS À L’INFORMATION DÉTAILLÉE. TOUTEFOIS, IL N’EST PAS
OPTIMAL POUR LE STOCKAGE NI LA PERFORMANCE DES ANALYSES.
43
1. La modélisation Multidimensionnelle

TABLE DE DIMENSION

LES DIMENSIONS REGROUPENT UN NOMBRE D’ATTRIBUTS PERMETTANT DE


Dimension Produit
CARACTÉRISER LA DIMENSION ET PEUVENT S’IDENTIFIER PAR LA MÊME CLÉ.
Clé produit
ID produit
ATTRIBUT Nom produit
Groupe
UNE COLONNE/CHAMPS DE LA TABLE DE DIMENSION Marque
Unité
Conditionnement

HIÉRARCHIE
LES HIÉRARCHIES SONT REPRÉSENTÉES PAR DES RELATIONS DE GROUPEMENT 44
1. La modélisation Multidimensionnelle

UNE TABLE DE DIMENSION PEUT CONTENIR:

• UNE CLÉ NON SIGNIFICATIVE ÉTABLISSANT UN LIEN AVEC LES LIGNES DE LA TABLE DE
FAITS
• UNE CLÉ SIGNIFICATIVE REPRISE D’UNE SOURCE DE DONNÉES OPÉRATIONNELLE OU
EXTERNE
Dimension Produit
Clé non significative
Clé produit
Clé significative
ID produit
Nom produit Attributs
Groupe 45
Marque
Unité
Conditionnement
1. La modélisation Multidimensionnelle

SLOWLY CHANGING DIMENSION (SCD) / DIMENSION À VARIATION LENTE

IL EXISTE 3 PRINCIPAUX TYPES


• TYPE 1: REMPLACER LES ANCIENNES DONNÉES PAR LES NOUVELLES (PERTE DES DONNÉES
HISTORIQUES)

• TYPE 2: CRÉER UNE NOUVELLE LIGNE DE TABLE DE DIMENSION CHAQUE FOIS QUE L'OBJET DE
DIMENSION CHANGE, AVEC TOUTES LES CARACTÉRISTIQUES DE LA DIMENSION AU MOMENT
DU CHANGEMENT.
• APPROCHE LA PLUS COURANTE

• TYPE 3: POUR CHAQUE ATTRIBUT CHANGEANT, CRÉER UN CHAMP DE VALEUR COURANT46ET


PLUSIEURS CHAMPS D'ANCIENNE VALEUR (PLUSIEURS VALEURS)
1. La modélisation Multidimensionnelle

SLOWLY CHANGING DIMENSION


(SCD) / DIMENSION À VARIATION
LENTE

47
1. La modélisation Multidimensionnelle

IL EXISTE 3 TYPES DE SCHÉMAS:


SCHÉMA EN ÉTOILE
UNE TABLE DE FAITS AU MILIEU DU SCHÉMA EST CONNECTÉE À UN ENSEMBLE DE
TABLES DE DIMENSIONS
SCHÉMA FLOCON DE NEIGE (SNOWFLAKE)
UN RAFFINEMENT DU SCHÉMA EN ÉTOILE OÙ DES TABLES DE DIMENSIONS SONT
DÉCOMPOSÉES
CONSTELLATION DE FAITS
PLUSIEURS TABLES DE FAITS PARTAGENT DES TABLES DE DIMENSION
(CONSTELLATION D’ÉTOILES) 48
2. Schéma en étoile

DÉFINITION SCHÉMA EN ÉTOILE:


UN SCHÉMA EN ÉTOILE CONTIENT UNE
SEULE TABLE CENTRALE, APPELÉE UNE TABLE
DE FAITS, ENTOURÉ DE PLUSIEURS TABLES
APPELÉES DIMENSIONS.
UN DATAWAREHOUSE COUVRE PLUSIEURS
DOMAINES D'ACTIVITÉ ET SE COMPOSE DE
PLUSIEURS SCHÉMAS ÉTOILES ET/OU
FLOCON DE NEIGE.
49
2. Schéma en étoile
Dimension Client
Clé client
Dimension Période ID client
Clé période Nom client
Adresse
ID période Vente Sexe
Date Année naissance
Clé période Région
Jour
Semaine Clé client
Clé produit Dimension Produit
Dimension Magasin Clé magasin
Clé produit
Clé magasin Quantité
ID produit
Chiffre d’affaires Nom produit
ID magasin
Type magasin Groupe
Nom magasin Sum Marque
Région Group by Unité
Group by Conditionnement

Total du chiffre d’affaire


Groupé par commune
50
Groupé par marque
2. Schéma en étoile

• UNE (OU PLUSIEURS) TABLE(S) DE FAITS.


• PLUSIEURS TABLES DE DIMENSION DÉNORMALISÉES
• LES TABLES DE DIMENSION NE SONT JAMAIS RELIÉES ENTRE ELLES
Avantages :
Facilité de navigation
Nombre de jointures limité
Alimentation Simple

Inconvénient:
Redondance et duplication des données dans les dimensions
Saturation du stockage et performance dégradée des
requêtes 51
3. Schéma Flocon de neige

DÉFINITION SCHÉMA EN FLOCON DE NEIGE:

• LE SCHÉMA SNOWFLAKE (EN FLOCON) EST DÉRIVÉ DU SCHÉMA EN ÉTOILE


OÙ LES TABLES DE DIMENSIONS SONT NORMALISÉES

• LA TABLE DES FAITS RESTE INCHANGÉE

• LES DIMENSIONS SONT DÉCOMPOSÉES/ NORMALISÉES SELON UNE


HIÉRARCHIE 52
3. Schéma Flocon de neige

Jour Magasin
Clé jour Clé magasin Commune

Date jour ID magasin Clé commune


Type magasin ID commune
Vente
Nom magasin Nom commune
Période Clé période
Clé client
Clé période
Clé produit
ID période Clé magasin
Date Produit
Quantité
Chiffre_affaire Clé produit Marque
ID produit Clé marque
Semaine
Nom produit
Clé semaine ID marque
Unité
Nom marque
Date semaine Conditionnement
53
3. Schéma Flocon de neige

Avantages:
- Amélioration des performances de requête
- Réduction du stockage sur disque et de l'assemblage des tables

Inconvénients:
- Maintenance complexes en raison de
l'augmentation des hiérarchies entre dimensions
- Complexité des requêtes d’analyse

54
3. Schéma Flocon de neige

LE PASSAGE D’UN SCHÉMA EN ÉTOILE À UN SCHÉMA EN


FLOCON DE NEIGE:
MODÈLE EN FLOCONS DE NEIGE = MODÈLE EN ÉTOILE + NORMALISATION DES
DIMENSIONS

• La normalisation est le processus qui permet d’éviter les données redondantes dans
les bases de données.
• Cela implique de restructurer les tables pour atteindre successivement des formes
55
plus élevées de normalisation.
3. Schéma Flocon de neige : la normalisation

IL EXISTE UNE SÉQUENCE DES FORMES NORMALES:


1NF

• 1ÈRE FORME NORMALE(FN) EST CONSIDÉRÉ COMME LE PLUS


FAIBLE, 2NF

• 2ÈME FN EST PLUS FORT QUE 1ÈRE FN


• 3ÈME FN EST PLUS FORT QUE 2ÈME FN 3NF

Chaque niveau supérieur est un sous-


ensemble du niveau inférieur

56
3. Schéma Flocon de neige : la normalisation

PREMIÈRE FORME NORMALE


UNE RELATION EST EN PREMIÈRE FORME NORMALE SI ET SEULEMENT SI TOUT ATTRIBUT
CONTIENT UNE VALEUR ATOMIQUE.

EXEMPLE:
LIVRE(ID_LIVRE, AUTEURS)
→APPLICATION DE LA 1FN:
LIVRE(ID_LIVRE, AUTEUR)

57
3. Schéma Flocon de neige : la normalisation

DEUXIÈME FORME NORMALE


LES ATTRIBUTS NON CLÉ DÉPENDENT DE TOUTE LA CLÉ ET NON D'UNE PARTIE DE LA CLÉ

POUR QU'UNE TABLE SOIT EN 2NF, IL FAUT QUE:


• LA TABLE SOIT EN PREMIÈRE FORME NORMALE
58
• TOUS LES ATTRIBUTS NON CLÉS DE LA TABLE DOIVENT ÊTRE FONCTIONNELLEMENT DÉPENDANTS DE LA CLÉ
PRIMAIRE ENTIÈRE
3. Schéma Flocon de neige : la normalisation

TROISIÈME FORME NORMALE


CHAQUE ATTRIBUT DE LA RELATION NE DÉPEND QUE DE LA CLÉ ET PAS D'UN AUTRE ATTRIBUT DE LA RELATION

POUR QU'UNE TABLE SOIT EN 3NF, IL FAUT QUE:


• LA TABLE SOIT EN DEUXIÈME FORME NORMALE
59
• AUCUN ATTRIBUT NE DÉPEND DE MANIÈRE TRANSITOIRE DE LA CLÉ PRIMAIRE
3. Schéma Flocon de neige : la normalisation
Avant Dimension Date
Normalisation: Clé date

DIMENSION PARTICULIÈRE: DATE/TEMPS FullDate


DayOfweek
IsHoloday
• Type particulier de dimension Fiscal Week
• Dimension cruciale pour l’analyse Calendar Week
Fiscal Month
• Elle peut être hierarchisée en suivant les 3 FN comme suit: Calendar Month
………. Normalisation

DayOfWeek
Fiscal Year Fiscal Quarter Fiscal Month Fiscal Week
Après
Normalisation:
Date

Calendar Calendar Calendar Calendar


Year Quarter Month Week 60

IsHoliday
4. Le schéma en constellation

• FUSIONNE PLUSIEURS MODÈLES EN


ÉTOILE QUI UTILISENT DES
DIMENSIONS COMMUNES
• CONTIENT PLUSIEURS TABLE DE FAITS
ET DES DIMENSIONS COMMUNES OU
PAS

61
4. Le schéma en constellation

Exemple: Fait Livraison


Dimension Fournisseur
Clé période
Clé produit
Clé fournisseur
Quantité
Volume
Dimension Période Dimension Produit

Fait Vente
Clé période
Clé client
Clé produit
Dimension Magasin Clé magasin Dimension Client
Quantité
Chiffre d’affaires 62
TRAVAUX DIRIGÉES (TD)

63
CHAPITRE 4 : ANALYSES AVANCÉES DES
DONNÉES
1. Les outils OLAP (On Line Analysis Processing)
2. Les opérations OLAP et introduction du langage MDX
3. Les outils de restitutions : Tableaux de bord et rapports
4. Les analyses poussées avec du Datamining
5. L’apprentissage supervisé et non supervisé.

64
1. Les outils OLAP (On Line Analysis Processing)
Rappel architecture:

Metadata Repository
Analyse
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load

Data Mining

Base de données
Opérationnelles/ERP

Data Marts

65
Sources de Entrepôt de OLAP Reporting
données ETL
données
1. Les outils OLAP (On Line Analysis Processing)

Définition OLAP: online analytical processing

Olap effectue une analyse multidimensionnelle des données métier et fournit la possibilité pour les calculs complexes,
l'analyse des tendances et la modélisation des données.

Les systèmes OLAP doivent :

• Supporter les exigences complexes des décideurs en termes d'analyse,

• Analyser les données à partir de différentes perspectives (dimensions métiers)

• Supporter les analyses complexes impliquant des ensembles de données volumineux.


66
1. Les outils OLAP (On Line Analysis Processing)

OLTP - On-Line Transaction Processing

• Technologie utilisée pour effectuer les mises à jour sur les systèmes
opérationnels ou transactionnels

OLAP - On-Line Analytical Processing

• Technologie utilisée pour effectuer des analyses complexes des


données dans un entrepôt de données
67
1. Les outils OLAP (On Line Analysis Processing)

1. MOLAP (multidimensional OLAP)

MOLAP est la façon la plus courante de l'analyse OLAP. Dans MOLAP, les données sont stockées dans un cube multidimensionnel.

Molap est souvent utilisé dans le cadre d'une application datawarehouse.

2. ROLAP (relational OLAP)

Les données multidimensionnelles sont stockées dans une base de données relationnelle standard.

Elles sont organisées en schémas en forme d'étoiles ou de flocon

3. HOLAP (hybrid OLAP)

HOLAP combine les meilleures caractéristiques de MOLAP et ROLAP dans une architecture unique.

Holap tente de combler le fossé technologique des deux produits en permettant l'accès ou l'utilisation à la fois des base de
68
données multidimensionnelle et des bases de données de datawarehouse relationnelles.
1. Les outils OLAP (On Line Analysis Processing)

Un cube OLAP multidimensionnel est un hyper-cube où:


• Les axes ou dimensions sont définies par l'utilisateur
• Les points dans l'espace (cellules) contiennent des mesures calculées à partir de
formules plus ou moins complexes.
• Les opérateurs sur le cube sont algébriques (retournent un cube) et peuvent ainsi
être combinés
Mesure
Dimension

69
1. Les outils OLAP (On Line Analysis Processing)
Dimension Région

Dimension Date Fait Vente


Date
Clé date
Clé produit
Clé région

Région
Vente
Quantité
Dimension

Chiffre d’affaires

Dimension Produit

CUBE VS SCHÉMA EN ÉTOILE


70
2.1 Les opérations OLAP

Mesures et dimensions
JAN FE MAR AVR MAI
Mazda V
BMW
Mesure Fiat
Renault
Stockée dans les tables de faits
Vente Rabat
Exemple: montant des ventes
Tanger

Dimension
Oujda
Stockée dans les tables de dimensions
Exemple: produit, date, géographie Marrakech

71
2.1 Les opérations OLAP

1. Rotate
Rotation des axes du cube pour fournir une vue alternative des données
(Produit , Date) ➔ (Région , Produit)

MAZDA BMW RABAT TANGER


JAN 200 86 MAZDA 102 21
FEV 178 90 BMW 35 14

72
2.1 Les opérations OLAP

2. OPÉRATIONS : ROLL UP / DRILL DOWN

ROLL-UP
• REMONTER DANS LA HIÉRARCHIE DE LA DIMENSION SEMAINE ➔ MOIS

DRILL-DOWN
• DESCENDRE DANS LA HIÉRARCHIE DE LA DIMENSION MOIS ➔ SEMAINE

73
2.1 Les opérations OLAP

3. Opération : Slicing
• Extraction d’une tranche d’informations : Sélection d’une dimension pour passer a un
sous-cube
MAZDA BMW MAZDA
JAN 200 86 JAN 200
FEV 178 90 FEV 178

Ville

Mazda
JAN
FEb

74
2.1 Les opérations OLAP

4. OPÉRATION : DICE
EXTRACTION D’UN BLOC DE DONNÉES : SÉLECTION DE DEUX OU PLUSIEURS DIMENSIONS

75
2.2 Introduction au Langage MDX

DÉFINITION LANGAGE MDX:

• Le langage de requête d'un cube s'appelle le multidimensional expressions language (MDX).

• MDX a été adopté par une grande majorité de fournisseurs OLAP et est devenu la norme pour les
systèmes OLAP

76
2.2 Introduction au Langage MDX

SYNTAXE
SELECT Requête MDX

{ [MEASURES].[SALES AMOUNT], Clause FROM : Sélectionne un cube


Clause SELECT : Définit les axes
[MEASURES].[TAX AMOUNT] } ON COLUMNS,
Clause WHERE : Définit un slice
{ [DATE].[FISCAL].[FISCAL YEAR].&[2002],
[DATE].[FISCAL].[FISCAL YEAR].&[2003] } ON
ROWS
FROM [ADVENTURE WORKS]
WHERE ( [SALES TERRITORY].[SOUTHWEST] )
77
2.2 Introduction au Langage MDX

MDX VS DAX
• DAX a été initialement conçu pour les modèles de données tabulaires.
• Il existe des mappages intéressants et utiles, et des contraintes, qui doivent être compris lors de
l’utilisation de dax sur des modèles multidimensionnels
• DAX n’est pas un sous-ensemble de MDX. DAX a été initialement conçu pour être similaire au
langage de formule Excel.
• Certaines fonctions DAX, ne sont pas applicables dans la modélisation multidimensionnelle

78
3. Les outils de restitutions
Rappel architecture:

Metadata Repository
Tableaux de bord
Data
Warehouse
OLAP
Données semi
structures/Fichie Reporting
rs Excel.. Extraction
Transformation
Les Load

Data Mining
Base de données
Opérationnelles/ERP

Data Marts

79
Sources de Entrepôt de OLAP Reporting
données ETL
données
3. Les outils de restitutions

RAPPEL : KEY PERFORMANCE INDICATORS - KPI

• Les indicateurs clés de performance (KPI) définissent un ensemble de chiffres clés


utilisés pour mesurer par rapport à une cible, à un benchmark ou à une date.
• Les indicateurs de performance clés sont utilisés en business intelligence pour
évaluer l’état actuel de l’activité, évaluer la performance stratégique et prescrire
un plan d’action.
• Les kpi sont exploité souvent dans des rapports et des tableaux de bord

80
3. 1 Les outils de restitutions: Reporting
DÉFINITION REPORTING:
• le reporting consiste à collecter des données à partir de différentes sources et les présenter de manière
compréhensible afin qu’elles soient prêtes à être analysées.
• Dans une certaine mesure, le reporting consiste aussi à présenter des données et des informations, de
sorte qu’il inclut également une analyse, c’est-à-dire que l’audience finale puisse à la fois voir et
comprendre les données, et surtout prendre des décisions d’action en conséquence.

81
3. 1 Les outils de restitutions: Reporting
LES DIFFÉRENTS TYPES DE REPORTING :

• Reporting stratégique:
Il s’agit ici de Reporting axés sur le suivi des stratégies à long terme de
l’entreprise, qui analysent et comparent un large éventail d’informations
critiques, basées sur les tendances.
• Reporting tactique :
C’est un reporting riche en informations, adaptés aux cadres intermédiaires,
qui les aident à formuler des stratégies de croissance basées sur les
tendances, ainsi que les forces et les faiblesses des équipes.
• Reporting opérationnel:
Il s’agit là d’un reporting qui permet de surveiller, mesurer et gérer des
processus ou des opérations avec une échelle de temps plus courte.
• Reporting analytique:
Ce reporting particulier contiennent de nombreuses sources de données qui
permettent aux analystes d’explorer et d’extraire des informations pour
aider l’entreprise à découvrir de nouveaux gisements de valeur.
82
3.2 Les outils de restitutions: tableaux de bord
DÉFINITION TABLEAU DE BORD:
Un tableaux de bord fournit des affichages visuels d'informations importantes consolidées et
organisées sur un seul écran, de sorte que les informations puissent être visualisées d'un seul
coup d'œil et facilement explorées.

83
3.2 Les outils de restitutions: tableaux de bord
CARACTÉRISTIQUES D’UN TABLEAU DE BORD:

• Utilise des composants visuels (graphiques, barres de


performance, jauges, compteurs, …) pour mettre en
évidence, en un coup d'œil, les données et les exceptions
qui nécessitent une intervention
• Est transparent pour l'utilisateur, ce qui signifie qu'il
nécessite une formation minimale et qu'il est extrêmement
facile à utiliser
• Combine les données de divers systèmes en une vue
unique, résumée et unifiée de l'entreprise
• Activer l'analyse ou l'accès au détail aux sources de
données sous-jacentes ou aux rapports
• Présente une vue dynamique du monde réel avec des
84
mises à jour de données rapides
4. Les analyses poussées avec du Datamining

Le data mining est la pratique de la recherche automatique dans les grands magasins de données pour découvrir
les modèles et les tendances qui vont au-delà de l’analyse simple. L'exploration de données utilise des techniques
de statistiques et des algorithmes mathématiques sophistiqués pour segmenter les données et pour évaluer la
probabilité d'événements futurs.

Les propriétés clés de l'exploration de données sont :


• Découverte automatique des modèles
• Prévision de résultats probables

• Création d'informations décisionnelles


• Concentration sur les grands ensembles de données et les bases de données

85
4. Les analyses poussées avec du Datamining

KNOWLEDGE
DATA
DISCOVERY
PROCESS

86
4. Les analyses poussées avec du Datamining

Datawarehouse VS datamining

• L'analyse multidimensionnelle consiste à modéliser des données selon plusieurs axes:


datawarehouse

• L'analyse prédictive exploite un ensemble d'événements observés et historisés afin de prévoir


l'évolution d'une activité datamining

87
5. L’apprentissage supervisé et non supervisé

88
https://www.datalyticsbusiness.ca/intelligence-artificielle-vs-science-des-donnees/
TRAVAUX PRATIQUES

89
TP BASES DE DONNÉES
DÉCISIONNELLES
ARCHITECTURE DU SYSTÈME DÉCISIONNEL
OBJECTIF DES TPS
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW

Reporting

Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles

91
TP1 : CRÉATION DU DATAWAREHOUSE

Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW

Reporting

Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles

92
TP1 : CRÉATION DU DATAWAREHOUSE

93
TP2 : CRÉATION D’UN PROCESSUS ETL POUR L’ALIMENTATION
DE LA DIMENSION PRODUCT/CUSTOMER/DATE

Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW

Reporting

Extraction Dim_Produit OLAP


Transformation
Base de données Load Exploration
opérationnelles

94
TP3 : CRÉATION DU PROCESSUS ETL POUR L’ALIMENTATION DE
LA TABLE DE FAIT
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW

Reporting

Extraction Dim_Produit OLAP


Transformation
Base de données Load Exploration
opérationnelles

95
TP5 : L’EXPLORATION DES DONNÉES DANS UN CUBE
OLAP
Data Analyse
Warehouse
AdventureWorks
(OLTP)
Exploitation
LightAdventureWorksDW

Reporting

Extraction OLAP
Transformation
Base de données Load Exploration
opérationnelles

96
PROJET DE FIN DU MODULE

Vous aimerez peut-être aussi