Vous êtes sur la page 1sur 47

BI

Dr. BOUKIL
Info5 UPF 2022-2023
BOUKIL-naoual@upf.ac.ma

1
Objectifs de ce cours:

§ Compréhension des raisons justifiant le recours à des solutions


OLAP (On Line Analytical Process)

§ Maîtrise des concepts et principes de base d’un Data Warehouse

§ Assimilation du rôle des composants de l’architecture d’un Data


Warehouse

§ Modélisation d’un Data Warehouse

§ Mise en œuvre d’un Data Warehouse

§ Compréhension des concepts de Data Mining


2
Plan

u Module 1: Notions et concepts de base d’un Système


d’Information (S.I.) de pilotage
u Module 2: Data warehouse: définition et objectifs
u Module 3: Description de la structure d’un Data warehouse
u Module 4: Architectures OLAP (On Line Analytical Processing)
u Module 5: Administration des données
u Module 6: Démarche de mise en oeuvre
u Module 7: Datamining

3
Module 1
Notions et concepts de base d’un S.I. de pilotage

o Données brutes et informations d’entreprise


o Pilotage
o Objectifs d’un Système d’Information de Pilotage
o Applications transactionnelles
o Applications décisionnelles
o Infocentre Relationnel

4
Système d’Information décisionnel
Le système d'information décisionnel
est un ensemble de données organisées de façon spécifique,
facilement accessibles et appropriées à la prise de décision. La
finalité d'un système décisionnel est le pilotage de l'entreprise. Le
principal intérêt d'un système décisionnel est d'offrir au décideur
une vision transversale de l'entreprise intégrant toutes ses
dimensions.

5
Problématique
Grande masse de données
◦ Distribuée
◦ Hétérogène
◦ Très Détaillée

Traitements
◦ Synthétiser / Résumer
◦ Visualiser
◦ Analyser

Utilisation par
◦ des experts et des analystes d'un métier
◦ non informaticiens
◦ non statisticiens
6
Données brutes et informations d’entreprise
Capture de données brutes
◦ Collecte de données enregistrées au cours des opérations quotidiennes

Extraction d'informations d'entreprise


◦ Extraction d'informations pertinentes à partir de données brutes

Conversion de données en informations


◦ Implémentation d'un système d'aide à la prise de décision

7
Des données …de l’Information

?
Comment?
Base de données de production
Tableaux de Bord:l’information
8
Objectifs des entreprises

•Anticiper les changements


•Accroître sa force de réactivité
•Avoir une information analysée sous différents angles
•Offrir au décideur une vision transversale de l’entreprise intégrant
toutes les dimensions
•Rassembler et homogénéiser les données afin de permettre
d’analyser les indicateurs pertinents pour faciliter les prises de
décisions

9
Pilotage
STRATEGIE DECIDER
Objectifs CONTROLER
Plan PREVOIR
Budget ANTICIPER

ACTIONS

PERFORMANCE

Mesure des Résultats 10


Caractéristiques d’un S.I. de pilotage
Un système de pilotage implique

•un projet stratégique


•un modèle de données spécifique
•une infrastructure d’alimentation spécifique
•une indépendance conceptuelle des applications de production
•une dépendance physique des applications de production pour
l’alimentation
•une analyse orientée métier

11
Informations de pilotage
L’information est constituée :
ü d’une source principale (systèmes de production)
ü de sources externes (20%)
Pilotage à l’aide de tableaux de bord
Tableau de bord: c’est un instrument de mesure de la performance qui doit
fournir une mesure personnalisée et adaptée
Indicateur: c’est une donnée objective qui décrit un élément d’un strict
point de vue quantitatif, contribuant à l’appréciation d’une situation par le
décideur
caractéristiques d’un indicateur: représentatif, réelle utilité, facile à mettre
en œuvre, juste, exact, fiable

12
Applications transactionnelles
On Line Transactional Processing OLTP

Caractéristiques d'un système OLTP


ØIltraite en temps réel les transactions d'une entreprise
(beaucoup de mouvements, informations détaillées)
ØIl
contient des structures de données optimisées pour les
entrées et les modifications
ØIl fournit des fonctionnalités limitées d'aide à la décision
Exemples de système OLTP
§ Suivi de commandes
§ Service clientèle
§ Point de ventes
§ Fonctions bancaires
13
Applications transactionnelles

Concepts: forme normale, clé primaire, clé étrangère, contrainte


d’intégrité référentielle, contraintes d’intégrité fonctionnelle

ü Informations dans les bases de données relationnelles


ü Mises à jour en ligne
ü Conception orientée processus
ü Seul point d’entrée du système: ensemble des transactions

Effort: développement des interfaces

14
Applications décisionnelles
On Line Analytical Processing OLAP

Caractéristiques d'un système OLAP


ØIl traite des requêtes à plusieurs niveaux d’agrégation
ØIl
traite beaucoup d’informations mais des informations
synthétiques
Exemples de système OLAP
Systèmes de pilotage d'entreprise Applications financières
Mesures des performances Rapports
Rapports sur les exceptions Prévisions
Applications de vente et de marketing Applications opérationnelles
Réservation/facturation Fabrication
Analyse de produit Service clientèle
Analyse de la clientèle Coût des produits
15
Applications décisionnelles

Concepts: agrégats, données consolidées

ü Représentation cubique
ü Suivi des indicateurs, notion d’alerte
ü Conception orientée métier

Effort: extraction des données, montage des graphiques

16
Infocentre Relationnel

Objectif: Ne pas pénaliser les applications opérationnelles par des


requêtes décisionnelles
Création d’une base dédiée aux requêtes
Duplication des données de production
Données actuelles et volatiles
Plusieurs utilisateurs attaquent la même base de données
Les utilisateurs ne travaillent pas sur les historiques

Apparition de requêteurs, de générateurs d’états

17
Infocentre
Infocentre relationnel

Base de Données

Gros
Systèmes

Utilisateurs: PC Indépendants

18
Infocentre relationnel
•Base de données locale: Base de donnée située sur le poste client,
contenant des données propres à l’utilisateur, voire des données
partagées répliquées.

•Batch: Dans les outils d’infocentre, le batch permet d’envoyer des


requêtes lourdes aux heures creuses, voire à planifier l’exécution des
requêtes

•Catalogue: Dans certains outils d’infocentre, c’est la structure


permettant à l’utilisateur de travailler sur une vue logique et orientée
métier des données qu’il souhaite visualiser.

•Infocentre: Ensemble d’outils logiciels permettant à des utilisateurs


non-informaticiens d’accéder et de traiter directement les données
qui les intéressent.
19
Module 2
Data warehouse: définition et objectifs

u Présentation du Datawarehousing
u Description des composants d’un Data warehouse
u Définition des solutions OLAP

20
Le contexte
Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager des informations
qualitatives nouvelles

Qui sont mes Pourquoi et


meilleurs comment le
clients? chiffre d’affaire
a baissé?

Quelles régions A combien


consomment s’élèvent mes
beaucoup de ventes
poisson? journalières?

21
Les données utilisables par les décideurs
Données opérationnelles (de production)
◦ Bases de données (Oracle, SQL Server)
◦ Fichiers, …
◦ Paye, gestion des RH, gestion des commandes…

Caractéristiques de ces données:


◦ Distribuées: systèmes éparpillés
◦ Hétérogènes: systèmes et structures de données différents
◦ Détaillées: organisation des données selon les processus fonctionnels,
données surabondantes pour l’analyse
◦ Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le
système transactionnel
◦ Volatiles: pas d’historisation systématique

22
Problématique
Comment répondre aux demandes des décideurs?
◦ En donnant un accès rapide et simple à l’information stratégique
◦ En donnant du sens aux données

Mettre en place un système d’information dédié aux


applications décisionnelles:
un data warehouse

23
Le processus de prise de
décision
Champs d’application des
systèmes décisionnels

Définir le Rassembler Analyser les Établir des Décider


problème les données données solutions

Temps de prise d’une décision

24
Le processus de prise de
décision

Prise de
décision

Bases de Data Base multi - Prédiction /


production warehouse dimensionnelle simulation

25
Domaines d’utilisation des DW
Banque
◦ Risques d’un prêt, prime plus précise
Santé
◦ Épidémiologie
◦ Risque alimentaire
Commerce
◦ Ciblage de clientèle
◦ Déterminer des promotions
Logistique
◦ Adéquation demande/production
Assurance
◦ Risque lié à un contrat d’assurance (voiture)

26
Quelques métiers du
décisionnel
Strategic Performance Management
◦ Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
◦ Planifier, analyser et diffuser l’information financière. Mesurer et gérer les
risques
Human Capital Management (gestion de la relation avec les employés)
◦ Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
◦ Améliorer la connaissance client, identifier et prévoir la rentabilité client,
accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
◦ Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
stratégie Achat.
27
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de données orientées sujet, intégrées,
non volatiles et historisées, organisées pour le support d’un processus d’aide à la
décision »

Principe: mettre en place une base de données utilisée à des fins d’analyse

28
Les 4 caractéristiques des data
warehouse
1. Données orientées sujet:
◦ Regroupe les informations des différents métiers
◦ Ne tiens pas compte de l’organisation fonctionnelle des
données

Ass. Vie Ass. Auto Ass. Santé

Client
Police

29
Les 4 caractéristiques des data
warehouse
2. Données intégrées:
◦ Normalisation des données
◦ Définition d’un référentiel unique

h,f

1,0 h,f

homme, femme
GBP
EUR
CHF

USD
30
Les 4 caractéristiques des data
warehousec
3. Données non volatiles
◦ Traçabilité des informations et des décisions prises
◦ Copie des données de production

Bases de production Entrepôts de données

Ajout
Suppression

Accès
Modification Chargement

31
Les 4 caractéristiques des data
warehouse
4. Données datées
◦ Les données persistent dans le temps
◦ Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Répertoire Répertoire
Base de Nom Ville Nom Ville
production
Dupont Paris Dupont Marseille
Durand Lyon Durand Lyon

Calendrier Répertoire
Entrepôt Code Année Mois
Code Année Mois
de
1 2005 Mai 1 Dupont Paris
données
2 2006 Juillet 1 Durand Lyon
2 Dupont Marseille 32
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle

H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing Q
U
E
33
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long

34
Datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de
l’entreprise
Point de vue spécifique selon des critères métiers

Datamarts du
service Marketing

Datamart du
DW de l’entreprise service Ressources
Humaines
35
Intérêt des datamart
Nouvel environnement structuré et formaté en fonction des besoins d’un métier
ou d’un usage particulier
Moins de données que DW
◦ Plus facile à comprendre, à manipuler
◦ Amélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définir

36
Module 3
Description de la structure d’un Data warehouse
u Modélisation d’un Data warehouse
uModélisation relationnelle
uAdaptation du modèle relationnel
uModélisation multidimensionnelle
u Modèle en étoile
u Modèle en flocon
u Description des modèles OLAP
u Notions fondamentales sur les cubes OLAP
37
Modélisation relationnelle
Diagrammes Entités-Relations (E/R)
◦ permettent aux concepteurs de représenter visuellement la structure
et le contexte de la base de données

◦ représentent des:
◦ Entités (nom, attributs, clé primaire)

◦ Relations entre les entités (base des jointures utilisées entre les tables)

◦ Cardinalités des relations (un à un, un à plusieurs, plusieurs à plusieurs,


zéro à un)

38
Exemple Diagramme E/R

39
Modélisation relationnelle
Normalisation: ensemble de règles de conception de bases de
données relationnelles. Elle apporte les avantages suivants:
◦ élimination des doublons d’informations dans les tables
◦ gestion efficace des modifications apportées aux structures de tables

Les Formes Normales (FN)


◦ Première Forme Normale (1 FN): les tables sont bidimensionnelles, une seule
valeur par cellule de données
◦ Deuxième Forme Normale (2 FN): les colonnes (attributs) non-clé doivent
dépendre intégralement de la clé primaire
◦ Troisième Forme Normale (3 FN): les attributs ne dépendent pas des autres
attributs présents dans cette table, ni dans aucune autre

40
Exemple de normalisation
Initial 1 FN 2 FN 3 FN

Commande
Achats Commande Commande Clé-BC
Clé-BC Date-BC
Clé-BC Clé-BC
Date-BC Clé-Fourn.(CE)
Date-BC Date-BC
Clé-Fourn. Clé-Fourn. Clé-Fourn.
Nom-Fourn. Nom-Fourn. Nom-Fourn. Fournisseur
Clé-Pièce Clé-Fourn.
QT-Pièce Nom-Fourn.
Desc-Pièce
BC-Pièce
BC-Pièce
BC-Pièce Clé-BC(CE) Clé-BC(CE)
Clé-Pièce(CE) Clé-Pièce(CE)
Clé-BC (CE) QT-Pièce QT-Pièce
Clé-Pièce Pièce
QT-Pièce
Desc-Pièce Clé-Pièce Pièce
Desc-Pièce Clé-Pièce
Desc-Pièce
41
Modélisation d’un
datawarehouse
Les techniques classiques doivent-elles être

◦ conservées telles quelles?

◦ adaptées au contexte décisionnel?

◦ totalement repensées?

42
Architecture générale
Zone de
Zone de préparation Zone de stockage présentation
E
X
C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
T Standardisation Visualisation
E
I … Data Mining
M
O …
E
N
N
Sources de Datamart
T
données

43
Les flux de données
Flux entrant
◦ Extraction: multi-source, hétérogène
◦ Transformation: filtrer, trier, homogénéiser, nettoyer
◦ Chargement: insertion des données dans l’entrepôt

Flux sortant:
◦ Mise à disposition des données pour les utilisateurs finaux

44
Les différentes zones de
l’architecture
Zone de préparation (Staging area)
◦ Zone temporaire de stockage des données extraites
◦ Réalisation des transformations avant l’insertion dans le DW:
◦ Nettoyage
◦ Normalisation…
◦ Données souvent détruites après chargement dans le DW
Zone de stockage (DW, DM)
◦ On y transfère les données nettoyées
◦ Stockage permanent des données
Zone de présentation
◦ Donne accès aux données contenues dans le DW
◦ Peut contenir des outils d’analyse programmés:
◦ Rapports
◦ Requêtes…
45
Modélisation
Entité/Association
Avantages:
◦ Normalisation:
◦ Éliminer les redondances
◦ Préserver la cohérence des données
◦ Optimisation des transactions
◦ Réduction de l’espace de stockage

Inconvénients pour un utilisateur final:


◦ Schéma très/trop complet:
◦ Contient des tables/champs inutiles pour l’analyse
◦ Pas d’interface graphique capable de rendre utilisable le modèle E/A
◦ Inadapté pour l’analyse

46
Exemple
Transporteur Mode
d’expédition
Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin

Région de Famille de
Employé ventes produits
Stock
Division
Fonction Fournisseurs de ventes
47

Vous aimerez peut-être aussi