Vous êtes sur la page 1sur 67

Chapitre1

Business Intelligence
Introduction

1
Plan
• Définitions & Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles 2
Définitions
• Business Intelligence : L’informatique
décisionnelle
• Processus technologique qui:
– Analyse les données
– Présente des informations exploitables par les
dirigeants, les cadres commerciaux, …
 Prendre les bonnes (ou meilleures) décisions

3
Définitions
• Outils
• Applications
• Méthodologies

• Collecter
• Préparer
• Prendre des décisions

4
Problématique: Contexte
• Besoin ?
• Pourquoi ?
• Qui ?
• Comment ?

5
Problématique: Contexte
• Besoin: Prise de décision stratégique
• Pourquoi: Besoin de réactivité
• Qui: Utilisé par les décideurs et analystes
• Comment: répondre aux demandes d’analyse
des données, dégager des informations
qualitatives nouvelles

6
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre d’affaire
clients?
a baissé?

A combien
Quels Tunisens
s’élèvent mes
consomment
ventes
beaucoup de
journalières?
poisson?

7
Datawarehouse: Définition
• Base de Données dédiée au stockage de
Données
• Alimentée depuis une Base de production
• Grace aux outils ETL: Extract Transform Load

8
Besoin des entreprises
• accéder à toutes les données de l’entreprise
• regrouper les informations disséminées
• Analyser et prendre des décisions rapidement

Règle d’or
Construire un DWH à partir des besoins des
clients et non pas à partir des Données!

9
Exemples d'applications concernées
• Grande distribution : marketing, maintenance, ...
– produits à succès, modes, habitudes d’achat
– préférences par secteurs géographiques
• Bancaire : suivi des clients, gestion de
portefeuilles
– mailing ciblés pour le marketing
• Télécommunications : pannes, fraudes,
mobiles, ...
– classification des clients, détection fraudes, fuites de
clients

10
Objectifs décisionnels
1. Historisation:
Conserver : ne pas effacer
2. Centralisation:
Achats
Ventes
RH
DWH

3. Analyser:
mieux comprendre ce qui se passe
11
12
Les étapes
1. Préparation: ETL (Extract Transform Load)
– Extraction
– Nettoyage
– Stockage
• Archivage (format CSV)
• Historisation (Comparer avec les chiffres de l’année
dernière)

13
Métaphore du restaurant:

En cuisine: Préparer, transformer


Caractéristiques: Rigueur et constance

14
2. Présentation:
– Analyse
– Reporting

Métaphore du restaurant:

A la salle à manger: Consommer


Caractéristiques: Beau et bon!

15
Le décisionnel
1. Mesurer :
– Température
– Temps
– Distance
2. Les dimensions (les attributs):
– Quand? Où?

16
3. Faits (fact)
Exemple : Les ventes

Table de faits: Ventes


Date Magasin Pdt Quantité PU
D1 M1 X 3 10
D2 M2 Y 25 2.5

17
Problématique1
• Les dimensions ont des attributs!
La date D1:
– Date
– Jour
– Jour de la semaine
– Mois
– Trimestre
– Année

18
Problématique2
• Les dimensions sont réutilisables!
On retrouve les mêmes produits :
– Achats
– Ventes
– Inventaire

"Les Données se conjuguent au pluriel"  


19
Les données utilisables par les décideurs
• Données opérationnelles (de production)
– Bases de données (Oracle, SQL Server)
– Fichiers, …
– Paye, gestion des RH, gestion des commandes…

• Caractéristiques de ces données:


– Distribuées: systèmes éparpillés
– Hétérogènes: systèmes et structures de données différents
– Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
– Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer
le système transactionnel
– Volatiles: pas d’historisation systématique
20
Stockage
• orientation analyse
Production • non-volatiles
• orientation service • historisées
(ventes, comptabilité, • agrégats
marketing…)
• volatiles 21
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles 22
Définitions – Vocabulaire (à ordonner)
• ODS (Operating Data Store)
– Lieu où vont être effectuées les transformations, les croisements, etc. C’est l’étape juste avant
l’alimentation du Datawarehouse et il utilise, comme source la Staging Area.
– Le modèle de données de l'ODS est un modèle relationnel classique assez proche des modèles
de production
– Ce « sas » assure l'isolation des mondes "opérationnel" et "décisionnel" (performances,
exploitabilité...)

• Infocentre = Base de données dédiée à l’analyse d’une application


 A l’origine des “copies” de base de production

• Staging Area : Espace de stockage temporaire des données provenant des différentes sources. C’est
un lieu où l’on va pouvoir stocker des données qui arrivent à des moments différents. C’est une
zone d’attente, une “salle d’embarquement”.
• Data Mart : Entrepôt de données dédié à un métier particulier. Il est situé en aval du
Datawarehouse

• Datawarehouse = Entrepôt de données, destiné à centraliser, nettoyer, et uniformiser les données


de l’entreprise à des fins de reporting et d’analyse. Il stocke l’historique des données avec la
granularité la plus fine,
Les données utilisables par les décideurs
L’état de l’art du décisionnel

25
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
26
Définition d’un DW
• W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »

• Principe: mettre en place une base de données


utilisée à des fins d’analyse

27
Les 4 caractéristiques des data warehouse

1. Données orientées sujet:


– Regroupe les informations des différents métiers
– Ne tiens pas compte de l’organisation fonctionnelle des
données

Comptabilité Ventes Marketing

Clients

28
Les 4 caractéristiques des data warehouse

2. Données intégrées:
– Normalisation des données
– Définition d’un référentiel unique

h,f

1,0 h,f

homme, femme

29
Les 4 caractéristiques des data warehouse

3. Données non volatiles


– Traçabilité des informations et des décisions prises
– Copie des données de production

Bases de production Entrepôts de données

Ajout
Suppression

Accès
Modification Chargement

30
Les 4 caractéristiques des data warehouse

4. Données datées ou historisées


– Les données persistent dans le temps
– Mise en place d’un référentiel temps
Image de la base en Mai 2018 Image de la base en Juillet 2019
Répertoire Répertoire
Base de Nom Ville Nom Ville
production Foulen Sfax Foulen Tunis
Falten Sousse Falten Sousse

Calendrier Répertoire
Entrepôt Code Nom
Année Ville
Mois
Code Année Mois
de
1 2018 Mai 1 Foulen
Dupont Sfax
Paris
données
2 2019 Juillet 1 Falten
Durand Sousse
Lyon
2 Foulen Tunis 31
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle

H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing
Q
U
E
32
OLTP
• Orienté transaction
• Orienté application
• Données courantes
• Données détaillées
• Données évolutives
• Utilisateurs nombreux,
administrateurs/opérationnels
• Temps d’exécution: court
33
OLAP
• Orienté analyse
• Orienté sujet
• Données historisées
• Données agrégées
• Données statiques
• Utilisateurs peu nombreux, manager
• Temps d’exécution: long

34
OLTP VS OLAP
OLTP OLAP
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long

35
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
36
Datamart
• Sous-ensemble d’un entrepôt de données
• Destiné à répondre aux besoins d’un secteur
ou d’une fonction particulière de l’entreprise
• Point de vue spécifique selon des critères
métiers
Datamarts du
service Marketing

Datamart du service
Ressources
Humaines
37
Intérêts des Datamarts
• Nouvel environnement structuré et formaté
en fonction des besoins d’un métier ou d’un
usage particulier
• Moins de données que DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse
• Utilisateurs plus ciblés: DM plus facile à définir

38
Data Mining
• C’est l'exploration et l'analyse de grandes
quantités de données afin de découvrir des
formes et des règles significatives en utilisant des Sexe
Age
moyens automatiques ou semi-automatiques.
Statut
Basé sur des méthodes mathématiques +/-
complexes :
• Méthodes de tri : Les algorithmes de Data Crédit Accordé
Mining (Oui/Non)
• Technique: Statistique
• Résultat: Prédiction, estimation, classification
Exemple: les emails et les spams qui sont filtrés

39
Exemple: Data Mining
• Entreprise : banque
• Activité : prêts hypothécaires
• Problème : accepter ou refuser une demande
de crédit ?
• Solution: Analyser les données historiques :
solvabilité observée lors des anciens crédits
pour prévoir la solvabilité des Nouveaux
demandeurs de crédit

40
Quelques possibilités d'utilisation
• Marketing
• Quel profil de client cibler lors d’une campagne marketing ?
• Quels clients sont susceptibles de réagir à une promotion déterminée ?
(CRM)
• Quels produits offrir à quels clients ? (Eg: Amazone)

• Finances
• Quels produits financiers proposer à quels clients ?
• Comment détecter une faillite prochaine ? (Crise Boursière)

• Télécommunications
• Quels clients sont susceptibles de nous quitter ?
• Quel est le profil des clients très rentables,
– et des clients pas ou peu rentables ?

41
Application: Ordonner les différentes étapes
Champs d’application des
systèmes décisionnels
Rassembler Définir le Analyser les
les données problème données

Décider Établir des


solutions

Temps de prise d’une décision

42
Solution: Le processus de prise de décision

Champs d’application des


systèmes décisionnels

Définir le Rassembler Analyser les Établir des Décider


problème les données données solutions

Temps de prise d’une décision

43
Architecture d’un DW (3/3)

45
La structure d’un DW

1 2 3
Les données détaillées Les données agrégées Les méta-données 

Les données Elles correspondent Il s'agit « de


provenant des à des éléments données sur les
systèmes de d'analyse données ».
production sont représentatifs des
intégrées à ce niveau. besoins des
utilisateurs.

46
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
47
Modélisation Entité/Association
• Avantages:
– Normalisation:
• Éliminer les redondances
• Préserver la cohérence des données
– Optimisation des transactions
– Réduction de l’espace de stockage
• Inconvénients pour un utilisateur final:
– Schéma très/trop complet:
• Contient des tables/champs inutiles pour l’analyse
– Pas d’interface graphique capable de rendre utilisable
le modèle E/A
– Inadapté pour l’analyse 48
Exemple
Mode
Transporteur
d’expédition

Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin

Famille de
Employé Région de produits
Stock ventes

Fonction Division de
Fournisseurs
ventes 49
Modélisation DW
 KIMBALL :
 Tables de fait , Tables de Dimensions
 Stockage dénormalisé des données
 Inmon’s:
 S ’appuie sur une modélisation en BD relationnelle
complexe
 Les données sont stockées dans la 3éme Forme Normale
(3NF)
 Lequel Choisir?
 Traditionnellement la modélisation Kimbal est utilisée
 Kimball permet un Feedback rapide / demandes métier
Modélisation des DW
• Nouvelle méthode de conception autour des
concepts métiers
– Ne pas normaliser au maximum
• Introduction de nouveaux types de table:
– Table de faits
– Table de dimensions
• Introduction de nouveaux modèles:
– Modèle en étoile
– Modèle en flocon

51
La pierre angulaire d’un système décisionnel
Le modèle de donnée

OLTP (Online Transaction Processing ) OLAP (Online Analytical Processing )


Reporting opérationnel Pilotage métier et entreprise
Table de faits
• Table principale du modèle dimensionnel
• Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)

Table de faits des ventes


Clés étrangères Clé date (CE)
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Coût
Faits
Montant des ventes

53
Table de faits (suite)
• Fait:
– Ce que l’on souhaite mesurer
• Quantités vendues, montant des ventes…
– Contient les clés étrangères des axes d’analyse
(dimension)
• Date, produit, magasin
– Trois types de faits:
• Additif
• Semi additif
• Non additif

54
Typologie des faits
• Additif: additionnable suivant toutes les dimensions
– Quantités vendues, chiffre d’affaire
– Peut être le résultat d’un calcul:
• Bénéfice = montant vente - coût
• Semi additif: additionnable suivant certaines dimensions
– Solde d’un compte bancaire:
• Pas de sens d’additionner sur les dates car cela représente
des instantanés d’un niveau
• Σ sur les comptes: on connaît ce que nous possédons en
banque
• Non additif: fait non additionnable quelque soit la dimension
– Prix unitaire: l’addition sur n’importe quelle dimension donne un
nombre dépourvu de sens

55
Granularité de la table de faits
• Répondre à la question :
– Que représente un enregistrement de la table de faits?
• La granularité définit le niveau de détails de la
table de faits:
– Exemple: une ligne de commande par produit, par
client et par jour

- Précision des analyses


+ Finesse
Taille de l’entrepôt

56
Table de dimension
• Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
• Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Famille du produits
Attributs de la Marque
dimension
Emballage
Poids
57
Table de dimension (suite)
• Dimension = axe d’analyse
– Client, produit, période de temps…
• Contient souvent un grand nombre de colonnes
– L’ensemble des informations descriptives des faits
• Contient en général beaucoup moins
d’enregistrements qu’une table de faits

58
La dimension Temps ou Date
• Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
• Reliée à toute table de faits Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

59
Granularité d’une dimension
• Une dimension contient des membres organisés
en hiérarchie :
– Chacun des membres appartient à un niveau hiérarchique
(ou niveau de granularité) particulier
– Granularité d’une dimension : nombre de niveaux
hiérarchiques
– Temps :
• année – semestre – trimestre - mois

60
Exemple

61
Les types de modèles

Modèle en étoile Modèle en flocon

68
Modèle en étoile
• Une table de fait centrale et des dimensions
• Les dimensions n’ont pas de liaison entre elles
• Avantages:
– Facilité de navigation
– Nombre de jointures limité
• Inconvénients:
– Redondance dans les dimensions
– Toutes les dimensions ne concernent pas les mesures

69
Modèle en étoile
Dimension Temps
ID temps
année
mois
Dimension produit
jour
Dimension Magasin ID produit

ID magasin nom
description code
Table de faits Achat
ville prix
ID client
surface poids
ID temps
… groupe
ID magasin
famille
ID région

ID produit
Dimension Region Quantité achetée Dimension Client
ID région Montant des achats ID client
pays nom
description prénom
district vente adresse
…. …
70
Modèle en flocon
• Une table de fait et des dimensions décomposées en sous
hiérarchies
• On a un seul niveau hiérarchique dans une table de dimension
• La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine
• Avantages:
– Normalisation des dimensions
– Économie d’espace disque
• Inconvénients:
– Modèle plus complexe (jointure)
– Requêtes moins performantes

71
Modèle enDimension
flocon produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour Dimension groupe
poids
ID magasin … ID groupe

description ID famille
Table de faits Achat
ville nom
ID client
surface …
ID temps

ID magasin
Dimension Region
ID région Dimension Famille
ID région
ID produit ID famille
ID division vente
Quantité achetée nom
pays
Montant des achats …
description
…. Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
adresse 72
….

Méthodologie: 9 étapes de Kimball
1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes

73

Vous aimerez peut-être aussi