Académique Documents
Professionnel Documents
Culture Documents
Business Intelligence
Introduction
1
Plan
• Définitions & Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles 2
Définitions
• Business Intelligence : L’informatique
décisionnelle
• Processus technologique qui:
– Analyse les données
– Présente des informations exploitables par les
dirigeants, les cadres commerciaux, …
Prendre les bonnes (ou meilleures) décisions
3
Définitions
• Outils
• Applications
• Méthodologies
• Collecter
• Préparer
• Prendre des décisions
4
Problématique: Contexte
• Besoin ?
• Pourquoi ?
• Qui ?
• Comment ?
5
Problématique: Contexte
• Besoin: Prise de décision stratégique
• Pourquoi: Besoin de réactivité
• Qui: Utilisé par les décideurs et analystes
• Comment: répondre aux demandes d’analyse
des données, dégager des informations
qualitatives nouvelles
6
Pourquoi et
Qui sont mes
comment le
meilleurs
chiffre d’affaire
clients?
a baissé?
A combien
Quels Tunisens
s’élèvent mes
consomment
ventes
beaucoup de
journalières?
poisson?
7
Datawarehouse: Définition
• Base de Données dédiée au stockage de
Données
• Alimentée depuis une Base de production
• Grace aux outils ETL: Extract Transform Load
8
Besoin des entreprises
• accéder à toutes les données de l’entreprise
• regrouper les informations disséminées
• Analyser et prendre des décisions rapidement
Règle d’or
Construire un DWH à partir des besoins des
clients et non pas à partir des Données!
9
Exemples d'applications concernées
• Grande distribution : marketing, maintenance, ...
– produits à succès, modes, habitudes d’achat
– préférences par secteurs géographiques
• Bancaire : suivi des clients, gestion de
portefeuilles
– mailing ciblés pour le marketing
• Télécommunications : pannes, fraudes,
mobiles, ...
– classification des clients, détection fraudes, fuites de
clients
10
Objectifs décisionnels
1. Historisation:
Conserver : ne pas effacer
2. Centralisation:
Achats
Ventes
RH
DWH
3. Analyser:
mieux comprendre ce qui se passe
11
12
Les étapes
1. Préparation: ETL (Extract Transform Load)
– Extraction
– Nettoyage
– Stockage
• Archivage (format CSV)
• Historisation (Comparer avec les chiffres de l’année
dernière)
13
Métaphore du restaurant:
14
2. Présentation:
– Analyse
– Reporting
Métaphore du restaurant:
15
Le décisionnel
1. Mesurer :
– Température
– Temps
– Distance
2. Les dimensions (les attributs):
– Quand? Où?
16
3. Faits (fact)
Exemple : Les ventes
17
Problématique1
• Les dimensions ont des attributs!
La date D1:
– Date
– Jour
– Jour de la semaine
– Mois
– Trimestre
– Année
18
Problématique2
• Les dimensions sont réutilisables!
On retrouve les mêmes produits :
– Achats
– Ventes
– Inventaire
• Staging Area : Espace de stockage temporaire des données provenant des différentes sources. C’est
un lieu où l’on va pouvoir stocker des données qui arrivent à des moments différents. C’est une
zone d’attente, une “salle d’embarquement”.
• Data Mart : Entrepôt de données dédié à un métier particulier. Il est situé en aval du
Datawarehouse
25
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
26
Définition d’un DW
• W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
27
Les 4 caractéristiques des data warehouse
Clients
28
Les 4 caractéristiques des data warehouse
2. Données intégrées:
– Normalisation des données
– Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
29
Les 4 caractéristiques des data warehouse
Ajout
Suppression
Accès
Modification Chargement
30
Les 4 caractéristiques des data warehouse
Calendrier Répertoire
Entrepôt Code Nom
Année Ville
Mois
Code Année Mois
de
1 2018 Mai 1 Foulen
Dupont Sfax
Paris
données
2 2019 Juillet 1 Falten
Durand Sousse
Lyon
2 Foulen Tunis 31
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle
H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing
Q
U
E
32
OLTP
• Orienté transaction
• Orienté application
• Données courantes
• Données détaillées
• Données évolutives
• Utilisateurs nombreux,
administrateurs/opérationnels
• Temps d’exécution: court
33
OLAP
• Orienté analyse
• Orienté sujet
• Données historisées
• Données agrégées
• Données statiques
• Utilisateurs peu nombreux, manager
• Temps d’exécution: long
34
OLTP VS OLAP
OLTP OLAP
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long
35
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
36
Datamart
• Sous-ensemble d’un entrepôt de données
• Destiné à répondre aux besoins d’un secteur
ou d’une fonction particulière de l’entreprise
• Point de vue spécifique selon des critères
métiers
Datamarts du
service Marketing
Datamart du service
Ressources
Humaines
37
Intérêts des Datamarts
• Nouvel environnement structuré et formaté
en fonction des besoins d’un métier ou d’un
usage particulier
• Moins de données que DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse
• Utilisateurs plus ciblés: DM plus facile à définir
38
Data Mining
• C’est l'exploration et l'analyse de grandes
quantités de données afin de découvrir des
formes et des règles significatives en utilisant des Sexe
Age
moyens automatiques ou semi-automatiques.
Statut
Basé sur des méthodes mathématiques +/-
complexes :
• Méthodes de tri : Les algorithmes de Data Crédit Accordé
Mining (Oui/Non)
• Technique: Statistique
• Résultat: Prédiction, estimation, classification
Exemple: les emails et les spams qui sont filtrés
39
Exemple: Data Mining
• Entreprise : banque
• Activité : prêts hypothécaires
• Problème : accepter ou refuser une demande
de crédit ?
• Solution: Analyser les données historiques :
solvabilité observée lors des anciens crédits
pour prévoir la solvabilité des Nouveaux
demandeurs de crédit
40
Quelques possibilités d'utilisation
• Marketing
• Quel profil de client cibler lors d’une campagne marketing ?
• Quels clients sont susceptibles de réagir à une promotion déterminée ?
(CRM)
• Quels produits offrir à quels clients ? (Eg: Amazone)
• Finances
• Quels produits financiers proposer à quels clients ?
• Comment détecter une faillite prochaine ? (Crise Boursière)
• Télécommunications
• Quels clients sont susceptibles de nous quitter ?
• Quel est le profil des clients très rentables,
– et des clients pas ou peu rentables ?
41
Application: Ordonner les différentes étapes
Champs d’application des
systèmes décisionnels
Rassembler Définir le Analyser les
les données problème données
42
Solution: Le processus de prise de décision
43
Architecture d’un DW (3/3)
45
La structure d’un DW
1 2 3
Les données détaillées Les données agrégées Les méta-données
46
Plan
• Problématique
• L’état de l’art du décisionnel
• Les entrepôts de données/ Data Warehouse
• Les Datamarts
• Fouille de données (Data Mining)
• Architecture d’un Data Warehouse
• Modélisation d’un DW
• Alimentation d’un DW
• Les bases de données multidimensionnelles
47
Modélisation Entité/Association
• Avantages:
– Normalisation:
• Éliminer les redondances
• Préserver la cohérence des données
– Optimisation des transactions
– Réduction de l’espace de stockage
• Inconvénients pour un utilisateur final:
– Schéma très/trop complet:
• Contient des tables/champs inutiles pour l’analyse
– Pas d’interface graphique capable de rendre utilisable
le modèle E/A
– Inadapté pour l’analyse 48
Exemple
Mode
Transporteur
d’expédition
Produit
Contrat Commande
client
Type de Groupe de
contrat Client produits
Magasin
Famille de
Employé Région de produits
Stock ventes
Fonction Division de
Fournisseurs
ventes 49
Modélisation DW
KIMBALL :
Tables de fait , Tables de Dimensions
Stockage dénormalisé des données
Inmon’s:
S ’appuie sur une modélisation en BD relationnelle
complexe
Les données sont stockées dans la 3éme Forme Normale
(3NF)
Lequel Choisir?
Traditionnellement la modélisation Kimbal est utilisée
Kimball permet un Feedback rapide / demandes métier
Modélisation des DW
• Nouvelle méthode de conception autour des
concepts métiers
– Ne pas normaliser au maximum
• Introduction de nouveaux types de table:
– Table de faits
– Table de dimensions
• Introduction de nouveaux modèles:
– Modèle en étoile
– Modèle en flocon
51
La pierre angulaire d’un système décisionnel
Le modèle de donnée
53
Table de faits (suite)
• Fait:
– Ce que l’on souhaite mesurer
• Quantités vendues, montant des ventes…
– Contient les clés étrangères des axes d’analyse
(dimension)
• Date, produit, magasin
– Trois types de faits:
• Additif
• Semi additif
• Non additif
54
Typologie des faits
• Additif: additionnable suivant toutes les dimensions
– Quantités vendues, chiffre d’affaire
– Peut être le résultat d’un calcul:
• Bénéfice = montant vente - coût
• Semi additif: additionnable suivant certaines dimensions
– Solde d’un compte bancaire:
• Pas de sens d’additionner sur les dates car cela représente
des instantanés d’un niveau
• Σ sur les comptes: on connaît ce que nous possédons en
banque
• Non additif: fait non additionnable quelque soit la dimension
– Prix unitaire: l’addition sur n’importe quelle dimension donne un
nombre dépourvu de sens
55
Granularité de la table de faits
• Répondre à la question :
– Que représente un enregistrement de la table de faits?
• La granularité définit le niveau de détails de la
table de faits:
– Exemple: une ligne de commande par produit, par
client et par jour
56
Table de dimension
• Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
• Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Famille du produits
Attributs de la Marque
dimension
Emballage
Poids
57
Table de dimension (suite)
• Dimension = axe d’analyse
– Client, produit, période de temps…
• Contient souvent un grand nombre de colonnes
– L’ensemble des informations descriptives des faits
• Contient en général beaucoup moins
d’enregistrements qu’une table de faits
58
La dimension Temps ou Date
• Commune à l’ensemble du Dimension Temps
DW Clé temps (CP)
• Reliée à toute table de faits Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
59
Granularité d’une dimension
• Une dimension contient des membres organisés
en hiérarchie :
– Chacun des membres appartient à un niveau hiérarchique
(ou niveau de granularité) particulier
– Granularité d’une dimension : nombre de niveaux
hiérarchiques
– Temps :
• année – semestre – trimestre - mois
60
Exemple
61
Les types de modèles
68
Modèle en étoile
• Une table de fait centrale et des dimensions
• Les dimensions n’ont pas de liaison entre elles
• Avantages:
– Facilité de navigation
– Nombre de jointures limité
• Inconvénients:
– Redondance dans les dimensions
– Toutes les dimensions ne concernent pas les mesures
69
Modèle en étoile
Dimension Temps
ID temps
année
mois
Dimension produit
jour
Dimension Magasin ID produit
…
ID magasin nom
description code
Table de faits Achat
ville prix
ID client
surface poids
ID temps
… groupe
ID magasin
famille
ID région
…
ID produit
Dimension Region Quantité achetée Dimension Client
ID région Montant des achats ID client
pays nom
description prénom
district vente adresse
…. …
70
Modèle en flocon
• Une table de fait et des dimensions décomposées en sous
hiérarchies
• On a un seul niveau hiérarchique dans une table de dimension
• La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine
• Avantages:
– Normalisation des dimensions
– Économie d’espace disque
• Inconvénients:
– Modèle plus complexe (jointure)
– Requêtes moins performantes
71
Modèle enDimension
flocon produit
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour Dimension groupe
poids
ID magasin … ID groupe
…
description ID famille
Table de faits Achat
ville nom
ID client
surface …
ID temps
…
ID magasin
Dimension Region
ID région Dimension Famille
ID région
ID produit ID famille
ID division vente
Quantité achetée nom
pays
Montant des achats …
description
…. Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
adresse 72
….
…
Méthodologie: 9 étapes de Kimball
1. Choisir le sujet
2. Choisir la granularité des faits
3. Identifier et adapter les dimensions
4. Choisir les faits
5. Stocker les pré-calculs
6. Établir les tables de dimensions
7. Choisir la durée de la base
8. Suivre les dimensions lentement évolutives
9. Décider des requêtes prioritaires, des modes de requêtes
73