Académique Documents
Professionnel Documents
Culture Documents
Novembre 2012
Sommaire
2
Business Intelligence
BI: Définition
Collecte,
L'intégration,
La diffusion et
La présentation des données.
La collecte
L’intégration
La diffusion
La présentation
L’administration
Remarque
Orientées sujet
Données intégrées
Données non volatiles
Données datées ,et historisées
Données multidimensionnelles
Business Intelligence : Pré-requis du DW
Besoins fonctionnels
Expectations sur les données, sources de données, entretiens
avec les utilisateurs finaux, limites et complexités
« Data Profiling »
Qualité, périmètre, contexte des sources de données, données
manquantes ou nulles, intervention humaine, suppression des
données, planification de développement pragmatiques.
Business Intelligence : Pré-requis du DW
Architecture
Outil ETL vs. développement spécifiques
Processus en batch vs. Streaming des données
Automatiser l’ordonnancement
Qualité des données/Nettoyage des données
Métadonnées
Sécurité
« Staging »
Business Intelligence : Données opérationnelles
OLTP DW
Définition optionnelle
Entrepôt
Tableur
Business Intelligence: Générations
Inconvénients :
• Exportation de la totalité de la table
• Impossibilité de faire des jointures entre tables
Importation de tableaux Excel dans Access
Définitions des index si nécessaire
Définition de la clé primaire
Écriture de la requête de jointure
Exportation vers Excel
• Création MD (tableau croisé dynamique)
Business Intelligence: Générations
BD relationnelle
Entrepôt
Requêteur graphique
SQL (BO, Impromptu,
Discoverer…)
Business Intelligence: Générations
2ème génération de système décisionnel
◦ Exemple d’univers Business Object
Business Intelligence: Générations
3ème génération de système décisionnel
◦ années 2000
BD
Sources Fichiers (Texte, Tableaux)
Environnement
spécifique Magasin Outils OLAP (Power Play, Express,…)
Requêteur graphique
Business Intelligence: Générations
Exemple de source (relationnel)
Objectif : "Analyse mensuelle des ventes de produits aux clients"
LIGNES_FACT
PRODUITS refF#
codeP codeP#
description qte
CATEGORIES prix_unit
codeCa codeCa#
designation FACTURES
codeCaSup# refF
dateF (jj-mm-aa) CLIENTS
codeC# codeC
nom
prenom
adr_lib
adr_ville
Business Intelligence: Générations
Exemple de source (relationnel)
LIGNES_FACT
PRODUITS refF#
codeP codeP# ventes mensuelles ?
description qte
CATEGORIES prix_unit
codeCa codeCa#
designation FACTURES
évolutions des prix ? refF
codeCaSup#
dateF (jj-mm-aa) CLIENTS
jour inutile codeC# codeC
Inadéquations : adresse nom
détaillée prenom
Absence de connaissance inutile adr_lib
Information inutile pays ? adr_ville
Forme inadaptée
Non mise en évidence des analyses possibles
Business Intelligence: Générations
Exemple d'entrepôt (relationnel)
LIGNES_FACT
évolutions
HISTO_PRIX PRODUITS refF#
des prix
codeP# codeP codeP#
date (jj-mm-aa) CATEGORIES description qte
prix_unit codeCa prix_unit montant
designation CodeCa#
codeCaSup# FACTURES
CLIENTS ventes refF
codeC mensuelles
PAYS suppression dateF (mm-aa)
codeP de l'adresse nom codeC#
pays prenom suppression
pays
ville du jour
Inadéquations codeP#
Absence de connaissance
Information inutile
Forme inadaptée, mais nombreuses jointures
Non mise en évidence des analyses possibles
Modélisation multidimensionnelle
Plan
Modélisation dimensionnelle
Faits & Dimensions
Hiérarchies
Modèle en flocon
Assemblage des modèles dimensionnels
Dimensions à évolutions lentes
Méthode de conception
Modélisation multidimensionnelle
Plus le modèle est lisible (intuitif) pour les utilisateurs, moins sera
long (coûteux) de définir une sur couche pour le rendre
compréhensible
Modélisation multidimensionnelle : Performance au chargement des
données
Une table de faits est une table qui contient les données à analyser.
Ce type de table est aussi facilement reconnaissable car elle comporte
un grand nombre de clés étrangères afin de la lier avec des
tables de dimensions.
Finesse ou grain de la table de faits
La table de faits peut aussicontenir des champs qui ne sont pas des clés
étrangères. Ce sont les faits (ou mesures).
Une dimension est un axe d’analyse selon lequel sont visualisées les
mesures d’activité d’un sujet d’analyse.
SELECT *
FROM Locations, States, Countries
where Locations.State_Id = States.State_Id
AND Locations.Country_id=Countries.Country_Id
AND Country_Name='USA'
Dimension de la zone géographique
SELECT *
FROM Location_dim
where Country_Name='USA' Redondance
Attributs ou Faits
Schéma en étoile
Avantages
Facilité de navigation
Performances : nombre de jointures limité ; gestion des
données creuses.
Gestion des agrégats
Fiabilité des résultats
Simple à comprendre & extensible
Inconvénients
Toutes les dimensions ne concernent pas les mesures
Redondances dans les dimensions
Alimentation complexe.
Dimensions et hiérarchies
Dimension de production
Catégories,
Département, etc.
Dimension géographique,
Villes
Région
Pays, etc.
Dimension temporelle
Années
Trimestre
Mois, etc.
Hiérarchie simple ou multiple
Exemple pour un suivi des ventes
Exemple pour une analyse des ventes
Exemple pour le pilotage des ventes
Forage vers le haut ou vers le bas
Exemple
Une dimension hiérarchisée peut être stockée dans une table unique.
Avantages
Plus propre, respect de la 3NF
Gain de place de stockage (!)
Inconvénients
Plus complexe pour l ’utilisateur final
Plus de jointures, donc plus lent
Selon les spécialistes :
Evitez le « floconage » des dimensions, même si elles sont
grandes, car les performances seront mauvaises !
Modèle dimensionnel et E/R
Schéma en constellation
Assemblage des modèles dimensionnels
B . Schémas multidimensionnels
Schéma en Constellation
n sujet d’analyse (Faits)
n axes d’analyse (Dimensions) pouvant être , partagés entre
les différents faits.
Avantages:
• Facilite les corrélation entre les différents sujets d’analyse
• Simplifie la modélisation avec la possibilité de partager les
dimensions.
Schéma en constellation
Schéma constellation
Schéma en constellation :
Généralisation des schémas en étoile
Plusieurs faits et dimensions partagées ou non
Consolidation des datamarts
Une fois les datamarts recensés, il faut les consolider pour déterminer
les dimensions conformes et les faits standards
Par exemple :
Il existe dans certains cas des tables de faits dans lesquelles il n'y a
pas de faits mesurés !
Les tables de dimension ne doivent pas être normalisées mais rester des
tables plates
Un outil ETL est un outil qui lie les données d’une ou plusieurs sources,
transforme les données de façon à être compatible avec la destination, et
charge les données vers cette destination
Solution ETL
Outils ETL traitent les changements dans les systèmes sources, ce qui permet
une réduction dans l’effort du processus ETL et de sa maintenance
Les prix des outils ETL n’ont pas vraiment chuté durant les dernières années,
mais ils permettent plus de fonctionnalités et de performances
To stage or not to stage
Quand une dimension est peuplée par plusieurs systèmes distincts, il est
important d'inclure l’identificateur unique de chacun de ces systèmes
dans la dimension cible de l'entrepôt de données. Ces identificateurs
peuvent être visualisées par des utilisateurs pour leur assurer que la
dimension reflète leurs données du système transactionnel.
Table Dimension
Génération des clés pour les dimensions
select A, B, C, count(*)
from DimensionTableSource
group by A, B, C
having count(*) > 1
Dimension date
TDWI: http://www.tdwi.org/
Inmon: http://www.inmoncif.com/home/
Kimball: http://www.ralphkimball.com/