Académique Documents
Professionnel Documents
Culture Documents
Entrepôt de données
Partie I
2
Informatique décisionnelle
Data Exploration
Statistical Analysis, Querying and Reporting
6
Introduction
7
Outils d’extraction de l’information
• Les requêteurs génèrent des requêtes SQL ad hoc .
9
Besoins
– L’analyse : l’utilisateur travaille sur un périmètre fonctionnel
précis. Les enjeux ont été préalablement formalisés. Ils se
présentent sous forme d’indicateurs de performance.
L’utilisateur se sert du système pour découvrir l’ens des facteurs
susceptibles d’améliorer la performance.
10
Accès libre service
• Se sont les applications ad-hoc, souvent des requêteurs.
11
Un utilisateur n’appartient pas forcément à l’une ou
l’autre de ces catégories
• Ex :
12
Le reporting : information pour tous
• Qualités requises :
13
Analyse des indicateurs de
performance (OLAP)
• OLAP est formalisé par CODD. Sa structure se définit par
rapport à un problème décisionnel.
Il faut définir des valeurs quantitative pour mesurer l’efficacité
de l’organisation. Ce sont des indicateurs clés tels que C.A,
Marge, Durée entre Date de com et date de récep., …
14
Analyse des indicateurs de
performance (OLAP)
• OLAP, fait réf à :
– Une méthodologie de structuration des D dans un contexte décisionnel
– Des tech utilisées par les SGBD
– Aux outils de restitution pour faciliter l’exploitation de ces structures.
15
Questions posées :
• Où ? : Localisation de la vente
16
Un exemple de Data Cube
Régions
Centre
Sud
sum
17
Drill Up et Drill Down
18
Rotate
Slice
Scope
19
On-Line Analytical Processing (OLAP):
Représentation des données
Les systèmes relationnels : ROLAP
Les données multidim. sont stockées dans un SGBD R. Elles sont organisées
en schémas en forme d'étoiles ou de flocon. Accès en mode lecture.
Le langage de requête (SQL) est expressif, et son interprétation est optimisée
pour un temps de réponse minimal.
Av : pas de prob de volume – Aucune donnée n’est agrégée par défaut
opération
intégration
Interface OLAP
Sources de données Moteur OLAP
SGBD Relationnel
21
On-Line Analytical Processing (OLAP):
Représentation des données
MOLAP (OLAP multidimensionnel)
Les D. multidim. sont stockées dans un SGBD optimisé pour le
stockage et le traitement des données.
Temps de rép rapide. Les éléments sont pré calculés ->
Résultat immédiat.
Le données augmentent avec le temps & de nouveaux axes
d’analyse -> de nouvelles dim.
MOLAP est bien si données < seuil
systèmes
opérationnels
Interface OLAP 22
SGBD multidimensionnel
MOLAP
Les données sont stokées dans un CUBE qui est en fait une base de données
multidimensionnelles.
Le concept de relationnel disparaît.
Tous les croisements sont pré-calculés. => la restitution des données de façon
instantanée.
Les données étant stockées, le temps gagné pendant la restitution des données est
important.
Remarque: Les BD multidim. possèdent leur propre langage permettant de faire des
requêtes (MDX).
23
On-Line Analytical Processing (OLAP):
Représentation des données
Ainsi
Les systèmes MOLAP ont de bons temps de réponse, et peuvent
effectuer des calculs complexes, mais ne peuvent pas traiter de
grandes quantités de données.
Les systèmes ROLAP peuvent stocker de grandes quantités de données,
mais ne peuvent effectuer des calculs complexes, ils sont plus lents.
24
Règles d'or de Codd
•1993 : E.F. Codd formule 12 règles d'or (à la demande de Arbor soft. !!)
•1995 : 18 règles en 4 groupes :
Basiques :
1. vue multidimensionnelle
Les données sont structurées en dimensions métiers
2. manipulation directe
L ’utilisateur doit pouvoir utiliser les logiciels habituels (tableurs, …)
sans percevoir la présence d ’un outil OLAP.
3. accessibilité
L ’outil doit se charger d ’accéder aux données stockées dans
n’importe quel type de bases de données (interne + externe) et le
faire simultanément.
25
Règles d'or de Codd
Basiques :
4. intégration d'approche dédiée et d'approche supportée /
performance continue.
A mesure que le Nb de dim ou la taille de la base augmente,
l’utilisateur ne doit pas sentir de baisse de performance
5. support de tous les modèles d'analyse des entreprises
(seuls les plus simples sont habituellement supportés)
6. Client/serveur
Tout produit OLAP doit fonctionner en mode C/S avec répartition
des traitements.
7. Transparence (ne pas avoir à savoir d'où viennent les
données, même si elles viennent de sources externes).
8. Multi-utilisateurs
26
Règles d'or de Codd
Caractéristiques spéciales
9. Traitement des données dénormalisées
10. Stockage des résultats à part (ne pas interférer avec les
mise à jour des transactions de production)
11. Représentation des valeurs manquantes / Gestion
dynamique des matrices creuses
12. Traitement des valeurs manquantes.
27
Règles d'or de Codd
Présentation des rapports:
13. Flexibilité (ajout de dimension...)
14. Performances non dégradées si nb. dim. ou taille BD
augmente.
15. Ajustement de la représentation physique
28
Requêtes OLAP
• Une requête OLAP consiste à extraire des données du cube en
appliquant des critères sur les tables de dimension et en choisissant
un ou plusieurs indicateurs contenus dans la table de faits.
• Deux approches
Extensions SQL:
30
SQL OLAP
(SQL 99 - SQL 3)
– GROUP BY ROLLUP
31
Prod
P_ID
TF_Vente Categ
P_ID Type
L_ID
T_ID
Nb_vente Lieu
CD L_ID
Ville
TEMPS
T_ID
mois
trim
annee
32
Exemple
34
Groupement multiple
35
Groupement multiple : Grouping set
• Grouping Sets
36
Exemple avec GROUPING SETS
- CD pour 2010 par
- Trimestre et type de produit
- Trimestre et lieu
37
Exemple avec GROUPING SETS
- CD pour 2010 par avec identification des attributs de groupe
- Trimestre et type de produit
- Trimestre et lieu
38
Groupement Multiple
Groupement multidimensionnel
Groupement multidimensionnel avec ROLLUP ()
hiérarchie.
• Attributs <a1>, ..., <an> sont souvent issus d‘un même schéma
39
Groupement Multiple
Groupement hiérarchique multidimensionnel
40
Exemple
SELECT annee, mois, prod, sum (CA) CA
FROM sales S, time T
WHERE S.date_achat=T.date
AND mois=’janv’ and year=‘2010’
GROUP BY ROLLUP (annee, mois,prod) Annee Mois Produit CA
2010 600
600
41
Groupement Multiple
Groupement multidimensionnel
42
GROUP BY ROLLUP(A1, A2, ..., An)
43
Groupement Multiple
Groupement multidimensionnel
Groupement multidimensionnel avec CUBE()
• GROUP BY CUBE(A, B, C)
ET
• GROUP BY GROUPING SETS(CUBE(A, B), CUBE(B,C))
46
Vue matérialisée
Caractéristiques des requêtes OLAP
• Les requêtes OLAP sont complexes et nécessitent des calculs
d’agrégats et beaucoup de jointures.
• Ex : On voudrait stoker le C.A. par magasin, par mois et par
produit pour l’année 2010 dans la région centre.
• Afin d’augmenter la performance de ces requêtes, une
technique consiste à stoker (ou matérialiser) tout ou une
partie du cube.
• Cela revient à pré-calculer chaque niveau d’agrégation en
combinaison avec les autres dimensions.
47
Vue matérialisée
• Une VM est un objet de la BD qui sert à stoker des données
résumées et des résultats pré-calculés dans une vue.
48
Caractéristiques des VM
• Stockées dans la même BD que les TF et TD
• Transparentes pour l’utilisateur et l’application
• Mises à jour lorsque les tables sous-jacentes
sont modifiées
• 3 types de VM
– Sans agrégats
– Avec agrégats
– Imbriquées
49
Création de VM
• Ex : VM pour l’analyse des ventes par produit
Méthodes de refresh
52
Modes de refresh
Toute mise à jour dans une des tables référencées dans la requête déclenchera un
rafraîchissement de la vue
•"Périodique" :
REFRESH FAST WITH START WITH sysdate NEXT sysdate+1