Académique Documents
Professionnel Documents
Culture Documents
Contexte et problmatique
Le processus de prise de dcision
Lentrept de donnes
Dfinition Diffrence avec un SGBD Caractristiques
Modlisation multidimensionnelle
Niveau conceptuel Niveau logique Niveau physique
Solutions existantes
Contexte (1)
Besoin :
Prise de dcisions stratgiques et tactiques Ractivit les dcideurs (non informaticiens, non statisticiens)
Rpondre aux demandes danalyse de donnes Dgager des informations qualitatives nouvelles
Qui :
Comment :
Contexte (2)
Distribues : systmes parpills Htrognes : systmes et structures de donnes diffrents Dtailles : organisation de donnes selon les processus fonctionnels et donnes trop abondantes pour lanalyse Peu/pas adaptes lanalyse : des requtes lourdes peuvent bloquer le systme transactionnel Volatiles : pas dhistorisation systmatique
4
Problmatique (1)
Nous avons donc :
traiter
Problmatique (2)
Comment rpondre aux besoins de dcideurs afin damliorer les performances dcisionnelles de lentreprise?
En
donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes En donnant une vision transversale des donnes de lentreprise (intgration de diffrentes bases de donnes) En extrayant, groupant, organisant, corrlant et transformant (rsum, agrgation) les donnes
6
Problmatique (3)
Lentrept : Dfinition
Le DW est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision.
W.H. Inmon (1996)
transactionnels (OLTP) Permettre dinsrer, modifier, interroger rapidement, efficacement et en scurit les donnes de la base Slectionner, ajouter, mettre jour, supprimer des tuples Rpondre de nombreux utilisateurs simultanment
11
Fonctions dun DW :
Systmes
(OLAP) Regrouper, organiser des informations provenant de sources diverses Intgrer et stocker les donnes pour une vue oriente mtier Retrouver et analyser linformation rapidement et facilement
12
Utilisateurs
Donnes
Nombreux Employs
Alphanumriques Dtailles / atomiques Orientes application Dynamiques Prdfinies
Peu Analystes
Numriques Rsumes / agrges Orientes sujet Statiques one-use
Requtes
Accs
But Temps dexcution Mises jour
Donnes intgres
Normalisation
19
Le datamart
Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Plus en dtails
22
Modlisation multidimensionnelle
Niveau conceptuel Niveau logique Niveau physique
23
Niveau conceptuel
24
Dimension (1)
Une dimension est tout ce qu'on utilisera pour faire nos analyses.
Chaque membre de la dimension a des caractristiques propres et est en gnral textuel Remarque importante :
Dimension (2)
Cl de substitution
Attributs de la dimension
Dimension produit Cl produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids
26
Hirarchie (1)
Dimension temporelle : jour, mois, anne Dimension gographique : magasin, ville, rgion, pays Dimension produit : produit, catgorie, marque, etc.
Attributs dfinissant les niveaux de granularit sont appels paramtres Attributs informationnels lis un paramtre sont dits attributs faibles
27
Hirarchie (2)
Dpartement
Rgion de ventes
Ville
Secteur de ventes
Jour
Client
28
Granularit (1)
Choix de la granularit
29
Granularit (2)
30
Fait
les ventes (chiffre d'affaire, quantits et montants commands, volumes des ventes, ...) les stocks (nombre d'exemplaires d'un produit en stock, ...), les ressources humaines (nombre de demandes de congs, nombre de dmissions, ).
Un fait reprsente la valeur dune mesure, calcule ou mesure, selon un membre de chacune des dimensions
Un fait est tout ce qu'on voudra analyser.
Exemple : 250 000 euros est un fait qui exprime la valeur de la mesure Cot des travaux pour le membre 2002 du niveau Anne de la dimension Temps et le membre Versailles du niveau Ville de la dimension Dcoupage administratif.
La table de fait contient les valeurs des mesures et les cls vers les tables de dimensions
31
Mesure
lment de donne sur lequel portent les analyses, en fonction des diffrentes dimensions. Ces valeurs sont le rsultat doprations dagrgation sur les donnes
Exemple : Cot des travaux Nombre daccidents Ventes
32
Cls
Tables de dimension
Cl
primaire
Tables de fait
Cl
compose
33
Modlisation
34
Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles
Avantages :
Facilit de navigation Nombre de jointures limit
Inconvnients :
Redondance
dans les dimensions Toutes les dimensions ne concernent pas les mesures
35
Constellation (1)
Srie dtoiles
Fusion
de plusieurs modles en toile qui utilisent des dimensions communes Plusieurs tables de fait et tables de dimensions, ventuellement communes
37
Constellation (2)
38
Sources : http://gankahhwee.com
Niveau logique
39
ROLAP (1)
Les donnes sont stockes dans une BD relationnelle Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel Avantages :
Facile mettre en place Peu couteux Evolution facile Stockage de gros volumes
Inconvnients :
ROLAP (2)
41
Sources : EPFL, Lausanne
MOLAP (1)
Les donnes sont stockes comme des matrices plusieurs dimensions : Cube[1:m,1:n,1:p](mesure) Accs direct aux donnes dans le cube
Avantages :
Rapidit
Inconvnients :
Difficile mettre en place Formats souvent propritaires Ne supporte pas de rts gros volumes de donnes
42
MOLAP (2)
43
Sources : EPFL, Lausanne
HOLAP (1)
Solution hybride entre ROLAP et MOLAP Donnes de base stockes dans un SGBD relationnel (tables de faits et de dimensions) + donnes agrges stockes dans un cube
Avantages / inconvnients :
Bon
compromis au niveau des cots et des performances (les requtes vont chercher les donnes dans les tables et le cube)
44
HOLAP (2)
45
Sources : EPFL, Lausanne
Modlisation
46
Une table de fait et des dimensions en sous-hirarchies Un seul niveau hirarchique par table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait (elle a la granularit la plus fine)
Avantages :
Inconvnients :
Modle plus complexe (nombreuses jointures) Requtes moins performantes Navigation difficile
47
Cube (1)
Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions :
Temps,
Localisation
gographique,
Cube (2)
50
Niveau physique
Cest limplantation et dpend donc du logiciel utilis. Globalement : insuffisance des instructions SQL classiques
CREATE
TABLE AS : recopie physique, reprendre intgralement lors de lvolution des sources CREATE VIEW AS : recalcul chaque requte, temps de rponse inacceptable sur les volumes manipuls
Optimisation : indexes,
51
Ralisation dun DW
52
Top-Down
Il faut donc connatre lavance toutes les dimensions et tous les faits.
Objectif : Livrer une solution technologiquement saine base sur des mthodes et technologies prouves des bases de donnes. Avantages :
Offrir une architecture intgre : mthode complte Rutilisation des donnes Pas de redondances Vision claire et conceptuelle des donnes de lentreprise et du travail raliser
Inconvnients :
Crer les datamarts un par un puis les regrouper par des niveaux intermdiaires jusqu' obtention d'un vritable entrept. Objectif : Livrer une solution permettant aux usager dobtenir facilement et rapidement des rponses leurs requtes danalyse
Avantages :
Inconvnients :
Pas efficace long terme Le volume de travail d'intgration pour obtenir un entrept de donnes Risque de redondances (car ralisations indpendantes).
54
intgralement l'entrept de donnes (toutes les dimensions, tous les faits, toutes les relations), puis crer des divisions plus petites et plus grables.
Avantages : Prendre le meilleur des 2 approches Dveloppement dun modle de donnes dentreprise de manire itrative Dveloppement dune infrastructure lourde quen cas de ncessit
Inconvnients : implique, parfois, des compromis de dcoupage (dupliquer des dimensions identiques pour des besoins pratiques).
55
56
Conception Acquisition des donnes Dfinition des aspects techniques de la ralisation Dfinition des modes de restitution Stratgies dadministration, volution, maintenance
57
1 - Conception
Dfinir la finalit du DW :
Quelle activit de lentreprise faut-il piloter? Quel est le processus de lentreprise modliser? Qui sont les dcideurs? Quels sont les faits numriques? Quest ce qui va tre mesurer? Quelles sont les dimensions ? Comment les gestionnaires dcrivent-ils des donnes qui rsultent du processus concern?
jour rgulire
Besoin dun outil pour automatiser les chargements de lentrept : ETL (Extract, Transform, Load)
59
ETL :
un environnement de dveloppement Offrant des outils de gestion des oprations et de maintenance Permettant de dcouvrir, analyser, et extraire les donnes partir de sources htrognes Permettant de nettoyer et standardiser les donnes Permettant de charger les donnes dans un entrept
60
Extraction :
Depuis
Priodique
et rpte
Difficult
Transformation : Etape trs importante qui garantit la cohrence et la fiabilit des donnes
Rendre
sources
Ex. dates : MM/JJ/AA -> JJ/MM/AA Ex. noms : D-Naiss, Naissance, Date-N -> Date-Naissance Eliminer les doubles Jointures, projection, agrgation (SUM, AVG, ) Gestion des valeurs manquantes (NULL) (ignorer ou corriger ?) Gestion des valeurs errones ou inconsistantes (dtection et correction) Vrification des contraintes dintgrit (pas de violation)
Trier, Nettoyer
63
incrmentale ou totale?, offline ou online?, frquence des chargements?, taille de lhistorique?, pas de MAJ :
insertion de nouvelles donnes Archivage des donnes anciennes
Si
Sinon
Attention
ETL ELT
Lapproche
ELT (Extraction, Loading, Transformation) gnre du code SQL natif pour chaque moteur de BD impliqu dans le processus sources et cibles Cette approche profite des fonctionnalits de chaque BD mais les requtes de transformation doivent respecter la syntaxe spcifique au SGBD
65
3 Aspects techniques
Contraintes
logicielles,
matrielles,
humaines,
66
4 - Restitution
= But du processus dentreposage, = Conditionne souvent le choix de larchitecture et de la construction du DW Toutes les analyses ncessaires doivent tre ralisables !
5 Administration, maintenance
68
69
La table multidimensionnelle
Prsente
les valeurs des mesures d'un fait en fonction des valeurs des paramtres des dimensions reprsentes en lignes et en colonnes tant donnes des valeurs des autres dimensions
les lignes et les colonnes sont les axes selon lesquels le cube est explor et chaque cellule contient la (ou les) mesure(s) calcule(s).
correspond
70
Exemple :
71
(Forage) Slection / projection sur les donnes du cube Restructuration / rorientation du cube
72
Reprsente les donnes un niveau de granularit suprieur selon la hirarchie de la dimension dsire
Drill-down
73
Roll-Up
Drill-down
74
Dice
Projeter(Rgion, Produit)
75
76
77
Switch (ou Permutation) Inter-change la position des membres dune dimension Nest Imbrique des membres issus de dimensions diffrentes Push (ou Enfoncement) Combine les membres dune dimension aux mesures (les membres deviennent le contenu des cellules) AddM, DelM Pour lajout et la suppression de mesures afficher
78
Pivot
(Temps.Anne, Gographie.Dpartement -> Temps.Anne, Vhicules.Couleur)
79
80
Push (Vhicules.Couleur)
81
82
83
Rfrences
Data Warehouse Design: Modern Principles and Methodologies de Matteo Golfarelli et Stefano Rizzi, 2009, Ed: Osborne/McGraw-Hill. Olap Solutions: Building Multidimensional Information Systems de E. Thomsen, 2002, Ed: John Wiley & Sons Inc.
84
Exercice
On considre un entrept de donnes permettant dobserver les ventes de produits dune entreprise. Le schma des tables est le suivant : CLIENT (id-client, rgion, ville, pays, dpartement) PRODUIT (id-prod, catgorie, cot-unitaire, fournisseur, prixunitaire, nom-prod) TEMPS (id-tps, mois, nom-mois, trimestre, anne) VENTE (id-prod, id-tps, id-client, date-expdition, prix-de-vente, frais-de-livraison) Questions 1. Indiquer quelles sont la (les) table(s) de fait et les tables de dimension de cet entrept. 2. Donner pour chaque dimension, sa (multi-) hirarchie. 3. Donner la reprsentation du schma en toile de lentrept selon la notation de Golfarelli. 4. On veut transformer ce schma en schma en flocon. Donner la nouvelle reprsentation de la table TEMPS (ajouter des paramtres / attributs, si ncessaire)
85