Académique Documents
Professionnel Documents
Culture Documents
-
schéma en étoile, flocon
MOLAP, ROLAP, MROLAP
• Optimisation
DESS ASIR -
-
agrégation
indexation
- fragmentation
Michèle Raphalen
- parallélisme
V 1.1 octobre 2002
1
Système d’information décisionnel Système d’information décisionnel
• Ensemble de données organisées • Problème posé
4 de façon spécifique 4 sélectionner l’information juste et utile
4 facilement accessibles 4 stocker l’information correctement
4 appropriées à la prise de décision
4 restituer l’information
· pilotage de l’entreprise
4 vision transversale aux structures fonctionnelles ou organisationnelles contrôler, homogénéiser, organiser, intégrer les données
pour en avoir une vision « orientée métier »
Client
4 navigation dans les données
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 9 DESS ASIR 10
Outils spécifiques pour le processus d’acquisition 4 Doit permettre d’évoluer en fonction des besoins de l’entreprise
· Évolution matérielle et logicielle
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 11 DESS ASIR 12
2
Système d’information décisionnel : ED Système d’information décisionnel : ED
Définition du périmètre
• Accès - acteurs concernés ? Application n
...
- périodicité des analyses ?
- enjeux des retombées
4 Groupes d’utilisateurs sur l ’activité de l ’entreprise ?
Application 1
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 15 DESS ASIR 16
3
Système d’information décisionnel : ED Système d’information décisionnel : ED
• Données intégrées
• Données intégrées
4 Provenant de différents systèmes opérationnels
4 Constituant un ensemble unique d’information consolidée, 4 Unification de codage
homogénéisée
M, F
4 Codification unique et pertinente de la même information
M, F
· Conventions de nommage 0, 1
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 19 DESS ASIR 20
archivage SELECT …
SELECT …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 23 DESS ASIR 24
4
Système d’information décisionnel : ED Système d’information décisionnel : ED
exemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub exemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 27 DESS ASIR 28
agrégées
4 Peuvent être déjà synthétisées
· détail entrepôt ¹ détail données bases de production
Données 4 Difficulté du choix de la granularité de l’information
détaillées
historique
· Plus le niveau de détail est fin, plus les données de l’entrepôt seront
accessibles selon différents points de vue.
Données
détaillées
Distribution : étude du « panier de la ménagère »
historisées stockage du ticket de caisse
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 29 DESS ASIR 30
5
Les données dans un ED : structure Les données dans un ED : structure
• Données agrégées
- faible volume de données
4 Constituent les éléments d’analyse des utilisateurs - accès fréquent
- données facilement accessibles
4 Correspondent à des synthèses de données - délais de réponse courts
Drill up
· Structures multidimensionnelles - important volume de données
- accès non systématique
Ventes d’un produit - délais de réponse aux requêtes
Par région -> département -> ville plus longs
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 31 DESS ASIR 32
4 Donner la possibilité d’accéder directement aux données détaillées 4 Règles de calcul et processus de transformation des données
front room
avec des temps de réponse acceptables 4 Utilisation de la donnée dans les différentes applications
· Index 4 Profils/Rôles des utilisateurs de l’entrepôt
· Cluster …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 33 DESS ASIR 34
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 35 DESS ASIR 36
6
Les données dans un ED : métadonnées Alimentation de l’ED (Data Staging)
• Référentiel fédérateur découvrir extraire transformer transporter charger
4
· Mécanisme de marquage des données : examen de la date de dernière mise à jour
4 Dysfonctionnements
· Constitution du flux d’extraction par filtrage sur la date,
en parcourant le journal des transactions de la base source
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 39 DESS ASIR 40
Metadonnées : sources, cibles, règles de migration Metadonnées : sources, cibles, règles de migration
• Application de règles aux flux de données entrants (contrôle, épuration)
• Transfert de fichiers
4 Traitement des données manquantes
source transformations cible
4 FTP, …
4 Traitement des données aberrantes (hors-plage, intégrité référentielle, ...)
• Mapping de données 4 Utilisation « minimum » des systèmes sources
4 Mapping 1 – 1, 1 – n, n – 1, n – m 4 Maîtrise des flux sur le réseau
• Dédoublonnage
4 Rapprochement de données, pour la détection de doublons transformations
source cible
Tris : SELECT attribut, count (*) FROM source GROUP BY attribut ORDER BY 1; • Transfert base à base à la volée
• Synchronisation des clés 4 Adapté à de petits transferts
4 Gestion des différences d’identifiants lors de fusion de fichiers
· peu d’optimisation (absence de compression, …), lenteur
arbitrage : choix d’un identifiant existant ou d’un nouvel identifiant
4 Peu sécurisé (sensibilité aux ruptures de ligne réseau)
4 Construction de tables de correspondance des clés (look up)
• Gestion des rejets 4 Peu de facilités de transformations
4 Journalisation, avec motifs des rejets 4 Facilité d’administration
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 41 DESS ASIR 42
7
Alimentation de l’ED : transfert Alimentation de l’ED : chargement
découvrir extraire transformer transporter charger découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration Metadonnées : sources, cibles, règles de migration
• Critères • Transactionnel
4 extraction
4 minimisation des redondances
· multi-sources
· incrémentales + actualisation complète · mises à jour en ligne
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 47 DESS ASIR 48
8
Modélisation des données Modélisation des données
• Modélisation normalisée • Modélisation dénormalisée
4 requêtes 4 pré-calcul de certains agrégats + dénormalisation
4 redondances maîtrisables au chargement
·D D
ventes ventes
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 49 DESS ASIR 50
fournisseur
expéditeur client • Modélisation dimensionnelle
idExpéditeur idClient
idFournisseur nomExpéditeur nomClient 4 faits : mesures d’indicateurs de performances, au travers de dimensions
nomFournisseur nomPays adresseClient
nomPays ... nomPays d’analyse
… ...
· CA, marges, …
produit
4 dimensions
idProduit
nomProduit · temps : série ordonnée et « continue »
nomPays
idFournisseur
commande consolidation en jours, mois, trimestre, semestre, année
gamme idCommande ligneCommande · géographie
caractéristiques idClient Aide
idCommande à
totVentesAn1 montantHT
noLigne
· produit l’interprétation des faits
totVentesAn2 montantTTC
stock idProduit · marché
idExpéditeur
prixHT
... dateComm
remise
prixTTC · projet
...
...
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 51 DESS ASIR 52
idFournisseur
jj mm aaaa 4 requête type
produit
CA · CA, pour une gamme de produit, par année et par région
marge fournisseur
idProduit ... 4 modèle « naturellement » orienté sujet (datamarts)
nomProduit idFournisseur
nomPays nomFournisseur 4 chemins d’accès prévisibles
gamme table des faits département
prixHT …
· table de faits très volumineuse, tables de dimensions plus petites
caractéristiques
(métriques)
· accès aux faits par sélections successives, via les dimensions
...
4 manque de complétude
NB : les dimensions doivent être indépendantes
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 53 DESS ASIR 54
9
Modélisation des données Modélisation des données
• Modélisation dimensionnelle : modèle en flocon
• Modélisation dimensionnelle : datamarts
4 affinage des tables de dimension
· normalisation des dimensions DM
opérationnels
mois
systèmes
partie
· hiérarchie à l’intérieur d’une dimension idMois commune DM
…
segment classe
client DM
idSegment idClasse trimestre
idClient période
idSegment
nomSegment
idClasse jj mm aaaa idTrimestre 4 tables de faits
nomClasse idRégion idJour …
…
…
ventes idSemaine · gérées au niveau des datamarts
nomClient idClient idMois
idProduit · gestion commune de la granularité, avec des mécanismes de conversion
région année
idFournisseur
jj mm aaaa jour semaine idAnnée 4 tables de dimensions
idRégion …
idJour idSemaine
nomRégion produit CA nom …
· gérées comme des tables de référence communes à plusieurs datamarts
idProduit marge
idFamille ... · intégrées à la partie commune de l’entrepôt
gamme famille
fournisseur
idGamme idFamille nomProduit
idGamme nomPays
nomGamme prixHT
idFournisseur
nomFournisseur
Navigation entre les différents modèles, au travers des dimensions (constellation)
prixMin nomFamille caractéristiques département
prixMax ... …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 55 DESS ASIR 56
P2 N S2 10
P2 S S2 15 N 20 40 50
30 110 20 50
P2 E S2 25
P3 N S1 50 S 10 10 10 30
25 10 20 55
4 règles de calculs d’agrégats induites par les hiérarchies sur les axes
10 45 15 70
P3 O S1 20 55 70 80 205
15 10 25
d’analyse
P3 S S1 10 45 40 85
P3 N S2 20 S1 55 50 65
45 170
50 70 165 4 navigation dans l’information au travers des axes
P3 O S2 20
P3 S S2 10 p ér S2
10 25 20 55 · visualisation des informations aux différents niveaux d’agrégation
iod
P3 E S2 15 e 110 120 145 375
CA / période / région / produit
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 57 DESS ASIR 58
P1 P2 P3
drill up
S1-S2 110 120 145 drill down P1 P2 P3 E O N S
P1-P3 P1 P2 P3 P1-1 P1-2 P1-3 P2-1 P2-2 P3-1 P3-2 P3-3 S1 55 70 80 S1 30 35 110 30
S1 205 S1 55 70 80 S1 20 15 20 60 10 30 20 30 S2 55 50 65 S2 40 50 55 25
S2 170 S2 55 50 65 S2 10 15 30 40 10 30 15 20
P1 P2 P3
drill up P1 P2 P3 produit
temps
E 10 45 15
S1-T1 20 30 40 • reach through : drill down depuis le cube
jusqu’au socle de l’entrepôt, et éventuellement O 45 40
S1-T2 35 40 40 jusqu’aux bases de production
N 45 50 70
drill down S2-T1 25 30 35 • drill through : visualisation sous l’angle de
plusieurs dimensions S 10 25 20
S2-T2 30 20 30
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 59 DESS ASIR 60
10
Modélisation des données : OLAP Modélisation des données : OLAP
• Hypercube : navigation • Hypercube : navigation
produit
4 slice P1 P2 P3
4 scope
E 10 20 30
O 15 20 35
région
25 15 40
N 20 40 50
30 110 20 50 produit
10 10 10
25 30
10 20 55 P1 P2 P3
S 10 45 15 70
55 70 80 205
15 10
45 25 40 85 E 10 20 30
O 15 20 35
région
S1 55 50 65
45 170
50 70 165 25 15 40
p ér 10 25 20 55 N 20 40 50
30 110 20 50
iod S2 10 10 10 30
e 110 120 145 375 S 25 10 20
10 55
45 15 70
produit 55 70 80 205
15 10
45 25 40 85
P1 P2 P3 55 50 65 170
S1 45 50 70 165
E 10 20 30
p ér 10 25 20 55
O 15 20 35 S2
région
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 61 DESS ASIR 62
France.Bretagne.Morbihan.Vannes gamme
région
Liquide.Eau.Vittel
ville ventes produit
4 socle de l’entrepôt
• solution 1
ventes / produit / ville pays 4 recalculer les agrégats
gamme · nombreuses jointures + regroupement
région
11
Technologies OLAP Technologies OLAP
MOLAP, ROLAP, HOLAP MOLAP, ROLAP, HOLAP
• MOLAP : Multidimensionnal OLAP • ROLAP : Relational OLAP
4 structure de stockage multidimensionnelle 4 structure de stockage relationnelle
4 pré-agrégation au chargement des données 4 correspondance cube <-> table réalisée au moyen du dictionnaire
avantages avantages
4 performance des temps de réponse 4 appui sur BD standards
4 adapté aux faibles volumes de données 4 cohabitation décisionnel / transactionnel (homogénéisation des outils d’administration)
inconvénients 4 support de gros volumes de données
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 71 DESS ASIR 72
12
Modélisation des données : dimensions Modélisation des données : dimensions
• dimensions changeantes
4 évolution des valeurs des attributs dimensionnels • dimensions fourre-tout
4 mises en œuvre possibles 4 regroupement d’attributs et d’indicateurs inclassables,
cléClient nomClient0 adrClient0 client à t0 non intégrables aux dimensions évidentes de manière cohérente
changement d’adresse à t1
!!! Éviter de
cas 1 cléClient nomClient0 adrClient1 corrections d’erreurs - intégrer les indicateurs et attributs dans les tables de faits
- faire une dimension par valeur
gestion des
cas 2 cléClient nomClient0 adrClient0 adrClient1 changements légers - supprimer les données correspondantes
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 73 DESS ASIR 74
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 77 DESS ASIR 78
13
Optimisation : agrégation Optimisation : agrégation
• élaborer plusieurs séries d’agrégats, représentant plusieurs niveaux
• navigateur d’agrégats
de regroupement le long des dimensions
4 basé sur les requêtes types des utilisateurs (<= tuning) client
émetteur de requêtes
• créer les agrégats à l’extérieur du SGBD résultats
SQL
4 phase ETML agrégés
performances dégradées : volume des tables d’agrégats < 25% volume des tables de détail
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 79 DESS ASIR 80
Optimisation : agrégation
Optimisation : indexation
• règles • accélération des accès aux données
4 stocker les agrégats dans leurs propres tables de faits,
indépendamment des tables de base • index B-arbre
· ne pas mélanger les niveaux de détail (évite les erreurs de double comptage) 4 attributs à forte cardinalité
· permet une meilleure administration des agrégats 4 chemins de longueur identique de la racine vers n’importe quelle feuille
4 constituer une « famille de schémas », regroupant la table de faits de base
4 taux de remplissage d’au moins 50% garanti pour chaque nœud
et les tables d’agrégats dérivées
· permet au navigateur de repérer les tables liées les unes aux autres 22 54
4 réduire les tables dimensionnelles associées aux tables d’agrégats
10 14 22 31 39 54
par rapport aux tables dimensionnelles associées aux faits de base
· ne garder que les attributs dimensionnels relatifs aux niveaux supérieurs aux 1 3 8 10 11 12 14 16 18 20 22 24 30 31 35 36 37 39 41 45 49 50 54
niveaux d’agrégation
4 veiller à ce que le code SQL fasse référence aux tables de faits de base et +
aux tables dimensionnelles associées B-arbre généré automatiquement sur la clé primaire d’une table
· les agrégats n’ont pas à être connus des utilisateurs …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 81 DESS ASIR 82
14
Optimisation : fragmentation
Optimisation : fragmentation
• partitionnement horizontal
• partitionnement des tables volumineuses
A1 A2 An
4 tables de faits (le plus souvent selon la date), tables dimensionnelles
4 accès par les requêtes aux partitions nécessaires à leur résolution uniquement
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 85 DESS ASIR 86
Optimisation : parallélisme
Optimisation : parallélisme
• architectures
• utilisation optimale des ressources 4 SMP (Symmetric MultiProcessing)
4 répartition des traitements sur un ensemble de processeurs
CPU … CPU Tous les processeurs
T1 : a1*b1+c1/d1 T2 : a2*b2+c2/d2 • ont la même priorité
mémoire • partagent un unique espace d’adressage mémoire
2 processeurs : p1 et p2
…
p1 r11 = a1*b1 r22 = c2/d2 r2 = r21+r22
p2 r12 = c1/d1 r1 = r11+r12 r21 = a2*b2
4 NUMA (Non Uniform Memory Access)
parallélisme MIMD Tous les processeurs
CPU … CPU CPU … CPU • ont la même priorité
• partagent un unique espace d’adressage mémoire
mémoire mémoire
p1 a1 *
b1 +
c1 / d1 Organisation en grappes, chaque processeur a
p2 a2 b2 c2 d2 une mémoire primaire
des mémoires secondaires distantes
parallélisme SIMD, vectoriel …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 87 DESS ASIR 88
SMP
…
Cluster
4 MPP (Massively Parallel Processing)
processeurs
CPU CPU
chaque processeur a sa mémoire privée,
mémoire mémoire tous les processeurs sont interconnectés • inconvénient
4 nécessité d’adaptation des logiciels au parallélisme
CPU CPU · veiller à répartir équitablement les tâches, à ne pas faire d’opérations
contradictoires sur les données
mémoire mémoire
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 89 DESS ASIR 90
15
Optimisation : parallélisme Optimisation : parallélisme
• problématique des SGBD
4 consultation • solutions
· accès en lecture sur de gros volumes de données 4 partager les données
4 maintenance · solution pour les sauvegardes :
· chargements, mises à jour lancer les sauvegardes de différents tablespaces en parallèle
· sauvegardes 4 coordination des verrouillages et déverrouillages
• solutions · protocoles à 2 ou 3 phases, avec échange de messages
16