Vous êtes sur la page 1sur 16

Plan

Université de Bretagne Sud / UFR SSI • Entrepôts de données


- définition et objectifs
- architecture
- alimentation, restitution
• Systèmes d’information décisionnels vs systèmes d’information
opérationnels
- modélisations multidimensionnelles

Systèmes d’information décisionnels -

-
schéma en étoile, flocon
MOLAP, ROLAP, MROLAP
• Optimisation

DESS ASIR -

-
agrégation
indexation
- fragmentation
Michèle Raphalen
- parallélisme
V 1.1 octobre 2002

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen


DESS ASIR 2

Bibliographie (1) Bibliographie (2)


· Goglin J.F.
· Inmon W.H. “ La construction du data warehouse ”
“ Building the data warehouse ” Hermes, 1998
Wiley Computer publishing, 1996 · Kimball R. et all.
· Bracket M.H. “ Concevoir et déployer un data warehouse ”
“ The data Warehouse challenge - taming data chaos ” Eyrolles, 2000
Wiley Computer publishing, 1996 · Franco J.M., De Lignerolles S.
· Kimball R. “ Piloter l’entreprise grâce au data warehouse ”
“ Entrepôts de données ” Eyrolles, 2000
International Thomson publishing, 1997 · Morin A., Bosc P., Hébrail G., Lebart L.
· Kimball R. et all. “ Bases de données et statistique ”
“ The data warehouse lifecycle toolkit : expert methods for designing, Dunod, 2002
developping and deploying a data warehouse ” · Actes du colloque “ Entrepôts de données et décisionnel ”
Wiley Computer publishing, 1998 IFSIC/IRISA, Rennes, novembre 2001
· Documentation Oracle, “ Data warehousing fundamentals ”, Vol. 1, 2, 3
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 3 DESS ASIR 4

Système d’information décisionnel Système d’information décisionnel


• Pilotage
4 décider, anticiper en fonction de l’information disponible
4 capitaliser sur les expériences
4 améliorer les performances de l’entreprise
Système d’information Système d’information
· compétition Applications Applications
de production opérationnel décisionnel d’aide à la décision
– intégrer dans le système décisionnel de données externes caractérisant le marché
de la concurrence BD dédiée
· personnalisation
– proposer aux clients des produits adaptés à leurs profils
augmentation du rendement des actions commerciales et marketing
asynchronisme
adaptation des services fournis
Traitements factuels Traitements ensemblistes
fidélisation de la clientèle
...
OLTP OLAP
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 5 DESS ASIR 6

1
Système d’information décisionnel Système d’information décisionnel
• Ensemble de données organisées • Problème posé
4 de façon spécifique 4 sélectionner l’information juste et utile
4 facilement accessibles 4 stocker l’information correctement
4 appropriées à la prise de décision
4 restituer l’information
· pilotage de l’entreprise
4 vision transversale aux structures fonctionnelles ou organisationnelles contrôler, homogénéiser, organiser, intégrer les données
pour en avoir une vision « orientée métier »

Client
4 navigation dans les données

Service commercial Facturations


• Support : entrepôt de données
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 7 DESS ASIR 8

Système d’information décisionnel : ED Système d’information décisionnel : ED


Tableurs
Tableaux de bord (EIS)
• Acquisition / Contrôle
Données OLAP
internes
Requêteurs 4 Collecter les données utiles
Fonctions d ’agrégation
Data mining · Identifier les données à extraire
Alimentation
Restitution
Simulation · Planifier les extractions
Prédiction
ETL
Segmentation
Corrélation 4 Contrôler l’intégrité et la qualité des données
Classification
Datamarts, cubes Réseaux de neurones
· Maîtriser la codification de l’information
Données
externes ...
4 Préparer les données
Acquisition Stockage Accès
Bases Contrôle · Transformer les caractéristiques des données issues du système
de production opérationnel dans la forme requise pour l’entrepôt
Entrepôt de données (Data Warehouse - DWH) – correspondance des formats,
Infrastructure pour l’acquisition, l’agrégation, la synthèse de données factuelles – nettoyage, consolidation (données manquantes, aberrantes, doublons)
distribuées et hétérogènes. – agrégation

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 9 DESS ASIR 10

Système d’information décisionnel : ED Système d’information décisionnel : ED


• Acquisition / Contrôle • Stockage
4 Accès au référentiel des données 4 Support du stockage : SGBD
· Localisation et structure des sources · Accès décisionnel
· Structure cible · Optimisations pour accélérer les accès et les regroupements
· Règles de transformation ensemblistes
· Règles de sécurité 4 Structuration des données
· Partitionnement physique des tables
4 Charger les données dans l’entrepôt – Horizontal, vertical

Outils spécifiques pour le processus d’acquisition 4 Doit permettre d’évoluer en fonction des besoins de l’entreprise
· Évolution matérielle et logicielle

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 11 DESS ASIR 12

2
Système d’information décisionnel : ED Système d’information décisionnel : ED
Définition du périmètre
• Accès - acteurs concernés ? Application n
...
- périodicité des analyses ?
- enjeux des retombées
4 Groupes d’utilisateurs sur l ’activité de l ’entreprise ?
Application 1

· Simple visualisation des données (tableaux de bord)


Bases
· Navigation dans les données structurées le long de dimensions : OLAP de Acquisition Stockage Accès
production Contrôle
· Accès libre sur des données faiblement structurées, sans chemin
d’accès prédéfinis

· Analyses plus sophistiquées : Data mining


Choix technologiques Infrastructure technique
– Segmentation, modèles de prévision, simulations, analyses d’impact - quelle utilisation ?
… - quelle architecture ? Infrastructure opérationnelle
- quels volumes traités ?
- capacité du réseau ?
- localisation des Mise en oeuvre - administration du SGBD
- administration des données
données sources ?
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 13 DESS ASIR 14

Système d’information décisionnel : ED Système d’information décisionnel : ED


• Infrastructure technique • Définition d’un ED (Bill Inmon)
4 choix des composants matériels
4 choix des composants logiciels Collection de données
en général, en conformité avec l’existant
· orientées sujet
• Infrastructure opérationnelle · intégrées
4 administration des données (gestion des flux de données, contrôle de la qualité)
· historisées
4 gestion des utilisateurs (support + administration des droits d’accès) · non volatiles
4 exploitation du SID (gestion des performances, de la sécurité)
organisées pour le support d’un processus d’aide à la
• Applications décision.
spécification conception mise en oeuvre déploiement mesures

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 15 DESS ASIR 16

Système d’information décisionnel : ED Système d’information décisionnel : ED


• Données orientées sujet
4 Structuration par thèmes, vs processus fonctionnels
• Données orientées sujet : exemples
4 Collection d’un ensemble d’informations sur un sujet transversal
(ex : le client)
4 Client
4 Intégration de différents sujets dans une structure commune, évitant de
dupliquer l’information 4 Produit
client
4 Appels téléphoniques
client
client client
client client 4 Réservations de passagers
4 Sinistres
marketing ventes analyses financières marketing ventes analyses financières

4 Orientation sujet supportée par les datamarts


4 Développement progressif et itératif du SD sujet/sujet
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 17 DESS ASIR 18

3
Système d’information décisionnel : ED Système d’information décisionnel : ED
• Données intégrées
• Données intégrées
4 Provenant de différents systèmes opérationnels
4 Constituant un ensemble unique d’information consolidée, 4 Unification de codage
homogénéisée
M, F
4 Codification unique et pertinente de la même information
M, F
· Conventions de nommage 0, 1

· Structures de codage (ex : date, sexe, …)


H, F
· Qualification des mesures
· Intégration de sémantique
homme, femme

Phase de nettoyage des données délicate, longue, coûteuse


(60% du coût) 4 Problème des données manquantes
· Ex : le produit X n’a pas été vendu dans un magasin Y durant la période P

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 19 DESS ASIR 20

Système d’information décisionnel : ED Système d’information décisionnel : ED


• Données intégrées • Données intégrées
4 Inconsistances 4 Définition de la granularité des données (niveau d’agrégation)
niveau de détail BD production (système opérationnel)
¹
numV couleurV numV couleurV
1 Bleu
1 Azur
2 Vermillon
2 Bleu niveau de détail entrepôt (système décisionnel)
3 Rouge
4 Vert
4 Vert Dupont
U bleu vert rouge 01/10/2002 14H00 – 14H05 local Octobre 2002
précision 02/10/2002 18H00 – 18H10 local Dupont
numV couleurV ruby 02/10/2002 20H30 – 20H42 distant Nombre d’appels : 50
vermillon 03/10/2002 08H00 – 08H03 local Nombre d’appels locaux : 35
1 Azur B clair B foncé
03/10/2002 21H00 – 21H08 distant Nombre d’appels distants : 15
1 Bleu 04/10/2002 16H00 _ 16H15 local Durée moyenne d’un appel : 11 mn
2 Vermillon 05/10/2002 07H30 – 07H40 local
… …
2 Bleu azur 05/10/2002 12H12 – 12H15 local
3 Rouge 06/10/2002 19H45 – 19H57 distant
4 Vert 06/10/2002 14H00 – 14H05 local SELECT fns d’aggrégat (MIN, MAX, SUM, COUNT, AVG, …)
06/10/2002 15H00 – 15H04 local FROM …
… GROUP BY …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 21 DESS ASIR 22

Système d’information décisionnel : ED Système d’information décisionnel : ED


• Données historisées (référentiel de temps) • Données non volatiles (cf historisation)
4 Suite de clichés des données à différentes dates 4 Conservation de l’information pendant une certaine durée (5 ans)
· Date = attribut de la donnée 4 Stabilité des résultats
D (t0)
minute, heure, jour, semaine, mois, … D (ti)
« la même requête doit toujours donner le même résultat »

· Analyse des tendances D (tn) 4 Volumétrie très importante


4 Détermination de la périodicité des rafraîchissements de données BD
production
BD
production INSERT
UPDATE
INSERT rafraîchissements
DELETE
UPDATE rafraîchissements
DELETE 1er chargement purge
1er chargement
purge
… archivage

archivage SELECT …
SELECT …

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 23 DESS ASIR 24

4
Système d’information décisionnel : ED Système d’information décisionnel : ED
exemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub exemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub

• Sujets • Données factuelles


4 Comportement de la clientèle
01/10/2002 08H50 +33 297… France 05:30
4 Comportement du réseau 02/10/2002 09H45 + 353 1 … Irlande 08:45
02/10/2002 10H30 +49 2445.. Allemagne 03:34
4 Suivi du marché : lignes, services, … 03/10/2002 21H50 +44 1752 Grande Bretagne 10:23
… … … … …
• Historique
4 1 an pour le comportement de la clientèle
4 1 mois pour le comportement du réseau • Indicateurs de décision
4 5 ans pour le suivi du marché
• Sources
4 Fichiers des nouveaux clients fournis par les agences régionales
4 Fichier général de la facturation de l’entreprise
4 Sources externes : INSEE 6 8 12 14 16 18 21 L M M J V S D
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 25 DESS ASIR 26

Système d’information décisionnel : ED


exemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub
Système d’information décisionnel : ED
Système opérationnel Système décisionnel
• Sujet : Comportement de la clientèle
Production - Bases de données Décision - Entrepôts de données
OLTP OLAP
4 Répartition des appels sur la semaine, sur la journée Utilisateurs Agents opérationnels (informaticiens) Décideurs
4 Nombre d’appels par mois et par région
Fonction Opérations journalières Support de décision
4 Nombre moyen de numéros composés représentant 30% d’une facture
Conception BD Orientée application Orientée sujet
4 Durée moyenne d’une communication locale
Détaillées Résumées, agrégées
4 Durée moyenne d’une communication internationale Factuelles Historisées
Données
Mises à jour Non sujettes à MAJ
4 … Accessibles de façon individuelle Accessibles de façon ensembliste

Traitements Répétitifs Heuristiques, ad hoc


Requêtes « simples » Requêtes complexes

Volume 100M à 100G 100G à 100T

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 27 DESS ASIR 28

Les données dans un ED : structure Les données dans un ED : structure


• Données détaillées
Données 4 Socle de l’entrepôt
fortement
agrégées 4 Niveau d’insertion des données issues de la production
synthèse

Données 4 Correspondent aux évènements les plus récents


métadonnées

agrégées
4 Peuvent être déjà synthétisées
· détail entrepôt ¹ détail données bases de production
Données 4 Difficulté du choix de la granularité de l’information
détaillées
historique

· Plus le niveau de détail est fin, plus les données de l’entrepôt seront
accessibles selon différents points de vue.
Données
détaillées
Distribution : étude du « panier de la ménagère »
historisées stockage du ticket de caisse

4 Comparaison éventuelle avec des périodes antérieures


· historisation

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 29 DESS ASIR 30

5
Les données dans un ED : structure Les données dans un ED : structure

• Données agrégées
- faible volume de données
4 Constituent les éléments d’analyse des utilisateurs - accès fréquent
- données facilement accessibles
4 Correspondent à des synthèses de données - délais de réponse courts

Drill down / zoom


4 Possibilité de naviguer dans les données, pour aller vers de plus
en plus de détails

Drill up
· Structures multidimensionnelles - important volume de données
- accès non systématique
Ventes d’un produit - délais de réponse aux requêtes
Par région -> département -> ville plus longs

Par période -> mois -> semaine

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 31 DESS ASIR 32

Les données dans un ED : structure Les données dans un ED : métadonnées


• Métadonnées : « données sur les données »
{informations relatives à l’entrepôt et aux processus associés}
• Optimisation : performance d’accès aux données
4 Sémantique des données de l’entrepôt
4 Pré-calculer les agrégations correspondant aux chemins d’accès les
plus souvent utilisés dans les requêtes 4 Localisation de la donnée dans les systèmes de production
back room

4 Stocker physiquement les résultats dans l’entrepôt 4 Procédures de chargement


· Vues matérialisées 4 Historique des mises à jour

4 Donner la possibilité d’accéder directement aux données détaillées 4 Règles de calcul et processus de transformation des données
front room

avec des temps de réponse acceptables 4 Utilisation de la donnée dans les différentes applications
· Index 4 Profils/Rôles des utilisateurs de l’entrepôt
· Cluster …

Intégration dans un référentiel (« data warehouse repository »)

Outils pour catalogues de métadonnées

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 33 DESS ASIR 34

Les données dans un ED : métadonnées Les données dans un ED : métadonnées


• Métadonnées • Métadonnées : gestion du contrôle de l’information
4 Fiabilité de l’information
4 Représentation : modèles de données
4 Cohérence de l’information
{MCD, MLD, MOD}
client produit · Plusieurs sources pour une même entité (ex : le client)
client achète produit achète base
clients · Redondance, synonymie, duplication
base
signe produits 4 Définition unique d’une donnée calculée
éventuelle contrat
contrat transformation base · Périmètre de calcul
de modèle contrats
4 Historique des données
· Possibilité d’évolution des données au cours du temps
4 Prévoir la gestion du référentiel 4 Gestion de la réplication et de la distribution de l’information
ADMINISTRATION DE DONNEES
· Données maîtres-esclaves, snapshots

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 35 DESS ASIR 36

6
Les données dans un ED : métadonnées Alimentation de l’ED (Data Staging)
• Référentiel fédérateur découvrir extraire transformer transporter charger

Gestion des données


4
• Sources hétérogènes, diffuses, complexes
· Description
Sources internes
· Règles d’alimentation
Gestion commerciale : Unix - Oracle campagnes
· Règles de fabrication Gestion financière : IBM/MVS – DB2
client
4 Gestion des flux Gestion marketing : Windows NT – Access
… réseau
· Description Sources externes distribution

· Règles de chargement Mailings : fichiers ASCII ventes
Données INSEE : Excel
· Règles de transformation …
4 Gestion de la confidentialité pertinence et qualité garanties a priori ETML
source cible
· Profils, rôles
· Règles d’accès aux traitements, d’accès aux données • Processus optimisé, automatisé
4 Gestion des espaces privés des utilisateurs 4 Réorganisation de l’information selon les besoins des utilisateurs
· Administration, échanges · Agrégats, introduction de redondances, …
4 Gestion des nomenclatures Industrialisation du processus de migration périodique de données
4
· Organisation réseau
Approche de programmation par « paramétrage de flux »
· …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 37 DESS ASIR 38

Alimentation de l’ED : Outil d’extraction Alimentation de l’ED : Outil d’extraction


découvrir extraire transformer transporter charger
découvrir extraire transformer transporter charger
Metadonnées : sources, cibles, règles de migration
Metadonnées : sources, cibles, règles de migration

• Acceptation d’un ensemble de sources variées


• Indépendance décisionnel / opérationnel
• Lecture sélective des données
4 Couche de stockage des données avant transformation
4 Filtrage des attributs utiles
ODS (Operationnal Data Store) / PSA (Persistant Storing Area)
• Rafraîchissement de l’entrepôt : extractions différentielles
4 Chargement de l’entrepôt avec les données modifiées ou ajoutées depuis la • Nécessité de journalisation des opérations
« Changed data

dernière extraction uniquement Mesures de temps d’exécution


capture »

4
· Mécanisme de marquage des données : examen de la date de dernière mise à jour
4 Dysfonctionnements
· Constitution du flux d’extraction par filtrage sur la date,
en parcourant le journal des transactions de la base source

• Mécanisme de surveillance de l’intégrité des opérations d’extraction


4 Annulation du processus d’alimentation en cas de panne
(extraction multi-sources)

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 39 DESS ASIR 40

Alimentation de l’ED : transformation Alimentation de l’ED : transfert


découvrir extraire transformer transporter charger découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration Metadonnées : sources, cibles, règles de migration
• Application de règles aux flux de données entrants (contrôle, épuration)
• Transfert de fichiers
4 Traitement des données manquantes
source transformations cible
4 FTP, …
4 Traitement des données aberrantes (hors-plage, intégrité référentielle, ...)
• Mapping de données 4 Utilisation « minimum » des systèmes sources
4 Mapping 1 – 1, 1 – n, n – 1, n – m 4 Maîtrise des flux sur le réseau
• Dédoublonnage
4 Rapprochement de données, pour la détection de doublons transformations
source cible
Tris : SELECT attribut, count (*) FROM source GROUP BY attribut ORDER BY 1; • Transfert base à base à la volée
• Synchronisation des clés 4 Adapté à de petits transferts
4 Gestion des différences d’identifiants lors de fusion de fichiers
· peu d’optimisation (absence de compression, …), lenteur
arbitrage : choix d’un identifiant existant ou d’un nouvel identifiant
4 Peu sécurisé (sensibilité aux ruptures de ligne réseau)
4 Construction de tables de correspondance des clés (look up)
• Gestion des rejets 4 Peu de facilités de transformations
4 Journalisation, avec motifs des rejets 4 Facilité d’administration
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 41 DESS ASIR 42

7
Alimentation de l’ED : transfert Alimentation de l’ED : chargement
découvrir extraire transformer transporter charger découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration Metadonnées : sources, cibles, règles de migration

Pull Push • Gestion de gros volumes de données

risques de dégradation des performances


4 chargement incrémental ou complet
ED ED 4 réduction de la périodicité des chargements
4 gestion judicieuse des index
4 partitionnement des objets
4 organisation logique des objets permettant des mises hors service
partielles (tablespaces)
4 utilisation de segments de rollback spécifiques
4 gestion de tables dupliquées (table de chargement -> table de consultation)
4 parallélisation des tâches de chargement
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 43 DESS ASIR 44

Alimentation de l’ED : outils


découvrir extraire transformer transporter charger
Modélisation des données
Metadonnées : sources, cibles, règles de migration

• Critères • Transactionnel
4 extraction
4 minimisation des redondances
· multi-sources
· incrémentales + actualisation complète · mises à jour en ligne

4 réplication · intégrité des données


· synchrone, asynchrone – 3NF, clés, références

4 manipulation aisée de gros volumes de données


· compression/décompression 4 conception orientée processus fonctionnel
4 outils d’audit 4 requêtes prévisibles, réalisées au travers de packages
· rejets lors des phases de filtrage, nettoyage, ...
4 outils de transformation des données
· conversion, gestion des dimensions, calculs d’agrégats
Catégories : Générateurs de code, Outils de déploiement rapide, Extracteurs ERP, Intégrés
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 45 DESS ASIR 46

Modélisation des données Modélisation des données


• Modélisation normalisée
• Décisionnel TVA produit
idProduit
idTVA
4 redondances envisageables taux
nomProduit ligneCommande
codePays
idCommande
· pas de mises à jour en ligne (chargements uniquement) idFournisseur
noLigne
fournisseur prixHT commande
idProduit
· pas de problème d’intégrité des données (contrôles réalisés à l’acquisition) idFournisseur
caractéristiques idCommande quantité
... idClient
nomFournisseur ...
4 définition de modèles lisibles, intuitifs codePays client idExpéditeur
dateComm
… idClient
4 requêtes ensemblistes, portant sur de gros volumes de données nomClient
remise
...
adresseClient
· projections, restrictions, regroupements, agrégations gamme
codePays
Sémantique faible
· adaptation du modèle pour des requêtes « ad hoc » ...
prixHT --> CA, marge, ...
– techniques d ’optimisation basées sur les chemins d’accès
Modèle « complet »
expéditeur
4 modèle évolutif pays
idExpéditeur
marge d ’autonomie pour les utilisateurs
codePays
· calqué sur le développement incrémental de l’ED nomPays
nomExpéditeur Risque de perte de contrôle
codePays visions différentes du CA
lisibilité, performances (chargement + exécution des requêtes), évolutivité, administration ...

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 47 DESS ASIR 48

8
Modélisation des données Modélisation des données
• Modélisation normalisée • Modélisation dénormalisée
4 requêtes 4 pré-calcul de certains agrégats + dénormalisation
4 redondances maîtrisables au chargement
·D D
ventes ventes

dépenses stock 4 introduction de sémantique


4 nombre plus restreint de tables
· nombreuses tables et jointures mises en oeuvre 4 complétude moindre
4 risques de dégradation des performances
4 avantages :
· nombre de tables moindre => diminution du nombre de jointures
4 inconvénients
· tables plus volumineuses
· fréquences d’accès très variables aux contenus des tables

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 49 DESS ASIR 50

Modélisation des données Modélisation des données


• Modélisation dénormalisée

fournisseur
expéditeur client • Modélisation dimensionnelle
idExpéditeur idClient
idFournisseur nomExpéditeur nomClient 4 faits : mesures d’indicateurs de performances, au travers de dimensions
nomFournisseur nomPays adresseClient
nomPays ... nomPays d’analyse
… ...
· CA, marges, …
produit
4 dimensions
idProduit
nomProduit · temps : série ordonnée et « continue »
nomPays
idFournisseur
commande consolidation en jours, mois, trimestre, semestre, année
gamme idCommande ligneCommande · géographie
caractéristiques idClient Aide
idCommande à
totVentesAn1 montantHT
noLigne
· produit l’interprétation des faits
totVentesAn2 montantTTC
stock idProduit · marché
idExpéditeur
prixHT
... dateComm
remise
prixTTC · projet
...
...

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 51 DESS ASIR 52

Modélisation des données Modélisation des données


• Modélisation dimensionnelle (étoile, flocon, constellation) • Modélisation dimensionnelle
client
période
4 regroupement d’indicateurs dans des tables de faits
idClient
jj mm aaaa
· indicateurs partageant le même ensemble de dimensions
nomClient
adresseClient jour-semaine · indicateurs ne pouvant pas être déduits d’autres indicateurs
région ventes semaine-mois
... mois-année 4 identifiant de la table de faits
idClient …
idProduit · clé multiple, concaténation des clés des différentes dimensions d’analyse
dimensions
dimensions

idFournisseur
jj mm aaaa 4 requête type
produit
CA · CA, pour une gamme de produit, par année et par région
marge fournisseur
idProduit ... 4 modèle « naturellement » orienté sujet (datamarts)
nomProduit idFournisseur
nomPays nomFournisseur 4 chemins d’accès prévisibles
gamme table des faits département
prixHT …
· table de faits très volumineuse, tables de dimensions plus petites
caractéristiques
(métriques)
· accès aux faits par sélections successives, via les dimensions
...
4 manque de complétude
NB : les dimensions doivent être indépendantes
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 53 DESS ASIR 54

9
Modélisation des données Modélisation des données
• Modélisation dimensionnelle : modèle en flocon
• Modélisation dimensionnelle : datamarts
4 affinage des tables de dimension
· normalisation des dimensions DM

opérationnels
mois

systèmes
partie
· hiérarchie à l’intérieur d’une dimension idMois commune DM

segment classe
client DM
idSegment idClasse trimestre
idClient période
idSegment
nomSegment
idClasse jj mm aaaa idTrimestre 4 tables de faits
nomClasse idRégion idJour …


ventes idSemaine · gérées au niveau des datamarts
nomClient idClient idMois
idProduit · gestion commune de la granularité, avec des mécanismes de conversion
région année
idFournisseur
jj mm aaaa jour semaine idAnnée 4 tables de dimensions
idRégion …
idJour idSemaine
nomRégion produit CA nom …
· gérées comme des tables de référence communes à plusieurs datamarts
idProduit marge
idFamille ... · intégrées à la partie commune de l’entrepôt
gamme famille
fournisseur
idGamme idFamille nomProduit
idGamme nomPays
nomGamme prixHT
idFournisseur
nomFournisseur
Navigation entre les différents modèles, au travers des dimensions (constellation)
prixMin nomFamille caractéristiques département
prixMax ... …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 55 DESS ASIR 56

Modélisation des données : OLAP Modélisation des données : OLAP


Représentation sous forme de cube période • Hypercube
produit
iProduit ventes idPériode dimension
idProduit idRégion idPériode ventes nomPériode
nomProduit idProduit (axe)
P1 E S1 10 ... idRégion
… x3 (Sx1, x2, x3)
P1 S S1 10 idPériode
P1 N S1 20 CA région (x1, x2, x3)
(x1, Sx2, x3)
P1 O S1 15 dimension
P1 O S2 30 produit idRégion (axe)
nomRégion x2
P1 N S2 25
P2 N S1 40 P1 P2 P3 …
P2 S S1 10 E 10 20 30 dimension x1 (x1, x2, Sx3)
P2 E S1 20 (axe)
O 15 20 35
25 15 40
région

P2 N S2 10
P2 S S2 15 N 20 40 50
30 110 20 50
P2 E S2 25
P3 N S1 50 S 10 10 10 30
25 10 20 55
4 règles de calculs d’agrégats induites par les hiérarchies sur les axes
10 45 15 70
P3 O S1 20 55 70 80 205
15 10 25
d’analyse
P3 S S1 10 45 40 85
P3 N S2 20 S1 55 50 65
45 170
50 70 165 4 navigation dans l’information au travers des axes
P3 O S2 20
P3 S S2 10 p ér S2
10 25 20 55 · visualisation des informations aux différents niveaux d’agrégation
iod
P3 E S2 15 e 110 120 145 375
CA / période / région / produit

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 57 DESS ASIR 58

Modélisation des données : OLAP Modélisation des données : OLAP


• Hypercube : navigation • Hypercube : navigation
4 drill up / drill down : zoom avant / arrière sur un axe d’analyse 4 rotate

P1 P2 P3
drill up
S1-S2 110 120 145 drill down P1 P2 P3 E O N S

P1-P3 P1 P2 P3 P1-1 P1-2 P1-3 P2-1 P2-2 P3-1 P3-2 P3-3 S1 55 70 80 S1 30 35 110 30

S1 205 S1 55 70 80 S1 20 15 20 60 10 30 20 30 S2 55 50 65 S2 40 50 55 25

S2 170 S2 55 50 65 S2 10 15 30 40 10 30 15 20

P1 P2 P3
drill up P1 P2 P3 produit
temps

E 10 45 15
S1-T1 20 30 40 • reach through : drill down depuis le cube
jusqu’au socle de l’entrepôt, et éventuellement O 45 40
S1-T2 35 40 40 jusqu’aux bases de production
N 45 50 70
drill down S2-T1 25 30 35 • drill through : visualisation sous l’angle de
plusieurs dimensions S 10 25 20
S2-T2 30 20 30
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 59 DESS ASIR 60

10
Modélisation des données : OLAP Modélisation des données : OLAP
• Hypercube : navigation • Hypercube : navigation
produit
4 slice P1 P2 P3
4 scope
E 10 20 30
O 15 20 35

région
25 15 40
N 20 40 50
30 110 20 50 produit
10 10 10
25 30
10 20 55 P1 P2 P3
S 10 45 15 70
55 70 80 205
15 10
45 25 40 85 E 10 20 30
O 15 20 35

région
S1 55 50 65
45 170
50 70 165 25 15 40
p ér 10 25 20 55 N 20 40 50
30 110 20 50
iod S2 10 10 10 30
e 110 120 145 375 S 25 10 20
10 55
45 15 70
produit 55 70 80 205
15 10
45 25 40 85
P1 P2 P3 55 50 65 170
S1 45 50 70 165
E 10 20 30
p ér 10 25 20 55
O 15 20 35 S2
région

25 15 40 iod 110 120 145 375


e
N 20 40 50 30 110 20 50
10 10 10 30
25 10 20 55
S 10 45 15 70
55 70 80 205 15 10
45 25 40 85
S1 55 50 65
45 170
50 70 165
p ér 10 25 20 55
iod S2
e 110 120 145 375

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 61 DESS ASIR 62

Modélisation des données : OLAP Modélisation des données : OLAP


mécanismes d’agrégation mécanismes d’agrégation
• Agrégats sur différents niveaux de la hiérarchie d ’une dimension calcul : ventes / gamme / région
4 ville -> département -> région -> pays pays

France.Bretagne.Morbihan.Vannes gamme
région

4 produit -> famille -> gamme département


famille

Liquide.Eau.Vittel
ville ventes produit

4 socle de l’entrepôt
• solution 1
ventes / produit / ville pays 4 recalculer les agrégats
gamme · nombreuses jointures + regroupement
région

famille SELECT f (ventes.indicateur), idGamme, idRegion, ...


département
FROM ventes * ville * département * région * produit * famille * gamme
ville ventes produit GROUP BY idGamme, idRegion ;
· long temps de réponse
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 63 DESS ASIR 64

Modélisation des données : OLAP Modélisation des données : OLAP


mécanismes d’agrégation mécanismes d’agrégation
calcul : ventes / gamme / région
calcul : ventes / gamme / région • solution 3
4 créer n tables de faits, structurées à l’identique
• solution 2 · chaque table sert de socle à partir duquel les agrégats souhaités sont calculés
· le niveau de la table de fait de niveau le plus proche du niveau d ’agrégation est identifié
4 pré-calculer autant de niveaux de ventes que de niveaux d’agrégation
(aide du dictionnaire)
· très grande volumétrie · les agrégats sont calculés à la volée
ventes11

pays pays pays pays


ventes3
gamme gamme gamme gamme
région région région région
ventes2

famille famille famille famille


département ventes1 département département ventes1
département

ville produit ville ville ventes0 produit


ville ventes produit ventes0 ventes produit

NB : nécessite du tuning de l’activité des utilisateurs


transparent aux utilisateurs
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 65 DESS ASIR 66

11
Technologies OLAP Technologies OLAP
MOLAP, ROLAP, HOLAP MOLAP, ROLAP, HOLAP
• MOLAP : Multidimensionnal OLAP • ROLAP : Relational OLAP
4 structure de stockage multidimensionnelle 4 structure de stockage relationnelle
4 pré-agrégation au chargement des données 4 correspondance cube <-> table réalisée au moyen du dictionnaire
avantages avantages
4 performance des temps de réponse 4 appui sur BD standards
4 adapté aux faibles volumes de données 4 cohabitation décisionnel / transactionnel (homogénéisation des outils d’administration)
inconvénients 4 support de gros volumes de données

4 temps de calcul très important en phase de chargement inconvénients


4 surcoût de stockage lié à la redondance 4 temps de réponse plus lents qu’avec MOLAP
4 quantité importante de cellules creuses 4 peu adapté aux petits volumes de données
4 dégradation en cas de gros volumes de données
4 bases « propriétaires »
optimisation
4 division du cube en sous-cubes
4 gestion des cellules creuses
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 67 DESS ASIR 68

Technologies OLAP Modélisation des données : dimensions


MOLAP, ROLAP, HOLAP • dimensions conformes
• HOLAP : Hybrid OLAP 4 dimensions ayant des significations identiques dans plusieurs tables de faits
4 structure de stockage multidimensionnelle et relationnelle
4 définition des dimensions conformes
· organisation des données de l’entrepôt
données détaillées sur la base relationnelle, · étape importante de la construction d’un ED (ensemble intégré)
agrégats sur la base multidimensionnelle ex : client, produit, lieux géographiques, promotions, temps, ...

4 conception des dimensions conformes


· partitionnement selon les dimensions
· niveau de détail le plus fin possible
données « actuelles » dans la base multidimensionnelle
données anciennes dans la base relationnelle · prévoir des clés différentes des clés du système opérationnel

avantages 4 représentation des dimensions conformes


4 « le beurre et l’argent du beurre » · table principale : clé valide + attributs A JOUR décrivant la dimension, issus de plusieurs
systèmes opérationnels
inconvénients
4 liens inter datamarts
4 cohabitation de deux mondes => administration complexe
· cohérence des interfaces utilisateurs et des contenus
· cohérence de l’interprétation des attributs entre les différents datamarts
CP dimension temps : jours+attributs descriptifs des calendriers de l’entreprise
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 69 DESS ASIR 70

Modélisation des données : dimensions Modélisation des données : dimensions


• dimensions conformes
dimension • attributs dimensionnels
dimension dimension
4 décrivent les informations rapportées aux utilisateurs
4 doivent répondre à des critères de qualité
faits · littéraux (mots entiers)
faits faits
· descriptifs (pas de codes)
· complets (sans données manquantes)
dimension dimension
dimension · documentés (cf métadonnées : origine, interprétation de chaque attribut)
· indexés (B-arbre, bitmap)

• standard de la dimension temps


datamart
datamart • dimensions de vérification
datamart 4 traçabilité des enregistrements des tables de faits

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 71 DESS ASIR 72

12
Modélisation des données : dimensions Modélisation des données : dimensions
• dimensions changeantes
4 évolution des valeurs des attributs dimensionnels • dimensions fourre-tout
4 mises en œuvre possibles 4 regroupement d’attributs et d’indicateurs inclassables,

cléClient nomClient0 adrClient0 client à t0 non intégrables aux dimensions évidentes de manière cohérente

changement d’adresse à t1
!!! Éviter de
cas 1 cléClient nomClient0 adrClient1 corrections d’erreurs - intégrer les indicateurs et attributs dans les tables de faits
- faire une dimension par valeur
gestion des
cas 2 cléClient nomClient0 adrClient0 adrClient1 changements légers - supprimer les données correspondantes

cléClient version0 t0 – t1 nomClient0 adrClient0 suivi précis des


cas 3 changements d’attributs,
cléClient version1 t1 – nomClient0 adrClient1
partitionnement historique,
adapté aux évolutions rapides

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 73 DESS ASIR 74

Modélisation des données : faits Modélisation des données : faits


• faits conformes • familles de tables de faits
4 appartiennent au même contexte dimensionnel 4 tables de faits transactionnels
4 permettent de réaliser des analyses sur des données issues de plusieurs · correspondent à la vision la plus détaillée
datamarts · permettent des analyses de comportement très fines
4 doivent présenter les mêmes unités de mesure · permettent d’isoler les dimensions
4 doivent être définis sur des périodes cohérentes ex : transaction à un GAB
ex : CA, recettes, bénéfices, coûts, ... – date et heure, lieu, compte, type de transaction
· fait == montant de transaction
4 tables des instantanés périodiques
• placement des tables de faits
· correspondent à une vision synthétique, sur une période
4 niveau le plus bas des dimensions qui les composent
· s’appuient sur les tables de transaction
ex : instantané journalier GAB
– montant des retraits/jour, montant des dépôts/jour, nb consultations, …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 75 DESS ASIR 76

Modélisation des données : faits Modélisation des données


conversion schéma entité/relation -> schéma décisionnel
• familles de tables de faits • scinder le schéma entité/relation en autant de sous schémas que de processus
4 tables des agrégats métier
· contiennent des récapitulatifs
dans un but essentiel d’optimisation des performances • dans chaque sous schéma, sélectionner les relations n-n contenant des faits
numériques et additifs (autres que les clés) et en faire des tables de faits
· familles de tables de faits dérivés de la table de faits la plus détaillée
dans les DM
• dé-normaliser toutes les autres tables en tables dotées de clés uniques, reliées
4 tables de faits sans faits directement aux tables de faits (<= tables dimensionnelles)
· servent à décrire des évènements ou des couvertures d’évènements
• si une table dimensionnelle est reliée à plusieurs tables de faits, elle est
représentée dans tous les schémas correspondants et correspond à une dimension
conforme.

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 77 DESS ASIR 78

13
Optimisation : agrégation Optimisation : agrégation
• élaborer plusieurs séries d’agrégats, représentant plusieurs niveaux
• navigateur d’agrégats
de regroupement le long des dimensions
4 basé sur les requêtes types des utilisateurs (<= tuning) client
émetteur de requêtes
• créer les agrégats à l’extérieur du SGBD résultats
SQL
4 phase ETML agrégés

• possibilité de métadonnées navigateur d’agrégats


4 créer de nouveaux agrégats
4 mettre des agrégats hors service SQL « agrégats »
résultats
traduction
4 supprimer des agrégats obsolètes « tirant parti »
agrégés
des agrégats
de manière transparente pour les utilisateurs
SGBD
Recommandations : données
+
bonnes performances : volume des tables d’agrégats = = volume des tables de détail agrégats

performances dégradées : volume des tables d’agrégats < 25% volume des tables de détail
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 79 DESS ASIR 80

Optimisation : agrégation
Optimisation : indexation
• règles • accélération des accès aux données
4 stocker les agrégats dans leurs propres tables de faits,
indépendamment des tables de base • index B-arbre
· ne pas mélanger les niveaux de détail (évite les erreurs de double comptage) 4 attributs à forte cardinalité
· permet une meilleure administration des agrégats 4 chemins de longueur identique de la racine vers n’importe quelle feuille
4 constituer une « famille de schémas », regroupant la table de faits de base
4 taux de remplissage d’au moins 50% garanti pour chaque nœud
et les tables d’agrégats dérivées
· permet au navigateur de repérer les tables liées les unes aux autres 22 54
4 réduire les tables dimensionnelles associées aux tables d’agrégats
10 14 22 31 39 54
par rapport aux tables dimensionnelles associées aux faits de base
· ne garder que les attributs dimensionnels relatifs aux niveaux supérieurs aux 1 3 8 10 11 12 14 16 18 20 22 24 30 31 35 36 37 39 41 45 49 50 54
niveaux d’agrégation
4 veiller à ce que le code SQL fasse référence aux tables de faits de base et +
aux tables dimensionnelles associées B-arbre généré automatiquement sur la clé primaire d’une table
· les agrégats n’ont pas à être connus des utilisateurs …

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 81 DESS ASIR 82

Optimisation : indexation Optimisation : indexation


• indexation des tables de faits
• index bitmap
4 B-arbre sur la clé
4 attributs à faible cardinalité
4 prévoir des index sur les attributs de jointure (optimiseur de requêtes)
4 utilisés couramment pour les attributs dimensionnels
4 prévoir des index en cas de filtrage sur les valeurs des faits
idProduit gamme … ventes bitmap bitmap bitmap
gamme=1 gamme=2 gamme=3
P1 1 10 • indexation des tables dimensionnelles
P2 1 10 1 0 0
P3 2 20 1 0 0 4 B-arbre sur la clé
P4 1 15 0 1 0
P5 3 30 1 0 0 4 prévoir des index (B-arbre ou bitmap) sur les attributs dimensionnels
P6 2 25 0 0 1
P7 3 40 0 1 0 bitmap bitmap bitmap le plus souvent utilisés
P8 1 10 gamme=1 gamme=2 gamme=3
0 0 1
P9 2 20 1 0 0
0 1 0 B-arbre sur gamme • chargement
4 supprimer les index
4 charger
4 reconstruire les index
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 83 DESS ASIR 84

14
Optimisation : fragmentation
Optimisation : fragmentation
• partitionnement horizontal
• partitionnement des tables volumineuses
A1 A2 An
4 tables de faits (le plus souvent selon la date), tables dimensionnelles
4 accès par les requêtes aux partitions nécessaires à leur résolution uniquement

• partitionnement des index associés


• partitionnement vertical

A1 A2 An B2 Bp NB : partitionnement transparent aux utilisateurs

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 85 DESS ASIR 86

Optimisation : parallélisme
Optimisation : parallélisme
• architectures
• utilisation optimale des ressources 4 SMP (Symmetric MultiProcessing)
4 répartition des traitements sur un ensemble de processeurs
CPU … CPU Tous les processeurs
T1 : a1*b1+c1/d1 T2 : a2*b2+c2/d2 • ont la même priorité
mémoire • partagent un unique espace d’adressage mémoire
2 processeurs : p1 et p2


p1 r11 = a1*b1 r22 = c2/d2 r2 = r21+r22
p2 r12 = c1/d1 r1 = r11+r12 r21 = a2*b2
4 NUMA (Non Uniform Memory Access)
parallélisme MIMD Tous les processeurs
CPU … CPU CPU … CPU • ont la même priorité
• partagent un unique espace d’adressage mémoire
mémoire mémoire
p1 a1 *
b1 +
c1 / d1 Organisation en grappes, chaque processeur a
p2 a2 b2 c2 d2 une mémoire primaire
des mémoires secondaires distantes
parallélisme SIMD, vectoriel …

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 87 DESS ASIR 88

Optimisation : parallélisme Optimisation : parallélisme


• architectures • avantage
4 clusters 4 gain de performance pour les très gros SGBD

CPU … CPU CPU … CPU mémoire distribuée, performances


bon mécanisme de reprise après panne, MPP
« scalable ».
mémoire mémoire
Configurations à 2, 4, 8 noeuds NUMA

SMP

Cluster
4 MPP (Massively Parallel Processing)
processeurs
CPU CPU
chaque processeur a sa mémoire privée,
mémoire mémoire tous les processeurs sont interconnectés • inconvénient
4 nécessité d’adaptation des logiciels au parallélisme
CPU CPU · veiller à répartir équitablement les tâches, à ne pas faire d’opérations
contradictoires sur les données
mémoire mémoire

UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 89 DESS ASIR 90

15
Optimisation : parallélisme Optimisation : parallélisme
• problématique des SGBD
4 consultation • solutions
· accès en lecture sur de gros volumes de données 4 partager les données
4 maintenance · solution pour les sauvegardes :
· chargements, mises à jour lancer les sauvegardes de différents tablespaces en parallèle
· sauvegardes 4 coordination des verrouillages et déverrouillages
• solutions · protocoles à 2 ou 3 phases, avec échange de messages

4 partager les tâches utilisateurs sur les processeurs


· attention aux tâches « batch »
4 parallélisation des entrées/sorties
· répartition des données sur les différents contrôleurs
4 diviser les tâches en sous-tâches se déroulant en parallèle
– réduction des contentions
SELECT * FROM E1 – lectures distribuées sur les contrôleurs
- SELECT * FROM E fragments
à condition que les données soint équitablement réparties …
SELECT * FROM E2
– adapté au partitionnement

- jointures par hachage
regroupement de tuples des tables dans des paquets, définis par un fonction de · au minimum
hachage et qui composent des fragments pouvant être traités en parallèle. – séparer tables, index, journaux, dictionnaire, …
UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen UFR SSI / UBS Systèmes d’information décisionnels Michèle Raphalen
DESS ASIR 91 DESS ASIR 92

16