Vous êtes sur la page 1sur 52

Entrepôts de données spatiales, OLAP et SOLAP

D'après Cours omatique Laval

Table des matières

Entrepôts de données :

– Systèmes transactionnels vs systèmes d analyse

Définition d un entrepôt de données

Définition d un marché de données

Composantes d un entrepôt de données

Différentes architectures d entrepôt de données

Approches d implantation

Centralisation vs distribution Entrepôts de données spatiales

Outils clients d un entrepôt de données

Table des matières

OLAP :

Définition

– Concepts

– Opérations OLAP

SOLAP :

Définition

– Concepts

Entrepôts de données

Le marché traditionnel

Les outils traditionnels de gestion et d’exploitation des données spatiales sont du type transactionnel ou OLTP (On-Line

Transaction Processing) :

• SGBD (Système de gestion de base de données)

SIG (Système d’information géographique)

Serveurs SIG-WEB

Systèmes transactionnels

• Le transactionnel réfère à un mode d’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la sécurité et lintégrité des données.

Par exemple, les systèmes de gestion des transactions boursières ou bancaires, dont les guichets automatiques ou les systèmes d’inventaire dans les magasins

Systèmes transactionnels

(Operational Data Store ou Legacy System)

« Le système transactionnel est généralement une base de données, développée par application, stockant les données courantes d’une organisation, c’est-à-dire qu’il n’y a pas de données d’archives dans les systèmes

transactionnels » (Bédard et al. 1997)

Systèmes transactionnels

Le système transactionnel réfère aux bases de données développées afin de gérer les transactions quotidiennes

Ces bases de données supportent habituellement des applications particulières telles que les inventaires de magasins, les réservations d’hôtel, etc

Systèmes transactionnels

• Le contenu est fait de données actuelles, pas d’archives

• Les données sont très détaillées (détails de chacune des transactions)

• La mise à jour s’effectue par de nouvelles transactions

• Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres dans les grandes organisations

Systèmes transactionnels

La plupart des systèmes transactionnels sont implantés selon une structure relationnelle normalisée différents degrés) :

Redondance minimum

– Intégrité des données

– Facilité de mise à jour

Systèmes transactionnels

Opérations dans les systèmes transactionnels

• Ajout

Effacement

• Mise à jour des enregistrements (habituellement, gros volume de transactions impliquant chacune un petit volume de données détaillées)

• Requêtes simples (de type non-agrégatif)

11

Obstacles à l’analyse dans les systèmes transactionnels

Les bases de données transactionnelles sont habituellement normalisées de telle sorte que la duplication des données est à son minimum :

– Assure l intégrité des données

Simplifie la mise à jour des données

Cependant, une très forte normalisation complexifie l analyse des données :

Nombre élevé de tables donc nombre élevé de jointures nécessaires entre les tables (performance pauvre)

Temps de traitement long

– Élaboration complexe des requêtes

Difficulté d optimiser le fonctionnement des systèmes transactionnels et des systèmes d aide à la décision qui partagent la même structure de données.

12

Obstacles à l’analyse dans les systèmes transactionnels

De plus, les types d analyses servant aux processus de décision des organisations nécessitent :

– Données sommaires (agrégées ou résumées) sur l ensemble de l organisation (provenant des différentes BD dispersées de l organisation et intégrées)

– Données historiques

– Réponses rapides (requêtes surtout de type agrégatif), interfaces à l usager faciles à utiliser

Besoin de systèmes dédiés à lanalyse

Systèmes d’analyse

Les nouveaux outils dexploitation des données spatiales sont de type analytique:

Entrepôts de données (Data Warehouses)

• Marchés de données (Data Marts)

Clients :

Requêteurs et rapporteurs (Querying and Reporting Tools)

OLAP (On-Line Analytical Processing)

Forage de données automatique (Data Mining)

Entrepôts de données

« Un entrepôt de données est une collection de données portant sur des sujets touchant une organisation, intégrée, variant dans le temps, et non-volatile pour supporter le processus de prise de décision d’une

organisation » (Inmon et al. 1996)

Entrepôts de données

Reports

&

Analysis

Reports & Analysis
OLAP Appli. Appli. Appli. ETL DW OLTP DM
OLAP
Appli. Appli. Appli.
ETL
DW
OLTP
DM
Entrepô ts de donn ées Reports & Analysis OLAP Appli. Appli. Appli. ETL DW OLTP DM

Aides à la décision

Entrepô ts de donn ées Reports & Analysis OLAP Appli. Appli. Appli. ETL DW OLTP DM

16

Entrepôts de données

• Sujets touchant une organisation :

Par exemple, les ventes et les produits

• Données intégrées :

Proviennent de différentes sources : systèmes transactionnels, systèmes d’archivage, sources externes à l’organisation

• Données qui varient dans le temps :

– Données courantes et données historiques

• Données non-volatiles :

– Aucune mise à jour, seulement des ajouts

• Données qui servent à supporter les processus de décision :

Serviront à l’analyse

17

Entrepôts de données

• L’entrepôt de données réfère aux bases de données développées afin d’analyser un grand volume de données

• Le contenu est fait des données actuelles et d’archives

• Les données sont agrégées ou résumées

Aucune mise à jour n’est effectuée, mais l’ajout de nouvelles données est possible

• Un système global existe dans les grandes organisations

Marché de données

« Le marché de données est une implantation localisée dun entrepôt de données à usage unique » (traduction libre

Devlin 1997)

« L’entrepôt de données est prévu pour l’entreprise dans son ensemble alors que le marché de données est sectoriel (il peut être un sous- ensemble exact ou modifié de l’entrepôt de

données) » (Bédard et al, 1997)

sumé des concepts

Systèmes transactionnels (ST)

Entrepôts de données

Marchés de données

Construit pour les transactions (OLTP)

Construit pour l'analyse

Construit pour l'analyse

Données détaillées

Données détaillées et résumées

Données détaillées et résumées

Intégré selon les applications

Intégré pour l'entreprise

Intégré par sujet ou département

Mis à jour continuellement

Jamais mis à jour, seulement ajout de nouvelles données

Jamais mis à jour, seulement ajout de nouvelles données

Données actuelles

Données actuelles et d’archive

Données actuelles et d’archive

Source originale des données

Données importées des ST

Données importées des ST et/ou d’entrepôts

Structure normalisée

Structure dénormalisée

Structure dénormalisée

Composantes de l entrepôt

I I - - Gestion Gestion des des données données II- III- IV- V- II-
I I - - Gestion Gestion des des données données
II-
III-
IV-
V-
II-
III-
IV-
V-
Construc-
Construc-
Sources Sources
Construc-
Construc-
Accès Accès
de de
tion tion de de
l’entrepôt l’entrepôt
tion tion des des
marchés marchés
et et
données données
usage usage
VI- VI- Gestion Gestion des des métadonnées métadonnées VII- VII- Transport Transport
VI- VI- Gestion Gestion des des métadonnées métadonnées
VII- VII- Transport Transport
métadonnées métadonnées VII- VII- Transport Transport Peut d éjà exister dans l ’ entreprise Tiré de
métadonnées métadonnées VII- VII- Transport Transport Peut d éjà exister dans l ’ entreprise Tiré de

Peut déjà exister dans l entreprise

Tiré de Gill & Rao, 1996

I et VI : activités d extraction, de chargement, de mise à jour et de rafraîchissement des données

II: données des systèmes transactionnels,

internes ou externes à l entreprise

III et IV: outils de modélisation, de nettoyage et

d intégration

V: outils de création de rapports, requêteurs, OLAP et de forage de données (clients)

VII : réseaux, protocoles de communication, logiciels middleware* et outils de réplication

VIII: hardware, système d exploitation et SGBD

*Middleware

• Le middleware est un logiciel qui permet à une application d’interopérer avec dautres logiciels dans un environnement client- serveur.

Il existe différents types de middlewares pour répondre à différents objectifs.

Ces outils doivent respecter des normes reconnues pour parvenir à interopérer.

Exemples : OLE-DB, ADO, ODBC, JDBC, CORBA,

Architecture des entrepôts de données

• Une architecture d’entrepôt de données possède les caractéristiques suivantes :

les données sources sont extraites de systèmes, de bases de données et de fichiers

les données sources sont nettoyées, transformées et intégrées* avant d’être stockées dans l’entrepôt

l’entrepôt est en lecture seulement et est défini spécifiquement pour la prise de décision organisationnelle

les usagers accèdent à l’entrepôt à partir d’interfaces et d’applications (clients)

Architecture des entrepôts de données

* Inconsistances :

– d’identification

de format

– sémantiques

de domaines

d’échelles

Architecture centralisée

(Corporated architecture)

Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu
Architecture centralisé e (Corporated architecture) Systèmes transactionnels de l ’organisation Clients distribu

Systèmes transactionnels de l’organisation

Systèmes transactionnels de l ’organisation Clients distribu és Entrepôt de données centralisé,

Clients distribués

Entrepôt de données centralisé, unique et intégré de lorganisation

Il s agit de la version centralisée et intégrée d un entrepôt regroupant l ensemble des données de l entreprise. Les différentes bases de données sources sont intégrées et sont distribuées à partir de la même plate-forme physique

Architecture fédérée

(Federated architecture)

Département A Département B Département C Entrepôt de données de l’organisation Systèmes transactionnels de
Département A
Département B
Département C
Entrepôt de données
de l’organisation
Systèmes
transactionnels
de l’organisation
Marchés de données
distribués par
département
Clients
distribués

Il s agit de la version intégrée d un entrepôt où les données sont introduites dans les marchés de données orientés selon les différentes fonctions de lentreprise

26

Architecture trois-tiers

(Three-tier architecture)

Tiers 3

Tiers 2

Tiers 1

(Three -tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels
(Three -tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels
(Three -tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels
(Three -tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels
(Three -tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels

Département A

-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données
-tier architecture) Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données

Département B

Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données très détaillées)
Tiers 3 Tiers 2 Tiers 1 Département A Département B Syst èmes transactionnels (données très détaillées)

Systèmes transactionnels (données très détaillées)

B Syst èmes transactionnels (données très détaillées) Département C Entrepôt de données (données détaillées)
B Syst èmes transactionnels (données très détaillées) Département C Entrepôt de données (données détaillées)

Département C

(données très détaillées) Département C Entrepôt de données (données détaillées) Marché s de

Entrepôt de données (données détaillées)

Marchés de données (données résumées et agrégées)

Clients distribués

Il sagit d une variante de l architecture fédérée où les données sont divisées par niveau de détail

Architecture à niveaux multiples

(Multiple-tiers architecture)

Tiers 4

Tiers 3

Tiers 2

Tiers 1

architecture) Tiers 4 Tiers 3 Tiers 2 Tiers 1 Département A Entrepôt (données résumées) Département
architecture) Tiers 4 Tiers 3 Tiers 2 Tiers 1 Département A Entrepôt (données résumées) Département
architecture) Tiers 4 Tiers 3 Tiers 2 Tiers 1 Département A Entrepôt (données résumées) Département

Département A

architecture) Tiers 4 Tiers 3 Tiers 2 Tiers 1 Département A Entrepôt (données résumées) Département B
architecture) Tiers 4 Tiers 3 Tiers 2 Tiers 1 Département A Entrepôt (données résumées) Département B

Entrepôt (données résumées)

2 Tiers 1 Département A Entrepôt (données résumées) Département B Département C Entrepôt (données

Département B

A Entrepôt (données résumées) Département B Département C Entrepôt (données détaillées) Systèmes
A Entrepôt (données résumées) Département B Département C Entrepôt (données détaillées) Systèmes

Département C

(données résumées) Département B Département C Entrepôt (données détaillées) Systèmes transactionnels

Entrepôt (données détaillées)

Systèmes transactionnels (données très détaillées)

Marchés de données (données résumées et agrégées)

Clients

distribués

Il sagit d une variante de l architecture trois-tiers où l entrepôt se compose de deux niveaux de détail (utile pour entrepôt de données spatiales)

28

Approches d implantation

Approches d ’ implantation Entrepôt de données Bottom up Marché s de données 29
Approches d ’ implantation Entrepôt de données Bottom up Marché s de données 29

Entrepôt de

données
données
Approches d ’ implantation Entrepôt de données Bottom up Marché s de données 29
Approches d ’ implantation Entrepôt de données Bottom up Marché s de données 29

Bottom up

Marchés de

données

Approches d implantation

Approche Bottom up

Avantages :

permet de répondre rapidement à des besoins extrêmement urgents dans des départements où la gestion est décentralisée

utile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la construction d'un système global intégré

permet de voir des résultats à court terme

permet de justifier la poursuite des développements plus globaux

• nécessite des coûts moindres en termes d’équipements et autres ressources à court terme

• peut être utilisée lorsque la gestion des données est déjà décentralisée et que les données gérées sont propres à chacun des groupes de l’organisation

Inconvénients :

• peut entraîner des problèmes d’évolutivité vers une architecture plus robuste

• doit faire partie d’un processus global pour être réussi

• des problèmes de redondance et d’inconsistances sont possibles

30

Approches d implantation

Approches d ’ implantation Entrepôt de données Top down Marché s de données 31

Entrepôt de

données

Approches d ’ implantation Entrepôt de données Top down Marché s de données 31

Top down

Marchés de

données

Approches d implantation

Approche Top down

Avantages :

• définition des données intégrée et très consistante

• fonctionne habituellement bien lorsque la gestion des données est déjà centralisée à un certain niveau

Inconvénients :

• demande des efforts très importants de planification, d’analyse et de conception au début du projet

• coût de réalisation significatif

• présente des délais avant que l’implantation finale puisse être fonctionnelle

• retour d’investissement et bénéfices visibles seulement à long terme

• demande une bonne coordination entre les différents groupes de l’organisation et les consensus peuvent être difficiles à obtenir

32

Entrepôts physiques et virtuels

Entrepôt physique

Entrepôt virtuel

- Données persistantes

- Aucune donnée persistante

- Intégration a priori

- Intégration à la volée (on the fly)

- Toutes les données sont intégrées

- Intégration lorsque requis

- Nécessite un SGBD

- Aucune nécessité d’un SGBD

- Temps de réponse rapides

- Temps de réponse plus lents

- Adapté pour les grandes bases de données

- Fonctionne pour les petites bases de données

Logiciels

CubeWerx CubeStor

Hyperion Essbase

IBM Red Brick Warehouse

NCR Teradata Warehouse

Entrepôts de données spatiales

« Un entrepôt de données spatiales est une collection de données spatiales de qualité, orientée par sujet, non-volatile, variable dans le temps, qui inclut un ensemble d’outils de base permettant d’accéder et d’extraire linformation. » (Traduction libre, Rawling et al 1997)

Entrepôts de données spatiales

La nature des données spatiales nécessite de tenir compte des possibles incompatibilités :

• dans la référence spatiale (position, forme, orientation, taille)

• dans les systèmes de référence

• dans les unités de mesure

• dans l’incertitude spatiale

• dans la précision

• dans le format •…

Besoin d’outils d’intégration ou daccès spécialisés (ex. FME, OGDI)

Entrepôts de données spatiales

Autres éléments à prendre en considération lors de l’intégration des données spatiales :

la topologie

les contraintes d’intégrité spatiale

la consistance entre les échelles

• …

Traitements longs, complexes et coûteux

Afin d’éviter de répéter les efforts d’intégration, il peut être utile de stocker le résultat des différentes étapes d’intégration, par exemple dans une architecture à niveaux multiples

37

Outils clients d un entrepôt de données

Différents types d usagers nécessitent différents outils dexploitation de données. Il en existe trois principaux types :

• Les logiciels requêteurs (Cognos Impromptu, Crystal Decisions Crystal analysis, …)

• Les outils de forage de données (SPSS

Clementine, SGI Mineset, …)

• Les outils OLAP (Hyperion Analyzer, Cognos Powerplay, ProClarity, …)

OLAP

OLAP

« Il s agit d une catégorie de logiciels axés sur l exploration et l analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux dagrégation » (Caron, 1998)

OLAP

Catégorie de logiciels :

– S’exprime par une grande quantité de produits logiciels disponibles sur le marché

Exploration et analyse rapide :

– OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement

Rapidité et facilité

OLAP

• Facilité

– L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes

– L’usager interroge directement les données, en interagissant avec celles-ci

• Rapidité

OLAP exploite une dénormalisation maximale des données, sous la forme d’une pré-agrégation stockée L usager devient opérationnel en très peu de temps

Lusager peut se concentrer sur son analyse et non sur le processus (les moyens utilisés pour lanalyse)

42

OLAP

Approche multidimensionnelle :

– Basée sur des thèmes d’analyse (dimensions)

– Plus intuitive

Plusieurs niveaux d agrégation :

– Les données peuvent être groupées à différents niveaux de granularité (les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois).

– Granularité : niveau de détail des données emmagasinées dans une base de données.

Composantes OLAP

• L’architecture OLAP consiste en trois services :

Base de données :

Doit supporter les données agrégées ou résumées

Peut provenir d’un entrepôt ou d’un marché de données*

– Doit posséder une structure multidimensionnelle (SGDB multidimensionnel ou relationnel) Serveur OLAP :

– Gère la structure multidimensionnelle dans le SGBD

– Gère l’accès aux données de la part des usagers

Module client :

Permet aux usagers de manipuler et d’explorer les données

Affiche les données sous forme de graphiques statistiques et de tableaux

Selon le type de base de données accédé, plusieurs configurations sont possibles : multidimensionnelle, relationnelle ou hybride

Opérations OLAP

Les outils OLAP utilisent des opérateurs particuliers afin de « naviguer » dans les cubes multidimensionnels :

Pivoter (pivot, swap) : Permet dinterchanger deux dimensions

Forer (drill-down) : Permet de descendre dans la hiérarchie de la dimension. Ex. visualiser le nombre d accidents par mois au lieu de par année.

Remonter (drill-up, roll-up) : Permet de remonter dans la

hiérarchie de la dimension. Ex. visualiser le nombre d accidents par année au lieu de par mois.

Forer latéralement (drill-across) :

– Permet de passer d une mesure à l autre. Ex. visualiser le coût des travaux au lieu du nombre d accidents

– Permet de passer d un membre de dimension à un autre. Ex. visualiser les données de Montrpellier au lieu de celles du Languedoc-Roussillon

45

OLTP vs OLAP

OLTP (On-line transaction processing)

Priorité à la sécurité et l’intégrité des données.

Optimisation du rapport “espace de

stockage vs. quantité de données” (non-redondance des données).

BD mise à jour fréquemment (transactions).

OLAP (On-line analytical processing)

Priorité à l’analyse et l’exploration des données

Optimisation du temps de réponse aux requêtes (redondance

encouragée s’il y a gain de performance)

Gestion de données pré-agrégées, en mode lecture (mise à jour contrôlée)

OLTP vs OLAP

OLTP (On-line transaction processing)

OLAP (On-line analytical processing)

Outil de requête tributaire de la structure de données (un usager doit connaître la structure de la base de données pour l’interroger efficacement).

Requêtes “non-agrégatives” i.e. visitent peu d’enregistrements, mais mettent à contribution les techniques d’indexation pour retourner un nombre relativement restreint d’enregistrements répondant à certains critères.

Absence d’outil de requête i.e. l’usager interagit directement avec les données

Requêtes principalement du type “agrégatif” i.e. calculs de totaux, variance, maxima et minima, etc…

SOLAP

SOLAP

Sainte-Foy

123,

G1K 7P4

rue St-Jean

Route 138

Environ 80% des données ont une composante spatiale qui est souvent inexploitée

Québec

Amérique du Nord

Besoin de nouveaux outils d’analyse spatio-temporelle pour exploiter cette composante

SOLAP

SIG ? : Il est bien connu que les SIG seuls ne présentent pas l’efficacité requise par les applications analytiques (langages d’interrogation, interfaces complexes, temps de traitement longs)

• OLAP ? : Lintérêt d OLAP pour l analyse spatio- temporelle a été démontré [Caron, 1997]. Cependant, sans volet cartographique, il est impossible de visualiser la composante géométrique des données

• SIG + OLAP ? : Une solution pourrait être de combiner des technologies spatiales et non-spatiales : SIG et OLAP

50

SOLAP

SOLAP : Une plate-forme visuelle supportant l’exploration et l’analyse spatio-temporelle faciles et rapides des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, tabulaire ou en diagramme statistique.

ExempleExemple ddinterfaceinterface SOLAPSOLAP

Exemple Exemple d d ’ ’ interface interface SOLAP SOLAP 52