Vous êtes sur la page 1sur 30

Abonnez-vous à DeepL Pro pour éditer ce document.

Visitez www.DeepL.com/Pro pour en savoir plus.

Entrepôt de données
Le terme "Data Warehouse" a été inventé par Bill
Inmon en 1990, qu'il a défini de la manière
suivante : Un entrepôt de données est une
collecte de données orientée vers un sujet,
intégrée, variable dans le temps et non volatile,
en soutien au processus de prise de décision de
la direction. Il a défini les termes dans la phrase
comme suit :

Orienté sur le sujet :


Données qui donnent des informations sur un sujet
particulier plutôt que sur les activités courantes d'une
entreprise.

Intégré :
Données qui sont recueillies dans l'entrepôt de données à
partir de diverses sources et fusionnées en un tout
cohérent.

Variable dans le temps :


Toutes les données dans l'entrepôt de données sont
identifiées avec une période de temps particulière.

CS4221 : Conception de la base de données 1 Entrepôt de données


Non-volatile :
Les données sont stables dans un entrepôt de données.
D'autres données sont ajoutées, mais les données ne sont
jamais supprimées. Cela permet à la direction d'obtenir
une image cohérente de l'entreprise.
(Source : "Qu'est-ce qu'un entrepôt de données ? W.H. Inmon,
Prism, Volume 1, Numéro 1, 1995).

Cette définition reste raisonnablement précise près de dix


ans plus tard. Toutefois, un entrepôt de données à sujet
unique est généralement appelé "data mart", tandis que
les entrepôts de données sont généralement des
entreprises.
De plus, les entrepôts de données peuvent être
volatiles. En raison de la grande quantité de stockage
requise pour un entrepôt de données (les entrepôts de
données de plusieurs téraoctets ne sont pas rares), seul
un certain nombre de périodes de l'histoire sont
conservées dans l'entrepôt.
Par exemple, si trois années de données sont
décidées et chargées dans l'entrepôt, chaque mois, le
mois le plus ancien sera "déroulé" de la base de
données, et le mois le plus récent sera ajouté.

Ralph Kimball a fourni une définition beaucoup plus


simple d'un entrepôt de données. Comme il l'indique dans
son livre, "The Data Warehouse Toolkit" :

CS4221 : Conception de la base de données 2 Entrepôt de données


Un entrepôt de données est une copie des
données de transaction spécifiquement
structurée pour la recherche et l'analyse.
Cette définition offre moins d'éclairage et de profondeur
que celle de M.
Inmon, mais n'est pas moins
précis.

Une autre définition :

Un entrepôt de données est un référentiel


(données et métadonnées) qui contient des
données intégrées, nettoyées et rapprochées
provenant de sources disparates pour des
applications d'aide à la décision, en mettant
l'accent sur le traitement analytique en ligne. En
général, les données sont multidimensionnelles,
historiques et non volatiles.

Architecture des entrepôts de données

CS4221 : Conception de la base de données 3 Entrepôt de données


Composantes de l'entreposage des données

CS4221 : Conception de la base de données 4 Entrepôt de données


Entrepôt de données
Aide à la décision et OLAP

• Les technologies de l'information pour aider le


travailleur de la connaissance (cadre, gestionnaire) à
prendre des décisions plus rapides et meilleures.

CS4221 : Conception de la base de données 5 Entrepôt de données


Par exemple, quels ont été les volumes de ventes par
région et par catégorie de produits pour l'année
écoulée ?

Par exemple, liste des 10 produits les plus vendus


chaque mois en 1996

• Le traitement analytique en ligne (OLAP) est un


élément des systèmes d'aide à la décision (DSS)

référence : VLDB'96 notes de tutoriel par Chauhuri & Dayal VLDB


'97 notes de tutoriel par Schneider

OLTP contre OLAP

- Traitement des transactions en ligne (OLTP)

CS4221 : Conception de la base de données 6 Entrepôt de données


OLTP OLAP

utilisateur Commis, professionnel de Travailleur de la


l'informatique connaissance
Fonction
Opérations quotidiennes Aide à la décision
Conception
de la DB Orienté vers les applications Orienté vers le sujet

Données Actuel, à jour Historique


Détaillé, relationnel plat Résumé
Isolé Multidimensionnel
Intégré, consolidé

usage Répétitif Ad hoc

accès Lire/écrire A lire surtout


Index/rappel sur la clé Prim Beaucoup de scanners

unité de transaction courte et simple Requêtes complexes


travail
des dizaines millions
#records
consulté à
l'adresse milliers des centaines
suivante :
100MB-GB 100GB-TB
#utilisateurs
Débit de transit Débit des requêtes, réponse
Taille de la
DB

CS4221 : Conception de la base de données 7 Entrepôt de données


métrique
Entrepôt de données

• Une base de données d'aide à la décision qui est


maintenue séparément des bases de données
opérationnelles de l'organisation.

• Un entrepôt de données est

- axée sur le sujet - intégrée


- variable dans le temps
- non volatil

la collecte de données utilisées principalement dans la


prise de décision organisationnelle.

Pourquoi un entrepôt de données séparé ?

• Une organisation spéciale des données, des méthodes


d'accès et des méthodes de mise en œuvre sont
nécessaires pour soutenir les vues multidimensionnelles
et les opérations typiques de l'OLAP.

par exemple, le volume total des ventes de boissons


pour la région occidentale l'année dernière.

CS4221 : Conception de la base de données 8 Entrepôt de données


• Des requêtes OLAP complexes dégraderaient les
performances des transactions opérationnelles.

• Fonction

- les données manquantes : Le DSS a besoin de


données historiques, que les bases de données
opérationnelles ne conservent généralement pas.

- la consolidation des données : Le DSS exige la


consolidation de données (agrégation, résumé)
provenant de nombreuses sources hétérogènes : bases
de données opérationnelles, sources externes.

- la qualité des données : les différentes sources


utilisent généralement des représentations, des codes
et des formats de données incohérents, qu'il
convient de concilier.
Données multidimensionnelles

• Le volume des ventes en fonction du produit, du temps


et de la géographie.

CS4221 : Conception de la base de données 9 Entrepôt de données


• Le produit, le temps et la géographie sont des attributs
de dimension et le volume des ventes est un attribut de
mesure.
W
Région
S
N

P1
Produit
P2

P3

P4
1 2 3 4
mois

• Les dimensions sont généralement associées à des


hiérarchies qui spécifient les niveaux d'agrégation
et donc la granularité des données de visualisation.
Année Pays Industrie

Catégorie Quartier Région

Mois Semaine Ville produit

Bureau de jour

CS4221 : Conception de la base de données 10 Entrepôt de données


Opérations

• Roulez : Résumer les données


par exemple, le volume total des ventes de l'année
dernière par catégorie de produits et par région.

• Drill down, Roll down : passer d'un résumé de niveau


supérieur à un résumé de niveau inférieur ou à des
données détaillées

Par exemple, pour une catégorie de produits


particulière, trouvez des données détaillées sur les
ventes de chaque bureau par date.

• Slice and Dice : sélectionner et projeter

par exemple, les ventes de boissons dans l'ouest au


cours des 6 derniers mois.

• Pivot : faire tourner le cube pour montrer un visage


particulier

CS4221 : Conception de la base de données 11 Entrepôt de données


Architecture de l'entrepôt de données

Analyse

Rapport de requête

Extraction de
données

Outils

CS4221 : Conception de la base de données 12 Entrepôt de données


Deux /trois - Architecture à plusieurs niveaux

• Serveur de la base de données de l'entrepôt


* presque toujours un SGBD relationnel rarement des
fichiers plats.

• Serveurs OLAP

* OLAP relationnel (ROLAP) : SGBD relationnel


étendu qui met en correspondance les opérations sur
les données multidimensionnelles avec les opérations
relationnelles standard (GROUPE PAR opérateur)

* Serveur OLAP multidimensionnel (MOLAP) à


usage spécifique qui met directement en œuvre des
données et des opérations multidimensionnelles

* Clients
- Outils d'interrogation et de rapport
- Outils d'analyse
- Outils d'exploration des données (par exemple,
analyse des tendances, prévisions) Architecture
d'entreposage

CS4221 : Conception de la base de données 13 Entrepôt de données


• Enterprise Warehouse : collecte toutes les informations
sur les sujets (clients, produits, ventes, actifs, personnel)
qui couvrent l'ensemble de l'entreprise

- Nécessite une modélisation commerciale approfondie

- La conception et la construction peuvent prendre des


années

• Data Marts : Sous-ensembles ministériels qui se


concentrent sur des sujets sélectionnés :

par exemple, le marché des données de marketing : client,


ventes, produit

- un déploiement plus rapide, mais une intégration


complexe à long terme

• Entrepôt virtuel : vues sur les bases de données


opérationnelles

- concrétiser certains points de vue (résumés)

- plus facile à construire

CS4221 : Conception de la base de données 14 Entrepôt de données


- nécessitent une capacité excédentaire sur les serveurs
opérationnels de la DB Processus opérationnel

• Extraction de données : outils, programmes


personnalisés (scripts, wrappers)

- extraire les données de chaque source

- nettoyer, transformer et intégrer des données


provenant de différentes sources

• Chargement et actualisation des données :

- charger les données dans l'entrepôt : charger les


utilitaires

- rafraîchir périodiquement l'entrepôt pour tenir compte


des mises à jour.

- purger périodiquement les données de l'entrepôt

• Construire des données et des vues dérivées

• Demandes de service

CS4221 : Conception de la base de données 15 Entrepôt de données


• Surveiller l'entrepôt

Nettoyage des données

• Pourquoi ?

- l'entrepôt de données contient des données qui sont


analysées pour les décisions commerciales

- plus de données et de sources multiples pourraient


signifier plus d'erreurs dans les données et plus de
difficultés à retracer ces erreurs

- Résultats d'une analyse incorrecte

• Détecter les anomalies des données et les corriger


rapidement est très rentable.

• Exemple :
- des longueurs de champ et des ordres incohérents

- description incohérente

- des attributions de valeurs incohérentes

CS4221 : Conception de la base de données 16 Entrepôt de données


- entrées manquantes

- violation des contraintes d'intégrité

par exemple, traduire "genre" par "sexe".


Schéma de la base de données des entrepôts

• Schéma en étoile

• Schéma du flocon de neige

• Schéma de la Constellation des faits

CS4221 : Conception de la base de données 17 Entrepôt de données


Schéma en étoile

Commander Produit
OrderNoOrderDate ProdNo
ProdName
Tableau des faits
ProdDescr
Client ClientNo CommandeNo Catégorie
Nom du client SalespersonID CatégorieDescr
Adresse du client ClientNo Prix à l'unité
Ville
ProdNo QOH
SalespersonID OrderDate
Nom du vendeur Quantité
Ville
Date
Prix total
Quota Mois
Vendeur Année

Date

Ville

CS4221 : Conception de la base de données 18 Entrepôt de données


Nom de la ville
Région
Pays

• Un seul tableau de faits et pour chaque dimension un


seul tableau de dimensions.

• Chaque fait indique un tuple dans chacun des tableaux de


dimensions et possède des attributs supplémentaires

• Ne saisit pas directement les hiérarchies

• Les clés générées sont utilisées pour des raisons de


performance et de maintenance.

CS4221 : Conception de la base de données 19 Entrepôt de données


Schéma du flocon de neige

Catégorie
CatégorieNom
CatégorieDescr
Comm Produit
ander
Command ProdNo
OrderDate
eNo
Fait T able ProdName
Client ProdDescr
ClientNo Command Catégorie
Nom du client eNo Prix à
Adresse du client
SalespersonID
l'unité
QOH
Ville ClientNo
ProdNo Date
Vendeur
SalespersonID OrderDate Date
Nom du vendeur Quantité Mois
Ville
Prix total
Quota
Ville
Nom de la
ville

Mois Année
Mois Ann
Année ée

Région

CS4221 : Conception de la base de données 20 Entrepôt de données


Nom de la région

Pays

Région

• Représenter directement les hiérarchies


dimensionnelles en normalisant les tableaux de
dimensions

• Facile à entretenir

• Sauvegarder le stockage, mais il est allégué qu'il réduit


l'efficacité de la navigation.

Constellation de faits

- des tableaux de faits multiples qui partagent de nombreux


tableaux de dimensions

Par exemple, les dépenses prévues et les dépenses


réelles peuvent se partager les tableaux de
dimensions.

Tableaux agrégés

CS4221 : Conception de la base de données 21 Entrepôt de données


• En plus des tableaux de faits et de dimensions de base,
les entrepôts de données conservent des données
agrégées (récapitulatives) par souci d'efficacité.

• Deux approches :

(1) stocker sous forme de tableaux récapitulatifs


séparés
• créer des tableaux de dimensions "réduites"
correspondants

Par exemple, si une vente est agrégée par catégorie


de produit, le tableau des produits rétrécis ne
contiendra que les informations relatives à la
catégorie.

(2) ajouter aux tableaux existants


- utiliser un champ "niveau" pour distinguer la
dimension agrégée - sujette aux erreurs.
Serveurs OLAP relationnels (ROLAP)

• Exploite efficacement le service du moteur relationnel

par exemple, le serveur DSS Microstrategy


Infomix meta cube

CS4221 : Conception de la base de données 22 Entrepôt de données


• Fonctionnalité clé
- Nécessite une logique de navigation par agrégation

- Possibilité de générer des instructions SQL multiples

- Optimiser pour chaque backend db individuel

• Services complémentaires :
* requête basée sur les coûts et gouverneur des
ressources

- détecter les demandes de fugue

- programmer les requêtes pour le débit et la réponse

- gestion du cache

* outil de conception pour le schéma DSS

- Le stockage peut augmenter considérablement si les


vues précalculées ne sont pas choisies correctement.
* outil d'analyse des performances pour choisir les
agrégats à matérialiser.

CS4221 : Conception de la base de données 23 Entrepôt de données


* le data mart crée des installations à l'heure prévue ou
déclenchées par des événements et des exceptions

* certains produits ROLAP utilisent leurs propres


structures de stockage pour les métadonnées

• outils ROLAP spécifiques au domaine sur le serveur

• Inconvénients :

* Le SQL se présente sous la forme d'un traitement


séquentiel et d'agrégations en colonnes

* Ces requêtes sont difficiles à formuler et leur


exécution peut souvent prendre beaucoup de temps.

par exemple, l'évolution des ventes totales de 1994 à


1995, agrégées par marque.
Serveurs OLAP multidimensionnels (MOLAP)

• Le modèle de stockage est un tableau à n dimensions.

• Capacités d'adressage direct

CS4221 : Conception de la base de données 24 Entrepôt de données


• Les requêtes multidimensionnelles en amont permettent
d'établir une correspondance directe avec les capacités
des serveurs.

• Problème : le traitement de données éparses dans la


représentation en tableau est coûteux

30 20 20 30 40 10 20 210
40

20 30
10 60

10
20 10 40

10 20 80
20 30

20 30
10
Produit

somme

P4

P3

P2

P1

12345678somme

CS4221 : Conception de la base de données 25 Entrepôt de données


Date
• Une simple représentation en tableau a de bonnes
propriétés d'indexation mais une très faible utilisation du
stockage lorsque les données sont rares.

• Une approche à deux niveaux fonctionne mieux

- identifier une ou plusieurs structures de réseaux


bidimensionnels denses.

- l'indexation de ces tableaux par des structures


d'indexation traditionnelles (par exemple, l'arbre B+)

Arbre B

(réseaux denses en 2 dimensions)

- L'approche à deux niveaux augmente l'utilisation du


stockage sans sacrifier les capacités d'adressage direct
pour la "plupart des parties".

- Le temps est souvent l'une des dimensions incluses


dans les structures de réseau.

CS4221 : Conception de la base de données 26 Entrepôt de données


Questions relatives à la recherche

• Le nettoyage des données se concentre sur les


incohérences des données, et non sur les incohérences
des schémas

par exemple, les noms de personnes : Les


2 noms sont-ils U. Dayal et
Umeshwar Dayal
se rapportent à la même personne

• Conception de l'entrepôt de données

- conception de tableaux et d'index de synthèse


- les compromis dans les structures d'indexation
- modélisation d'entreprise

• Traitement des requêtes

- sélection de tableaux récapitulatifs appropriés -


optimisation dynamique avec retour
d'information - test acide pour l'optimisation
des requêtes :

CS4221 : Conception de la base de données 27 Entrepôt de données


estimation, utilisation des transformations, stratégies
de recherche
- algorithmes de jointure multidirectionnelle,
StarJoin, jointure de hachage parallèle
• Gestion des entrepôts

- détecter les demandes de fugue


- la gestion des ressources
- gestion des processus : programmation des requêtes,
chargement et rafraîchissement
- techniques de rafraîchissement incrémentiel
maintenance matérialisée des vues
- les problèmes de panne et de points de contrôle dans le
chargement et le rafraîchissement
- rafraîchissement des tableaux récapitulatifs pendant le
chargement

État des pratiques commerciales

Ref : Products and Vendors [Datamation, 15 mai 1996 ; R.C. Barquin,

CS4221 : Conception de la base de données 28 Entrepôt de données


H.A. Edelstein : Planification et conception de l'entrepôt de données. Prentice Hall 1997]

• Connectivité aux sources


Apertus Passerelle CA-Ingres
Créateurs d'information EDA/SQL IBM Data Joiner
Passerelle d'entreprise Informix Microsoft ODBC
Oracle Open Connect InfoHub platine
SAA Connect Software AG Entire
Sybase Enterprsie Connect Trinzic InfoHub

• Extraction de données : nettoyer, transformer, rafraîchir


Réplicateur de CA-Ingres Passeport Carleton
Evolutionary Tech Inc. ETI-Extrait Harte-Hanks Trillium
IBM Data Joiner, Propagateur de données Oracle 7
Platinum InfoRefiner, InfoPump Praxis OmniReplicator
Prism Warehouse Manager Redbrick TMU
SAS Access Software AG Sourcepoint
Serveur de réplication Sybase Trinzic InfoPump

• Moteurs de bases de données multidimensionnelles


Arbor Essbase Comshare Commander OLAP
Oracle IRI Express SAS System

• Serveurs de données d'entrepôt


CA-Ingres IBM DB2
Focus sur les créateurs d'information Informix
Oracle Logiciel Praxis modèle
Redbrick 204 AG ADABAS
Sybase MPP Tandem
Terdata

• Serveurs ROLAP
Entrepôt intelligent HP Informix Avantage de l'information Asxys
Metacube MicrosSrtategy DSS Server

- Environnements de recherche/rapports
Brion/Question Objets d'entreprise
Cognos Impromptu CA Visual Express
IBM DataGuide Les créateurs d'information se concentrent sur
Point de vue Informix six points

CS4221 : Conception de la base de données 29 Entrepôt de données


Accès au SAS La forêt et les arbres de platine
Software AG Esperant

• Analyse multidimensionnelle
Andyne Pablo Serveur d'analyse Arbor Essbase
Objets d'entreprise Cognos PowerPlay
Dimensional Insight Cross Target Systèmes holistiques HOLOS
Suite de décisions Information Advantage IQ Software IQ/Vision
Acumate de Kenan Systems Lotus 123
Microsoft Excel Microstratégie DSS
Bateau-pilote La forêt et les arbres de platine
Prodea Beacon SAS OLAP ++
Stanford Technology Group Metacube

• Gestion des métadonnées


Dépôt de platine de l'entrepôt IBM DataGuide
intelligent HP Responsable du répertoire Prism

- Gestion du système
CA Unicenter HP OpenView
IBM DataHub, NetView Information Builder Sute Analyzer
Gestionnaire de l'entrepôt Prism Software AG Source Point
Redbrick Enterprise Control and Coordination Tivoli
SAS CPE

- Gestion des processus


AT&T TOPEND Entrepôt intelligent HP
IBM FlowMark Dépôt de platine
Gestionnaire de l'entrepôt Prism Software AG Source Point

CS4221 : Conception de la base de données 30 Entrepôt de données

Vous aimerez peut-être aussi