Vous êtes sur la page 1sur 39

Entrepôt de données

Dr. Amarouche idir amine


i.a.amarouche@gmail.com
Chapitre 2 : Entrepôt de données
• Définition
• Caractéristiques
• Architecture
• Différence avec un SGBD
L’entrepôt : Définition
• Industrie (Inmon 1992): Collection de données orientées sujets,
consolidées dans une base de données unique, non volatiles
et historisées, variant dans le temps et organisées pour le
support d'un processus d'aide à la décision

• Recherche (Stanford 1995): Dispositif de stockage


d’informations intégrées, de sources distribuées, autonomes et
hétérogènes.

• C’est une BD à des fins d’analyse !!


Caractéristiques d’un DW (1)
Données orientées sujet
• Le DW ne tiens pas compte de l’organisation fonctionnelle des
données. Il s’intéresse à la modélisation et l’analyse des données
pour aider les décideurs, non pas pour des activités quotidiennes ou
traitement transactionnel .
• Organisé autour d’un sujet bien précis, ex: client, produit, ventes.
• Fournit une vue simple et concise concernant un sujet particulier en
excluant les données qui ne servent pas à la prise de décision
Caractéristiques d’un DW (2)
Données intégrées
• Construites en intégrant plusieurs sources de données
possiblement hétérogènes
• BD’s relationnelles, fichiers plats, …
• Les techniques d’intégration et de nettoyage des données sont
utilisées
– Garantir la consistance des conventions de nommage (les
attributs Nom et Nom Famille dans BD1 et BD2 désignent la
même chose)
– structures de codage (l’attribut Nom est sur 15 char et 20
char sur BD1 et BD2; NSS est une chaîne dans BD1 et c’est
un entier long dans BD2),
– domaines des attributs (ex: cm vs pouce), etc.
– C’est au moment où les données sont copiées dans le DW
qu’elles sont traduites
Caractéristiques d’un DW (2)
Données intégrées
• Données intégrées: Normalisation des données; définition d’un
référentiel unique, etc..
Caractéristiques d’un DW (3)
Données non-volatiles

• Un support de stockage séparé


• Les mises à jour de la base opérationnelle n’ont pas lieu au
niveau du DW.
– N’a pas besoin de modules de gestion de transactions
(concurrence, reprise sur panne …)
– N’a besoin que de deux opérations pour accéder aux
données :
• Chargement initial des données et interrogation (lecture).

7
Caractéristiques d’un DW (3)
Data Warehouse est Non-Volatile

• Traçabilité des informations et des décisions prises;


• Copie des données de production
Caractéristiques d’un DW (4)
Varie dans le temps
• La portée temporelle des données dans un data warehouse est
plus longue que celle des bases opérationnelles
– Base opérationnelle: valeur courante des données.
– Data warehouse: fournit des infos sous une perspective
historique (ex: 5 à 10 dernières années)
• Dans un data warehouse, en général, chaque donnée
référence le temps
– Mais dans une base opérationnelle les données peuvent ne
pas faire référence au temps

9
Caractéristiques d’un DW (4)
Varie dans le temps

• Données historisées / datées : Les données persistent dans le


temps . Mise en place d’un référentiel temps
Caractéristiques d’un DW (5)
De l’entrepôt (DW) au magasin (DM)
Inconvénient
• De par sa taille, le DW est rarement utilisé directement par les
décideurs, car il contient plus que nécessaire pour une classe de
décideurs.

Intérêt des magasins de données


• Nouvel environnement structuré et formaté en fonction des besoins
d’un métier ou d’un usage particulier.
• Moins de données que dans le DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse
• Utilisateurs plus ciblés.
Le datamart
• Sous-ensemble d’un entrepôt de données
• Destiné à répondre aux besoins d’un secteur ou d’une fonction
particulière de l’entreprise
• Point de vue spécifique selon des critères métiers
• DM alimenté à partir de l’entrepôt de données (DM dependant)
• DM alimenté directement à partir des sources de données (DM
independant)
Architecture d’un système décisionnel
Data Warehouse vs. SGBD hétérogènes

• Traditionnellement, l’intégration de BDs hétérogènes se fait par


le biais de:
– Approche orientée requête
• Wrappers/mediateurs au dessus des BD’s hétérogènes
• Quand une requête est posée par un site client, un méta-dictionnaire
est utilisé pour la traduire en plusieurs requêtes appropriées à
chacune des BD’s. Le résultat est l’intégration des réponses
partielles.
• L’exécution des requêtes demande donc beaucoup de ressources
mais…………..
– Approche orientée Data warehouse: Les infos sont intégrées et stockées
pour une interrogation directe. Plus efficace en coût d’exécution des
requêtes

13
Query-driven Data Integration
- Data is integrated on demand (lazy)
- Corresponds to single-layer architecture
- PROS
Access to most up-to-date data (all source data directly available)
No duplication of data
- CONS
• Delay in query processing due to slow (or currently unavailable)
information sources and complex filtering and integration
• Inefficient and expensive for frequent queries
• Competes with local processing at sources Data loss at the sources
(e.g., historical data) cannot be recovered
-
Warehouse-driven Data Integration
- Data is integrated in advance
- Data is stored in DW for querying and analysis
PROS
-High query performance
-Does not interfere with local processing at sources
-Assumes that DW update is possible during downtime of local
processing
-Complex queries are run at the DW OLTP
-queries are run at the source systems
CONS
- Duplication of data
- The most current source data is not available
Has caught on in industry
Architecture d’un système décisionnel
Single-layer DW Architecture
• Only source layer is physical
• DW exists only virtually as view
• Not frequently used in practice
+ Mimimizes amount of stored data
− No separation between analytical
and transactional processing, hence
queries affect regular workload
− No additional data can be stored
Architecture d’un système décisionnel
Approche virtuelle (ou le non entrepôt)

Inconvénients
• Pas de réelle intégration des
données
• Différentes vues non-
réconciliées
• Pas de vues dans le temps
• Les requêtes peuvent facilement
bloquer les transactions en cours
Architecture d’un système décisionnel
Two-layer DW Architecture
Architecture d’un système décisionnel
Three-layer DW Architecture
Architecture d’un système décisionnel
Approche entrepôt : physique
Architecture générale

Flux entrant: Extraction, Transformation, Chargement.


Flux sortant : Mise à disposition des données pour les décideurs
Architecture générale
Les différentes zones de l’architecture
Zone de préparation (Staging area)
– Zone temporaire de stockage des données extraites
– Réalisation des transformations avant l’insertion dans le DW:
• Nettoyage
• Normalisation…
– Données souvent détruites après chargement dans le DW

Zone de stockage (DW, DM)


– On y transfère les données nettoyées
– Stockage permanent des données

Zone de présentation
– Donne accès aux données contenues dans le DW
– Peut contenir des outils d’analyse programmés:
• Rapports
• Définition: Métadonnées
– Information définissant et décrivant les structures, opération
et le contenu du système de BI
• Métadonnées techniques:
 ETL: sources et cibles pour les transferts de données,
transformation, logs ETL (début, fin, écritures disque, …), etc.
 Stockage: tables, champs, types, indexes, partitions, etc.
 Présentation: modèle de données, rapports, privilèges d’accès
, etc.
• Métadonnées d’affaires: Décrit le contenu de l’entrepôt dans
des termes compréhensibles par les utilisateurs d’affaires;
Ex: descripteurs de tables et champs.
• Métadonnées de processus:
Décrit le résultat de diverses opérations du système de BI;
Ex: règles d’affaires, statistiques sur les requêtes, etc.
Métadonnées
• Bénéfices:
– Découple la dépendance entre la technologie et son utilisation
(ex: reconfigurer dynamiquement le système ETL pour modifier
ou ajouter une source)
– Permet de monitorer l'état et la performance de la solution BI
– Sert de documentation au système
– Permet de déterminer l'impact d'un changement
• Idéal:
– Avoir un seul répertoire de métadonnées partagé par toutes les
composantes de la solution BI
Metadata Repository
• Meta data is the data defining warehouse objects. It has the following kinds
– Description of the structure of the warehouse
• schema, view, dimensions, hierarchies, derived data definition, data
mart locations and contents
– Operational meta-data
• data lineage (history of migrated data and transformation path),
currency of data (active, archived, or purged), monitoring information
(warehouse usage statistics, error reports, audit trails)
– The algorithms used for summarization
– The mapping from operational environment to the data warehouse
– Data related to system performance
• warehouse schema, view and derived data definitions
– Business data
• business terms and definitions, ownership of data, charging policies
Data Warehouse Back-End
Tools and Utilities
• Data extraction:
– get data from multiple, heterogeneous, and external sources
• Data cleaning:
– detect errors in the data and rectify them when possible
• Data transformation:
– convert data from legacy or host format to warehouse format
• Load:
– sort, summarize, consolidate, compute views, check
integrity, and build indicies and partitions
• Refresh
– propagate the updates from the data sources to the
warehouse
Déclinaisons architecturales

1.Magasins de données indépendants


2. Architecture en bus de magasins de données
3. Architecture Hub-and-spoke
4. Entrepôt de données centralisé
5. Architecture fédérée
Magasins de données indépendants
Bus de magasins de données
Architecture Hub-and Spoke
(Corporate Information Factory)
Entrepôt de données centralisé
Architecture fédérée
Comparaison entre les architectures
Popularité:
Exploitation de l’entrepôt
Business Intelligence:
• Possibilité de visualiser et d’exploiter une masse importante de
données complexes
Trois principaux outils:
• OLAP :On-Line Analytical Processing
• Data mining: fouille de données
• Formulation de requêtes et visualisation des résultats
Domaines d’applications
• Banque, Assurance : Détermination des profils client (prêt, …)
• Commerce : Ciblage de clientèle ; Compagnies de grande
production; Aménagement des rayons (2 produits en corrélation)
• Compagnies téléphoniques
• Santé
Exploitation de l’entrepôt
• Three kinds of data warehouse applications
– Information processing
• supports querying, basic statistical analysis, and reporting
using crosstabs, tables, charts and graphs
– Analytical processing
• multidimensional analysis of data warehouse data
• supports basic OLAP operations, slice-dice, drilling,
pivoting
– Data mining
• knowledge discovery from hidden patterns
• supports associations, constructing analytical models,
performing classification and prediction, and presenting
the mining results using visualization tools.
• Differences among the three tasks
Pourquoi pas un SGBD ?
Fonctions d’un SGBD :
• Systèmes transactionnels (OLTP)
• Permettre d’insérer, modifier, interroger rapidement, efficacement les
données de la base
• Sélectionner, ajouter, mettre à jour, supprimer des tuples
• Répondre à de nombreux utilisateurs simultanément
• Requêtes simples (OLTP), méthodes d’accès et indexation
Fonctions d’un DW :
• Systèmes pour l’aide à la prise de décision (OLAP)
• Regrouper, organiser des informations provenant de sources diverses
• Intégrer et stocker les données pour une vue orientée métier
• Retrouver et analyser l’information rapidement et facilement
• requêtes OLAP souvent complexes!!!
Pourquoi pas un SGBD ?
Pourquoi pas un SGBD ?
Récapitulatif

Vous aimerez peut-être aussi