Vous êtes sur la page 1sur 18

Bibliographie

Entrepôt de données Ouvrages :


! Benitez-Guerrero E., C. Collet, M. Adiba, « Entrepôts de données : Synthèse et
analyse », Rapport de recherche IMAG N°IMAG-RR - 99-1017-I, 1999.
(2) ! Franco J-M., « Le Data Warehouse (Le Data Mining) ». Ed. Eyrolles, Paris,
1997. ISBN 2-212-08956-2
2009
! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, 1999,
Bernard ESPINASSE ISBN 2-212-09069-2.
Professeur à l'Université d'Aix-Marseille
! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan
Kaufmann Publishers, 2004.
• Introduction et définition d!un entrepôt de données ! Kimball R., M. Ross, « Entrepôts de données : guide pratique de modélisation
dimensionnelle », 2°édition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1.
• Architecture fonctionnelle d!un entrepôt
!…
• Modélisation conceptuelle d'un entrepôt de données Cours :
• Alimentation d!un entrepôt de données ! Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2
• Stockage, gestion et exploitation d!un entrepôt
! Cours de P. Marcel, Univ. de Tours
! Cours de G. Gardarin, Univ. de Versailles
• Domaines d!application des entrepôts, « succès stories » … ! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! …
Entrepôts de données - Bernard ESPINASSE - 1 Entrepôts de données - Bernard ESPINASSE - 2

Plan

1. Introduction et définition d!un entrepôt de données

2. Architecture fonctionnelle d!un entrepôt 1. Introduction et définition d!un


3. Modélisation conceptuelle d'un entrepôt de données entrepôt de données
4. Alimentation d!un entrepôt de données
! Le besoin d!entrepôts de données
5. Stockage, gestion et exploitation d!un entrepôt ! Définition d!un entrepôt de données
! Entrepôt de données versus bases de données opérationnelles
6. Domaines d!application des entrepôts, « succes stories » … ! Entrepôt de données versus infocentre
! Processus général de construction et exploitation d!un entrepôt

Entrepôts de données - Bernard ESPINASSE - 3 Entrepôts de données - Bernard ESPINASSE - 4


Le besoin d!entrepôts de données (1) Le besoin d!entrepôts de données (2)
• Les ED sont devenus depuis les années 90 des composants stratégiques de • Dans une entreprise, le concept « d!entrepôt » surgit à partir des besoins
l!Informatique Décisionnelle indispensables à la prise de décision dans les d!analyse de données pour chercher des avantages compétitifs sur la
entreprises concurrence
• Le marché estimé pour ces produits et les services autour de leurs technologies
• Les bases de données existantes, BD opérationnelles, de type On Line
spécifique était déjà de l!ordre de 8 milliards de $ en 1998
transaction Processing - OLTP, conçues pour une fonction spécifique de
• Etude réalisée en 1996 (Data Warehousing Institute) sur 6000 entreprises l!entreprise, ne sont pas appropriées comme support à ces analyses
enquêtées :
• Les données pertinentes pour ces analyses sont disséminées sur diverses
! plus de 40% ont débuté la mise ne place d!un entrepôt bases de données OLTP

! plus de 30% avaient prévu de le faire dans les 3 ans

• Des ED ont été ont été mis en place avec succès dans divers secteurs comme :
! la distribution, les assurances, le commerce, les services financiers, la
fabrication, le transport, les télécommunications, la médecine, et les
universités, …

Entrepôts de données - Bernard ESPINASSE - 5 Entrepôts de données - Bernard ESPINASSE - 6

Définition d!un entrepôt de données (Data Warehouse) De l!entrepôt à l!aide à la décision


Définition de Inmon (1992) : Entreposage des données : avant d!être chargées dans l!entrepôt, les données
sélectionnées doivent être :
«L!entrepôt de données (ED) est une collection de données • extraites des sources (internes : BD opérationnelles, externes : BD et fichiers
thématiques, intégrées, non volatiles et historisées, organisées pour le notamment issus du Web)
support d'un processus d'aide à la décision» • soigneusement épurées afin d!éliminer des erreurs et réconcilier les différentes
sémantiques associées aux sources)
Caractéristiques des données d!un entrepôt :
• Orientées sujet : un ED rassemble et organise des données associées aux
différentes structures fonctionnelles de l!entreprise, pertinentes pour un sujet ou
thème et nécessaire aux besoins d!analyse
• Intégrées : les données résultent de l!intégration de données provenant de différentes
sources pouvant être hétérogènes Exploitation des données de l!ED : systèmes décisionnels
• Historisées : les données d!un ED représentent l!activité d!une entreprise durant une • A partir des données d!un ED diverses analyses peuvent être faites, notamment par
certaine période (plusieurs années) permettant de d!analyser les variations d!une des techniques « On-Line Analitical processing » (OLAP) ou de fouille de données (Data
donnée dans le temps Mining) et de visualisation.
• Non-volatiles : les données de l!ED sont essentiellement utilisées en interrogation • Notons que les informations et connaissances obtenues par exploitation de l!ED ont un
(consultation) et ne peuvent pas être modifiées (sauf certain cas de rafraîchissement). impact direct sur les bénéfices de l!entreprise (augmentation des ventes par un
marketing plus ciblé, amélioration de la rotation des stocks, …)

Entrepôts de données - Bernard ESPINASSE - 7 Entrepôts de données - Bernard ESPINASSE - 8


Entrepôt de données versus Bases de données Entrepôt de données versus Infocentre
opérationnelles
Infocentre Entrepôt
= collection de données orientées sujet, = collection de données orientées sujet,
! BD opérationnelles ! Entrepôt de données
intégrées, volatiles, actuelles, intégrées, non volatiles et historisées,
Niveau de détail des ! Données agrégées, organisées pour le support d'un processus organisées pour le support d'un processus
! Très détaillé
informations métadonnées de décision ponctuel d'aide à la décision
! Information pas
Homogénéité des nécessairement homogènes,
! Informations homogènes
informations ! intégration de données
souvent nécessaire
Fonctions de l!entreprise
! Données organisées par
concernées par les ! Données orientées sujet
processus fonctionnel
données
Comparaison de données ! Non : Archivage ou mise à ! Oui : Données non volatiles,
sur plusieurs années jour des données données historisées
! Consultation, mais surtout
Opérations réalisées sur les ! Consultation de données
mise à jour et ajout de
données uniquement
données

Entrepôts de données - Bernard ESPINASSE - 9 Entrepôts de données - Bernard ESPINASSE - 10

Processus général de construction et exploitation d!un Processus général de construction et exploitation d!un
e n t r e pô t e n t r e pô t
Processus en 3 phases : Processus en 3 phases :
1 - Construction de la base de données décisionnelle :
• Modélisation conceptuelle des données multiformes etmultisources
• Alimentation de l!entrepôt (extraire, nettoyer, transformer, charger)
• Stockage physique des données

2 - Sélection des données à analyser :


• Besoins d!analyse de l!utilisateur
• Data mart
• Cubes multidimensionnels
• Tableaux ou tables bidimensionnels

3 - Analyse des données :


• Stastiques et reporting, OLAP, Data Mining

Entrepôts de données - Bernard ESPINASSE - 11 Entrepôts de données - Bernard ESPINASSE - 12


Architecture fonctionnelle d!un ED : les niveaux
Niveau exploitation Présentation

Entrepôt

2. Architecture fonctionnelle Exploration


Bd entrepôt
Analyse
Client décisionnel

d!un entrepôt de données Niveau fusion Transformation,


fusion
! Architecture fonctionnelle d!un ED
! Structure générale des données d!un ED
Extraction, filtrage Extraction, filtrage
! Composants logiciels d!un ED
Extraction, filtrage

Source BD source
BD source
Données externes Données opérationnelles
BD légataires
Niveau extraction
Entrepôts de données - Bernard ESPINASSE - 13 Entrepôts de données - Bernard ESPINASSE - 14

Architecture fonctionnelle d!un entrepôt : les composants Structure générale des données d!un ED
Niveau extraction de données : Les données d!un ED se structurent selon 2 axes : synthétique et historique :
• extraction de données des bases de données légataire et opérationnelles (SGBD
traditionnel en OLTP) et de l!extérieur
Données fortement
! approche « push » : détection instantanée des mises à jour sur les BD agrégées
opérationnelles pour intégration dans l!ED
! approche « pull » : détection périodique des mises à jour des BD
opérationnelles pour intégration dans l!ED
Niveau fusion de données : Axe Données agrégées
• intégration des données provenant des différentes sources synthétique
• chargement et stockage des données dans la BD entrepôt organisée par sujets
fusion
• rafraîchissement au fur et à mesure des mises à jour Données détaillées
Niveau exploitation de données :
• analyse et l!exploration des données entreposées Données détaillées
• formulation de requêtes complexes afin de trouver des faits à étudier, l!analyse de historisées
tendance (courbes d!évolution), extrapolation, découverte de connaissance (règles,
contraintes, …) Axe historique
• présentations graphiques variées

Entrepôts de données - Bernard ESPINASSE - 15 Entrepôts de données - Bernard ESPINASSE - 16


Structure générale des données d!un ED Modélisation par sujet des données
Axe synthétique : • Pour faciliter l!exploitation des données au niveau de l!ED, le concepteur doit réaliser une
établit une hiérarchie d!agrégation comprenant : classification par sujets fonctionnels plutôt que par applications (BD
opérationnelles)
• les données détaillées représentant les événements les plus récents au
bas de la hiérarchie • Une modélisation relationnelle est souvent utilisée : chaque sujet
correspondant à une table gérée par l!ED
• les données agrégées synthétisant les données détaillées
• La définition des tables de l!ED nécessite :
• les données fortement agrégées synthétisant à un niveau supérieur les
! d!isoler les données stratégiques,
données agrégées
! de déterminer les informations de détail nécessaires, et
Axe historique : ! les résumés à conserver (généralement calculés par des requêtes avec
comprenant les données détaillées historisées représentant les fonction d!agrégats)
événements passés Exemple : plutôt que de stocker chaque vente élémentaire de produit à un client, on
préfèrera grouper les ventes par produit ou par couple client-produit sur une semaine
• Il est nécessaire de stocker aussi des méta-données décrivant les tables gérées
Les méta données : contiennent des informations concernant les données de l!ED
(provenance, structure, méthode utilisées pour l!agrégation, …) • Un ED est généralement basé sur un SGBD Relationnel et les tables de l!ED sont des
vues concrêtes mises à jour périodiquement (snapshot)

Entrepôts de données - Bernard ESPINASSE - 17 Entrepôts de données - Bernard ESPINASSE - 18

Entrepôts et magasins de données (Data marts) Entrepôts et magasins de données (Data marts)
Les entrepôts de données :
• nécessitent de puissantes machines pour gérer de très grandes bases de
données contenant des données de détail historisées
• est le lieu de stockage centralisé d'un extrait des bases de production.
• l!organisation des données est faite selon un modèle facilitant la gestion efficace
des données et leur historisation.

Les magasins de données (Data Marts) :


• sont de petits entrepôts nécessitant une infrastructure plus légère et sont mis en
œuvre plus rapidement (6 mois environs)
• conçus pour l!aide à la décision à partir de données extraites d!un ED plus
conséquent ou de BD sources existantes
• les données extraites sont adaptées pour l!aide à la décision (pour classe de
décideurs, usage particulier, recherche de corrélation, logiciel de statistiques,...)
• l!organisation des données est faite selon un modèle facilitant les traitements • ODS Operational Data Store : regroupe les données intégrées récupérées des sources
décisionnels • CDW Corporate Data Warehouse : regroupe les vues agrégées

Entrepôts de données - Bernard ESPINASSE - 19 Entrepôts de données - Bernard ESPINASSE - 20


Composants logiciels d!un ED Composants logiciels d!un entrepôt
Sources de données (Data Sources) :
! données sources généralement modifiées quotidiennement,
! issues de bases de données, fichiers plats, documents HTML, bases de connaissances,
! données en général hétérogènes

Entreposage de données (Data Storage) :


! Entrepôt (Data Warehouse) :
! Magasin de données (Data Marts) :
! Méta données (Meta Data) :
! Moniteur et intégrateur :

Moteur d!analyse en ligne (OLAP engine) :

Interface utilisateur (Front-End tools) :


! Outils d!aide à la décision (analyse, requêtes, rapports, fouille de données, …)

Entrepôts de données - Bernard ESPINASSE - 21 Entrepôts de données - Bernard ESPINASSE - 22

Composants logiciels d!un ED Sources d!informations hétérogènes


Les données sources alimentant l!ED sont :
Niveau exploitation
! généralement modifiées quotidiennement
Entrepôt ! fortement hétérogènes :
! issues de différentes sources : BD relationnelles, BD objets, BD réseaux,
Client décisionnel fichiers (flat files), documents HTML, bases de connaissances, …
Bd entrepôt
Exploration Analyse ! issues de différents environnements
Exemple d!hétérogénéité (Goglin 88):
Source d!information Environnement
Niveau fusion médiateur gestion commerciale progiciel sybase/unix
Transformation, fusion gestion marketing progiciel SQL server/NT
gestion financière, paye mainframe DB2/IBM
Extraction, filtrage Extraction, filtrage
Extraction, filtrage suivi de production oracle/NT
adaptateur adaptateur contrôle qualité oracle/NT
adaptateur gestion du temps progiciel oracle/unix
moniteur moniteur
moniteur gestion des stocks progiciel oracle/HP
Source BD source fichier mailings fichier ASCII
BD source références nationales document excel
Données externes Données opérationnelles " composants d!alimentation pour l!homogénéisation et
BD légataires
Niveau extraction l!intégration de données

Entrepôts de données - Bernard ESPINASSE - 23 Entrepôts de données - Bernard ESPINASSE - 24


Composants logiciels d!alimentation de l!ED (1) Composants logiciels d!alimentation de l!ED (2)
Le « middleware » d!alimentation de l!ED est composé de plusieurs composants logiciels Au niveau de l!ED (niveau fusion) :
localisés au niveau de chaque source d!information et au niveau de l!ED :
Au niveau des sources d!information (niveau extraction) : • Le médiateur (mediator) : composant logiciel capable de donner une vision
intégrée des différentes sources d!information et d!extraire par des requêtes
• Le moniteur (source monitor) : composant logiciel détectant les mises à jour des parties de ces vues intégrées :
effectuées sur la source d!information et repérerant les données à envoyer à
l!ED pour sa mise à jour ultérieure : ! Avant d!être déversées dans l!ED, les données doivent être nettoyées,
! Utilisation de triggers si les SGBD en disposent transformées, réorganisées et souvent filtrées
! Sinon interrogation périodique de chaque base locale ou son journal
afin de récupérer les mises à jour effectuées durant la dernière période ! les données, en provenance de sources multiples, doivent généralement
être intégrées ou fusionnées
• L!adaptateur de source (source wrapper) : composant logiciel traduisant les
requêtes et les données depuis le modèle d!une source d!information locale ! cette fusion en général assurée par union ou jointures de sources
vers le modèle de l!ED et vice-versa : multiples, des sélections et agrégats
! Les bases locales préexistent et sont souvent relationnelles, voire
hiérarchiques ou réseaux ou parfois des fichiers ! le médiateur s!appuie principalement sur le SGBD de l!ED

Entrepôts de données - Bernard ESPINASSE - 25 Entrepôts de données - Bernard ESPINASSE - 26

Moteur d!analyse en ligne (OLAP engine) et Outils de


fouille (Data Mining)
Moteur OLAP :
3 - Modélisation conceptuelle
• requêtes interactives complexes sur ces volumes
• catégorie de traitements dédiés à l!aide à la décision d'un entrepôt de données
• données organisées selon plusieurs axes d!analyse et niveaux de détail
• les traitements permettent de changer interactivement de points de vue, Modélisation multidimensionnelle
changer de niveau de détail, effectuer les opérations OLTP classiques ! Problématique
! le concept de fait et le concept de dimension
Outils de fouille de données (Data Mining) : ! hiérarchies de paramètres
• extraction automatique de propriétés cachées Schéma conceptuel d!un ED
! schéma en étoile (star schema)
• extraction automatique de connaissances dans de grands volumes de
données : ! schéma en flocon (snowflake schema)
! schéma en constellation (fact constellation)
! valides, nouvelles, compréhensibles, pertinentes, implicites

Entrepôts de données - Bernard ESPINASSE - 27 Entrepôts de données - Bernard ESPINASSE - 28


Modélisation multidimensionnelle : problématique Modélisation multidimensionnelle
Soit les données suivantes relatives aux ventes de 1999 d!une entreprise de distribution :
• Les analyses décisionnelles sont basées sur des traitements OLAP directement
reliés à la modélisation de l'information sous une forme conceptuelle
proche de la perception qu'en a l'analyste.

• Cette perception de l'information est basée sur une vision multidimensionnelle


des données.
On peut distinguer différentes perspectives pour observer ces données :
• La modélisation multidimensionnelle consiste à considérer un sujet analysé • une dimension relative à la catégorie des produits
comme un point dans un espace à plusieurs dimensions. • une dimension relative à la région

• Les données sont organisées de manière à mettre en évidence le sujet


analysé et les différentes perspectives de l'analyse.

Entrepôts de données - Bernard ESPINASSE - 29 Entrepôts de données - Bernard ESPINASSE - 30

Modélisation multidimensionnelle Modélisation multidimensionnelle : le concept de fait


Considérons plusieurs tables, relatives aux ventes de chaque année entre 1997 et 1999 Un fait :
On peut alors observer les données dans un espace à 3 dimensions : • modélise le sujet de l'analyse
• la dimension catégories produit
• est formé de mesures correspondant aux informations de l'activité analysée.
• la dimension régions
• ces mesures sont numériques et généralement valorisées de façon continue, on
• la dimension temps
peut les additionner, les dénombrer ou bien calculer le minimum, le maximum ou
Chaque intersection de ces dimensions représente une cellule comportant le montant des la moyenne.
ventes :

Exemple : le fait de « Vente » peut être constitué des mesures d'activités suivantes :
• quantité de produits vendus et
• montant total des ventes

La modélisation multidimensionnelle a donné naissance aux concepts de fait et de dimension


[Kimball 1996]

Entrepôts de données - Bernard ESPINASSE - 31 Entrepôts de données - Bernard ESPINASSE - 32


Modélisation multidimensionnelle : le concept de Modélisation multidimensionnelle : hiérarchie de
dimension paramètres
Le sujet analysé, c'est à dire le fait, est analysé suivant différentes perspectives • Lors du processus OLAP, les données sont généralement analysées en partant d'un
correspondant à une catégorie utilisée pour caractériser les mesures d'activité analysées : faible niveau de détail vers des données plus détaillées pour "forer vers le bas".
on parle de dimensions. • Pour définir ces différents niveaux de détail, chaque dimension est munie d'une (ou
Une dimension : plusieurs) hiérarchie(s) de paramètres
• modélise une perspective de l'analyse
• se compose de paramètres correspondant aux informations faisant varier les La hiérarchie :
mesures de l'activité. • sert lors des analyses pour restreindre ou accroître les niveaux de détail de
Exemple : Dans l'exemple précédent, le fait « vente » peut être analysé suivant différentes l'analyse
perspectives correspondant à trois dimensions : la dimension Temps, la dimension • organise les paramètres d'une dimension conformément à leur niveau de
Geographie et la dimension Categorie : détail
• les paramètres sont ordonnés par une relation hiérarchique "est_plus_fin" et
notée P1! P2

Exemple : Dans l!exemple précédent, pour la dimension Geographie :


Ville ! Departement ! Region
Ainsi chaque ville appartient à un département qui est situé dans une région.
Entrepôts de données - Bernard ESPINASSE - 33 Entrepôts de données - Bernard ESPINASSE - 34

Schéma conceptuel d!un entrepôt de données Schéma en étoile


Niveau conceptuel : Caractéristiques du schéma en étoile :
schéma de BD relationnelle reflétant la vue de l'analyste : • structure simple utilisant le modèle entité-relation
• multidimensionnelle • une entité centrale : la table des faits :
• hiérarchisée • objets de l'analyse
3 grands types de schémas : • taille très importante
• schéma en étoile (star schema) • nombreux champs

• schéma en flocon (snowflake schema) • des entités périphériques : les tables de dimensions :

• schéma en constellation (fact constellation) • dimensions de l'analyse

• taille peu importante

Remarque : le schéma en étoile est souvent utilisé pour l'implantation physique • peu de champs

Entrepôts de données - Bernard ESPINASSE - 35 Entrepôts de données - Bernard ESPINASSE - 36


Schéma en étoile Schéma en étoile
Exemple 1 : Ventes de médicaments dans des pharmacies Exemple 2 : Ventes d"articles dans un supermarché

schéma en étoile modélisant les analyses des quantités et des montants des médicaments
dans les pharmacies selon 3 dimensions : le temps, la catégorie et la situation géographique

• Table de faits : Vente


• Tables de dimension : Temps, Catégorie, Géographie

Entrepôts de données - Bernard ESPINASSE - 37 Entrepôts de données - Bernard ESPINASSE - 38

Schéma en étoile Schéma en étoile : normalisation des tables


Associé à l!exemple 2 : Normalisation de la table de faits :
• un fait : ! normalisation en Boyce-Codd Normal Form (BCNF)
• il a été acheté 3 exemplaires à 1 euro
• du produit pid3 Rappel : une relation R est en BCNF si :
• par le client cid1 "x ! y DF définie sur r , x contient une clé de R
• à la date did3 soit : chaque attribut non clé dépend fonctionnellement de la seule clé de la relation
• dans le magasin mid2
• dans le chariot cid8 Normalisation des tables de dimensions :
• correspondant à la promotion prid1
• elles représentent une ou plusieurs hiérarchies
• un élément de la dimension location : • elles contiennent des données redondantes
faut-il les normaliser ?
• store id mid2
• la table des faits constitue l'essentiel du stockage
• store name rondpoint
• pas/peu de mises à jour des dimensions
• city blois
• la perte d'espace n'est donc pas significative
• region centre
• country France ! tables de dimensions : non normalisées

Entrepôts de données - Bernard ESPINASSE - 39 Entrepôts de données - Bernard ESPINASSE - 40


Schéma en flocon Schéma en flocon
Un modèle en flocon : une évolution du schéma en étoile avec : Exemple : Ventes de médicament dans des pharmacies
• une décomposition des dimensions du modèle en étoile en sous hiérarchies.
• le fait est conservé et les dimensions sont éclatées conformément à sa hiérarchie des
paramètres
• cela conduit à une normalisation des tables de dimensions :
! structure hiérarchique des dimensions
! un niveau inférieur identifie un niveau supérieur

• Avantage de cette modélisation :


! formaliser une hiérarchie au sein d'une dimension.
! maintenance des tables de dimensions simplifiée
! réduction de la redondance
• Inconvénient de cette modélisation :
! induit une dénormalisation des dimensions générant une plus grande
complexité en termes de lisibilité et de gestion.
! navigation coûteuse chaque dimension du schéma en étoile précédent est dénormalisée, formant ainsi une sorte
de flocon
Entrepôts de données - Bernard ESPINASSE - 41 Entrepôts de données - Bernard ESPINASSE - 42

Schéma en constellation Pré-agrégation


Un modèle en constellation :
• fusionne plusieurs modèles en étoile qui utilisent des dimensions communes.
• Agrégation des faits selon une ou plusieurs dimensions
• comprend en conséquence plusieurs faits et des dimensions communes ou non
Exemple : Ventes de médicament dans des pharmacies
• 2 moyens de les représenter :

1. une table des faits séparés/dédiés avec les tables pour les dimensions
correspondantes

2. dans la même table des faits, en codant les niveaux hiérarchiques dans
les tables de dimensions

• une constellation est constituée de 2 schémas en étoile :


! l'un correspond aux ventes effectuées dans les pharmacies et
! l'autre analyse les prescriptions des médecins
• les dimensions Temps et Geographie sont partagées par les faits Prescriptions et Vente.

Entrepôts de données - Bernard ESPINASSE - 43 Entrepôts de données - Bernard ESPINASSE - 44


Processus d!alimentation d!un ED
• Le processus d!alimentation d!un ED (ou entreposage des données)
consiste à :

! rassembler de multiples données sources souvent hétérogènes et les


4 - Alimentation d!un Entrepôt homogénéiser

de données • homogénéisation faite selon des règles précises constituant le dictionnaire

• Ces règles :
! Processus général d!alimentation d!un ED
! Préparation des données
! sont mémorisées sous forme de méta-données (information sur les
! Intégration des données
données).
! Agrégation des données
! Personnalisation des données (customisation)
! permettent d!assurer des tâches d!administration et de gestion des
donnés entreposées.

Entrepôts de données - Bernard ESPINASSE - 45 Entrepôts de données - Bernard ESPINASSE - 46

Dictionnaire et méta-données Processus d!alimentation d!un ED


Le dictionnaire contient des informations (méta données) sur : Après avoir conçu le modèle des données, comment alimenter l!ED ?
! toutes les données de l!ED.
! problématique de l!ETL (Extracting Transforming and Loading)
! sur chaque étape lors de la construction de l!ED;
! sur le passage d!un niveau de données à un autre lors de l!exploitation 4 étapes :
de l!ED
1. Sélection des données sources

• Le rôle de ces méta-données est ainsi de permettre : 2. Extraction des données


! la définition des données
3. Nettoyage et Transformation
! la fabrication des données
! le stockage des données 4. Chargement
! l!accés aux données
! la présentation des données

Entrepôts de données - Bernard ESPINASSE - 47 Entrepôts de données - Bernard ESPINASSE - 48


ETL tools (Extract Transform Load) Tâche de sélection des données sources
support et/ou automatisation des tâches suivantes : Quelles données de production faut-il sélectionner pour alimenter l!ED?

extraction accès aux différentes sources ! Toutes les données sources ne sont forcément pas utiles
nettoyage recherche et résolution des inconsistances
dans les sources Ex : Doit-on prendre l!adresse complète ou séparer le code postal ?
transformation entre différents formats, langages, etc.
des données dans l!entrepôt
! Les données sélectionnées seront réorganisées pour devenir des
chargement
informations.
réplication des sources dans l!entrepôt
analyse e.g., détection de valeurs non valides ou
inattendues
transfert de données haut débit pour les très grands entrepôts ! La synthèse de ces données sources a pour but de les enrichir.
test de qualité e.g., pour correction et complétude
analyse des méta données aide à la conception ! La dénormalisation des données crée des liens entre les données et
permet des accès différents

Entrepôts de données - Bernard ESPINASSE - 49 Entrepôts de données - Bernard ESPINASSE - 50

Tâche d!Extraction des données Tâche de Nettoyage et Transformation des données :


nettoyage
Un extracteur (wrapper) est associé à chaque source de
Objectifs du nettoyage :
données : ! résoudre le problème de consistance des données au sein de chaque
source
! Il sélectionne et extrait les données ! une centaine de type d!inconsistances ont été répertoriées
! 5 à 30 % des données des BD commerciales sont erronées
Types d!inconsistances :
! Il les formate dans un format cible commun ! présence de données fausses dés leur saisie :
! fautes de frappe
! différents formats dans une même colonne
! Utilisation d!interfaces comme ODB, OCI, JDBC. ! texte masquant de l!information (e.g., “N/A”)
! valeur nulle
! Le format cible est en général le modèle Relationnel ! incompatibilité entre la valeur et la description de la colonne
! duplication d!information, …
! persistance de données obsolètes
! confrontation de données sémantiquement équivalentes mais syntaxiquement
différentes

Entrepôts de données - Bernard ESPINASSE - 51 Entrepôts de données - Bernard ESPINASSE - 52


Nettoyage des données (2) Transformation des données
! fonctions de normalisation Objectifs :
! fonctions de conversion Suppression des incohérences sémantiques entre les sources pouvant
survenir lors de l!intégration :
! usage de dictionnaires de synonymes ou d!abréviations ! des schémas :
Définition de table de règles : ! problème de modélisation : différents modèles de données sont utilisés
valeur source remplacé par Valeur cible ! problèmes de terminologie : un objet est désigné par 2 noms différents, un
Mr M même nom désigne 2 objets différents
monsieur M ! incompatibilités de contraintes : 2 concepts équivalents ont des
Masculin M
M M contraintes incompatibles
Msieur M ! conflit sémantique : choix de différents niveaux d!abstraction pour un même
Exemple de conversions : concept
! conflits de structures : choix de différentes propriétés pour un même
concept
! conflits de représentation : 2 représentations différentes choisies pour les
mêmes propriétés d!un même objet
! des données :
! Equivalence de champs
! Equivalence d!enregistrements : fusion d!enregistrements
nettoyage = jointure + projection

Entrepôts de données - Bernard ESPINASSE - 53 Entrepôts de données - Bernard ESPINASSE - 54

Tâche de Chargement des données


Objectif :
charger les données nettoyées et préparées dans l!ED
5 – Stockage, gestion et
C!est une opération :
exploitation d!un entrepôt
! qui risque d!être assez longue
Stockage et gestion d!un ED :
! plutôt mécanique et la moins complexe. ! Usage d!un SGBD Multidimensionnel
! Usage d!un SGBD Relationnel
Il est nécessaire de définir et mettre en place : Exploitation d!un ED :
! Analyse OLAP (On-Line Analytical processing)
! des stratégies pour assurer de bonnes conditions à sa
! Orpaillage (Data Mining)
réalisation

! une politique de rafraîchissement.

Entrepôts de données - Bernard ESPINASSE - 55 Entrepôts de données - Bernard ESPINASSE - 56


Stockage et gestion d!un ED Adaptation des SGBD relationnels pour les ED (1)
Pour assurer le stockage et la gestion des données multidimensionnelles, plusieurs stratégies
sont possibles : 1. Extensions du langage SQL :
! de nouveaux opérateurs tels que « cube » et
1 - Usage d!un SGBD Multidimensionnel :
! de nouvelles fonctions comme « rank » et « percentile » complètent les fonctions
! Un SGBD Multidimensionnel (SGBDM) est un SGBD capable de stocker et traiter des
classiques de SQL comme « count », « sum » et « avg »
données multidimensionnelles
! A ce jour il n!existe pas encore de cadre technologique commun pour le 2. Vues matérialisées :
développement de tels systèmes
! Chaque produit sur le marché (Essbase d!ArorSoft, Holos de Seagate, …) utilise sa ! une vue matérialisée est l!extension (les données mêmes) d!une vue.
propre version du modèle multidimensionnel et ses propres stratégies de stockage
et de gestion ! permettent de représenter les agrégations des tables d!un schéma en étoile.

! Les requêtes peuvent utiliser ces données pré-agrégées pour augmenter les
2 - Usage d!un SGBD Relationnel : performances du système
! les SGBDR représentant plus de 80% des SGBD, ils sont principalement envisagés
! Une vue matérialisée peut aide à en construire d!autres et ainsi de suite
pour le développement d!ED
! Ils doivent cependant être adaptés car ils n!ont pas les caractéristiques adéquates pour ! Un problème important est la sélection d!un ensemble minimal de telles vues à
répondre aux besoins des ED. partir desquelles on pourrait dériver les autres vues

Entrepôts de données - Bernard ESPINASSE - 57 Entrepôts de données - Bernard ESPINASSE - 58

Adaptation des SGBD relationnels pour les ED (1) Exploitation d!un ED (1)
Indexation binaire : Analyse OLAP (On-Line Analytical processing) :
! dans une table, un index associe, pour chaque valeur possible d!un attribut (ou groupe
d!attributs), la liste des tuples contenant cette valeur ! les techniques OLAP sont apparues en recherche dans les années 70 mais
! un index binaire utilise un vecteur de bits pour représenter une telle ont été développées dans les années 90 dans l!industrie
liste : chaque tuple d!une table est associé à un bit qui prend la valeur : ! permettent de réaliser des synthèses, des analyses et de la consolidation
! 1 si le tuple associé fait partie de la liste ou dynamique de données multidimensionnelles
! 0 dans le cas contraire
! index binaire = structure de taille réduite qui peut être gérée totallement en mémoire ! constitue la façon la plus naturelle d!exploiter un ED du fait de son
centrale améliorant les performances des SGBDR organisation multidimensionnelle
! possible d!utiliser de façon efficace des opérateurs logiques (ET, OU)
! indexation adaptée lorsque le nombre de valeurs possibles d!un attribut est faible ! la combinaison ED+ techniques OLAP = un système OLAP
! le coût de maintenance de tels index peut être important car tous les index doivent être
actualisés lors de l!insertion d!un nouveau tuple ! 3 types de systèmes OLAP : MOLAP, ROLAP et HOLAP
! espace important nécessaire pour stocker des vecteurs avec principalement des bits de
valeur 0 : techniques de compression de données (run-lengh encoding) utilisées

Entrepôts de données - Bernard ESPINASSE - 59 Entrepôts de données - Bernard ESPINASSE - 60


Exploitation d!un ED (2) Analyse OLAP d!un entrepôt : MOLAP
3 types de systèmes OLAP : MOLAP, ROLAP et HOLAP :
Fouille de données (Data Mining) :

! Recherche de connaissance, sous forme de modèle de comportement, Systèmes MOLAP (Multidimensionnel OLAP) :
cachés dans les données ! utilisent pour stocker et gérer les données de l!ED un SGBD
Multidimensionnel,
! Domaine jeune à l!intersection de l!Intelligence Artificielle, les Statistiques, les
Bases de données ! ont des temps de réponse faibles du fait qu!ils effectuent la pré-agrégation et
le pré-calcul des données sur tous les niveaux des hiérarchies du modèle de
! Nombreuses techniques de fouille : régression linéaire, induction d!arbres de l!entrepôt
décision, algorithmes génériques, réseaux de neurones, …
! génèrent de très grands volumes d!information,
! Les techniques de fouille sont en pleine évolution et sont de plus en plus ! les techniques incrémentales de rafraîchissement associées sont encore
intégrées dans les ED limitées, conduisant à reconstruire périodiquement l!ED
! sont adaptés à de petits ED (quelques Go) et lorsque le modèle
multidimensionnel ne change pas beaucoup
! produits : Essbase d!Arbo Software, Pilot de pilot Software, TM1 d!Applix, …

Entrepôts de données - Bernard ESPINASSE - 61 Entrepôts de données - Bernard ESPINASSE - 62

Analyse OLAP d!un entrepôt : ROLAP et HOLAP Visualisation autour d!un ED


Systèmes ROLAP (Relationnal OLAP) :
! Les techniques de visualisation des données doivent faciliter leur analyse et
! utilisent pour stocker et B les données de l!ED un SGBD Relationnel leur interprétation
! le « moteur OLAP » est un élément supplémentaire fournissant une vision
multidimensionnelle de l!ED (organisé en étoile ou flocon)
! il réalise des calculs de données dérivés et agrégations à différents niveaux ! Les techniques de visualisation :
! il génère des requêtes mieux adaptée au schéma relationnel de l!ED et qui tire
profit des vues matérialisées existantes (facteur principal de performance) ! convertissent des données complexes en images, graphiques en 2
! produits : DSS Agents de MicroStrategy, Metacube d!Informix, … et 3 dimensions, et en animations
Systèmes HOLAP (Hybride OLAP) :
! utilisent pour stocker, gérer les données détaillées un SGBD Relationnel et ! qui peuvent être analysées en cherchant des interrelations entre
! pour stocker, gérer les données agrégées un SGBD Multidimensionnel données
! permettent de gérer de très grandes quantité de données et d!avoir des temps
de réponses acceptables en analyse OLAP ! elles sont de plus en plus intégrées dans les ED
! produits : Express d!Oracle, Media/MR de Speedware, Holos de Seagate
Technology, …

Entrepôts de données - Bernard ESPINASSE - 63 Entrepôts de données - Bernard ESPINASSE - 64


Domaines privilégiés : le domaine bancaire

Domaine bancaire : un des premiers utilisateurs des ED


6 – Domaines d!application des ! Pour une banque, il est important de pouvoir regrouper les informations
relatives à un client afin de répondre à ses demandes de crédit par exemple
entrepôts, « succès stories » … ! Des mailing ciblés doivent aussi être rapidement élaborés à partir de toutes
Les domaines privilégiés : les informations disponibles sur un client lors de la commercialisation d!un nouveau
! Domaine bancaire produit
! Domaine de la grande distribution
! L!utilisation de cartes de crédit nécessite des contrôles à posteriori, par
! Domaine des télécommunications
exemple pour la recherche de fraudes : la mémorisation des mouvements peut
! Domaines de l!assurance et de la pharmacie rendre de grands services
! Domaine de la santé, …
« Succes stories »: ! Les échanges d!actions et de conseils de courtages sont facilités par une
! Casino, Walmart, Camaieu, … mémorisation de l!histoire et une exploitation par des outils décisionnnels avancés
! FranceTélécom, … par exemple pour déterminer des tendances de marchés

Entrepôts de données - Bernard ESPINASSE - 65 Entrepôts de données - Bernard ESPINASSE - 66

Domaines privilégiés : le domaine de la grande distribution Domaines privilégiés : le domaine des télécommunications
Domaine de la grande distribution fortement demandeur d!ED :
Domaine très concurrentiel des télécommunications utilise
! intéressant de regrouper les informations de ventes pour déterminer les
produits à succès, mieux suivre les modes, détecter les habitudes d!achats, beaucoup les ED
les préférences des clients par secteur géographique ! grande masse de données concernant les abonnés et les appels est enregistrée
! La fouille de données (data mining) a permis de développer des techniques
! Plusieurs mois de description détaillée des appels comprenant, pour chaque
sophistiquées d!exploitation de données qui aident à mettre en évidence les
appel appelant, appelé, heure et durée sont disponibles chez les opérateurs
règles de consommation
! Explorer le panier de la ménagère est devenu un exercice d!école : il s!agit de En respectant les lois de sécurité et liberté, que peut-on faire de telles données ?
trouver à partir de l!enregistrement des transactions quelles sont les habitudes Couplées ou non avec des informations comptables, l!exploitation de ces
d!achats, plus précisément quels sont les produits achetés en même temps données regroupées en ED par des techniques d!analyse et d!exploration permet :
Apports constatés dans la grande distribution : ! D!analyser le trafic
! augmentation des ventes grâce à un meilleur marketing ! De mieux cerner les besoins des clients,
! amélioration des taux de rotation de stocks ! De classer les clients par catégories,
! élimination des produits obsolètes ! De comprendre pourquoi certains changent d!opérateurs et mieux
! réduction des rabais, remises, ristournes répondre à leur besoins
! meilleure négociation des achats

Entrepôts de données - Bernard ESPINASSE - 67 Entrepôts de données - Bernard ESPINASSE - 68


Domaines privilégiés : le domaine de l!assurance et de la « Succès story » dans la grande distribution (1)
pharmacie Exemple du groupe Casino :
Projet :
Les domaines de l!assurance et de la pharmacie sont aussi ! un des premiers entrepôts en France
friands de techniques décisionnelle ! plusieurs millions de dollars économisés en s!apercevant que les stocks de coca-cola
faisaient souvent défaut...
! L!exercice de base de l!assureur est de déterminer le facteur de risque d!un ! 1994 : 80 Go et 50 utilisateurs
assuré ! 2002 : + de 10 To, 1500 utilisateurs, 25000 requêtes/jour
! Celui d!un producteur pharmaceutique est de détecter l!impact d!un Solution : Teradata
médicament
Exemple du groupe Walmart :
! Plus généralement, le suivi des informations relatives à la liaison produit-
Projet :
client sur un ED est souvent synonyme de gains importants : meilleure
! le plus gros entrepôt de données du monde, en 2006 : 0.5 Po de données
connaissance des produits, détection des défauts, meilleure connaissance des ! distributeurs, magasins, clients (> 108 ), produits (> 109 )...
clients, détection de rejets, ciblage du marketing, etc ! un des plus secret également...
! Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour Solution : Teradata
le suivi des produits, des clients, des concurrents : notion émergente de « Data Wal-Mart, for example, discovered that people who buy Pampers often buy beer, so they
Webhouse » moved Pampers and beer close together. The result was that sales of both increased
(Computer Business Review, October 1996).

Entrepôts de données - Bernard ESPINASSE - 69 Entrepôts de données - Bernard ESPINASSE - 70

« Succès story » dans la grande distribution (2) « Succès story » dans les télécommunications
Exemple du groupe Camaieu: Exemple de France Télécom :
Projet : Le projet :
! plusieurs systèmes de production (magasin, logistique, comptable, etc.) ! 12 BD sources
Solution : ! récupération des données : 1,5 année
! 1996 : agrégés dans un entrepôt de données, via l!ETL Sunopsis ! données régionales et nationales
! base Oracle découpée en référentiels métier (datamarts achat, marketing...) ! parfois chez des prestataires de services
! parfois au prix d!un intense lobbying
! consultation des datamarts via le système de reporting de Business Objects
! en 2003 : environ 5 années de travail
! 2003 : ajout d'un cube OLAP intégré à la base relationnelle Oracle9i :
Solution :
! meilleure ergonomie, ! entreposage : SQL server
! permet des requêtes complexes avec prise en compte de plusieurs niveaux au ! DW de 3 bimestres, vidé périodiquement
sein de la BD (types d'articles, collections, produits, zones géographiques, …) ! 1,2 million d!individus
! base de composants Java (BI Beans) livrée par l'éditeur au sein de son ! 1 fait = 1 client
environnement de développement (JDeveloper). ! 250 colonnes
! intégration faite à la main périodiquement
Exploitation : progiciel de DM développé spécifiquement

Entrepôts de données - Bernard ESPINASSE - 71 Entrepôts de données - Bernard ESPINASSE - 72

Vous aimerez peut-être aussi