Vous êtes sur la page 1sur 24

Chapitre Préliminaire

Entrepôts de données

Christelle Scharff
IFI
Juin 2004

1
Plan et objectifs
 Informatique de production
 Transactions
 Informatique décisionnelle
 Entrepôts de données
 Datamarts
 Construction des entrepôts
 Opérations OLAP
 Problèmes
2
Informatique de production
 Interrogations et modifications fréquentes
des données par de nombreux utilisateurs
 Nécessité de conserver la cohérence des
données
 Les systèmes transactionnels (OLTP)
garantissent la cohérence des données
 L’informatique de production est optimisée
pour les tâches répétitives et planifiées
 Exemples:
 Factures, commandes…
3
Transactions
 Programmes informatiques qui inter-
agissent avec les bases de données
ayant les propriétés suivantes:
 A - Atomicité
 C - Consistance
 I - Isolation
 D - Durée

4
Informatique décisionnelle
 Chargement périodique des données
 Pas de modifications des données
 Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels
 Exemples de questions:
 Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ?
 Comment se comporte le produit X par rapport au
produit Y?
 Quel type de client peut acheter le produit X?

 Exemple: OLAP (Codd)


5
OLTP OLAP

Utilisateurs Lambda Spécialisés


Fonctions Journalier Décision
Design DB Oriente application Oriente sujet
Données Courantes, détaillées, Historiques, résumées,
plates, à jour multi-dimensionnelles,
intégrées, consolidées

Utilisation Répétitive Ad hoc


Accès Écrire/Lire Lire
Index / Hachage sur les
clés primaires
Transactions/Requêt Transaction courte et Requêtes complexes
es simple
# lignes accédées Dizaines Millions
# utilisateurs Milliers Centaines
Taille DB 100 MG-GB 100 GB-TB
Métriques # Transactions Réponses, # requêtes
6
Entrepôt de données (1)
 Contient de grandes quantités de données
 provenant de diverses sources,
 sauvées sous un schéma de données unique, et
 résidant à un endroit unique
 Construit par:
 Nettoyage, transformation, intégration,
chargement et rafraîchissement périodiques des
données

7
Entrepôt de données (2)
 Organisés suivant des thèmes précis (clients,
activités, items…)
 Organisés suivant une chronologie historique
 Résument les données
 Plus lisibles et plus simples que les données
initiales
 Introduction de redondance éventuelle
 Cohérence globale des données
 Les données / informations des entrepôts ne
sont pas modifiees
8
Datamarts

 Versions simplifiées, car plus ciblées,


des entrepôts des données

9
Nettoyage des données

 Erreurs de saisie
 Intégrité des domaines
 Exemple: Les dates
 Données manquantes

10
Transformations des données
 Format
 Exemple: Type des données
 Consolidation
 Exemple: Choix des unités et des
représentations
 Uniformisation d’échelle
 Exemple: Homogénéisation des échelles

11
Requêtes sur les entrepôts de
données

 Extraire des données:


 Les outils OLAP
 Le progiciel SAS
 Un progiciel est un logiciel de gestion
 Outils de création de rapports
 Outils dans les SGBD
 Un language (Exemple: DMQL)
12
Représentation conceptuelle
des entrepôts de données*
 Souvent représentés par une structure à
plusieurs dimensions
 Une dimension est un attribut ou un ensemble
d’attributs
 Les cellules sauvent des données agrégées
appelées faits
 Représentations: Relations, cube de données,
hyper-cube de données
 Utilisation d’un language (Exemples: SQL ou
DMQL) pour peupler les entrepôts

13
Exemple
 Total des ventes à un client dans une
tranche horaire d'un jour précis, pour
un produit choisi

14
Représentation logique des
entrepôts de données*
 Implantation classique: Modèle en étoile:
 Au centre la table des faits
 Les dimensions comme autant de branches à
l'étoile.
 Les branches de l'étoile sont des relations de 1 à
plusieurs
 La table des faits est énorme contrairement aux
tables des dimensions
 Le modèle est très dissymétrique en
comparaison avec les modèles relationnels
des bases de production
 L’étoile est un modèle simple 15
Exemple
 Un enregistrement dans la table des faits
Ventes correspond à un total des ventes à un
client dans une tranche horaire d'un jour
précis, pour un produit choisi.

16
Autres modèles

 Le modèle en flocon de neige


 Les tables des dimensions sont normalisées
 Le modèle de la constellation des faits
 Une table de faits peut être partagée par
plusieurs tables de dimension

17
Hiérarchies*
 Hiérarchies de schémas
 Ordre total ou partiel sur les attributs des schémas
 Décrivent des relations sémantiques entre les
attributs
 Exemple: Rue < Ville < État_ou_Province < Pays
 Hiérarchies de groupes
 Organise les valeurs d’attributs ou de dimensions
en groupes
 Un ordre total ou partiel peut être défini entre les
groupes
 Exemples: {0…45}  Jeune, {46…150}  Agé ,
{Jeune, Agé}  all(age) 18
Opération: Navigation ou
Forage*
 Pour obtenir plus de détails sur la signification
d'un résultat en affinant une dimension ou en
ajoutant une dimension
 Exemple:
 Supposons qu'un utilisateur final demande les chiffres
d'affaires par produit, et s'étonne d'un résultat pour un
produit donné. Il aura sûrement l'envie d'en analyser les
raisons. Une solution consisterait à ajouter la dimension
temps, dans l'unité de temps trimestrielle pour trouver une
variation saisonnière, dans l'unité hebdomadaire pour
envisager l'effet week-end ou encore la dimension magasin
pour mettre en évidence un effet géographique.

19
Opération: Agrégats*
 Pour obtenir moins de détails
 Élimination d’une dimension ou
regroupement des éléments d’une
dimension
 Exemple:
 Ville < Etat < Province < Pays
 Au lieu de regrouper les données par ville,
elles sont regroupées par pays

20
Autres opérations*

 Sélection sur une dimension ou


plusieurs dimensions (tranche du cube)
 Rotation / pivot du cube
 D’autres opérations impliquent plus
d’une table des faits

21
Problèmes
 Supports physiques
 Peupler l’entrepôt
 Calcul des valeurs de la table des faits
 Structure creuse
 La valeur est 0
 Exemple: 300 des 3000 produits sont vendus
chaque jour
 Problèmes des clés et des indexes
 Organisation physique importante du point de vue
des performances
 Les tables de dimension sont souvent indexées
suivant tous leurs champs 22
Exercice*

 Exercice du magasin d’électronique

23
Références
 http://www.grappa.univ-
lille3.fr/polys/fouille/

 J. Han, and M. Kamber. Data Mining


Concepts and Techniques. Morgan
Kaufmann.

24

Vous aimerez peut-être aussi