Académique Documents
Professionnel Documents
Culture Documents
Entrepôts de données
Christelle Scharff
IFI
Juin 2004
1
Plan et objectifs
Informatique de production
Transactions
Informatique décisionnelle
Entrepôts de données
Datamarts
Construction des entrepôts
Opérations OLAP
Problèmes
2
Informatique de production
Interrogations et modifications fréquentes
des données par de nombreux utilisateurs
Nécessité de conserver la cohérence des
données
Les systèmes transactionnels (OLTP)
garantissent la cohérence des données
L’informatique de production est optimisée
pour les tâches répétitives et planifiées
Exemples:
Factures, commandes…
3
Transactions
Programmes informatiques qui inter-
agissent avec les bases de données
ayant les propriétés suivantes:
A - Atomicité
C - Consistance
I - Isolation
D - Durée
4
Informatique décisionnelle
Chargement périodique des données
Pas de modifications des données
Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels
Exemples de questions:
Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ?
Comment se comporte le produit X par rapport au
produit Y?
Quel type de client peut acheter le produit X?
7
Entrepôt de données (2)
Organisés suivant des thèmes précis (clients,
activités, items…)
Organisés suivant une chronologie historique
Résument les données
Plus lisibles et plus simples que les données
initiales
Introduction de redondance éventuelle
Cohérence globale des données
Les données / informations des entrepôts ne
sont pas modifiees
8
Datamarts
9
Nettoyage des données
Erreurs de saisie
Intégrité des domaines
Exemple: Les dates
Données manquantes
10
Transformations des données
Format
Exemple: Type des données
Consolidation
Exemple: Choix des unités et des
représentations
Uniformisation d’échelle
Exemple: Homogénéisation des échelles
11
Requêtes sur les entrepôts de
données
13
Exemple
Total des ventes à un client dans une
tranche horaire d'un jour précis, pour
un produit choisi
14
Représentation logique des
entrepôts de données*
Implantation classique: Modèle en étoile:
Au centre la table des faits
Les dimensions comme autant de branches à
l'étoile.
Les branches de l'étoile sont des relations de 1 à
plusieurs
La table des faits est énorme contrairement aux
tables des dimensions
Le modèle est très dissymétrique en
comparaison avec les modèles relationnels
des bases de production
L’étoile est un modèle simple 15
Exemple
Un enregistrement dans la table des faits
Ventes correspond à un total des ventes à un
client dans une tranche horaire d'un jour
précis, pour un produit choisi.
16
Autres modèles
17
Hiérarchies*
Hiérarchies de schémas
Ordre total ou partiel sur les attributs des schémas
Décrivent des relations sémantiques entre les
attributs
Exemple: Rue < Ville < État_ou_Province < Pays
Hiérarchies de groupes
Organise les valeurs d’attributs ou de dimensions
en groupes
Un ordre total ou partiel peut être défini entre les
groupes
Exemples: {0…45} Jeune, {46…150} Agé ,
{Jeune, Agé} all(age) 18
Opération: Navigation ou
Forage*
Pour obtenir plus de détails sur la signification
d'un résultat en affinant une dimension ou en
ajoutant une dimension
Exemple:
Supposons qu'un utilisateur final demande les chiffres
d'affaires par produit, et s'étonne d'un résultat pour un
produit donné. Il aura sûrement l'envie d'en analyser les
raisons. Une solution consisterait à ajouter la dimension
temps, dans l'unité de temps trimestrielle pour trouver une
variation saisonnière, dans l'unité hebdomadaire pour
envisager l'effet week-end ou encore la dimension magasin
pour mettre en évidence un effet géographique.
19
Opération: Agrégats*
Pour obtenir moins de détails
Élimination d’une dimension ou
regroupement des éléments d’une
dimension
Exemple:
Ville < Etat < Province < Pays
Au lieu de regrouper les données par ville,
elles sont regroupées par pays
20
Autres opérations*
21
Problèmes
Supports physiques
Peupler l’entrepôt
Calcul des valeurs de la table des faits
Structure creuse
La valeur est 0
Exemple: 300 des 3000 produits sont vendus
chaque jour
Problèmes des clés et des indexes
Organisation physique importante du point de vue
des performances
Les tables de dimension sont souvent indexées
suivant tous leurs champs 22
Exercice*
23
Références
http://www.grappa.univ-
lille3.fr/polys/fouille/
24