Vous êtes sur la page 1sur 24

1

Chapitre Prliminaire

Entrepts de donnes
Christelle Scharff
IFI
Juin 2004
2
Plan et objectifs
Informatique de production
Transactions
Informatique dcisionnelle
Entrepts de donnes
Datamarts
Construction des entrepts
Oprations OLAP
Problmes


3
Informatique de production
Interrogations et modifications frquentes
des donnes par de nombreux utilisateurs
Ncessit de conserver la cohrence des
donnes
Les systmes transactionnels (OLTP)
garantissent la cohrence des donnes
Linformatique de production est optimise
pour les tches rptitives et planifies
Exemples:
Factures, commandes
4
Transactions
Programmes informatiques qui inter-
agissent avec les bases de donnes
ayant les proprits suivantes:
A - Atomicit
C - Consistance
I - Isolation
D - Dure
5
Informatique dcisionnelle
Chargement priodique des donnes
Pas de modifications des donnes
Interrogations non rgulires, planifies, parfois
longues des systmes dinformation dcisionnels
Exemples de questions:
Quelles sont les ventes du produit X pendant le
trimestre A de l'anne B dans la rgion C ?
Comment se comporte le produit X par rapport au
produit Y?
Quel type de client peut acheter le produit X?
Exemple: OLAP (Codd)
6
OLTP OLAP
Utilisateurs Lambda Spcialiss
Fonctions Journalier Dcision
Design DB Oriente application Oriente sujet
Donnes Courantes, dtailles,
plates, jour
Historiques, rsumes,
multi-dimensionnelles,
intgres, consolides
Utilisation Rptitive Ad hoc
Accs crire/Lire
Index / Hachage sur les
cls primaires
Lire
Transactions/Requt
es
Transaction courte et
simple
Requtes complexes
# lignes accdes Dizaines Millions
# utilisateurs Milliers Centaines
Taille DB 100 MG-GB 100 GB-TB
Mtriques # Transactions Rponses, # requtes
7
Entrept de donnes (1)
Contient de grandes quantits de donnes
provenant de diverses sources,
sauves sous un schma de donnes unique, et
rsidant un endroit unique
Construit par:
Nettoyage, transformation, intgration,
chargement et rafrachissement priodiques des
donnes
8
Entrept de donnes (2)
Organiss suivant des thmes prcis (clients,
activits, items)
Organiss suivant une chronologie historique
Rsument les donnes
Plus lisibles et plus simples que les donnes
initiales
Introduction de redondance ventuelle
Cohrence globale des donnes
Les donnes / informations des entrepts ne
sont pas modifiees
9
Datamarts
Versions simplifies, car plus cibles,
des entrepts des donnes
10
Nettoyage des donnes
Erreurs de saisie
Intgrit des domaines
Exemple: Les dates
Donnes manquantes
11
Transformations des donnes
Format
Exemple: Type des donnes
Consolidation
Exemple: Choix des units et des
reprsentations
Uniformisation dchelle
Exemple: Homognisation des chelles

12
Requtes sur les entrepts de
donnes
Extraire des donnes:
Les outils OLAP
Le progiciel SAS
Un progiciel est un logiciel de gestion
Outils de cration de rapports
Outils dans les SGBD
Un language (Exemple: DMQL)

13
Reprsentation conceptuelle
des entrepts de donnes*
Souvent reprsents par une structure
plusieurs dimensions
Une dimension est un attribut ou un ensemble
dattributs
Les cellules sauvent des donnes agrges
appeles faits
Reprsentations: Relations, cube de donnes,
hyper-cube de donnes
Utilisation dun language (Exemples: SQL ou
DMQL) pour peupler les entrepts
14
Exemple
Total des ventes un client dans une
tranche horaire d'un jour prcis, pour
un produit choisi
15
Reprsentation logique des
entrepts de donnes*
Implantation classique: Modle en toile:
Au centre la table des faits
Les dimensions comme autant de branches
l'toile.
Les branches de l'toile sont des relations de 1
plusieurs
La table des faits est norme contrairement aux
tables des dimensions
Le modle est trs dissymtrique en
comparaison avec les modles relationnels
des bases de production
Ltoile est un modle simple
16
Exemple
Un enregistrement dans la table des faits
Ventes correspond un total des ventes un
client dans une tranche horaire d'un jour
prcis, pour un produit choisi.

17
Autres modles
Le modle en flocon de neige
Les tables des dimensions sont normalises
Le modle de la constellation des faits
Une table de faits peut tre partage par
plusieurs tables de dimension
18
Hirarchies*
Hirarchies de schmas
Ordre total ou partiel sur les attributs des schmas
Dcrivent des relations smantiques entre les
attributs
Exemple: Rue < Ville < tat_ou_Province < Pays
Hirarchies de groupes
Organise les valeurs dattributs ou de dimensions
en groupes
Un ordre total ou partiel peut tre dfini entre les
groupes
Exemples: {045} Jeune, {46150} Ag ,
{Jeune, Ag} all(age)
19
Opration: Navigation ou
Forage*
Pour obtenir plus de dtails sur la signification
d'un rsultat en affinant une dimension ou en
ajoutant une dimension
Exemple:
Supposons qu'un utilisateur final demande les chiffres
d'affaires par produit, et s'tonne d'un rsultat pour un
produit donn. Il aura srement l'envie d'en analyser les
raisons. Une solution consisterait ajouter la dimension
temps, dans l'unit de temps trimestrielle pour trouver une
variation saisonnire, dans l'unit hebdomadaire pour
envisager l'effet week-end ou encore la dimension magasin
pour mettre en vidence un effet gographique.
20
Opration: Agrgats*
Pour obtenir moins de dtails
limination dune dimension ou
regroupement des lments dune
dimension
Exemple:
Ville < Etat < Province < Pays
Au lieu de regrouper les donnes par ville,
elles sont regroupes par pays


21
Autres oprations*

Slection sur une dimension ou
plusieurs dimensions (tranche du cube)
Rotation / pivot du cube
Dautres oprations impliquent plus
dune table des faits

22
Problmes
Supports physiques
Peupler lentrept
Calcul des valeurs de la table des faits
Structure creuse
La valeur est 0
Exemple: 300 des 3000 produits sont vendus
chaque jour
Problmes des cls et des indexes
Organisation physique importante du point de vue
des performances
Les tables de dimension sont souvent indexes
suivant tous leurs champs
23
Exercice*


Exercice du magasin dlectronique
24
Rfrences
http://www.grappa.univ-
lille3.fr/polys/fouille/

J. Han, and M. Kamber. Data Mining
Concepts and Techniques. Morgan
Kaufmann.

Vous aimerez peut-être aussi