Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Lydie Soler
Janvier 2008
U.F.R. dinformatique
Plan
Introduction
Le contexte
Quels franais
consomment
beaucoup de
poisson?
Pourquoi et
comment le
chiffre
daffaire a
baiss?
A combien
slvent mes
ventes
journalires?
3
Problmatique
Comment rpondre aux demandes des dcideurs?
En donnant un accs rapide et simple linformation
stratgique
En donnant du sens aux donnes
Prise de
dcision
Bases de
production
Data
warehouse
Prdiction /
simulation
Plan
Introduction
Dfinition dun DW
W. H. Inmon (1996):
11
Ass. Auto
Ass. Sant
Client
Police
12
h,f
homme, femme
GBP
CHF
USD
EUR
13
Entrepts de donnes
Ajout
Suppression
Accs
Modification
Chargement
14
Rpertoire
Base de
production
Nom
Ville
Nom
Ville
Dupont
Paris
Dupont
Marseille
Durand
Lyon
Durand
Lyon
Rpertoire
Calendrier
Entrept
de
donnes
Code Anne
Mois
Code Anne
Mois
2005
Mai
Dupont
Paris
2006
Juillet
Durand
Lyon
15
Dupont
Marseille
SGBD et DW
OLTP: On-Line
Transactional
Processing
Service
commercial
Service
Financier
Service
livraison
BD prod
BD prod
BD prod
Clientle
Data Warehouse
OLAP: On-Line
Analitical
Processing
Clientle
H
I
S
T
O
R
I
Q
U
E
16
OLTP VS DW
OLTP
DW
Orient transaction
Orient analyse
Orient application
Donnes courantes
Orient sujet
Donnes historises
Donnes dtailles
Donnes volutives
Donnes agrges
Donnes statiques
Utilisateurs nombreux,
Utilisateurs peu nombreux,
administrateurs/oprationnels manager
Plan
Introduction
Datamart
Sous-ensemble dun entrept de donnes
DW de lentreprise
Datamart du
service Ressources
Humaines
19
20
Plan
Introduction
Architecture gnrale
Zone de stockage
Zone de prparation
E
X
T
R
A
C
T
I
O
N
Sources de
donnes
Transformations:
Nettoyage
Standardisation
C
H
A
R
G
E
M
E
N
T
Data
warehouse
Zone de
prsentation
Requtes
Rapports
Visualisation
Data Mining
Datamart
22
Flux sortant:
23
Plan
Introduction
Modlisation Entit/Association
Avantages:
Normalisation:
liminer les redondances
Prserver la cohrence des donnes
Optimisation des transactions
Rduction de lespace de stockage
Inconvnients pour un utilisateur final:
Schma trs/trop complet:
Contient des tables/champs inutiles pour lanalyse
Pas dinterface graphique capable de rendre
utilisable le modle E/A
Inadapt pour lanalyse
26
Exemple
Mode
dexpdition
Transporteur
Produit
Contrat
Type de
contrat
Commande
client
Groupe de
produits
Client
Magasin
Employ
Stock
Fonction
Fournisseurs
Rgion de
ventes
Division
de ventes
Famille de
produits
27
Modlisation des DW
Nouvelle mthode de conception autour des
concepts mtiers
Table de faits
Table de dimensions
Modle en toile
Modle en flocon
28
Table de faits
Table principale du modle dimensionnel
Contient les donnes observables (les faits) sur le sujet
Cls trangres
vers les
dimensions
Faits
Additif
Semi additif
Non additif
30
dimensions
en banque
Non additif: fait non additionnable quelque soit la
dimension
Prix unitaire: laddition sur nimporte quelle dimension donne
31
un nombre dpourvu de sens
table de faits:
Finesse
Taille de lentrept
32
Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes
observables (faits)
Contient le dtail sur les faits
Cl de substitution
Attributs de la
dimension
Dimension produit
Cl produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Emballage
Poids
33
34
La dimension Temps
Commune lensemble du
DW
Relie toute table de
faits
Dimension Temps
Cl temps (CP)
Jour
Mois
Trimestre
Semestre
Anne
Num_jour_dans_anne
Num_semaine_ds_anne
35
en hirarchie :
36
37
38
12345
Intelli-Kids
Logiciel
Jeux ducatifs
39
Intelli-Kids
Logiciel
25963
Intelli-Kids
Jeux ducatifs
40
Avantages:
Inconvnient:
Nouveau groupe
de produits
Jeux ducatifs 41
42
lhistorique
43
Faits
Cl_client
Cl_client
Cl_client
Nom
Faits
Nom
Prnom
Cl_client
Adresse
Cl_dmog
Prnom
Adresse
Date_nais
Date_naissance
Dim_dmographique
Revenus
Cl_dmog
Niveau_tude
Revenus
Nb_enfants
Niveau_tude
Statut_marital
Nb_enfants
Profil_financier
Statut_marital
Profil_achat
Profil_financier
Profil_achat
44
Modle en toile
Modle en flocon
45
Modle en toile
Une table de fait centrale et des dimensions
Facilit de navigation
Nombre de jointures limit
Inconvnients:
Modle en toile
Dimension Magasin
ID magasin
description
ville
surface
Dimension Region
ID rgion
pays
description
district vente
.
Dimension Temps
ID temps
anne
mois
jour
Dimension produit
ID produit
nom
code
prix
poids
groupe
famille
Dimension Client
ID client
nom
prnom
adresse
47
Modle en flocon
Une table de fait et des dimensions dcomposes en sous
hirarchies
On a un seul niveau hirarchique dans une table de
dimension
La table de dimension de niveau hirarchique le plus bas
est relie la table de fait. On dit quelle a la granularit la
plus fine
Avantages:
Inconvnients:
Modle plus complexe (jointure)
Requtes moins performantes
48
Modle en flocon
Dimension Magasin
ID magasin
description
ville
surface
Dimension Temps
ID temps
annee
mois
jour
Dimension Region
ID rgion
ID division vente
pays
description
.
Dimension
Division vente
ID division vente
description
.
Dimension produit
ID produit
ID groupe
nom
code
prix
poids
Dimension groupe
ID groupe
ID famille
nom
Dimension Famille
ID famille
nom
49
2.
3.
4.
5.
6.
7.
8.
9.
Choisir le sujet
Choisir la granularit des faits
Identifier et adapter les dimensions
Choisir les faits
Stocker les pr-calculs
tablir les tables de dimensions
Choisir la dure de la base
Suivre les dimensions lentement volutives
Dcider des requtes prioritaires, des modes de requtes
50
Plan
Introduction
dans lentrept
Utilisation doutils ETL (Extract, Transform, Load)
52
maintenance
Permet de dcouvrir, analyser et extraire les donnes
partir de sources htrognes
Permet de nettoyer et standardiser les donnes
Permet de charger les donnes dans un entrept
53
Extraction
Extraire des donnes des systmes de production
Dialoguer avec diffrentes sources:
Base de donnes,
Fichiers,
Bases propritaires
Utilise divers connecteurs :
ODBC,
SQL natif,
Fichiers plats
54
Transformation
Rendre cohrentes les donnes des diffrentes
sources
55
Chargement
Insrer ou modifier les donnes dans lentrept
Utilisation de connecteurs:
ODBC,
SQL natif,
Fichiers plats
56
57
Plan
Introduction
OLTP VS OLAP
Produits
oranges
poires
Produit
PK id_produit
Espagne
Allemagne
pommes
Libell
Famille
Pays
Achat
France
PK id_achat
FK id_client
client
PK
id_client
Nom
id_produit
Quantit
janvier
avril
fvrier
Temps
Vente de
pommes en
Allemagne
en avril
adresse
59
ROLAP
Relational OLAP
Mondrian
60
MOLAP
Multi dimensional OLAP:
Utiliser un systme multidimensionnel pur qui
gre les structures multidimensionnelles natives
(les cubes)
Accs direct aux donnes dans le cube
Plus difficile mettre en place
Formats souvent propritaires
Conu exclusivement pour lanalyse
multidimensionnelle
Exemples de moteurs MOLAP:
61
HOLAP
Hybride OLAP:
62
Le cube
Modlisation multidimensionnelle des donnes
Temps
Localisation gographique
63
uf
05 06 07
221 263 139
05 06 07
Idf 101 120 52
Ain 395 400 203
64
uf
05 06 07
Idf 220 265 284
Ain 225 245 240
uf
06
Idf 265
Ain 245
65
uf
05 06 07
Idf 220 265 284
Ain 225 245 240
05 06 07
uf Idf 220 265 284
Ain 225 245 240
66
67
Drill-up, drill-down
Roll up
05
07
Dimension
Temps
Roll up
05-07
Fruits
06
623
Viande 648
05
Fruits
06
07
Fruits
100
121
111
152
139
Viande 134
141
120
137
116
05 06 07
Pomme
20 19 22
Boeuf
40 43 48
Dimension
Produit
Drill down
Drill down
68
69
MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004
Dimensions,
axes danalyse
Cube
WHERE ([Measures].[Count])
2004 2005
70
Plan
Introduction
Le march du dcisionnel
72
73
Entrept
de donnes
OLAP
Octopus
MySql
Mondrian Birt
Weka
Kettle
Postgresql
Palo
R-Project
CloverETL Greenplum/Biz
Talend
gres
Reporting
Open Report
Data Mining
JFreeReport
Xelopes
Intgr
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI
74
Plan
Introduction
Exemples
Rapports
Sales by customer
Dashboard
Analyse
76
77