Académique Documents
Professionnel Documents
Culture Documents
fr/~donsez/cours
D. DONSEZ
Universit Joseph Fourier, IMA
Didier.Donsez@imag.fr
1996-2006
Plan
1. Introduction
Problmatique- Le Systme dInformation - La Suite Dcisionnelle
2. LEntrept de Donnes
Extraction des donnes - Constitution de lentrept - Modlisation
5. La Gestion de Projet Data Warehouse 6. Les outils 7. Perspectives du Data Warehouse 8. Conclusion et Bibliographie
222 <#>
1. Introduction - Problmatique
Objectif
Amliorer les performances dcisionnelles de l'entreprise
Comment ?
en rpondant aux demandes danalyse des dcideurs
Exemple
clientle : Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? Ces clients sont-ils intressants pour moi ? marketing, actions commerciales : O placer ce produit dans les rayons ? Comment cibler plus prcisment le mailing concernant ce produit ? ...
333 <#>
1. Introduction - Problmatique
Une grande masse de donnes :
Distribue Htrogne Trs Dtaille
A traiter :
Synthtiser / Rsumer Visualiser Analyser
Prise de Dcision
Bases de Production
Base MultiDimensionnelle
Prdiction / Simulation
666 <#>
1. Introduction - Utilisation
Mailing
amlioration du taux de rponse
Banque, Assurance
dterminer les profils client
Risque d'un Prt, Prime plus prcise
Commerce
ciblage de clientle dterminer les promotions amnagement des rayons (2 produits en corrlation)
777 <#>
1. Introduction - Utilisation
Logistique
adquation demande / production
Sant
pidmiologie (VIH, Amiante, ...)
Economtrie
prdiction de trafic autoroutier
Ressources Humaines
adquation activit / personnel
888 <#>
FI (Finance Intelligence)
Planifier, analyse et diffuser linformation financire. Mesurer et grer les risques.
1. Introduction - RSI
Daprs une enqute de lIDC auprs de 45 organisations ayant un Data Warehouse en fonctionnement (fin 1995-1996) :
90% des entreprises ont un RSI au moins gal 40% 50% ont un RSI suprieur 160% 25% ont un RSI suprieur 600%
Retour sur investissement (%)
1000 500999 200499 100199 5099 349 0 5 10 15 20
Organisations (%)
101010 <#>
1. Introduction - Rentabilisation
Dure de rentabilisation du data warehouse Priode de rentabilisation (annes)
5 13 12 01 0 10 20 30 40
Organisations (%)
111111 <#>
1. Introduction - Rentabilisation
Constat: orientation march (client, techno, produit)
Stratgies proactive meilleur que des stratgies ractives
121212 <#>
Principe
Base de Donnes utilise des fins danalyse. Caractristiques :
orientation sujets (mtiers) donnes intgres donnes non volatiles donnes dates
131313 <#>
Service Financier
BD Prod
Service Livraison
BD Prod
Comment
Clientle
2. DW - OLTP versus DW
Bases de Production ( OLTP )
atomiques orient application jour dynamiques
Donnes
Utilisateurs
employs de bureau nombreux concurrents mises jour requtes prdfinies rponses immdiates accs peu de donnes
analystes peu non concurrents interrogations requtes " one-use" rponses moins rapides accs beaucoup dinformation
151515 <#>
2. DW - OLTP
DW
Donnes de production :
SGBD et supports physiques htrognes Qualit ingale des donnes Reprsentations htrognes
2. DW - Alimentation (ETL) du DW
Extraction Transformation
filtrer trier homogniser nettoyer ...
Chargement (Loading)
171717 <#>
2. DW - Transformations
m,f 1,0 male, female FRF USD EUR char(10) dec(13,2) numeric(7)
181818 <#>
EUR
numeric(10)
DW - Transformation
Existence de plusieurs sources
non conformit des reprsentations
dcoupages gographiques diffrents
Secteur Ouest Secteur Est Secteur Nord Secteur Sud
Prune
Violet
produits en vrac
2. DW - Constitution de l'entrept
Extraction des donnes
Besoin doutils spcifiques pour :
accder aux bases de production (requtes sur des BD htrognes) amliorer la qualit des donnes : nettoyer, filtrer, ... transformer les donnes : intgrer, homogniser dater systmatiquement les donnes
Rfrentiel
La mtabase contient des mtadonnes : des donnes sur les donnes du D.W.
quelles sont les donnes entreposes, leur format, leur signification, leur degr dexactitude les processus de rcupration/extraction dans les bases sources la date du dernier chargement de lentrept lhistorique des donnes sources et de celles de lentrept
202020 <#>
2. DW - Stockage
Optimisation
besoin de synthse vs besoin de dtails agrgation des donnes conservation des donnes dtailles
212121 <#>
2. DW - Stockage
Structure directe simple
pas daccumulation rafrachissement sur une longue priode
FEVRIER 2003 J Adams 123 Main Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd W Abraham 12 Hwy 9
JANVIER 2003 J Adams 123 Main Street P. Anderson 456 High Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd .......................
J Adams Jan-pres 123 Main street W Abraham Feb-pres12 Hwy 9 P. Anderson Jan-Jan 456 High Street ............................. 222222 <#>
2. DW - Stockage
Structure de cumul simple
Jan 1
Jan 2
Jan 3 ...
Fev 1
Fev 2
Fev 3 ...
Mar 1
Mar 2
Mar 3 ...
2. DW - Stockage
Structure par rsums roulants
...
jour 1 jour 2 jour 7
...
sem 1 sem 2 sem 4
...
mois 1 mois 2 mois 12
trs compact perte dinformation plus linformation vieillit, moins elle est dtaille
242424 <#>
...
anne 1anne 2 anne n
2. DW - Modlisation
Schma entits-relations (classique) Schma en toile (star schema) Schma en flocon (snowflake schema)
tables de faits : nombreux champs, tables centrales dimensions : peu de champs, permettent dinterprter les faits
252525 <#>
2. DW - Schma toile
Dimension Temps cl_date jour mois trimestre anne id: cl_date acc VENTES cl_date rfrence numero vendeur montant units ref: numero vendeur acc ref: rfrence acc ref: cl_date acc Dimension Commercial dpartement numero vendeur id: numero vendeur acc
2. DW - Schma flocon
Vendeur VENTES Dimension Temps cl_date jour mois trimestre anne id: cl_date acc cl_date rf produit numero vendeur montant units ref: numero vendeur acc ref: rf produit acc ref: cl_date acc Produit rf catgorie description rf produit id: rf produit acc ref: rf catgorie acc Catgorie rf branche rf catgorie id: rf catgorie acc ref: rf branche acc numero dpt numero vendeur Nom id: numero vendeur acc ref: numero dpt acc Dpartement numero dpt id: numero dpt acc
272727 <#>
Exercice
Donnez les cls primaires et les cls trangres
282828 <#>
2. DW - Questions et Requtes
Montant totale des ventes par ville et par produit
select ville, produit, sum(qte*prixvente) from vente, produit, magasin where produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG group by ville, produit
292929 <#>
2. DW - Questions et Requtes
par rgion et par catgorie et par anne
region, categorie, semestre(date), sum(qte*prixvente) vente, produit, magasin, dep2reg, nat2cat produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG and produit.nature = nat2cat.nature and magasin.dept = dep2reg.dept group by region, categorie, year(date) Remarque : year(date) nest pas toujours disponible select from where
303030 <#>
agrgations
Analyse multidimensionnelle
capacit manipuler des donnes qui ont t aggrges selon diffrentes dimensions
ex. : analyse des ventes + + + .... /catgorie de produit /anne /dpartement commercial / zone gographique 1 dim. 2 dim. 3 dim. 4 dim.
313131 <#>
3. BM - L'Analyse MultiDimensionnelle
Objectif
obtenir des informations dj aggrges selon les besoins de lutilisateur : simplicit et rapidit daccs
HyperCube OLAP
reprsentation de linformation dans un hypercube N dimensions
323232 <#>
3. BM - Glossaire OLAP
Dimension
Temps, Produit, Gographie, ...
Produit :
Rayon, Catgorie, Nature, ...
Gographie :
Rgion, Dpartement, Ville, Magasin
Produit::Rayon.Catgorie
Frais.Laitage, ..., Liquide.Vin
Produit::Rayon.Catgorie.Nature
Frais.Laitage.Yaourt, ... , Liquide.Vin.Champagne
333333 <#>
3. BM - Glossaire OLAP
Cellule
intersection des membres des diffrentes dim.
Formule
calcul, expression, rgle, croisement des dim.
Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...
343434 <#>
3. BM - Oprations OLAP
But
Visualisation/Utilisation d'un fragment de l'Hypercube
Oprations OLAP
Drill Up / Drill Down Rotate Slicing Scoping
353535 <#>
Dimension Temps
95 221 275 95 Yaourt Salade 20 40 96 263 257 96 19 43 97 139 116 97 22 48 Frais Liquide 1S95 100 134 2S95 121 141 1S96 111 120 2S96 152 137 1S97 139 116
Dimension Produit
Drill Down
Drill Down
363636 <#>
96 263 257
97 139 116
96 120 400
97 52 203
373737 <#>
Frais Liquide
383838 <#>
Frais
IdF Province
393939 <#>
3. BM - OLAP
Constitution de l'Hypercube
Administration Dfinition des Dimensions / Niveaux / Membres
Stockage
M-OLAP : accde une base multidimensionnelle
+ rapidit
H-OLAP : hybride, multidimensionnel avec accs au niveau le + bas une base relationnelle
404040 <#>
m BD de production
mxn oprations
n Data Marts
m+n oprations
424242 <#>
Data Mining
outils volus de prdiction, simulation, ...
434343 <#>
I 1 . . i . . n
X X1
...
Xj
...
Xp
xij
Ex. :
xi utilise pour avoir (xi - moyennexi) xi (xi - moyennexi) / e , avec e cart-type de lchantillon xi log (xi) pour limiter limpact des valeurs exceptionnelles xi son rang dans lchantillon rpartition des xi en classes damplitude ou de frquence quivalente : xi sa classe Cj xi 0 ou 1 : cration dun tableau logique date dure donnes gographiques coordonnes, distances
454545 <#>
464646 <#>
coef corrlation = somme/nb covariance/(ecartindividus = variance variance type1*ecart-type2) racine(variance) = 5,7 1,7 cart-type cart-type
Conclusions :
Matire 1 plus risque : diffrenciation importante dans les notes Matire 2 : - de risque mais ne permet pas dobtenir bcp de points supplmentaires Classification des tudiants + aise avec les notes 1 (nuage de points) 474747 Pas de corrlation entre les notes des 2 matires <#>
4. Data Mining
OLAP vs Data Mining
OLAP : lutilisateur cherche confirmer des intuitions
ex. : A-t-on vendu plus de yaourts en Rgion Parisienne quen Bretagne en 2003 ?
494949 <#>
4. Data Mining
Principe
Creuser une mine (le DW) pour rechercher un filon (linformation) Evolution par rapport aux statistiques classiques
Objectifs
Prdiction (What-if)
Confirmation dhypothses
Entres
Fichiers Texte, Feuille de Calcul (SYLK, XLS) Slice/Scope d'un HyperCube OLAP
505050 <#>
515151 <#>
la base de cas est structure hirarchiquement indexation des donnes : pondration des critres de similarit
base de cas
Recherche de cas similaires cas remmor Adaptation solution propose 525252 <#> Test/ Amlioration
535353 <#>
base dexemples
565656 <#>
base dexemples
575757 <#>
Rsultat
Cration dun modle reposant sur les donnes existantes par un rseau apprenant
585858 <#>
entres
sortie(s)
595959 <#>
616161 <#>
4. Synthse
Prise de Dcision
Bases de Production
Entrept de Donnes
Base MultiDimensionnelle
Prdiction / Simulation
Requtes d'Aggrgats Rpartition (BD Parallles) Serveur/Client Mises Jour Stockage et Accs Stockage (Statistiques,IA) (BD Parallles) et Accs
626262 <#>
5. Les acteurs
Le sponsor
membre de la direction, soutient le projet
Le comit utilisateur
diffrentes catgories (regroupement par besoins) des reprsentants
Lquipe de conception
souvent : consultants externes
646464 <#>
5. Cycle de vie
Justification du projet Itrations :
Conception Dveloppement (prototypage) Evaluation
656565 <#>
5. Justification du projet
objectif, retours attendus choix de lquipe de conception
appel ventuel un intervenant extrieur
Sponsor Concepteurs Utilisateurs
666666 <#>
DBAs
5. Cycle de prototypage
Analyse
interviews
Utilisateurs
donnes traitements
676767 <#>
DBAs
Concepteurs
DECISIONS
Quelles dcisions avez-vous prendre ? (Quoi ?) Quels sont les critres qui influencent la prise de dcision ? (Comment ?) Dans quel(s) but(s) les dcisions sont-elles prises ? (Pourquoi ?)
DIFFICULTES ACTUELLES
Quelles sont les difficults actuellement rencontres dans la prise de dcision, difficults en rapport avec les donnes ?
prcision des donnes (dtails, actualisation, vrification) synthse des donnes (regroupements) volution (temps) autres...
Type de graphiques : barres-graphes, camemberts, nuages de points ... ? Existe-t-il une prsentation actuelle ou habituelle conserver ?
686868 <#>
696969 <#>
5. La mtabase
Tout Data Warehouse comporte une mtabase qui regroupe des mta-donnes. Les mta-donnes sont utilises pour stocker des informations propos des donnes utilises par le Data Warehouse. la mtabase comprend :
un dictionnaire des donnes : contient les dfinitions des lments contenus dans les bases de donnes et les liens entre eux. l'origine des donnes : quelle est la base oprationnelle d'origine d'une donne le flux de donnes (direction, frquence) la transformation des donnes l'historique des donnes ...
707070 <#>
MetaBase 5/5
0-N
a_subi
1-1
0-N
possede 1-1 DW_Attribut historique mod_code mod_date explication id: mod_code mod_date 1-1 explique_par
OpDB_Colonne
0-N appartient_a 0-N OpDB_Table nom_table_physique id: nom_table_physique 1-1 appartient_a 1-N OpDataBase nom_DB_physique Rle[1-N] Utilisateurs[0-N] Sup_Logiciel Sup_Materiel id: nom_DB_physique
0-1 est_synonyme_de
0-N nourrit DerniereMaJ 0-N 1-N origine_op 0-N nourrit DerniereMaJ 0-N P
1-1
0-N
nourrit DerniereMaJ
717171 <#>
727272 <#>
bouton Main menu CA clic sur produit menu rsultats par produit menu clic sur zone gographique menu clientle
...
737373 <#>
5. Rtro-Ingnierie
Principe
reconstruire les modles de conception dune B.D.
INGENIERIE
Modle Conceptuel de Donnes Modle (Semi-) Conceptuel de Donnes
RETRO-INGENIERIE
Usage
documentation inexistante ou non ractualise comprhension des donnes de production en vue de leur intgration
script DDL
Outils spcifiques
AGL (Atelier de Gnie Logiciel ou CASE)
Base de Donnes
747474 <#>
5. Intgration
intgrer les MCD obtenus par rtro-ingnierie en un modle global et homogne difficults :
conflit de classification conflit de description conflit de structure
5. Intgration
conflit de classification
objets de smantiques voisines mais comportant certaines proprits diffrentes Solution : soit tablir une relation IS-A, soit oprer une fusion entre les deux objets.
conflit de description
reprsentation diffrente des proprits, savoir des identifiants diffrents, des formats diffrents dattributs identiques,... : Solution : choisir une des deux reprsentations, la plus logique, la plus cohrente avec le reste du modle, pour exprimer le rsultat de lintgration.
conflit de structure
lattribut dun modle correspond lentit dune autre ou un attribut une association, ou une entit une association Solution : passer par une tape de transformation entit/attribut ou entit/association
Il est trs important de mmoriser les transformations opres afin de garder une trace permettant de retrouver le lien entre un lment du Data Warehouse et les donnes correspondantes des bases oprationnelles.
767676 <#>
Branche
Catgorie
Produit
dimension Produit
Direction
Agent
dimension Commerciale
777777 <#>
787878 <#>
5. Finalisation
Concepteurs
Mise en exploitation
chargements rguliers utilisation au quotidien
5. Evolution
mise en uvre rgulire utilisation confrontation aux retours attendus valuations diffrentes chances
Concepteurs
Evaluation
Utilisateurs DBAs
808080 <#>
Evolution
suite du projet :
ajout de fonctionnalits ? ajout de Data Marts ?
Sponsor
6. Les outils
Un march fragment :
Constitution du DataWarehouse Stockage Extraction dInformation
818181 <#>
6. Constitution du DataWarehouse
Administration
SourcePoint (Software AG), ISM/OpenMaster (Bull), CA-UniCenter, DataHub (IBM), CPE (SAS), Warehouse Administrator (SAS)
Extraction et Purification
Warehouse Manager (Prism), Integrity Data Reengineering (Vality), Access (SAS), DataStage (VMark), Gnio (Lonards Logic), InfoRefiner (Platinum), PASSPORT et NATURAL (Software AG), Gentia ( Planning Sciences)
828282 <#>
6. Stockage
DataWarehouse
Oracle, Sybase, Informix, Ingres (CA), DB2 (IBM), Tandem, Teradata, ...
Serveur OLAP
Express (Oracle), Business Objects, Powerplay / Impromptu (Cognos), Adabas (Software AG), Opera (CFI), ALEA (MIS AG), Harry Cube (Adviseurs), Gentia (Planning Sciences), Essbase (Arbor Software), Informix, Pilot, ...
838383 <#>
6. Extraction d'Information
Rtro-ingnierie (Reverse-Engineering)
Business Object, DB-Main
Browser OLAP
Discoverer (Oracle), ESPERANT (Software AG), InfoBeacon (Platinum), Explorer (Business Objects), le VCL DecisionCube de Delphi Cl/Sv
Arbres de Dcision
Alice (ISoft), Knowledge Seeker (Angoss), Chaid (SPSS)
Rseaux de Neurones
Predict (Neuralware), Neural Connection (SPSS), Previa (Elseware)
Autres
Mineset (SGI), Darwin (Thinking Machines), Gupta DataMind (bas sur les rseaux dagents), Discovery Server (Pilot), DSS Agent (Micro Strategy), BusinessMiner (Business Objects), Intelligent Miner (IBM), ...
848484 <#>
donnes externes
ouverture linternet
8. Bibliographie - Livres
J.-M. Franco, Le Data Warehouse / Le Data Mining, Eyrolles, 1997 J.-M. Franco, S. De Lignerolles, Piloter l'entreprise grce au data warehouse, Eyrolles, 2000. R. Mattison, Data Warehousing - Strategies, Technologies and Technics, IEEE Computer Society, 1996. W. H. Inmon, Building the Data Warehouse, ed. Wiley
1re dition : 1996, 3me dition: 2002, voir http://www.billinmon.com/
W. H. Inmon, Managing the Data Warehouse, ed. Wiley, 1997 R. Kimball, Entrepts de Donnes, Intl Thomson Pub., 1997. Ralph Kimball, Laura Reeves, Warren Thornwaite, The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses , 800 pages (aot 1998), Ed Wiley, ISBN: 0471255475 Ralph Kimball, Margy Ross, Entrepts de donnes. Guide pratique de modlisation dimensionnelle , 2me dition (1 janvier 2003), Ed Vuibert, 2-7117-4811-1
868686 <#>
8. Bibliographie - Livres
R. Michalski et al., "Apprentissage symbolique.", Cpadus, 1993. Patrick Becker, Ann Becker, Patrick Nam, Les Rseaux baysiens : Modles graphiques de connaissance, Ed Eyrolles, 1999
878787 <#>
Bibliographie
Surajit Chaudhuri, Umeshwar Dayal: An Overview of Data Warehousing and OLAP Technology. SIGMOD Record 26 (1): 65-74 (1997)
888888 <#>
8. Bibliographie - WWW
http://www.dw-institute.com/
The Data Warehouse Institute
http://pwp.starnetic.com/larryg/
Infos dont accs des livres blancs sur le DW
http://www.promotheus.eds-fr/themes/dw/
Institut Promotheus, thme DW
http://www.cait.wustl.edu/cait/papers/prism/
Socit Prisme fonde par W.H. Inmon
http://www.olapcouncil.org/
Outils OLAP
http://www.valoris.fr/amplitude/j101.htm http://www.mediatid.fr/datawarehouse
forum sur le Data Warehouse
898989 <#>
8. Bibliographie - Recherche
ACM SIGMOD VLDB Data Warehousing and Knowledge Discovery (DaWaK)
Confrence scientifique spcialise
DOLAP
909090 <#>