Vous êtes sur la page 1sur 90

http://www-adele.imag.

fr/~donsez/cours

Systmes dinformation dcisionnels


(Data Warehouse / Data Mining)
E. GRISLIN-LE STRUGEON
Universit de Valenciennes, ISTV
Emmanuelle.Grislin@univ-valenciennes.fr

D. DONSEZ
Universit Joseph Fourier, IMA
Didier.Donsez@imag.fr

1996-2006

Plan
1. Introduction
Problmatique- Le Systme dInformation - La Suite Dcisionnelle

2. LEntrept de Donnes
Extraction des donnes - Constitution de lentrept - Modlisation

3. Les Bases Multidimensionnelles


Analyse multidimensionnelle - OLAP - Data Marts

4. La Restitution des Informations


Data Mining

5. La Gestion de Projet Data Warehouse 6. Les outils 7. Perspectives du Data Warehouse 8. Conclusion et Bibliographie

222 <#>

1. Introduction - Problmatique
Objectif
Amliorer les performances dcisionnelles de l'entreprise

Comment ?
en rpondant aux demandes danalyse des dcideurs

Exemple
clientle : Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? Ces clients sont-ils intressants pour moi ? marketing, actions commerciales : O placer ce produit dans les rayons ? Comment cibler plus prcisment le mailing concernant ce produit ? ...
333 <#>

1. Introduction - Problmatique
Une grande masse de donnes :
Distribue Htrogne Trs Dtaille

A traiter :
Synthtiser / Rsumer Visualiser Analyser

Pour une utilisation par :


des experts et des analystes d'un mtier NON informaticiens NON statisticiens
444 <#>

1. Introduction - Le systme dinformation


Moyen datteindre ces objectifs : Le Data Warehouse, un systme dinformation ddi aux applications dcisionnelles En Aval des bases de production (ie bases oprationnelles) En Amont des prises de dcision
bas sur des indicateurs (Key Business Indicators (KBI))
555 <#>

1. Introduction - La Suite Dcisionnelle

Prise de Dcision

Bases de Production

Entrept de Donnes (Data Warehouse)

Base MultiDimensionnelle

Prdiction / Simulation

666 <#>

1. Introduction - Utilisation
Mailing
amlioration du taux de rponse

Banque, Assurance
dterminer les profils client
Risque d'un Prt, Prime plus prcise

Commerce
ciblage de clientle dterminer les promotions amnagement des rayons (2 produits en corrlation)

777 <#>

1. Introduction - Utilisation
Logistique
adquation demande / production

Sant
pidmiologie (VIH, Amiante, ...)

Economtrie
prdiction de trafic autoroutier

Ressources Humaines
adquation activit / personnel

888 <#>

Dclinaisons mtiers du Dcisionnel


SPM (Strategic Performance Management)
Dterminer et contrler les indicateurs cl de la performance de lentreprise

FI (Finance Intelligence)
Planifier, analyse et diffuser linformation financire. Mesurer et grer les risques.

HCM (Human Capital Management)


Aligner les stratgies RH, les processus et les technologies. Modliser la carte des RH (Ressources Humaines)

CRM (Customer Relationship Management)


Amliorer la connaissance client, Identifier et prvoir la rentabilit client. Accrotre lefficacit du marketing client.

SRM (Supplier Relationship Management)


Classifier et valuer lensemble des fournisseurs. Planifier et piloter la stratgie Achat.
999 <#>

1. Introduction - RSI
Daprs une enqute de lIDC auprs de 45 organisations ayant un Data Warehouse en fonctionnement (fin 1995-1996) :
90% des entreprises ont un RSI au moins gal 40% 50% ont un RSI suprieur 160% 25% ont un RSI suprieur 600%
Retour sur investissement (%)
1000 500999 200499 100199 5099 349 0 5 10 15 20

Retour sur investissement du datawarehousing

RSI moyen = 401% RSI mdian = 167%

Organisations (%)

101010 <#>

1. Introduction - Rentabilisation
Dure de rentabilisation du data warehouse Priode de rentabilisation (annes)

5 13 12 01 0 10 20 30 40

Organisations (%)
111111 <#>

1. Introduction - Rentabilisation
Constat: orientation march (client, techno, produit)
Stratgies proactive meilleur que des stratgies ractives

Cf livre de David Gotteland

121212 <#>

2. L'Entrept de Donnes (Data Warehouse)


Dfinition de Bill Inmon (1996)
Le Data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision.

Principe
Base de Donnes utilise des fins danalyse. Caractristiques :
orientation sujets (mtiers) donnes intgres donnes non volatiles donnes dates
131313 <#>

2. L'Entrept de Donnes (Data Warehouse)


Objectif
Retrouver une information historique et transversale lentreprise
Service Commercial
BD Prod

Service Financier
BD Prod

Service Livraison
BD Prod

Donnes rparties Vue au-jour-lejour

Comment

Clientle

Fdrer/Regrouper l'ensemble des donnes de l'entreprise


Clientle Historique Data Warehouse

Recoupements dinformations Vue sur lvolution des informations


141414 <#>

2. DW - OLTP versus DW
Bases de Production ( OLTP )
atomiques orient application jour dynamiques

Entrept de Donnes (DW)


rsums orient sujet historiques statiques

Donnes

Utilisateurs

employs de bureau nombreux concurrents mises jour requtes prdfinies rponses immdiates accs peu de donnes

analystes peu non concurrents interrogations requtes " one-use" rponses moins rapides accs beaucoup dinformation

151515 <#>

2. DW - OLTP

DW

Donnes de production :
SGBD et supports physiques htrognes Qualit ingale des donnes Reprsentations htrognes

Objectif dobtention de donnes :


centralises fiables interprtables
161616 <#>

2. DW - Alimentation (ETL) du DW

Extraction Transformation
filtrer trier homogniser nettoyer ...

Chargement (Loading)

171717 <#>

2. DW - Transformations
m,f 1,0 male, female FRF USD EUR char(10) dec(13,2) numeric(7)
181818 <#>

intgration des donnes


m,f

EUR

numeric(10)

DW - Transformation
Existence de plusieurs sources
non conformit des reprsentations
dcoupages gographiques diffrents
Secteur Ouest Secteur Est Secteur Nord Secteur Sud

codage des couleurs

Prune

identification des produits diffrents

Violet

produits en vrac

difficult de comparaison des sources de donnes

Mise en conformit ncessaire


191919 <#>

2. DW - Constitution de l'entrept
Extraction des donnes
Besoin doutils spcifiques pour :
accder aux bases de production (requtes sur des BD htrognes) amliorer la qualit des donnes : nettoyer, filtrer, ... transformer les donnes : intgrer, homogniser dater systmatiquement les donnes

Rfrentiel
La mtabase contient des mtadonnes : des donnes sur les donnes du D.W.
quelles sont les donnes entreposes, leur format, leur signification, leur degr dexactitude les processus de rcupration/extraction dans les bases sources la date du dernier chargement de lentrept lhistorique des donnes sources et de celles de lentrept

Mthodologie : sera vu plus loin

202020 <#>

2. DW - Stockage
Optimisation
besoin de synthse vs besoin de dtails agrgation des donnes conservation des donnes dtailles

Notion de granularit Structures


directe simple cumul simple rsums roulants : structure gnralement choisie

212121 <#>

2. DW - Stockage
Structure directe simple
pas daccumulation rafrachissement sur une longue priode
FEVRIER 2003 J Adams 123 Main Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd W Abraham 12 Hwy 9

JANVIER 2003 J Adams 123 Main Street P. Anderson 456 High Street K Appleby 10 A Street L Azimoff 64 N Ranch Rd .......................

J Adams Jan-pres 123 Main street W Abraham Feb-pres12 Hwy 9 P. Anderson Jan-Jan 456 High Street ............................. 222222 <#>

2. DW - Stockage
Structure de cumul simple

Jan 1

Jan 2

Jan 3 ...

Fev 1

Fev 2

Fev 3 ...

Mar 1

Mar 2

Mar 3 ...

Espace de stockage important Pas de perte de dtail


232323 <#>

2. DW - Stockage
Structure par rsums roulants

...
jour 1 jour 2 jour 7

...
sem 1 sem 2 sem 4

...
mois 1 mois 2 mois 12

trs compact perte dinformation plus linformation vieillit, moins elle est dtaille
242424 <#>

...
anne 1anne 2 anne n

2. DW - Modlisation
Schma entits-relations (classique) Schma en toile (star schema) Schma en flocon (snowflake schema)
tables de faits : nombreux champs, tables centrales dimensions : peu de champs, permettent dinterprter les faits

252525 <#>

2. DW - Schma toile
Dimension Temps cl_date jour mois trimestre anne id: cl_date acc VENTES cl_date rfrence numero vendeur montant units ref: numero vendeur acc ref: rfrence acc ref: cl_date acc Dimension Commercial dpartement numero vendeur id: numero vendeur acc

Dimension Produit description rfrence catgorie branche id: rfrence acc


262626 <#>

2. DW - Schma flocon
Vendeur VENTES Dimension Temps cl_date jour mois trimestre anne id: cl_date acc cl_date rf produit numero vendeur montant units ref: numero vendeur acc ref: rf produit acc ref: cl_date acc Produit rf catgorie description rf produit id: rf produit acc ref: rf catgorie acc Catgorie rf branche rf catgorie id: rf catgorie acc ref: rf branche acc numero dpt numero vendeur Nom id: numero vendeur acc ref: numero dpt acc Dpartement numero dpt id: numero dpt acc

Branche rf branche id: rf branche acc

272727 <#>

2. DW - Rappel sur les Aggrgats


Exemple de BD
Produit(GENCOD, Designation, Marque, Nature, PrixAchat, PrixReventeConseille) Vente (GENCOD, NMAG, Date, Qte, PrixVente) Magasin(NMAG, Enseigne, Adresse, Ville, Dept) Nat2Cat(Nature, Categorie) Cat2Ray(Categorie, Rayonnage) Dep2Reg(Dept, Region)

Exercice
Donnez les cls primaires et les cls trangres

282828 <#>

2. DW - Questions et Requtes
Montant totale des ventes par ville et par produit
select ville, produit, sum(qte*prixvente) from vente, produit, magasin where produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG group by ville, produit

par rgion et par catgorie


select region, categorie, sum(qte*prixvente) from vente, produit, magasin, dep2reg, nat2cat where produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG and produit.nature = nat2cat.nature and magasin.dept = dep2reg.dept group by region, categorie

292929 <#>

2. DW - Questions et Requtes
par rgion et par catgorie et par anne
region, categorie, semestre(date), sum(qte*prixvente) vente, produit, magasin, dep2reg, nat2cat produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG and produit.nature = nat2cat.nature and magasin.dept = dep2reg.dept group by region, categorie, year(date) Remarque : year(date) nest pas toujours disponible select from where

par rgion et par catgorie en 2000


select from where region, categorie, sum(qte*prixvente) vente, produit, magasin, dep2reg, nat2cat produit.GENCOD = vente.GENCOD and vente.NMAG = magasin.NMAG and produit.nature = nat2cat.nature and magasin.dept = dep2reg.dept and year(date) = 2000 group by region, categorie

303030 <#>

3. BM - D.W. Base Multidimensionnelle

agrgations

Analyse multidimensionnelle
capacit manipuler des donnes qui ont t aggrges selon diffrentes dimensions
ex. : analyse des ventes + + + .... /catgorie de produit /anne /dpartement commercial / zone gographique 1 dim. 2 dim. 3 dim. 4 dim.
313131 <#>

3. BM - L'Analyse MultiDimensionnelle
Objectif
obtenir des informations dj aggrges selon les besoins de lutilisateur : simplicit et rapidit daccs

HyperCube OLAP
reprsentation de linformation dans un hypercube N dimensions

OLAP (On-Line Analytical Processing)


fonctionnalits qui servent faciliter lanalyse multidimensionnelle : oprations ralisables sur lhypercube

323232 <#>

3. BM - Glossaire OLAP
Dimension
Temps, Produit, Gographie, ...

Niveau : hirarchisation des dimensions


Temps :
Anne, Semestre, Trimestre, Mois, Semaine, ...

Produit :
Rayon, Catgorie, Nature, ...

Gographie :
Rgion, Dpartement, Ville, Magasin

Membre d'un Niveau


Produit::Rayon
Frais, Surgel, ..., Liquide

Produit::Rayon.Catgorie
Frais.Laitage, ..., Liquide.Vin

Produit::Rayon.Catgorie.Nature
Frais.Laitage.Yaourt, ... , Liquide.Vin.Champagne
333333 <#>

3. BM - Glossaire OLAP
Cellule
intersection des membres des diffrentes dim.

Formule
calcul, expression, rgle, croisement des dim.
Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...

343434 <#>

3. BM - Oprations OLAP
But
Visualisation/Utilisation d'un fragment de l'Hypercube

Oprations OLAP
Drill Up / Drill Down Rotate Slicing Scoping

353535 <#>

3. BM - Oprations OLAP - Drill Up/Down


vue synthtique / vue dtaille
Drill Up Drill Up
95-97 Frais Liquide 623 648 Frais Liquide Alim. 95 496 96 520 97 255

Dimension Temps
95 221 275 95 Yaourt Salade 20 40 96 263 257 96 19 43 97 139 116 97 22 48 Frais Liquide 1S95 100 134 2S95 121 141 1S96 111 120 2S96 152 137 1S97 139 116

Dimension Produit

Drill Down

Drill Down
363636 <#>

3. BM - Oprations OLAP - Rotate

95 Frais Liquide 221 275

96 263 257

97 139 116

95 NordPdC 101 IdF 395

96 120 400

97 52 203

373737 <#>

3. BM - Oprations OLAP - Slicing


Frais Liquide IdF Province IdF Province 1995 220 225 163 187 1996 265 245 152 174 1997 284 240 145 184

Frais Liquide

IdF Province IdF Province

1996 265 245 152 174

383838 <#>

3. BM - Oprations OLAP - Scoping


Frais Liquide IdF Province IdF Province 1995 220 225 163 187 1996 265 245 152 174 1997 284 240 145 184 1995 220 225 1996 265 245

Frais

IdF Province

393939 <#>

3. BM - OLAP
Constitution de l'Hypercube
Administration Dfinition des Dimensions / Niveaux / Membres

Automatique, Manuel, Configuration Mtier

Serveurs OLAP / Clients OLAP


Le client utilise une partie de l'hypercube qu'il cache Le serveur calcule, stocke l'hypercube et permet son partage.

Stockage
M-OLAP : accde une base multidimensionnelle
+ rapidit

R-OLAP : accde une base relationnelle


+ mise jour

H-OLAP : hybride, multidimensionnel avec accs au niveau le + bas une base relationnelle
404040 <#>

3. BM - Orientation mtier : les Data Marts


Data Mart
vue partielle et oriente mtier sur les donnes du D.W. chacun son ensemble dhypercubes OLAP

Data Marts du service Marketing

Data Mart du service Ressources Humaines


414141 <#>

3. BM - Un D.W., des Data Marts

m BD de production

mxn oprations

n Data Marts

m+n oprations

424242 <#>

4. Restitution des informations


Requteurs
donne une rponse une question plus ou moins complexe
(type SQL)

EIS (Executive Information Systems)


outils de visualisation et de navigation dans les donnes
statistiques + interfaage graphique

Applications spcialises (ad-hoc)


applications dveloppes spcialement pour les besoins de lentreprise

Data Mining
outils volus de prdiction, simulation, ...
434343 <#>

4. Restitution des informations


variables

Techniques statistiques : utilises pour vrifier des hypothses


individus

I 1 . . i . . n

X X1

...

Xj

...

Xp

xij

2 types de variables : quantitatives et qualitatives autres caractristiques possibles des variables :


temporelle disjonctive (logique , boolenne) rponses multiples catgorique (par catgorie) non ordonne vs. de rang (ordre sur les donnes) de classes (intervalles de valeurs) 444444
<#>

4. Restitution des informations


Recodage de donnes sur 1 variable
pour normaliser, avoir des ordres de grandeur comparables

Ex. :
xi utilise pour avoir (xi - moyennexi) xi (xi - moyennexi) / e , avec e cart-type de lchantillon xi log (xi) pour limiter limpact des valeurs exceptionnelles xi son rang dans lchantillon rpartition des xi en classes damplitude ou de frquence quivalente : xi sa classe Cj xi 0 ou 1 : cration dun tableau logique date dure donnes gographiques coordonnes, distances
454545 <#>

4. Restitution des informations


Recodage de donnes sur plusieurs variables Ex. :
ratios (%) : montant / total frquences : frquence de xij = valeur v par rapport lensemble des valeurs prises par xij tendance : mesure dune variation combinaisons (linaires ou non) : formules de calculs combinant plusieurs donnes
Ex. : revenu rsiduel = revenu - (charges + x*nb dadultes + y*nb denfants)

464646 <#>

4. Restitution des informations


tudiants A B C D E F G H I J Note1 16 8 4 15 9 19 2 15 3 9 10,00 moyenne Note2 9 7 8 9 8 10 11 12 8 12 9,40 moyenne (Note1-moy1) (Note2-moy2) (ecart 1) (ecart 2) cart note1 / cart note2 / puis 2 puis 2 moy moy 6 0 36 0 -2 -2 4 4 -6 -1 36 1 5 0 25 0 -1 -1 1 1 9 1 81 1 -8 2 64 4 5 3 25 9 -7 -1 49 1 -1 3 1 9 0 somme 0 somme 322 somme 32,2 30 cart1 * cart2 0 4 6 0 1 9 -16 15 7 -3 2,3

somme/n = cosomme variance 3 0,24

coef corrlation = somme/nb covariance/(ecartindividus = variance variance type1*ecart-type2) racine(variance) = 5,7 1,7 cart-type cart-type

Conclusions :
Matire 1 plus risque : diffrenciation importante dans les notes Matire 2 : - de risque mais ne permet pas dobtenir bcp de points supplmentaires Classification des tudiants + aise avec les notes 1 (nuage de points) 474747 Pas de corrlation entre les notes des 2 matires <#>

4. Restitution des informations


Similarit : concidences positives ou ngatives
Ex. sur le tableau (from Lefbure et Venturi):
calcul des concidences calcul des indices de similarit entre BC et CD, BC et GR, CD et GR
barre crale chocolat OUI beurre NON liquide NON parfum mandarine NON emballage mtal NON mini-dose OUI sucre OUI riz OUI dulcorant NON colorant NON crme dessert NON NON OUI NON OUI OUI OUI NON NON NON gteau de riz OUI OUI NON OUI OUI NON OUI OUI OUI OUI

Indices de similarit (3 formules diffrentes):


Russel : nb de concidences positives / nb de comparaisons Jaccard : nb de concidences positives / (nb de comparaisons - nb de concidences ngatives) Sokal : nb de concidences positives et ngatives / nb de comparaisons
484848 <#>

4. Data Mining
OLAP vs Data Mining
OLAP : lutilisateur cherche confirmer des intuitions
ex. : A-t-on vendu plus de yaourts en Rgion Parisienne quen Bretagne en 2003 ?

Data Mining : lutilisateur cherche des corrlations non videntes


ex. : Quelles sont les caractristiques de lachat de yaourts ?

494949 <#>

4. Data Mining
Principe
Creuser une mine (le DW) pour rechercher un filon (linformation) Evolution par rapport aux statistiques classiques

Objectifs
Prdiction (What-if)

ex. demande de prt

Dcouverte de Rgles Caches (corrlations)

ex. bire + couches

Confirmation dhypothses

Entres
Fichiers Texte, Feuille de Calcul (SYLK, XLS) Slice/Scope d'un HyperCube OLAP
505050 <#>

4. Restitution des informations


Recherche des exemples les plus proches
Raisonnement base de cas Agents intelligents

Analyse de donnes : construction dun modle


rseaux de neurones arbres de dcisions ...

515151 <#>

4. Restitution des informations - RBC


Raisonnement base de cas (RBC ou CBR)
rsolution de problmes par comparaison avec problmes similaires dj rencontrs
problme Evaluation de la situation cas

la base de cas est structure hirarchiquement indexation des donnes : pondration des critres de similarit
base de cas

Recherche de cas similaires cas remmor Adaptation solution propose 525252 <#> Test/ Amlioration

4. Restitution des informations - Agents


Agents intelligents ou Knowbots
entits logicielles capables dagir de manire autonome dans un environnement informatique htrogne personnalisation de linformation par apprentissage dun profil utilisateur utilisation sur internet, agents commerciaux lectroniques

535353 <#>

4. Restitution des informations


Analyse de donnes
Rseau de neurones Equations Techniques de rgression

Rgles Logique Arbres de dcision

Analyses factorielles Projections Analyses de typologie


545454 <#>

4. Techniques de Data Mining


Arbres de Dcision Principe :
division de la population par groupes dont les individus partagent une caractristique commune construction partir dune base dexemples recherche de la caractristique la plus discriminante chaque tape (classification automatique) variables discrtes

Rsultat : mise en vidence de corrlations


enchanement hirarchique de rgles logiques sous forme dun arbre
555555 <#>

4. Techniques de Data Mining


exemple : le mailing, le contact tlphonique
Q1 Q2 Q3 Q4 Q5 R Question Connat lcole A eu un stagiaire A embauch un ancien tudiant Verse la taxe A particip un vnement Rendez-vous E1 oui oui oui non oui oui E2 oui non non oui oui oui E3 non non oui oui oui oui E4 oui non non non oui non E5 non non oui non oui non E6 non non oui non oui non

base dexemples

565656 <#>

4. Techniques de Data Mining


exemple : le mailing, le contact tlphonique
Q1 Q2 Q3 Q4 Q5 R Question Connat lcole A eu un stagiaire A embauch un ancien tudiant Verse la taxe A particip un vnement Rendez-vous E1 oui oui oui non oui oui E2 oui non non oui oui oui E3 non non oui oui oui oui E4 oui non non non oui non E5 non non oui non oui non E6 non non oui non oui non

base dexemples

Q4=oui Q4 Q4=non Q2=non Q2=oui

R=oui R=oui R=non

575757 <#>

4. Techniques de Data Mining


Rseaux de Neurones Principe :
neurones = petits modules de calcul organiss en couches constituant un rseau activation et apprentissage
activation dun neurone par ceux de la couche amont sortie fonction plus ou moins complexe des entres apprentissage partir dune base dexemples : si telles entres alors telles sorties attendues renforcement des chemins les plus parcourus

Rsultat
Cration dun modle reposant sur les donnes existantes par un rseau apprenant
585858 <#>

4. Techniques de Data Mining


Techniques les plus utilises
MultiLayer Perceptron, RadialBasis Function, Kohonen Network

Donnes numriques Prdiction / Simulation


ex. : le prt bancaire

entres

sortie(s)

595959 <#>

4. Techniques de Data Mining


Les algorithmes gntiques
principes de slection, reproduction et mutation gntiques convergence vers les solutions les meilleures (les plus adaptes) par conservation des bons individus / chromosomes aux gnrations suivantes tout en gardant une population identique en volume utilisation :
optimisation de grilles de score : modification des paramtres dune rgression logique, optimisation darbres de dcision : isoler les variables les plus pertinentes pour expliquer un comportement, optimisation de rseaux de neurones : modification des poids des liaisons
606060 <#>

4. Techniques de Data Mining


Les rseaux baysiens
but : associer une probabilit dapparition dun vnement tant donne la connaissance de certains autres vnements graphe orient dans lequel les noeuds reprsentent des variables et les arcs, les dpendances entre ces variables probabilits associes aux variables et aux liens de dpendance
objet du prt

montant dossier sain

dure dossier en contentieux

616161 <#>

4. Synthse

Prise de Dcision

Bases de Production

Entrept de Donnes

Base MultiDimensionnelle

Prdiction / Simulation

Fusion des Schmas (BD Htrognes)

Requtes d'Aggrgats Rpartition (BD Parallles) Serveur/Client Mises Jour Stockage et Accs Stockage (Statistiques,IA) (BD Parallles) et Accs
626262 <#>

5. Gestion de projet Data Warehouse


Chaque Data Warehouse est unique Tche complexe et ardue Construction itrative
Focalisations successives sur un ensemble de besoins t

dveloppement conception valuation

ajout de nouveaux Data Marts et/ou fonctionnalits lexistant

Construction du noyau du systme


636363 <#>

5. Les acteurs
Le sponsor
membre de la direction, soutient le projet

Le comit utilisateur
diffrentes catgories (regroupement par besoins) des reprsentants

Les administrateurs du systme dinformation


trs importants (connaissance des donnes) maintenance future du Data Warehouse

Lquipe de conception
souvent : consultants externes
646464 <#>

5. Cycle de vie
Justification du projet Itrations :
Conception Dveloppement (prototypage) Evaluation

Tests et Mise en exploitation Evaluation et volution

656565 <#>

5. Justification du projet
objectif, retours attendus choix de lquipe de conception
appel ventuel un intervenant extrieur
Sponsor Concepteurs Utilisateurs
666666 <#>

choix du ou des domaine(s) cibles


correspondant au(x) premier(s) Data Mart(s)

constitution du comit utilisateurs et de lquipe de DBAs planification

DBAs

5. Cycle de prototypage
Analyse
interviews
Utilisateurs

besoins des utilisateurs, difficults actuelles donnes de production


Rtro-Ingnierie, documentation, valuation qualit ...

Modlisation Choix techniques Dveloppement de prototype Evaluation


Sponsor (ou direction) Utilisateurs

donnes traitements

676767 <#>

DBAs

existant ventuel en applications dcisionnelles

Concepteurs

5. Recueil des besoins


OBJECTIF PRINCIPAL
Quattendez-vous principalement du Data Warehouse ?

DECISIONS

date de ralisation : auteur : utilisateur :

Quelles dcisions avez-vous prendre ? (Quoi ?) Quels sont les critres qui influencent la prise de dcision ? (Comment ?) Dans quel(s) but(s) les dcisions sont-elles prises ? (Pourquoi ?)

DIFFICULTES ACTUELLES
Quelles sont les difficults actuellement rencontres dans la prise de dcision, difficults en rapport avec les donnes ?
prcision des donnes (dtails, actualisation, vrification) synthse des donnes (regroupements) volution (temps) autres...

ACTUALISATION DES INFORMATIONS


Quels sont les besoins concernant la frquence de mise jour des informations proposes par le Data Warehouse ?

PRESENTATION DES INFORMATIONS


Quelles sont vos prfrences dans la prsentation des informations
tableaux, graphiques, ?

Type de graphiques : barres-graphes, camemberts, nuages de points ... ? Existe-t-il une prsentation actuelle ou habituelle conserver ?

686868 <#>

5. Analyse des donnes de production


Identifier les sources de donnes qui alimenteront le Data Warehouse :
quelles sont les donnes disponibles comment accder ces donnes (lieu, systme et architecture) qui les grent leur format leur signification leur qualit

mta-donnes stockes dans la mtabase

696969 <#>

5. La mtabase
Tout Data Warehouse comporte une mtabase qui regroupe des mta-donnes. Les mta-donnes sont utilises pour stocker des informations propos des donnes utilises par le Data Warehouse. la mtabase comprend :
un dictionnaire des donnes : contient les dfinitions des lments contenus dans les bases de donnes et les liens entre eux. l'origine des donnes : quelle est la base oprationnelle d'origine d'une donne le flux de donnes (direction, frquence) la transformation des donnes l'historique des donnes ...
707070 <#>

MetaBase 5/5

MetaBase_Element Nom Signification[0-1] id: Nom

0-N

a_subi

1-1

0-N

Transformation entit_origine entit_destinataire description id:entit_origine entit_destinataire

possede 1-1 DW_Attribut historique mod_code mod_date explication id: mod_code mod_date 1-1 explique_par

OpDB_Colonne

0-N appartient_a 0-N OpDB_Table nom_table_physique id: nom_table_physique 1-1 appartient_a 1-N OpDataBase nom_DB_physique Rle[1-N] Utilisateurs[0-N] Sup_Logiciel Sup_Materiel id: nom_DB_physique

0-1 est_synonyme_de

0-N nourrit DerniereMaJ 0-N 1-N origine_op 0-N nourrit DerniereMaJ 0-N P

1-1

appartient_a 0-N origine_DW DW_Entity nom_DW_entite id: nom_DW_entite 0-1

0-N

0-N 1-N origine_DW_1

nourrit DerniereMaJ

provient_integration 1-1 sources entite_maitre entite_esclave explication id: entite_maitre entite_esclave

Table_code code dfinition id: code

717171 <#>

5. Communiquer avec les utilisateurs


Proposer une maquette de linterface hommemachine :
contenu des crans enchanement des crans critique par les utilisateurs et recueil des besoins

Support : informatique ou papier Privilgier un moyen de communication non technique

727272 <#>

5. Exemple denchanement des crans


menu principal clic sur CA clic sur Clients

bouton Main menu CA clic sur produit menu rsultats par produit menu clic sur zone gographique menu clientle

clic sur statistiques par produit

rsultats par zone gographique : niveau pays flche flche

...

clic sur statistiques par zone

statistiques sur le CA par produit et par zone

rsultats par zone : niveau rgion

737373 <#>

5. Rtro-Ingnierie
Principe
reconstruire les modles de conception dune B.D.
INGENIERIE
Modle Conceptuel de Donnes Modle (Semi-) Conceptuel de Donnes

transformation modle logique de donnes

RETRO-INGENIERIE

Usage
documentation inexistante ou non ractualise comprhension des donnes de production en vue de leur intgration

transformation extraction modle physique de donnes gnration

script de cration des SD

script DDL

Outils spcifiques
AGL (Atelier de Gnie Logiciel ou CASE)
Base de Donnes

747474 <#>

5. Intgration
intgrer les MCD obtenus par rtro-ingnierie en un modle global et homogne difficults :
conflit de classification conflit de description conflit de structure

mmoriser les transformations pour retrouver le lien donnes oprationnelles / donnes DW


757575 <#>

5. Intgration
conflit de classification
objets de smantiques voisines mais comportant certaines proprits diffrentes Solution : soit tablir une relation IS-A, soit oprer une fusion entre les deux objets.

conflit de description
reprsentation diffrente des proprits, savoir des identifiants diffrents, des formats diffrents dattributs identiques,... : Solution : choisir une des deux reprsentations, la plus logique, la plus cohrente avec le reste du modle, pour exprimer le rsultat de lintgration.

conflit de structure
lattribut dun modle correspond lentit dune autre ou un attribut une association, ou une entit une association Solution : passer par une tape de transformation entit/attribut ou entit/association

Il est trs important de mmoriser les transformations opres afin de garder une trace permettant de retrouver le lien entre un lment du Data Warehouse et les donnes correspondantes des bases oprationnelles.
767676 <#>

5. Modlisation : les dimensions


An Trimestre Mois Semaine Souscatgorie Division Type de promotion Type de media Type daffichage Type dafficheur Promotion dimension Promotion Jour dimension Temps

Branche

Catgorie

Produit

dimension Produit

Direction

Agent

dimension Commerciale

777777 <#>

5. Modlisation : les dimensions

787878 <#>

5. Finalisation
Concepteurs

Derniers dveloppements Tests


DBAs Utilisateurs
797979 <#>

premier chargement du DW sur site tests

Mise en exploitation
chargements rguliers utilisation au quotidien

5. Evolution
mise en uvre rgulire utilisation confrontation aux retours attendus valuations diffrentes chances
Concepteurs

Evaluation
Utilisateurs DBAs
808080 <#>

Evolution
suite du projet :
ajout de fonctionnalits ? ajout de Data Marts ?

Sponsor

6. Les outils
Un march fragment :
Constitution du DataWarehouse Stockage Extraction dInformation

818181 <#>

6. Constitution du DataWarehouse
Administration
SourcePoint (Software AG), ISM/OpenMaster (Bull), CA-UniCenter, DataHub (IBM), CPE (SAS), Warehouse Administrator (SAS)

Extraction et Purification
Warehouse Manager (Prism), Integrity Data Reengineering (Vality), Access (SAS), DataStage (VMark), Gnio (Lonards Logic), InfoRefiner (Platinum), PASSPORT et NATURAL (Software AG), Gentia ( Planning Sciences)

828282 <#>

6. Stockage
DataWarehouse
Oracle, Sybase, Informix, Ingres (CA), DB2 (IBM), Tandem, Teradata, ...

Serveur OLAP
Express (Oracle), Business Objects, Powerplay / Impromptu (Cognos), Adabas (Software AG), Opera (CFI), ALEA (MIS AG), Harry Cube (Adviseurs), Gentia (Planning Sciences), Essbase (Arbor Software), Informix, Pilot, ...

838383 <#>

6. Extraction d'Information
Rtro-ingnierie (Reverse-Engineering)
Business Object, DB-Main

Browser OLAP
Discoverer (Oracle), ESPERANT (Software AG), InfoBeacon (Platinum), Explorer (Business Objects), le VCL DecisionCube de Delphi Cl/Sv

Arbres de Dcision
Alice (ISoft), Knowledge Seeker (Angoss), Chaid (SPSS)

Rseaux de Neurones
Predict (Neuralware), Neural Connection (SPSS), Previa (Elseware)

Autres
Mineset (SGI), Darwin (Thinking Machines), Gupta DataMind (bas sur les rseaux dagents), Discovery Server (Pilot), DSS Agent (Micro Strategy), BusinessMiner (Business Objects), Intelligent Miner (IBM), ...
848484 <#>

7. Perspectives du Data Warehouse


homognisation
des outils intgrant les diffrentes tapes de la suite dcisionnelle

donnes externes
ouverture linternet

augmentation des volumes de donnes restitution des informations :


nouvelles techniques de data mining multimdia

outils de constitution du rfrentiel


la mtabase
858585 <#>

8. Bibliographie - Livres
J.-M. Franco, Le Data Warehouse / Le Data Mining, Eyrolles, 1997 J.-M. Franco, S. De Lignerolles, Piloter l'entreprise grce au data warehouse, Eyrolles, 2000. R. Mattison, Data Warehousing - Strategies, Technologies and Technics, IEEE Computer Society, 1996. W. H. Inmon, Building the Data Warehouse, ed. Wiley
1re dition : 1996, 3me dition: 2002, voir http://www.billinmon.com/

W. H. Inmon, Managing the Data Warehouse, ed. Wiley, 1997 R. Kimball, Entrepts de Donnes, Intl Thomson Pub., 1997. Ralph Kimball, Laura Reeves, Warren Thornwaite, The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses , 800 pages (aot 1998), Ed Wiley, ISBN: 0471255475 Ralph Kimball, Margy Ross, Entrepts de donnes. Guide pratique de modlisation dimensionnelle , 2me dition (1 janvier 2003), Ed Vuibert, 2-7117-4811-1
868686 <#>

8. Bibliographie - Livres
R. Michalski et al., "Apprentissage symbolique.", Cpadus, 1993. Patrick Becker, Ann Becker, Patrick Nam, Les Rseaux baysiens : Modles graphiques de connaissance, Ed Eyrolles, 1999

878787 <#>

Bibliographie
Surajit Chaudhuri, Umeshwar Dayal: An Overview of Data Warehousing and OLAP Technology. SIGMOD Record 26 (1): 65-74 (1997)

888888 <#>

8. Bibliographie - WWW
http://www.dw-institute.com/
The Data Warehouse Institute

http://pwp.starnetic.com/larryg/
Infos dont accs des livres blancs sur le DW

http://www.promotheus.eds-fr/themes/dw/
Institut Promotheus, thme DW

http://www.cait.wustl.edu/cait/papers/prism/
Socit Prisme fonde par W.H. Inmon

http://www.olapcouncil.org/
Outils OLAP

http://www.valoris.fr/amplitude/j101.htm http://www.mediatid.fr/datawarehouse
forum sur le Data Warehouse
898989 <#>

8. Bibliographie - Recherche
ACM SIGMOD VLDB Data Warehousing and Knowledge Discovery (DaWaK)
Confrence scientifique spcialise

ACM SIG KDD (Knowledge Discovery and Data Mining)


Confrence scientifique spcialise

DOLAP
909090 <#>

Vous aimerez peut-être aussi