Académique Documents
Professionnel Documents
Culture Documents
Docpeda Fichier
Docpeda Fichier
Fvrier 2006
Entrepts de donnes (data warehousing) et technologies pour la fouille de donnes (data mining)
Une base de donnes daide la dcision qui est entretenue de manire spare de la base de donnes oprationnelle de lorganisation Aide au traitement de linformation en fournissant une plateforme de donnes historiques consolides pour lanalyse. Data warehousing: Le processus de construction et dutilisation du data warehouse
Fvrier 2006
Fvrier 2006
Le schma en toile
Une table de faits encadres par N tables de dimensions Exemple
Produits
Priodes
IDper anne trimestre mois jour
Magasins
IDmag nom ville dpartement pays
Fvrier 2006
Entrept de donnes
La consolidation des donnes
Application de techniques de data cleaning et de data intgration
La conversion des donnes intgres au data warehouse Limportance du temps pour le data warehouse
Toutes les structures cls dans le data warehouse contiennent un lment de temps, explicitement ou implicitement
Fvrier 2006
Entrept de donnes
Fvrier 2006
Un data warehouse est bas sur un modle de donnes multidimensionnel qui voit les donnes sous forme de data cube
Un data cube , comme par exemple les ventes, permet de modliser et de voir les donnes relatives aux ventes en de multiples dimensions
Fvrier 2006
0-D(apex) cuboid
1-D cuboids
lieu,agent
temps,item
temps,lieu
temps,agent
item,lieu
item,agent
2-D cuboids
temps,item,lieu
temps,lieu,agent
3-D cuboids
item,lieu,agent
temps,item,agent
4-D(base) cuboid
temps, item, lieu, agent
M. Fieschi Data mining Master EISIS Fvrier 2006
Fvrier 2006
Catgories de mesures
Distributive:
que lon applique la fonction sur toutes les donnes (sans partitionnement).
Ex: count(), somme(), min(), max().
Algbrique:
Si le rsultat peut tre calcul par une fonction algbrique M arguments, chacun pouvant tre obtenu en appliquant une fonction distributive.
Ex: moyenne(), standard_dviation().
Fvrier 2006
service
UF
consultation
...
hospitalisation ...
HdJ
Fvrier 2006
Donnes multidimensionnelles
Volume des factures, une fonction de lactivit, mois, et de lhpital
Dimensions: Activit, Lieu, Temps Synthses hirarchiques MCO Chir. Hpital Anne
Activit
Actes
Mois
M. Fieschi Data mining Master EISIS Fvrier 2006
Fvrier 2006
Etablissement
1trim
2trim 3trim
4trim
Timone
Roll up (drill-up): synthse de donnes En remontant la hirarchie ou en rduisant la dimension Drill down (roll down): reverse of roll-up Du niveau le plus haut au niveau infrieur, vers des donnes plus dtailles ou en introduisant de nouvelles dimensions Slice and dice: Projection et slection Pivot (rotate): Rorientation du cube, visualisation, 3D des sries de plans 2D.
Fvrier 2006
Vue top-down
Permet la slection des informations pertinentes ncessaires au data warehouse
Architecture
autres
Metadonnes
Integrateur
Serveur OLAP
sources
Extraction Bdd Transform. oprationnelles Chargement Rafraich.
Data Warehouse
Service
Data Marts
Donnes sources
Warehouse dentreprise
Collecte toutes les informations sur tous les sujets pour lentreprise
Data Mart
Un sous ensemble de donnes intressant un groupe dutilisateurs particulier. Son objectif est confin des groupes slectionns spcifiques
Warehouse virtuel
Un ensemble de vues sur des bases de donnes oprationnelles Seules certaines vues sont possibles
Fvrier 2006
Data Mart
Data Mart
Raffinement du modle
Raffinement du modle
Base de mtadonnes
Les meta donnes dfinissent les objets du warehouse. Il sagit: De la description de la structure du warehouse
Schma, vue, dimensions, hirarchies, dfinition des donnes drives, contenu du data mart
Meta-data oprationnelles
Histoire des donnes migres et des transformations, statut des donnes (actives, archives), rapports derreurs,
Les algorithmes utiliss pour rsumer les donnes Le mapping des bases oprationnelles au data warehouse Donnes mtier
Termes et dfinitions du mtier, proprit des donnes,
Fvrier 2006
Extraction des donnes: Prendre des donnes dans des sources externes multiples et htrognes Data cleaning: Dtection des erreurs et rectification quand cest possible Transformation des donnes: Convertir les donnes au format warehouse Trier, rsumer, consolider, calculer les vues, vrifier lintgrit, raliser les indices et les partitions Rafrachissement des donnes Propager les mises jour depuis les sources de donnes vers le warehouse
Fvrier 2006