Vous êtes sur la page 1sur 23

Entrepts de donnes (data warehousing) et technologies pour la fouille de donnes (data mining)

Marius Fieschi Facult de Mdecine de Marseille

M. Fieschi Data mining Master EISIS

Fvrier 2006

Entrepts de donnes (data warehousing) et technologies pour la fouille de donnes (data mining)

Ce cours est trs proche du cours diffus sur le net par


Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science

Simon Fraser University, Canada


http://www.cs.sfu.ca

Quils en soient remercis


M. Fieschi Data mining Master EISIS Fvrier 2006

Rappel: quest-ce que le Data Warehouse?

Une base de donnes daide la dcision qui est entretenue de manire spare de la base de donnes oprationnelle de lorganisation Aide au traitement de linformation en fournissant une plateforme de donnes historiques consolides pour lanalyse. Data warehousing: Le processus de construction et dutilisation du data warehouse

M. Fieschi Data mining Master EISIS

Fvrier 2006

Lapproche Subject-Oriented de lentrept

Organis autour des sujets majeurs, tels que personne, client,


Sujet = Faits + Dimensions Centr sur la modlisation et lanalyse de donnes pour les dcideurs, non pour des oprations quotidiennes Fournit une vue simple, concise sur des sujets particuliers en excluant des donnes inutiles dans le processus daide la dcision Construit par intgration de sources de donnes multiples et htrognes

M. Fieschi Data mining Master EISIS

Fvrier 2006

Le schma en toile
Une table de faits encadres par N tables de dimensions Exemple

Produits
Priodes
IDper anne trimestre mois jour

Table de faits ventes


priode produit magasin units_vendues montant_ventes taxes_ventes

IDprod description couleur taille fournisseur

Magasins
IDmag nom ville dpartement pays

M. Fieschi Data mining Master EISIS

Fvrier 2006

Entrept de donnes
La consolidation des donnes
Application de techniques de data cleaning et de data intgration

La cohrence des donnes doit tre assure


Nommer les rgles de codage, les mesures, les attributs, pour les diffrentes sources de donnes

La conversion des donnes intgres au data warehouse Limportance du temps pour le data warehouse
Toutes les structures cls dans le data warehouse contiennent un lment de temps, explicitement ou implicitement

M. Fieschi Data mining Master EISIS

Fvrier 2006

Entrept de donnes

La mise jour de donnes oprationnelles nest pas ralise dans lentrept


Ne demande pas de transactionnel et mcanismes de contrle daccs concurrentiels Demande uniquement deux oprations en accs aux donnes: Chargement initial de donnes et accs aux donnes.

Intgration traditionnelle de bases de donnes (bdd) htrognes:


Construction de wrappers/mdiateurs au dessus des bdd htrognes

M. Fieschi Data mining Master EISIS

Fvrier 2006

Pourquoi sparer le Data Warehouse?


Haute performance pour les deux systmes
DBMS: performance pour OLTP
mthodes daccs, index, accs concurrentiels, restauration

Warehouse: performance pour OLAP


requtes complexes, vue multidimensionnelle, consolidation

Diffrente fonctions et diffrentes donnes


Donnes manquantes: Aide la dcision (AAD) demande des donnes historiques. Les Bdd oprationnelles ne les grent pas toujours Consolidation de donnes: lAAD demande la consolidation (agrgation, rsum) de donnes issues de sources htrognes Qualit des donnes: habituellement diffrentes sources utilisent des reprsentations de donnes non cohrentes, des codes et des formats rconcilier
M. Fieschi Data mining Master EISIS Fvrier 2006

Les cubes de donnes

Un data warehouse est bas sur un modle de donnes multidimensionnel qui voit les donnes sous forme de data cube
Un data cube , comme par exemple les ventes, permet de modliser et de voir les donnes relatives aux ventes en de multiples dimensions

M. Fieschi Data mining Master EISIS

Fvrier 2006

Cube: Un treillis de structures cubodes


Tous
temps item lieu agent

0-D(apex) cuboid

1-D cuboids
lieu,agent

temps,item

temps,lieu
temps,agent

item,lieu
item,agent

2-D cuboids

temps,item,lieu

temps,lieu,agent

3-D cuboids
item,lieu,agent

temps,item,agent

4-D(base) cuboid
temps, item, lieu, agent
M. Fieschi Data mining Master EISIS Fvrier 2006

Les primitives du langage de requtes du Data Mining (DMQL)

Cube Definition (Fact Table)


define cube <cube_name> [<dimension_list>]: <measure_list>

Dimension Definition ( Dimension Table )


define dimension <dimension_name> as (<attribute_or_subdimension_list>)

Special Case (Shared Dimension Tables) First time as cube definition


define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time>

M. Fieschi Data mining Master EISIS

Fvrier 2006

Catgories de mesures
Distributive:

Si le rsultat obtenu est identique


que lon applique la fonction n valeurs agrges

que lon applique la fonction sur toutes les donnes (sans partitionnement).
Ex: count(), somme(), min(), max().

Algbrique:

Si le rsultat peut tre calcul par une fonction algbrique M arguments, chacun pouvant tre obtenu en appliquant une fonction distributive.
Ex: moyenne(), standard_dviation().

M. Fieschi Data mining Master EISIS

Fvrier 2006

Une hirarchie de concepts: Dimension (lieu)


Tous hpital Timone Tous ... Nord

service

neurochirurgie ... cardiologie

cardiologie ... obsttrique

UF

consultation

...

hospitalisation ...

HdJ

M. Fieschi Data mining Master EISIS

Fvrier 2006

Donnes multidimensionnelles
Volume des factures, une fonction de lactivit, mois, et de lhpital
Dimensions: Activit, Lieu, Temps Synthses hirarchiques MCO Chir. Hpital Anne

Service Trimestre UF Mois Semaine Jour

Activit

Actes

Mois
M. Fieschi Data mining Master EISIS Fvrier 2006

Un exemple de cube de donnes


Date
Total annuel activit de chir. Timone somme

Conception Nord somme

M. Fieschi Data mining Master EISIS

Fvrier 2006

Etablissement

Chir. Md. Obst. somme

1trim

2trim 3trim

4trim

Timone

Quelques oprations OLAP

Roll up (drill-up): synthse de donnes En remontant la hirarchie ou en rduisant la dimension Drill down (roll down): reverse of roll-up Du niveau le plus haut au niveau infrieur, vers des donnes plus dtailles ou en introduisant de nouvelles dimensions Slice and dice: Projection et slection Pivot (rotate): Rorientation du cube, visualisation, 3D des sries de plans 2D.

M. Fieschi Data mining Master EISIS

Fvrier 2006

Design dun Data Warehouse: Un plan danalyse


Quatre vues pour le design dun data warehouse (DW)

Vue top-down
Permet la slection des informations pertinentes ncessaires au data warehouse

Vue source de donnes


Donne les informations qui peuvent tre saisies, stockes, et gres par les systmes oprationnels

Vue data warehouse


Il sagit de tables de faits et de tables de dimensions

Vue requte mtier


Voir les donnes du DW dans la perspective de lutilisateur final
M. Fieschi Data mining Master EISIS Fvrier 2006

Processus de conception dun Data Warehouse


Approches Top-down, bottom-up ou une combinaison des deux Top-down: Dmarre avec une vue densemble (maturit) Bottom-up: Dmarre par des exprimentations et des prototypes (rapide) Dun point de vue gnie logiciel La chute deau : analyse structure et systmatique chaque pas avant de passer au suivant La spirale: prototypage rapide, amlioration des fonctions, aller/retour rapide Processus de conception Choisir un processus mtier modliser, ex: facturation, etc. Choisir le grain (niveau de donne atomique) du processus mtier Choisir les dimensions qui seront appliques chaque fait dans la table Choisir la mesure pour chaque fait enregistr
M. Fieschi Data mining Master EISIS Fvrier 2006

Architecture

autres

Metadonnes

Integrateur

Serveur OLAP

sources
Extraction Bdd Transform. oprationnelles Chargement Rafraich.

Data Warehouse

Service

Analyse Requtes Rapports Data mining

Data Marts

Donnes sources

Stock. de donnes Moteur OLAP Outil interface


M. Fieschi Data mining Master EISIS Fvrier 2006

Trois modles de Data Warehouse

Warehouse dentreprise
Collecte toutes les informations sur tous les sujets pour lentreprise

Data Mart
Un sous ensemble de donnes intressant un groupe dutilisateurs particulier. Son objectif est confin des groupes slectionns spcifiques

Warehouse virtuel
Un ensemble de vues sur des bases de donnes oprationnelles Seules certaines vues sont possibles

M. Fieschi Data mining Master EISIS

Fvrier 2006

Dveloppement dun Data Warehouse


Data Warehouse
Data Marts distribus

Data Mart

Data Mart

Raffinement du modle

Raffinement du modle

Dfinir un modle de donnes de lentreprise de haut niveau


M. Fieschi Data mining Master EISIS Fvrier 2006

Base de mtadonnes
Les meta donnes dfinissent les objets du warehouse. Il sagit: De la description de la structure du warehouse
Schma, vue, dimensions, hirarchies, dfinition des donnes drives, contenu du data mart

Meta-data oprationnelles
Histoire des donnes migres et des transformations, statut des donnes (actives, archives), rapports derreurs,

Les algorithmes utiliss pour rsumer les donnes Le mapping des bases oprationnelles au data warehouse Donnes mtier
Termes et dfinitions du mtier, proprit des donnes,

M. Fieschi Data mining Master EISIS

Fvrier 2006

Outils pour le Warehouse

Extraction des donnes: Prendre des donnes dans des sources externes multiples et htrognes Data cleaning: Dtection des erreurs et rectification quand cest possible Transformation des donnes: Convertir les donnes au format warehouse Trier, rsumer, consolider, calculer les vues, vrifier lintgrit, raliser les indices et les partitions Rafrachissement des donnes Propager les mises jour depuis les sources de donnes vers le warehouse

M. Fieschi Data mining Master EISIS

Fvrier 2006

Vous aimerez peut-être aussi