Académique Documents
Professionnel Documents
Culture Documents
Elisabeth Mtais
Extracteur
Integrateur
Extracteur
Extracteur
Sources
Dcideurs
2
Dfinitions
Dfinition 1 (Goglin) : un entrept de donnes est un stockage intermdiaire de donnes issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et danalyse. Dfinition 2 (Bill Inmon) : Un entrept de donnes est une collection de donnes thmatiques, intgres, non volatiles et historises organises pour la prise de dcision. Inmon et Codd sont considrs comme les auteurs du concept dans le dbut des annes 90.
3
Exemples
Suivi du comportement de la clientle dans les tlcommunications Nombre moyen dheures par mois et par rgion, rpartition des appels clients sur la semaine, Rpartition des appels clients sur la journe, nombre moyen dappels reprsentant 20% dune facture, Dure moyenne dune communication urbaine, Dure moyenne dune communication intenationale. Suivi du march (lignes installes, dsinstalles, services choisis, rpartition gographique) Comportement du rseau (pannes)
9
Exemples
Quel est le volume des ventes par produit, par rgion, pour le 3ime trimestre 2003 ? Quel est le volume des ventes de produits laitiers, pour la rgion parisienne, par an, pour les 5 dernires annes ? Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de lanne en cours ? Est-ce quune baisse de 10% ferait redmarrer les ventes de disques ?
10
- relativement statique - volutif Utilisateurs Nbres : . utilisateurs . tuples accds - agents oprationnels - manager - milliers - dizaines/centaines - centaines - millions
Les sources
En gnral les "legacy systems", c'est--dire principalement les bases de donnes de production. exemples : factures, fichier des nouveaux clients. On extrait justement les donnes pour ne pas travailler directement sur les sources. - "Dcisionnel et transactionnel ne font pas bon mnage ", - perturbations, - supports physiques diffrents, - outils et utilisateurs diffrents.
13
Les sources
Mais aussi des sources extrieures : mto, calendrier des jours fris, cours de la bourse, Gographie (tudes pidmiologiques, accidents de la route), tudes INSEE. Vieilles sources.
14
sexe 1 2
sexe M F
Les meta-donnes
Les mta-donnes regroupent l'ensemble des informations concernant l'entrept et les processus associs. Destines
Aux utilisateurs
Aux quipes et outils responsables du processus de transformation des donnes de production vers l'entrept.
SGBD
18
Les meta-donnes
2 principales utilits
Pour les algorithmes d'extraction, intgration, nettoyage, rafrachissement, historisation, qualit. (localisation, rgles de transformation, flux) Responsables des processus (quipes, outils)
19
Les meta-donnes
Elles sont stockes dans un rfrentiel : Interface de navigation, lien avec les autres systmes. Besoin de standardisation : Metadata Council (95, groupe de vendeurs), OIM (96, Open Information Model de microsoft) CWMI (98, Common Warehouse Metadata Exchange OMG)
20
Les magasins
sous-ensemble de lentrept, temps daccs rduits, volume rduit, cot rduit, orient vers un sujet particulier, les donnes sont adaptes une classe de dcideurs ou un usage particulier (ex: fortement agrges, DM) gnralement modlis sous forme multidimensionnelle, ncessit de dfinir ne stratgie dextraction de lentrept, on peut avoir des sous-magasins.
21
Outils de restitution
sur les magasins, ou directement sur lentrept, requtes SQL, SQL/OLAP tableurs, outils requteurs spcialiss (outils de reporting), progiciels spcialiss, sortie web, logiciels de datamining, sortie systme expert.
22
Le modle multidimensionnel
Souvent appel modle OLAP (On Line Analytical Processing) (Codd, 1993). Prsent comme une alternative au modle relationnel. Correspond mieux aux besoins du dcideur. "Orient sujet". " Cube" centr sur une activit. Exemple : vente.
24
Les faits
Un cube relate un fait. Lactivit est caractrise par des faits qui se produisent (vnements). Exemples : fait de vente, fait de notation, fait de passage de transaction boursire, fait de consultation mdicale, fait de dpense dans un hpital, fait dabsence de cours, fait de marquage de but, fait de frquentation dun cinma.
25
Les indicateurs
Les faits sont quantifis par des indicateurs, galement appels "mtriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractrise par la quantit vendue et le montant de la vente. Ce sont les cellules du cube. Les indicateurs reprsentent une quantit mesurable, un fait observ. Chaque indicateur a une fonction dagrgat (on peut les additionner, ou calculer le minimum, ou la moyenne). Ils sont gnralement numriques et additifs : Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de 26 frquentation est non additive.
Les dimensions
Les "dimensions" sont les axes d'analyse. Exemples : produits, temps, rgion, promotion, fournisseur, joueur, lve, hpital. Chaque dimension est associe une hirarchie. Exemples : continent -> pays -> rgion -> ville -> magasin anne -> trimestre -> mois -> jour catgorie-> sous-catgorie -> produit
29
Oprateurs multidimensionnels
Roll-up, ou agrgation, ou consolidation, ou drill-up, ou scaleup, ou forage vers le haut. Drill-down, ou dsagrgation, ou segmentation, ou roll_down, ou drill-trough, ou forage vers le bas. Slice, ou projection. Dice, ou selection, ou filtering, ou screening. Pivot, ou rotation. Switch, ou permutation.
30
Implmentation
MOLAP : Stock sous forme multidimensionnelle propritaire; avec stockage de toutes les agrgations. ROLAP : Stockage dans un SGBD relationnel (modle en toile). HOLAP : Hybride.
31
Modles utiliss
Rfrentiel
Entrept de donnes
Magasin de donnes
Source s
Modle d'intgratio n
Modle de diffusion
Modle de prsentatio n
32
Etc. Date
Sexe du patient
Type de maladie
33
Patients Sexe Tranche dage Site du cathter Axillaire Fmorale Humral Etc. Jour infection Jour 1 du sjour Etc.
Germes staphylococcus aureus staphylococcus epidermidis staphylococcus coagulase ngatif enterococcus faecalis, faecium streptococcus, A group Etc.
34
Modlisation en toiles
Produit
cl_produit description marque catgorie sous_catgorie couleur taille
Temps
cl_temps heure jour semaine mois anne fri vnement
Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue
Magasin
cl_magasin adresse ville dpartement secteur_vente surface
35
Modlisation en flocons
Produit
cl_produit description marque cl_sous_catgorie couleur taille
Sous_catgorie
cl_sous_catgorie sous_catgorie catgorie
Temps
cl_temps heure jour semaine mois anne fri vnement
Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue
Magasin
cl_magasin cl_localisation secteur_vente surface
Localisation
cl_localisation adresse ville dpartement
36
Modlisation en constellations
Produit
cl_produit description marque cl_sous_catgorie couleur taille
Temps
cl_temps heure jour semaine mois anne fri vnement
Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue
Magasin
cl_magasin cl_localisation secteur_vente surface
Type "instantan rcapitulatif" fait = performance dans un intervalle de temps correspondant une activit (ex: valuation d'un cours, sjour d'un patient) dates = date dbut, date fin 1 ligne par activit
39
Modle de prsentation
Nbre de patients Infectieuse femmes de moins de 30 ans
chronique
etc.
300 50 45
40
chronique
etc.
150 30 43 77
110 25 40 25
50 45
150 120
41
chronique
etc.
140 15 23 40
10 15 20 37
110 25 40 25
50 45
150 120
42
Mthodologie de conception
Mthodologie base sur une matrice (prconise par les vendeurs d'outils MOLAP). Lister les faits et les mesures pertinents, Dfinir pour chaque mesure les dimensions dont elle dpend, Donner les hirarchies, Choisir le niveau d'agrgation.
43
Mthodologie de conception
Mthodologie base sur l'analyse des requtes Attributs du group by : dimensions Attributs agrgs : mesures Attributs du "where" : attributs des tables de fait ou de dimensions. Exemple : Select vente.nmagasin, vente.nproduit, sum(vente.prix) from vente, produit Where produit.nproduit = vente.nproduit and produit.description = "livre" group by vente.nmagasin, vente.nproduit;
44
Mthodologie de conception
Mthodologie base sur un modle conceptuel des donnes (approche MAP Akoka, Prat, Comyn_Wattiau) Effectuer la modlisation en entit-association, Les associations (m-n) deviennent des tables de faits, Les entits participantes deviennent des tables de dimensions, Les proprits des associations deviennent les variables multidimensionnelles, deux entits relies par une associations 1-n acquirent un lien de hirarchie.
45
46