Vous êtes sur la page 1sur 47

Les entrepts de donnes

Elisabeth Mtais

Lentrept de donnes dans la ligne dcisionnelle

Extracteur

Integrateur

Referentiel Entrept de donnes

Extracteur

Extracteur

Sources

Dcideurs
2

Dfinitions
Dfinition 1 (Goglin) : un entrept de donnes est un stockage intermdiaire de donnes issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et danalyse. Dfinition 2 (Bill Inmon) : Un entrept de donnes est une collection de donnes thmatiques, intgres, non volatiles et historises organises pour la prise de dcision. Inmon et Codd sont considrs comme les auteurs du concept dans le dbut des annes 90.
3

" Thmatiques "


Thmatique = "Orient sujet " . Orient par thme et non plus par fonction. Exemples : Dans les bases de donnes oprationnelles : assurance vie, assurance automobile, paye, facturation. Dans les bases de donnes dcisionnelles : client, produit, rseau de distribution, mdicament, march, absences, russite. Ce ct est renforc dans les magasins.
4

" Intgres "


Lentrept nest pas une concatnation des sources, les donnes sont smantiquement intgres. Exemples : Reconnatre quil sagit de la mme personne malgr un dmnagement Reconnatre quil sagit du mme produit malgr des code barres diffrents Remarque : trs difficile, mais indispensable.
5

" non volatiles, historises"


Pas de suppressions. Ncessit dun rfrentiel de temps. Lhistorisation permet lextrapolation, la mesure de limpact dune dcision par comparaison de la situation avant et aprs la mise en application de cette dcision. Exemple : Suivi des volutions des comportements des clients.
6

" agrges "


Niveau de granularit. Exemple : Stockage de tous les appels tlphoniques pour un client APPEL_TELEPHONIQUE (n client, horo-date, dure, correspondant, tranger, etc...) (300 clients, 200 tuples par client, 60000 tuples dappels). Stockage agrg par client sur 1 mois APPEL_TELEPHONIQUE (n client, mois, nombre dappel, dure moyenne, nombres dappels vers ltranger) (300 tuples dappels).
7

" prise de dcision"


Les systmes " oprationnels " (ou de " production ", ou de " gestion " ) sont ddis aux mtiers de lentreprise pour les assister dans leurs tches de gestion quotidiennes (et directement oprationnels). ERP Les systmes " dcisionnels " sont ddis au management de lentreprise pour laider au pilotage de lactivit (et indirectement oprationnels). Ils offrent au dcideur une vision transversale de lentreprise. DW
8

Exemples
Suivi du comportement de la clientle dans les tlcommunications Nombre moyen dheures par mois et par rgion, rpartition des appels clients sur la semaine, Rpartition des appels clients sur la journe, nombre moyen dappels reprsentant 20% dune facture, Dure moyenne dune communication urbaine, Dure moyenne dune communication intenationale. Suivi du march (lignes installes, dsinstalles, services choisis, rpartition gographique) Comportement du rseau (pannes)
9

Exemples
Quel est le volume des ventes par produit, par rgion, pour le 3ime trimestre 2003 ? Quel est le volume des ventes de produits laitiers, pour la rgion parisienne, par an, pour les 5 dernires annes ? Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de lanne en cours ? Est-ce quune baisse de 10% ferait redmarrer les ventes de disques ?

10

Diffrences transactionnel / dcisionnel


Transactionnel Donnes - dtailles - personnelles - mises jour - temps de validit, de transaction Traitements - requtes simples - rptitives - trs sensible aux performances Dcisionnel - agrges - peuvent tre anonymes - recalcules - temps de validit, de transaction, dextraction - requtes complexes - varies - chelle de performance diffrente
11

- sur une priode courte - historises

Diffrences transactionnel / dcisionnel


Transactionnel Conception - oriente fonction Dcisionnel - oriente sujet

- relativement statique - volutif Utilisateurs Nbres : . utilisateurs . tuples accds - agents oprationnels - manager - milliers - dizaines/centaines - centaines - millions

. base de donnes - centaines de MB/GB - centaines de GB/TB


12

Les sources
En gnral les "legacy systems", c'est--dire principalement les bases de donnes de production. exemples : factures, fichier des nouveaux clients. On extrait justement les donnes pour ne pas travailler directement sur les sources. - "Dcisionnel et transactionnel ne font pas bon mnage ", - perturbations, - supports physiques diffrents, - outils et utilisateurs diffrents.
13

Les sources
Mais aussi des sources extrieures : mto, calendrier des jours fris, cours de la bourse, Gographie (tudes pidmiologiques, accidents de la route), tudes INSEE. Vieilles sources.
14

L'extraction des donnes


a pour but d'extraire les donnes et de les mettre dans un format commun. choisit d'extraire ce qui est ncessaire on n'importe pas la totalit des sources, satisfaire les "vues utilisateurs". applique une stratgie de rafrachissement priodicit, ou dclenchement. peuplement initial.
15

L'extraction des donnes


3 principales techniques : Ecrire des interfaces entre les sources et l'entrept, Exploiter les fonctionnalits de rplication offertes par les SGBD, loader, triggers, passerelles, copies, logs, vues, etc Utiliser un outil ETL gnre les programmes d'alimentation, peut grer leur droulement, intgration de donnes.
16

L'intgration des donnes


Intgration des donnes dans l'entrept en rsolvant les conflits entre les diffrentes sources d'information codages, fautes d'orthographe, etc tables de conversion, etc
ETUDIANTS nom Figue Fraise
PROF nom Figue Fraise

sexe 1 2
sexe M F

adresse Paris Toulouse


adresse 4, av. Foch Paris 4, av. Foch Paris
17

Les meta-donnes
Les mta-donnes regroupent l'ensemble des informations concernant l'entrept et les processus associs. Destines

Aux utilisateurs

Aux quipes et outils responsables du processus de transformation des donnes de production vers l'entrept.

SGBD

18

Les meta-donnes
2 principales utilits

Carte routire pour l'interrogation Utilisateurs

Pour les algorithmes d'extraction, intgration, nettoyage, rafrachissement, historisation, qualit. (localisation, rgles de transformation, flux) Responsables des processus (quipes, outils)

+ mtadonnes habituelles (types, autorisations) SGBD

19

Les meta-donnes
Elles sont stockes dans un rfrentiel : Interface de navigation, lien avec les autres systmes. Besoin de standardisation : Metadata Council (95, groupe de vendeurs), OIM (96, Open Information Model de microsoft) CWMI (98, Common Warehouse Metadata Exchange OMG)
20

Les magasins
sous-ensemble de lentrept, temps daccs rduits, volume rduit, cot rduit, orient vers un sujet particulier, les donnes sont adaptes une classe de dcideurs ou un usage particulier (ex: fortement agrges, DM) gnralement modlis sous forme multidimensionnelle, ncessit de dfinir ne stratgie dextraction de lentrept, on peut avoir des sous-magasins.
21

Outils de restitution
sur les magasins, ou directement sur lentrept, requtes SQL, SQL/OLAP tableurs, outils requteurs spcialiss (outils de reporting), progiciels spcialiss, sortie web, logiciels de datamining, sortie systme expert.
22

Variantes dans larchitecture


architecture mdiateur (entrept virtuel), architecture plusieurs niveaux de stockage (ODS, CDW, etc.), architecture magasins matrialiss et entrept virtuel, Architecture mixte choix des vues matrialiser, choix dun ODS, choix des niveaux de data marts.
23

Le modle multidimensionnel
Souvent appel modle OLAP (On Line Analytical Processing) (Codd, 1993). Prsent comme une alternative au modle relationnel. Correspond mieux aux besoins du dcideur. "Orient sujet". " Cube" centr sur une activit. Exemple : vente.
24

Les faits
Un cube relate un fait. Lactivit est caractrise par des faits qui se produisent (vnements). Exemples : fait de vente, fait de notation, fait de passage de transaction boursire, fait de consultation mdicale, fait de dpense dans un hpital, fait dabsence de cours, fait de marquage de but, fait de frquentation dun cinma.
25

Les indicateurs
Les faits sont quantifis par des indicateurs, galement appels "mtriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractrise par la quantit vendue et le montant de la vente. Ce sont les cellules du cube. Les indicateurs reprsentent une quantit mesurable, un fait observ. Chaque indicateur a une fonction dagrgat (on peut les additionner, ou calculer le minimum, ou la moyenne). Ils sont gnralement numriques et additifs : Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de 26 frquentation est non additive.

Les indicateurs (suite)


Exemples : CA par produit/agence/dans le temps, cot moyen dune hospitalisation par pathologie, le nombre de visiteurs moyens dans un tablissement, taux doccupation des lits, nombre darticles en stock, satisfaction, taux de remplissage des avions par vol, temps dattente moyen au supermarch, nombre de connexions sur un site web, dure des communications sur un site web.
27

Les indicateurs (suite)


Formule : On appelle "formule" une mesure non stocke, obtenue partir des mesures stockes. Exemples : prix moyen = total ventes / nombre vendu Remarque : il existe des faits sans mesures, les "dummy measures" Exemple : location d'une voiture, consultation hpital, rservation d'un livre. L'agrgation sera le comptage des faits.
28

Les dimensions
Les "dimensions" sont les axes d'analyse. Exemples : produits, temps, rgion, promotion, fournisseur, joueur, lve, hpital. Chaque dimension est associe une hirarchie. Exemples : continent -> pays -> rgion -> ville -> magasin anne -> trimestre -> mois -> jour catgorie-> sous-catgorie -> produit

29

Oprateurs multidimensionnels
Roll-up, ou agrgation, ou consolidation, ou drill-up, ou scaleup, ou forage vers le haut. Drill-down, ou dsagrgation, ou segmentation, ou roll_down, ou drill-trough, ou forage vers le bas. Slice, ou projection. Dice, ou selection, ou filtering, ou screening. Pivot, ou rotation. Switch, ou permutation.

30

Implmentation
MOLAP : Stock sous forme multidimensionnelle propritaire; avec stockage de toutes les agrgations. ROLAP : Stockage dans un SGBD relationnel (modle en toile). HOLAP : Hybride.

31

Modles utiliss
Rfrentiel

Entrept de donnes

Magasin de donnes

Source s

Modle d'intgratio n

Modle de diffusion

Modle de prsentatio n
32

Modle de diffusion Magasins de donnes (data marts)


en constellation dtoiles ROLAP
Lieux Age du patient

Indicateurs Type de soins Nombre de patients Nombre de gurison Cot Etc .

Etc. Date

Sexe du patient

Type de maladie
33

Patients Sexe Tranche dage Site du cathter Axillaire Fmorale Humral Etc. Jour infection Jour 1 du sjour Etc.

Date infection Jour Mois Anne

Type du cathter Artre Veineux Swan Ganz Etc.

Table de faits Effectif concern

Cot du cathter Droit Gauche Rsistance Oui Non

Germes staphylococcus aureus staphylococcus epidermidis staphylococcus coagulase ngatif enterococcus faecalis, faecium streptococcus, A group Etc.

Acte sur cathter Pose Changement Changement sur site Etc.

34

Modlisation en toiles
Produit
cl_produit description marque catgorie sous_catgorie couleur taille

Temps
cl_temps heure jour semaine mois anne fri vnement

Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue

Magasin
cl_magasin adresse ville dpartement secteur_vente surface

35

Modlisation en flocons
Produit
cl_produit description marque cl_sous_catgorie couleur taille

Sous_catgorie
cl_sous_catgorie sous_catgorie catgorie

Temps
cl_temps heure jour semaine mois anne fri vnement

Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue

Magasin
cl_magasin cl_localisation secteur_vente surface

Localisation
cl_localisation adresse ville dpartement
36

Les tables de dimension sont normalises

Modlisation en constellations
Produit
cl_produit description marque cl_sous_catgorie couleur taille

Temps
cl_temps heure jour semaine mois anne fri vnement

Fait de Vente
cl_temps cl_produit cl_magasin montant_ventes quantit_vendue

Magasin
cl_magasin cl_localisation secteur_vente surface

37 Les tables de dimensions sont partages par plusieurs tables de faits

Diffrentes catgories de tables de faits


Type "transaction" fait = activit de la transaction (ex: une vente) date = date de la transaction 1 ligne par vnement Type "instantan priodique" fait = performance dans un intervalle prdfini (ex: total des entres en fin de journe) date = date fin de priode 1 ligne par priode
38

Type "instantan rcapitulatif" fait = performance dans un intervalle de temps correspondant une activit (ex: valuation d'un cours, sjour d'un patient) dates = date dbut, date fin 1 ligne par activit

39

Modle de prsentation
Nbre de patients Infectieuse femmes de moins de 30 ans

chronique

etc.

Nord PACA Bretagne Etc.

300 50 45

200 150 120

40

Nbre de patients Infectieuse femmes de moins de 30 ans

chronique

etc.

Lille Caen Nord Calais Rouen

150 30 43 77

110 25 40 25

PACA Bretagne Etc.

50 45

150 120

41

Nbre de patients Infectieuse femmes de Pneumo. Grippe moins de 30 ans

chronique

etc.

Lille Caen Nord Calais Rouen

140 15 23 40

10 15 20 37

110 25 40 25

PACA Bretagne Etc.

50 45

150 120

42

Mthodologie de conception

Mthodologie base sur une matrice (prconise par les vendeurs d'outils MOLAP). Lister les faits et les mesures pertinents, Dfinir pour chaque mesure les dimensions dont elle dpend, Donner les hirarchies, Choisir le niveau d'agrgation.
43

Mthodologie de conception
Mthodologie base sur l'analyse des requtes Attributs du group by : dimensions Attributs agrgs : mesures Attributs du "where" : attributs des tables de fait ou de dimensions. Exemple : Select vente.nmagasin, vente.nproduit, sum(vente.prix) from vente, produit Where produit.nproduit = vente.nproduit and produit.description = "livre" group by vente.nmagasin, vente.nproduit;
44

Mthodologie de conception
Mthodologie base sur un modle conceptuel des donnes (approche MAP Akoka, Prat, Comyn_Wattiau) Effectuer la modlisation en entit-association, Les associations (m-n) deviennent des tables de faits, Les entits participantes deviennent des tables de dimensions, Les proprits des associations deviennent les variables multidimensionnelles, deux entits relies par une associations 1-n acquirent un lien de hirarchie.
45

Gestion des changements dans les dimensions


Exemples : le client change d'adresse, un vendeur change d'affectation. Remarque : distinguer les changements frquents et les changements moins
frquents (SCD).

Solution 1: Vraie MAJ (crasement de l'ancienne valeur)


-> Correction d'une erreur, ou historique de changement sans intrt.

Solution 2 : Stockage des diffrentes versions :


Cl-artificielle, version 1 , cl naturelle, dern.version (O/N), date-dbut, date-fin Cl-artificielle, version 2 , cl naturelle, dern.version (O/N), date-dbut, date-fin Cl-artificielle, version n , cl naturelle, dern.version (O/N), date-dbut, date-fin

46

Solution 3 : Conservation des deux dernires valeurs


Cl-artificielle, ,valeur prcdente d'un attribut, nouvelle valeur de cet attribut,

Solution 4 : Changements rguliers prvus


Cl-artificielle, , valeur 2000, valeur 2001, valeur 2002, valeur 2003,

Solution 5 : Mini dimensions


Une dimension client, une dimension profil_client -> pour les changements frquents
47

Vous aimerez peut-être aussi