Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
2me anne rgime spcial spc. IHS du Master ICA 1re anne spc. IHS du Master ICA (option) 1re anne spc. ICPS du Master ICA (option)
Jean-Franois Desnos
Jean-Francois.Desnos@grenet.fr
ED JFD
Un entrept de donnes (data warehouse) est une collection de donnes thmatiques, intgres, non volatiles et historises pour la prise de dcisions
ED JFD
ED JFD
ED JFD
Dcisionnel
Pilotage
In di Administratif
Paye Comptabilit GRH
ca teurs
Produits clients procds
Mtier
NB : Un systme dinformation rellement complet intgre des informations et des contraintes extrieures.
ED JFD 6
Vision transversale de lentreprise Intgration des diffrents bases Donnes non volatiles (pas de suppression) Historisation Organisation vers prise de dcision
7
ED JFD
Un projet complexe
Rassembler des donnes htrognes Les homogniser et les restructurer Vrifier leur fiabilit Les diter (publier)
ED JFD
Exemples dindicateurs dentreprise (succursales multiples) L'anne est une dimension, le magasin pourrait tre une seconde dimension, le type de produit une troisime.
ED JFD 9
Logiciel
Recherche Analyse Mise en forme des donnes
ED JFD
Donnes dcisionnelles Orientes activit (thme, sujet), condenses, reprsentent des donnes historiques Pas de mise jour interactive Utilises par lensemble des analystes Haute disponibilit ponctuelle Peuvent tre redondantes Grande quantit de donnes utilise par les traitements Cycle de vie diffrent Faible probabilit daccs Utilises de faon alatoire
11
ED JFD
12
code produit, code famille (et libells) code client, type client code vendeur, nom, code service jour, semaine, mois
ED JFD
13
Le modle dimensionnel
Une table contenant une cl multiple, la table de faits, un ensemble de tables secondaires, les tables de dimension (chacune possde une cl primaire unique correspondant lun des composants de la cl multiple de la table de faits). jointures schma en toile
ED JFD 15
16
Table de faits
Contient des faits numriques Les faits les plus utiles sont numriques et additifs. les agrgats, ou tables dagrgat, sont des enregistrements rcapitulatifs.
ED JFD
17
Rsultat possible
Tableau des ventes par produit et par client :
produit
client
ED JFD 19
Le cube de donnes
Chiffre daffaires
produit
Vendeur
Antoine Brigitte Laurence
mois
ED JFD
20
10
Volumtrie
Linformation de synthse peut tre plus volumineuse que linformation de dtail 2D 3D
ED JFD
21
Exemple de volume
Tableau 3x3 9 lments de dtail 7 lments de totalisation
Tableau 3x3x3 27 lments de dtail lments de totalisation : 3 tranches 3x3 = 3x7 = 21 + la face avant 4x4 = 16 Total = 37
ED JFD 22
11
Cube de donnes
Dans un modle dimensionnel, on cherche reprsenter les donnes dans un cube (ou hypercube). analyse ascendante : synthtiser analyse descendante : dtailler rotation des dimensions et coupe : trancher le cube
ED JFD
23
Dimensions et indicateurs
- produit - client - vendeur - date indicateur : - chiffre daffaires une dimension prend une liste de valeurs, un indicateur est un nombre.
ED JFD 24
dimension :
12
ED JFD
25
Exemple dadditivit
Table de faits VENTE code produit code client code vendeur prix de vente ristourne client (type client) commission vendeur (CA vendeur) retour oui/non
ED JFD
26
13
ED JFD
28
14
Datamining :
Recherche et analyse dinformation dans une base de donnes.
ED JFD
30
15
ED JFD
31
16
Bibliographie
Manuel du designer V5, Business Objects, 1999. Piloter l'entreprise grce au data warehouse, J.-M. Franco et al., Eyrolles 2001. La construction du datawarehouse, J.-F. Goglin, Herms 1998. Building the Data Warehouse, W. H. Inmon, Wiley 1996. Entrepts de donnes, guide pratique du concepteur, R. Kimball, Wiley 1997. Concevoir et dployer un data warehouse, R. Kimball et al., Eyrolles 2000.
http://www.tdwi.org
ED JFD 33
Entrepts de donnes
Modlisation dimensionnelle
ED JFD
34
17
La modlisation dimensionnelle souvent appele modlisation OLAP (Codd 1993) se prsente comme une alternative au modle relationnel. Il correspond mieux aux besoins du dcideur tout en intgrant la modlisation par sujet. Cest une mthode de conception logique qui vise prsenter les donnes sous une forme standardise intuitive et qui permet des accs hautement performants. Elle aboutit prsenter les donnes non plus sous forme de tables mais de cube centr sur une activit.
ED JFD 35
Modlisation entit-relation
liminer la redondance des donnes Adapte aux transactions (ex : mise jour dune adresse client), mais pas aux interrogations Modle complexe : des milliers de tables Pas de comprhension pour lutilisateur Ncessit de performances
ED JFD 36
18
Modlisation dimensionnelle
Une table de faits (cl multiple) Tables de dimensions : cl primaire unique qui correspond lun des composants de la cl multiple de la table de faits jointure en toile
ED JFD
37
Table de faits
Contient un ou plusieurs faits numriques qui se produisent pour la combinaison de cls d finissant chaque enregistrement Ex. Vente_euros, Vente_units, Cot_euros
ED JFD
38
19
ED JFD
39
20
Evolutions du modle
Ajout de faits nouveaux possible (si compatible avec grain) Ajout dune dimension nouvelle (si une seule valeur par enregistrement de la table de faits) Ajout dattributs dimensionnels Outils dagrgat (enreg. rcapitulatifs)
ED JFD 42
21
Planification
Construction de lED datamart par datamart, pour viter une trop grande complexit Eviter les tuyaux de pole laborer un bus dcisionnel grce aux dimensions conformes
43
ED JFD
Dimension conforme
Une table de dimension en relation avec plusieurs tables de fait est dite conforme Cohrence des interfaces utilisateurs et des contenus Cohrence de linterprtation des attributs Grande importance dans la conception
ED JFD 44
22
Fait conforme
Fait ayant la mme dfinition dans tous les datamarts, mme unit de mesure, mme contexte dimensionnel. Ex pour le fait recettes : priodes, rgions de ventes cohrentes Ex : conditionnement en units et botes Fait non conforme : noms distincts
ED JFD 45
Exemple de lagence de voyage 1 - voyages ariens Quel est le chiffre daffaires (CA) par client, par date de voyage (et par mois, trimestre et anne), par compagnie arienne, par ville de destination ? Les tableaux de bord doivent pouvoir prsenter les totaux et sous totaux de CA : tous clients confondus, et/ou toutes dates, et/ou toutes compagnies, et/ou toutes destinations.
ED JFD 46
23
Dimension Date
ED JFD
47
Exemple de lagence de voyage 2 location de voiture Dans le cas de la location de voiture, on souhaite diter le CA, le nombre de jours de location, et le kilomtrage pour chaque : client, date de rservation, ville, loueur, et catgorie de vhicule, ainsi que toutes les sommations de la mme manire que pour les dplacements.
ED JFD 48
24
Dimension loueur
Dimension Date
ED JFD
49
Exemple de lagence de voyage 3 - htel Dans le cas de lhtellerie, on veut des tableaux de bord par client, htel, ville, date de dbut de sjour, faisant apparatre le nombre de nuites et le prix total pay .
ED JFD
50
25
Dimension Htelier
Dimension Date
ED JFD
51
26
Code client Cie arienne Ville darrive Date du vol Prix pay Code client Loueur Ville de location Date de location Prix pay Distance parcourue Code client Htelier Ville de sjour Date de dbut Nombre de nuites Prix pay
ED JFD
Dimension ville
Dimension client
Dimension Date
53
Niveau de dtail
On privilgie le niveau le plus fin Evolutivit Puissance Efficacit du Data mining
ED JFD
54
27
Multisources
Commencer par un datamart monosource Rparer les tuyaux de pole : chercher crer des dimensions conformes Bus dcisionnel : dimensions et faits conformes
ED JFD 55
Un fait est une observation du march , la plupart du temps un champ numrique de la source Lattribut est un champ textuel (apparat dans les dimensions)
ED JFD 56
28
ED JFD
57
Forage
Forage vers le bas = Drill down = donner des dtails Forage vers le haut = Drill up = sommer Un vritable forage mlange les attributs hirarchiss et non hirarchiss de toutes les dimensions disponibles
ED JFD 58
29
Floconnage
Dfinition : dimension dont les champs faible cardinalit sont dans des tables spares, relies la table dorigine au moyen de cls artificielles. Non recommand : performances, complexit Gain en espace disque non dterminant
ED JFD 59
Exemple de floconnnage
Table de faits
contient cl_produit comme cl extrieure
Table de dimension
Cl_produit Cl_conditionnement Nombre_botes
Flocon
Cl_conditionnement Type_conditionnement
ED JFD
60
30
ED JFD
Mtadonnes
Ensemble dinformations ncessaires laccs, la comprhension et lexploitation des donnes du data warehouse. Le rfrentiel de lentrept de donnes = mtadonnes + outils dadministration Il collecte lensemble des modles de donnes ncessaires la construction et lexploitation du data warehouse.
ED JFD 62
31
Dimension temps
Cl_date (cl principale) Date complte Jour de la semaine Numro du jour dans la semaine Numro du jour dans lanne Indicateur jour ouvrable Indicateur dernier jour du mois
63
ED JFD
ED JFD
32
Dimensions changeantes
Cl_produit ou cl_client ne changent pas, mais les attributs voluent. On peut : 1. Rcrire sur lenregistrement (historique perdu) 2. Ajouter un enreg. Avec nouvelle valeur de cl 3. Crer un nouveau champ ancien dans lenreg et y stocker lancienne valeur dattribut
ED JFD
65
Dimensions dgnres
N bon de commande, n de facture ? Souvent conserver dans la base de faits, mais pas dattributs associs pas de table de dimension associe
ED JFD
66
33
Cls
Toutes les cls : cls de substitution dpourvues de signification, et sans rapport avec les bases sources.
ED JFD
67
Faits
Additifs de prfrence Faits textuels (exemple : conditions mtos lors dun relev de sinistre d assurance) = peu dintrt de comptage et regroupement si texte libre Prfrer les tmoins
ED JFD
68
34
ED JFD
70
35
Agrgat
Table rcapitulative (sommations) destine amliorer les performances du requtage. Il sagit dune table de faits qui possde des tables dimensionnelles.
ED JFD
71
ED JFD
72
36
ED JFD
74
37
ED JFD
76
38
ED JFD
77
Edition
couche 1
ED JFD 78
39
Loutil BO
Business Objects : extraire, mettre en forme et analyser les donnes de la base cible. intranet de ltablissement univers = architecture des informations extraites. utilisateurs : crent de nouvelles requtes, paramtrent et en excutent des requtes existantes.
ED JFD 79
Univers BO
40
Analyse
Analyser les besoins des utilisateurs
Conception
Faire le schma conceptuel; spcifier lunivers
Application
Crer lunivers
Maintenance
ED JFD
81
Prof Univ
ED JFD
82
41
Classes et univers
Les objets peuvent tre regroups en classes et sous-classes L univers est un ensemble dobjets crs sur une BD
ED JFD
83
Hirarchies
Une dimension appartient souvent une hirarchie. La hirarchie ordonne la dimension et permet de changer le niveau danalyse.
ED JFD
84
42
Exemple de hirarchie
Exemple Hirarchie dans lorganisation de la scolarit. Composante (UFR) Sciences Cycle 1er cycle Diplme Deug Etape 1re anne
ED JFD 85
Analyse dimensionnelle
Elle est possible si les dimensions de lunivers sont hirarchises Exemple : nombre dtudiants par composante,.........., tape changement du niveau danalyse
ED JFD
86
43
ED JFD
87
Objets de lunivers
Normaliser les noms des objets ex. : Nationalit-code Nationalit-libell Utiliser la langue du mtier Chaque dimension doit avoir une liste de valeurs qui associe code et libell.
ED JFD 88
44
Structure de la base ED
Objectif : produire des indicateurs au carrefour des dimensions Une table de faits comporte des dimensions et des indicateurs A chaque dimension dune table de faits, on associe une table de dimension (sauf dimension dgnre)
ED JFD 89
La dimension historique
Elle est sous-jacente dans tous les faits : date, trimestre, anne selon les faits mesurs : nb dinscriptions, budget, appartenance un groupe. La date dextraction est galement importante. 2 dimensions historiques : les faits, lextraction
ED JFD 90
45
ED JFD
91
46
ED JFD
94
47
Agrgats
Deux solutions :
1. Tables dagrgats = calculs pr-tablis optimisant les performances 2. Fonction aggregate aware de BO
ED JFD
95
ED JFD
96
48
ED cours 4
Elments darchitecture Administration Stratgie Construction
ED JFD
97
ED JFD
98
49
Intgration au portail
A partir du client universel, accs toutes les applications de lentreprise : Applis dcisionnelles, bureau virtuel, workflow, docflow, BD, Point daccs unique, Architecture simplifie, Rduction des cots.
ED JFD 99
Administrer
Qualit de service (disponibilit, fiabilit, scurit), gestion des anomalies Configuration, paramtrage, maintenance du systme dinformation : gestion financire, administrative, technique; maintenance et support.
ED JFD 100
50
Administration fonctionnelle
Traduire le besoin de chaque utilisateur Assurer la cohrence globale Faire voluer lensemble Etablir des profils Editer : coordonner la diffusion Matriser la qualit : le mtadictionnaire et son volution
101
ED JFD
Administration technique
Volumtrie Puissance des traitements Evolutions outils dadministration des systmes, scurit, sauvegardes, mtrologie Ces outils sappuient sur la politique des SI de lentreprise
ED JFD 102
51
Choix stratgiques
Rfrentiel intgr Solution centralise ou non Espaces privs Matriser les cots Commencer par un datamart ?
ED JFD
103
Rfrentiel intgr
Multiplicit des dictionnaires : ETL, SGBD, OLAP Pour garantir la cohrence, 1 seul dictionnaire si possible
ED JFD
104
52
ED JFD
105
Du datamart lED
Dveloppement RAD Larchitecture retenue doit permettre le passage lchelle
ED JFD
106
53
La dmarche RAD
Analyse des besoins Phase 1 Mise en uvre 1re version Retour dexpriences . Besoins complmentaires Phase N Mise en uvre Nime version Retour dexpriences
ED JFD 107
ED JFD
108
54
50 % 20 % 15 %
109
Le chef de projet
doit tre orient utilisateurs soutenu par la direction et les utilisateurs ne pas promettre la lune soigner la conception (modle, donnes intgrer) ne pas faire le jouet du prsident Ne pas sarrter la premire phase
ED JFD 110
55
ED JFD
111
Agrgats
Il faut slectionner les agrgats retenir : Compromis volume temps de rponse
ED JFD 112
56
Rfrentiel
Nomenclatures
nom. de rfrence, org. rseau
Rgles de gestion
Donnes et flux
mta-dictionnaire
Profils utilisateurs
Paramtres
conception exploitation
ED JFD
113
57