Académique Documents
Professionnel Documents
Culture Documents
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
Le contexte
Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients? Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
4
Problmatique
Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
Prise de dcision
Bases de production
Data warehouse
Prdiction / simulation
Banque
Risques dun prt, prime plus prcise
Sant
pidmiologie Risque alimentaire
Commerce
Ciblage de clientle Dterminer des promotions
Logistique
Adquation demande/production
Assurance
Risque li un contrat dassurance (voiture)
lentreprise
Supplier Relationship Management (gestion de la relation fournisseur) Classifier et valuer lensemble des fournisseurs. Planifier et
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
10
Dfinition dun DW
W. H. Inmon (1996): Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision Principe: mettre en place une base de donnes utilise des fins danalyse
11
Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes
Ass. Vie Ass. Auto Ass. Sant Client Police
12
Donnes intgres:
h,f
EUR
Traabilit des informations et des dcisions prises Copie des donnes de production
Bases de production Ajout Suppression Accs Modification Chargement Entrepts de donnes
14
Donnes dates
Les donnes persistent dans le temps Mise en place dun rfrentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Rpertoire
Base de production
Rpertoire
Entrept de donnes
SGBD et DW
OLTP: On-Line Transactional Processing Service commercial
BD prod
Service Financier
BD prod
Service livraison
BD prod
Clientle
H I S T O R I Q U E
16
Data Warehouse
OLAP: On-Line Analitical Processing Clientle
OLTP VS DW
OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives Utilisateurs nombreux, administrateurs/oprationnels Temps dexcution: court
DW
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques Utilisateurs peu nombreux, manager Temps dexcution: long
17
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
18
Datamart
Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Datamarts du service Marketing
DW de lentreprise
20
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
21
Architecture gnrale
Zone de prparation
E X T R A C T I O N
Zone de stockage C H A R G E M E N T
Zone de prsentation
Data warehouse
Sources de donnes
Datamart
22
Flux entrant
Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept
Flux sortant:
Mise disposition des donnes pour les utilisateurs
finaux
23
Zone de prsentation
Donne accs aux donnes contenues dans le DW Peut contenir des outils danalyse programms:
Rapports Requtes
24
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
25
Modlisation Entit/Association
Avantages:
Normalisation:
liminer les redondances Prserver la cohrence des donnes
Exemple
Transporteur Mode dexpdition Produit Commande client Client Magasin Employ Stock Fonction Fournisseurs Rgion de ventes Division de ventes Famille de produits Groupe de produits
27
Modlisation des DW
28
Table de faits
Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet tudi selon divers axes danalyse (les dimensions) Table de faits des ventes Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes
29
Fait:
Ce que lon souhaite mesurer Quantits vendues, montant des ventes Contient les cls trangres des axes danalyse
(dimension)
Date, produit, magasin
30
31
Rpondre la question :
Que reprsente un enregistrement de la table de
faits?
Finesse
32
Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes observables (faits) Contient le dtail sur les faits Dimension produit Cl produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids
33
Cl de substitution
Attributs de la dimension
34
La dimension Temps
Dimension Temps Cl temps (CP) Jour Mois Trimestre Semestre Anne Num_jour_dans_anne Num_semaine_ds_anne
35
hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps :
anne semestre trimestre - mois
36
37
formulation: Raider en Twix yaourt la vanille en yaourt saveur vanille Gestion de la situation, 3 solutions: crasement de lancienne valeur Versionnement Valeur dorigine / valeur courante
Avantage:
Facile mettre en uvre
Inconvnients:
Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs
Cl produit Description du produit Groupe de produits 12345 Intelli-Kids Logiciel Jeux ducatifs
39
Avantages:
Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de
lhistorique
Inconvnient:
Accroit le volume de la table
Cl produit Description du produit Groupe de produits 12345 25963 Intelli-Kids Intelli-Kids Logiciel Jeux ducatifs
40
Avantages:
Avoir deux visions simultanes des donnes :
Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut
Inconvnient:
Inadapt pour suivre plusieurs valeurs dattributs intermdiaires
mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement
42
43
Modle en toile
Modle en flocon
45
Modle en toile
Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles Avantages:
Inconvnients:
Redondance dans les dimensions Toutes les dimensions ne concernent pas les
mesures
46
Modle en toile
Dimension Temps ID temps anne mois jour Dimension produit ID produit nom code prix poids groupe famille Dimension Client ID client nom prnom adresse
47
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats
Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:
Normalisation des dimensions conomie despace disque
Inconvnients:
Modle plus complexe (jointure) Requtes moins performantes
48
Modle en flocon
Dimension Temps ID temps annee mois jour Dimension produit ID produit ID groupe nom code prix poids
Dimension Region ID rgion ID division vente pays description . Dimension Division vente ID division vente description .
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats Dimension Client ID client nom prnom adresse
49
Choisir le sujet Choisir la granularit des faits Identifier et adapter les dimensions Choisir les faits Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes prioritaires, des modes de requtes
50
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
51
Entrept mis jour rgulirement Besoin dun outil permettant dautomatiser les chargements dans lentrept Utilisation doutils ETL (Extract, Transform, Load)
52
Offre un environnement de dveloppement Offre des outils de gestion des oprations et de maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept
53
Extraction
Extraire des donnes des systmes de production Dialoguer avec diffrentes sources:
54
Transformation
(MM/JJ/AA JJ/MM/AA)
55
Chargement
Insrer ou modifier les donnes dans lentrept Utilisation de connecteurs: ODBC, SQL natif, Fichiers plats
56
57
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
58
OLTP VS OLAP
Produits Pays
Espagne Allemagne
Produit
PK id_produit Libell Famille
Achat
PK id_achat FK id_client id_produit Quantit janvier fvrier avril
France
client
PK id_client Nom adresse
Temps
59
ROLAP
Relational OLAP
Donnes stockes dans une base de donnes
Plus facile et moins cher mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP:
Mondrian
60
MOLAP
gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube
Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse multidimensionnelle Exemples de moteurs MOLAP:
Microsoft Analysis Services Hyperion
61
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes
dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes
Solution hybride entre MOLAP et ROLAP Bon compromis au niveau cot et performance
62
Le cube
Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:
Temps Localisation gographique
63
64
tranche du cube. Une des dimensions est alors rduite une seule valeur
uf
uf
65
sous un sous-cube
uf
66
Forage vers le bas (drill-down): zoomer Obtenir un niveau de granularit infrieur Donnes plus dtailles
67
Drill-up, drill-down
Roll up
05 06 07
Roll up
05-07 Fruits 623
Dimension Temps
1S05 2S05 1S06 2S06 1S07 100 121 141 111 120 152 137 139 116 Viande 134
Viande 648
Drill down
Drill down
Dimension Produit
68
Langage permettant de dfinir, d'utiliser et de rcuprer des donnes partir d'objets multidimensionnels
Permet deffectuer les oprations dcrites prcdemment
69
MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004 et 2005 croiss par le type de paiement
WHERE ([Measures].[Count]) 2004 2005 Heure 3396 4015 Jour 3678 2056
70
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel Dmonstration
71
Le march du dcisionnel
72
73
Entrept de donnes
MySql Postgresql
OLAP
Reporting
Data Mining
Weka R-Project Xelopes
CloverETL Greenplum/Biz
gres
74
Plan
Introduction Les entrepts de donnes Les datamart Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation Dmonstration
75
Exemples
Rapports
Sales by customer Dashboard
Analyse
76
77