Académique Documents
Professionnel Documents
Culture Documents
Octobre 2000
T1
T2
Dfi : Transformer leur systme dinformation qui avait une vocation de production un SI dcisionnel dont la vocation de pilotage devient majeure.
T3
Quest ce quun DW ?
Daprs BILL Inmon :
Un DW est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour la prise de dcision.
Thmatiques : thmes par activits majeures ; Intgres : divers sources de donnes ; Non volatiles : ne pas supprimer les donnes du DW ; Historises : trace des donnes, suivre lvolution des indicateurs.
T4
Bases de production
T5
Les bases de production : toutes les sources de donnes (lgales, juridiques, fiscales, politiques, techniques, marketing) Comment organiser ces diffrentes donnes dans un ensemble cohrent afin de procder toutes les analyses ncessaires pour construire les indicateurs indispensables au pilotage de lentreprise ? Par un processus dentreposage de donnes
Data Warehousing
T6
T7
T8
Construction
Travail technique.
Techniques dalimentation :
Chargement des donnes dans le DW ; Frquences de rafrachissement : par applications d interfaces entre les sources de donnes et le DW ; par serveurs de rplication du SGBD ou par outils spcialiss.
T9
Administration
Elle est constitue de plusieurs tches pour assurer :
la qualit et la prennit des donnes aux diffrents applicatifs ; la maintenance ; la gestion de configuration ; les mises jour ; lorganisation, loptimisation du SI ; la mise en scurit du SI.
T10
Restitution
Cest le but du processus dentreposage des donnes. Elle conditionne le choix de larchitecture du DW et de sa construction. Elle doit permettre toutes la analyses ncessaires pour la construction des indicateurs recherchs.
T11
Architecture Dcisionnelle
Data Warehouse
Bases de production
T12
T13
N Cde
Date Cde
N Client
Nom Client Adresse Client Ville VENDEUR
N Cde N Client Code vendeur Code produit Clef date Nom Ville
Quantit Prix total
Clef date
Date Mois Anne
Code vendeur
Nom Vendeur Ville Vendeur Quota
VILLE
Nom Ville
Rgion Pays
T14
Le modle en toile :
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions. Une granularit dfinie par les identifiants dans la table des faits. Avantages :
Facilit de navigation Performances : nombre de jointures limit ; gestion des donnes creuses. Gestion des agrgats Fiabilit des rsultats
Inconvnients :
Toutes les dimensions ne concernent pas les mesures Redondances dans les dimensions Alimentation complexe.
T15
T16
T17
T18
COMMANDE
Code produit
Nom Produit Description Produit TABLE DE FAITS Catgorie Description catgorie Prix unitaire DATE
N Cde
Date Cde
N Cde
CLIENT
N Client
Nom Client Adresse Client Ville VENDEUR
Clef date
Date Mois Anne VILLE
Code vendeur
Nom Vendeur Ville Vendeur Quota Rgion Pays
Nom Ville
Les valeurs des donnes des dimensions de niveau suprieur se rptent : dnormalisation ( lien fonctionnel). Lien fonctionnel entre plusieurs champs dune dimension. Ces champs sont spars dans une mme table (taille limite) pour avoir un temps de rponses rapide.
T19
Le modle floconn
PRODUIT Code produit Nom Produit Desc. Produit Catgorie Prix unitaire CATEGORIE Catgorie Desc. Cat
COMMANDE N Cde Date Cde TABLE DE FAITS N Cde N Client Code vendeur Code produit Clef date Nom Ville Quantit Prix total
CLIENT N Client Nom Client Adresse Client Ville VENDEUR Code vendeur Nom Vendeur Ville Vendeur Quota
ANNEE Anne
PAYS Pays
T20
T21
Estimer le volume du DW
Calculer ou estimer le nombre denregistrements Prendre en compte : La table des faits Les dimensions significatives Les agrgats Les index Saisonnalit des ventes Croissance du CA, des encours, du nombre de points de ventes
T22
Exemples : Grandes distribution : CA annuel : 80 000 M$ Prix moyen dun article dun ticket : 5$ Nbre darticles vendus pour un an : 80 * 109 / 5 = 16 * 109 Volume du DW : 16*109 *3 ans * 24 octets = 1,54 To (1,54*1012 = 1 540 Go ) Tlphonie : Nbre dappels quotidiens : 100 millions Historique : 3 ans * 365 jours= 1 095 jours Volume du DW : 100 millions * 1 095 jours * 24 octets = 3,94 To Cartes de crdit : Nbre de clients : 50 millions Nbre moyen mensuel de transactions : 30 Volume : 50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To
T23
T24
Le dictionnaire (ou rfrentiel) de donnes est constitu de lensemble des mta-donnes. Il renferme des informations sur toutes les donnes du DW. Il renferme galement des informations sur chaque tape lors de la construction du DW ; sur le passage dun niveau de donnes un autre lors de lexploitation du DW. Le rle des mta-donnes est de permettre :
La dfinition des donnes La fabrication des donnes Le stockage des donnes Laccs aux donnes La prsentation des donnes.
T25
Slection des donnes sources Extraction des donnes Transformation Chargement Administration
T26
Les donnes slectionnes seront rorganises pour devenir des informations. La synthse de ces donnes sources a pour but de les enrichir. La dnormalisation des donnes cr des liens entre les donnes et permet des accs diffrents
T27
La slection des donnes utiles partir des BD de production nest pas simple faire . Les donnes sont : htrognes (diffrents SGBD et diffrentes mthodes daccs); diffuses (diffrents environnements matriels et diffrents rseaux interconnects ou non); complexes (diffrents modles logiques et physiques principalement orients vers les traitements transactionnels). La dfinition de la granularit dpend du niveau de raffinement de linformation quon veut obtenir.
T28
T29
T30
T31
Data Warehouse
Bases de production
T32
Data Warehouse
Mta donnes
Bases de production
T33
Transformation
Cest une suite doprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente. Exemple Donns sources Appli 1 : m, f Appli 2 : 1, 0 Appli 3 : Homme, femme donnes cibles m,f m,f m,f
T34
Transformation (suite)
Les donnes doivent alors filtres afin dliminer les donnes aberrantes : donnes sans valeurs avec des valeurs manquantes (exemple de la valeur 99). Souvent dans les bases de production, certaines donnes sont smantiquement fausses. Pour avoir une alimentation de qualit, il faut avoir une bonne connaissance des donnes entreposer et des rgles qui les rgissent. Savoir corriger les donnes pour les doter dun vrai sens smantique. On peut ddoubler des donnes pour gagner au niveau de la cohrence.
T35
Transformation (suite)
Lensemble des donnes sources, aprs nettoyage ou transformation daprs des rgles prcises ou par application de programmes (pour un contrle de vraissemblance par des mthodes statistiques), seront restructures et converties dans un format cible. Il faut synchroniser les donnes pour que les valeurs agrges obtenues soient cohrentes. Avant de passer la phase de chargement.
T36
Chargement
Cest lopration qui consiste charger les donnes nettoyes et prpares dans le DW. Cest une opration qui risque dtre assez longue. Il faut mettre en place des stratgies pour assurer de bonnes conditions sa ralisation et dfinir la politique de rafrachissement. Cest une phase plutt mcanique et la moins complexe.
T37
Data Warehouse
Mta donnes
T38
Administration du DW
La fonction dadministration porte sur un aspect fonctionnel (qualit et la prennit des donnes) mais aussi sur un aspect technique (maintenance, optimisation, scurisation,...) Elle concerne lensemble des tches du processus dentreposage de la slection des donnes de production la mise disposition pour construire les espaces danalyse. Ladministrateur du DW doit matriser la gestion des donnes (donnes, provenance des donnes, mta-donnes). Les donnes agrges sont aussi une production (information) de lentreprise comme les donnes de production (ERP), doivent tre entreposes. Ainsi le dveloppement du DW tmoignera, aussi bien de la production de base que de lactivit informationnelle (pilotage de lentreprise). Les requtes portent plus souvent sur les agrgats que sur les donnes de base. (80% - 20%)
T39
Administration
Le DW est un aspect physique du SI de lentreprise. Il doit tre par consquent volutif. Les donnes doivent donc changer. On doit procder dautres alimentations et donc grer lactualisation des donnes. Il existe des outils qui prennent en charge les tches de rafrachissement des donnes. Ils procdent par replication pour propager les maj effectues dans les BD sources, dans le DW. Le mcanisme de rplication et une opration de copie de donnes dune BD vers une ou plusieurs BD. Les rplications sont alors asymtriques synchrones ou asynchrones ou alors symtriques synchrones ou asynchrones. Le rafrachissement des donnes peut se faire galement par des processus de transformation qui exploitent les mta-donnes.
T40
Data Warehouse
Mta donnes
T41
La restitution
Les data marts
Simples magasins de donnes (Data marts), on y stockera des donnes portant sur une des activits de lentreprise. Ceux sont en quelque sorte des vues mtier. Exemple Data mart Comptabilit, Data mart RH,..... Ces mini DW peuvent alors tre considrs comme des espaces danalyse, du fait que les donnes sont bien moins nombreuses et surtout quelles sont thmatiques. Ils peuvent galement servir de bases de construction des cubes de donnes.
T42
Les applications conues pour des oprations quotidiennes dans les BDs. Ces transactions ncessitent des donnes dtailles et actualiss. Les BD vont de quelques milliers de Mo des Go. . OLAP Les donnes sont historises, rsumes, consolides. Les DW contiennent des donnes sur une longue priode de temps. Les DW vont de centaines de Go des To (Tra octets).
T43
Data Warehouse
Mta donnes
OLAP
T44
T45
Ouest 60 70 120 10
T46
les requtes seront de type : Quelle est le total des ventes dans lEst?. On peut calculer divers totaux. Tables relationnelles : on peut traiter quelques centaines denregistrements par seconde. Tableau multidimensionnel : on peut rajouter en lignes et colonnes plus de 10000 valeurs par seconde. Pour acclrer les temps de rponses, il est prfrable de prcalculer tous les totaux et sous totaux possibles.
T47
Pour le calcul de ces totaux : 28 accs en lecture et 8 accs en criture. Un SGBDR lit 200 enregistrements par seconde et en crit environ 20 par seconde.
T48
La valeur ALL remplace une colonne dagrgats. Magasin Mag1 Mag1 Mag1 Mag1 Mag1 Date 1/2/96 6/2/96 10/2/96 ALL Rayon 010 010 010 010 CA Ventes 3500 2500 2900 8900
Sil y a N attributs concourant la construction du cube : il y aura 2N-1 agrgations. Soit C1, C2, ,CN les cardianlits des N attributs : le cube aura (Ci +1) enregistrements. Dans la tables VENTES si on a 2*3*3 = 18 tuples : dans le cube on aura 3*4*4* = 48 tuples.
T49
Lapproche relationnelle. (MicroStrategy MS ; InformixsMetacube MC , Information Advantage IA) Lensemble des donnes est stock dans une BDR. Les donnes sont sous forme denregistrements. VENTES (Magasin, Rayon, Date, CA Ventes, Nb Client) Select Magasin, Date , Sum(CA Ventes) From VENTES Group By Magasin, Date Nouveaux oprateurs dagrgation :
cube , rollup.
T50
Lapproche multidimensionnelle
Arbor Software : hyperion (Codd & co), Express Oracle , LightShip (de Pilot) Il sagit de stocker les donnes dans des tableaux multidimensionnels. Ces tableaux peuvent tre parses. On y stocke dans les cellules les mesures (valeurs observer), les donnes reprsentant les dimensions sont les coordonnes de ces valeurs.
Un tableau = { cellules } Les cellules contenant les donnes originelles : entres Les totaux calculs sont les sorties Les valeurs des dimensions sont les membres Les donnes dans les cellules reprsentent une variable dimensionne, exemple: CA par Produits et Rgions.
T51
10
10
On peut agrger les produits par catgories ou dtailler les rgions par villes.
T52
BD parse
Plus on a de dimension plus on a de cellules. Une partie des produits est vendue des cellules sans valeur : donnes parse. Exemple : On dispose de 100 000 donnes (eq. Tuples) 4 dimensions ayant une cardinalit de 30 modalits chacune: 30 * 30 * 30 * 30 = 810 000 cellules (dont 710 000 vides : 12,3% seulement sont pleines)
Une BD est considre comme parse si elle a moins de 40% de ses cellules peuples . Techniques de compression des donnes
T53
Roll up
donnes :
forage de
Est
Lopration
du Drill peut se dcliner en plusieurs autres oprations : Drill accross : Drill latral, comparaison sur des mesures dans plusieurs tables de faits ; Drill through : voir linformation travers plusieurs dimensions Reach through : voir linformation en profondeur, jusquaux donnes de base.
T54
Nettoyeurs
Est
T55
Pays
Ventes Rgion
Ville
Pays Ville Client
Ventes District
Client
T56
Nesting
Embotement des dimensions pour une reprsentation en 2-D
1996 Est Clous Ouest Centre Est Vis Ouest Centre Est Boulons Ouest Centre 50 60 100 40 70 80 20 10 30 40 50 90 40 50 110 50 80 1997 60 60 120 1998
Pivoting
Transposition des dimensions
T57
1 Pays
BDM
5 Rgions
500 Villes
BDR
T58
Data Warehouse
Mta donnes
OLAP
Utilisateurs EIS
T59
Tous les outils pouvant synthtiser, explorer, confirmer, expliquer , prdire les donnes sont des outils de restitution
Les requteurs
Les outils graphiques dinterrogations Les outils EIS/SIAD
Les Outils statistiques et le Data Mining danalyse exploiratoire (techniques statistiques, visualisation, recherche dassociations, typologies, rseaux de neurones) danalyse confirmatoire (techniques de rgressions, de segmentations, rseaux de neurones) danalyse de modles prdictifs (techniques de rgressions, de segmentations, rseaux de neurones).
T60