Vous êtes sur la page 1sur 60

O. Boussaid.

Octobre 2000

Les entrepts de donnes

T1

Les entrepts de donnes (Data Warehouses)


Gnralits Dcisionnel ? Quest ce que le Data Warahousing Modlisation des DW Construction d un DW : Alimentation d un DW Administration d un DW La restitution : Les cubes de donnes, OLAP

O. Boussaid. Octobre 2000

Les entrepts de donnes

T2

Les entreprises passent l re de linformation.

Dfi : Transformer leur systme dinformation qui avait une vocation de production un SI dcisionnel dont la vocation de pilotage devient majeure.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T3

Quest ce quun DW ?
Daprs BILL Inmon :

Un DW est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour la prise de dcision.

Thmatiques : thmes par activits majeures ; Intgres : divers sources de donnes ; Non volatiles : ne pas supprimer les donnes du DW ; Historises : trace des donnes, suivre lvolution des indicateurs.

Pb de volumtrie, de stockage, daccs.

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T4

Bases de production

O. Boussaid. Octobre 2000

Les entrepts de donnes

T5

Les bases de production : toutes les sources de donnes (lgales, juridiques, fiscales, politiques, techniques, marketing) Comment organiser ces diffrentes donnes dans un ensemble cohrent afin de procder toutes les analyses ncessaires pour construire les indicateurs indispensables au pilotage de lentreprise ? Par un processus dentreposage de donnes

Data Warehousing

O. Boussaid. Octobre 2000

Les entrepts de donnes

T6

Les diffrentes phases du Data warehousing

Conception Construction Administration Restitution

O. Boussaid. Octobre 2000

Les entrepts de donnes

T7

Conception Il sagit de dfinir la finalit du DW :


Piloter quelle activit de lentreprise ; Dterminer et recenser les donnes entreposer ; Dfinir les aspects techniques de la ralisation ; modle de donnes ; dmarches dalimentation ; stratgies dadministration ; dfinition des espaces danalyse ; mode de restitution,

O. Boussaid. Octobre 2000

Les entrepts de donnes

T8

Construction

Travail technique.

Extraction des donnes des diffrentes BD de production


(internes ou externes)

Nettoyage des donnes, rgles dhomoginisation des donnes


sous formes de mta donnes.

Techniques dalimentation :

Chargement des donnes dans le DW ; Frquences de rafrachissement : par applications d interfaces entre les sources de donnes et le DW ; par serveurs de rplication du SGBD ou par outils spcialiss.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T9

Administration
Elle est constitue de plusieurs tches pour assurer :

la qualit et la prennit des donnes aux diffrents applicatifs ; la maintenance ; la gestion de configuration ; les mises jour ; lorganisation, loptimisation du SI ; la mise en scurit du SI.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T10

Restitution

Cest le but du processus dentreposage des donnes. Elle conditionne le choix de larchitecture du DW et de sa construction. Elle doit permettre toutes la analyses ncessaires pour la construction des indicateurs recherchs.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T11

Architecture Dcisionnelle

Data Warehouse

Bases de production

O. Boussaid. Octobre 2000

Les entrepts de donnes

T12

Conception Il sagit de dfinir la finalit du DW : modle de donnes ;

O. Boussaid. Octobre 2000

Les entrepts de donnes


PRODUIT COMMANDE

T13

Modlisation des DW : Le modle en toile


Code produit
Nom Produit Description Produit TABLE DE FAITS CLIENT Catgorie Description catgorie Prix unitaire DATE

N Cde
Date Cde

N Client
Nom Client Adresse Client Ville VENDEUR

N Cde N Client Code vendeur Code produit Clef date Nom Ville
Quantit Prix total

Clef date
Date Mois Anne

Code vendeur
Nom Vendeur Ville Vendeur Quota

VILLE

Nom Ville
Rgion Pays

O. Boussaid. Octobre 2000

Les entrepts de donnes

T14

Le modle en toile :
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions. Une granularit dfinie par les identifiants dans la table des faits. Avantages :

Facilit de navigation Performances : nombre de jointures limit ; gestion des donnes creuses. Gestion des agrgats Fiabilit des rsultats

Inconvnients :

Toutes les dimensions ne concernent pas les mesures Redondances dans les dimensions Alimentation complexe.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T15

Proprits des mesures


Additivit : somme sur toutes les mesures Exemple : CA ; Quantit vendue, ... Semi-additivit : somme sur certaine mesures : Exemple : nbre de contacts clients, Etats des stocks, ... Non-additivit : pas de somme , recalculer Exemple : encours moyen fin de mois, plus grand CA pour lensemble des magasins

O. Boussaid. Octobre 2000

Les entrepts de donnes

T16

Quelques exemples de modles de DW


Dans la grande distribution : Quelques tables de faits : dtailles et volumineuses Tables de dimensions : Classiques : produit, fournisseur, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, Promotions, .... Rq : Obtenir le plus denregistrements possibles. Dans le secteur des banques : Tables de faits : nombreuses, ddies chaque produit , peu dtailles et peu volumineuses. Tables de dimensions : Classiques : produit, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, .... Rq : Obtenir le plus de donnes (champs) possibles.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T17

Le modle en flocons de neige


Le modle du DW doit tre simple comprendre. On peut augmenter sa lisibilit en regroupant certaines dimensions. On dfinit ainsi des hirarchies. Celles-ci peuvent tre gographiques ou organisationnelles. Exemple : Commune, Dpartement, Rgion, Pays, Continent
Client Pepone Testut Soinin Vepont Martin Elvert Continent Europe Europe Europe Europe Europe Europe Pays France France France France France France Region RhneAlpes RhneAlpes RhneAlpes Ile de France Ile de France Ile de France Dpartement Rhne Rhne Rhne Paris Paris Yvelines Commune Lyon 1 Lyon 2 Lyon 3 Paris 1 Paris 2 Versailles

O. Boussaid. Octobre 2000

Les entrepts de donnes


PRODUIT

T18

COMMANDE

Code produit
Nom Produit Description Produit TABLE DE FAITS Catgorie Description catgorie Prix unitaire DATE

N Cde
Date Cde

N Cde
CLIENT

N Client Code vendeur Code produit Clef date Nom Ville


Quantit Prix total

N Client
Nom Client Adresse Client Ville VENDEUR

Clef date
Date Mois Anne VILLE

Code vendeur
Nom Vendeur Ville Vendeur Quota Rgion Pays

Nom Ville

Les valeurs des donnes des dimensions de niveau suprieur se rptent : dnormalisation ( lien fonctionnel). Lien fonctionnel entre plusieurs champs dune dimension. Ces champs sont spars dans une mme table (taille limite) pour avoir un temps de rponses rapide.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T19

Le modle floconn
PRODUIT Code produit Nom Produit Desc. Produit Catgorie Prix unitaire CATEGORIE Catgorie Desc. Cat

COMMANDE N Cde Date Cde TABLE DE FAITS N Cde N Client Code vendeur Code produit Clef date Nom Ville Quantit Prix total

CLIENT N Client Nom Client Adresse Client Ville VENDEUR Code vendeur Nom Vendeur Ville Vendeur Quota

DATE Clef date Date Mois

MOIS Mois Anne

ANNEE Anne

VILLE Nom Ville Rgion Pays

REGION Rgion Pays

PAYS Pays

O. Boussaid. Octobre 2000

Les entrepts de donnes

T20

Modle floconn = Modle en toile + normalisation des dimension


Lorsque les tables sont trop volumineuses Avantages : rduction du volume, permettre des analyses par pallier (drill down) sur la dimension hirarchise. Inconvnients : navigation difficile ; nombreuses jointures.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T21

Estimer le volume du DW
Calculer ou estimer le nombre denregistrements Prendre en compte : La table des faits Les dimensions significatives Les agrgats Les index Saisonnalit des ventes Croissance du CA, des encours, du nombre de points de ventes

O. Boussaid. Octobre 2000

Les entrepts de donnes

T22

Exemples : Grandes distribution : CA annuel : 80 000 M$ Prix moyen dun article dun ticket : 5$ Nbre darticles vendus pour un an : 80 * 109 / 5 = 16 * 109 Volume du DW : 16*109 *3 ans * 24 octets = 1,54 To (1,54*1012 = 1 540 Go ) Tlphonie : Nbre dappels quotidiens : 100 millions Historique : 3 ans * 365 jours= 1 095 jours Volume du DW : 100 millions * 1 095 jours * 24 octets = 3,94 To Cartes de crdit : Nbre de clients : 50 millions Nbre moyen mensuel de transactions : 30 Volume : 50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To

O. Boussaid. Octobre 2000

Les entrepts de donnes

T23

Alimenter un DW : (Outils ETL)


Le principe de lentreposage des donnes est de rassembler de multiples donnes sources qui souvent sont htrognes en les rendant homognes afin de les analyser. Ce travail dhomoginisation ncessite des rgles prcises servant de dictionnaire (ou de rfrentiel) et qui seront mmorises sous forme de mta-donnes (information sur les donnes). Ces rgles permettent dassurer des tches dadministration et de gestion des donns entreposes.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T24

Le dictionnaire (ou rfrentiel) de donnes est constitu de lensemble des mta-donnes. Il renferme des informations sur toutes les donnes du DW. Il renferme galement des informations sur chaque tape lors de la construction du DW ; sur le passage dun niveau de donnes un autre lors de lexploitation du DW. Le rle des mta-donnes est de permettre :

La dfinition des donnes La fabrication des donnes Le stockage des donnes Laccs aux donnes La prsentation des donnes.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T25

Lalimentation dun DW plusieurs tapes :

est une procdure qui seffectue en

Slection des donnes sources Extraction des donnes Transformation Chargement Administration

O. Boussaid. Octobre 2000

Les entrepts de donnes

T26

Slection des donnes sources


Quelles sont les donnes de productions quil faut slectionner pour alimenter le DW ? Toutes les donnes sources ne sont forcment pas utiles.
Doit-on prendre ladresse complte ou sparer le code postal.

Les donnes slectionnes seront rorganises pour devenir des informations. La synthse de ces donnes sources a pour but de les enrichir. La dnormalisation des donnes cr des liens entre les donnes et permet des accs diffrents

O. Boussaid. Octobre 2000

Les entrepts de donnes


Slection des donnes sources (suite)

T27

La slection des donnes utiles partir des BD de production nest pas simple faire . Les donnes sont : htrognes (diffrents SGBD et diffrentes mthodes daccs); diffuses (diffrents environnements matriels et diffrents rseaux interconnects ou non); complexes (diffrents modles logiques et physiques principalement orients vers les traitements transactionnels). La dfinition de la granularit dpend du niveau de raffinement de linformation quon veut obtenir.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T28

Slection des donnes sources (suite)


Il existe plusieurs niveaux de donnes : Les donnes sont parfois assembles avant dtre injectes dans le DW permettant une vision intgre et transversale de lentreprise. Cette forme de donnes constitue le niveau le plus fin au niveau du DW : ceux sont les donnes de dtail. Elles peuvent tre agrges et constituent ainsi un autre niveau de dtail. Elles seront par la suite structures dans des espaces danalyse (soit des cubes de donnes, soit des data marts). Elles seront finalement un niveau de prsentation, o elles peuvent avoir plusieurs formes (tableaux, graphiques, tableaux de bord, rgles de connaissances...).

O. Boussaid. Octobre 2000

Les entrepts de donnes

T29

Extraction des donnes


Lextraction peut se faire travers un outil dalimentation qui doit travailler de faon native avec les SGBD qui grent les donnes sources. Ou alors crer des pgms extracteurs. Linconvnient de cette approche est le risque de faire des extractions errones, incompltes et qui peuvent biaiser le DW. Il faut grer les anomalies en les traitant et en gardant une trace

O. Boussaid. Octobre 2000

Les entrepts de donnes

T30

Extraction des donnes (suite)


Lextraction doit se faire conformment aux rgles prcises du rfrentiel. Elle ne doit non plus perturber les activits de production. Il faut faire attention aux donnes cycliques. Celles quon doit calculer chaque priode, pour pouvoir les prendre en considration. Lextraction peut se faire en interne selon lhorloge interne ou par un planificateur ou par la dtection dune donne cible (du DW) ; ou en externe par des planificateurs externes. Les donnes extraites doivent tre marques par horodatage afin quelles puissent tre pistes.

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T31

Data Warehouse

Bases de production

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T32

Data Warehouse

Mta donnes

Bases de production

O. Boussaid. Octobre 2000

Les entrepts de donnes

T33

Transformation
Cest une suite doprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente. Exemple Donns sources Appli 1 : m, f Appli 2 : 1, 0 Appli 3 : Homme, femme donnes cibles m,f m,f m,f

O. Boussaid. Octobre 2000

Les entrepts de donnes

T34

Transformation (suite)
Les donnes doivent alors filtres afin dliminer les donnes aberrantes : donnes sans valeurs avec des valeurs manquantes (exemple de la valeur 99). Souvent dans les bases de production, certaines donnes sont smantiquement fausses. Pour avoir une alimentation de qualit, il faut avoir une bonne connaissance des donnes entreposer et des rgles qui les rgissent. Savoir corriger les donnes pour les doter dun vrai sens smantique. On peut ddoubler des donnes pour gagner au niveau de la cohrence.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T35

Transformation (suite)
Lensemble des donnes sources, aprs nettoyage ou transformation daprs des rgles prcises ou par application de programmes (pour un contrle de vraissemblance par des mthodes statistiques), seront restructures et converties dans un format cible. Il faut synchroniser les donnes pour que les valeurs agrges obtenues soient cohrentes. Avant de passer la phase de chargement.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T36

Chargement
Cest lopration qui consiste charger les donnes nettoyes et prpares dans le DW. Cest une opration qui risque dtre assez longue. Il faut mettre en place des stratgies pour assurer de bonnes conditions sa ralisation et dfinir la politique de rafrachissement. Cest une phase plutt mcanique et la moins complexe.

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T37

Data Warehouse

Mta donnes

Bases de production Administrateur

O. Boussaid. Octobre 2000

Les entrepts de donnes

T38

Administration du DW
La fonction dadministration porte sur un aspect fonctionnel (qualit et la prennit des donnes) mais aussi sur un aspect technique (maintenance, optimisation, scurisation,...) Elle concerne lensemble des tches du processus dentreposage de la slection des donnes de production la mise disposition pour construire les espaces danalyse. Ladministrateur du DW doit matriser la gestion des donnes (donnes, provenance des donnes, mta-donnes). Les donnes agrges sont aussi une production (information) de lentreprise comme les donnes de production (ERP), doivent tre entreposes. Ainsi le dveloppement du DW tmoignera, aussi bien de la production de base que de lactivit informationnelle (pilotage de lentreprise). Les requtes portent plus souvent sur les agrgats que sur les donnes de base. (80% - 20%)

O. Boussaid. Octobre 2000

Les entrepts de donnes

T39

Administration
Le DW est un aspect physique du SI de lentreprise. Il doit tre par consquent volutif. Les donnes doivent donc changer. On doit procder dautres alimentations et donc grer lactualisation des donnes. Il existe des outils qui prennent en charge les tches de rafrachissement des donnes. Ils procdent par replication pour propager les maj effectues dans les BD sources, dans le DW. Le mcanisme de rplication et une opration de copie de donnes dune BD vers une ou plusieurs BD. Les rplications sont alors asymtriques synchrones ou asynchrones ou alors symtriques synchrones ou asynchrones. Le rafrachissement des donnes peut se faire galement par des processus de transformation qui exploitent les mta-donnes.

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T40

Data Warehouse

Mta donnes

Data Marts Bases de production Administrateur Utilisateurs Requteurs

O. Boussaid. Octobre 2000

Les entrepts de donnes

T41

La restitution
Les data marts
Simples magasins de donnes (Data marts), on y stockera des donnes portant sur une des activits de lentreprise. Ceux sont en quelque sorte des vues mtier. Exemple Data mart Comptabilit, Data mart RH,..... Ces mini DW peuvent alors tre considrs comme des espaces danalyse, du fait que les donnes sont bien moins nombreuses et surtout quelles sont thmatiques. Ils peuvent galement servir de bases de construction des cubes de donnes.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T42

Les cubes donnes et les technologies OLAP


OLTP

Les applications conues pour des oprations quotidiennes dans les BDs. Ces transactions ncessitent des donnes dtailles et actualiss. Les BD vont de quelques milliers de Mo des Go. . OLAP Les donnes sont historises, rsumes, consolides. Les DW contiennent des donnes sur une longue priode de temps. Les DW vont de centaines de Go des To (Tra octets).

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle

T43

Data Warehouse

Mta donnes

OLAP

Data Marts Bases de production Administrateur Utilisateurs Requteurs

O. Boussaid. Octobre 2000

Les entrepts de donnes

T44

Les 12 rgles dOLAP :


1) une vue multidimensionnelle des donnes. 2) La transparence vis vis de lutilisateur qui doit accder la BD par lintermdiaire doutils simples (tableur, par ex). 3) La BD doit disposer dun modle et doutils permettant daccder de multiples sources, deffectuer les conversions et extractions ncessaire pour alimenter la Base OLAP. 4) Le modle de donnes, le nombre de dimensions ou le nombre de niveaux dagrgation doivent pouvoir changer, sans remettre en cause le fonctionnement de la base. 5) Architecture Client/Serveur. 6) Toutes les dimensions dfinies dans le modle de donnes doivent tre accessibles pour chacune des donnes. 7) Gestion des matrices creuses. Les parties vides du cube multidimensionnel doivent tre stockes de manire ne pas dtriorer les temps daccs. 8) Accessibilit simultanment par plusieurs utilisateurs. 9) Toutes les donnes stockes ou calcules dans le cube doivent tre accessibles et les rgles de gestion doivent toujours sy appliquer. Toutes les tranches de cube doivent tre visualises. 10) Navigation aise dans les donnes pour les utilisateurs, de manire intuitive. 11) Outil de prsentation des donnes. 12) Nombre illimit de dimensions et de niveaux dagrgation.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T45

Reprsentation des donnes


Les donnes sont perues travers plusieurs dimensions. Elles sont qualifies de multidimensionnelles, indpendamment de leur support (tables relationnelles ou tableaux multidimensionnels)
Produit Clous Clous Clous Vis Vis Vis Boulons Boulons Boulons Region Est Ouest Centre Est Ouest Centre Est Ouest Centre Ventes 50 60 100 40 70 80 90 120 140 20 10 30

Est Clous Vis Boulons N et t oyeurs 50 40 90 20

Ouest 60 70 120 10

Cent re 100 80 140 30

Nettoyeurs Est Nettoyeurs Ouest Nettoyeurs Centre

Reprsentation des donnes dans un tableau multidimensionnel

Reprsentation des donnes dans une table relationnelle

O. Boussaid. Octobre 2000

Les entrepts de donnes

T46

les requtes seront de type : Quelle est le total des ventes dans lEst?. On peut calculer divers totaux. Tables relationnelles : on peut traiter quelques centaines denregistrements par seconde. Tableau multidimensionnel : on peut rajouter en lignes et colonnes plus de 10000 valeurs par seconde. Pour acclrer les temps de rponses, il est prfrable de prcalculer tous les totaux et sous totaux possibles.

O. Boussaid. Octobre 2000


Produit Clous Clous Clous Clous Vis Vis Vis Vis Boulons Boulons Boulons Boulons Nettoyeurs Nettoyeurs Nettoyeurs Nettoyeurs Total Total Total Total

Les entrepts de donnes


Region Est Ouest Centre Total Est Ouest Centre Total Est Ouest Centre Total Est Ouest Centre Total Est Ouest Centre Total Ventes 50 60 100 210 40 70 80 190 90 120 140 350 20 10 30 60 200 260 350 810

T47

Est Clous Vis Boulons Nettoyeurs Total 50 40 90 20 200

Ouest 60 70 120 10 260

Centre 100 80 140 30 350

Total 210 190 350 60 810

OLAP consolide entre 20 et 30000 cellules par seconde.

Pour le calcul de ces totaux : 28 accs en lecture et 8 accs en criture. Un SGBDR lit 200 enregistrements par seconde et en crit environ 20 par seconde.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T48

La valeur ALL remplace une colonne dagrgats. Magasin Mag1 Mag1 Mag1 Mag1 Mag1 Date 1/2/96 6/2/96 10/2/96 ALL Rayon 010 010 010 010 CA Ventes 3500 2500 2900 8900

Sil y a N attributs concourant la construction du cube : il y aura 2N-1 agrgations. Soit C1, C2, ,CN les cardianlits des N attributs : le cube aura (Ci +1) enregistrements. Dans la tables VENTES si on a 2*3*3 = 18 tuples : dans le cube on aura 3*4*4* = 48 tuples.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T49

Lapproche relationnelle. (MicroStrategy MS ; InformixsMetacube MC , Information Advantage IA) Lensemble des donnes est stock dans une BDR. Les donnes sont sous forme denregistrements. VENTES (Magasin, Rayon, Date, CA Ventes, Nb Client) Select Magasin, Date , Sum(CA Ventes) From VENTES Group By Magasin, Date Nouveaux oprateurs dagrgation :

cube , rollup.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T50

Lapproche multidimensionnelle
Arbor Software : hyperion (Codd & co), Express Oracle , LightShip (de Pilot) Il sagit de stocker les donnes dans des tableaux multidimensionnels. Ces tableaux peuvent tre parses. On y stocke dans les cellules les mesures (valeurs observer), les donnes reprsentant les dimensions sont les coordonnes de ces valeurs.

Un tableau = { cellules } Les cellules contenant les donnes originelles : entres Les totaux calculs sont les sorties Les valeurs des dimensions sont les membres Les donnes dans les cellules reprsentent une variable dimensionne, exemple: CA par Produits et Rgions.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T51

Reprsentation des donnes dans un cube


Boulons Vis Clous 50 1998 1997 1996 50 70 100 60 10 30 40 20 60 40 40 40 20 70 50 50 60 60 30 20 Est Ouest Sud Nord

10

10

On peut agrger les produits par catgories ou dtailler les rgions par villes.

O. Boussaid. Octobre 2000

Les entrepts de donnes

T52

BD parse
Plus on a de dimension plus on a de cellules. Une partie des produits est vendue des cellules sans valeur : donnes parse. Exemple : On dispose de 100 000 donnes (eq. Tuples) 4 dimensions ayant une cardinalit de 30 modalits chacune: 30 * 30 * 30 * 30 = 810 000 cellules (dont 710 000 vides : 12,3% seulement sont pleines)

Une BD est considre comme parse si elle a moins de 40% de ses cellules peuples . Techniques de compression des donnes

O. Boussaid. Octobre 2000

Les entrepts de donnes


Drill down : Agrgation de donnes
1998 1997 1996 50 Clous Vis Boulons 90 Nettoyeurs 20 Total 10 200 260 Centre 350 Ouest 810 Total 810 120 140 350 30 60 60 350 50 60 40 70 80 190 190 60 100 100 210 210 210

T53

Les diffrents oprations dOLAP

Roll up
donnes :

forage de

Est

Lopration

du Drill peut se dcliner en plusieurs autres oprations : Drill accross : Drill latral, comparaison sur des mesures dans plusieurs tables de faits ; Drill through : voir linformation travers plusieurs dimensions Reach through : voir linformation en profondeur, jusquaux donnes de base.

O. Boussaid. Octobre 2000

Les entrepts de donnes


Slection & projection des donnes
1998 1997 1996 50 Clous Vis Boulons 90 50 60 40 70 80 120 20 Total 10 200 260 Centre 350 Ouest 810 Total 810 140 350 350 30 60 60 190 190 60 100 100 210 210 210

T54

Slice & Dice

Nettoyeurs

Est

O. Boussaid. Octobre 2000

Les entrepts de donnes

T55

Dimension avec des classes : hirarchie


Exemple : Villes -> Rgions -> Pays -> Continent. Les dimensions peuvent tre organise en hirarchie Hirarchies multiples dans une dimension :

Rgion District Client

Pays

Ventes Rgion

Ville
Pays Ville Client

Ventes District

Client

O. Boussaid. Octobre 2000

Les entrepts de donnes

T56

Nesting
Embotement des dimensions pour une reprsentation en 2-D
1996 Est Clous Ouest Centre Est Vis Ouest Centre Est Boulons Ouest Centre 50 60 100 40 70 80 20 10 30 40 50 90 40 50 110 50 80 1997 60 60 120 1998

Pivoting
Transposition des dimensions

O. Boussaid. Octobre 2000

Les entrepts de donnes

T57

Lapproche hybride (HOLAP)


Approche relationnelle : 30% du temps est consacr aux I/O. Approche multidimensionnelle : 20%. (70% calculs et 10% dcompression) La 3 voie prconise consiste utiliser les tables comme structure permanente de stockage des donnes et les tableaux comme structure alors des requtes.
La dmarche consisterait en 3 tapes :

1. Charger les donnes dune table vers


un tableau.

1 Pays

BDM
5 Rgions

2. Calculer le cube de ce tableau selon


les mthodes initialement prsentes.

500 Villes

3. Stocker les rsultats (donnes


agrges) dans un table.
50 000 Clients

BDR

O. Boussaid. Octobre 2000

Les entrepts de donnes


Architecture Dcisionnelle
Utilisateurs SIAD

T58

Data Warehouse

Mta donnes

OLAP

Utilisateurs EIS

Data Mining Data Marts Bases de production Administrateur Utilisateurs Requteurs

O. Boussaid. Octobre 2000

Les entrepts de donnes

T59

Tous les outils pouvant synthtiser, explorer, confirmer, expliquer , prdire les donnes sont des outils de restitution

Les diffrentes techniques de restitution :


La reprsentation cartographique ou par color coding

Les requteurs
Les outils graphiques dinterrogations Les outils EIS/SIAD

Les Outils statistiques et le Data Mining danalyse exploiratoire (techniques statistiques, visualisation, recherche dassociations, typologies, rseaux de neurones) danalyse confirmatoire (techniques de rgressions, de segmentations, rseaux de neurones) danalyse de modles prdictifs (techniques de rgressions, de segmentations, rseaux de neurones).

O. Boussaid. Octobre 2000

Les entrepts de donnes

T60

Merci pour votre attention