Vous êtes sur la page 1sur 93

DATA WAREHOUSES

ARCHITECTURES, FONCTIONNALITES
CONCEPTION
ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI
jalilardighi@yahoo.fr

A. EL OUARDIGHI

Data warehouse

PLA
N
Partie 1: Notions et architectures dun Entrept de donnes
Partie 2: OLAP et Analyse multidimensionnelle
Partie 3: Modlisation et Conception dun Entrept de
donnes
Partie 4: Travaux dirigs de conception
Partie 5: Simulations pratiques

A. EL OUARDIGHI

Data warehouse

Partie 1: Notions et Architecture dun DW


Motivations
Les concepts de Datawarehouse
Diffrence entre OLAP et OLTP
Dfinition et caractristiques dun DW
Notion de Datamart
Architecture dun DW
A. EL OUARDIGHI

Data warehouse

Le Contexte

Besoin: prise de dcisions stratgiques et tactiques

Pourquoi: besoin de ractivit

Qui: les dcideurs (non informaticiens)


Comment: Analyse des donnes disponibles

Qui sont mes


meilleurs
clients?

Quels clients
consomment tel
produit?

A. EL OUARDIGHI

Pourquoi et
comment le
chiffre daffaire
a baiss?

A combien
slvent mes
ventes
journalires?

Data warehouse

Les donnes utilisables par les dcideurs

Donnes oprationnelles (de production)

Bases de donnes (Oracle, SQL Server, MySQL )

Fichiers plats, XML, .

Bulletins de paye, Devis, gestion des commandes

Caractristiques de ces donnes:

Distribues: systmes parpills

Htrognes: systmes et structures de donnes diffrents

Dtailles: organisation des donnes selon les processus fonctionnels

Pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme


transactionnel

Volatiles: pas dhistorisation systmatique

A. EL OUARDIGHI

Data warehouse

Problmatique
Comment

rpondre aux demandes des dcideurs?

En donnant un accs rapide et simple linformation stratgique

En donnant du sens aux donnes

Mettre en place un systme dinformation ddi aux applications


dcisionnelles: Le Datawarehouse (Entrept de donnes)

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes transactionnels

Les outils traditionnels de gestion et dexploitation des donnes sont du type


transactionnel ou OLTP (On-Line Transaction Processing)

Lexploitation de donnes tourn vers la saisie, le stockage, la mise jour, la


scurit et lintgrit des donnes.

Le systme transactionnel est dvelopp pour grer les transactions


quotidiennes

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes transactionnels

Ces bases de donnes supportent habituellement des applications particulires


telles que les inventaires de magasins, les rservations dhtel, etc

Le contenu est fait de donnes actuelles, pas darchives

Les donnes sont trs dtailles (dtails de chacune des transactions)

La mise jour seffectue par de nouvelles transactions

Trs souvent plusieurs de ces systmes existent indpendamment les uns des
autres

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Oprations

dans les systmes transactionnels

Ajout

Effacement

Mise jour des enregistrements

Requtes simples
Interrogations et modifications frquentes des donnes par de nombreux
utilisateurs

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes dcisionnels

Le terme dcisionnel Business Intelligence couvre l'ensemble des


technologies permettant en bout de chane d'apporter une aide la dcision.

SI capable d'agrger les donnes internes ou externes et de les transformer en


information servant une prise de dcision rapide.

SI capable de rpondre certains types de questions:

Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans


la rgion C ?

Comment se comporte le produit X par rapport au produit Y?

Quel type de client peut acheter le produit X?

Est-ce qu'une baisse de prix de 10% par rapport la concurrence ferait


redmarrer les ventes du produit X ?

A. EL OUARDIGHI

Data warehouse

10

Systmes transactionnels vs Systmes dcisionnels

Ces exemples mettent en vidence les faits suivants:

Les questions doivent pouvoir tre formules dans le langage de lutilisateur


en fonction de son secteur dactivit:

La prvision des interrogations est difficile car elles sont du ressort de


lutilisateur.
Les questions vont varier selon les rponses obtenus:

Service marketing, Service conomique, service relation clients

Si le produit X sest vendu moins bien que lanne prcdente, il va tre


utile de comprendre les raisons: Dtailler les ventes par rgion par type de
magasin,

Des questions ouvertes vont ncessiter la mise en place de mthodes


dextraction dinformations

A. EL OUARDIGHI

Data warehouse

11

Systmes transactionnels vs Systmes dcisionnels


Des donnes aux dcisions

Donnes

Points de ventes, gographiques, dmographiques,

Informations
I vit dans R, I est g de A,

Connaissances

Dans X%, le produit Y est vendu en mme temps que le produit Z,

Dcisions

A. EL OUARDIGHI

Lancer la promotion de Y & Z dans R auprs des clients plus gs que A, ...

Data warehouse

12

Applications transactionnelles v.s


Applications dcisionnelles
Les applications transactionnelles sont constitues de traitements
factuels de type OLTP ( On Line Transaction Processing)
Les applications d'aide la dcision sont constitues de
traitements ensembliste de type OLAP: On Line Analytical Processing

A. EL OUARDIGHI

Data warehouse

13

Diffrence entre OLTP et OLAP


Oriente application
Structure statique

Orientes sujet
Structure volutive

Donnes

Dtailles
Actuelles
Peuvent tre mises jour
Accessibles de faon individuelle

Rsumes, agrges
Historiques
Pas de mises jour
Accessibles de faon ensembliste

Utilisateur
s

Servent les agents oprationnels

Servent les managers

Traites de faon rptitive


Requtes simples
Sensibles aux performances

Traites de faon heuristiques


Requtes complexes
Non sensibles aux performances

Des milliers
100 Mo - Go

Des centaines
100 Go -To

Conception

Utilisation

Nb Utilisat.
Taille BD
A. EL OUARDIGHI

Data warehouse

14

Incompatibilits des deux activits


Les deux activits (OLTP & OLAP) ne peuvent co-exister sur des
donnes dans le mme systme dinformation: leurs objectifs de
performance sont exactement opposs:
Les requtes complexes et lourdes dgradent les performances des
systmes transactionnels,
Les donnes temporelles sont rparties entre donnes actuelles et
donnes archives, rendant la vue historique des donnes trs difficile
ou impossible,

Le support efficace dune activit OLAP ncessite la constitution


dun systme dinformation propre: Le Datawarehouse
A. EL OUARDIGHI

Data warehouse

15

Naissance du
Datawarehouse

A. EL OUARDIGHI

Data warehouse

16

Datawarehouse : Dfinition
Dfinition selon Bill Inmon:
Collection de donnes orientes sujets, intgres, non volatiles et
historises, organises pour le support du processus daide la
dcision
Base de donnes dans laquelle sont dposes aprs nettoyage et
homognisation les informations en provenance des diffrents
systmes de production de lentreprise OLTP

A. EL OUARDIGHI

Data warehouse

17

Caractristiques des donnes d'un


DW
Orientes sujet

Organises autour de sujets ou thmes majeurs de lentreprise

Donnes pour lanalyse et la modlisation en vue de laide la


dcision, et non pas pour les oprations et transactions journalires

Vue synthtique des donnes selon les sujets intressant les dcideurs

A. EL OUARDIGHI

Data warehouse

18

Caractristiques des donnes d'un


DW
Intgres

Construit en intgrant des sources de donnes multiples et


htrognes

A. EL OUARDIGHI

BD relationnelles, fichiers, enregistrements de transactions

Les donnes doivent tre mises en forme et unifies afin davoir un


tat cohrent
Phase la plus complexe (60 90 % de la charge totale dun projet
DW)

Data warehouse

19

Caractristiques des donnes d'un


DW
Historises

Fournies par les sources oprationnelles

Matire premire pour l'analyse

Stockage de l'historique des donnes, pas de mise jour

Un rfrentiel temps doit tre associ aux donnes

Non volatiles

Consquence de lhistorisation

Une mme requte effectue intervalle de temps, en prcisant la


date rfrence de linformation donnera le mme rsultat

Pas de mises jour des donnes dans le DW

A. EL OUARDIGHI

Data warehouse

20

Donnes
multidimensionnelles
Notion de dimension

Cest une catgorie linguistique selon laquelle les donnes sont


organises:

A. EL OUARDIGHI

Nom dun attribut

Valeur dun attribut

Data warehouse

21

Reprsentatio
n

A. EL OUARDIGHI

DureMoy

Dpart.

5
5
18
7
12
8
9
15
18
12
22
25

Info
Phys
Philo
Droit
Info
Phys
Philo
Droit
Info
Phys
Philo
Droit

Mois
Janv
Janv
Janv
Janv
Fvr
Fvr
Fvr
Fvr
Mars
Mars
Mars
Mars

Anne
1998
1998
1998
1998
1998
1998
1998
1998
1998
1998
1998
1998

Data warehouse

22

... Autres reprsentations

1998
Info
Phys
Philo
Droit

A. EL OUARDIGHI

Janv

Fvr

Mars

5
5
18
7

12
8
9
15

18
12
22
25

Data warehouse

23

... Autres reprsentations

1998

Droit

A. EL OUARDIGHI

Philo

Phys

Info

v
n
a

30
25
20
15
10
5
s
ar

Data warehouse

24

... Autres reprsentations

1995
1996
1997
1998 7
18
7
18
Janv
Fvr
Mars

A. EL OUARDIGHI

Droit Philo Phys Info

5
5

5
5

12
18

15

12

25

22

12

18

Data warehouse

25

Notion de
Datamart
Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet
unique.

A. EL OUARDIGHI

Data warehouse

26

Notion de
Datamart

Caractristiques:

Orient vers un sujet unique

Donnes fortement agrges

A. EL OUARDIGHI

Dont l'une des dimensions indique souvent le temps

Lien dynamique avec le DW

Le DW joue le rle de source et d'historique pour le Datamart

Organisation multidimensionnelle (cubique)

Ex: comportement de la clientle

Association entre valeur agrge et valeur dtaille

Interfaces simples et conviviales

Data warehouse

27

Architecture gnrale

A. EL OUARDIGHI

Data warehouse

28

Les flux de donnes

Flux entrant

Extraction: multi-source, htrogne

Transformation: filtrer, trier, homogniser, nettoyer

Chargement: insertion des donnes dans lentrept

Flux sortant:

A. EL OUARDIGHI

Mise disposition des donnes pour les utilisateurs finaux

Data warehouse

29

Les diffrentes zones de larchitecture

Zone de prparation (Staging area)

Zone temporaire de stockage des donnes extraites


Ralisation des transformations avant linsertion dans le DW:

Nettoyage
Normalisation

Donnes souvent dtruites aprs chargement dans le DW

Zone de stockage (Datawarehous, Datamart)

On y transfre les donnes nettoyes


Stockage permanent des donnes

Zone de prsentation

Donne accs aux donnes contenues dans le DW


Peut contenir des outils danalyse programms:

A. EL OUARDIGHI

Requtes / Rapports
Analyse (OLAP), Tableaux de bords
Datamining
Data warehouse

30

Exemple: un DW dans les


tlcoms
Sujets

Suivi du march: lignes installes/ dsinstalles, services et options


choisis, rpartition gographique, rpartition entre public et
diffrents secteurs d'organisations

Comportement de la clientle

Comportement du rseau

Historique

5 ans pour le suivi du march


1 an pour le comportement de la clientle
1 mois pour le comportement du rseau

Sources

A. EL OUARDIGHI

Fichiers clients labors par les agences


Fichiers de facturation
Data warehouse

31

Requte
s
Comportement clientle

Nombre moyen d'heures par client, par mois et par rgion

Rpartition des appels clients sur la journe

Nombre moyen de numros appels

Dure moyenne d'une communication urbaine par ville

Dure moyenne d'une communication internationale

Etc

A. EL OUARDIGHI

Data warehouse

32

Les domaines dapplication du


dcisionnel
La gestion de la relation client: (CRM) est lun des premiers
champs dapplication de la Business Intelligence.
Banque: Risques dun prt, profils des solvables et des non
solvables
Commerce: Ciblage de clientle, Dterminer des promotions, les
prvisions des ventes, loptimisation des territoires
Logistique: Adquation demande/production
Assurance: Risque li un contrat dassurance
La direction marketing: pour le ciblage, le pilotage de gamme, les
applications de gomarketing, de fidlisation clients
Les ressources humaines: pour la gestion des carrires,
A. EL OUARDIGHI

Data warehouse

33

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Oprations OLAP
Outils OLAP

A. EL OUARDIGHI

Data warehouse

34

OLAP

Il sagit dune catgorie de logiciels axs sur lexploration et lanalyse rapide


des donnes selon une approche multidimensionnelle plusieurs niveaux
dagrgation .

OLAP vise assister lusager dans son analyse en lui facilitant lexploration de
ses donnes et en lui donnant la possibilit de le faire rapidement.

Lusager na pas matriser des langages dinterrogation et des interfaces


complexes

Lusager interroge directement les donnes, en interagissant avec celles-ci

A. EL OUARDIGHI

Data warehouse

35

Modle conceptuel
Approche multidimensionnelle

Souvent reprsents par une structure plusieurs dimensions


Une dimension est un attribut ou un ensemble dattributs:

Les cellules contiennent des donnes agrges appeles Faits ou Indicateurs:

Temps
Gographie
Produits
Clients
Nombre dunits vendues
Chiffre dAffaire
Cot

Reprsentations:

Relations,

Cube de donnes,

hyper cube de donnes

A. EL OUARDIGHI

Data warehouse

36

Modle conceptuel
Vue multidimensionnelle:

A. EL OUARDIGHI

Data warehouse

37

Agrgation des donnes


Plusieurs niveaux dagrgation

Les donnes peuvent tre groupes diffrents niveaux de granularit

Les regroupements sont pr-calculs,

Par exemple, le total des ventes pour le mois dernier calcul


partir de la somme de toutes les ventes du mois.

Granularit : niveau de dtail des donnes emmagasines dans un


Datawarehouse.

A. EL OUARDIGHI

Data warehouse

38

Granularit de la table de faits


Rpondre la question :

Que reprsente un enregistrement de la table de faits?

La granularit dfinit le niveau de dtails de la table de faits:

Exemple: une ligne de commande par produit, par client et par jour

Prcision des analyses

Finesse

Taille de lentrept

A. EL OUARDIGHI

Data warehouse

39

Granularit des
dimensions
Granularit des dimensions

Une dimension contient des membres organiss en hirarchie

Chacun des membres appartient un niveau hirarchique (ou niveau de


granularit) particulier

Granularit dune dimension : nombre de niveaux hirarchiques

A. EL OUARDIGHI

Data warehouse

40

OLAP et le principe dagrgation

A. EL OUARDIGHI

Data warehouse

41

Architectures OLAP

Trois possibilits pour la modlisation multidimensionnelle:

ROLAP : Relationnel On-line Analytical Processing

MOLAP: Multidimensionnel On-line Analytical Processing

HOLAP: Hybride On-line Analytical Processing

A. EL OUARDIGHI

Data warehouse

42

Architectures OLAP
Architecture ROLAP:

Donnes stockes dans une base de donnes relationnelles

Des vues sont utilises pour la reprsentation multidimensionnelle

Les requtes OLAP sont traduites en SQL

Avantages: Souplesse, volution facile, permet de stocker de gros


volumes.

Inconvnients: Peu efficace pour les calculs complexes

Exemple de moteur ROLAP:

A. EL OUARDIGHI

Mondrian (Pentaho)

Data warehouse

43

Architectures OLAP
Architecture MOLAP:

Modlisation directe du cube

Ces cubes sont implments comme des matrices plusieurs dimensions

Avantage: Accs aux donnes directs, rapide

Inconvnients: ne supporte pas de trs gros volumes de donnes

Exemple de moteur MOLAP:

Microsoft Analysis Services

Hyperion

A. EL OUARDIGHI

Data warehouse

44

Architectures OLAP
Architecture HOLAP:

MOLAP + ROLAP

Donnes stockes dans des tables relationnelles

Donnes agrges stockes dans des cubes.

A. EL OUARDIGHI

Data warehouse

45

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Oprations OLAP
Outils OLAP

A. EL OUARDIGHI

Data warehouse

46

Oprations sur la structure des cubes


Pivot (Rotation)
Switch (Permutation)
Split (Dcomposition)

A. EL OUARDIGHI

Data warehouse

47

Pivot: Rotation par rapport lun des axes de dimensions

Droit Philo Phys Info

Droit Philo Phys Info


1996 18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
8
5
5
5 17
7
18
5
5
Janv
Fvr
Mars

12

15

12

25

22

12

18 18

Janv
7
18 5
5
Fvr 15 9
5
12
8
12
Mars 25 2
12 18
8
18
17 15
1996 25 22 12 18
1997
1998

<>

<>

<>

<>

<>

<>

25

Pivot

A. EL OUARDIGHI

Data warehouse

48

Swich: Permutation de valeurs de dimensions

Droit Philo Phys Info


1996 18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
8
5
5
5 17
7
18
5
5
Janv
Fvr
Mars

15
25

9
22

12

12

12

18 18

Droit Philo Info Phys


1996 18 24
15
7
7
1997 9
12
8
25
25 <>
1998 7
8
5
5
7
18
5
5 5 <> <>
Janv
Fvr
Mars

15

12

25

22

18

12 12

<>

Switch

A. EL OUARDIGHI

Data warehouse

49

Split:
Dcomposition
Droit Philo Phys Info
1996
18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
1
5
5
5 17
7
18
5
5
Janv
Fvr
Mars

Info

15

12 12 6

25

22

12

18 18

1998 1997 1996

Droit 1998 1997 1996

Sp
lit

Phys 1998 1997 1996

Janv

18

Fvr

15

<>

<>

Mars 25

<>

<>

Philo 1998 1997 1996

Janv

15

Janv

25

Janv

18

12

24

Fvr

12

<>

<>

Fvr

<>

<>

Fvr

<>

<>

Mars 18

<>

<>

Mars 12

<>

<>

Mars 22

<>

<>

A. EL OUARDIGHI

Data warehouse

50

Oprations sur le contenu des cubes

Roll-up (passage au grain suprieur)


Drill-down (passage au grain infrieur)
Slice (Restriction)
Dice (Projection)

A. EL OUARDIGHI

Data warehouse

51

Changement de granule (Roll-up / Drill-down)


d e)

Droit Philo Phys Info

Priode 11,3 18 12,3 9,3


9,3
11,3
18
12,3
9,3
p
Janv
ll-u
o
R
Fvr <> <> <> 18 18
Mars <> <> <> 10,6 10,6
Droit Philo Phys Info
1996 18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
8
5
5
5 17
7
18
5
5
Roll-up (*.)
Janv
8
12
6
15
9
8
12
Fvr
Mars 25 22 12 18 18
Droit Philo Phys Info
1996
16
1997
10,3 16
1998 15,6 16,3 8,3 11,6
rio

(P

13,5

13,5

13

,5

ll
Ro

-u

)
im
Tr
p(

A. EL OUARDIGHI

Trimestre 1 15,6 16,3 8,3 11,6


Data warehouse

52

Restriction (Slice)
Sapplique sur les valeurs du cube ou les valeurs des dimensions

Droit Philo Phys Info


1996
18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
8
5
5
7
18
5
5 5 17
Janv
Fvr
Mars

12

15

12

25

22

12

18 18

A. EL OUARDIGHI

Droit Philo
1997 9
12
12
1998 7
8
18
<>
7
18
Janv
9 9
Fvr 15

Data warehouse

53

Projection (Dice)
Rduit le nombre de dimension

Droit Philo Phys Info


1996 18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
1
5
5
7
18
5
5 5 17
Janv
Fvr
Mars

12

15

12

25

22

12

18 18

A. EL OUARDIGHI

Dice

1996
1997 16
13,5
1998
8,7

Janv 12,6
Fvr 14,6
Mars 22,3

<>
<>
<>
<>

Data warehouse

54

Composition doprations (Slice & Dice)

Slice
Droit Philo Phys Info
1996 18 24 7
15
1997 9
15
12 25
8
1998 7
8 25
1
5
5
5 17
7
18
5
5
Janv
8
12
6
9
8
12
Fvr 15
Mars 25 22 12 18 18

A. EL OUARDIGHI

Droit Philo
1997 9
12
12
1998 7
1
18
7
18
<>
Janv
9 9
Fvr 15

Dice
Droit Philo
1997 9,5 10
1998 11 13,5
11 13,5

Data warehouse

55

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Oprations OLAP

Outils OLAP

A. EL OUARDIGHI

Data warehouse

56

Outils OLAP
Exemples doutils OLAP

Exemples de moteurs R-OLAP : Microsoft Analysis Services, Oracle 10g,


MetaCube d'Informix, Mondrian de Pentaho et DSS Agent de MicroStrategy

Exemple de moteurs MOLAP : Board M.I.T., Essbase, IBM TM1, Jedox Palo,
icCube server, Infor Alea, Microsoft Analysis Services, Oracle OLAP.

Exemple de moteur HOLAP : Oracle OLAP, Microsoft Analysis Services

A. EL OUARDIGHI

Data warehouse

57

Partie 3: Modlisation et Conception dun DW

Conception d'un DW
Etude pralable
Modlisation
Alimentation
Restitution

A. EL OUARDIGHI

Data warehouse

58

Construction dun Datawarehouse


Caractristiques:

Le Datawarehouse est diffrent des bases de donnes de production:

Les besoins pour lesquels on veut le construire sont diffrents

Il contient des informations historises, organises selon les mtiers de


lentreprise pour le processus daide dcision

Le Datawarehouse nest pas un produit ou un logiciel mais un environnement,


qui se btit et ne sachte pas.

A. EL OUARDIGHI

Data warehouse

59

Construction dun Datawarehouse

Phases de construction dun DW:

Les phases construction dun Datawarehouse:

Ltude pralable qui va dfinir les objectifs, la dmarche suivre, le retour


sur investissement,

Ltude du modle de donnes qui reprsente le DW conceptuellement et


logiquement

Ltude de lalimentation du Datawarehouse

A. EL OUARDIGHI

Data warehouse

60

Partie 3: Modlisation et Conception dun DW

La conception d'un DW

Etude pralable
Modlisation
Alimentation
Restitution

A. EL OUARDIGHI

Data warehouse

61

Etude pralable
Etude des besoins:

Dfinir les objectifs du DW

Dterminer le contenu du DW et son organisation, daprs:

Les rsultats attendus par les utilisateurs,

Les requtes quils formuleront,

Les projets qui ont t dfinie

Recenser les donnes ncessaires un bon fonctionnement du DW:

Recenser les donnes disponibles dans les bases de production

Identifier les donnes supplmentaires requises

A. EL OUARDIGHI

Data warehouse

62

Etude pralable
Etude des besoins:

Choisir les dimensions

Choisir les mesures de fait

Typiquement: le temps, le client, le produit, le magasin...

De prfrences des quantits numriques additifs

Choisir la granularit des faits

A. EL OUARDIGHI

Niveau de dtails des dimensions

Lunit de temps doit-elle tre le jour, la semaine?

Rcapitulatifs journaliers, mensuels

Data warehouse

63

Etude pralable
Cots de dploiement:

Ncessite des machines puissantes, souvent une machine parallle

Capacit de stockage trs importante (historisation des donnes)

Evaluer la capacit de stockage

Equipes de maintenance et dadministration

Les cots des logiciels

Les logiciels dadministration du DW

Les outils ETL (Extract-Transform- Loading)

Les outils dinterrogation et de visualisation

Les outils de Datamining

A. EL OUARDIGHI

Data warehouse

64

Partie 3: Modlisation et Conception dun DW

La conception d'un DW
Etude pralable

Modlisation
Alimentation
Restitution

A. EL OUARDIGHI

Data warehouse

65

Modles de donnes
Niveau conceptuel:

Un DW est bas sur une modlisation multidimensionnelle qui reprsente les


donnes dans un cube

Un cube permet de voir les donnes suivant plusieurs dimensions:

Tables de dimensions

La table des faits contient les mesures et les cls des dimensions

A. EL OUARDIGHI

Data warehouse

66

Table de faits

Table principale du modle dimensionnel

Contient les donnes observables (les faits) sur le sujet tudi selon divers axes
danalyse (les dimensions)

Table de faits des ventes


Cls trangres
vers les dimensions

Faits

A. EL OUARDIGHI

Cl date (CE)
Cl produit (CE)
Cl magasin (CE)
Quantit vendue
Cot
Montant des ventes

Data warehouse

67

Table de faits (suite)


Fait:
Ce que lon souhaite mesurer

Quantits vendues, montant des ventes

Trois types de faits:

Additif

Semi additif

Non additif

A. EL OUARDIGHI

Data warehouse

68

Typologie des faits


Additif: additionnable suivant toutes les dimensions
Quantits vendues, chiffre daffaire
Peut tre le rsultat dun calcul:

Bnfice = montant vente cot

Semi additif: additionnable suivant certaines dimensions


Solde dun compte bancaire:

Pas de sens dadditionner sur les dates

sur les comptes: on connat ce que nous possdons en banque

Non additif: fait non additionnable quelque soit la dimension


Prix unitaire: laddition sur nimporte quelle dimension donne un nombre
dpourvu de sens
A. EL OUARDIGHI

Data warehouse

69

Table de dimension

Axe danalyse selon lequel vont tre tudies les donnes observables (faits)

Contient le dtail des dimensions

Dimension produit
Cl de substitution

Attributs de la
dimension

A. EL OUARDIGHI

Cl produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Emballage
Poids

Data warehouse

70

volution des dimensions

Dimensions volution lente


Dimensions volution rapide

A. EL OUARDIGHI

Data warehouse

71

Dimensions volution lente

Un client peut se marier, avoir des enfants

Un produit peut changer de noms ou de formulation:

Raider en Twix

yaourt la vanille en yaourt saveur vanille

Gestion de la situation, 3 solutions:

crasement de lancienne valeur

Ajout dun nouvel enregistrement

Ajout dun nouvel attribut

A. EL OUARDIGHI

Data warehouse

72

Dimensions volution lente 1/3


crasement de lancienne valeur :

Correction des informations errones

Avantage:

Facile mettre en uvre

Inconvnients:

Perte de la trace des valeurs antrieures des attributs

Perte de la cause de lvolution dans les faits mesurs

Cl produit

Description du produit

Groupe de produits

12345

Intelli-Kids

Logiciel
Jeux ducatifs

A. EL OUARDIGHI

Data warehouse

73

Dimensions volution lente 2/3


Ajout dun nouvel enregistrement:

Utilisation dune cl de substitution

Avantage:

Permet de suivre lvolution des attributs

Inconvnients:

Accroit le volume de la table

Cl produit

Description du produit

Groupe de produits

12345

Intelli-Kids

Logiciel

25963

Intelli-Kids

Jeux ducatifs

A. EL OUARDIGHI

Data warehouse

74

Dimensions volution lente 3/3


Ajout dun nouvel attribut:

Valeur origine/valeur courante

Avantage:

Avoir deux visions simultanes des donnes ou comme si le changement


navait pas eu lieu

Inconvnients:

Inadapt pour suivre plusieurs valeurs dattributs intermdiaires

Cl produit

Description du
produit

Groupe de
produits

Nouveau groupe de
produits

12345

Intelli-Kids

Logiciel

Jeux ducatifs

A. EL OUARDIGHI

Data warehouse

75

Dimensions volution rapide


Dimensions volution rapide

Subit des changements trs frquents (tous les mois) dont on veut prserver
lhistorique

Solution: isoler les attributs qui changent rapidement

A. EL OUARDIGHI

Data warehouse

76

Dimensions volution rapide


Dim client
Dim client

Faits

Cl_client

Cl_client

Cl_client

Nom

Faits

Nom

Prnom

Cl_client

Adresse

Cl_dmog

Prnom
Adresse
Date_nais

Date_naissance

Dim_dmographique

Revenus

Cl_dmog

Niveau_tude

Revenus

Nb_enfants

Niveau_tude

Statut_marital

Nb_enfants

Profil_financier

Statut_marital

Profil_achat

Profil_financier
Profil_achat

A. EL OUARDIGHI

Data warehouse

77

Les schmas de rfrence


Niveau Logique:

Plusieurs schmas types sont proposs pour reprsenter un DW:

Schma en toile;

Schma en flocon;

Schma en constellation.

A. EL OUARDIGHI

Data warehouse

78

Schma en toile

Une table de faits : identifiants des tables de dimension ; une ou plusieurs


mesures .

Plusieurs tables de dimension : descripteurs des dimensions.

A. EL OUARDIGHI

Data warehouse

79

Schma en flocons

Raffinement du schma toile avec des tables normalises par dimensions.

A. EL OUARDIGHI

Data warehouse

80

Modle en constellation

Consiste fusionner plusieurs modles en toile qui utilisent des dimensions


communes

Un modle en constellation comprend donc plusieurs tables de faits et des


tables de dimensions communes ou non ces tables de faits.

A. EL OUARDIGHI

Data warehouse

81

Partie 3: Modlisation et Conception dun DW

Conception d'un DW
Etude pralable
Modlisation

Alimentation
Restitution

A. EL OUARDIGHI

Data warehouse

82

Alimentatio
n

Lalimentation est la procdure qui permet de transfrer des donnes du


systme oprationnel vers le DW

La conception de cette opration est une tche complexe

Elle doit tre faite en collaboration avec ladministrateur des bases de


productions

Il est ncessaire de dterminer:

Quelles donnes seront charges

Les transformations et les vrifications ncessaires

La priodicit et le moment de transferts des donnes

A. EL OUARDIGHI

Data warehouse

83

Alimentation du DW
Alimentation dun DW (ETL)

Extraction (Extract)

Transformation (Transform)

Filtrer

Homogniser

Nettoyer

Etc

Chargement (Loading)

A. EL OUARDIGHI

Data warehouse

84

Dfinition dun ETL


Alimentation dun DW (ETL)

Offre un environnement de dveloppement

Offre des outils de gestion des oprations et de maintenance

Permet de dcouvrir, analyser et extraire les donnes partir de sources


htrognes

Permet de nettoyer et standardiser les donnes

Permet de charger les donnes dans un entrept

A. EL OUARDIGHI

Data warehouse

85

Extractio
n
Extraction:

Depuis diffrentes sources

Base de donnes,

Fichiers,

Bases propritaires

Utilise divers connecteurs :

ODBC,

SQL natif,

Fichiers plats

Priodique et Rpte

Difficult:

A. EL OUARDIGHI

Ne pas perturber les applications OLTP


Data warehouse

86

Transformation
Cest une suite doprations qui a pour but de rendre les donnes
cibles homognes et puissent tre traites de faon cohrente.

Unification des modles

Convertir / uniformiser les noms des attributs

Uniformiser les valeurs d attributs

Nettoyer ( Valeurs manquantes, aberrantes)

A. EL OUARDIGHI

Data warehouse

87

Chargement

Cest lopration qui consiste charger les donnes nettoyes et prpares


dans le DW.

Insrer ou modifier les donnes dans lentrept

Utilisation de connecteurs:

ODBC,

SQL natif,

Fichiers plats

Cest une opration qui peut tre longue

Mettre en place des stratgies pour assurer de bonnes conditions sa


ralisation

Dfinir la politique de rafrachissement.

A. EL OUARDIGHI

Data warehouse

88

Aperu dun ETL

A. EL OUARDIGHI

Data warehouse

89

Outils ETL
Exemples doutils ETL

BusinessObjects, Data Integrator,


http://www.businessobjects.fr/

Oracle Corporation, Warehouse builder,


http://www.oracle.com/technology/products/warehouse/index.html/

IBM, Websphere Datastage ,


http://www.ascential.com/products/datastage.html

A. EL OUARDIGHI

Data warehouse

90

Partie 3: Modlisation et Conception dun DW

Conception d'un DW
Etude pralable
Modlisation
Alimentation

Restitution

A. EL OUARDIGHI

Data warehouse

91

Restitution
Requteurs : Donne une rponse une question plus ou moins
complexe (type SQL)
EIS (Executive Information Systems): Outils de visualisation
et de navigation dans les donnes
Applications spcialises : applications dveloppes
spcialement pour les besoins de lentreprise
Tableaux de bord
Data Mining : Outils volus de prdiction, simulation, ...

A. EL OUARDIGHI

Data warehouse

92

Restitution

A. EL OUARDIGHI

Data warehouse

93