Vous êtes sur la page 1sur 97

COURS: DATAWAREHOUSE/DATAMINING

Pr. A. EL OUARDIGHI jalilardighi@menara.ma

Cours:
Cours Datawarehouse Travaux dirigs Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining

Evaluation:
2 Contrles continus:
1 contrle continu crit en Datawarehouse 1 contrle continu en Datamining

1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse)


A. EL OUARDIGHI
Data warehouse 1

Chane de lextraction des connaissances partir dune base de donnes

Zone de prparation des donnes


A. EL OUARDIGHI

Zone de prsentation des donnes

Outils daccs aux donnes


Data warehouse 2

DATA WAREHOUSES
ARCHITECTURES, FONCTIONNALITES CONCEPTION

ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI jalilardighi@menara.ma

A. EL OUARDIGHI

Data warehouse

PLAN
Partie 1: Notions et architectures dun DW Partie 2: OLAP et Analyse multidimensionnelle Partie 3: Modlisation et Conception dun DW Partie 4: Travaux dirigs

A. EL OUARDIGHI

Data warehouse

Partie 1: Notions et Architecture dun DW


Les concepts de datawarehouse Diffrence entre OLAP et OLTP

Contenu d'un DW
Architecture dun DW

Notion de Datamart

A. EL OUARDIGHI

Data warehouse

Historique
Phase 1 Systme de gestion de bases de donnes: modle relationnel Feuille de calcul & tableur
Phase 2

Systme interactif daide la dcision


Systme daide aux dirigeants

Phase 3 Entrept de donnes (Datawarehouse) Exploitation des donnes (Datamining)

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes transactionnels
Les outils traditionnels de gestion et dexploitation des donnes sont du type transactionnel ou OLTP (On-Line Transaction Processing) Lexploitation de donnes tourn vers la saisie, le stockage, la mise jour, la scurit et lintgrit des donnes. Le systme transactionnel est dvelopp pour grer les transactions quotidiennes Conserver la cohrence de la BD, cest lobjectif et la difficult principale pour linformatique de production

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes transactionnels
Ces bases de donnes supportent habituellement des applications particulires telles que les inventaires de magasins, les rservations dhtel, etc Le contenu est fait de donnes actuelles, pas darchives Les donnes sont trs dtailles (dtails de chacune des transactions) La mise jour seffectue par de nouvelles transactions Trs souvent plusieurs de ces systmes existent indpendamment les uns des autres

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Oprations dans les systmes transactionnels
Ajout Effacement

Mise jour des enregistrements


Requtes simples Interrogations et modifications frquentes des donnes par de nombreux utilisateurs Ncessit de conserver la cohrence des donnes Les systmes transactionnels garantissent la cohrence des donnes

A. EL OUARDIGHI

Data warehouse

Systmes transactionnels vs Systmes dcisionnels


Systmes dcisionnels
Le terme dcisionnel Business Intelligence couvre l'ensemble des technologies permettant en bout de chane d'apporter une aide la dcision. SI capable d'agrger les donnes internes ou externes et de les transformer en information servant une prise de dcision rapide.

SI capable de rpondre certains types de questions:


Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans la rgion C ? Comment se comporte le produit X par rapport au produit Y?

Quel type de client peut acheter le produit X?


Est-ce qu'une baisse de prix de 10% par rapport la concurrence ferait redmarrer les ventes du produit X ?

A. EL OUARDIGHI

Data warehouse

10

Systmes transactionnels vs Systmes dcisionnels


Ces exemples mettent en vidence les faits suivants: Les questions doivent pouvoir tre formules dans le langage de lutilisateur en fonction de son secteur dactivit:
Service marketing, Service conomique, service relation clients

La prvision des interrogations est difficile car elles sont du ressort de lutilisateur. Les questions vont varier selon les rponses obtenus:
Si le produit X sest vendu moins bien que lanne prcdente, il va tre utile de comprendre les raisons: Dtailler les ventes par rgion par type de magasin,

Des questions ouvertes vont ncessiter la mise en place de mthodes dextraction dinformations

A. EL OUARDIGHI

Data warehouse

11

Systmes transactionnels vs Systmes dcisionnels


Des donnes aux dcisions
Donnes
Points de ventes, gographiques, dmographiques,

Informations I vit dans R, I est g de A,

Connaissances
Dans X%, le produit Y est vendu en mme temps que le produit Z,

Dcisions
Lancer la promotion de Y & Z dans R auprs des clients plus g que A, ...

A. EL OUARDIGHI

Data warehouse

12

Notion de donne et notion d'information


Date Heure Numro 5-3 5-3 6-3 6-3 07:05 16:12 09:40 20:20 00216188 00216188 00441216 04426576 Destinat Dure Cot France Italie UK Espagne 04:08 08:10 10:20 16:30 6.30 11.50 16.45 8.40

6 8 10 12 14 16 18
A. EL OUARDIGHI

L M M J V S D
Data warehouse 13

Applications transactionnelles v.s Applications dcisionnelles


Les applications transactionnelles sont constitues de traitements factuels de type OLTP ( On Line Transaction Processing) Les applications d'aide la dcision sont constitues de

traitements ensembliste de type OLAP: On Line Analytical Processing

A. EL OUARDIGHI

Data warehouse

14

Diffrence entre OLTP et OLAP


Conception
Oriente application Structure statique Dtailles Actuelles Peuvent tre mises jour Accessibles de faon individuelle Servent les agents oprationnels Traites de faon rptitive Requtes simples Sensibles aux performances Des milliers 100 Mo - Go Orientes sujet Structure volutive Rsumes, agrges Historiques Pas de mises jour Accessibles de faon ensembliste Servent les managers Traites de faon heuristiques Requtes complexes Non sensibles aux performances Des centaines 100 Go -To
Data warehouse 15

Donnes

Utilisateurs
Utilisation

Nb Utilisat. Taille BD
A. EL OUARDIGHI

Incompatibilits des deux activits


Les deux activits (OLTP & OLAP) ne peuvent co-exister sur des
donnes dans le mme systme dinformation: leurs objectifs de performance sont exactement opposs:
Les requtes complexes et lourdes dgradent les performances des systmes transactionnels, Les donnes temporelles sont rparties entre donnes actuelles et

donnes archives, rendant la vue historique des donnes trs difficile


ou impossible,

Le support efficace dune activit OLAP ncessite la constitution

dun systme dinformation propre: Le Datawarehouse


A. EL OUARDIGHI
Data warehouse 16

Naissance du Datawarehouse

A. EL OUARDIGHI

Data warehouse

17

Datawarehouse : Dfinition
Collection de donnes orientes sujets, intgres, non volatiles et historises, organises pour le support du processus daide la dcision Base de donnes dans laquelle sont dposes aprs nettoyage et

homognisation les informations en provenance des diffrents


systmes de production de lentreprise OLTP

A. EL OUARDIGHI

Data warehouse

18

Caractristiques des donnes d'un DW


Orientes sujet
Organises autour de sujets majeurs de lentreprise Donnes pour lanalyse et la modlisation en vue de laide la dcision, et non pas pour les oprations et transactions journalires Vue synthtique des donnes selon les sujets intressant les dcideurs

Intgres
Construit en intgrant des sources de donnes multiples et htrognes
BD relationnelles, fichiers, enregistrements de transactions


A. EL OUARDIGHI

Les donnes doivent tre mises en forme et unifies afin davoir un tat cohrent Phase la plus complexe (60 90 % de la charge totale dun projet DW)
Data warehouse 19

Caractristiques des donnes d'un DW


Historises
Fournies par les sources oprationnelles Matire premire pour l'analyse

Stockage de l'historique des donnes, pas de mise jour


Un rfrentiel temps doit tre associ aux donnes

Non volatiles

Consquence de lhistorisation
Une mme requte effectue intervalle de temps, en prcisant la date rfrence de linformation donnera le mme rsultat Stockage indpendant des BD oprationnelles Pas de mises jour des donnes dans le DW
Data warehouse 20

A. EL OUARDIGHI

Contenu d'un DW
Des donnes agrges
Correspondent des lments danalyse, par des fonctions de calcul, reprsentatifs des besoins utilisateurs Constituent dj un rsultat danalyse et une synthse de linformation

Des donnes dtailles


Reflte les vnements les plus rcents Les intgrations des donnes vont tre ralises ce niveau Le volume dinformations est plus importants

A. EL OUARDIGHI

Data warehouse

21

Contenu d'un DW
Des mta donnes
Elles constituent une vritable aide en ligne permettant de connatre les informations contenue dans le DW

Regroupent lensemble des informations concernant le DW


Dcrivant la structure des donnes de base ou agrges Donnant des explications sur la qualit, le mode de drivation, la dure de vie, le rafrachissement, etc... Les principales informations sont destines:
Aux utilisateurs Aux quipes responsable des processus de transformation des donnes du systme de production vers le DW Aux quipes responsables des processus de cration des donnes agrges partir des donnes dtailles Aux quipes dadministration de la BD
Data warehouse 22

A. EL OUARDIGHI

Donnes multidimensionnelles
Notion de dimension
Cest une catgorie linguistique selon laquelle les donnes sont organises:
Nom dun attribut Valeur dun attribut Autre lment linguistique

A. EL OUARDIGHI

Data warehouse

23

Reprsentation
DureMoy
5 5 18 7 12 8 9 15 18 12 22 25

Dpart.
Info Phys Philo Droit Info Phys Philo Droit Info Phys Philo Droit

Mois Janv Janv Janv Janv Fvr Fvr Fvr Fvr Mars Mars Mars Mars

Anne 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998

A. EL OUARDIGHI

Data warehouse

24

... Autres reprsentations

1998 Info Phys Philo Droit

Janv 5 5 18 7

Fvr

Mars

12 8 9 15

18 12 22 25

A. EL OUARDIGHI

Data warehouse

25

... Autres reprsentations

1998 30 25 20 15 10 5

Droit Philo

Phys

Info

A. EL OUARDIGHI

Data warehouse

26

... Autres reprsentations

Droit Philo Phys Info


1995 1996 1997 1998 7 1 8 7 18 Janv 9 Fvr 15 Mars 25 22

5 5 8 12

5 5
12 18

A. EL OUARDIGHI

Data warehouse

27

Fonctionnalits dun DW
Extraction de donnes sources
Ralisation d'un transformateur de modles Modle source vers modle du DW Rgles de transformation entre modles htrognes

Le nettoyage et lintgration des donnes


Avant l'intgration des donnes, il convient de les expurger d'incohrences diverses:

Problmes de formats ou de description


Problme de codage Problme de nommage Problmes de valeurs manquante

A. EL OUARDIGHI

Data warehouse

28

Fonctionnalits dun DW
Lagrgation des donnes
Synthse produisant des indicateurs pour l'aide la dcision utilisant:
Fonctions statistiques simples: Sum, Min, Max,

Analyse de donnes
Techniques d'apprentissage

A. EL OUARDIGHI

Data warehouse

29

Notion de Datamart
Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet unique. Caractristiques:

A. EL OUARDIGHI

Orient vers un sujet unique


Ex: comportement de la clientle Le DW joue le rle de source et d'historique pour le Datamart Dont l'une des dimensions indique souvent le temps Association entre valeur agrge et valeur dtaille

Donnes fortement agrges Organisation multidimensionnelle (cubique) Lien dynamique avec le DW Interfaces simples et conviviales
Data warehouse 30

Les domaines dapplication du dcisionnel


La gestion de la relation client (CRM) est lun des premiers champs dapplication de la Business Intelligence. Le contrle de gestion pour lanalyse des cots, lanalyse de la rentabilit, llaboration budgtaire, les indicateurs de performance La direction marketing pour le ciblage, le pilotage de gamme, les applications de gomarketing, de fidlisation clients La direction commerciale pour le pilotage des rseaux, les prvisions des ventes, loptimisation des territoires Les ressources humaines pour la gestion des carrires, La direction de la production pour lanalyse qualit, la prvision des stocks, la gestion des flux, la fiabilit industrielle La direction gnrale pour les tableaux de bord, indicateurs de pilotage, gestion dalertes
A. EL OUARDIGHI
Data warehouse 31

Exemple: un DW dans les tlcoms


Sujets
Suivi du march: lignes installes/ dsinstalles, services et options choisis, rpartition gographique, rpartition entre public et diffrents secteurs d'organisations

Comportement de la clientle
Comportement du rseau 5 ans pour le suivi du march 1 an pour le comportement de la clientle 1 mois pour le comportement du rseau Fichiers clients labors par les agences Fichiers de facturation

Historique

Sources

A. EL OUARDIGHI

Data warehouse

32

Requtes
Comportement clientle
Nombre moyen d'heures par client, par mois et par rgion Rpartition des appels clients sur la journe Nombre moyen de numros appels Dure moyenne d'une communication urbaine par ville Dure moyenne d'une communication internationale Etc

A. EL OUARDIGHI

Data warehouse

33

Architectures dun Datawarehouse


Une architecture dun Datawarehouse possde les caractristiques suivantes :
Les donnes sources sont extraites du systmes de bases de donnes et de fichiers

Les donnes sources sont nettoyes, transformes et intgres avant dtre stockes dans lentrept
Lentrept est en lecture seulement et est dfini spcifiquement pour la prise de dcision Les usagers accdent lentrept partir dinterfaces et dapplications (clients)

A. EL OUARDIGHI

Data warehouse

34

Architecture dun Datawarehouse


Architecture centralise

Il sagit de la version centralise et intgre dun entrept regroupant lensemble des donnes de lentreprise. Les diffrentes bases de donnes sources sont intgres et sont distribues partir de la mme plate-forme physique
A. EL OUARDIGHI
Data warehouse 35

Architecture dun Datawarehouse


Architecture fdre

Il sagit de la version intgre dun entrept o les donnes sont introduites dans les marchs de donnes orients selon les diffrentes fonctions de lentreprise
A. EL OUARDIGHI
Data warehouse 36

Architecture dun Datawarehouse


Architecture trois-tiers

Il sagit dune variante de larchitecture fdre o les donnes sont divises par niveau de dtail
A. EL OUARDIGHI

Data warehouse

37

Les diffrentes phases du Datawarehouse

Conception
Construction Administration Restitution

A. EL OUARDIGHI

Data warehouse

38

Les diffrentes phases du Datawarehouse


Conception:
Il sagit de dfinir la finalit du DW : Piloter quelle activit de lentreprise ;


A. EL OUARDIGHI

Dterminer et recenser les donnes entreposer ;


Dfinir les aspects techniques de la ralisation ; Modle de donnes ; Dmarches dalimentation ; Stratgies dadministration ; Dfinition des espaces danalyse ; Mode de restitution,
Data warehouse 39

Les diffrentes phases du Datawarehouse


Construction:
Travail technique: Extraction des donnes des diffrentes BD de production

(internes ou externes)
Nettoyage des donnes, rgles dhomoginisation des donnes sous formes de mta donnes.

Techniques dalimentation

A. EL OUARDIGHI

Data warehouse

40

Les diffrentes phases du Datawarehouse


Administration:
Elle est constitue de plusieurs tches pour assurer: La qualit et la prennit des donnes aux diffrents applicatifs ; La maintenance; La gestion de configuration; Lorganisation, loptimisation du SI; La mise en scurit du SI.

A. EL OUARDIGHI

Data warehouse

41

Les diffrentes phases du Datawarehouse


Restitution:
Cest le but du processus dentreposage des donnes.

Elle conditionne le choix de larchitecture du DW et de sa construction.

Elle doit permettre toutes la analyses ncessaires pour la construction des indicateurs recherchs.

A. EL OUARDIGHI

Data warehouse

42

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP
Les 12 rgles OLAP Configurations OLAP Oprations OLAP Outils OLAP

A. EL OUARDIGHI

Data warehouse

43

OLAP

Il sagit dune catgorie de logiciels axs sur lexploration et lanalyse rapide des donnes selon une approche multidimensionnelle plusieurs niveaux dagrgation . OLAP vise assister lusager dans son analyse en lui facilitant lexploration de ses donnes et en lui donnant la possibilit de le faire rapidement.
Lusager na pas matriser des langages dinterrogation et des interfaces complexes Lusager interroge directement les donnes, en interagissant avec celles-ci

A. EL OUARDIGHI

Data warehouse

44

Modles conceptuel
Approche multidimensionnelle
Souvent reprsents par une structure plusieurs dimensions Une dimension est un attribut ou un ensemble dattributs:
Temps Gographie Produits Clients Nombre dunits vendues Chiffre dAffaire Cot Relations, Cube de donnes, hyper cube de donnes
Data warehouse 45

Les cellules contiennent des donnes agrges appeles Faits ou Indicateurs:


Reprsentations:

A. EL OUARDIGHI

Modle conceptuel
Vue multidimensionnelle:

A. EL OUARDIGHI

Data warehouse

46

Agrgation des donnes


Plusieurs niveau dagrgation
Les donnes peuvent tre groupes diffrents niveaux de granularit Les regroupements sont pr-calculs,
Par exemple, le total des ventes pour le mois dernier calcul partir de la somme de toutes les ventes du mois.

Granularit : niveau de dtail des donnes emmagasines dans un Datawarehouse.

A. EL OUARDIGHI

Data warehouse

47

Granularit des dimensions


La granularit des dimensions

A. EL OUARDIGHI

Data warehouse

48

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP

Les 12 rgles OLAP


Configurations OLAP Oprations OLAP Outils OLAP

A. EL OUARDIGHI

Data warehouse

49

Les 12 rgles OLAP ( Edgar Frank Codd, 1993)


Vue multidimensionnelle:
Comme par exemple lorsquon souhaite analyser les ventes selon plusieurs dimension: par produit par rgion ou par priode.

Transparence du serveur OLAP diffrents types de logiciels


Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques

Accessibilit de nombreuses sources de donnes


A. EL OUARDIGHI

Data warehouse

50

Les 12 rgles OLAP ( Edgar Frank Codd, 1993)


Performance du systme de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur. La plus part des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des terminaux . Il est donc ncessaire que les outils OLAP soient capables de travailler dans un environnement Client/Serveur.

Architecture Client/Serveur

A. EL OUARDIGHI

Data warehouse

51

Les 12 rgles OLAP ( Edgar Frank Codd, 1993)


Dimensions Gnriques
Toutes les dimensions doivent tre quivalentes en structure et en calcul. Toute fonction qui s'applique une dimension doit tre aussi applicable une autre dimension. Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses

Gestion dynamique des matrices creuses

A. EL OUARDIGHI

Data warehouse

52

Les 12 rgles OLAP ( Edgar Frank Codd, 1993)


Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accs concurrents, Garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.

Opration sur les dimensions


Les oprations doivent pouvoir s'effectuer sur toutes les dimensions.

Manipulation intuitive des donnes


Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur.

A. EL OUARDIGHI

Data warehouse

53

Les 12 rgles OLAP ( Edgar Frank Codd, 1993)


Souplesse et facilit de constitution des rapports
La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle. Tout outil OLAP doit grer au moins 15 20 dimensions.

Nombre illimit de niveaux d'agrgation et de dimensions

A. EL OUARDIGHI

Data warehouse

54

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP Les 12 rgles OLAP

Configurations OLAP
Oprations OLAP Outils OLAP

A. EL OUARDIGHI

Data warehouse

55

Configurations OLAP
Selon le type de base de donnes accd, plusieurs configurations sont possibles :
OLAP Multidimensionnelle: MOLAP OLAP Relationnelle: ROLAP OLAP Hybride: HOLAP

A. EL OUARDIGHI

Data warehouse

56

MOLAP (OLAP Multidimensionnel)

Caractristiques

MOLAP sappuis sur une base de donnes multidimensionnelle Implmentent les cubes comme des matrices en mmoire Nombreuses oprations sur les cubes (Pivot, Slice & Dice, ...)

Exemple
Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm

A. EL OUARDIGHI

Data warehouse

57

ROLAP (OLAP Relationnel)

Caractristiques

ROLAP implmentent les cubes comme des tables relationnelles Lutilisateur interroge directement la base de donnes relationnelle Configuration supportant les gros volumes de donnes
Microstrategy, Microstrategy 7i, Business Objects, Business Objects, http://www.microstrategy.fr/Software/OLAP.asp http://www.businessobjects.fr/

Exemples

A. EL OUARDIGHI

Data warehouse

58

HOLAP (OLAP Hybride)


OLAP Hybride
Architecture mixte: Dsigne les outils danalyse multidimensionnelle qui rcuprent les donnes dans des bases relationnelle ou multidimensionnelle.

Prsente lavantage de mixer les avantages des deux systmes MOLAP et ROLAP

A. EL OUARDIGHI

Data warehouse

59

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP Les 12 rgles OLAP Composantes OLAP Configurations OLAP

Oprations OLAP

A. EL OUARDIGHI

Data warehouse

60

Oprations sur la structure des cubes

Pivot (Rotation) Switch (Permutation) Split (Dcomposition)

A. EL OUARDIGHI

Data warehouse

61

Pivot: Rotation par rapport lun des axes de dimensions

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6

Droit Philo Phys Info Janv 7 18 5 5 Fvr 15 9 5 12 8 12 Mars 25 2 12 18 8 18 17 15 2 12 18 1996 25 22 1997 1998

<>
<>

<>
<>

<>
<>

6
8

25

18 18

Pivot

A. EL OUARDIGHI

Data warehouse

62

Swich: Permutation de valeurs de dimensions

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6

Droit Philo Info Phys


1996 18 24 15 7 7 1997 9 12 8 25 25 <> 1998 7 1 5 5 8 7 18 5 5 5 <> <> Janv 8 15 9 12 8 <> Fvr Mars 25 22 18 12 12

18 18

Switch

A. EL OUARDIGHI

Data warehouse

63

Split: Dcomposition
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12 12 6 18 18
8

Droit 1998 1997 1996 Janv 7 9 <> 18 <>

Fvr 15 Mars 25

<> <>

Info
Janv

1998 1997 1996

Phys 1998 1997 1996 Janv 5 25 <> <> 7 <> <>

Philo 1998 1997 1996 Janv Fvr 18 12 9 <> <> 24 <> <>
64

8 <>

15 <>

Fvr 12 Mars 18
A. EL OUARDIGHI

Fvr 8 Mars 12

<> <>

Mars 22

Data warehouse

Oprations sur le contenu des cubes

Roll-up (passage au grain suprieur) Drill-down (passage au grain infrieur) Slice (Restriction) Dice (Projection)

A. EL OUARDIGHI

Data warehouse

65

Changement de granule (Roll-up / Drill-down)


Priode 11,3 18 12,3 9,3 9,3 Janv 11,3 18 12,3 9,3 Fvr <> <> <> 18 18 Mars <> <> <> 10,6 10,6 Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Fvr 15 18 Mars 25 22 12 18 Droit Philo Phys Info 1996 16 1997 10,3 16 1998 15,6 16,3 8,3 11,6 Trimestre 1 15,6 16,3 8,3 11,6
A. EL OUARDIGHI
Data warehouse 66

Droit Philo Phys Info

13,5

13,5

Restriction (Slice)
Sapplique sur les valeurs du cube ou les valeurs des dimensions

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv


Fvr Mars 15 25 9 22 8 12 12
12
8 6

18 18

Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Fvr 15

A. EL OUARDIGHI

Data warehouse

67

Projection (Dice)
Rduit le nombre de dimension

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 7 18 5 5 5 17 Janv Fvr Mars 15 25 9 22 8 12 12
12 8

Dice

1996 1997 16 13,5 1998


8,7

18 18

Janv 12,6 Fvr 14,6 Mars 22,3

<> <> <> <>

A. EL OUARDIGHI

Data warehouse

68

Composition doprations (Slice & Dice)


Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Fvr 15

Slice

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Fvr 15 18 Mars 25 22 12 18

Dice Droit Philo 1997 9,5 10 1998 11 13,5 11 13,5

A. EL OUARDIGHI

Data warehouse

69

Oprations entre cubes

Jointure Union

A. EL OUARDIGHI

Data warehouse

70

Jointure (Join)
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr Mars 25 15 9 22 8 12 12
12 8 6

Droit
18

Philo

Phys Info
80 15 80

80 24 80 7

18 18

1996 1997 7 1998 7 Janv Fvr Mars

75 12 75 25 75 8 60 5 60 60
60

75
75

80 76

60 18 60 5

1996 80 1997 80 75 1998 60 75


76

60 18 60 5 9 70

60 5

80 72 70

15 70

8 70 12 70

70 65

Janv Fvr Mars


A. EL OUARDIGHI

60

60 70 65

70
65

80 72 70

25 65 22 65 12 65 18 65

Data warehouse

71

Union
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr 15 Mars 25 9 22 8 12 12
12 8 6

18 18

Droit Philo Phys Info 1996 15 17 717 25 1997 7 14 21 12 25 1998 12 2 7 16 12 25 16 20 3 12 23 7 16 Avr 12 12 16 8 27 42 Mai 20 Juin 22 28 32 27 27
A. EL OUARDIGHI

Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 18 5 Phys Droit5 Philo Info Janv 7 8 12 17 717 256 9 8 12 Fvr 15 15 25 7 14 21 12 18 12 22 12 18 Mars 25 25 12 2 7 16 16 20 3 7 16 Avr 12 23 12 Mai Juin 20 8 27 42 12 16

22

28

32

27 27

Data warehouse

72

Partie 2 : OLAP et Analyse multidimensionnelles

Concepts OLAP Les 12 rgles OLAP Composantes OLAP Configurations OLAP Oprations OLAP

Outils OLAP

A. EL OUARDIGHI

Data warehouse

73

Outils OLAP
Exemples doutils OLAP
BusinessObjects, BusinessObjects, http://www.businessobjects.fr/ SAS, SAS, http://www.sas.com/offices/europe/france/software/technologies/olap/index.html HarrySoftware , HarryPilot, HarryCube , http://www.harrysoftware.com/jahia/Jahia/pid/61

A. EL OUARDIGHI

Data warehouse

74

Partie 3: Modlisation et Conception dun DW

Conception d'un DW
Etude pralable

Modlisation
Alimentation

A. EL OUARDIGHI

Data warehouse

75

Construction dun Datawarehouse


Caractristiques:
Le Datawarehouse est diffrent des bases de donnes de production: Les besoins pour lesquels on veut le construire sont diffrents Il contient des informations historises, organises selon les mtiers de lentreprise pour le processus daide dcision

Le Datawarehouse nest pas un produit ou un logiciel mais un environnement, qui se btit et ne sachte pas.

A. EL OUARDIGHI

Data warehouse

76

Construction dun Datawarehouse

Phases de construction dun DW:


Il ya trois parties interdpendante qui relve la construction dun Datawarehouse: Ltude pralable qui va dfinir les objectifs, la dmarche suivre, le retour sur investissement, Ltude du modle de donnes qui reprsente le DW conceptuellement et logiquement Ltude de lalimentation du Datawarehouse

A. EL OUARDIGHI

Data warehouse

77

Partie 3: Modlisation et Conception dun DW

La conception d'un DW

Etude pralable
Modlisation
Alimentation

A. EL OUARDIGHI

Data warehouse

78

Etude pralable
Etude des besoins:
Dfinir les objectifs du DW Dterminer le contenu du DW et son organisation, daprs:
Les rsultats attendus par les utilisateurs, Les requtes quils formuleront, Les projets qui ont t dfinie

Recenser les donnes ncessaires un bon fonctionnement du DW:


Recenser les donnes disponibles dans les bases de production Identifier les donnes supplmentaires requises

A. EL OUARDIGHI

Data warehouse

79

Etude pralable
Etude des besoins:
Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...

Choisir les mesures de fait


De prfrences des quantits numriques additifs

Choisir la granularit des faits


Niveau de dtails des dimensions
Lunit de temps doit-elle tre le jour, la semaine? Rcapitulatifs journaliers, mensuels

A. EL OUARDIGHI

Data warehouse

80

Etude pralable
Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle

Capacit de stockage trs importante (historisation des donnes)


Evaluer la capacit de stockage

Equipes de maintenance et dadministration

Les cots des logiciels


Les logiciels dadministration du DW Les outils ETL (Extract-Transform- Loading)

A. EL OUARDIGHI

Les outils dinterrogation et de visualisation


Les outils de Datamining
Data warehouse 81

Partie 3: Modlisation et Conception dun DW


La conception d'un DW Etude pralable Modlisation Alimentation

A. EL OUARDIGHI

Data warehouse

82

Modles de donnes
Niveau conceptuel:
Un DW est bas sur une modlisation multidimensionnelle qui reprsente les donnes dans un cube Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions La table des faits contient les mesures et les cls des dimensions

A. EL OUARDIGHI

Data warehouse

83

Les schmas de rfrence


Niveau Logique:
Plusieurs schmas types sont proposs pour reprsenter un DW:
Schma en toile;

Schma en flocon;

A. EL OUARDIGHI

Data warehouse

84

Schma en toile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions.

A. EL OUARDIGHI

Data warehouse

85

Schma en flocons
Raffinement du schma toile avec des tables normalises par dimensions.

A. EL OUARDIGHI

Data warehouse

86

Proprit des mesures


Fait Additive
Additionnable suivant toutes les dimensions
Exemple : CA ; Quantit vendue, ...

Fait Semi-additivit
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...

Fait Non-additivit :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1 Exemple : plus grand CA pour lensemble des magasins

A. EL OUARDIGHI

Data warehouse

87

Exemples de DW
Dans la grande distribution Quelques tables de faits :
Dtailles et volumineuses Classiques : produit, fournisseur, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, Promotions, ....

Tables de dimensions :

Dans le secteur des banques Tables de faits :


Nombreuses, ddies chaque produit , peu dtailles et peu volumineuses. Classiques : produit, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, ....

Tables de dimensions :

A. EL OUARDIGHI

Data warehouse

88

Estimer la taille du DW
Les grandes surfaces :
Dimensions
Temps : 4 ans * 365 = 1460 jours

Magasin : 300
Produit : 200000 rfrences (10% vendus chaque jour) Promotion : un article est dans une seule condition de promotion par jour et par magasin 1460 * 300 * 200000 * 1 = 8,76 milliards denregistrements Nombre de champs de cl = 4 Nombre de champs de fait = 4

Fait

Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go

A. EL OUARDIGHI

Data warehouse

89

Estimer la taille du DW

Suivi dappels Tlphoniques :


Dimensions
Temps : 3 ans * 365 = 1095 jours Nombre d appel par jour = 100 000 000 Nombre de champs de cl = 5 Nombre de champs de fait = 3

Faits

Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To

A. EL OUARDIGHI

Data warehouse

90

Partie 3: Modlisation et Conception dun DW


Conception d'un DW Etude pralable Modlisation

Alimentation

A. EL OUARDIGHI

Data warehouse

91

Alimentation
Lalimentation est la procdure qui permet de transfrer des donnes du systme oprationnel vers le DW La conception de cette opration est une tche complexe
60 90 % de la charge totale dun projet DW

Elle doit tre faite en collaboration avec ladministrateur des bases de productions Il est ncessaire de dterminer:

Quelles donnes seront charges


Les transformations et les vrifications ncessaires La priodicit et le moment de transferts des donnes

A. EL OUARDIGHI

Data warehouse

92

Alimentation du DW
Alimentation dun DW (ETL)
Extraction (Extract) Transformation (Transform)
Filtrer Homogniser Nettoyer Etc

Chargement (Loading)

A. EL OUARDIGHI

Data warehouse

93

Extraction
Extraction:
Depuis les bases sources Priodique et Rpte

Dater ou marquer les donnes envoyes


Difficult:
Ne pas perturber les applications OLTP Mthode Push: Le systme oprationnel qui au fil des transactions alimente le DW Mthode Pull : Le systme dcisionnel cherche priodiquement les donnes dans les base de production

Diffrentes techniques dextraction:


A. EL OUARDIGHI

Data warehouse

94

Transformation
Cest une suite doprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente. Unification des modles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d attributs Nettoyer ( Valeurs manquantes, aberrantes)

A. EL OUARDIGHI

Data warehouse

95

Chargement
Cest lopration qui consiste charger les donnes nettoyes et prpares dans le DW. Cest une opration qui peut tre longue Mettre en place des stratgies pour assurer de bonnes conditions sa ralisation Dfinir la politique de rafrachissement. Cest une phase plutt mcanique et la moins complexe

A. EL OUARDIGHI

Data warehouse

96

Outils ETL
Exemples doutils ETL
BusinessObjects, Data Integrator, http://www.businessobjects.fr/ Oracle Corporation, Warehouse builder, http://www.oracle.com/technology/products/warehouse/index.html/ IBM, Websphere Datastage , http://www.ascential.com/products/datastage.html

A. EL OUARDIGHI

Data warehouse

97