Vous êtes sur la page 1sur 120

Institut Suprieur de Gestion, Dpartement Informatique

COURS
DATAWAREHOUSE DATAMINING
Niveau : 2LFIG

Anne universitaire 2011/2012

PLAN DATAWAREHOUSE
Contexte Les entrepts de donnes Les entrepts de donnes vs les bases de donnes Les datamarts Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Les oprations OLAP

CONTEXTE
Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles

Qui sont mes meilleurs clients?

Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
3

Quels tunisiens consomment beaucoup de tel produit?

CONTEXTE
LES DONNES UTILISABLES PAR LES DCIDEURS
Caractristiques
y y y

de ces donnes:

y y

Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
4

CONTEXTE

Enjeux :
Les ventes locales : amliorer le chiffre daffaires local
Amliorer les ventes locales

Les exportations : cibler de nouveaux clients ltranger


Amliorer les ventes lexport

Les dcideurs : anticiper pour mener une politique globale


laborer des indicateurs

PROBLMATIQUE
Comment rpondre aux demandes des dcideurs?
En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes

PROBLMATIQUE
un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information

SI SID

un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information en vue d'offrir une aide la dcision

Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
7

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, 2. orientes sujet, 3. non volatiles, 4. historises, 5. rsumes 6. et disponibles pour linterrogation et lanalyse => Pour aider aux prises de dcisions
(Inmon 96).
8

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, provenant de sources 2. orientes sujet, diffrentes et 3. non volatiles, ventuellement 4. historises, htrognes. 5. rsumes 6. et disponibles pour linterrogation et lanalyse
(Inmon 96).
9

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, rorganises autour des 2. orientes sujet, sujets majeurs de lentreprise de 3. non volatiles, faon tre plus 4. historises, facilement manipulables. 5. rsumes 6. et disponibles pour linterrogation et lanalyse
(Inmon 96).
10

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, en lecture seule, 2. orientes sujet, utilises seulement en mode de consultation et 3. non volatiles, ne sont que trs 4. historises, rarement modifies. 5. rsumes 6. et disponibles pour linterrogation et lanalyse
(Inmon 96).
11

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, elles sont enregistres 2. orientes sujet, en considrant leur 3. non volatiles, volution (spatio4. historises, temporelle). 5. rsumes 6. et disponibles pour linterrogation et lanalyse
(Inmon 96).
12

DATAWAREHOUSE
DFINITION

y Collection de donnes : 1. intgres, elles sont rorganises 2. orientes sujet, afin de faciliter les analyses et 3. non volatiles, les processus de prise de 4. historises, dcision. 5. rsumes 6. et disponibles pour linterrogation et lanalyse
(Inmon 96).
13

DOMAINES DUTILISATION DE DATA WAREHOUSE


Banque
y y

Risques dun prt, prime plus prcise

Sant
pidmiologie y Risque alimentaire

Commerce Logistique Assurance


y y

Ciblage de clientle y Dterminer des promotions


y

Adquation demande/production Risque li un contrat dassurance (voiture)


14

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES

Quest ce quune base de donnes ?

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES


BD 1. 2.

ou DB (Database)

Ensemble dinformations structures Accessibles par un LMD (DML)


Stockage et mise jour de donnes Recherche de donnes multi-critres

3. 4. 5.

Partages par de multiples utilisateurs Assurant la fiabilit et scurit des donnes Gre par un SGBD sur un serveur
16

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing Service commercial
BD prod

Service Financier
BD prod

Service livraison
BD prod

Clientle
H I S T O R I Q U E

Data Warehouse
OLAP: On-Line Analytical Processing Clientle

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
- est le modle utilis par les SGBD. - Le mode de travail est transactionnel. - L'objectif est de pouvoir insrer, modifier et interroger rapidement et en scurit la base. Ces actions seffectuent trs rapidement par de nombreux utilisateurs simultanment. Chaque transaction travail sur de faibles quantits d'informations, et toujours sur les versions les plus rcentes des donnes.

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
-Les datawarehouses eux reposent sur le systme OLAP (On Line Analytical Processing). -Ce systme travail en lecture seulement. Consulter d'importantes quantits de donnes pour procder des analyses. Les objectifs principaux sont regrouper, organiser des informations provenant de sources diverses, les intgrer et les stocker pour donner lutilisateur une vue oriente mtier, retrouver et analyser linformation facilement et rapidement. (besoin de lhistorique)

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, registration, accounting, etc.

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, etc.

1. Tche principale des DW

OLAP: On-Line Analytical Processing

2. Analyse des donnes et prise de dcision

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON

OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives

OLAP
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques

Utilisateurs nombreux, Utilisateurs peu nombreux, administrateurs/oprationn manager els Temps dexcution: court Temps dexcution: long

DATAMART
Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers

Datamarts du service Marketing

DW de lentreprise

Datamart du service Ressources Humaines 23

INTRT DES DATAMARTS


Nouvel

environnement structur et format en fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW
Plus facile comprendre, manipuler y Amlioration des temps de rponse
y

Utilisateurs

plus cibls: DM plus facile dfinir

24

ARCHITECTURE FONCTIONNELLE DU DW
Sources de Alimentation Entrept donnes de donnes
Mta-donnes

Ciblage

Analyses & data mining

Bases de donnes

Extract Transform Load

Rapports Magasin de donnes

excel
Entrepts de donnes Data mining Cube
25

Sources de donnes externes

Phase dalimentation

Phase de modlisation

Phase danalyse

Data warehouse
 1. Motivations et architecture  2. Conception de la BD support  3. Alimentation du DW  4. Exploitation OLAP  5. Conclusion
26

1.MOTIVATIONS DES ENTREPRISES


Besoin des entreprises


y y y

accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...
produits succs, modes, habitudes dachat prfrences par secteurs gographiques

Exemples d'applications concernes


y

y y

Bancaire : suivi des clients, gestion de portefeuilles


mailing cibls pour le marketing classification des clients, dtection fraudes, fuites de clients
27

Tlcommunications : pannes, fraudes, mobiles, ...


ARCHITECTURE OLTP ET OLAP


Reports & Analysis

Appli. Appli. Appli.

OLAP

ETL

OLTP

DW

DM

Aides la dcision

28

2. CONCEVOIR LE DW

Export de donnes des sources


y y y

Htrognes et varies Fichiers, BD patrimoniales, Web, Dfinition des vues exportes Intgre les donnes utiles S'appuie sur le modle relationnel Description des sources Description des vues exportes Description du schma global
29

Dfinition d'un schma global


y y

Ncessit d'une gestion de mta-donnes


y y y

Conception DW

ORGANISATION PAR SUJET


Les
y

donnes sont organises par sujets majeurs:


Clients, produits, ventes,

Sujet
y y

= faits + dimensions

Collecte les donnes utiles sur un sujet


Exemple: ventes

Synthtise une vue simple des vnements analyser


Exemple: Ventes (N, produit, priode, magasin, )

Dtaille la vue selon les dimensions


Exemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)

30

Conception DW

DW- MODLISATION
-Schma entit-relation (classique) - Schma en toile (star schema) - Schma en flocon (snowflake schema) tables de faits : nombreux champs, tables centrales dimensions : peu de champs, permettent dinterprter les faits
Tout indicateur est modlis sous la forme dune toile ou dun flocon
31

SCHMA EN TOILE
Structure simple utilisant le modle entit-relation Une entit centrale (faits) - objet de lanalyse Des entits priphriques (1seul niveau) - dimensions de lanalyse

32

EXEMPLE DE SCHMA EN TOILE


Une table de faits encadres par N tables de dimensions


Produits

Periode
Key_periode anne trimestre mois jour

Table de faits ventes Key_periode Key_produit Key_magasin units_vendues montant_vente amount of s sales

Key_prod description couleur taille fournisseur

Magasins
Key_mag nom ville dpartement 33 pays

SCHMA EN TOILE
Tuples de la table des faits cls trangres formant une cl primaire des valeurs associes chaque cl primaire

34

EXEMPLE DE SCHNEMA EN
FLOCONS
time
time_key day day_of_the_week month quarter year item

Sales Fact Table time_key item_key branch_key

item_key item_name brand type supplier_key

supplier supplier_key supplier_type

branch branch_key branch_name branch_type

location
location_key street city_key

location_key units_sold dollars_sold avg_sales Measures

city
city_key city province_or_street 35 country

SCHMA EN FLOCONS
Evolution du star schema Normalisation des tables de dimensions 1 table Fait Plusieurs niveaux de tables de dimensions

36

SCHMA EN FLOCONS

Raffinement du schma toile avec des tables normalises par dimensions


Produits IDprod description couleur taille IDfour Fournisseurs IDfour description type Adresse

Ventes

37

BILAN CONCEPTION
Le datawarehouse regroupe, historise, rsume les donnes de l'entreprise Le concepteur dfinit schma exports et intgrs

y y

des choix fondamentaux ! Ciblage essentiel !

Le datamart cest plus cibl et plus petit. Question?



y

Peut-on ajouter des donnes au niveau de l entrept ?

38

Conception DW

LAnalyse MultiDimensionnell
Objectif
 Obtenir des informations dj agrges selon les besoins de lutilisateur : simplicit et rapidit daccs

HyperCube OLAP
 Reprsentation de linformation dans un hypercube N dimensions

OLAP(On-Line Analytical Processing)


 Fonctionnalits qui servent faciliter lanalyse multidimensionnelle : oprations ralisables sur lHyperCube
39

DW

Base Multidimensionnell

De la relation au Cube

agrgations

40

Modlisation multidimensionnelle
 Gnralisation des tableurs  Notion de Cube de donnes : Data Cube Reprsentation de N attributs extraits d une table sous forme d un cube, N-k attributs composant les dimensions le long desquelles des groupements sont possibles, les k autres tant des mesures rsultant de fonctions d agrgations.  Exemple : Dfinition d un cube sur quantit selon les axes NumPro, NumFou et Date partir de la table Ventes: Ventes ( NV, NUMPRO, NUMFOU, DATE, QTE, PRIX)

41

CUBE DE DONNES

Date NumFou 2006

350 600 300 300 500 400 250


P1 P2

2005

NumPro

2004

200
F1 P3

F2

42

Exploitation multidimensionnelle
Intrt d un cube : Possibilit des raliser des coupes par slection selon une dimension. Vue d un cube : Vue dfinie partir d un cube de donnes par agrgation des quantits selon un sous-ensemble des attributs. Pour un cube de dimension k, il existe 2k vues avec NumPro, NumFou, Date une fonction d agrgat. NumPro, Date NumPro, NumFou

NumFou, Date

NumPro

NumFou

Date

43

LE DATA CUBE ET LES DIMENSIONS

Axe d'analyse: La gographie (Pays - rgion - ville)

Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Axes d'analyse: dimensions 44 Variables analyses: indicateurs

Le multidimensionnel
 Dimensions:
    

 Indicateurs:
   

Temps Gographie Produits Clients Canaux de ventes.....

Nombre dunits vendues CA Cot Marge.....

45

Analyse multidimensionnelle

Capacit manipuler des donnes qui ont t agr Selon diffrentes dimensions
Exemple : analyse des ventes / catgorie de produit + /anne + /zone gographique + /dpartement commercial 3 dim. 4 dim. 1 dim. 2 dim.

46

LA GRANULARIT DES DIMENSIONS

Temps

Jours

Mois

Trimestres

Annes

Gographie

Villes

Rgions

Pays

Produits

Numros

Types

Gammes

Marques
47

EXEMPLE

Montant des ventes fonction de (Mois, rgion, Produit)


Granularit des dimensions : Type Rgion Catgorie Pays

Anne Trimestre Mois Semain Jour


48

Produit

Produit

Ville

Magasin
Mois

LA NAVIGATION
MULTIDIMENSIONNELLE
Zoom selon une dimension Coupe d un cube
Produits pour une rgion donne

CA
France Est Lyon Sud Ouest Nice

Temps en semaines

Marseille

49

Rle des axes danalyse


Fournir, grce aux hirarchies dont ils sont porteurs, des rgles de calcul dagrgats.

85

Somme des fils = valeurs du pre

15

20

50

10

10 10

20

30
50

agrgation

Rle des axes danalyse


Fournir pour lanalyse, les mcanismes de cheminements Dans linformation, de la synthse vers le dtail (zoom avant/arrire) 85

Zoom avant/arrire

15

20

50

10

10 10

20

30
51

La navigation

Oprations sur le cube


 But
Visualisation/Utilisation dun fragment de lhypercube

 3 catgories doprations
Catgorie Restructuration Granularit Ensembliste Concerne Reprsentation Niveau de dtail Extraction
52

Restructuration
Rorientation de la vue multidimensionnelle * slection graphique * flexibilit du schma

-Rotate/Pivot -Switch -Split -Nest -Push


53

-Rotate/Pivot

54

-Switch

55

-Split

56

-Nest

57

Granularit
Navigation entre les niveaux * groupements * agrgation

Manipulations ncessitant des informations non contenues dans le cube

-Roll-up -Drill down

Cuboids
58

-Roll-up
Rduction d une dimension du cube en la remplaant par une dimension grain plus large, donc en allant du dtail vers le global. Exemple : CUBE (Produits, Date, Ville) * Oprateur de pliage sur l axe Date : Rollup (Anne Mois), Rollup(Anne) * Possibilit de faire l agrgat total selon une dimension axe date : Rollup ( ) : supprime la dimension date et somme pour toute date
59

-Roll-up :
-dune vue dtaille une vue globale

60

-Drill-down
Dpliage : Extension d une dimension du cube en la remplaant par une dimension grains plus fins, donc en allant du global vers le dtail. Exemple : Pour le cube CUBE (Fournisseurs, Anne, Pays) * oprateur de Dpliage sur l axe anne : Drilldown (Anne Mois), Drilldown (Anne Mois Jour)

Eclater les mesures selon les valeurs de la nouvelle donne introdu


61

-Drill-down : - dune vue globale une vue dtaille

62

Granularit
Pour faciliter : Drill-down Roll-up Mmorisation de certaines vues concrtes Mais lesquelles?? Problme de recherche : -Maximiser la rutilisation des rsultats des cubes prcdents pour calculer des cubes plus globaux. -La fonction dagrgation change aussi la nature du pbm

Fonction additive : sum, min, max Fonction algbrique : avg, Fonction holistique : mdiane,

63

Manipulations ensemblistes

Manipulations classiques Extension plusieurs dimensions

-Slection -Projection -Jointure


64

-Slection

65

-Projection

66

-Jointure

67

Coupes du cube Coupe (SLICE): Slection de tranches du cube par des


prdicats selon une dimension Exemple : * Cube (Produits, Date, Ville) * Coupe selon l axe des dates : Slice (10-02-98), Slice ( >1998 AND <1999) * Coupe selon laxe des produits : Slice (ordinateurs) Les oprateurs Rollup, Drilldown et Slice : Algbre des cubes de donnes

68

Ecriture d expressions de calcul sur les cubes

Exemple
Cube

( Produits, Date, Rgion)

Exemple de calcul :
Slice ( Paris ) [Drilldown (Ville) [Rollup (anne , mois) [ Slice (>2005 AND < 2006) [Cube] ] ] ].
69

Rsum :L'algbre des cubes


 Roll up :


Agrger selon une dimension




Semaine  Drill down :




Mois

Dtailler selon une dimension




Mois Semaine  Slice et Dice:




Slection et projection selon 1 axe




Mois = 04-2006 ; Projeter(Rgion, Produit)

 Pivot :


Tourne le cube pour visualiser une face




(Rgion,Produit) (Rgion, Mois)

70

Le multidimensionnel

FIN

BILAN GESTION
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel

y y y

transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation Combien de datacubes partir de N variables ?

Questions ?
y
72

Le multidimensionnel

5. IMPLMENTATION

Multidimensional OLAP (MOLAP)


y

implmentent les cubes comme des matrices en mmoire implmentent les cubes comme des tables relationnelles certaines donnes en matrices en mmoires, d'autres en tables sur disques

Relational OLAP (ROLAP)


y

Hybrid systems (HOLAP ou MROLAP)


y

73

Implmentation

 Choix d un SGBD Relationnel : ROLAP

* Donnes stockes en tables * Donnes exploites par des fonctions OLAP spciales (Group by et Cube)

* ROLAP : Technique implmentant les fonctions OLAP de type


calcul du cube de donnes au sein d un SGBD relationnel

* 2 Types de schmas relationnels dans les entrepts :


74

Schma en toile et Schma en flocon

Excution de requtes (ROL


1. 2. Traduction de requte OLAP en requtes SQL Dtermination des vues matrialises questionner * de niveau adquat * de cot moindre

75

MOLAP
Technologie de bases de donnes multidimensionnelles * structure de stockage = tableaux *MOLAP : Technique implmentant les fonctions OLAP de type calcul du cube de donnes directement en mmoire virtuelle , avec des structures de donnes persistantes adaptes * SGBD multidimensionnel : SGBD ddi aux calculs de cubes - implmentation de type tableau : CUBE [1:M, 1:N, 1:P]
76

MOLAP
Correspondance directe avec la vue MD Gestion de la faible densit (sparsity) * structure dindex = dimensions peu denses * donnes = tableaux des dimensions denses Problme dextensibilit

* MROLAP : Couche multidimensionnelle au dessus d un SGBD relationnel

77

ROLAP VERSUS MROLAP


SQL+Cube SQL+Cube

Analyseur Optimiseur Oprateurs relationnels Oprateurs dcisionnels Cache SGBD

Oprateurs dcisionnels
SQL

Cache Cube

Analyseur Optimiseur Oprateurs relationnels Cache SGBD

78

Implmentation

HOLAP
Combinaison des technologies ROLAP et MOLAP * donnes dtailles dans BDR * donnes agrges dans BDMD

SGBD Relationnel avec des oprateurs et algorithmes adquats : -GROUP BY CUBE -StarJoin, Index Bitmap

79

MOLAP

ROLAP

HOLAP

Stockage multidim. natif

Stockage Relationnel Restitution multidimension. Optimisation du volume stock par mise en uvre de mcanismes de calculs dynamiques dagrgats

Stockage multidimension Et relationnel Restitution Multidimension. avec gestion dynamique du dcrochage vers la base de dtail relationnel

80

EVOLUTION DES SGBD


Utilisation intensive des calculs d'agrgats


y

Optimisation, concrtisation Fonctions agrgats


Nouvelles fonctions de SQL


y y

Rank, Moving Average, Rollup, Cube, ... Pivot, Standard dviation, Covariance, Corrlation

Fonctions statistiques:

81

Implmentation

VUES CONCRTES
CREATE MATERIALIZED VIEW <Table> (column_list) AS SELECT La vue est pr-calcule par le SGBD
y

Pr-calcul des agrgats et jointures

Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager

82

Implmentation

EXEMPLE
Table:
Emp(#emp, job, salary)

Dfinition de la vue:
CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp GROUP BY job;

Interrogation de la vue:
SELECT job FROM job_avg_sal WHERE avg_sal > 10000
83

Implmentation

EXTENSION DE SQL

ROLLUP:
SELECT <column list> y FROM <table> y GROUP BY ROLLUP(column_list);
y

CUBE:
SELECT <column list> y FROM <table> y GROUP BY CUBE(column_list);
y

Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupage


y

n, n-1, n-2,0 colonnes

Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupage


84

Implmentation

EXEMPLE CUBE

Ani mal Chien Chat Tortue Chien Chat Chien Tortue


Lie u Paris Paris Rome Rome Naples Naples Naples

Qua ntite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE

Ani mal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lie u Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome

Qua ntite 18 9 27 12 5 14 31 1 4 5 63 30 85 15 18

Implmentation

EXEMPLE ROLLUP

An ima l Chien Chat Tortue Chien Chat Chien Tortue

Li eu Paris Paris Rome Rome Naples Naples Naples

Qu ant ite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP

Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome -

Quantite 18 9 27 12 5 14 31 1 4 5 63
86

Implmentation

MTA-DONNES

Standard en mergence CWM


y

Common Warehouse Meta-model

Bas sur le mta-modle objet de l'OMG (MOF)


y

Mta-mta-modle

MOF

Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations

Mta-modle

UML

CWM

EJB

Modle

Dfini en UML Echang en XML (XMi)


Instance

Vente numv numpro quantit prixtot

Mta-donnes

Objet

87

Implmentation

LES PACKAGES CWM


Management Analysis Resources
Warehouse Process Transformation OLAP ObjectOriented
(ObjectModel)

Warehouse Operation Data Information Business Mining Visualization Nomenclature RecordOriented Multi Dimensional XML

Relational

Foundation

Business Data Keys Type Software Expressions Information Types Index Mapping Deployment

ObjectModel
(Core, Behavioral, Relationships, Instance)
88

Chaque package est dfini en UML ...


Implmentation

QUELQUES OUTILS OLAP


Oracle
y y y

Cognos
y y y

OLAP API = Datacube Express = Analyse Report = Reporting


Impromptu = Reporting Powerplay = Datacube Query = Requtage ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube

Business Object
y y

Hyperion
y y

BusinessQuery = Requtage BusinessObject = Requtage + Analyse + Reporting WebIntelligence = Datacube

89

Implmentation

6. LE MARCH DU BI
BI= Business Intelligence

90 Data PRO Users Survey

Conclusion

LES DATA TRUCS


Datawarehouse
y

entrept des donnes historises de l'entreprise magasin de donnes cibl sur un ou plusieurs sujets exploration des donnes afin de dcouvrir des connaissances cube de prsentation d'units selon 3 dimensions entrept des donnes collectes sur le web
91

Datamart
y

Datamining
y

Datacube
y

Datawebhouse
y

Conclusion

Data Warehouse Usage


 Three kinds of data warehouse applications


Information processing


supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs multidimensional analysis of data warehouse data supports basic OLAP operations, slice-dice, drilling, pivoting knowledge discovery from hidden patterns supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools.
92

Analytical processing
 

Data mining
 

 Differences among the three tasks

From On-Line Analytical Processing to On Line Analytical Mining (OLAM)


 Why online analytical mining?
 

High quality of data in data warehouses  DW contains integrated, consistent, cleaned data Available information processing structure surrounding data warehouses  ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools OLAP-based exploratory data analysis  mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions  integration and swapping of multiple mining functions, 93 algorithms, and tasks.

 Architecture of OLAM

An OLAM Architecture
Mining query Mining result

Layer4 User Interface

User GUI API


OLAM Engine OLAP Engine

Layer3 OLAP/OLAM

Data Cube API Layer2 MDDB Meta Data


Filteri ng

MDDB

Filtering&Integrati on

Database API
Data cleaning Data integration

Layer1 Data Repository


94

Databas es

Data Warehou se

Conclusion
 Data warehouse


A subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures

 A multi-dimensional model of a data warehouse


 

 OLAP operations: drilling, rolling, slicing, dicing and pivoting  OLAP servers: ROLAP, MOLAP, HOLAP  Efficient computation of data cubes
  

Partial vs. full vs. no materialization Multiway array aggregation Bitmap index and join index implementations Discovery-drive and multi-feature cubes From OLAP to OLAM (on-line analytical mining)
95

 Further development of data cube technology


 

3. Alimenter le DW
Outils dalimentation pour extraire transformer stocker dans DWH Donnes sources

96

Alimenter le DW
 ETL = Extracteur + Intgrateur


Extract + Transform + Load

 Extraction
 

Depuis les bases sources ou les journaux Diffrentes techniques


 

Push = rgles (triggers) Pull = requtes (queries) Dater ou marquer les donnes envoyes Ne pas perturber les applications OLTP
97

Priodique et rpte


Difficult


L'alimentation

Extraction
1re Phase : extraction des donnes utiles

{ SGBD { Modles { Mthode daccs { Environnement Matriel + Orientation transactionnelle

-Eviter de perturber les Syst.de production -1 ou +srs passes * donnes en tps rel * donnes mensuelles

98

Extracteur : Accs en natif aux diffrentes sources

Transformer

obtenir un ensemble homogne de donnes donnes comparables, additionnables

Nettoyer /Intgrer/Structurer
99

TRANSFORMATION

Accs unifis aux donnes


y

Unification des modles


Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche Rowset, SQL limit, SQL complet,

Unification des accs


Mapping plus ou moins sophistiqu


y

Unification des noms


Appeler pareil les mmes choses et diffremment les choses diffrentes Application des "business rules"

y y

Elimination des doubles Jointure, projection, agrgation (SUM, AVG)


100

Cleaning des donnes

L'alimentation

Nettoyage des donnes


donnes errones analyse errone! les valeurs aberrantes (noisy data)

-Isoler les pics de certaines valeurs dans une distribution statistiques. -Dfinir un espace compris entre la moyenne et un certain nombre dcart type, et exclure ou plafonner toutes les valeurs > seuil (du type moyenne + 3 carts types).
101

Nettoyage des donnes

les valeurs manquantes - exclure les enregistrements incomplets - saisir manuellement ces valeurs manquantes - remplacer ces donnes par la moyenne -utiliser une constante globale unknown

les valeurs nulles : valeur conventionnelle pour une information inconnue ou inapplicable
102

Nettoyage des donnes


les valeurs redondantes -au niveau dune mme source - au niveau de plusieurs sources - exemple : la rfrence client dans la BD Commerciale et dans BD Marketing

103

Cohrence et Qualit du data warehouse

Intgration/Restructuration
Suppression des incohrences smantiques entre les sources - diffrents noms/longueurs/types pour un mme attribut

Systmes oprationnels Application 1 Application 2 Application 3 Application 4 m,f 1,0 x,y homme,femme

Data warehouse m,f m,f m,f m,f


104

Intgration/Restructuration (suite)
diffrence de normalisation/structure des tables (normalisation/dnormalisation) Le champ adresse est dcoup en n champs cibles: numro , rue , codepostal , pays , particularits ville ,

conversions -
105

Intgration/monovariable
Agrgation : les donnes des ventes journalires sont agrges pour calculer les montants totaux mensuels et annuels.

Transformation des dates en dures: (ractivit dun client : diffrence entre une date denvoi dun catalogue et une date de commande). Modification des donnes gographiques en coordonnes: (ajouter les coordonnes de longitude et latitude pour intgrer les contraintes de proximit dans le raisonnement).
106

Intgration/multivariable
Les ratios : Exemple : montant des achats relatifs une famille de produits sera rapport au montant global des achats (degr dimplication du client pour ce type darticles) La frquence : Exemple : nombre de commandes sur les x dernires priodes

107

Intgration/multivariable (suite)
Les tendances No 1 2 3 Priode 1 235 200 Priode 2 536 203 Tendance ++ =

Les combinaisons linaires/non linaires

108

Data Cleaning
 Valeurs manquantes (nulles)
 

Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Gnres en prsence de bruits Dtecter par une analyse de voisinage
 

 Valeurs errones ou inconsistantes


 

cart par rapport la moyenne Factorisation en groupes (outliers)

Remplacer par une valeur fixe ou par la moyenne

 Inspection manuelle de certaines donnes possible


L'alimentation

109

CHARGEMENT
Pas
y

de mise jour

Insertion de nouvelles donnes y Archivage de donnes anciennes


De
y

gros volumes

Priodicit parfois longue y Chargement en blocs (bulk load) y Mise jour des index et rsums
Problmes

Cohabitation avec l'OLAP ? y Procdures de reprises ?


y
110

L'alimentation

Charger

Donnes pures et transformes

Matrialisation des vues Plus Tris Consolidation Normalisation Vrification des contraintes dintgrit et Partitionnement des donnes (si plusieurs datamarts) Cration des indexes
111

PRINCIPAUX ETL (JDNET)


Issue du rachat d'Acta, cette solution se propose de rendre accessible en "quasi-temps rel" les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez IBM avec ses entrepts de donnes. Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Acta tait le fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Cognos, Hyperion, Actuate et Brio. Parfois cite comme plate-forme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction / datamining diffrents. transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante. Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes : Siebel, SQL/Teradata et Oracle, Sybase,MQ (IBM, les middleware Teradata, Hyperion Tibco...). Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.

Business Objects
ActaWorks

ETI
ETI.Extract

Ascential Software
DataStage XE

Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.

Hummingbird
Genio Suite 5

Computer Associates
DecisionBase

Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.

Informatica
PowerCenter 5

112

http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml

4. GRER L'ENTREPT
Base
y

relationnelle

Support de larges volumes (qq 100 gigas qq tras) y Historisation des donnes (fentres) y Importance des agrgats et chargements en blocs
Base
y

spcialise

Base multidimensionnelle y Combinaison des deux


Machine
y

support parallle
113

Multiprocesseurs y Mmoire partage, cluster, bus partag, etc.


Le multidimensionnel

PRINCIPAUX SYSTMES (JDNET)


Hyperion
Essbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.

NCR
Teradata Database

Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.

Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.

IBM
DB2/UDB, Informix XPS et Red Brick

DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).

Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.

Oracle
Oracle 9i

Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.

Microsoft
SQL Server 2000

La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.

Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows

Sybase
Adaptive Server IQ

Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft

114

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml

Exemple de traitement typiqu


Les ventes de vis sont plus faibles que prvu
Quelles couleurs sont responsables ??

SELECT couleur, SUM(prix) FROM Ventes, Produits WHEREVentes.codeProduit = Produits.codeProduit AND modle = vis GROUP BY couleur
115

Exemple de traitement typiqu


Quelles mois sont responsables ??

SELECT couleur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis GROUP BY couleur, mois

116

Exemple de traitement typiqu


Quelles vendeurs sont responsables ??

SELECT vendeur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY mois, vendeur
117

Exemple de traitement typiqu


Quelles annes sont responsables ??

SELECT vendeur, anne, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY anne, vendeur
118

Problmatique
Chaudhuri et Dayal 97

Supporter des oprations tableur sur des BD de plusieurs GO. Besoins spcifiques
langages de manipulation organisation des donnes mthodes daccs
119

Modle
Forme proche des abstractions de lanalyste Organisation des donnes selon plusieurs dimensions selon diffrents niveaux de dtail en ensemble Donne = point dans lespace associe des valeurs

120