Vous êtes sur la page 1sur 42

Data warehouse

Motivations et architecture Conception de la BD support Alimentation du DW Exploitation OLAP Conclusion

1. OLTP et OLAP
Appli. Appli. Appli. Reports & Analysis

OLAP

ETL

OLTP

DW

DM

Aides la dcision

Introduction DW

Explosion de l OLAP
Facteurs conomiques & technologiques
18 16

CA en Milliards de $

14 12 10 8 6 4 2 0 1994 1995 1996 1997 1998 1999 2000 2001 Annes

Introduction DW

Motivations des entreprises


Besoin des entreprises

accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...

Exemples d'applications concernes

produits succs, modes, habitudes dachat prfrences par secteurs gographiques


mailing cibls pour le marketing classification des clients, dtection fraudes, fuites de clients

Bancaire : suivi des clients, gestion de portefeuilles

Tlcommunications : pannes, fraudes, mobiles, ...

Introduction DW

Datawarehouse : dfinition
Entrept de donnes

Ensemble de donnes historises variant dans le temps, organis par sujets, consolid dans une base de donnes unique, gr dans un environnement de stockage particulier, aidant la prise de dcision dans lentreprise. collecte de donnes de bases existantes et chargement gestion des donnes dans lentrept analyse de donnes pour la prise de dcision

Trois fonctions essentielles :


Introduction DW

Architecture type

Introduction DW

Datamart (Magasin de donnes)


sous-ensemble de donnes [extrait du DW] et cibl sur un sujet unique
Data Warehouse Bases de production

Bases multidimensionnelles

Data Marts
SGBD relationnel

Introduction DW

Outils dalimentation Bases externes

Bases relationnelles

2. Concevoir le DW
Export de donnes des sources

Htrognes et varies Fichiers, BD patrimoniales, Web, Dfinition des vues exportes


Intgre les donnes utiles S'appuie sur le modle relationnel Description des sources Description des vues exportes Description du schma global

Dfinition d'un schma global


Ncessit d'une gestion de mta-donnes


Conception DW

Organisation par sujet


Les donnes sont organises par sujets majeurs:

Clients, produits, ventes,


Collecte les donnes utiles sur un sujet

Sujet = faits + dimensions

Exemple: ventes Exemple: Ventes (N, produit, priode, magasin, ) Exemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)

Synthtise une vue simple des vnements analyser

Dtaille la vue selon les dimensions


Conception DW

Schmas en toile
Une table de faits encadres par N tables de dimensions Produits
Periodes
IDper anne trimestre mois jour

Table de faits ventes periode produit magasin units_vendues montant_ventes taxes_ventes

IDprod description couleur taille fournisseur

Magasins
IDmag nom ville dpartement pays

Conception DW

Schmas en flocons
Raffinement du schma toile avec des tables normalises par dimensions Produits Fournisseurs
IDprod description couleur taille IDfour IDfour description type Adresse

Ventes Avantages

vite les redondances Conduit aux constellations (plusieurs tables de faits dimensions partages)

Conception DW

Conception du schma intgr


Isoler les faits tudier

Schma des tables de faits


Axes d'analyse clater en plusieurs tables lis par contraintes rfrentielles Plusieurs tables de faits partagent quelques tables de dimension

Dfinir les dimensions

Normaliser les dimensions

Intgrer l'ensemble

(constellation dtoiles)

Conception DW

Bilan conception
Le datawarehouse regroupe, historise, rsume les donnes de l'entreprise Le concepteur dfinit schma exports et intgrs

des choix fondamentaux ! Ciblage essentiel !

Le datamart cest plus cibl et plus petit. Questions ?

Peut-on ajouter des donnes au niveau de l entrept ?

Conception DW

3. Alimenter le DW
ETL = Extracteur+Intgrateur

Extract + Transform + Load


Depuis les bases sources ou les journaux Diffrentes techniques

Extraction

Push = rgles (triggers) Pull = requtes (queries) Dater ou marquer les donnes envoyes Ne pas perturber les applications OLTP

Priodique et rpte

Difficult

L'alimentation

Transformation
Accs unifis aux donnes

Unification des modles


Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche Rowset, SQL limit, SQL complet,

Unification des accs

Mapping plus ou moins sophistiqu

Unification des noms


Appeler pareil les mmes choses et diffremment les choses diffrentes Application des "business rules"

Elimination des doubles Jointure, projection, agrgation (SUM, AVG)

Cleaning des donnes


L'alimentation

Data Cleaning
Valeurs manquantes (nulles)

Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Gnres en prsence de bruits Dtecter par une analyse de voisinage

Valeurs errones ou inconsistantes


cart par rapport la moyenne Factorisation en groupes (outliers)

Remplacer par une valeur fixe ou par la moyenne

Inspection manuelle de certaines donnes possible


L'alimentation

Chargement
Pas de mise jour

Insertion de nouvelles donnes Archivage de donnes anciennes Priodicit parfois longue Chargement en blocs (bulk load) Mise jour des index et rsums
Cohabitation avec l'OLAP ? Procdures de reprises ?

De gros volumes

Problmes

L'alimentation

Principaux ETL (JDNet)


Business Objects
ActaWorks Issue du rachat d'Acta, cette solution se propose de rendre accessible en "quasi-temps rel" les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez IBM avec ses entrepts de donnes. Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Acta tait le fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Cognos, Hyperion, Actuate et Brio.

ETI

ETI.Extract

Parfois cite comme plate-forme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction diffrents. datamining / transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante.

Ascential Software

DataStage XE

Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.

Hummingbird
Genio Suite 5

Computer Associates
DecisionBase

Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.

Informatica
PowerCenter 5

Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes et Siebel, SQL/Teradata : Oracle, Sybase,MQ (IBM, les middleware Teradata, Hyperion Tibco...). Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.

http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml

4. Grer l'entrept
Base relationnelle

Support de larges volumes (qq 100 gigas qq tras) Historisation des donnes (fentres) Importance des agrgats et chargements en blocs
Base multidimensionnelle Combinaison des deux Multiprocesseurs Mmoire partage, cluster, bus partag, etc.

Base spcialise

Machine support parallle


Le multidimensionnel

Principaux systmes (Jdnet)


Hyperion
Essbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.

NCR

Teradata Database

Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.

Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.

IBM

DB2/UDB, Informix XPS et Red Brick

DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).

Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.

Oracle
Oracle 9i

Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.

Sybase Microsoft
SQL Server 2000 La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining. Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows

Adaptive Server IQ

Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml

Le multidimensionnel
Dimensions:

Indicateurs:

Temps Gographie Produits Clients Canaux de ventes.....

Nombre dunits vendues CA Cot Marge.....

Le multidimensionnel

Cube de donnes

Date

NumFou

2002 350 600 300


2001 300 500 400

NumPro

2000 250

200
F1

F2

P1
Le multidimensionnel

P2

P3

Le data cube et les dimensions


Axe d'analyse: La gographie (Pays - rgion - ville)

Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Le multidimensionnel Axes d'analyse: dimensions Variables analyses: indicateurs

La granularit des dimensions


Temps
Jours

Mois

Trimestres

Annes

Gographie

Villes

Rgions

Pays

Produits
Le multidimensionnel

Numros

Types

Gammes

Marques

Exemple
Montant des ventes fonction de (Mois, rgion, Produit)
Granularit des dimensions : Type Rgion Anne Trimestre Mois Semaine Jour

Catgorie Pays

Produit

Produit

Ville

Magasin

Mois
Le multidimensionnel

La navigation multidimensionnelle
Projection en 2 dimensions
Produits

Coupe d un cube
Produits pour une rgion donne

CA
Rgion

CA

Temps en semaines

Rduction selon 1 dimension Zoom selon une dimension Produits


France

CA
Temps en mois

Est Lyon

Sud

Ouest Nice

Marseille

Le multidimensionnel

L'algbre des cubes


Roll up :

Agrger selon une dimension

Semaine Mois

Drill down :

Dtailler selon une dimension

Mois Semaine

Slice et Dice:

Slection et projection selon 1 axe

Mois = 04-2003 ; Projeter(Rgion, Produit)

Pivot :

Tourne le cube pour visualiser une face

(Rgion,Produit)(Rgion, Mois)

Le multidimensionnel

Les vues d'un cube


Partant d'un cube 3D, il est possible d'agrger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) NumPro, NumFou, Date NumPro, NumFou NumPro, Date NumFou, Date

NumPro
Le multidimensionnel

NumFou

Date

Bilan Gestion
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel

transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation Combien de datacubes partir de N variables ?

Questions ?

Le multidimensionnel

5. Implmentation
Multidimensional OLAP (MOLAP)

implmentent les cubes comme des matrices en mmoire

Relational OLAP (ROLAP)

implmentent les cubes comme des tables relationnelles certaines donnes en matrices en mmoires, d'autres en tables sur disques

Hybrid systems (HOLAP ou MROLAP)

Implmentation

ROLAP versus MOLAP


SQL+Cube SQL+Cube
Oprateurs dcisionnels
Cache Cube

Analyseur Optimiseur Oprateurs dcisionnels Cache SGBD

SQL
Analyseur Optimiseur Oprateurs relationnels Cache SGBD

Oprateurs relationnels

Implmentation

Evolution des SGBD


Utilisation intensive des calculs d'agrgats

Optimisation, concrtisation Fonctions agrgats

Nouvelles fonctions de SQL

Rank, Moving Average, Rollup, Cube, ... Pivot, Standard dviation, Covariance, Corrlation

Fonctions statistiques:

Implmentation

Vues Concrtes
CREATE MATERIALIZED VIEW <Table> (column_list) AS SELECT La vue est pr-calcule par le SGBD

Pr-calcul des agrgats et jointures

Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager
Implmentation

Exemple
Table:
Emp(#emp, job, salary)

Dfinition de la vue:
CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp GROUP BY job;

Interrogation de la vue:
SELECT job FROM job_avg_sal WHERE avg_sal > 10000

Implmentation

Extension de SQL
ROLLUP:

CUBE:

SELECT <column list> FROM <table> GROUP BY ROLLUP(column_list);

Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupage

SELECT <column list> FROM <table> GROUP BY CUBE(column_list);

Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupage n, n-1, n-2,0 colonnes

Implmentation

Exemple CUBE
Animal Chien Chat Tortue Chien Chat Chien Tortue Lieu Paris Paris Rome Rome Naples Naples Naples Quantite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE
Implmentation

Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome

Quantite 18 9 27 12 5 14 31 1 4 5 63 30 15 18

Exemple ROLLUP
Animal Chien Chat Tortue Chien Chat Chien Tortue Lieu Paris Paris Rome Rome Naples Naples Naples Quantite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP
Implmentation

Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome -

Quantite 18 9 27 12 5 14 31 1 4 5 63

Mta-donnes
Standard en mergence CWM

Common Warehouse Metamodel

Mta-mta-modle

MOF

Bas sur le mta-modle objet de l'OMG (MOF)

Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations

Mta-modle

UML

CWM

EJB

Modle

Vente numv numpro quantit prixtot

Mta-donnes

Dfini en UML Echang en XML (XMi)


Implmentation

Instance

Objet

Les Packages CWM


Management Analysis Resources
Warehouse Process Warehouse Operation Data Information Business Mining Visualization Nomenclature RecordOriented Multi Dimensional XML

Transformation OLAP
ObjectOriented
(ObjectModel)

Relational

Foundation

Business Data Keys Type Software Expressions Information Types Index Mapping Deployment

ObjectModel
(Core, Behavioral, Relationships, Instance)

Chaque package est dfini en UML ...


Implmentation

Quelques outils OLAP


Oracle

Cognos

OLAP API = Datacube Express = Analyse Report = Reporting


BusinessQuery = Requtage BusinessObject = Requtage + Analyse + Reporting WebIntelligence = Datacube

Impromptu = Reporting Powerplay = Datacube Query = Requtage


ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube

Business Object

Hyperion

Implmentation

6. Le march du BI
BI= Business Intelligence

Data PRO Users Survey

Conclusion

Les Data Trucs


Datawarehouse

entrept des donnes historises de l'entreprise


magasin de donnes cibl sur un ou plusieurs sujets exploration des donnes afin de dcouvrir des connaissances cube de prsentation d'units selon 3 dimensions entrept des donnes collectes sur le web

Datamart

Datamining

Datacube

Datawebhouse

Conclusion