Vous êtes sur la page 1sur 35

Data warehouse Data mining

Motivations et architecture Le multidimensionnel Le data mining La recherche de rgles associatives Conclusion

1. OLTP et OLAP
Appli. Reports & Analysis

DM

OLTP

DW

OLAP
DM

DM
Introduction DW
2

G. Gardarin

Explosion de l OLAP
Facteurs conomiques & technologiques
18 16
CA en Milliards de $

14 12 10 8 6 4 2 0 1994 1995 1996 1997 1998 1999 2000 2001 Annes

Introduction DW

G. Gardarin

Motivations des entreprises


Besoin des entreprises
accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP)

Exemples d'applications concernes


Bancaire : suivi des clients, gestion de portefeuilles
mailing cibls pour le marketing

Grande distribution : marketing, maintenance, ...


produits succs, modes, habitudes dachat prfrences par secteurs gographiques

Tlcommunications : pannes, fraudes, mobiles, ...


classification des clients, dtection fraudes, fuites de clients
Introduction DW
G. Gardarin

Le data warehouse
Entrept de donnes
Ensemble de donnes historises variant dans le temps, organis par sujets, consolid dans une base de donnes unique, gr dans un environnement de stockage particulier, aidant la prise de dcision dans lentreprise.

Trois fonctions essentiels :


collecte de donnes de bases existantes et chargement gestion des donnes dans lentrept analyse de donnes pour la prise de dcision
Introduction DW
5

G. Gardarin

Architecture type
Clients dcisionnel
Autres Applications
Analyseur Prsentation Tables, graphes, cubes

BD Entrept Intgrateur
Transformation, Fusion

Datawarehouse

Extraction, Filtrage Validation Extracteur

Extracteur Source Donnes externes Extracteur BD source

Disquettes Donnes oprationnelles

Introduction DW

BD lgataires
6

G. Gardarin

Datamart (Magasin de donnes)


sous-ensemble de donnes [extrait du data warehouse] et cibl sur un sujet unique
Data Warehouse Bases de production

Bases multidimensionnelles

Data Marts
SGBD relationnel Outils dalimentation Bases externes Outils d extraction

Bases relationnelles
G. Gardarin

Introduction DW

Extraction des donnes


ETL = Extracteur+Intgrateur
Extract + Transform + Load

Types de transformations
Accs unifis aux donnes Amlioration et agrgation des donnes
Mapping
Jointure, projection, agrgation (SUM, AVG) Application des "business rules"

Cleaning
limination valeurs errones Extrapolation valeurs manquantes

G. Gardarin

Principaux ETL (JDNet)


Acta
ActaWorks Avec ses eCaches, Acta se propose de rendre accessible en quasi-temps rel les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. Fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Business Objects, Cognos, Hyperion, Actuate et Brio.

ETI

ETI.Extract

Parfois cite comme plateforme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises.

Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes ci-dessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Siebel, SQL/Teradata et les middleware MQ (IBM, Tibco...). Entrepts de donnes : Oracle, Sybase, Teradata, Hyperion Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, BO, Cognos et MicroStrategy. Gamme extrmement vaste de connecteurs spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin. A travers son outil ETL, I.B. attaque prs de 80 sources de donnes. Les connecteurs EAI d'iWay concernent environ 120 applications selon l'diteur.

Hummingbird Ascential Software


DataStage XE DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez IBM avec ses entrepts de donnes. Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions. Genio Suite 5

Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de 15 algorithmes de data mining diffrents. L'une des plates-formes d'extraction / transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante.

Informatica Computer Associates


DecisionBase Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt. PowerCenter 5

Cognos

DecisionStream

Ce n'est pas la spcialit de Cognos, mais l'outil semble s'tre prouv dans le temps aprs avoir chang de nom. A priori, se servir de prfrence de l'outil avec Cognos pour une raison de compatibilit.

Se dit compatible avec 100 sources OLAP, dont SAP BW (certifi), Hyperion, Informix, SQL Server 2000 et Sybase...

Information Builders
ETL Manager

Positionnement hybride entre la business intelligence, l'ETL et plus rcemment l'EAI avec la cration de sa filiale iWay Software. Les 2 dernires offres sont les plus compltes, la premire se cantonnant essentiellement du reporting sans vritable analyse approfondie.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 9

G. Gardarin

L'entrept
Base relationnelle
Support de larges volumes (qq 100 gigas qq tras) Historisation des donnes (fentres) Importance des agrgats et chargements en blocs

Base spcialise
Base multidimensionnelle Combinaison des deux

Machine support
Multiprocesseurs Mmoire partage, cluster, bus partag, etc.
10

G. Gardarin

Principaux DW (Jdnet)
Hyperion
Essbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.

NCR

Teradata Database

Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000.

Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.

IBM

DB2/UDB, Informix XPS et Red Brick

DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).

Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.

Oracle
Oracle 9i

Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP.

Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.

Microsoft

SQL Server 2000

La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.

Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows

Sybase

Adaptive Server IQ

IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.

Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 11

G. Gardarin

Bilan Entrept
Le datawarehouse regroupe, historise, rsume les donnes de l entreprise Le concepteur dfinit schma exports et intgrs
des choix fondamentaux ! Ciblage essentiel !

Le datamart cest plus cibl et plus petit. Questions ?


Peut-on ajouter des donnes au niveau de l entrept ?

Introduction DW

12

G. Gardarin

2. Le multidimensionnelle
Dimensions:
Temps Gographie Produits Clients Canaux de ventes.....

Indicateurs:
Nombre dunits vendues CA Cot Marge.....
Le multidimensionnel
13

G. Gardarin

Le data cube et les dimensions


Axe d'analyse: La gographie (Pays - rgion - ville)

Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analyses: indicateurs
G. Gardarin

Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Le multidimensionnel 14

La granularit des dimensions

Temps

Jours

Mois

Trimestres

Annes

Gographie

Villes

Rgions

Pays

Produits
Le multidimensionnel

Numros

Types
15

Gammes

Marques
G. Gardarin

La navigation multidimensionnelle
Projection en 2 dimensions
Produits

Coupe d un cube
Produits pour une rgion donne

CA
Rgion

CA

Rduction selon 1 dimension Zoom selon une dimension Produits


France Sud

Temps en semaines

CA
Temps en mois

Est Lyon

Ouest Nice

Marseille

Le multidimensionnel

16

G. Gardarin

Les vues d'un cube


Partant d'un cube 3D, il est possible d'agrger selon une dimension tournante On obtient un treillis de vues (calculable en SQL)
NumPro, NumFou, Date NumPro, NumFou NumPro, Date NumFou, Date

NumPro

NumFou

Date

Le multidimensionnel

17

G. Gardarin

ROLAP versus MROLAP


SQL+Cube
Analyseur Optimiseur Oprateurs relationnels Oprateurs dcisionnels Cache SGBD

SQL+Cube
Oprateurs dcisionnels Cache Cube

SQL
Analyseur Optimiseur Oprateurs relationnels Cache SGBD

Le multidimensionnel

18

G. Gardarin

Les principaux fournisseurs


Oracle
Express = Datacube Report = Reporting

Business Object
BusinessQuery = Requtage BusinessObject = Requtage+Analyse+Reporting WebIntelligence = Datacube

Cognos
Impromptu = Reporting Powerplay = Datacube Query = Requtage

Hyperion
ESS Base = Base MOLAP ESS Analysis= Analyse+Datacube
19

G. Gardarin

Bilan Multidimensionnel
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel
transformation et visualisation 3D une algbre du cube :
Slice, Dice, Rollup, Drilldown

Questions ?
Combien de datacubes partir de N variables ?

Le multidimensionnel

20

G. Gardarin

3. Quest-ce-que le data mining ?


Data mining
ensembles de techniques d'exploration de donnes afin d'en tirer des connaissances sous forme de modles prsentes l utilisateur averti pour examen

Donnes entrept Connaissances

Data mining
Dcouverte de modles

Connaissances
Comprhension Prdiction

analyses (distribution du trafic en fonction de l heure) scores (fidlit d un client), classes (mauvais payeurs) rgles (si facture > 10000 alors dpart 70%)
La fouille de donnes
21

G. Gardarin

Domaines d'utilisation
De plus en plus de domaines
explosion des donnes historises puissance des machines support

Quelques domaines rputs


Analyse de risque (Assurance) Marketing et Grande distribution Mdecine, Pharmacie Analyse financire Gestion de stocks Maintenance Profilage d'utilisateurs (Web)
La fouille de donnes
22

G. Gardarin

Mcanismes de base
Donnes apprentissage Modle rgl Donnes prdire

Moteur DM Modles Modle rgl

Moteur DM Donnes prdites

La fouille de donnes

23

G. Gardarin

Exemple : Rgression linaire


Y=aX+B Confiance Entres X Apprentissage sur la base Utilisation pour prdire le futur Qualification par degr de confiance
La fouille de donnes
24

Sortie Y

G. Gardarin

Mthode SEMMA (SAS)


Sampling = chantillonner
tirer un chantillon significatif pour extraire les modles

Exploration = Explorer
devenir familier avec les donnes (patterns)

Manipulation = Manipuler
ajouter des informations, coder, grouper des attributs

Modelling = Modliser
construire des modles (statistiques, rseaux de neuronnes, arbres de dcisions, rgles associatives, )

Assessment = Valider
comprendre, valider, expliquer, rpondre aux questions

La fouille de donnes

25

G. Gardarin

4. Principales Techniques
Analyse statistique
rgression linaire et logistique rseaux baysiens analyse de composantes

Dcouverte de modles fonctionnels


fonctions probabilistes rseaux de neurones

Techniques de fouille

26

G. Gardarin

Classification
Groupage (Clustering)
K-moyennes Groupage hirarchique
distance

Segmentation
arbres de dcision rseaux d'agents

dure
27

G. Gardarin

Rgles associatives
La dcouverte de rgles
dcouverte de relations plus fines entre donnes du style si X alors Y
si Achat(Vin) alors Achat(Boursin) (10%, 15%) si Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%)

Support : probabilit absolue P(XY)


|XY|/ |BD| = % de transactions vrifiant la rgle

Confiance : probabilit conditionnelle P(Y/X)


|XY|/|X| = % de transactions vrifiant l'implication

Comment extraire les rgles intressantes ?


exemple : Supp.> 0.1 et Conf.> 0.7 comment optimiser les calculs d'indicateurs ?
Techniques de fouille
28

G. Gardarin

Nombreux algorithmes
Rduire le nombre de passes (I/O) Rduire le temps CPU Nombreux algorithmes
Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei] ...

Techniques de fouille

29

G. Gardarin

Des rgles plus gnrales


Les rgles ngatives et/ou disjonctives :
Expr(Ci) => Expr(Cj) avec ET, OU, NOT

Les rgles multi-attributs :


associent des valeurs d'attributs distincts tlphone : Source = "New-York" => Cible ="Paris"

Les rgles attributs variables :


exemple Age [x,y] => Salaire > 300 KF (5%,30%)

Les rgles avec gnralisation


associe une taxonomie

Les patterns squentiels


A puis B puis C
Techniques de fouille
30

G. Gardarin

5. Conclusion
De nombreuses techniques d'exploration
La plupart ne passe pas l'chelle
limites quelques milliers d objets chantillonner puis valider

Questions ?

Un bon outil propose plusieurs techniques

Les problmes difficiles :


Comment explorer de volumineuses BD ? Maintenance incrmental des rgles ? Exploration de types de donnes complexes ? Conclusion DM
31

G. Gardarin

Principaux produits
SAS de SAS
Statistiques, arbres de dcision, rseaux de neurones, rgles

Intelligent Miner d'IBM


Statistiques, arbres de dcision, rgles associative, textes

SPSS et Clementine de SPSS


classification, modles fonctionnels (agents), statistiques

Knowledge Seeker d'Angoss


statistiques, classification, arbres de dcision

Oracle
Rachat de Thinking Machines

Microsoft OLE DB for Data Mining


Arbres de dcisions, rgles associatives, etc.
Conclusion DM
32

G. Gardarin

Caractristiques d'outils (Jdnet)


Data Distilleries
DD Series L'offre intgre DD/Marketer pour gnrer les modles prdictifs (segmentation), DD/Sire pour dployer les recommandations, et DD/Expert pour construire les scenarii. CRM Front-office: Siebel, AIMS, Broadvision (eCRM). L'intgration est dj programme avec Siebel 7.0.

Oracle

9i Data Mining

Pour les commentaires, se reporter IBM deux cases au dessus. Oracle 9i Data Mining est intgr Oracle Customer Intelligence (tableau 1).

Tout comme IBM, il s'agit d'une extension la base de donnes Oracle 9i, et non d'un produit surajout rclamant une intgration travers une API Java ou C++.

IBM

DB2 Intelligent Miner

DB2 Intelligent Miner est l'outil de data mining utilis dans DecisionEdge for Relationship Marketing (voir tableau 1), mais IBM en propose de plus cibls. Un cas intressant est celui de Internet Sales Predictor, une applet Java tlchargeable gratuitement sur le site IBM consacr aux dveloppeurs.

Comme son nom l'indique, ne fonctionne que sur une base de donnes IBM DB2, mais dans de nombreux environnements (AIX, OS/390-400, Solaris, Windows 2000 et NT...). Cet outil et ses dclinaisons sont en fait des extensions la base de donnes qui en est le point central.

SAS

e-Discovery

SAS est l'diteur de rfrence dans le domaine du data mining. eDiscovery est la solution de modlisation prdictive phare de SAS dans le domaine du CRM multicanaux. Utilisateurs avertis pour besoins pointus en rgle gnrale.

SAS livre sa propre plateforme Integration Technology pour l'inteconnexion au backoffice et aux solutions tierces. Comme toujours, il faut tre capable de programmer en SAS. La dernire version fournit un pont vers les serveurs WebDAV et le middleware Tibco/RendezVous.

KXen

Composants KXEN intgrables

La position de KXen est particulire. Son objectif est de fournir des algorithmes avancs qui se basent sur les thories rcentes du chercheur russe Vapnik, par opposition la mthode Fischer du dbut du sicle, rpandue dans la plupart des autres solutions. Bnfice: rsultat rapide et pertinent.

Intgration de composants en OEM dans Business Objects, Profile4You (eCRM), Norkom et Coheris/ISO (CRM). Travaux avec Kana/Broadbase. Selon KXen, une intgration totale des composants dans un environnement donn prend 2 ou 3 semaines maximum. Composants programms en C++, DCom, Corba, Java. Echanges: ODBC ou texte pur.

SPSS

Clementine

SPSS est considr comme le leader sur le segment des outils statistiques (pour des experts). Clementine est sa plateforme de data mining. 14 mthodes diffrentes de modlisation prdictive sont compiles (d'autres diteurs fournissent aussi plusieurs algorithmes). Rachat rcent de NetGenesis (eCRM/Web mining).

Principal partenaire: Siebel, qui dispose d'une participation dans le capital de SPSS. Autre CRM: Chordiant travers Prime Response. Entrepts de donnes: Oracle, Hyperion, Informix Red Brick Warehouse (datamart). ETL: Ascential.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 33

G. Gardarin

Le march du BI
BI= Business Intelligence

Data PRO Users Survey

34

G. Gardarin

Les Data Trucs


Datawarehouse
entrept des donnes historises de l'entreprise

Datamart
magasin de donnes cibl sur un ou plusieurs sujets

Datamining
exploration des donnes afin de dcouvrir des connaissances

Datacube
cube de prsentation d'units selon 3 dimensions

Datawebhouse
entrept des donnes collectes sur le web
Conclusion DM
35

G. Gardarin

Vous aimerez peut-être aussi