Académique Documents
Professionnel Documents
Culture Documents
DW Are Mining
DW Are Mining
1. OLTP et OLAP
Appli. Reports & Analysis
DM
OLTP
DW
OLAP
DM
DM
Introduction DW
2
G. Gardarin
Explosion de l OLAP
Facteurs conomiques & technologiques
18 16
CA en Milliards de $
Introduction DW
G. Gardarin
Le data warehouse
Entrept de donnes
Ensemble de donnes historises variant dans le temps, organis par sujets, consolid dans une base de donnes unique, gr dans un environnement de stockage particulier, aidant la prise de dcision dans lentreprise.
G. Gardarin
Architecture type
Clients dcisionnel
Autres Applications
Analyseur Prsentation Tables, graphes, cubes
BD Entrept Intgrateur
Transformation, Fusion
Datawarehouse
Introduction DW
BD lgataires
6
G. Gardarin
Bases multidimensionnelles
Data Marts
SGBD relationnel Outils dalimentation Bases externes Outils d extraction
Bases relationnelles
G. Gardarin
Introduction DW
Types de transformations
Accs unifis aux donnes Amlioration et agrgation des donnes
Mapping
Jointure, projection, agrgation (SUM, AVG) Application des "business rules"
Cleaning
limination valeurs errones Extrapolation valeurs manquantes
G. Gardarin
ETI
ETI.Extract
Parfois cite comme plateforme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises.
Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes ci-dessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Siebel, SQL/Teradata et les middleware MQ (IBM, Tibco...). Entrepts de donnes : Oracle, Sybase, Teradata, Hyperion Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, BO, Cognos et MicroStrategy. Gamme extrmement vaste de connecteurs spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin. A travers son outil ETL, I.B. attaque prs de 80 sources de donnes. Les connecteurs EAI d'iWay concernent environ 120 applications selon l'diteur.
Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de 15 algorithmes de data mining diffrents. L'une des plates-formes d'extraction / transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante.
Cognos
DecisionStream
Ce n'est pas la spcialit de Cognos, mais l'outil semble s'tre prouv dans le temps aprs avoir chang de nom. A priori, se servir de prfrence de l'outil avec Cognos pour une raison de compatibilit.
Se dit compatible avec 100 sources OLAP, dont SAP BW (certifi), Hyperion, Informix, SQL Server 2000 et Sybase...
Information Builders
ETL Manager
Positionnement hybride entre la business intelligence, l'ETL et plus rcemment l'EAI avec la cration de sa filiale iWay Software. Les 2 dernires offres sont les plus compltes, la premire se cantonnant essentiellement du reporting sans vritable analyse approfondie.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 9
G. Gardarin
L'entrept
Base relationnelle
Support de larges volumes (qq 100 gigas qq tras) Historisation des donnes (fentres) Importance des agrgats et chargements en blocs
Base spcialise
Base multidimensionnelle Combinaison des deux
Machine support
Multiprocesseurs Mmoire partage, cluster, bus partag, etc.
10
G. Gardarin
Principaux DW (Jdnet)
Hyperion
Essbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.
NCR
Teradata Database
Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000.
Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.
IBM
DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).
Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.
Oracle
Oracle 9i
Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP.
Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.
Microsoft
La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.
Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows
Sybase
Adaptive Server IQ
IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 11
G. Gardarin
Bilan Entrept
Le datawarehouse regroupe, historise, rsume les donnes de l entreprise Le concepteur dfinit schma exports et intgrs
des choix fondamentaux ! Ciblage essentiel !
Introduction DW
12
G. Gardarin
2. Le multidimensionnelle
Dimensions:
Temps Gographie Produits Clients Canaux de ventes.....
Indicateurs:
Nombre dunits vendues CA Cot Marge.....
Le multidimensionnel
13
G. Gardarin
Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analyses: indicateurs
G. Gardarin
Temps
Jours
Mois
Trimestres
Annes
Gographie
Villes
Rgions
Pays
Produits
Le multidimensionnel
Numros
Types
15
Gammes
Marques
G. Gardarin
La navigation multidimensionnelle
Projection en 2 dimensions
Produits
Coupe d un cube
Produits pour une rgion donne
CA
Rgion
CA
Temps en semaines
CA
Temps en mois
Est Lyon
Ouest Nice
Marseille
Le multidimensionnel
16
G. Gardarin
NumPro
NumFou
Date
Le multidimensionnel
17
G. Gardarin
SQL+Cube
Oprateurs dcisionnels Cache Cube
SQL
Analyseur Optimiseur Oprateurs relationnels Cache SGBD
Le multidimensionnel
18
G. Gardarin
Business Object
BusinessQuery = Requtage BusinessObject = Requtage+Analyse+Reporting WebIntelligence = Datacube
Cognos
Impromptu = Reporting Powerplay = Datacube Query = Requtage
Hyperion
ESS Base = Base MOLAP ESS Analysis= Analyse+Datacube
19
G. Gardarin
Bilan Multidimensionnel
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel
transformation et visualisation 3D une algbre du cube :
Slice, Dice, Rollup, Drilldown
Questions ?
Combien de datacubes partir de N variables ?
Le multidimensionnel
20
G. Gardarin
Data mining
Dcouverte de modles
Connaissances
Comprhension Prdiction
analyses (distribution du trafic en fonction de l heure) scores (fidlit d un client), classes (mauvais payeurs) rgles (si facture > 10000 alors dpart 70%)
La fouille de donnes
21
G. Gardarin
Domaines d'utilisation
De plus en plus de domaines
explosion des donnes historises puissance des machines support
G. Gardarin
Mcanismes de base
Donnes apprentissage Modle rgl Donnes prdire
La fouille de donnes
23
G. Gardarin
Sortie Y
G. Gardarin
Exploration = Explorer
devenir familier avec les donnes (patterns)
Manipulation = Manipuler
ajouter des informations, coder, grouper des attributs
Modelling = Modliser
construire des modles (statistiques, rseaux de neuronnes, arbres de dcisions, rgles associatives, )
Assessment = Valider
comprendre, valider, expliquer, rpondre aux questions
La fouille de donnes
25
G. Gardarin
4. Principales Techniques
Analyse statistique
rgression linaire et logistique rseaux baysiens analyse de composantes
Techniques de fouille
26
G. Gardarin
Classification
Groupage (Clustering)
K-moyennes Groupage hirarchique
distance
Segmentation
arbres de dcision rseaux d'agents
dure
27
G. Gardarin
Rgles associatives
La dcouverte de rgles
dcouverte de relations plus fines entre donnes du style si X alors Y
si Achat(Vin) alors Achat(Boursin) (10%, 15%) si Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%)
G. Gardarin
Nombreux algorithmes
Rduire le nombre de passes (I/O) Rduire le temps CPU Nombreux algorithmes
Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei] ...
Techniques de fouille
29
G. Gardarin
G. Gardarin
5. Conclusion
De nombreuses techniques d'exploration
La plupart ne passe pas l'chelle
limites quelques milliers d objets chantillonner puis valider
Questions ?
G. Gardarin
Principaux produits
SAS de SAS
Statistiques, arbres de dcision, rseaux de neurones, rgles
Oracle
Rachat de Thinking Machines
G. Gardarin
Oracle
9i Data Mining
Pour les commentaires, se reporter IBM deux cases au dessus. Oracle 9i Data Mining est intgr Oracle Customer Intelligence (tableau 1).
Tout comme IBM, il s'agit d'une extension la base de donnes Oracle 9i, et non d'un produit surajout rclamant une intgration travers une API Java ou C++.
IBM
DB2 Intelligent Miner est l'outil de data mining utilis dans DecisionEdge for Relationship Marketing (voir tableau 1), mais IBM en propose de plus cibls. Un cas intressant est celui de Internet Sales Predictor, une applet Java tlchargeable gratuitement sur le site IBM consacr aux dveloppeurs.
Comme son nom l'indique, ne fonctionne que sur une base de donnes IBM DB2, mais dans de nombreux environnements (AIX, OS/390-400, Solaris, Windows 2000 et NT...). Cet outil et ses dclinaisons sont en fait des extensions la base de donnes qui en est le point central.
SAS
e-Discovery
SAS est l'diteur de rfrence dans le domaine du data mining. eDiscovery est la solution de modlisation prdictive phare de SAS dans le domaine du CRM multicanaux. Utilisateurs avertis pour besoins pointus en rgle gnrale.
SAS livre sa propre plateforme Integration Technology pour l'inteconnexion au backoffice et aux solutions tierces. Comme toujours, il faut tre capable de programmer en SAS. La dernire version fournit un pont vers les serveurs WebDAV et le middleware Tibco/RendezVous.
KXen
La position de KXen est particulire. Son objectif est de fournir des algorithmes avancs qui se basent sur les thories rcentes du chercheur russe Vapnik, par opposition la mthode Fischer du dbut du sicle, rpandue dans la plupart des autres solutions. Bnfice: rsultat rapide et pertinent.
Intgration de composants en OEM dans Business Objects, Profile4You (eCRM), Norkom et Coheris/ISO (CRM). Travaux avec Kana/Broadbase. Selon KXen, une intgration totale des composants dans un environnement donn prend 2 ou 3 semaines maximum. Composants programms en C++, DCom, Corba, Java. Echanges: ODBC ou texte pur.
SPSS
Clementine
SPSS est considr comme le leader sur le segment des outils statistiques (pour des experts). Clementine est sa plateforme de data mining. 14 mthodes diffrentes de modlisation prdictive sont compiles (d'autres diteurs fournissent aussi plusieurs algorithmes). Rachat rcent de NetGenesis (eCRM/Web mining).
Principal partenaire: Siebel, qui dispose d'une participation dans le capital de SPSS. Autre CRM: Chordiant travers Prime Response. Entrepts de donnes: Oracle, Hyperion, Informix Red Brick Warehouse (datamart). ETL: Ascential.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml 33
G. Gardarin
Le march du BI
BI= Business Intelligence
34
G. Gardarin
Datamart
magasin de donnes cibl sur un ou plusieurs sujets
Datamining
exploration des donnes afin de dcouvrir des connaissances
Datacube
cube de prsentation d'units selon 3 dimensions
Datawebhouse
entrept des donnes collectes sur le web
Conclusion DM
35
G. Gardarin