Vous êtes sur la page 1sur 35

Data warehouse

Data mining

‹ Motivations et architecture
‹ Le multidimensionnel
‹ Le data mining
‹ La recherche de règles associatives
‹ Conclusion
1. OLTP et OLAP

Reports
Appli. &
DM
Analysis

OLTP DW OLAP

DM

DM
Introduction DW 2  G. Gardarin
Explosion de l ’OLAP
‹Facteurs économiques & technologiques

18
16
14
CA en Milliards de $

12
10
8
6
4
2
0
1994 1995 1996 1997 1998 1999 2000 2001
Années

Introduction DW 3  G. Gardarin
Motivations des entreprises
‹Besoin des entreprises
z accéder à toutes les données de l’entreprise
z regrouper les informations disséminées
z analyser et prendre des décisions rapidement (OLAP)
‹Exemples d'applications concernées
z Bancaire : suivi des clients, gestion de portefeuilles
‹mailing ciblés pour le marketing
z Grande distribution : marketing, maintenance, ...
‹produits à succès, modes, habitudes d’achat
‹préférences par secteurs géographiques
z Télécommunications : pannes, fraudes, mobiles, ...
‹classification des clients, détection fraudes, fuites de clients

Introduction DW 4  G. Gardarin
Le data warehouse
‹Entrepôt de données
z Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une base
de données unique, géré dans un environnement de
stockage particulier, aidant à la prise de décision dans
l’entreprise.
‹Trois fonctions essentiels :
z collecte de données de bases existantes et
chargement
z gestion des données dans l’entrepôt
z analyse de données pour la prise de décision

Introduction DW 5  G. Gardarin
Architecture type
Clients
Présentation
décisionnel Tables, graphes,
cubes
Autres Applications
Analyseur

BD
Entrepôt Datawarehouse
Intégrateur
Transformation, Fusion
Extraction, Filtrage
Validation
Extracteur Extracteur

Source Extracteur
Disquettes

Données
BD source opérationnelles
Données externes
BD légataires
Introduction DW 6  G. Gardarin
Datamart (Magasin de données)
‹sous-ensemble de données [extrait du data
warehouse] et ciblé sur un sujet unique
Bases
Data Warehouse
multidimensionnelles

Bases de
production

Data Marts
SGBD
relationnel

Outils Outils
d’alimentation d ’extraction Bases
Bases externes relationnelles

Introduction DW 7  G. Gardarin
Extraction des données
‹ETL = Extracteur+Intégrateur
z Extract + Transform + Load
‹Types de transformations
z Accès unifiés aux données
z Amélioration et agrégation des données
‹Mapping
• Jointure, projection, agrégation (SUM, AVG)
• Application des "business rules"
‹Cleaning
• Élimination valeurs erronées
• Extrapolation valeurs manquantes

8  G. Gardarin
Principaux ETL (JDNet)
Acta Avec ses eCaches, Acta se
propose de rendre accessible en
Fournisseur historique du premier
connecteur à SAP. Partenaire
ETI Parfois citée comme plate-
forme ETL de référence par
Extraction standard depuis:
fichiers plats (C et Cobol),
ActaWorks quasi-temps réel les données notamment de Siebel, Peoplesoft ETI.Extract certains acteurs, mais pas Siebel, les SGBDR, Informix,
les plus souvent accédées. L'un et JDEdwards. Interfaçage avec ceux de la business Teradata, Oracle Financials,
des éditeurs de référence dans Business Objects, Cognos, intelligence, ETI.Extract PeopleSoft HRMS, SAP R3 et
le domaine de l'ETL, qui s'étend Hyperion, Actuate et Brio. fonctionne avec des librairies BW... Librairies pour toutes les
sur la partie middleware en pour supporter les entrepôts bases de données ci-dessous,
intégrant aussi les transactions. de données et des plugins sauf Hyperion, sur systèmes
additionnels en prolongement anciens et plus récents. Plugins
d'applications précises. ETI.Accelerator pour Siebel,
SQL/Teradata et les middleware
MQ (IBM, Tibco...).

Hummingbird Surtout connu pour son offre


de portail, Hummingbird
Entrepôts de données : Oracle,
Sybase, Teradata, Hyperion
Genio Suite 5
Ascential Software DataStage XE est l'offre
traditionnelle d'Ardent
Plus de 40 connecteurs natifs vers
des sources de données, dont
fournit également une plate-
forme ETL et EAI du nom de
Essbase, MS SQL Server et IBM
DB2. Prise en charge nouvelle
DataStage XE qu'Informix a racheté début IBM/Informix, Oracle, Sybase, Genio Suite, assez réputée. En des formats de données : XML,
2000 avant qu'Ascential ne la Teradata et IBM DB2. Package outre, une offre de business mainframe, SAP en natif,
reprenne à son compte lors de complet dédié à SAP et à la intelligence classique, BI/Suite binaires, versions récentes des
sa prise d'indépendance, tandis collection de modules MySAP. prolonge le portail. Mais il SGBDR. En EAI: Siebel, SAP,
qu'Informix partait chez IBM Partie analytique: Brio, Business n'est pas question de CRM support de MQ Series. Le
avec ses entrepôts de données. Objects, SPSS et Crystal analytique. Mais Genio Miner roadmap prévoit l'intégration
Decisions. aggrège plus de prochaine à des acteurs comme
15 algorithmes de data mining Brio, BO, Cognos et
différents. MicroStrategy.

Informatica L'une des plates-formes


d'extraction / transformation
Gamme extrêmement vaste de
connecteurs spécifiques aux
PowerCenter 5
Computer Computer Associates est plus
connu pour ses offres de
Connecteurs en direct pour
extraire les données en temps
de données les plus complètes sources de données pour
et répandues. PowerCenter à consolider tous les principaux
Associates sécurité, de surveillance et de réel depuis SAP, PeopleSoft et des l'échelle de l'entreprise, et entrepôts de données. Pour citer
DecisionBase gestion d'infrastructures systèmes mainframes. Accès à de PowerMart à celle du service quelques acteurs du CRM
réseaux/informatiques. Mais son nombreuses sources de données ou du département. analytique en vrac: Siebel,
offre ETL s'avère assez dont IBM/Informix, Oracle, Informatica s'est récemment Business Objects, Oracle,
complète y compris pour Sybase, IBM DB2, HTML et engagé sur le créneau des Hyperion, Crystal Decisions,
maintenir l'intégrité des fichiers txt. applications analytiques, mais Brio, SAP, Cognos, Peoplesoft,
métadonnées sur toute la l'offre ETL est indépendante. Kana, Nuance, Microstrategy...
chaîne de traitement. L'outil ETL ainsi que les middleware MQ
s'appelle Vision:Pursuit. pour aller plus loin.

Information Positionnement hybride entre


la business intelligence, l'ETL
A travers son outil ETL, I.B.
attaque près de 80 sources de
Builders et plus récemment l'EAI avec données. Les connecteurs EAI
Cognos Ce n'est pas la spécialité de
Cognos, mais l'outil semble
Se dit compatible avec 100
sources OLAP, dont SAP BW
ETL Manager la création de sa filiale iWay
Software. Les 2 dernières
d'iWay concernent environ
120 applications selon l'éditeur.
DecisionStream s'être éprouvé dans le temps (certifié), Hyperion, Informix, SQL offres sont les plus complètes,
après avoir changé de nom. A Server 2000 et Sybase... la première se cantonnant
priori, se servir de préférence essentiellement à du reporting
de l'outil avec Cognos pour une sans véritable analyse
raison de compatibilité. approfondie.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
9  G. Gardarin
L'entrepôt
‹Base relationnelle
z Support de larges volumes (qq 100 gigas à qq téras)
z Historisation des données (fenêtres)
z Importance des agrégats et chargements en blocs
‹Base spécialisée
z Base multidimensionnelle
z Combinaison des deux
‹Machine support
z Multiprocesseurs
z Mémoire partagée, cluster, bus partagé, etc.

10  G. Gardarin
Principaux DW (Jdnet)
Hyperion EssBase est l'entrepôt de
données multi-
Ce n'est pas à la base de
données de se connecter aux Entrepôt de données
Essbase dimensionnel de référence applications mais aux multi-dimensionnel avec
sur le marché de la applications de se connecter Les solutions qui accèdent
des extensions de divers
business intelligence. à la base de données. Les à Teradata sont a priori un
types dont des formules
Possibilité de compléter accès vers Essbase sont NCR de data mining. Réputé
peu moins nombreuses que
avec l'offre analytique nombreux. Se reporter aux Teradata Database pour Hyperion Essbase,
d'Hyperion ou des solutions autres catégories pour savoir notamment pour ses
Microsoft, IBM DB2, Oracle
tierces. qui accède à quelles sources. capacités de montée en
et Sybase.
charge sous Unix et
Windows 2000.

Dernière version de la
base de données
IBM DB2/Universal DataBase
est la base de données
Même remarque que pour
Hyperion, en particulier pour relationnelle de l'éditeur,
DB2/UDB, relationnelle d'IBM. En DB2 qui est relativement Oracle 9i est retaillée
Informix XPS et Red Brick Même remarque que pour
rachetant Informix et son répandue. Se renseigner sur dans une optique qui
activité bases de données, les solutions qui peuvent Oracle approfondit les fonctions
Hyperion et Microsoft, car
Big Blue a récupéré ses accéder nativement aux Oracle 9i Oracle 8i est encore très
dédiées à la business
entrepôts de données différents SGBD OLAP répandue.
intelligence. Peut
multi- propriétaires d'Informix.
dimensionnels: également fonctionner
XPS (datawarehouse), comme entrepôt de
et Red Brick (datamart). données OLAP.

IQ est la version déclinée


de la base de données
relationnelle de Sybase, Même remarque que pour
Sybase pour des besoins en Hyperion, IBM DB2, Oracle
Microsoft La version la plus récente
de la SGBDR (base de
Même remarque que pour
Hyperion. SQL Server est
Adaptive Server IQ rapport avec la business et Microsoft
SQL Server 2000 données relationnelle) de très répandue, mais souvent intelligence, donc aussi le
Microsoft. A enrichi ses encore en version 7.0 qui CRM analytique.
fonctions OLAP avec peut aussi être attaquée par
Analysis Services. Parmi la plupart des solutions du
celles-ci: l'accès direct aux commerce qui fonctionnent
cubes via le web, et une sous Windows
extension data mining.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
11  G. Gardarin
Bilan Entrepôt
‹ Le datawarehouse regroupe,
historise, résume les données de
l ’entreprise
‹ Le concepteur définit schéma
exportés et intégrés
z des choix fondamentaux !
z Ciblage essentiel !
‹ Le datamart c’est plus ciblé et plus
petit.
‹ Questions ?
z Peut-on ajouter des données au niveau
de l ’entrepôt ?

Introduction DW 12  G. Gardarin
2. Le multidimensionnelle
‹Dimensions:
z Temps
z Géographie
z Produits
z Clients
z Canaux de ventes.....
‹Indicateurs:
z Nombre d’unités vendues
z CA
z Coût
z Marge.....
Le multidimensionnel 13  G. Gardarin
Le data cube et les dimensions
Axe d'analyse: La géographie
(Pays - région - ville)

Variables analysées:
Nb unités, CA, marge...

Axe d'analyse: Les produits


(classe, produit)

Axes d'analyse: dimensions


Axe d'analyse: Le temps Variables analysées: indicateurs
(Année, trimestre, mois, semaine)
Le multidimensionnel 14  G. Gardarin
La granularité des dimensions

Temps Jours Mois Trimestres Années

Géographie Villes Régions Pays

Produits Numéros Types Gammes Marques

Le multidimensionnel 15  G. Gardarin
La navigation multidimensionnelle

Projection en 2 dimensions Coupe d ’un cube


Produits Produits
pour une région donnée
CA CA

Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France

CA Est Sud Ouest


Temps en mois
Lyon Marseille Nice

Le multidimensionnel 16  G. Gardarin
Les vues d'un cube
‹Partant d'un cube 3D, il est possible d'agréger
selon une dimension tournante
‹On obtient un treillis de vues (calculable en SQL)
NumPro, NumFou, Date

NumPro, NumFou NumPro, Date NumFou, Date

NumPro NumFou Date

Le multidimensionnel 17  G. Gardarin
ROLAP versus MROLAP
SQL+Cube SQL+Cube
Opérateurs Cache Cube
décisionnels
Analyseur
SQL
Optimiseur
Analyseur
Opérateurs Optimiseur
Opérateurs décisionnels
relationnels Opérateurs
Cache SGBD relationnels Cache SGBD

Le multidimensionnel 18  G. Gardarin
Les principaux fournisseurs
‹ Oracle
z Express = Datacube
z Report = Reporting
‹ Business Object
z BusinessQuery = Requêtage
z BusinessObject = Requêtage+Analyse+Reporting
z WebIntelligence = Datacube
‹ Cognos
z Impromptu = Reporting
z Powerplay = Datacube
z Query = Requêtage
‹ Hyperion
z ESS Base = Base MOLAP
z ESS Analysis= Analyse+Datacube

19  G. Gardarin
Bilan Multidimensionnel
‹ La modélisation
multidimensionnelle est adaptée
à l ’analyse de données
‹ Le datacube est au centre du
processus décisionnel
z transformation et visualisation 3D
z une algèbre du cube :
‹Slice, Dice, Rollup, Drilldown
‹ Questions ?
z Combien de datacubes à partir de N
variables ?

Le multidimensionnel 20  G. Gardarin
3. Qu’est-ce-que le data mining ?
‹Data mining
z ensembles de techniques d'exploration de données afin
d'en tirer des connaissances sous forme de modèles
présentées à l ’utilisateur averti pour examen

Données Data
entrepôt mining Connaissances
Découverte de Compréhension
‹Connaissances modèles Prédiction
z analyses (distribution du trafic en fonction de l ’heure)
z scores (fidélité d ’un client), classes (mauvais payeurs)
z règles (si facture > 10000 alors départ à 70%)

La fouille de données 21  G. Gardarin


Domaines d'utilisation
‹De plus en plus de domaines
z explosion des données historisées
z puissance des machines support
‹Quelques domaines réputés
z Analyse de risque (Assurance)
z Marketing et Grande distribution
z Médecine, Pharmacie
z Analyse financière
z Gestion de stocks
z Maintenance
z Profilage d'utilisateurs (Web)
La fouille de données 22  G. Gardarin
Mécanismes de base
Données Données
apprentissage Modèle réglé à prédire

Moteur Moteur
DM DM

Modèles Modèle réglé Données prédites

La fouille de données 23  G. Gardarin


Exemple : Régression linéaire
‹Y = a X + B

Confiance
Entrées
X
Sortie
Y
‹Apprentissage sur la base
‹Utilisation pour prédire le futur
‹Qualification par degré de confiance

La fouille de données 24  G. Gardarin


Méthode SEMMA (SAS)
‹ Sampling = Échantillonner
z tirer un échantillon significatif pour extraire les modèles
‹ Exploration = Explorer
z devenir familier avec les données (patterns)
‹ Manipulation = Manipuler
z ajouter des informations, coder, grouper des attributs
‹ Modelling = Modéliser
z construire des modèles (statistiques, réseaux de neuronnes,
arbres de décisions, règles associatives, …)
‹ Assessment = Valider
z comprendre, valider, expliquer, répondre aux questions

La fouille de données 25  G. Gardarin


4. Principales Techniques
‹Analyse statistique
z régression linéaire et logistique
z réseaux baysiens
z analyse de composantes
‹Découverte de modèles fonctionnels
z fonctions probabilistes
z réseaux de neurones

Techniques de fouille 26  G. Gardarin


Classification
‹Groupage (Clustering)
distance
z K-moyennes
z Groupage hiérarchique

‹Segmentation
z arbres de décision
z réseaux d'agents

durée

27  G. Gardarin
Règles associatives
‹La découverte de règles
z découverte de relations plus fines entre données
z du style si X alors Y
‹si Achat(Vin) alors Achat(Boursin) (10%, 15%)
‹si Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%)
‹Support : probabilité absolue P(XY)
z |XY|/ |BD| = % de transactions vérifiant la règle
‹Confiance : probabilité conditionnelle P(Y/X)
z |XY|/|X| = % de transactions vérifiant l'implication
‹Comment extraire les règles intéressantes ?
z exemple : Supp.> 0.1 et Conf.> 0.7
z comment optimiser les calculs d'indicateurs ?
Techniques de fouille 28  G. Gardarin
Nombreux algorithmes
‹Réduire le nombre de passes (I/O)
‹Réduire le temps CPU
‹Nombreux algorithmes
z Apriori [Agrawal & Imielinski & Swami]
z Apriori-tid [Agrawal & Srikant]
z Partition[Savasete & Omseinski & Navatgr]
z Dynamic Counting [Brin & Ullman & Tsur]
z Bitmap [Gardarin & Pucheral & Fei]
z ...

Techniques de fouille 29  G. Gardarin


Des règles plus générales
‹Les règles négatives et/ou disjonctives :
z Expr(Ci) => Expr(Cj) avec ET, OU, NOT
‹ Les règles multi-attributs :
z associent des valeurs d'attributs distincts
z téléphone : Source = "New-York" => Cible ="Paris"
‹Les règles à attributs variables :
z exemple Age ∈[x,y] => Salaire > 300 KF (5%,30%)
‹Les règles avec généralisation
z associée à une taxonomie
‹Les patterns séquentiels
z A puis B puis C

Techniques de fouille 30  G. Gardarin


5. Conclusion
‹ De nombreuses techniques ‹ Questions ?
d'exploration
z La plupart ne passe pas à
l'échelle
‹ limitées à quelques milliers
d ’objets
‹ échantillonner puis valider
z Un bon outil propose plusieurs
techniques
‹ Les problèmes difficiles :
z Comment explorer de
volumineuses BD ?
z Maintenance incrémental des
règles ?
z Exploration de types de
données complexes ?

Conclusion DM 31  G. Gardarin
Principaux produits
‹ SAS de SAS
z Statistiques, arbres de décision, réseaux de neurones, règles
‹ Intelligent Miner d'IBM
z Statistiques, arbres de décision, règles associative, textes
‹ SPSS et Clementine de SPSS
z classification, modèles fonctionnels (agents), statistiques
‹ Knowledge Seeker d'Angoss
z statistiques, classification, arbres de décision
‹ Oracle
z Rachat de Thinking Machines
‹ Microsoft OLE DB for Data Mining
z Arbres de décisions, règles associatives, etc.

Conclusion DM 32  G. Gardarin
Caractéristiques d'outils (Jdnet)
L'offre intègre
DD/Marketer pour générer Tout comme IBM, il s'agit
CRM Front-office: Siebel, Pour les commentaires, se
les modèles prédictifs d'une extension à la base de
AIMS, Broadvision (eCRM). reporter à IBM deux cases
données Oracle 9i, et non
Data Distilleries (segmentation), DD/Sire
L'intégration est déjà Oracle au dessus. Oracle 9i Data
d'un produit surajouté
DD Series pour déployer les 9i Data Mining Mining est intégré à Oracle
programmée avec Siebel réclamant une intégration à
recommandations, et Customer Intelligence
7.0. travers une API Java ou
DD/Expert pour construire (tableau 1).
les scenarii. C++.

DB2 Intelligent Miner est SAS livre sa propre plate-


l'outil de data mining Comme son nom l'indique, SAS est l'éditeur de forme Integration
utilisé dans DecisionEdge ne fonctionne que sur une référence dans le domaine Technology pour
for Relationship Marketing base de données IBM DB2, du data mining. e- l'inteconnexion au back-
(voir tableau 1), mais IBM mais dans de nombreux Discovery est la solution office et aux solutions
en propose de plus ciblés. environnements (AIX, SAS de modélisation prédictive tierces. Comme toujours, il
IBM Un cas intéressant est OS/390-400, Solaris, e-Discovery phare de SAS dans le faut être capable de
DB2 Intelligent Miner celui de Internet Sales Windows 2000 et NT...). Cet domaine du CRM multi- programmer en SAS. La
Predictor, une applet Java outil et ses déclinaisons sont canaux. Utilisateurs avertis dernière version fournit un
téléchargeable en fait des extensions à la pour besoins pointus en pont vers les serveurs
gratuitement sur le site base de données qui en est règle générale. WebDAV et le middleware
IBM consacré aux le point central. Tibco/RendezVous.
développeurs.

SPSS est considéré comme


Intégration de composants le leader sur le segment
La position de KXen est Principal partenaire: Siebel,
en OEM dans Business des outils statistiques
particulière. Son objectif qui dispose d'une
Objects, Profile4You (eCRM), (pour des experts).
est de fournir des participation dans le capital
Norkom et Coheris/ISO Clementine est sa plate-
algorithmes avancés qui se de SPSS.
(CRM). Travaux avec forme de data mining.
Autre CRM: Chordiant à
basent sur les théories
Kana/Broadbase. Selon SPSS 14 méthodes différentes
travers Prime Response.
KXen récentes du chercheur
KXen, une intégration totale Clementine de modélisation prédictive
Entrepôts de données:
Composants KXEN russe Vapnik, par sont compilées (d'autres
des composants dans un Oracle, Hyperion, Informix
intégrables opposition à la méthode éditeurs fournissent aussi
environnement donné prend Red Brick Warehouse
Fischer du début du siècle, plusieurs algorithmes).
2 ou 3 semaines maximum. (datamart).
répandue dans la plupart Rachat récent de
Composants programmés en ETL: Ascential.
des autres solutions. NetGenesis (eCRM/Web
C++, DCom, Corba, Java.
Bénéfice: résultat rapide et mining).
Echanges: ODBC ou texte
pertinent.
pur.

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
33  G. Gardarin
Le marché du BI
BI= Business Intelligence

Data PRO Users Survey


34  G. Gardarin
Les Data Trucs
‹Datawarehouse
z entrepôt des données historisées de l'entreprise
‹Datamart
z magasin de données ciblé sur un ou plusieurs sujets
‹Datamining
z exploration des données afin de découvrir des
connaissances
‹Datacube
z cube de présentation d'unités selon 3 dimensions
‹Datawebhouse
z entrepôt des données collectées sur le web

Conclusion DM 35  G. Gardarin