Vous êtes sur la page 1sur 19

Le data mining

1. Introduction

Dfinition du data mining (fouille de donnes)

lextraction dinformations originales, auparavant inconnues, potentiellement utiles partir de donnes (Frawley et Piateski-Shapiro) la dcouverte de nouvelles corrlations, tendances et modles par le tamisage dun large volume de donnes (John Page)
On parle galement de KDD (Knowledge Discovery in Databases, d extraction de connaissances partir de donnes).
N.PRAT - ESSEC 2

1. Introduction

Pourquoi cet engouement pour le data mining ?

Intensification de la concurrence, attention toujours plus grande au client. Lien avec les systmes dinformation dcisionnels. La technologie actuelle permet de stocker et traiter de gros volumes dinformations. Les techniques et algorithmes sont, pour la plupart, connus depuis longtemps.
N.PRAT - ESSEC 3

1. Introduction

Positionnement par rapport lapprentissage automatique

Le data mining utilise de techniques de statistiques et d intelligence artificielle (apprentissage automatique). Lapprentissage automatique (machine learning) est ltude de mthodes de calcul visant amliorer les performances en automatisant lacquisition de connaissances par lexprience (Langley). Le processus dapprentissage consiste transformer en connaissances des donnes fournies en entre, au moyen de mcanismes dinfrence.
N.PRAT - ESSEC 4

1. Introduction

Positionnement par rapport lapprentissage automatique

3 mcanismes dinfrence:
La dduction, partir de donnes gnrales, produit des donnes spcifiques. Linduction produit des donnes gnrales partir de donnes spcifiques (gnralisation ou abstraction). Lanalogie produit des donnes de mme nature que les donnes en entre (gnrales ou spcifiques).

Le data mining est un mcanisme dinduction.


N.PRAT - ESSEC 5

1. Introduction

Positionnement par rapport aux data warehouses et la business intelligence

Data warehouse = une condition souhaitable mais pas un prrequis indispensable pour le data mining.
Donnes lmentaires Data Mining Prdiction Requte Reporting

Pass

Futur

EIS
Olap Donnes agrges Positionnement du data mining par rapport aux autres outils de business intelligence
N.PRAT - ESSEC 6

2. Domaines dapplication

Domaines dapplication

Le data mining a vocation sappliquer partout o il existe de nombreuses donnes. Nombreuses applications en gestion, en particulier commercial et marketing. Essor du web mining: application du data mining aux donnes collectes lors des transactions sur le Web.

N.PRAT - ESSEC

2. Domaines dapplication

Quelques exemples par secteur dactivit

Grande distribution et VPC:


analyse du comportement des consommateurs segmentation prdiction des taux de rponses en marketing direct optimisation des rapprovisionnements

Banque:
recherche des formes dutilisation de cartes caractristiques dune fraude prvision des dparts de clients

Assurance:
analyse des sinistres prvision dappels sur les plate-formes dassurance directe.
N.PRAT - ESSEC 8

3. Processus

Processus de data mining


Processus interactif, itratif et non trivial . Cycle du data mining compos des phases de:
slection des donnes pr-traitements transformations data mining proprement dit interprtation, visualisation et valuation de la connaissance extraite.

N.PRAT - ESSEC

Typologie des techniques de data mining


Knowbots

4. Techniques

Distinction entre Donnes stockes les techniques qui travaillent sur des donnes stockes (modle Data Mining construit a priori), et celles qui analysent les donnes pour construire un modle. Donnes analyses

Raisonnement base de cas


Rseau de neurones

Modle dquations
Techniques de rgression Rgles Analyses logique

Arbres de dcision
Analyses factorielles Analyses de typologie
10

Techniques de projection
N.PRAT - ESSEC

4. Techniques

Quelques techniques de data mining

Knowbot (condens de Knowledge et Robot): agent intelligent. Raisonnement base de cas: Consiste rsoudre un nouveau problme en rutilisant un problme similaire dj connu. Rseau de neurones: Processus opaque qui permet, partir de variables en entre, de dcouvrir la valeur dune ou plusieurs autres variables. Un rseau de neurones est capable de mettre profit son exprience pour ajuster le modle trouv en fonction, par exemple, de larrive de nouveaux lments.
N.PRAT - ESSEC 11

4. Techniques

Quelques techniques de data mining

Rgression: consiste expliquer les variations dune variable dpendante par des variables indpendantes. Arbre de dcision: Technique permettant de diviser des donnes en groupes bass sur les valeurs des variables. Plus une variable est discriminante (significative), plus elle est proche de la racine. Analyse factorielle: technique statistique qui combine des attributs en facteurs en fonction dindice dassociation (Chi 2 ou corrlation).
12

N.PRAT - ESSEC

Positionnement des diffrentes techniques


Spcialises leve
Rseaux de neurones Algorithmes gntiques

4. Techniques

Comptences

Gnralises

Prdiction

Scores Rgression Cluster

Arbres de dcision

Faible

Raisonnement base de cas

Faible

Lisibilit des rsultats


N.PRAT - ESSEC

leve
13

4. Techniques

Arbres de dcision

But: dterminer la valeur dune variable explique (ou dpendante) partir de la valeur de variables explicatives (variables indpendantes). A chaque niveau, la discrimination seffectue sur les valeurs dune variable indpendante. Plus une variable est discriminante, plus elle est place haut dans larbre de dcision.

N.PRAT - ESSEC

14

4. Techniques

Exemple darbre de dcision

Individus = des entreprises prospectes Variables explicatives : V1 V4 Variables explique : V5 Arbre de dcision :

Rponses
Questions E1 Oui Oui Oui Non Oui E2 Oui Non Non Oui Oui E3 Non Non Oui Oui Oui E4 Oui Non Non Non Non E5 Non Non Oui Non Non E6 Non Non Oui Non Non

V1 V2 V3 V4

Connat lcole A eu un stagiaire A embauch un tudiant Verse la taxe RDV accept

V5

Verse la taxe = oui

Rendez-vous accept = oui

Entreprise
A eu un stagiaire = oui Verse la taxe = non A eu un stagiaire = non
Rendez-vous accept = non 15 Rendez-vous accept = oui

Arbre de dcision (outil Alice dIsoft)

4. Techniques

N.PRAT - ESSEC

16

5. Outils

Quelques outils de data mining


Angoss Software KnowledgeStudio & Mining Manager Computer Associates Cleverpath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining Quadstone System SAS Enterprise Miner SPSS Clementine.

N.PRAT - ESSEC

17

5. Outils

Positionnement des outils de data mining (source: METAGroup)

N.PRAT - ESSEC

18

6. Application avec MineSet

Application avec loutil MineSet (Purple Insight)

Arbres de dcision:

Ouverture/import du fichier de donnes Traitement des attributs (suppression, discrtisation) Visualisation des statistiques et histogrammes Gnration de larbre de dcision (test des diffrentes options) Visualisation/interprtation de larbre de dcision Utilisation pour la simulation.

Autres techniques/outils (ex: rgles dassociation, cartes).


N.PRAT - ESSEC 19