Vous êtes sur la page 1sur 26

Fouille de donnes (Data Mining)

Karine Zeitouni ISTY - 3me anne Universit de Versailles Saint-Quentin Edition 2010-2011

Plan Gnral du Cours


1. 2.

Introduction Principales techniques


1. 2. 3. 4. 5. 6. 7.

Motifs frquents Associations Classification et prdiction Groupage et segmentation Prparation des donnes Filtrage et validation Mthodologie et Standards Motifs squentiels Fouille de texte Fouille de donnes spatiales et spatiotemporelles Fouille de flots de donnes
K. Zeitouni Fouille de donnes

3.

Fouille de donnes complexes


1. 2. 3. 4.

4.

Etude de cas

I. Introduction

I. Introduction
1. 2. 3. 4. 5. 6. 7. 8.

Motivation : pourquoi le data mining ? Mtaphore Dfinition Applications Fonctions du data mining Lien aux autres disciplines Historique March du data mining et de la BI
K. Zeitouni Fouille de donnes

1. Motivation (1)
!

Problme de laugmentation de taille des donnes (tera petabytes)

Accumulation de donnes dans diverses sources due :


" "

la maturit des technologies de bases de donnes et lautomatisation de collecte de donnes

Caractristiques certaines sources


" " "

Entrepts du Web : ex. Google Gnres par le commerce lectronique : ex. Transactions Rseaux sociaux et hbergement de documents : ex. Facebook, gmail Gnres par des capteurs : ex. Images de tldtection + Surveillance, Logs de tout genre, simulations,
K. Zeitouni Fouille de donnes

" "

Motivation (2)
! Croissance

exponentielle des bases de donnes

K. Zeitouni 6

Fouille de donnes

Motivation (3)
! Pourquoi maintenant ? Lutilisation dans lindustrie du data mining est rcente Les donnes sont produites lectroniquement Le contexte est ultra-concurrentiel Les donnes sont archives Plateformes de calculs disponibles bas prix Des solutions et des comptences data mining disponibles
!

Un nouveau march

Nouveau concept : Information as a product Toute socit ou organisme qui collecte des donnes valorisables est potentiellement un broker dinformation, quil peut vendre ou en exploiter commercialement les modles pour des utilisations essentiellement marketing. Ex: Mots-cls pour les moteurs de recherche.
K. Zeitouni Fouille de donnes

Trop de donnes...
Paradoxe :
!

trop donnes mais pas assez dinformations

K. Zeitouni

Fouille de donnes

Difficult daccs linformation


!

Trop de donnes tue linformation

K. Zeitouni

Fouille de donnes

Trop de pistes explorer...

10

K. Zeitouni

Fouille de donnes

pas daccs facile linformation


Oh John, the computer doesnt provide any ! What are we going to do ?

Jane, we need a solution !

11

K. Zeitouni

Fouille de donnes

Ce dont on a besoin.

Automatisation
12
K. Zeitouni Fouille de donnes

Ce dont on a besoin.
Extraction des connaissances des bases de donnes

Gnration dhypothses
13
K. Zeitouni Fouille de donnes

Quest ce que le Data Mining ?


!

Objectif :
1. 2.

Par analogie la recherche des ppites d or dans un gisement, le data mining vise : extraire des informations caches par analyse globale ; dcouvrir des modles (patterns) difficiles percevoir car :
" " "

le volume de donnes est trs grand le nombre de variables considrer est important ces patterns sont imprvisibles (mme titre dhypothse vrifier)

14

# Gnrateur valideur dhypothses


K. Zeitouni Fouille de donnes

3. Dfinition
!

Dfinition :

Extraction de connaissances, non triviales, implicites, pralablement inconnues et potentiellement utiles, depuis des donnes stockes dans de larges bases de donnes.

Ce qui nest pas data mining


Lanalyse par requtes. Les bases de donnes dductives et les systmes experts Les mthodes dapprentissage (IA) et lanalyse statistique sur un petit ensemble dobservations.

15

K. Zeitouni

Fouille de donnes

Applications par domaine


Services financiers

Marketing

Attrition (churn) Dtection de fraudes Identification opportunits de ventes Fidlisation (anti-churn) Ventes croises Incidentologie

Gestion de la relation client (CRM) Optimisation de campagnes marketing Ventes croises Indiquer les anomalies des comptes Rduire le cot dinvestissement dactivit suspecte Dtection de la fraudes Trouver les facteurs de diagnostic typiques dune maladie Alignement gnes & protnes Identifier les capacits dinteraction de mdicaments

Tlcommunications

Assurances, Secteur public


Grande Distribution

Sciences de la vie

Fidlisation Ventes croises Analyses de panier Dtection de fraudes

Internet

Autre

16

Personnalisation des pub affiches Rech. dinfo (web ou document) Optimisation des sites web Recherche par similarit (images) Profilage et Recommendation Analyse K. Zeitouni Fouille de donnes spatiale

Domaines phares
La matrise de linformation et de la connaissance permet :
!CRM

(Customer Relationship Management)

Amliorer la connaissance client, Identifier et prvoir la rentabilit client. Accrotre lefficacit du marketing client pour le garder.

! SRM

(Supplier Relationship Management)

Classifier et valuer lensemble des fournisseurs. Planifier et piloter la stratgie Achat.

! FI

(Finance Intelligence)
Mesurer et grer les risques.

!SPM

(Strategic Performance Management)

Dterminer et contrler les indicateurs cl de la performance de lentreprise Tirer parti dun avantage concurrentiel

! HCM

(Human Capital Management)

Modliser la carte des RH (Ressources Humaines) Aligner les stratgies RH, les processus et les technologies.
K. Zeitouni Fouille de donnes

17

Exemples dapplication
!

Gestion et analyse commerciales

Analyse clientle ou CRM analytique (gestion de la relation client) :


"

Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? O placer ce produit dans les rayons ? Comment cibler plus prcisment le mailing concernant ce produit ?

Marketing cibl, actions commerciales, vente croise :


"

Analyse du risque

Prdiction, fidlisation des clients, contrle qualit, comptitivit Dtection des fraudes, analyse des incidents

Autres applications

Gestion, indexation et classification de documents, du web et de la navigation sur Internet. Moteurs de recherche intelligents.
K. Zeitouni Fouille de donnes

18

Data mining pour le CRM


! Mieux

connatre le client
! Pour augmenter sa fidlit (+ coteux dacqurir un client que le conserver)

! Pour mieux le servir


! Pour augmenter sa satisfaction

Data mining pour savoir :


Quel client restera fidle et qui partira? " Quels produits proposer quels clients? " Quest-ce qui dtermine quune personne rpondra une offre donne? " Quel est le prochain produit ou service quun client particulier dsirera?
"

19

K. Zeitouni

Fouille de donnes

Exemple 1 analyse commerciale


!

Gisement de donnes

Oprations de carte de crdit, de cartes de fidlit, plaintes des clients, en plus des sondages marketing (publics), Web logs Grouper les clients par classes homognes selon leurs proprits : ge, situation familiale, CSP, revenu, type de rsidences, types de dpenses, etc. Profilage des clients par classification : qui achte quoi ? Associations/corrlations entre produits vendus Dcouverte des prfrences des clients, optimisation du site, etc.
K. Zeitouni Fouille de donnes

CRM

Ventes croises

Usage du web marketing et ventes sur internet

20

Exemple 2 : Anti-Churn
! Application

type dans le secteur des tlcom ! Bases de donnes des clients et des appels ! Fichiers des rclamations ! Qui sont les clients susceptibles de partir chez un concurrent ?

21

K. Zeitouni

Fouille de donnes

Exemple 3 Dtection de fraudes


! Sant " Anomalies dans les prescriptions ! Assurances dtecte les fausses dclarations daccidents ! Finance

Transactions financires suspectes

! Tlcommunications Caractrisation des modles dappels en fonction de la destination, du moment et de la dure et dtection de dviation par rapport la normale

22

K. Zeitouni

Fouille de donnes

Exemple 4 : Application boursire


! Portail

boursier

conseil en achat / vente d'actions Donnes de base


historique des cours portefeuille client

! ! ! !

Analyse du risque Analyse technique du signal Conseils d'achat vente Mise disposition sur portail

23

K. Zeitouni

Fouille de donnes

5. Fonctions du Data Mining (1)


!

Caractrisation et discrimination

Gnraliser, rsumer, retrouver et contraster les caractristiques des donnes (ou dune partie) Association traditionnelle :

Association

PC $ Pack Office [support = 1%, confiance = 75%] Diaper $ Beer [support = 0.5%, confiance = 75%]

Association multi-dimensionnelle :

ge(X, 20..29) ^ revenu(X, 20..29K) $ achat(X, PC) [support = 2%, confiance = 60%] Corrlation ou causalit ?

24

K. Zeitouni

Fouille de donnes

Fonctions du Data Mining (2)


!

Classification et prdiction

Apprentissage de modles permettant de dcrire et de diffrencier des classes afin de classer les futures individus Prsentation : rgles de classement (si ...alors), arbre de dcision, rseaux neuronal Ex : solvabilit des clients

Rgression

Fonction mathmatique Ex : prdire le % de profit ou de perte des prts d'une banque


K. Zeitouni Fouille de donnes

y=a1*x1+a2*x2+...+an*xn + r ; r = rsidu et y = variable prdire

25

Illustration : Modle prdictif


Training Data Mining Model Data to Predict

DM Engine

DM Engine

Mining Model

Mining Model

Predicted Data

26

K. Zeitouni

Fouille de donnes

Fonctions du Data Mining (3)


!

Classification ou segmentation non supervise(clustering)

Dcoupage dune population en sous-ensembles homognes permettant de dcouvrir des classes Son principe est de maximiser la similarit intra-classe tout en minimisant la similarit inter-classes Ex : trouver une segmentation pertinente des clients pour guider les actions commerciales ou les affectations des conseillers,

27

K. Zeitouni

Fouille de donnes

Fonctions du Data Mining (4)


!

Analyse de dviations (bruit ou anomalies ?)


Par la non conformit au comportement gnral Peut-tre interprt comme un bruit ne pas prendre en compte ou comme une anomalie dans la dtection de fraude ou comme un vnement intressant par sa raret

Tendances et volutions

Analyse de sries temporelles dans le but de prdire lvolution Dtection de motifs squentiels frquents ou priodiques
" "

Ex1 : squence dachat dun client Ex2 : comportement collectif dachats (priodicit)

Et la tendance et dviations sur des flots de donnes ?


K. Zeitouni Fouille de donnes

28

6. Lien aux autres disciplines


Bases de donnes Statistique

Intelligence Artificielle (IA)

Data Mining

Visualisation

Science de Linformation

Autres disciplines
K. Zeitouni Fouille de donnes

29

Data mining versus statistique


! En

statistique :
Quelques centaines dindividus Quelques variables Fortes hypothses sur les lois statistiques Importance accorde au calcul chantillon alatoire.

! En

Data mining
Des millions dindividus Des centaines de variables Donnes recueillies sans tude pralable Ncessit de calculs rapides Corpus dapprentissage.
K. Zeitouni Fouille de donnes

30

Data mining versus statistique et IA

31

K. Zeitouni

Fouille de donnes

Ce qui est nouveau en data mining


!

Expression et rsolution des rgles d'association

analyse de la consommation depuis <Num. transaction, articles achets>

Extension de SQL par des requtes inductives (ex. DMQL)

intro. de connaissances tq hirarchie de concepts et dfinition des seuils

Nouveaux algorithmes :

ex. pour le clustering utilise des techniques dindexation de bases de donnes pour l efficacit sur de GROS volumes de donnes

Lintgration de lOLAP et du data mining

32

Par exemple, gnration de hirarchies de dimension par la classification automatique hirarchique.


K. Zeitouni Fouille de donnes

DM versus Systmes dcisionnels (1)


! Knowledge

Discovery in Databases (KDD)

Processus complet dExtraction de Connaissances des Donnes (ECD)

! Comprend

plusieurs phases dont :

Le data warehousing LOLAP Le data mining Le reporting

33

K. Zeitouni

Fouille de donnes

DM versus Systmes dcisionnels (2)


!

Datawarehouse (Entrept de donnes)

Base de donnes construite dans un but dcisionnel construite depuis des bases de production souvent multisources et archivant des donnes historises
"

actualises soit par interrogation des bases sources (data pull), soit par envoie automatiques des modifications par les serveurs (data push)

"

gnralement de gde taille corr. larchivage du rsultat des requtes

Datamart : magasin de donnes cibl sur qq sujets particuliers l chelle dun dpartement de lentreprise

34

K. Zeitouni

Fouille de donnes

DM versus Systmes dcisionnels (3)


!

On-Line Analytical Processing (OLAP)

exploration (lecture) dun datawarehouse par analyse multidimensionnelle et interactive reprsente les donnes dans des Data Cubes donnant des comptages, totaux, ..., pour chaque variable et pour toute combinaison de variables avec diffrents niveaux de dtail (ex : total annuel, sous-totaux mensuels, par semaine, ...)

35

K. Zeitouni

Fouille de donnes

Processus de KDD

36

K. Zeitouni

Fouille de donnes

Business Intelligence
! La

Business Intelligence (BI) est un concept propos par IBM, Microsoft, Oracle, pour :
Consolider la quantit gigantesque de donnes atomiques que les entreprises gnrent en information pour que les gens puissent les accder, les comprendre et les utiliser => Prsenter linformation dans des formats plus utiles, en utilisant des outils dexploration, de reporting et de visualisation avancs.

But :

Amliorer les performances dcisionnelles de l'entreprise en rpondant aux demandes danalyse des dcideurs non informaticiens et non statisticiens
K. Zeitouni Fouille de donnes

37

Processus de KDD revu

38

K. Zeitouni

Fouille de donnes

Pyramide de la BI
Niveau daide la dcision

Aide la dcision Prsentation Techniques de Visualisation Data Mining Dcouverte des connaissances Exploration des donnes Analyse statistique, requteurs, rapports

Utilisateur final

Analyste mtier

Analyste de donnes

Entrepts et magasins de donnes Intgration, OLAP Sources de donnes Documents, fichiers, SGBD oprationnels (OLTP), fournisseurs

DBA

39

K. Zeitouni

Fouille de donnes

7. Historique (1)
Cration et alimentation de fichiers (60) SGBD (70 - 80) BD Relationnelles & OLTP BD avances (>mi 80) Datawarehouse/ BD Web (>90) - Relationnel tendu, dductif Datamining (>fin 80) -BD semi-structure (XML) - Objet, objet-relationnel - OLAP -BD documents -Types spatial, multimdia, tempo. - KDD BD mondiales (> 2000) - Rseaux sociaux normes - Flots de donnes => Besoin de flexibilit et dauto-admin BD & RI convergents (> 2000) -Requtes flexibles (Top-K, similarit) - BD probabilistes - KDD essentiel !
Fouille de donnes

40

K. Zeitouni

Historique (2)
! Le

data mining nest pas nouveau :


1875 : Rgression linaire 1936 : Analyse discriminante 1943 : Rseaux de neurone 1944 : Rgression logistique 1984 : Arbres de dcision 1990 : Apparition du concept de data mining

41

K. Zeitouni

Fouille de donnes

Historique (3): domaine de recherche


!

1989 IJCAI Workshop on Knowledge Discovery in Databases

Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

1991-1994 Workshops on Knowledge Discovery in Databases

1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD95-98)

Journal of Data Mining and Knowledge Discovery (1997)

! !

ACM SIGKDD conferences since 1998 and SIGKDD Explorations More conferences on data mining

PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.
Fouille de donnes

! K. in 2007 42 ACM Transactions on KDD startingZeitouni

8. March de la Business Intelligence


March daprs Estimations de Gartner (Juin 2009) : 7.2 Milliard $ en 2007 $ 8.8 Milliards $ en 2008 (+21.7%)
BI, Analytics and Performance Management Revenue (Millions of U.S. Dollars)!
Company SAP SAS Institute Oracle IBM Microsoft MicroStrategy Others Total 2008 Revenue 2,096.0 1,286.6 1,284.0 996.5 681.5 280.0 2,177.1 8,801.6
K. Zeitouni

2008 Market Share (%) 23.8 14.6 14.6 11.3 7.7 3.2 24.7 . 100.0
Fouille de donnes

43

Produits de data mining

SAS Poids lourd en stat.

Rachet par SPSS Workflows Convivial

DataMind Bas rseaux dagents

44

K. Zeitouni

Fouille de donnes

Quelques produits
!

SAS Entreprise Miner de SAS

Statistiques, groupage, arbres de dcision, rseaux de neurones, associations, ... statistiques, classification, rseaux de neurones modlisation prdictive (stat.), groupage, segmentation, analyse d'associations, dtection de dviation, analyse de texte libre
Utilise SVM pour le SRM (Structural Risk Minimization)

Logiciels libres :
! ! !

SPSS et Clementine de SPSS

Weka RapidMiner (Univ. Dortmund) Tanagra (Univ. Lyon 2)

Intelligent Miner d'IBM

Site de rfrence :

kdnuggets.com

KXEN

! !

Oracle 10g ODM SQL Server DM


K. Zeitouni Fouille de donnes

45

46

K. Zeitouni

Fouille de donnes

47

K. Zeitouni

Fouille de donnes

Classement des logiciels de DM

metagroup.com Copyright 2004 META Group, Inc. All rights reserved. METAspectrum 60.1

48

K. Zeitouni

Fouille de donnes

Standards
!

Predictive Model Markup Language (PMML)


Standard de Data Mining Group (DMG) : www.dmg.org Pour les modles gnrs par diffrents algorithmes de data mining ainsi que pour la transformation de donnes et les statistiques descriptives. Adopt par une majorit doutils : SAS, SPSS, Microsoft, Oracle, IBM, KXEN, ANGOSS,

CRoss Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM standardise la mthodologie pour le data mining et lanalyse predictive.

! !

SQL/ MM DM Java DM (JDM) API


K. Zeitouni Fouille de donnes

49

Offre de postes en Data Mining

K. Zeitouni 50

Fouille de donnes

Rfrences ouvrages
!

Ren Lefbure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site web, Eyrolles, mars 2001 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006 (3ed. 2011) D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991

! !

! ! !

51

K. Zeitouni

Fouille de donnes