Vous êtes sur la page 1sur 48

Le Data Mining: Mthodologie

Dfinition et introduction Principales applications Mthodologie du DM Exemples de fonctionnement

1. Emergence du domaine
 Workshops


1991, 1993, 1994 1995, 1996, 1997, 1998, 1999

 International Conf. on KDD and DM




 Data Mining and Knowledge Discovery Journal (1997)  Special Interest Group Knowledge Discovery in Databases (1999) de lAssociation for Computing Machinery (ACM)
2

Mtaphore
 Par analogie la recherche des ppites d or dans un gisement, la fouille de donnes vise :


extraire des informations caches par analyse globale dcouvrir des modles (patterns) difficiles percevoir car:
le volume de donnes est trs grand  le nombre de variables considrer est important  ces patterns sont imprvisibles (mme titre d hypothse vrifier)

3

Dfinition
 Data mining


ensemble de techniques d'exploration de donnes afin d'en tirer des connaissances (la signification profonde) sous forme de modles prsents l utilisateur averti pour examen Donnes entrept Data mining
Dcouverte de modles

Connaissances
Comprhension Prdiction
4

Dcouverte de modles
x1 Entres x2 x3
MODELE

c Confiance y Sortie

x1 1 2

x2 10 20

x3 100 200

y alpha beta
5

Dcouverte et Exploitation
Training Data Mining Model Data to Predict

DM Engine Mining Model Mining Model

DM Engine Predicted Data

Connaissances
 Knowledge Discovery in Databases (KDD)


Processus complet dExtraction de Connaissance des Donnes (ECD) Comprend plusieurs phases dont le data mining analyses (distribution du trafic en fonction de l heure) scores (fidlit d un client), classes (mauvais payeurs) rgles (si facture > 10000 et mcontent > 0.5 alors dpart 70%)
7

 Exemples
  

Le processus de KDD

Etapes du processus
         1. Comprhension du domaine dapplication 2. Cration du fichier cible (target data set) 3. Traitement des donnes brutes (data cleaning and preprocessing) 4. Rduction des donnes (data reduction and projection) 5. Dfinition des tches de fouille de donnes 6. Choix des algorithmes appropris de fouille de donnes 7. Fouille de donnes (data mining) 8. Interprtation des formes extraites (mined patterns) 9. Validation des connaissances extraites  (source : Fayyat et al., 1996, p. 1-34)

Mcanismes de base
 Dduction : base des systmes experts
 

schma logique permettant de dduire un thorme partir d'axiomes le rsultat est sr, mais la mthode ncessite la connaissance de rgles mthode permettant de tirer des conclusions partir d'une srie de faits gnralisation un peu abusive indicateurs de confiance permettant la pondration
10

 Induction : base du data mining


  

2. Domaines d'application
 De plus en plus de domaines
      

explosion des donnes historises puissance des machines support nombreux datawarehouses OLAP limit ncessit de mieux comprendre rapports sophistiqus, prdictions aide efficace aux managers
11

Quelques domaines rputs


 Analyse de risque (Assurance)  Marketing  Grande distribution  Mdecine, Pharmacie  Analyse financire  Gestion de stocks  Maintenance  Contrle de qualit
12

Exemples
 Targeted ads


What banner should I display to this visitor? What other products is this customer likely to buy? Is this insurance claim a fraud? Who are those customers likely to churn? Should I approve the loan to this customer?
13

 Cross sells


 Fraud detection


 Churn analysis


 Risk Management


Churn Analysis
 Application de tlcom  Bases de donnes des clients et des appels  Fichiers des rclamations  Qui sont les clients le plus susceptibles de partir ?  Application de techniques de DM  Fichiers de 1000 clients les plus risqus  600 ont quitts dans les 3 mois
14

Trading Advisor
 Application boursire


conseil en achat / vente d'actions historique des cours portefeuille client

 Donnes de base
 

   

Analyse du risque Analyse technique du signal Conseils d'achat vente Mise disposition sur portail Web
15

3. Mthodologie -1
 1. Identifier le problme
   

 2. Prparer les donnes


    

cerner les objectifs trouver les sources dfinir les cibles vrifier les besoins

prciser les sources collecter les donnes nettoyer les donnes transformer les donnes intgrer les donnes

16

Mthodologie - 2
 3. Explorer des modles
  

choisir une technique chantillonner sur un groupe valider sur le reste (5% 1/3) calculer le d erreurs observer la ralit recommander des actions

 5. Suivre le modle
 

btir des estimateurs corriger et affiner le modle

 4. Utiliser le modle
 

17

Explorer des modles : SEMMA


 Sampling = chantillonner


tirer un chantillon significatif pour extraire les modles devenir familier avec les donnes (patterns) ajouter des informations, coder, grouper des attributs construire des modles (statistiques, rseaux de neuronnes, arbres de dcisions, rgles associatives, ) comprendre, valider, expliquer, rpondre aux questions
18

 Exploration = Explorer


 Manipulation = Manipuler


 Modelling = Modliser


 Assessment = Valider


Validation dun modle


 Matrice de confusion


comparaison des cas observs par rapport aux prdictions




exemple : prdiction de factures impayes Prdit Observ


Pay Pay Retard Impay Total 80 1 5 86 Retard 15 17 2 34 Impay 5 2 23 30 Total 100 20 30 150

Validit du modle


nombre exacte (diagonale) / nombre totale = 120/150 = 0.80

19

Dfinition de Mesures
 prcision


Rapport du nombre de documents pertinents trouvs au nombre total de documents slectionns. En anglais precision. Rapport du nombre de documents pertinents trouvs au nombre total de documents pertinents. En anglais recall. S l'ensemble des objets qu'un processus considre comme ayant une proprit recherche, V l'ensemble des objets qui possdent effectivement cette proprit, P et R respectivement la prcision et le rappel du systme :
 

 rappel


 Soient
  

P=|S R=|S

V|/|S| V|/|V|
20

Mesures
 Prcision (Precision)


= NbTrouvsCorrects/(1+NbTotal)

 Bruit (Noise)
 

= NbTrouvsIncorrects/(1+NbTotal) = 1- Prcision

 Rappel (Recall)


= NbTrouvsCorrects/(1+NbValide)

 F-mesure


= 2*(prcision*rappel)/(prcision+rappel)
21

Principales Techniques
 Drives
  

des statistiques (e.g., rseaux baysiens) de l'analyse de donnes (e.g., analyse en composantes) de l'intelligence artificielle (e.g., arbres de dcision, rseaux de neurones) des bases de donnes (e.g., rgles associatives)

 Appliques aux grandes bases de donnes  Difficults :


  

passage l'chelle et performance fonctionnement avec chantillon > qq milliers prsentation et validation des rsultats

22

4. Quelques produits
 Intelligent Miner d'IBM


modlisation prdictive (stat.), groupage, segmentation, analyse d'associations, dtection de dviation, analyse de texte libre Statistiques, groupage, arbres de dcision, rseaux de neurones, associations, ... statistiques, classification, rseaux de neurones

 Oracle 10g ODM  SQL Server DM  DB2 V8

 SAS de SAS


 SPSS de SPSS


23

SAS

24

INPUT
 Choix des variables

25

SAMPLING
 Choix du type d'chantillon

26

INSIGHT
 Analyse des donnes en 4D

27

TRANSFORM
 Transformation pour prparer

28

PARTITION
 Cration de partition d'exploration parallle

29

REGRESSION
 Slection de la mthode de rgression

30

DECISION TREE
 Construction d'un arbre par G2

31

NEURONES
 Spcification d'un rseau de neurones

32

ASSESSMENT
 Validation des rsultats

33

Approches
 De multiples approches:
    

Statistiques Classification Clustering Rgles associatives

34

Mthodes d'analyse
1 ... 1 . . Table = i able . . n J ... p

1 ... 1 . . Table = i . . n

...

p 1 . . Table = i . . n

1 ...

...

Points dans Rp

Points dans Rn
35

Familles de mthodes

Nuage de points

Visualisation dans Le meilleur espace rduit METHODES STATISTIQUES ET FACTORIELLES

Regroupement dans tout l'espace METHODES DE CLASSIFICATION, SUPERVISEE OU NON

36

5. Mthodes statistiques
 Quelques techniques de base  A la limite du DM  Calculs d'information sophistiqus

37

Fonctions Statistiques
 Esprance


permet de calculer la moyenne pondre d'une colonne pi = 1/N par dfaut traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Permet d'liminer le facteur dimension
38

 Variance


 Variable centre rduite




Diagrammes en btons
Catgorie d'employ
400

 Comptage de frquence


300

COUNT
Frquence

200

 Extension aux calculs d'agrgats




100

0 Secrtariat Cadre Responsable

AVG, MIN, MAX,


100 80 60 40 20 0

Catgorie d'employ

 Possibilit d'tendre au 3D  Apporte une vision synthtique

N o rth W est East 1 s t 2 n d 3 rd Q tr Q tr Q tr 4 th Q tr

East W est N o rth

39

Tableaux croiss (Vision 2D du Datacube)


Tableau cr i Catg rie d'employ * Sexe de l'employ * Classe mi oritaire ? Cl ss mi orit ir ?: No Eff ctif Catgori d' m loy S crt ri t S x d l' m loy ot l S x d l' m loy ot l S x d l' m loy ot l S x d l' m loy ot l M sculi Fmi i M sculi Fmi i M sculi Fmi i M sculi Fmi i 0 66 276 4 0 4 70 0 80 94 76 370 Eff ctif thoriqu 44,7 3 ,3 276,0 7,3 6,7 4,0 4 ,9 38, 80,0 94,0 76,0 370,0

Cadr

R s o sabl

otal

Effectif thorique = calcul par une loi de distribution (uniforme)

40

Corrlation
 Covariance


La covariance peut tre vue comme le moment centr conjoint d'ordre 1 de deux v.a. Si les deux v.a. sont indpendantes, alors leur covariance est nulle (mais la rciproque n'est pas vraie en gnral). Elimine le facteur dimension mesure la qualit de la relation linaire entre deux variables alatoires
41

 Coefficient de corrlation
 

Droite de rgression
$160,000

Salaire actuel = 1928,21 + 1,91 * saldeb R-Deux = 0,77 199


#

Rgression linaire

$120,000

Y=aX+b

120 70
# # ## # # # # # # # ## # # # ## # # # # # # # # # ## # # # ## ## # # # # # # # # # # # ### # ## # ## # # # ## # # # ## # # # # # # # ## # # # # # ## # ## # # # ## # # # # # ## # ## # ## # # # # ## # # ## # # #### # ## ### ### # ## # # # ## # ## # # # # ### # # # ## # # # ##### # # # # ######## # # # ## # ## ##### # #### # ## ## # #### # #### ### # ### # #### # # #### # ##### ### ### # ### ## ## ## # # ### ## # # ## # ## ## # # # # # #

Salaire actuel

$80,000

$40,000

$20,000

$40,000

$60,000

$80,000

Salaire d'embauche

42

Test du G2
 Dtermine l'existence d'une dpendance entre deux variables


Exemple : salaire d'embauche, niveau d'tude

 Compare la distribution des variables par rapport une courbe thorique supposant l'indpendance

43

De nombreuses fonctions
      Test t sur moyenne ANOVA Analyses de variance sophistiques Corrlation partielle Rgresion logistique Sries chronologiques
 

Lissage exponentiel, Moyenne mobile, Comparaison


44

Calculs en SQL
 Introduction de fonctions d'agrgats
     

AVG = moyenne MAVG = moyenne mobile STDDEV = cart type VARIANCE = variance COVARIANCE = covariance SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB) FROM EMPLOYEE WHERE GRADE = "ingnieur" GROUP BY SEXE
45

 Exemple
   

Statistiques: Conclusion
 Calculs statistiques sur variables
   

Mono ou bi-varies Rsum des donnes Observation de dpendances Peu de modles prdictifs ... Extensions cube et rollup Extensions avec fonctions d'agrgats
46

 La plupart sont faisables avec SQL OLAP


 

6. Conclusion
 Le data mining vise dcouvrir des modles partir de grandes bases de faits connus (datawarehouse)  Le processus de construction de modles est complexe
   

 Questions ?


Quoi de nouveau par rapport l'IA et aux statistiques ?

prparer les donnes modliser 1/3 de la base valider sur 2/3 exprimenter plusieurs modles
47

DM, Stat., IA
DM
R ech erch e d e rg les d e classem en t R g ressio n C lassificatio n au to m atiq u e D escrip tio n sy n th tiq u e R ech erch e d e d p en d an ces D tectio n d e d v iatio n s

S ta t.
T ab leau in d iv id u -v ariab le C alcu ls n u m riq u es M th o d es d e d iscrim in atio n R seau x d e n eu ro n n es S eg m en tatio n M th o d es d e rg ressio n R seau x d e n eu ro n n es C lassif au to m atiq u e h irarch iq u e P artitio n n em en t R seau x d e n eu ro n n es S tat. lm en taire (h isto g ram m e, m o y , cart-ty p e) O u tils d 'in terp rt d e classes M th o d es facto rielles (A C P ) C o rrlatio n s A n aly se facto rielles d es co rr. (A F C ) R sea u x b ay sien s T est stat su r les carts

IA
F o rm alism e d e la lo g iq u e In d u ctio n /d d u ctio n A p p ren tissag e su p erv is/ex . -G n r d e rg les -C o n str d 'arb re d e d cisio n -R aiso n n em en t b ase d e cas

_
A p p ren tissag e n o n su p erv is -C lassif co n cep tu elle A p p ren tissag e n o n su p erv is -G n ralisatio n A p p ren tissag e n o n su p erv is -G n ralisatio n -R ech erch e d 'asso ciatio n s

_
48