Académique Documents
Professionnel Documents
Culture Documents
Plan
1. Quest ce que le Data Mining ? 2. Spcificits du Data Mining 3. Quelques exemples 4. Typologie des mthodes de Data Mining 5. Ressources Sites web et bibliographie
Le processus ECD (Extraction de connaissances partir de donnes) KDD Knowledge discovery in Databases
Graphes d'Induction Rseaux de neurones Analyse discriminante Rgression logistique
table
modles
Connaissances
Bases de donnes
Dploiement Exploitation Dfinition : Processus non-trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
Services financiers
consentements de prts automatiss, support la dcision de crdit dtection des fraudes
Grande distribution
profils de consommateurs et modles dachats constitution des rayonnages marketing cibl
Est-ce vraiment nouveau ? Dfinition : Processus non-trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996) Data Mining : Une nouvelle faon de faire de la statistique ? http://cedric.cnam.fr/~saporta/DM.pdf
Lanalyse des donnes est un outil pour dgager de la gangue des donnes le pur diamant de la vridique nature. (J.P.Benzcri1973)
The basic steps for developing an effective process model ? http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm 1. Model selection 2. Model fitting 3. Model validation
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
10
(1) Sources de donnes (2) Techniques utilises (3) Multiplicit des supports
11
Sources de donnes
valoriser les fichiers de lentreprise construire des entrepts modifier le schma organisationnel
Techniques utilises
Intgrer des techniques dorigines diverses
12
13
14
Systmes de gestion (oprationnel) ddi au mtier et la production Objectif ex: facturation, stock, personnel donnes volatiles Volatilit ex: le prix d'un proiduit volue dans le (perennit) temps pour les oprations associes ex: passage en caisse (lecture de Optimisation code barre) Granularit totale, on accde directement aux des donnes informations atomiques
Systmes dcisionnels (analyse) ddi au management de l'entreprise (pilotage et prise de dcision) donnes historises ex: garder la trace des volutions des prix, introduction d'une information dat pour l'analyse et la rcapitulation ex: quels les produits achets ensembles agrgats, niveau de synthse selon les besoins de l'analyse
15
Slectionner les donnes (par rapport un sujet et/ou une priode) Trier, regrouper ou rpartir ces donnes selon certains critres laborer des calculs rcapitulatifs simples (totaux, moyennes conditionnelles, etc.) Prsenter les rsultats de manire synthtique (graphique et/ou tableaux de bord) REPORTING
http://www.commentcamarche.net/entreprise/business-intelligence.php3
Le Data Mining est proche de ce cadre, mais elle introduit une dimension supplmentaire qui est la modlisation exploratoire (dtection des liens de cause effet, validation de leur reproductibilit)
16
17
Trs souvent, ces mthodes reviennent optimiser les mmes critres, mais avec des approches / formulations diffrentes
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
18
19
If MARITAL_ST is Divorced Then SPOUSE_TIT is None Rule's probability: 0.952 The rule exists in 40 records. If MARITAL_ST is Divorced
and LOAN_LENGT = 4.00 GUARANTEE is No Rule's probability: 0.966 The rule exists in 28 records. A = B + 2.00 where: A = FAMILY_COU B = CHILDREN Accuracy level : 0.96 The rule exists in 397 records. traitement omnibus connaissance interprtable
Then
20
largissement des supports Text mining Image mining autres Lapprhension des sources multiples
21
Les applications Filtrage automatique des e-mails (spams, terrorisme,...) Reconnaissance de la langue une centrale tlphonique Dtection des images pornographiques sur le web Analyse des mammographies Etc.
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
22
23
Banque franaise Objectif : Augmenter ladhsion un service en ligne (taux dabonnement actuel 4%) Base marketing : plusieurs centaines de milliers de clients, ~200 variables (95% sont quantitatives) Mthode : isoler des groupes dindividus se ressemblant dans lequel le taux dabonnement est lev les non-abonns dans ces groupes seront (certainement ?) sensibles une offre cible (hypothse : sils ne sont pas abonns, cest quils nont pas reu linformation) technique : arbre de dcision avec chantillonnage quilibr sur chaque noeud
24
Cumulative % of "rare"
0.8 Optimal 0.6 BLS-10000 BLS-500 0.4 BLS-300 BgS-10000 0.2 BgS-2000 Random 0 0 0.2 0.4 0.6 0.8 1
Individu 4 9 10 6 3 7 2 5 8 1
Probabilit de Pourc. Ind. Pourc. Cibls souscrire cumul Cumul Pourc. Cibls 0.95 10% 19% 0.19 0.9 20% 37% 0.18 0.8 30% 53% 0.16 0.65 40% 66% 0.13 0.6 50% 78% 0.12 0.5 60% 88% 0.1 0.35 70% 95% 0.07 0.25 80% 100% 0.05 0 90% 100% 0 0 100% 100% 0 5.00
25
26
Mots cls
lemmatisation stopwords
3-grams
eur 2 2 1 1
27
28
Quelle mthode utiliser par rapport : aux objectifs de ltude ? aux donnes disponibles ?
29
Tableau de donnes
Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed
Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
30
Types de variables
donnes nominales (ex. success, job)
nombre de cas dnombrables cods pour distinguer les modalits aucune relation d ordre entre les codes oprateurs arithmtiques/mathmatiques inapplicables
31
Nominale :
0 , si x a = x b d AB = 1, si x a x b
Ordinale :
d AB
+ 1, si x a > x b = 0 , si x a = x b 1, si x < x a b
Continue :
d AB = x a x b
32
Donnes continues
Ref_Slow 0 1 0 0 1
Ref_Normal Ref_Fast 0 0 0 1 0
1 0 1 0 0
33
Donnes continues
Donnes ordinales
Discrtisation
par expert automatique non-contextuelle automatique contextuelle
100 age
jeune
adulte
vieux age
on perd l information sur les carts on peut traiter des relations non-linaires
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
34
Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Transformation distributionnelle
78 72 66 60 54 48 42 36 30 24 18 12
2 24 22 20 18 16
x 2 = ln( x1 )
<= 0 (0;2] (2;4] (4;6] (6;8] Var Orig. (8;10] (10;12] (12;14] > 14
14 12 10 8 6 4
6
0
<= -3
(.5;1] (1;1.5]
(1.5;2] (2;2.5]
(2.5;3] >3
35
Structuration : Faire ressurgir des groupes naturels qui reprsentent des entits particulires classification (clustering, apprentissage nonsupervis)
Ex : dcouvrir une typologie de comportement des clients dun magasin
Explication : Prdire les valeurs dun attribut (endogne) partir dautres attributs (exognes) rgression apprentissage supervis
Ex : prdire la qualit dun client (rembourse ou non son crdit) en fonction de ses caractristiques (revenus, statut marital, nombre denfants, etc.)
Association : Trouver les ensembles de descripteurs qui sont le plus corrls rgles dassocation
Ex : rayonnage de magasins, les personnes qui achtent du poivre achtent galement du sel
36
Explication
Endogne continue Exognes continues Rgression Endogne discrte Exognes quelconques Apprentissage supervis
37
38
39
Commerciaux SPAD (Decisia) SAS Enterprise miner SPSS Clementine STATISTICA Data Miner IBM Intelligent Miner
Simplicit du pilotage (filire - diagramme) Techniques varies Dploiement Outils de reporting
40
Analyse discriminante Application au risque et au scoring financier , M. Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications
41
Data Mining : Practical machine learning tools and techniques with Java implementations , I. Witten and E. Frank, Morgan Kaufman Pub., 2000.
Trs gnral et complet, logiciel libre accs, technique
The elements of statistical learning - Data Mining, Inference and Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois
42
Ressources en ligne
http://www.kdnuggets.com
Le portail du DATA MINING, avec toute lactualit du domaine
http://www.web-datamining.net
Le portail franais, surtout intressant pour les tudes de cas complets
43
Conclusion
La dmarche DATA MINING formalisation des objectifs acquisition des donnes prparation des donnes apprentissage application des mthodes interprtation explication valuation et validation dploiement
Pas de miracle si : Les objectifs sont mal dfinis Les donnes disponibles ne conviennent pas Les donnes sont mal prpares On nutilise pas les techniques appropries
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
44