Vous êtes sur la page 1sur 47

Ricco Rakotomalala Universit Lumire Lyon 2

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirou le.univ-lyon2.fr/!ricco/cours/ "u lications# ressources# liens# lo$iciels# %

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

"lan

&. 'u(est ce )ue le *ata +inin$ , 2. -pcificits .u *ata +inin$ /. 'uel)ues e0emples 1. 2ypolo$ie .es mtho.es .e *ata +inin$ 3. Ressources 4 -ites 5e et i lio$raphie

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Une .marche plus )u(une thorie 6

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Exemple introductif : demande de crdit bancaire

.ivorc 3 enfants 7 char$e ch8meur en fin .e .roit compte 7 .couvert

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Exprience de lentreprise : ses clients et leur comportement

coteuse en stockage inexploite

Comment et quelles fins utiliser cette exprience accumule


Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Le processus ECD (Extraction de connaissances partir de donnes) KDD Knowledge discovery in Databases
Graphes d'Induction Rseaux de neurones Analyse discriminante Rgression logistique

Echantillonnage Prparation des donnes Visualisation des donnes

Tests statistiques Re-chantillonnage

table

modles

Connaissances

Bases de donnes

Fouille des donnes (Data mining)

Mise en forme des Connaissances

Dploiement Exploitation Dfinition : Processus non-trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 199 !
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication

9ous ne pouve: pas travailler seul. 2ravailler en syner$ie avec l(e0pert .u .omaine est primor.ial 6

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

mergence de lECD : domaines dapplications

Domaine des assurances


analyse des risques (caractrisation des clients hauts risques, etc.) automatisation du traitement des demandes (diagnostic des dgts et dtermination automatique du montant des indemnits)

Services financiers
consentements de prts automatiss, support la dcision de crdit dtection des fraudes

Grande distribution
profils de consommateurs et modles dachats constitution des rayonnages marketing cibl

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Est-ce vraiment nouveau ? *finition : "rocessus non-trivial . (i.entification .e structures inconnues# vali.es et potentiellement e0ploita les .ans les ases .e .onnes ;<ayya.# &==>? *ata +inin$ : Une nouvelle fa@on .e faire .e la statisti)ue , http://ce.ric.cnam.fr/!saporta/*+.p.f
L(analyse .es .onnes est un outil pour .$a$er .e la $an$ue .es .onnes le pur .iamant .e la vri.i)ue nature.A ;B.".Cen:cri&=D/?

2he asic steps for .evelopin$ an effective process mo.el , http://555.itl.nist.$ov/.ivE=E/han. ook/pm./section1/pm.1&.htm &. +o.el selection 2. +o.el fittin$ /. +o.el vali.ation
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

10

;&? -ources .e .onnes ;2? 2echni)ues utilises ;/? +ultiplicit .es supports

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

11

Spcificits du Data Mining

-ources .e .onnes
valoriser les fichiers .e l(entreprise construire .es entrep8ts mo.ifier le schma or$anisationnel

2echni)ues utilises
Fnt$rer .es techni)ues .(ori$ines .iverses

Glar$issement .es supports


2e0t minin$ Fma$e minin$ % +ultim.ia minin$

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

12

Les sources de donnes

Production orientation service ;ventes# compta ilit# marketin$%? volatiles

"toc#a$e orientation analyse historises non-volatiles

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

13

Lorganisation du flux dinformations et les acteurs

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

14

Systmes de gestion et systmes dcisionnels

Systmes de gestion (oprationnel) ddi au mtier et la production Objectif ex: facturation, stock, personnel donnes volatiles Volatilit ex: le prix d'un proiduit volue dans le (perennit) temps pour les oprations associes ex: passage en caisse (lecture de Optimisation code barre) Granularit totale, on accde directement aux des donnes informations atomiques

Systmes dcisionnels (analyse) ddi au management de l'entreprise (pilotage et prise de dcision) donnes historises ex: garder la trace des volutions des prix, introduction d'une information dat pour l'analyse et la rcapitulation ex: quels les produits achets ensembles agrgats, niveau de synthse selon les besoins de l'analyse

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

15

Data Mining vs. Informatique Dcisionnelle (Business Intelligence)


L(informati%ue dcisionnelle ;% CF pour Cusiness Fntelli$ence? .si$ne les moyens# les outils et les mtho.es )ui permettent .e collecter# consoli.er# mo.liser et restituer les .onnes .Hune entreprise en vue .Hoffrir une ai.e 7 la .cision et .e permettre au0 responsa les .e la strat$ie .Hune entreprise .(avoir une vue .(ensem le .e l(activit traite.
;http://fr.5ikipe.ia.or$/5iki/Fnformati)ueI.cisionnelle?

-lectionner les .onnes ;par rapport 7 un suJet et/ou une prio.e? 2rier# re$rouper ou rpartir ces .onnes selon certains critres Gla orer .es calculs rcapitulatifs K simples A ;totau0# moyennes con.itionnelles# etc.? "rsenter les rsultats .e manire synthti)ue ;$raphi)ue et/ou ta leau0 .e or.? RL"MR2FNO

http://www.commentcamarche.net/entreprise/business-intelligence.php3

Le *ata +inin$ est proche .e ce ca.re# mais elle intro.uit une .imension supplmentaire )ui est la mo.lisation K e0ploratoire A ;.tection .es liens .e cause 7 effet# vali.ation .e leur repro.ucti ilit?
16

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Spcificits du Data Mining

2echni)ues .(e0ploration .e .onnes


*es techni)ues .(ori$ines .iverses# issues .e cultures .iffrentes %mais )ui traitent .es pro lmes similaires et )ui partent touJours .(un ta leau .e .onnes

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

17

Techniques utilises selon leur origine -tatisti)ues


2horie .e l(estimation# tests Gconomtrie

Pnalyse .e .onnes ;-tatisti)ue e0ploratoire?


*escription factorielle *iscrimination Qlusterin$ +tho.es $omtri)ues# pro a ilits PQ"# PQ+# Pnalyse .iscriminante# QPR# %

+a0imum .e vraisem lance et moin.res carrs R$ression lo$isti)ue# %

Fnformati)ue ;Fntelli$ence artificielle?


Ppprentissa$e sym oli)ue Reconnaissance .e formes Une tape .e l(intelli$ence artificielle Rseau0 .e neurones# al$orithmes $nti)ues%

Fnformati)ue ;Case .e .onnes?


L0ploration .es ases .e .onnes 9olumtrie R$les .(association# motifs fr)uents# %

2rs souvent# ces mtho.es reviennent 7 optimiser les mSmes critres# mais avec .es approches / formulations .iffrentes
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

18

Techniques issues de lIntelligence Artificielle

Les rseaux de neurones artificiels

capacit d apprentissage (universel) structuration / classement

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

19

Techniques en provenance des BD

Les rgles dassociation

If MARITAL_ST is Divorced Then SPOUSE_TIT is None Rule's probability: 0.952 The rule exists in 40 records. If MARITAL_ST is Divorced
and LOAN_LENGT = 4.00

Then

GUARANTEE is No Rule's probability: 0.966 The rule exists in 28 records. A = B + 2.00 where: A = FAMILY_COU B = CHILDREN Accuracy level : 0.96 The rule exists in 397 records. traitement omnibus connaissance interprtable

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

20

Spcificits du Data Mining

Glar$issement .es supports 2e0t minin$ Fma$e minin$ %autres% L(apprhension .es sources multiples

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

21

largir les supports

R8le fon.amental .e la prparation .es .onnes "r.iction -tructuration *escription Pssociation

Les applications <iltra$e automati)ue .es e-mails ;spams# terrorisme#...? Reconnaissance .e la lan$ue 7 une centrale tlphoni)ue *tection .es ima$es porno$raphi)ues sur le 5e Pnalyse .es mammo$raphies Ltc.
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

22

Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data DEFINITION ENJEUX


Les i$ .ata# littralement les $rosses .onnes# est une e0pression an$lophone utilise pour .si$ner .es ensem les .e .onnes )ui .eviennent tellement volumineu0 )uHils en .eviennent .ifficiles 7 travailler avec .es outils classi)ues .e $estion .e ase .e .onnes ou .e $estion .e lHinformation.

Le Ci$ *ata sHaccompa$ne .u .veloppement .Happlications 7 vise analyti)ue# )ui traitent les .onnes pour en tirer .u sens. Qes analyses sont appeles Ci$ Pnalytics ou TCroya$e .e .onnesU. Llles portent sur .es .onnes )uantitatives comple0es avec .es mtho.es .e calcul .istri u. Ln 2VV&# un rapport .e recherche .u +L2P Oroup ;.evenu Oartner? .finit les enJeu0 inhrents 7 la croissance .es .onnes comme tant tri-.imensionnels : les analyses comple0es rpon.ent en effet 7 la r$le .ite .es K /9 A# volume# vlocit et varit. Qe mo.le est encore lar$ement utilis auJour.Hhui pour .crire ce phnomne.

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

23

Data Mining vs. Big Data (2/3) Les 3 V


Mutils .e recueil .e .onnes .e plus en plus prsents# .ans les installations scientifi)ues# mais aussi et surtout .ans notre vie .e tous les Jours ;e0. cookies# O"-# rseau0 sociau0 Wex. lien like - profils X# cartes .e fi.lit# etc.?. Fl faut pouvoir les ;.onnes? traiter 6 -ources# formes et .es formats trs .iffrents# structures ou nonstructures : on parle $alement .e .onnes comple0es ;e0. te0te en provenance .u 5e # ima$es# liste .(achats# .onnes .e $olocalisation# etc.?. Fl faut les traiter simultanment 6

VELOCITE

VARIETE

VOLUME

+ises 7 Jour fr)uentes# .onnes arrivant en flu0# o solescence rapi.e .e certaines .onnes% ncessit .(analyses en )uasi temps rel ;e0. .tection / prvention .es .faillances# $estion .e file .(attente? Fl faut les traiter rapi.ement 6
24

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Data Mining vs. Big Data (3/3)


;Yikip.ia? ...la maturation .u suJet fait apparaitre un autre critre plus fon.amental .e .iffrence .(avec le Cusiness Fntelli$ence et concernant les .onnes et leur utilisation : Cusiness Fntelli$ence : utilisation .e statisti)ue .escriptive Wreportin$# ta leau0 .e or.#%X# sur .es .onnes 7 forte .ensit en information afin .e mesurer .es phnomnes# .tecter .es ten.ances% Z Ci$ *ata : utilisation .e statisti)ue infrentielle# sur .es .onnes 7 fai le .ensit en information .ont le $ran. volume permet .(infrer .es lois ;r$ressions%.? .onnant .s lors ;avec les limites .e l(infrence? au i$ .ata .es capacits pr.ictives Wmo.lisation# analyse pr.ictive#%X.

Big data vs. BI ?

Mais alors

BIG DATA = DATA MINING ++


Cloud computing (ex. APACHE HADOOP / MAHOUT) Fouille de donnes complexes Data stream mining Etc.
25

Avec de nouveaux dfis technologiques / mthodologiques lis aux 3V


Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

;&? Qi la$e .e clientle : le scorin$ ;2? Gti)ueta$e automati)ue .e K nouvelles A

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

26

Ciblage de clientle par publipostage (1/2)

Can)ue fran@aise M Jectif : Pu$menter l(a.hsion 7 un service en li$ne ;tau0 .(a onnement actuel 1[? Case marketin$ : plusieurs centaines .e milliers .e clients# !2VV varia les ;=3[ sont )uantitatives? +tho.e : isoler .es $roupes .(in.ivi.us se ressem lant .ans le)uel le tau0 .(a onnement est lev les non-a onns .ans ces $roupes seront ;certainement ,? sensi les 7 une offre ci le ;hypothse : s(ils ne sont pas a onns# c(est )u(ils n(ont pas re@u l(information? techni)ue : ar re .e .cision avec chantillonna$e )uili r sur cha)ue noeu.

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

27

Ciblage de clientle par publipostage (2/2)


valuation : dpasser le taux (cot) derreur, mesurer la qualit du ciblage meilleur ciblage : toutes les personnes contactes ont souscrit un contrat
1

Cumulative % of "rare"

0.8 Optimal 0.6 BLS-10000 BLS-500 0.4 BLS-300 BgS-10000 0.2 BgS-2000 Random 0 0 0.2 0.4 0.6 0.8 1

Individu 4 9 10 6 3 7 2 5 8 1

Probabilit de Pourc. Ind. Pourc. Cibls souscrire cumul Cumul Pourc. Cibls 0.95 10% 19% 0.19 0.9 20% 37% 0.18 0.8 30% 53% 0.16 0.65 40% 66% 0.13 0.6 50% 78% 0.12 0.5 60% 88% 0.1 0.35 70% 95% 0.07 0.25 80% 100% 0.05 0 90% 100% 0 0 100% 100% 0 5.00

Cumulative % of the population

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

28

Text Mining Catgorisation de nouvelles (1/3)

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

29

Text Mining Catgorisation de nouvelles (2/3)


Codage de texte en tableau de donnes
Les chercheurs qui cherchent, on en trouve Mais les chercheurs qui trouvent, on en cherche

Mots cls

lemmatisation stopwords

Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche 1 1 1 1 1 1 1 1 0 0 0 2 1 1 1 0 1 1 0 1 1 1

3-grams

corresp. avec les mots problme du sens

Phrase Les es s c ch che her rch 1 1 1 1 2 4 2 2 1 1 1 1 4 2

eur 2 2 1 1

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

30

Text Mining Catgorisation de nouvelles (3/3)

Exemple : appartenance au sujet crude (ptrole brut)

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

31

'uelle mtho.e utiliser par rapport : au0 o Jectifs .e l(tu.e , au0 .onnes .isponi les ,

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

32

Tableau de donnes

Variables, caractres, attributs, Descripteurs, champs, etc.

Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed

Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow

Individus, observations, objets, enregistrements, etc.

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

33

Types de variables
donnes nominales ;e0. success# Jo %?
nom re .e cas .nom ra les co.s pour .istin$uer les mo.alits aucune relation . (or.re entre les co.es oprateurs arithmti)ues/mathmati)ues inapplica les

donnes ordinales ;e0. Refun.in$%?


nom re .e cas .nom ra les co.s pour .istin$uer les mo.alits il e0iste une relation . (or.re entre les mo.alits les carts ne sont pas )uantifia les co.s sous forme .e ran$s# on peut appli)uer .es calculs donnes numri%ues ou continues ;e0. Ya$es%? nom re .e cas thori)uement infini il e0iste une relation . (or.re entre les valeurs les carts sont )uantifia les .istinction entre chelle proportionnelle et non-proportionnelle
;e0. 2V\Q/&V\Q ] 2 et >E\</3V\< ] &.> : non proportionnelle Z k$ et livres : proportionnelle ?

calculs autoriss# al$ ri)ues


Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

34

Distinguer les types de variables


Mn peut .istin$uer les .iffrents types .e .onnes 7 partir .e la .finition .e l (oprateur .iffrence :

Nominale :

0 , si x a = x b d AB = 1, si x a x b

Ordinale :

d AB

+ 1, si x a > x b = 0 , si x a = x b 1, si x < x a b

Continue :

d AB = x a x b

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

35

Qualitatives vers continues

*onnes )ualitatives

;nominales# or.inales?

*onnes continues

Qo.a$e .isJonctif complet


Refunding Fast Slow Fast Normal Slow

Ref_Slow 0 1 0 0 1

Ref_Normal Ref_Fast 0 0 0 1 0

1 0 1 0 0

on per. l (information . (or.re sur les .onnes or.inales

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

36

Continues vers ordinales

Donnes continues

Donnes ordinales

Discrtisation
par expert automatique non-contextuelle automatique contextuelle

100 age

jeune

adulte

vieux age

on perd l information sur les carts on peut traiter des relations non-linaires
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

37

Continues vers continues


Donnes continues Donnes continues

Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne

Transformation distributionnelle
78 72 66 60 54 48 42 36 30 24 18 12
2 24 22 20 18 16

x 2 = ln( x1 )
<= 0 (0;2] (2;4] (4;6] (6;8] Var Orig. (8;10] (10;12] (12;14] > 14

14 12 10 8 6 4

6
0

<= -3

(-2.5;-2] (-1.5;-1] (-.5;0] (-3;-2.5] (-2;-1.5] (-1;-.5] (0;.5] Var Transf.

(.5;1] (1;1.5]

(1.5;2] (2;2.5]

(2.5;3] >3

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

38

T pologie !es mtho!es selon les ob"ectifs


Description : trouver un rsum .es .onnes )ui soit plus intelli$i le statisti)ue .escriptive analyse factorielle
L0 : moyenne .(^$e .es personnes prsentant un cancer .u sein

"tructuration : <aire ressur$ir .es $roupes K naturels A )ui reprsentent .es entits particulires classification ;clusterin$# apprentissa$e nonsupervis?
L0 : .couvrir une typolo$ie .e comportement .es clients .(un ma$asin

&xplication : "r.ire les valeurs .(un attri ut ;en.o$ne? 7 partir .(autres attri uts ;e0o$nes? r$ression apprentissa$e supervis
L0 : pr.ire la )ualit .(un client ;rem ourse ou non son cr.it? en fonction .e ses caractristi)ues ;revenus# statut marital# nom re .(enfants# etc.?

'ssociation : 2rouver les ensem les .e .escripteurs )ui sont le plus corrls r($les dassocation
L0 : rayonna$e .e ma$asins# les personnes )ui achtent .u poivre achtent $alement .u sel

les mtho.es sont le plus souvent complmentaires 6


Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

39

#ous-t pologie selon le t pe !e !onnes : la pr!iction / explication

L0plication

Ln.o$ne continue L0o$nes continues )$ression Ln.o$ne .iscrte L0o$nes )uelcon)ues 'pprentissa$e supervis

Ln.o$ne continue L0o$nes .iscrtes 'nalyse de variance

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

40

;&? Lo$iciels ;2? Muvra$es et ressources en li$ne

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

41

Logiciels de DATA MINING Fonctionnalits


Pccs et prparation .es .onnes
Pcc.er 7 un fichier / une C* Rassem ler .es sources .iffrentes

+tho.es .e <ouille .e .onnes


Lancer les calculs avec .iffrents al$orithmes Ci lioth)ue .e mtho.es

Lncha_ner les traitements


<aire cooprer les mtho.es sans pro$rammer

Gvaluer les connaissances


9ali.ation croise# etc.

L0ploiter les sorties


Rapports# visualisation interactive# etc.

Pppli)uer/e0ploiter les mo.les


+o.les en `+L# co.e Q# *LL compiles "r.iction .irecte sur .e nouveau0 fichiers Lo$iciels commerciau0 "rototypes .e recherche

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

42

Logiciels de DATA MINING Les logiciels disponibles


Commerciaux SPAD SAS Enterprise miner SPSS Clementine STATISTICA Data Miner IBM Intelligent Miner RAPIDMINER (*) KNIME (*) Universitaires R (*) TANAGRA SIPINA v2.5 & Recherche WEKA (*) ORANGE
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

-implicit .u pilota$e ;filire - .ia$ramme? 2echni)ues varies *ploiement Mutils .e K reportin$ A

-pcifi)ue 7 certaines techni)ues 2echni)ues rfrences - pu lies Mutils .e vali.ation

43

Conclusion
La .marche *P2P +FNFNO formalisation .es o Jectifs ac)uisition .es .onnes prparation .es .onnes apprentissa$e 4 application .es mtho.es interprtation 4 e0plication valuation et vali.ation .ploiement

"as .e miracle si : Les o Jectifs sont mal .finis Les .onnes .isponi les ne conviennent pas Les .onnes sont mal K prpares A Mn n(utilise pas les techni)ues appropries
Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

44

Bibliographie : pratique du Data Mining

K Le *ata minin$ A# R. Lefe ure et O. 9enturi# e.. Lyrolles# 2VV&.


"eu techni)ue# point .e vue $nral# trs on recul# complet

K *ata +inin$ et statisti)ue .cisionnelle A# -. 2uffry# e.. techni)ue# 2VV>.


"lut8t $ui.e prati)ue : repres pour les proJets# opportunits# mtho.es

K Pnalyse .iscriminante 4 Ppplication au ris)ue et au scorin$ financier A# +. Car.os# e.. *uno.# 2VV&.
2echni)ue prati)ue# avec .e ons repres thori)ues# tourn vers les applications

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

45

Bibliographique : comprhension des mthodes

K *ata +inin$ : "ractical machine learnin$ tools an. techni)ues 5ith Bava implementations A# F. Yitten an. L. <rank# +or$an aaufman "u .# 2VVV.
2rs $nral et complet# lo$iciel li re accs# techni)ue

K 2he elements of statistical learnin$ - *ata +inin$# Fnference an. "re.iction A# 2. Rastie# R. 2i shirani# B. <rie.man# -prin$er 2VV&.
2rs techni)ue# encyclop.i)ue# in.ispensa le pour la recherche# 7 lire plusieurs fois

K+achine Learnin$ A# 2. +itchell# +c Ora5-Rill L.itions# &==D.


2rs trs techni)ue# surtout mtho.es supervises# encyclop.i)ue

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

46

Ressources en ligne

-ites 5e et portails : http://chirou le.univ-lyon2.fr/!ricco/.ata-minin$


Un portail pour la .ocumentation : liens# supports .e cours en li$ne# lo$iciels# .onnes
*ata

+inin$ .i0it Yikip.ia

: http://fr.5ikipe.ia.or$/5iki/L0plorationI.eI.onnes

-ite .es tutoriels : http://tutoriels-.ata-minin$. lo$spot.com/ http://555.k.nu$$ets.com


K Le A portail .u *P2P +FNFNO# avec toute l(actualit .u .omaine Ci$

.ata .i0it -P- : http://555.sas.com/

i$-.ata/

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

47