Vous êtes sur la page 1sur 47

Ricco Rakotomalala

Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/


1
Ricco Rakotomalala
Universit Lumire Lyon 2
Ricco Rakotomalala
ricco.rakotomalala@univ-lyon2.fr
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
2
http://chiroule.univ-lyon2.fr/!ricco/cours/
"ulications# ressources# liens# lo$iciels# %
"lan
&. 'u(est ce )ue le *ata +inin$ ,
2. -pcificits .u *ata +inin$
/. 'uel)ues e0emples
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
3
/. 'uel)ues e0emples
1. 2ypolo$ie .es mtho.es .e *ata +inin$
3. Ressources 4 -ites 5e et ilio$raphie
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
4
Une .marche plus )u(une thorie 6
Exemple introductif : demande de crdit bancaire
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
5
.ivorc
3 enfants 7 char$e
ch8meur en fin .e .roit
compte 7 .couvert
coteuse en stockage
inexploite
Exprience de lentreprise : ses clients et leur comportement
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
6
Comment et quelles fins utiliser cette exprience
accumule
inexploite
Echantillonnage
Prparation des donnes
Visualisation des donnes
Graphes d'Induction
Rseaux de neurones
Analyse discriminante
Rgression logistique
Tests statistiques
Re-chantillonnage
table
modles
Connaissances
Le processus ECD (Extraction de connaissances partir de donnes)
KDD Knowledge discovery in Databases
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
7
Fouille des
donnes (Data mining)
Bases de
donnes
Mise en forme des
Connaissances
Dploiement
Exploitation
Dfinition : Processus non-trivial d identification de structures inconnues, valides et
potentiellement exploitables dans les bases de donnes (Fayyad, 199!
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
9ous ne pouve: pas travailler seul.
2ravailler en syner$ie avec l(e0pert
.u .omaine est primor.ial 6
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
8
mergence de lECD : domaines dapplications
Domaine des assurances
analyse des risques (caractrisation des clients hauts risques, etc.)
automatisation du traitement des demandes (diagnostic des dgts
et dtermination automatique du montant des indemnits)
Services financiers
consentements de prts automatiss, support la dcision de crdit
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
9
consentements de prts automatiss, support la dcision de crdit
dtection des fraudes
Grande distribution
profils de consommateurs et modles dachats
constitution des rayonnages
marketing cibl
*finition :
"rocessus non-trivial . (i.entification .e structures inconnues# vali.es
et potentiellement e0ploitales .ans les ases .e .onnes ;<ayya.#
&==>?
Est-ce vraiment nouveau ?
*ata +inin$ : Une nouvelle fa@on .e faire .e la statisti)ue ,
http://ce.ric.cnam.fr/!saporta/*+.p.f
L(analyse .es .onnes est un outil pour .$a$er .e la $an$ue .es .onnes le
pur .iamant .e la vri.i)ue nature.A ;B.".Cen:cri&=D/?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
10
pur .iamant .e la vri.i)ue nature.A ;B.".Cen:cri&=D/?
2he asic steps for .evelopin$ an effective process mo.el ,
http://555.itl.nist.$ov/.ivE=E/han.ook/pm./section1/pm.1&.htm
&. +o.el selection
2. +o.el fittin$
/. +o.el vali.ation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
11
;&? -ources .e .onnes
;2? 2echni)ues utilises
;/? +ultiplicit .es supports
-ources .e .onnes
valoriser les fichiers .e l(entreprise
construire .es entrep8ts
mo.ifier le schma or$anisationnel
2echni)ues utilises
Fnt$rer .es techni)ues .(ori$ines .iverses
Spcificits du Data Mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
12
Fnt$rer .es techni)ues .(ori$ines .iverses
Glar$issement .es supports
2e0t minin$
Fma$e minin$
% +ultim.ia minin$
Les sources de donnes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
13
"toc#a$e
orientation analyse
historises
non-volatiles
Production
orientation service
;ventes# comptailit#
marketin$%?
volatiles
Lorganisation du flux dinformations et les acteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
14
Systmes de gestion
(oprationnel)
Systmes dcisionnels
(analyse)
Objectif
ddi au mtier et la production
ex: facturation, stock, personnel
ddi au management de l'entreprise
(pilotage et prise de dcision)
Volatilit
donnes volatiles
ex: le prix d'un proiduit volue dans le
donnes historises
ex: garder la trace des volutions des
Systmes de gestion et systmes dcisionnels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
15
Volatilit
(perennit)
ex: le prix d'un proiduit volue dans le
temps
ex: garder la trace des volutions des
prix, introduction d'une information dat
Optimisation
pour les oprations associes
ex: passage en caisse (lecture de
code barre)
pour l'analyse et la rcapitulation
ex: quels les produits achets
ensembles
Granularit
des donnes
totale, on accde directement aux
informations atomiques
agrgats, niveau de synthse selon les
besoins de l'analyse
Data Mining vs. Informatique Dcisionnelle (Business Intelligence)
L(informati%ue dcisionnelle ;% CF pour Cusiness Fntelli$ence? .si$ne les moyens# les
outils et les mtho.es )ui permettent .e collecter# consoli.er# mo.liser et restituer
les .onnes .Hune entreprise en vue .Hoffrir une ai.e 7 la .cision et .e permettre
au0 responsales .e la strat$ie .Hune entreprise .(avoir une vue .(ensemle .e
l(activit traite.
;http://fr.5ikipe.ia.or$/5iki/Fnformati)ueI.cisionnelle?
-lectionner les .onnes ;par rapport 7 un suJet et/ou
une prio.e?
2rier# re$rouper ou rpartir ces .onnes selon certains
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
16
2rier# re$rouper ou rpartir ces .onnes selon certains
critres
Glaorer .es calculs rcapitulatifs K simples A ;totau0#
moyennes con.itionnelles# etc.?
"rsenter les rsultats .e manire synthti)ue
;$raphi)ue et/ou taleau0 .e or.? RL"MR2FNO
http://www.commentcamarche.net/entreprise/business-intelligence.php3
Le *ata +inin$ est proche .e ce ca.re# mais elle
intro.uit une .imension supplmentaire )ui est la
mo.lisation K e0ploratoire A ;.tection .es liens .e
cause 7 effet# vali.ation .e leur repro.uctiilit?
Spcificits du Data Mining
2echni)ues .(e0ploration .e .onnes
*es techni)ues .(ori$ines .iverses# issues .e cultures .iffrentes
%mais )ui traitent .es prolmes similaires
et )ui partent touJours .(un taleau .e .onnes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
17
et )ui partent touJours .(un taleau .e .onnes
Techniques utilises selon leur origine
-tatisti)ues
2horie .e l(estimation# tests
Gconomtrie
+a0imum .e vraisemlance et moin.res carrs
R$ression lo$isti)ue# %
Pnalyse .e .onnes
;-tatisti)ue e0ploratoire?
*escription factorielle
*iscrimination
Qlusterin$
+tho.es $omtri)ues# proailits
PQ"# PQ+# Pnalyse .iscriminante# QPR# %
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
18
Fnformati)ue
;Fntelli$ence artificielle?
Ppprentissa$e symoli)ue
Reconnaissance .e formes
Une tape .e l(intelli$ence artificielle
Rseau0 .e neurones# al$orithmes $nti)ues%
Fnformati)ue
;Case .e .onnes?
L0ploration .es ases .e .onnes
9olumtrie
R$les .(association# motifs fr)uents# %
2rs souvent# ces mtho.es reviennent 7 optimiser les mSmes critres#
mais avec .es approches / formulations .iffrentes
Techniques issues de lIntelligence Artificielle
Les rseaux de neurones artificiels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
19
capacit d apprentissage
(universel)
structuration / classement
Techniques en provenance des BD
If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced
Then
SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT is None None None None
Rule's probability: 0.952 0.952 0.952 0.952
The rule exists in 40 40 40 40 records.
If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced
and LOAN_LENGT LOAN_LENGT LOAN_LENGT LOAN_LENGT = 4.00 4.00 4.00 4.00
Then
GUARANTEE GUARANTEE GUARANTEE GUARANTEE is No No No No
Les rgles dassociation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
20
Then
GUARANTEE GUARANTEE GUARANTEE GUARANTEE is No No No No
Rule's probability: 0.966 0.966 0.966 0.966
The rule exists in 28 28 28 28 records.
A AA A = B + 2.00 B + 2.00 B + 2.00 B + 2.00
where: A AA A = FAMILY_COU FAMILY_COU FAMILY_COU FAMILY_COU
B BB B = CHILDREN CHILDREN CHILDREN CHILDREN
Accuracy level : 0.96 0.96 0.96 0.96
The rule exists in 397 397 397 397 records.
traitement omnibus
connaissance interprtable
Spcificits du Data Mining
Glar$issement .es supports
2e0t minin$
Fma$e minin$
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
21
Fma$e minin$
%autres%
L(apprhension .es sources multiples
largir les supports
"r.iction
-tructuration
*escription
R8le fon.amental .e la
prparation .es .onnes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
22
*escription
Pssociation
Les applications
<iltra$e automati)ue .es e-mails ;spams# terrorisme#...?
Reconnaissance .e la lan$ue 7 une centrale tlphoni)ue
*tection .es ima$es porno$raphi)ues sur le 5e
Pnalyse .es mammo$raphies
Ltc.
Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data
Les i$ .ata# littralement les $rosses .onnes# est une e0pression
an$lophone utilise pour .si$ner .es ensemles .e .onnes )ui
.eviennent tellement volumineu0 )uHils en .eviennent .ifficiles 7
travailler avec .es outils classi)ues .e $estion .e ase .e .onnes ou
.e $estion .e lHinformation.
Le Ci$ *ata sHaccompa$ne .u .veloppement .Happlications 7 vise
analyti)ue# )ui traitent les .onnes pour en tirer .u sens. Qes
analyses sont appeles Ci$ Pnalytics ou TCroya$e .e .onnesU. Llles
D
E
F
I
N
I
T
I
O
N
D
E
F
I
N
I
T
I
O
N
D
E
F
I
N
I
T
I
O
N
D
E
F
I
N
I
T
I
O
N
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
23
analyses sont appeles Ci$ Pnalytics ou TCroya$e .e .onnesU. Llles
portent sur .es .onnes )uantitatives comple0es avec .es mtho.es
.e calcul .istriu.
Ln 2VV&# un rapport .e recherche .u +L2P Oroup ;.evenu Oartner?
.finit les enJeu0 inhrents 7 la croissance .es .onnes comme tant
tri-.imensionnels : les analyses comple0es rpon.ent en effet 7 la
r$le .ite .es K /9 A# volume# vlocit et varit. Qe mo.le est
encore lar$ement utilis auJour.Hhui pour .crire ce phnomne.
E
N
J
E
U
X
E
N
J
E
U
X
E
N
J
E
U
X
E
N
J
E
U
X
Data Mining vs. Big Data (2/3) Les 3 V
V
O
L
U
M
E
V
O
L
U
M
E
V
O
L
U
M
E
V
O
L
U
M
E
Mutils .e recueil .e .onnes .e plus en plus prsents# .ans les
installations scientifi)ues# mais aussi et surtout .ans notre vie .e tous
les Jours ;e0. cookies# O"-# rseau0 sociau0 Wex. lien like - profils X#
cartes .e fi.lit# etc.?.
Fl faut pouvoir les ;.onnes? traiter 6
V
A
R
I
E
T
E
V
A
R
I
E
T
E
V
A
R
I
E
T
E
V
A
R
I
E
T
E
-ources# formes et .es formats trs .iffrents# structures ou non-
structures : on parle $alement .e .onnes comple0es ;e0. te0te en
provenance .u 5e# ima$es# liste .(achats# .onnes .e $olocalisation#
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
24
V
A
R
I
E
T
E
V
A
R
I
E
T
E
V
A
R
I
E
T
E
V
A
R
I
E
T
E
provenance .u 5e# ima$es# liste .(achats# .onnes .e $olocalisation#
etc.?.
Fl faut les traiter simultanment 6
V
E
L
O
C
I
T
E
V
E
L
O
C
I
T
E
V
E
L
O
C
I
T
E
V
E
L
O
C
I
T
E
+ises 7 Jour fr)uentes# .onnes arrivant en flu0# osolescence rapi.e
.e certaines .onnes% ncessit .(analyses en )uasi temps rel ;e0.
.tection / prvention .es .faillances# $estion .e file .(attente?
Fl faut les traiter rapi.ement 6
Data Mining vs. Big Data (3/3)
B
i
g
B
i
g
B
i
g
B
i
g
d
a
t
a

v
s
.

B
I

?
d
a
t
a

v
s
.

B
I

?
d
a
t
a

v
s
.

B
I

?
d
a
t
a

v
s
.

B
I

?
;Yikip.ia? ...la maturation .u suJet fait apparaitre un autre critre plus
fon.amental .e .iffrence .(avec le Cusiness Fntelli$ence et concernant
les .onnes et leur utilisation :
Cusiness Fntelli$ence : utilisation .e statisti)ue .escriptive Wreportin$#
taleau0 .e or.#%X# sur .es .onnes 7 forte .ensit en information afin
.e mesurer .es phnomnes# .tecter .es ten.ances% Z
Ci$ *ata : utilisation .e statisti)ue infrentielle# sur .es .onnes 7
faile .ensit en information .ont le $ran. volume permet .(infrer .es
lois ;r$ressions%.? .onnant .s lors ;avec les limites .e l(infrence? au
i$ .ata .es capacits pr.ictives Wmo.lisation# analyse pr.ictive#%X.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
25
Mais alors Mais alors Mais alors Mais alors
BIG DATA = DATA MINING ++ ++ ++ ++
Avec de nouveaux Avec de nouveaux Avec de nouveaux Avec de nouveaux dfis dfis dfis dfis
technologiques technologiques technologiques technologiques / / / /
mthodologiques lis aux mthodologiques lis aux mthodologiques lis aux mthodologiques lis aux
3 3 3 3 V VV V
Cloud computing (ex. APACHE
HADOOP / MAHOUT)
Fouille de donnes complexes
Data stream mining
Etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
26
;&? Qila$e .e clientle : le scorin$
;2? Gti)ueta$e automati)ue .e K nouvelles A
Ciblage de clientle par publipostage (1/2)
Can)ue fran@aise
MJectif : Pu$menter l(a.hsion 7 un service en li$ne ;tau0 .(aonnement actuel 1[?
Case marketin$ : plusieurs centaines .e milliers .e clients#
!2VV variales ;=3[ sont )uantitatives?
+tho.e : isoler .es $roupes .(in.ivi.us se ressemlant .ans le)uel
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
27
+tho.e : isoler .es $roupes .(in.ivi.us se ressemlant .ans le)uel
le tau0 .(aonnement est lev
les non-aonns .ans ces $roupes seront ;certainement ,? sensiles 7 une offre cile
;hypothse : s(ils ne sont pas aonns# c(est )u(ils n(ont pas re@u l(information?
techni)ue : arre .e .cision avec chantillonna$e )uilir sur cha)ue noeu.
valuation : dpasser le taux (cot) derreur, mesurer la qualit du ciblage
meilleur ciblage : toutes les personnes contactes ont souscrit un contrat
0.4
0.6
0.8
1
C
u
m
u
l
a
t
i
v
e

%

o
f

"
r
a
r
e
"
Optimal
BLS-10000
BLS-500
BLS-300
BgS-10000
Ciblage de clientle par publipostage (2/2)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
28
0
0.2
0 0.2 0.4 0.6 0.8 1
Cumulative % of the population
C
u
m
u
l
a
t
i
v
e

%

o
f

"
r
a
r
e
"
BgS-2000
Random
Individu
Probabilit
de
souscrire
Pourc. Ind.
cumul
Pourc. Cibls
Cumul Pourc. Cibls
4 0.95 10% 19% 0.19
9 0.9 20% 37% 0.18
10 0.8 30% 53% 0.16
6 0.65 40% 66% 0.13
3 0.6 50% 78% 0.12
7 0.5 60% 88% 0.1
2 0.35 70% 95% 0.07
5 0.25 80% 100% 0.05
8 0 90% 100% 0
1 0 100% 100% 0
5.00
Text Mining Catgorisation de nouvelles (1/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
29
Text Mining Catgorisation de nouvelles (2/3)
Codage de texte en tableau de donnes
Les chercheurs qui cherchent, on en trouve
Mais les chercheurs qui trouvent, on en cherche
Mots cls
lemmatisation
stopwords
Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche
1 1 1 1 1 1 1 1 0 0 0
2 1 1 1 0 1 1 0 1 1 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
30
stopwords
3-grams
corresp. avec les mots
problme du sens
Phrase Les es s c ch cheher rch eur
1 1 1 1 2 4 2 2 1
2 1 1 1 1 4 2 2 1
Text Mining Catgorisation de nouvelles (3/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
31
Exemple : appartenance au sujet crude
(ptrole brut)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
32
'uelle mtho.e utiliser par rapport :
au0 oJectifs .e l(tu.e ,
au0 .onnes .isponiles ,
Tableau de donnes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Variables, caractres, attributs,
Descripteurs, champs, etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
33
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Individus, observations, objets, enregistrements, etc.
donnes nominales ;e0. success# Jo%?
nomre .e cas .nomrales
co.s pour .istin$uer les mo.alits
aucune relation . (or.re entre les co.es
oprateurs arithmti)ues/mathmati)ues inapplicales
donnes ordinales ;e0. Refun.in$%?
nomre .e cas .nomrales
co.s pour .istin$uer les mo.alits
il e0iste une relation . (or.re entre les mo.alits
Types de variables
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
34
il e0iste une relation . (or.re entre les mo.alits
les carts ne sont pas )uantifiales
co.s sous forme .e ran$s# on peut appli)uer .es calculs
donnes numri%ues ou continues ;e0. Ya$es%?
nomre .e cas thori)uement infini
il e0iste une relation . (or.re entre les valeurs
les carts sont )uantifiales
.istinction entre chelle proportionnelle et non-proportionnelle
;e0. 2V\Q/&V\Q ] 2 et >E\</3V\< ] &.> : non proportionnelle Z k$ et livres : proportionnelle ?
calculs autoriss# al$ri)ues
Distinguer les types de variables
Mn peut .istin$uer les .iffrents types .e .onnes 7 partir .e
la .finition .e l (oprateur .iffrence :
Nominale :

=
=
b a
b a
AB
x x si
x x si
d
, 1
, 0

> + x x si , 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
35
Ordinale :

<
=
> +
=
b a
b a
b a
AB
x x si
x x si
x x si
d
, 1
, 0
, 1
Continue :
b a AB
x x d =
Qo.a$e .isJonctif complet
*onnes continues *onnes )ualitatives ;nominales# or.inales?
Refunding
Ref_Slow Ref_Normal Ref_Fast
Qualitatives vers continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
36
Fast
Slow
Fast
Normal
Slow
Ref_Slow Ref_Normal Ref_Fast
0 0 1
1 0 0
0 0 1
0 1 0
1 0 0
on per. l (information . (or.re sur les .onnes or.inales
Continues vers ordinales
Donnes ordinales Donnes continues
Discrtisation
par expert
automatique non-contextuelle
automatique contextuelle
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
37
age
100 0
age
vieux adulte jeune
on perd l information sur les carts
on peut traiter des relations non-linaires
Donnes continues Donnes continues
Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne
rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Transformation distributionnelle
Continues vers continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
38
Transformation distributionnelle
Var Orig.
0
6
12
18
24
30
36
42
48
54
60
66
72
78
<= 0 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] > 14
Var Transf.
0
2
4
6
8
10
12
14
16
18
20
22
24
<= -3
(-3;-2.5]
(-2.5;-2]
(-2;-1.5]
(-1.5;-1]
(-1;-.5]
(-.5;0]
(0;.5]
(.5;1]
(1;1.5]
(1.5;2]
(2;2.5]
(2.5;3]
> 3
) ln(
1 2
x x =
Tpologie !es mtho!es selon les ob"ectifs
Description :
trouver un rsum .es
.onnes )ui soit plus intelli$ile
statisti)ue .escriptive
analyse factorielle
L0 : moyenne .(^$e .es personnes
prsentant un cancer .u sein
"tructuration :
<aire ressur$ir .es $roupes K naturels A
)ui reprsentent .es entits particulires
classification ;clusterin$# apprentissa$e non-
supervis?
L0 : .couvrir une typolo$ie .e comportement
.es clients .(un ma$asin
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
39
&xplication :
"r.ire les valeurs .(un attriut ;en.o$ne?
7 partir .(autres attriuts ;e0o$nes?
r$ression
apprentissa$e supervis
L0 : pr.ire la )ualit .(un client ;remourse
ou non son cr.it? en fonction .e ses caractristi)ues
;revenus# statut marital# nomre .(enfants# etc.?
'ssociation :
2rouver les ensemles .e .escripteurs
)ui sont le plus corrls
r($les dassocation
L0 : rayonna$e .e ma$asins# les personnes
)ui achtent .u poivre achtent $alement .u
sel
les mtho.es sont le plus souvent complmentaires 6
#ous-tpologie selon le tpe !e !onnes : la pr!iction / explication
L0plication
Ln.o$ne continue
L0o$nes continues
Ln.o$ne continue
L0o$nes .iscrtes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
40
L0o$nes continues
)$ression
Ln.o$ne .iscrte
L0o$nes )uelcon)ues
'pprentissa$e supervis
'nalyse de variance
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
41
;&? Lo$iciels
;2? Muvra$es et ressources en li$ne
Logiciels de DATA MINING Fonctionnalits
Pccs et prparation .es .onnes
Pcc.er 7 un fichier / une C*
Rassemler .es sources .iffrentes
+tho.es .e <ouille .e .onnes
Lancer les calculs avec .iffrents al$orithmes
Cilioth)ue .e mtho.es
Lncha_ner les traitements
<aire cooprer les mtho.es sans pro$rammer
Gvaluer les connaissances
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
42
Lo$iciels commerciau0
"rototypes .e recherche
Gvaluer les connaissances
9ali.ation croise# etc.
L0ploiter les sorties
Rapports# visualisation interactive# etc.
Pppli)uer/e0ploiter les mo.les
+o.les en `+L# co.e Q# *LL compiles
"r.iction .irecte sur .e nouveau0 fichiers
Logiciels de DATA MINING Les logiciels disponibles
Commerciaux
SPAD
SAS Enterprise miner
SPSS Clementine
STATISTICA Data Miner
IBM Intelligent Miner
RAPIDMINER (*)
-implicit .u pilota$e ;filire - .ia$ramme?
2echni)ues varies
*ploiement
Mutils .e K reportin$ A
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
43
KNIME (*)
Universitaires
R (*)
TANAGRA
SIPINA v2.5 & Recherche
WEKA (*)
ORANGE
-pcifi)ue 7 certaines techni)ues
2echni)ues rfrences - pulies
Mutils .e vali.ation
Conclusion
La .marche *P2P +FNFNO
formalisation .es oJectifs
ac)uisition .es .onnes
prparation .es .onnes
apprentissa$e 4 application .es mtho.es
interprtation 4 e0plication
valuation et vali.ation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
44
valuation et vali.ation
.ploiement
"as .e miracle si :
Les oJectifs sont mal .finis
Les .onnes .isponiles ne conviennent pas
Les .onnes sont mal K prpares A
Mn n(utilise pas les techni)ues appropries
Bibliographie : pratique du Data Mining
K Le *ata minin$ A# R. Lefeure et O. 9enturi# e.. Lyrolles# 2VV&.
"eu techni)ue# point .e vue $nral# trs on recul# complet
K *ata +inin$ et statisti)ue .cisionnelle A# -. 2uffry# e.. techni)ue# 2VV>.
"lut8t $ui.e prati)ue : repres pour les proJets# opportunits# mtho.es
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
45
"lut8t $ui.e prati)ue : repres pour les proJets# opportunits# mtho.es
K Pnalyse .iscriminante 4 Ppplication au ris)ue et au scorin$ financier A# +.
Car.os# e.. *uno.# 2VV&.
2echni)ue prati)ue# avec .e ons repres thori)ues# tourn vers les applications
Bibliographique : comprhension des mthodes
K *ata +inin$ : "ractical machine learnin$ tools an. techni)ues 5ith Bava
implementations A# F. Yitten an. L. <rank# +or$an aaufman "u.# 2VVV.
2rs $nral et complet# lo$iciel lire accs# techni)ue
K 2he elements of statistical learnin$ - *ata +inin$# Fnference an. "re.iction A#
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
46
K 2he elements of statistical learnin$ - *ata +inin$# Fnference an. "re.iction A#
2. Rastie# R. 2ishirani# B. <rie.man# -prin$er 2VV&.
2rs techni)ue# encyclop.i)ue# in.ispensale pour la recherche# 7 lire plusieurs fois
K+achine Learnin$ A# 2. +itchell# +c Ora5-Rill L.itions# &==D.
2rs trs techni)ue# surtout mtho.es supervises# encyclop.i)ue
Ressources en ligne
-ites 5e et portails :
http://chiroule.univ-lyon2.fr/!ricco/.ata-minin$
Un portail pour la .ocumentation : liens# supports .e cours en li$ne# lo$iciels# .onnes
*ata +inin$ .i0it Yikip.ia : http://fr.5ikipe.ia.or$/5iki/L0plorationI.eI.onnes
-ite .es tutoriels :
http://tutoriels-.ata-minin$.lo$spot.com/
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
47
http://tutoriels-.ata-minin$.lo$spot.com/
http://555.k.nu$$ets.com
K Le A portail .u *P2P +FNFNO# avec toute l(actualit .u .omaine
Ci$ .ata .i0it -P- : http://555.sas.com/i$-.ata/

Vous aimerez peut-être aussi