Académique Documents
Professionnel Documents
Culture Documents
DATA MINING
& STATISTIQUE DCISIONNELLE
04/04/2008
Plan du cours
Techniques descriptives
04/04/2008
04/04/2008
Other
Bagging
Boosting
Genetic algorithms
Hybrid methods
Bayesian
Sequence / time series
analysis
SVM
Nearest neighbor
Assocation rules
Visualization
Regression
Neural nets
Statistics
Clustering
Decision Trees
50%
40%
novembre 2003
en % des votants
30%
avril 2006 en %
des votants
20%
10%
0%
Analyse factorielle
Classification
carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
04/04/2008
La classification
04/04/2008
des individus
des variables
Mthode descriptive :
Utilisation en marketing, mdecine, sciences humaines
Les objets classer sont :
04/04/2008
Complexit du problme !
1 kn
Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec
La classification
nb de produits
ge
revenus
04/04/2008
10
attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique
prdictive que les franais appellent classement )
04/04/2008
11
lignes = individus
colonnes = variables
individus
ou variables (par exemple : la matrice des corrlations)
04/04/2008
12
Soit
Soit
04/04/2008
13
Mthodes hirarchiques
ascendantes (agglomratives)
bases sur une notion de distance ou de densit
descendantes (divisives)
Mthodes de partitionnement
Mthodes mixtes
Analyse floue (fuzzy clustering)
04/04/2008
14
Applications de la classification
Marketing
des
protocoles
thrapeutiques dtermins, chaque groupe regroupant
tous les patients ragissant identiquement
Sociologie : dcouper la population en groupes
homognes du point de vue sociodmographique, style
de vie, opinions, attentes
04/04/2008
15
clients
clients
clients
clients
clients
Utilisation pour :
04/04/2008
16
patrimoine - ge
5
P
C
R
2
0
crdit conso-5- CB
0
faibles revenus
S1 : rouge
S2 : vert
S3 : rose
04/04/2008
PCR1
10
forts revenus
S4 : orange
S5 : bleu
S6 : noir
17
04/04/2008
18
Noeud 0
Catgorie
%
6
42,55
2
11,80
3
11,03
4
6,99
1
20,22
5
7,40
Total
(100,00)
n
71577
19848
18560
11766
34011
12450
168212
Noeud 2
Catgorie
%
6
6,58
2
19,19
3
17,94
4
11,37
1
32,88
5
12,04
Total
(61,49)
Identification
des classes par
un arbre de
dcision
Noeud 3
Catgorie
%
n
6
5,02
1734
2
0,16
54
3
0,01
3
4
0,37
127
1
94,19 32563
5
0,27
92
Total
(20,55) 34573
n
6806
19848
18560
11766
34011
12450
103441
Noeud 4
Catgorie
%
6
7,36
2
28,74
3
26,95
4
16,90
1
2,10
5
17,94
Total
(40,94)
Noeud 5
Catgorie
%
n
6
10,28
3362
2
57,00 18959
3
0,00
0
4
30,58
9996
1
1,14
373
5
0,00
0
Total
(19,43) 32690
04/04/2008
Noeud 7
Catgorie
%
n
6
8,71
2223
2
74,30 18958
3
0,00
0
4
15,53
3963
1
1,46
373
5
0,00
0
Total
(15,17) 25517
Noeud 8
Catgorie
%
6
15,88
2
0,01
3
0,00
4
84,11
1
0,00
5
0,00
Total
(4,26)
n
5072
19794
18557
11639
1448
12358
68868
Noeud 6
Catgorie
%
n
6
4,73
1710
2
2,31
835
3
51,29 18557
4
4,54
1643
1
2,97
1075
5
34,16 12358
Total
(21,51) 36178
n
1139
1
0
6033
0
0
7173
Noeud 9
Catgorie
%
n
6
3,78
766
2
1,49
303
3
32,37
6565
4
5,21
1057
1
5,30
1075
5
51,84 10514
Total
(12,06) 20280
Noeud 10
Catgorie
%
n
6
5,94
944
2
3,35
532
3
75,43 11992
4
3,69
586
1
0,00
0
5
11,60
1844
Total
(9,45) 15898
19
Techniques de classification :
La classification dindividus
04/04/2008
20
Classification
04/04/2008
21
Mais
04/04/2008
22
Il
Ncessit
23
2
pi ( xi x ) = pi ( xi x j ) +
iI
jclasses iI j
04/04/2008
pi (x j x )
jclasses iI j
24
inertie totale
04/04/2008
inertie interclasse +
inertie intraclasse
25
rapport IR / ITOT
tre le plus proche possible de 1
sans avoir trop de classes
sarrter aprs le dernier saut
important
R-Squar ed
1. 0
0. 9
0. 8
0. 7
0. 6
4 classes
0. 5
0. 4
0. 3
0. 2
0. 1
0. 0
1
Num
ber of C
l ust er s
04/04/2008
R
c 1
1 R
nc
26
un creux pour k
classes suivi dun pic
pour k+1 classes
indique une bonne
classification en k+1
classes (surtout si on
a une ou une
douce partir de k+2
classes)
4
3
2
1
0
-1
-2
-3
4 classes
-4
-5
-6
-7
-8
-9
1
N
um
ber of Cl ust ers
27
R
- Squar ed
0. 35
0. 34
0. 33
0. 32
0. 31
0. 30
0. 29
0. 28
0. 27
0. 26
0. 25
0. 24
0. 23
0. 22
0. 21
0. 20
0. 19
0. 18
0. 17
0. 16
0. 15
0. 14
0. 13
0. 12
0. 11
0. 10
0. 09
0. 08
0. 07
0. 06
0. 05
0. 04
0. 03
0. 02
0. 01
4 classes
Num
ber of C
l ust er s
04/04/2008
28
fusionnes et
04/04/2008
29
04/04/2008
30
04/04/2008
31
04/04/2008
32
d (a, b)
d ( A, B) =
1
1
+
n A nB
04/04/2008
33
B
A
D
C
04/04/2008
34
Effet de chane
04/04/2008
35
Illustration de la CAH
04/04/2008
36
04/04/2008
37
Avantages de la CAH
Permet
la distance
Permet de choisir le nombre de classes de faon optimale,
grce des indicateurs de qualit de la classification en
fonction du nombre de classes
R semi-partiel et pseudo t
04/04/2008
38
classes
2) On calcule les distances entre chaque individu et
chaque centre ci de ltape prcdente, et on affecte
chaque individu au centre le plus proche, ce qui dfinit k
classes
3) On remplace les k centres ci par les barycentres des k
classes dfinies ltape 2
4) On regarde si les centres sont rests suffisamment
stables ou si un nombre fix ditrations a t atteint :
04/04/2008
39
04/04/2008
40
Variantes
k-means
Nues dynamiques
04/04/2008
41
Rapidit (complexit en n)
04/04/2008
42
Centres mobiles :
04/04/2008
43
04/04/2008
44
04/04/2008
45
04/04/2008
46
Mthodes mixtes
Exemples
04/04/2008
47
Utiliser
04/04/2008
48
04/04/2008
49
Code SAS :
proc
fastclus
data=test
summary
maxc=10
maxiter=50 converge=0.02 mean=centres out=presegm
cluster=presegm delete=2;
limite les statistiques affiches
var &var; run;
Autres options :
04/04/2008
50
Une
ligne
par
classe
Obs
presegm
_FREQ_
_RMSSTD_
_RADIUS_
_NEAR_
_GAP_
21
0.26371
0.62286
0.90908
-0.03354
-0.78624
31
0.22412
0.45198
1.23883
1.25483
1.60977
Une
ligne
par
individu
04/04/2008
Obs
presegm
DISTANCE
-1.92073
-1.49419
0.38436
-1.88339
-1.36798
0.33055
51
401.74
0.94535
0.90858
8.533
04/04/2008
52
04/04/2008
102
-0.59774
-1.05012
-1
0.65400
103
-0.80046
-0.97533
-3
0.64009
53
1.4
D
i
s
t
a
n 1.2
c
e
t
o
1.0
N
e
a
r
e
s 0.8
t
C
l
u
s 0.6
t
e
r
0.4
04/04/2008
run;
G
G
G
G
G
G
G
G
R
R
R
R
R
fixer strict proche des _radius_ des grands clusters
R
R
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Frequency
Cluster - http://data.mining.free.fr
Stphane Tuffry
- Dataof Mining
54
CAH
55
NCL
04/04/2008
Clusters Joined
OB8
FREQ
SPRSQ
RSQ
ERSQ
CCC
PSF
PST2
37
0.0160
.931
.906
5.04
350
51.2
OB6
CL9
OB7
56
0.0181
.913
.893
3.38
312
31.2
OB1
OB5
43
0.0198
.893
.877
2.41
292
69.4
OB3
OB10
38
0.0199
.873
.855
2.37
290
62.0
CL7
OB4
65
0.0315
.842
.824
1.95
281
56.3
CL6
CL8
94
0.0739
.768
.778
-.88
235
84.1
CL5
CL4
159
0.1980
.570
.700
-8.2
142
140
CL3
OB9
186
0.2255
.344
.530
-7.4
113
98.0
CL2
OB2
217
0.3442
.000
.000
0.00
113
T
i
e
ex
aequo
56
_NAME_
_PARENT_
_NCL_
_FREQ_
_HEIGHT_
_RMSSTD_
_SPRSQ_
_RSQ_
_PSF_
_PST2_
OB6
2
3
_ERSQ_
CL9
10
19
0.00000
0.26769
0.00000
0.94681
OB8
CL9
10
18
0.00000
0.25155
0.00000
0.94681
CL9
CL8
37
0.01599
0.40234
0.01599
0.93081
349.798
51.224
0.90621
CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)
CL4
CL5
04/04/2008
CL6
CL8
57
Les classes sont notes CLn sauf les singletons nots OBn
FREQ : nb dindividus dans la nouvelle classe
SPRSQ (R semi-partiel = perte dinertie interclasse)
PST2 (pseudo t)
le R doit sapprocher de 1
PSF (pseudo F)
04/04/2008
58
data segm;
merge presegm segmhier; by presegm; run;
04/04/2008
59
3 tapes :
Principe
04/04/2008
61
Hormis
proc
proc
62
63
04/04/2008
64
04/04/2008
65
66
04/04/2008
67
04/04/2008
68
04/04/2008
69
Le rseau de Kohonen
pijk
individu 1
individu 2
individu N
couche dentre
70
couche de sortie
k =1
pijk
individu 1
(i,j)
individu 2
couche dentre
individu N
= taux dapprentissage
f(i,j;I,J) = fct dcroissante de la
71
Apprentissage du rseau
(i,j+1)
(i+1,j+1)
(i-1,j)
(i,j)
(i+1,j)
(i,j-1)
(i+1,j-1)
04/04/2008
revenus
nombre
denfants
72
Tout
Une
04/04/2008
73
04/04/2008
74
Synonymes
Utilisation
Utilisation
voir
04/04/2008
les exemples
suivants
Stphane Tuffry
- Data Mining - http://data.mining.free.fr
75
04/04/2008
76
04/04/2008
77
04/04/2008
78
Analyse relationnelle
Dfinition
04/04/2008
79
La classification relationnelle
On
80
04/04/2008
81
04/04/2008
82
Faiblesse
continues
Conseil
04/04/2008
83
Techniques de classification :
La classification de variables
04/04/2008
84
Classification ascendante
remplacer la distance
euclidienne par le coefficient
de corrlation de Pearson
utiliser la mthode single
linkage car il suffit que 2
groupes V et W de variables
contiennent v V et w W
suffisamment corrles pour
que les groupes soient proches
ventuellement binaires
04/04/2008
85
04/04/2008
86
04/04/2008
87
04/04/2008
88
04/04/2008
89
Recherche dassociations
(analyse du ticket de caisse)
04/04/2008
90
T26
T1245
T156
T2356
T145
lindice de confiance de B E
=3/4
lindice de support de B E =3/5
04/04/2008
91
92
04/04/2008
93
04/04/2008
94
04/04/2008
95
Taxinomie : dfinition
La
04/04/2008
96
Taxinomie : utilisation
97
Taxinomie : intrt
04/04/2008
98
04/04/2008
99
Le panier de la mnagre
04/04/2008
100
Utilisation de variables
supplmentaires
canal de distribution
mode de paiement
101