Académique Documents
Professionnel Documents
Culture Documents
Anlisis Cluster
Gua Anlisis Cluster Ejemplo de anlisis cluster Trabajo sobre asignacin
Anlisis Cluster
Es una clase de tcnicas utilizadas para clasificar casos en grupos que son relativamente homogneos dentro de si mismos y heterogneos entre ellos, sobre la base de un conjunto definido de variables. Estos grupos se llaman Clusters o Conglomerados.
Dij !
x
k !1
ki
xkj
Dij distancia entre los casos i y j xki valor de la variable Xk para el caso j Problemas: Diferentes medidas = diferentes ponderaciones Correlacin entre variables (redundancia) Solucin: Anlisis de componentes principales
Procedimientos de Clustering
Procedimientos jerarquicos
Aglomerativo (comienza desde n clusters, hasta llegar a obtener 1 cluster) Divisivo (comienza desde 1 cluster, hasta obtener n cluster)
Procedimientos no jerarquicos
Cluster de K-medias
Agrupamiento aglomerativo
Agrupamiento aglomerativo
Mtodos de enlace
Enlace simple (distancia mnima) Enlace Completo (distancia mxima) Enlace promedio
Mtodo de Ward
1. 2. Calcular la suma de las distancias al cuadrado dentro de los clusters Agregar clusters con incremento mnimo en la suma de cuadrados total La distancia entre dos clusters se define como la distancia entre los centroides (medias de los cluster)
3.
Dado un cierto umbral, todas unidades son asignadas a la ms cercana semilla del grupo 4. Se calculan nuevas semillas 5. Volver a la etapa 3 hasta que no sea necesaria una reclasificacin Las unidades pueden ser reasingnadas en etapas sucesivas (particin ptima)
Agrupamiento no jerarquico
Ms rpido, ms fable Es necesario especificar el nmero de clusters (arbitrario) Es necesario establecer la semilla inicial (arbitrario)
Mtodo sugerido
1. Primero ejecutar un mtodo jerrquico para definir el nmero de clusters 2. Luego utilizar el procedimiento kmedias para formar los clusters
eludehcS noitaremolggA
304.11 3 1 11 787.8 21 1 01 672.8 2 1 9 447.6 11 1 8 294.3 4 1 7 086.3 5 4 6 001.1 6 1 5 240.1 8 4 4 479. 9 8 3 807. 01 6 2 510. 7 4 1 stneiciffeoC 2 retsulC 1 retsulC egatS denibmoC retsulC
SPSS Example
MATTHEW
LUCY JENNIFER
.5
NICOLE
Component2
-1.0
FRED
.5
1.0
1.5
2.0
Component1
eludehcS noitaremolggA
Number of clusters: 10 6 = 4
000.81 878.9 305.4 654.1 948. 904. 422. 870. 620. stneiciffeoC 3 1 4 3 2 1 8 1 01 4 7 1 9 4 5 2 6 3 2 retsulC 1 retsulC denibmoC retsulC 9 8 7 6 5 4 3 2 1 egatS
1.5
1.0
.5
NICOLE
Cluster Number of Ca
4 3
Component2
-1.0
Component1
Analyse / Classify
Untick this
Number of clusters
Identify the step where the distance coefficients makes a bigger jump
118
120
122
124
126
128
130
132
134
136
138
140
142
144
146
Step
148
Number of clusters
Number of cases 150 Step of elbow 144 __________________________________ Number of clusters 6
K-means
Thick here
Final output
Cluster membership
.detcartxe stnenopmoc 5 .a .sisylanA tnenopmoC lapicnirP :dohteM noitcartxE 40-E249.6 20-E62.3564.20-E41.8925.20-E496.1 30-E92.3705. 243. 20-E800.6 822.791.20-E16.5955. 232. 481. 20-E21.6782.064. 271.932.383. 20-E53.4433. 381. 4 20-E37.620-E64.7281. 943.264. 742. 531. 746. 091. 201.431.20-E46.520-E57.4172.604. 20-E35.9366. 216. 20-E42.9681.916. 182.543.602.251.492.2 198. 809. 344. 20-E989.2 421. 963. 946. 20-E487.1 294. 635. 646. 291. 525. 084. 018.
x a irtaM
tnenopmoC
702.-
tnednopser fo egA emocni dlohesuoh ylraeY bew eht fruS )sruoh( gninetsil oidaR ylkeeW )sruoh( gnihctaw VT ylkeeW sdik fo rebmuN eziS dlohesuoH nairategeV doof cinagro ni tneps % rac a nwO tcudorp dnarb-nwo ni tneps % erutidnepxe selbategeV erutidnepxe hsiF erutidnepxe taeM tneps tnuoma ylhtnoM
57339.73882.34790.55775.85712. 2
1 sisylana rof 5 erocs rotcaf RGER 1 sisylana rof 4 erocs rotcaf RGER 1 sisylana rof 3 erocs rotcaf RGER 1 sisylana rof 2 erocs rotcaf RGER 1 sisylana rof 1 erocs rotcaf RGER
1
1
Cluster Number of Ca
0 6 5 -1 4 -2 3 2 -3 -3 -2 -1 0 1 2 1
1 for analysis