Académique Documents
Professionnel Documents
Culture Documents
Unidad II
Anlisis Cluster
jsalinas@lamolina.edu.pe
Introduccin
El anlisis cluster es una tcnica diseada para clasificar tantas observaciones en grupos de tal forma que: Cada grupo (conglomerado o cluster) sea homogneo respecto a las variables utilizadas para caracterizarlos; es decir, que cada observacin contenida en l sea parecida a todas las que estn incluidas en ese grupo. Que los grupos sean lo ms distintos posible unos de otros respecto a las variables consideradas.
4
2.
Se tienen n observaciones (individuos, empresas, etc.) de los que se tiene informacin sobre p variables (edad, estado civil, nmero de hijos, etc) Se establece un indicador que nos diga en qu medida cada par de observaciones se parece entre s. A este medida se le denomina distancia o similaridad.
4.
Se crean grupos, de forma que cada grupo contenga aquellas observaciones que ms se parezcan entre s. Hay dos tipos de AC: jerrquico y no jerrquico. A su vez, en cada tipo se pueden utilizar distintos mtodos de agrupacin y conglomeracin. Se debe describir los grupos que se ha obtenido y compararlos unos con los otros. Para ello bastar con ver qu valores promedio toman las p variables utilizadas en el AC en cada uno de los g grupos obtenidos (g n)
8
Medidas de distancia
Distancia euclidiana: es la raz cuadrada de la suma de las diferencias al cuadrado entre los dos elementos en la variable o variables consideradas
D(X, Y) =
(X
i
Yi )2
Distancia mtrica de Chebychev: es la referencia mxima en valores absolutos entre los valores de los elementos
D(X, Y) = Max i Xi Yi
9 10
(X
Yi )2
Zi =
Xi X Si
11
Algoritmos de Agrupamiento
Mtodo del vecino ms cercano (vinculacin simple) Mtodo del vecino ms lejano (vinculacin completa) Mtodo de la vinculacin promedio o intergrupos Mtodo del centroide (vinculacin de centroides) Mtodo de Ward
13
14
X1
X2 2 1 1 4 5 3
(A,B) (A,B) C D E F 0 2 4.24 3.61 2.24 C 2 0 3.16 4.12 2.24 D 4.24 3.16 0 2.24 2.24 E 3.61 4.12 2.24 0 2 F 2.24 2.24 2.24 2 0
Ejemplo:
A B C D E F
1 2 4 5 3 3
A B C D E F
C 2 0 3.16 2.24
0 2 4.24 2.24
C L U S T E R
A N A L Y S I S * * * * * *
D 2,24 0
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
18
1 2 3 5 6 4
Otros indicadores
Raz cuadrada de la media de las desviaciones tpicas del nuevo conglomerado (RMSSTD) R2 semiparcial (SPR) R cuadrado (RS) Distancia entre los conglomerados (DC)
20
RMSSTD Homogeneidad del nuevo conglomerado SPR Homogeneidad de los conglomerados fusionados RS Heterogeneidad entre conglomerados CD Homogeneidad de los conglomerados fusionados
El valor debe ser pequeo El valor debe ser pequeo El valor debe ser grande El valor debe ser pequeo
21
Procedimiento del anlisis cluster no jerrquico an jer Se determinan los centroides iniciales de los k grupos, estos es, los valores medios de las variables que caracterizan las observaciones en cada uno de esos grupos. Estos centroides se conocen como semillas. Cada observacin se asigna a aquel cluster, de entre los k existentes, cuyo centroide est ms cercano a esa observacin en trminos de distancia eucldea. Se recalculan los centroides de los k grupos de acuerdo con las observaciones que han sido clasificadas en casa uno de ellos. Si el cambio en los centroides es mayor que un valor criterio de convergencia preestablecido, se vuelve al paso 2, finalizando el proceso cuando se cumpla el criterio de convergencia o se supere un nmero prefijado de 23 iteraciones.
24
Segmentacin de Mercados
La finalidad del AC es descubrir, entre los consumidores, grupos de individuos (segmentos), cuyos comportamientos, actitudes y hbitos sean similares; con el objeto de poder disear estrategias que se adapten perfectamente a cada uno de los segmentos de la poblacin estudiada
Posicionamiento de Productos
El AC se realiza con el fin de poder reagruparlos, en un cierto nmero de clases o tipos, en funcin de la actitud de los consumidores ante los mismos. El conocimiento de estos tipos permite, para cada marca, aislar a sus competidores y modificar su poltica comercial en consecuencia.
26
25
Campo de publicidad
El AC se realiza con el fin de poder obtener grupos de medios (peridicos, revistas, programas de TV, etc.) similares en cuanto a su audiencia. El AC se aplica para obtener temas publicitarios en funcin de similitudes semnticas percibidas por los entrevistados entre las diversas palabras que describen a un producto.
27
Ejemplo de Aplicacin
A este grupo de personas que tenemos aqu
les mediremos una serie de atributos de tipo mtrico, y conforme a estos atributos vamos a clasificar, o distribuir, a estas personas (o entidades muestrales) en grupos o categoras de tal forma que dentro de cada grupo las unidades muestrales sean lo ms homognea posible, y entre los grupos estas unidades, comparativamente, sean lo ms heterognea posibles.
28
Atributos
Salir de compras es divertido Salir de compras afecta el presupuesto Al salir de compras aprovecho de comer fuera Al salir a comprar trato de hacer las mejores No me importa salir de compras Al salir de compra voy a ahorrar si comparo precios.
29
Salir de compras es divertido Salir de compras afecta el presupuesto Al salir de compras aprovecho de comer fuera Al salir a comprar trato de hacer las mejores No me importa salir de compras Al salir de compra voy a ahorrar si comparo precios.
De una escala del 1 al 7, donde 1 es desacuerdo y 7 de acuerdo, de su grado de conformidad a las siguientes aseveraciones
Debemos definir una medida de similitud, puesto que esta medida de similitud nos puede entregar una pauta para formar conglomerados (cluster) homogneos.
31
32
La distancia eucldea entre el caso 1 y el caso 2 es: [(6 2)2 + (4 3)2 + (7 1)2 + (3 4)2 + (2 5)2 + (3 4)2]1/2 = 8 Vamos a resolver nuestro problema original de las personas que van de compras
33
34
Vamos a resolver nuestro problema original de las personas que van de compras
En el software se eligen estas dos opciones como estudio preliminar en las opciones estadsticos y Mtodo
Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
Esta tabla muestra como los casos son aglomerados en cada etapa del anlisis de cluster.
37
38
Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
Cuando conglomerados o casos son unidos, el nuevo cluster es etiquetado con el nmero menor de etiqueta de los dos cluster.
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
La columna de coeficientes indica la distancia entre los dos cluster o casos en cada etapa. La distancia es la elegida segn el mtodo
39
40
Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 14 16 6 7 12 21 2 13 5 11 3 8 6 12 4 14 5 9 1 6 4 19 5 20 1 17 2 5 1 3 4 10 1 15 4 18 2 4 1 2 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 1 5 0 0 7 8 0 9 0 10 0 4 12 13 6 11 0 15 0 16 0 14 18 17 19
Agglomeration Schedule
Tres cluster permanecen despus de la etapa 18. Lo indicado es formar 3 cluster como solucin
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Coefficients 2,000 2,000 3,000 3,000 3,000 3,000 3,500 4,000 4,500 5,750 7,000 7,333 8,000 10,750 11,667 11,750 14,125 22,600 37,944 46,389
Next Stage 8 7 7 14 9 15 10 11 12 13 16 14 15 19 17 18 20 19 20 0
Esta parte de la tabla muestra la etapa en que aparece por primera vez un cluster. Y los valores 0 indican que el cluster es an un caso
buena solucin
41
El cluster 6 (que ya no es un caso) apareci por primera vez en la etapa 2, y volver a aparecer en la etapa 10.
42
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Ahora, si hemos decidido formar tres cluster o conglomerados, dando las instrucciones pertinentes al software deber aparecer esta solucin de pertenencia.
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Esto es, las personas que tienen las etiquetas {1, 3, 6, 7, 8, 12, 15, 17 y 21} pertenecen al conglomerado 1. Las personas etiquetadas con {2, 5, 9, 11, 13, y 20} pertenecen al conglomerado 2. Y las personas etiquetadas con {4,10,14,16,18 y 19} pertenecen al conglomerado 3.
4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15
43
44
* * * H I E R A R C H I C A L * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C A S E Label Num 14 16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Note como las ramas se unen a medida que uno mira de izquierda a derecha
10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15
Las lneas verticales que unen los casos denotan similitud, cuando estas estn a la izquierda
45
46
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Las lneas verticales que unen los casos no describen similitud, cuando estas estn a la derecha del dendrograma
10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15
16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15
47
48
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 14 16 4 19 10 18 2 13 5 11 9 20 3 8 6 7 12 21 1 17 15 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
49
50
Divertidos innovadores
Lujuriosos
Indiferentes
Ahorradores
10
1. Los casos del cluster 1 tienen valores altos en las variables divertid, aprovech, medios en las variables presupu, buenacom, ahorro y bajo en noimport. 2. Los casos del cluster 2 tienen valores altos slo en la variables noimport, medios en las variables presupu, buenacom, ahorro y bajo en divertid, aprovech. 3. Los casos del cluster 3 tienen valores altos en las variables presupu, buenacom, ahorro, medios en las variables divertid, aprovech, noimport y no tiene valores bajos.
51
11
12
13
14
15
16
17
18
19
20
21 52
Ejemplo N 3
Lujuriosos
Indiferentes
Ahorradores
La Unin Europea ha decidido la incorporacin de nuevos miembros para el ao 2004. En concreto: Letonia, Estonia, Lituania, Polonia, Repblica Checa. Eslovaquia y Hungra. Tomando una serie de variables representativas se pretende agrupar a estos pases:
54
53
Ejemplo N 4
Id Pases PIB Inflacin Desempleo Coches (x1000 habitantes) Salario medio por hora 1.9 3.0 2.3 3.6 3.2 2.5 2.9 Usuarios internet (%)
1 2 3 4 5 6 7
7 30 7 10 14 12 15
55
Bibliografa
1.
2.
3.
Hair-Anderson-Tatham-Blanck. Anlisis Multivariante. Prentice Hall. Quinta Edicin. 1999. Mxico. Catena, Andrs & otros. Anlisis Multivariado. Un manual para investigadores. Biblioteca Nueva. 2003. Landero & Otros. Estadstica con SPSS y Metodologa de la Investigacin. Editorial Trillas. 2006. Mxico.
57