Vous êtes sur la page 1sur 11

ANLISIS CLUSTER JERRQUICO El anlisis cluster jerrquico (ACJ) es una herramienta exploratoria diseada para revelar las agrupaciones

naturales (o los conglomerados o clusters) dentro de un conjunto de datos que no sera de otra manera evidente. Es el ms til cuando usted desea agrupar un nmero pequeo (menos que algunos cientos) de objetos. Los objetos en anlisis cluster jerrquico pueden ser casos o variables, dependiendo de si usted desea clasificar casos o examinar relaciones entre las variables. El Anlisis Cluster Jerrquico comienza separando cada objeto en un cluster por s mismo. En cada etapa del anlisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados ms similares hasta que todos los objetos sean agrupados en un rbol de clasificacin completo. El criterio bsico para cualquier agrupacin es la distancia. Los objetos que estn cerca uno del otro perteneceran al mismo conglomerado o cluster, y los objetos que estn lejos uno del otro pertenecern a distintos clusters. Para un conjunto de datos dado, los clusters que se construyen dependen de nuestra propia especificacin de los siguientes parmetros: El mtodo cluster define las reglas para la formacin del cluster. Por ejemplo, cuando calculamos la distancia entre dos clusters, podemos usar el par de objetos ms cercado entre clusters o el par de objeto ms alejados, o un compromiso entre estos mtodos. La medida define la formula para el clculo de la distancia. Por ejemplo, la medida de distancia Eucldea calcula la distancia como una lnea recta entre dos clusters. Las medidas de intervalo asumen que las variables estn medidas en escala; las medidas de conteo asumen que son nmeros discretos, y las medidas binarias asumen que toman dos valores. La estandarizacin permite igualar el efecto de las variables medidas sobre diferentes escalas. Los fabricantes de coches necesitan ser capaces de valorar el mercado actual para determinar la competencia probable para sus vehculos. Si los coches son agrupados de acuerdo a los datos disponibles, esta tarea puede ser ampliamente automatizada utilizando el anlisis cluster. La informacin para distintos tipos y modelos de motor de coches est contenida en el fichero car_sales.sav. El uso del procedimiento de Anlisis Cluster Jerrquico para agrupar los automviles de mayores ventas de acuerdo a sus precios y propiedades fsicas. Abrimos el fichero car_sales.sav que se encuentra en el directorio que venimos utilizando durante el curso. Luego, para seleccionar los casos para el anlisis, del men elegimos: Datos Seleccionar Casos...

Seleccionar si se satisface la condicin. Hacemos click en Si En el campo de texto, tecleamos (type=0) & (sales>100). Hacemos click en Continuar. Hacemos click en Aceptar en el cuadro de dilogos de Seleccionar Casos. El anlisis posterior del conjunto de datos se basar en los automviles vendidas al menos 100000 unidades.

Para ejecutar el anlisis cluster, del menu elegimos:

Analizar Clasificar Conglomerados Jerrquicos... Seleccionar desde la variable Price in thousands hasta la variable Fuel efficiency como variables del anlisis. Etiquetamos los casos mediante la variable Model.

Hacemos clic en Grficos Seleccionar Dendrograma. Seleccionar Ninguno en el diagrama de Tmpanos. Hacemos click en Continuar.

Hacemos click en Mtodo en el cuadro dilogos del Anlisis Cluster Jerrquico. Seleccionar el mtodo de conglomeracin del Vecino ms Prximo. Seleccionar las puntuaciones Z como el mtodo de estandarizacin el grupo de Transformar Valores. Hacemos click en Continuar.

Hacemos click en Aceptar en el cuadro dilogos del Anlisis Cluster Jerrquico. El dendograma es el resumen grfico de la solucin cluster.

* * * * * * H I E R A R C H I C A L Dendrogram using Single Linkage

C L U S T E R

A N A L Y S I S * * * * * *

Rescaled Distance Cluster Combine C A S E Label Accord Camry Malibu Grand Am Impala Taurus Mustang Focus Civic Cavalier Corolla Num 8 11 2 9 3 5 4 6 7 1 10 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

Los casos se enumeran a lo largo del eje vertical de la izquierda. El eje horizontal muestra las distancias entre los conglomerados cuando son unidos. El anlisis del rbol de clasificacin para determinar el nmero de conglomerados es un proceso subjetivo. Generalmente, empezamos buscando distancias entre los agrupamientos a lo largo del eje horizontal. Empezando desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los automviles en dos conglomerados. Hay otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados. El Historial de conglomeracin es un resumen numrico de la solucin cluster.
Historial de conglomeracin Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 2 0 0 4 0 3 1 7 5 8 0 6 9

Etapa 1 2 3 4 5 6 7 8 9 10

Conglomerado que se combina Conglom Conglom erado 1 erado 2 8 11 6 7 2 9 1 6 3 5 1 10 2 8 2 3 2 4 1 2

Coeficientes 1,260 1,579 1,625 2,318 2,619 3,670 4,420 4,505 4,774 5,718

Prxima etapa 7 4 7 6 8 10 8 9 10 0

En la primera etapa, se combinan los casos 8 y 11 puesto que tienen la menor distancia. El cluster creado por su unin la prxima vez que aparece es en la etapa 7. En la etapa 7, los conglomerados creados en la etapa 1 y 3 se unen. El cluster resultante aparecer otra vez en la etapa 8. Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser ms fcil de revisar la columna de coeficientes para los saltos ms grandes que revisar el dendograma. Una buena solucin cluster es aquella que considera un salto repentino (hueco) en el coeficiente de distancia. La solucin anterior al salto indica la buena solucin. El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una solucin de 6 clusters, y en las etapas 9 y 10, indicando una solucin de 2 clusters. Estas son las mismas que habamos encontrado a partir del revisin del dendograma. Esto es algo insatisfactorio como una solucin, puesto que no hay una clasificacin fuerte. Intentemos una solucin utilizando el mtodo de conglomeracin del vecino ms lejano o vinculacin completa como mtodo de agrupamiento. Para ejecutar el anlisis cluster utilizando la vinculacin completa, retomamos el cuadro dilogos del Anlisis Cluster Jerrquico, y hacemos clic en Mtodo.

Selecionar el mtodo de conglomeracin del vecino ms lejano. Hacemos click en Continuar.

Hacemos click en Aceptar en el cuadro de dilogos del Anlisis Cluster Jerrquico. Para la primeras etapas, el historial para la solucin del vecino ms lejano es similar a la de la solucin del vecino ms prximo. En las etapas finales, son bastante diferentes puesto que la solucin del vecino ms lejano construye una clasificacin fuerte de dos o tres conglomerados.
Historial de conglomeracin Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 2 0 3 4 0 1 6 0 7 5 9 8

Etapa 1 2 3 4 5 6 7 8 9 10

Conglomerado que se combina Conglom Conglom erado 1 erado 2 8 11 6 7 2 9 3 5 6 10 2 3 1 8 2 4 1 6 1 2

Coeficientes 1,260 1,579 1,625 2,619 4,012 7,333 9,183 12,440 25,486 54,607

Prxima etapa 7 5 6 6 9 8 9 10 10 0

La rapidez de decisin de esta clasificacin se refleja en el dendograma. Dendrograma


_ * * * * * * H I E R A R C H I C A L Dendrogram using Complete Linkage Rescaled Distance Cluster Combine C A S E Label Accord Camry Cavalier Focus Civic Corolla Malibu Grand Am Impala Taurus Mustang Num 8 11 1 6 7 10 2 9 3 5 4 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C L U S T E R A N A L Y S I S * * * * * *

La division inicial del rbol forma dos conglomerados. La parte superior contiene los coches ms pequeos (Corolla, Civic, Focus Cavalier Camry y Accord). La parte de abajo contiene los coches ms grandes (Mustang, Taurus, Impala, Grand Am y Malibu). El conglomerado de los coches ms pequeos puede ser dividido an ms en coches pequeos y econmicos. El Civic y el Corolla son ms pequeos como ms baratos que El Accord y el Camry respectivamente. The cluster of smaller cars can be further split into small and economy cars. The Civic and Corolla are both smaller and cheaper siblings of the Accord and Camry, respectively. La solucin de vinculacin completa es satisfactoria puesto que sus conglomerados son distintos, mientras que la solucin de vinculacin simple es menos concluyente. Utilizando la solucin de vinculacin completa, podemos determinar la competencia de los vehculos en la fase de diseo introduciendo sus especificaciones como nuevos casos en el conjunto de datos y rehaciendo el anlisis.

EJEMPLO 2 Un proveedor de telecomunicaciones quiere mejorar la comprensin de los patrones de uso del servicio en su base de clientes. Si los servicios pueden ser agrupados segn su uso, la compaa puede ofrecer paquetes ms atractivos a sus clientes. Las variables que indican el uso y el no uso de los servicios se recogen en el fichero telc.sav. El uso del procedimiento del Anlisis Cluster Jerrquico para estudiar las relaciones entre los distintos servicios. Para ejecutar el anlisis cluster, del men elegimos: Anlizar Clasificar Conglomerados Jerrquicos Hacemos click en restablecer las elecciones anteriores. Seleccionamos desde Toll free service hasta Wireless service y desde Multiple lines hasta Electronic billing como variables de anlisis.

Seleccionamos la opcin conglomerar variables. Hacemos clic en Grficos

Seleccionamos el Dendograma. Seleccionamos Ninguno del diagrama de Tmpanos. Click en Continuar. Clic en Mtodo en el cuadro de dilogos del Anlisis Cluster Jerrquico.

Seleccionamos Binaria como Medida. Seleccionamos Concordancia Simple como medida binaria. Click en Continuar. Clic en Aceptar en el cuadro de dilogos del Anlisis Cluster Jerrquico.

Estas selecciones especfican un These selections specify a between-groups average linkage clustering using a simple matching distance measure. Since the variables in the analysis are indicators of whether a customer has a service, you must choose between the binary measures. Simple matching and the Jaccard measures are two good places to start.

Vous aimerez peut-être aussi