Vous êtes sur la page 1sur 12

ANLISIS CLUSTER

1. Introduccin
Acadmicos e investigadores de mercado a menudo encuentran la mejor
solucin para resolver sus estudios mediante la definicin de grupos
homogneos de objetos, ya sean ellos individuos, firmas, productos, o
incluso comportamientos. Opciones estratgicas basadas en la identificacin
de grupos dentro de la poblacin tales como la segmentacin o el marketing
de objetivos no seran posible sin un objetivo metodolgico. La misma
necesidad nos la encontramos en otras reas, abarcando desde las ciencias
fsicas (por ejemplo, clasificacin de varios grupos de animales, como
insectos o mamferos) a las ciencias sociales (por ejemplo, anlisis de varios
perfiles psiquitricos). En todos estos ejemplos, el analista trata de
encontrar una estructura natural a travs de las observaciones basndose
en un perfil multivariado.
La tcnica ms comnmente usada para este propsito es el Anlisis de
Conglomerados (Anlisis Cluster, AC, des de ahora). Este captulo explica la
naturaleza y propsito del anlisis cluster y gua al analista en la seleccin y
uso de sus procedimientos.
2. Qu es el Anlisis de Conglomerados?
El AC no es ms que un conjunto de tcnicas que se utilizan para clasificar
los objetos o casos en grupos relativamente homogneos llamados
conglomerados (clusters). Los objetos en cada grupo (conglomerado)
tienden a ser similares entre s (alta homogeneidad interna, dentro del
cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad
externa, ente clusters) con respecto a algn criterio de seleccin
predeterminado. De este modo, si la clasificacin es un xito, los objetos
dentro del cluster estarn muy cercanos unos de otros en la representacin
geomtrica, y los clusters diferentes estarn muy apartados. Este anlisis
se conoce tambin como anlisis de clasificacin o taxonoma numrica.
El AC tiene como propsito esencial, agrupar aquellos objetos que renan
idnticas caractersticas, es decir, se convierte as en una tcnica de anlisis
exploratorio diseada para revelar las agrupaciones naturales dentro de una
coleccin de datos. Este anlisis no hace ninguna distincin entre variables
dependientes (VD) y variables independientes (VI) sino que calcula las
relaciones interdependientes de todo el conjunto de variables.
El AC se utiliza en mercadotecnia para diversos propsitos, entre los que se
encuentran:

Segmentacin
del
mercado
Por ejemplo, los consumidores pueden agruparse empleando como
base los beneficios derivados de la compra de un producto. Cada
grupo consistir en consumidores relativamente homogneos en
trminos de los beneficios que buscan. Este planteamiento se conoce
como segmentacin de los beneficios.
Comprensin
del
comportamiento
del
comprador
El AC puede utilizarse para identificar grupos de compradores
homogneos. As, el comportamiento de cada grupo puede estudiarse
por separado. Este anlisis tambin se utiliza para identificar la clase

de estrategias que los compradores emplean para obtener


informacin externa.
Identificacin de oportunidades para productos nuevos
Al agrupar marcas y productos, pueden determinarse los conjuntos
competitivos dentro del mercado. Las marcas en el mismo grupo
compiten ms entre s que con las de los otros grupos. Una empresa
puede analizar sus ofertas actuales en comparacin con aqullas de
sus competidores a fin de identificar las oportunidades potenciales de
los nuevos productos.
Seleccin
de
mercados
de
prueba
Al dividir las ciudades en grupos homogneos, es posible seleccionar
ciudades comparables a fin de probar diversas estrategias de
mercadotecnia.
Reduccin
de
datos
El AC puede utilizarse como instrumento de reduccin general de
datos a fin de desarrollar subgrupos de datos que sean ms fciles de
manejar que las observaciones individuales. El anlisis multivariante
subsecuente se realiza con base en los subgrupos, en lugar de las
observaciones individuales. Por ejemplo, para describir las diferencias
en el comportamiento de uso del producto, primero pueden
agruparse los consumidores. Las diferencias entre los conglomerados
pueden estudiarse con el uso del anlisis discriminante mltiple.

El AC es una herramienta til a la hora de analizar datos en muy diversas


situaciones. Por ejemplo, un investigador que est recogiendo datos por
medio de un cuestionario podra encontrarse con un gran nmero de
observaciones que no tienen significado a menos que se encuentren dentro
de grupos manejables.
El AC puede llevar a cabo esta agrupacin de datos de manera objetiva
reduciendo la informacin de una poblacin entera o la muestra de
informacin sobre pequeos grupos especficos. Por ejemplo, si nosotros
podemos entender las actitudes de una poblacin identificando los grupos
de mayor tamao dentro de la poblacin, entonces podemos reducir los
datos de una poblacin entera dentro de un numeroso nmero de grupos.
De esta forma el investigador logra una mayor concisin y una descripcin
ms comprensible de las observaciones, con una mnima prdida de
informacin.
El AC puede usarse tambin cuando un investigador desea desarrollar
hiptesis concernientes a la naturaleza de los datos. Por ejemplo, un
investigador podra creerse las actitudes sobre la consumicin de refrescos
bajos en azcar frente a los consumidores de refrescos normales podran
ser usados para separar a los consumidores en grupos o segmentos lgicos.
El AC puede clasificar a los consumidores de refrescos por las actitudes que
adoptan frente a refrescos normales o frente a refrescos bajo en caloras, y
los clusters resultantes pueden perfilarse a partir de las similaridades y de
las diferencias demogrficas.
Con todo, no debe esperarse nunca una nica y definitiva solucin al
problema de creacin de conglomerados. En la prctica, se considerarn
varias soluciones derivadas de la aplicacin de las muchas tcnicas ofrecidas
por este anlisis y, tras su correspondiente comparacin, nos inclinaremos

por la ms til para el tipo de investigacin planteada. Los conocimientos


del investigador sobre sus clientes, productos o servicios, jugarn un papel
importante a la hora de decidir entre las diferentes soluciones alternativas.
3. Conceptos bsicos del Anlisis Cluster
La mayora de los procedimientos utilizados en esta tcnica multivariante
son relativamente sencillos, ya que no estn respaldados por el
razonamiento estadstico. La mayor parte de los mtodos de agrupacin son
heursticos, basados en algoritmos. De este modo, el AC presenta un fuerte
contraste con el anlisis de la varianza, la regresin, el anlisis
discriminante y el anlisis factorial, que se basan en un razonamiento
estadstico.
Los principios fundamentales implicados en cualquier AC son:
Informe
de
Aglomeracin
Ofrece informacin sobre los objetos o casos que se combinan en
cada etapa de un proceso de agrupacin jerrquica.
Centroides
de
Agrupamiento
Son los valores medios (medias) de las variables para todos los casos
u objetos de un grupo particular.
Centros
de
Agrupamiento
Son los puntos de partida iniciales en la agrupacin no jerrquica. Los
grupos se construyen alrededor de estos centros o semillas.
Participacin
en
el
Grupo
Indica el grupo al que pertenece cada objeto o caso.
Dendrograma
Llamado tambin grfica de rbol, es un dispositivo grfico para
presentar los resultados del conglomerado. Las lneas verticales
representan los grupos que estn unidos. La posicin de la lnea en la
escala indica las distancias en las que se unieron los grupos. Se lee
de izquierda a derecha.
Distancias
entre
Centros
de
Grupos
Indican la separacin existente entre los pares individuales de los
grupos. Los grupos muy separados son distintos y, por tanto,
deseables.
Diagrama
de
Carmbanos
Es una representacin grfica de los resultados del conglomerado, se
llama as porque se asemeja a una hilera de carmbanos que pende
del alero de una casa. Las columnas corresponden a los objetos que
se agrupan y los renglones corresponden al nmero de
conglomerados. Se lee de abajo hacia arriba.
Matriz
de
Coeficientes
de
Distancia/Similitud
Es una matriz de tringulo inferior que contiene las distancias en
direccin pareada entre los objetos o casos.
4. Pasos del Anlisis de Conglomerados
Los pasos que comprende la realizacin del AC se presentan a continuacin:
Figura 1 - Esquema del Anlisis de Conglomerados

El primer paso consiste en formular el problema de agrupacin al definir las


variables en las que se basa sta. Despus, debe seleccionarse una medida
de distancia apropiada. La medida de distancia determina cmo de similares
o diferentes son los objetos que se agrupan. Posteriormente, debe
seleccionarse un procedimiento de agrupacin. Se dispone de varios, pero
es labor del investigador elegir aqul que mejor se ajuste al problema de
investigacin propuesto. La decisin del nmero de conglomerados requiere
del criterio del investigador. Los conglomerados obtenidos deben
interpretarse en trminos de las variables sobresalientes adicionales. Por
ltimo, es preciso que el investigador evale la validez del proceso de
conglomerados.
1. Formulacin del Problema
Quiz la parte ms importante de la formulacin del problema del AC sea la
seleccin de las variables en las que se basa la agrupacin. La inclusin de
una o ms variables irrelevantes puede distorsionar una solucin de
agrupacin que de otra forma podra ser til. Bsicamente, el conjunto de
variables seleccionado debe describir la similitud entre los objetos en
trminos relevantes para el problema de investigacin de mercados. Las
variables deben seleccionarse con base en la investigacin previa, la teora
o una consideracin de las hiptesis que se prueban. En la investigacin
exploratoria, el investigador debe poner en prctica el criterio y la intuicin.
2. Seleccin de una Medida de Similitud
Ya que el objeto del conglomerado es agrupar objetos similares, se necesita
alguna medida para evaluar las diferencias y similitudes entre objetos. El
concepto de similaridad es fundamental en el Anlisis Cluster. La similaridad
(similitud) es una medida de correspondencia o semejanza entre los objetos
que van a ser agrupados. La estrategia ms comn consiste en medir la
equivalencia en trminos de la distancia entre los pares de objetos. Los
objetos con distancias reducidas entre ellos son ms parecidos entre s que

aquellos que tienen distancias mayores y se agruparn, por tanto, dentro


del mismo cluster. De esta manera, cualquier objeto puede compararse con
cualquier otro objeto a travs de la medida de similaridad.
En la medicin de la similitud entre los objetos de un ACexisten tres
mtodos:

Medidas de Correlacin
Medidas de Distancia
Medidas de Asociacin

Cada uno de estos mtodos representa una particular perspectiva de la


similitud, dependiendo tanto de los objetivos como del tipo de datos. Las
medidas de correlacin y las de distancia requieren datos mtricos,
mientras que las medidas de asociacin requieren datos no mtricos.
Muchos programas informticos han limitado la ayuda para las medidas de
asociacin, y el investigador se ve forzado con frecuencia a calcular primero
las medidas de similaridad y despus a introducir la matriz de similaridad
dentro de un programa cluster.
3. Estandarizacin de Datos
Una vez seleccionada la medida para cuantificar la similaridad entre pares
de objetos, el investigador debe plantearse una ltima cuestin... deben
estandarizarse los datos antes de calcular las similaridades?. Para poder
responder a esta pregunta de forma adecuada, el investigador debe tener
en cuenta que la mayora de las medidas de distancia son bastante
sensibles a las diferencias de escalas o de magnitudes hechas entre las
variables. En general, las variables con una gran dispersin (valores
grandes de sus desviaciones tpicas) tienen ms impacto en el valor final de
la similaridad.
Consideremos como ejemplo que se quieren agrupar las individualidades de
una serie de personas en tres variables, que son: actitud frente a un
producto, edad e ingresos. Se supone que medimos la actitud en una
escala de siete puntos de gusto-disgusto, mientras que la edad se meda en
aos y los ingresos en dlares. Si representamos los resultados obtenidos
de la pertinente encuesta en un grfico tridimensional, la distancia entre los
puntos (y sus similaridades) estaran basadas casi totalmente en las
diferencias de ingresos.
La explicacin es bien sencilla, mientras que las posibles diferencias de
actitud frente al producto se encuentran en un rango de actitudes que va
de uno a siete, las producidas en los ingresos pueden tener un rango cien
veces mayor. De este modo, no seramos capaces (grficamente) de
observar ninguna diferencia en la dimensin asociada a la actitud frente al
producto. Por este motivo, el investigador debe ser consciente del peso
implcito de las variables que participan en el estudio de investigacin.
La forma ms comn de estandarizacin es la conversin de cada variable
en puntuaciones tpicas (tambin conocidas como puntuaciones Z). La
forma de clculo es que se resta a cada observacin de cada variable su
media correspondiente y se divide el resultado de esta operacin por la
desviacin tpica (estndar) de la variable en cuestin. Este proceso
convierte la puntuacin de cada dato original en un valor estandarizado con

una media de cero y una desviacin tpica de uno. En definitiva, lo que se


consigue con ello es eliminar, uno por uno, los prejuicios introducidos por
las diferencias en las escalas de los distintos atributos (variables) usados en
el anlisis.
4. Supuestos del Anlisis
El AC es un objetivo metodolgico para cuantificar las caractersticas de un
conjunto de observaciones. Por ello, tiene fuertes propiedades matemticas,
pero no fundamentos estadsticos. Los requisitos de normalidad, linealidad y
homocedasticidad (tan relevantes en otras tcnicas), tienen poca
consistencia en el AC.
El investigador debe, sin embargo, centrar su atencin en otras dos
cuestiones esenciales para este tipo de anlisis, como son: la
representatividad de la muestra y la multicolinealidad.
En muchas ocasiones se dispone de un censo de poblacin para hacer uso
del anlisis cluster. Se obtiene entonces una muestra de casos y se espera
que los cluster obtenidos de ella sean representativos de la estructura de la
poblacin original. El analista debe tener siempre presente que el anlisis
cluster ser tan bueno como lo sea la representatividad de la muestra. As,
todos los esfuerzos deben centrarse en asegurar esa representatividad, para
que los resultados puedan ser generalizables a la poblacin de inters.
La multicolinealidad era un resultado en otras tcnicas multivariantes, ya
que se haca difcil diferenciar el verdadero impacto de las variables
multicolineales. En el anlisis cluster, en cambio, el efecto es diferente, ya
que las variables multicolineales estn ponderadas, implcitamente, de un
modo ms severo.
Supongamos, por ejemplo, que se agrupan a los encuestados en diez
variables relacionadas con un determinado servicio. Al examinar la
multicolinealidad, apreciamos que realmente hay dos grupos de variables
claramente diferenciados. El primero est compuesto por ocho elementos
(variables) y el segundo de los dos restantes.
Si lo que pretendemos es agrupar realmente a los encuestados en las
dimensiones del servicio analizado (en este caso representado por los dos
grupos de variables), no podremos considerar a las diez variables como un
todo, ya que eso significara ponderar equitativamente cada variable. Es
decir, al ponderar el anlisis cluster uniformemente cada variable, la primera
dimensin tendra cuatro veces ms oportunidades (ocho tems frente a
dos) de afectar a la medida de similaridad de las que tendra la segunda
dimensin.
As, el acto de la multicolinealidad es un proceso de ponderacin oculto al
observador, pero que afecta, sin embargo, al anlisis. Por esta razn, el
analista debe fomentar el estudio exhaustivo de las variables utilizadas en
el anlisis cluster para poder hallar as la posible multicolinealidad. Si se
encuentra multicolinealidad en las variables empleadas para el estudio,
habr que conseguir igual nmero de ellas en cada conjunto o usar una de
las medidas de distancia, como la Distancia de Mahalanobis, para
compensar la correlacin existente descubierta.

Una vez seleccionadas las variables y calculada la matriz de similaridades,


comienza el proceso de particin. Primeramente el investigador debe
seleccionar el algoritmo de agrupacin que se va a emplear para formar los
clusters (grupos) y posteriormente tomar la decisin sobre el nmero de
grupos que se quieren formar.
Ambas decisiones tienen substanciales implicaciones no solamente en los
resultados que se obtengan, sino tambin en la interpretacin que pudiera
derivarse de ellos.
5. Seleccin del Procedimiento de Agrupacin
Hay dos tipos de procedimientos: los jerrquicos y los no jerrquicos. El
conglomerado jerrquico se caracteriza por el desarrollo de una jerarqua o
estructura en forma de rbol. Una caracterstica importante de los
procedimientos jerrquicos es que los resultados de la primera etapa
pueden estar anidados con los resultados de la ltima etapa, dando lugar a
una similaridad parecida a la de un rbol. Por ejemplo, la solucin del
cluster seis se obtienen gracias a la unin de dos de los clusters
encontrados en la fase siete del cluster. De este modo, los clusters estn
formados solamente por la unin de los grupos existentes, as cualquier
miembro de un cluster puede trazar su relacin en un irrompible sendero
que comenzara con una simple relacin.
Los mtodos jerrquicos pueden ser por Aglomeracin o por Divisin. El
conglomerado por aglomeracin empieza con cada objeto en un grupo
separado. Los conglomerados se forman al agrupar los objetos en conjuntos
cada vez ms grandes. Este proceso contina hasta que todos los objetos
formen parte de un solo grupo. El conglomerado por divisin comienza con
todos los objetos agrupados en un solo conjunto. Los conglomerados se
dividen hasta que cada objeto sea un grupo independiente.
Dentro de los conglomerados por aglomeracin, se encuentran los mtodos
de conglomerados, que se utilizan con frecuencia en la investigacin de
mercados. Consisten en mtodos de Enlace, mtodos de Varianza o de
sumas de los cuadrados del error y el mtodo Centroide. Los Mtodos de
Enlace incluyen el enlace sencillo, el completo y el promedio. El mtodo de
enlace sencillo se basa en la distancia mnima o la regla del vecino ms
prximo. Los primeros dos objetos conglomerados son aquellos que tienen
la menor distancia entre s. La siguiente distancia ms corta se identifica, ya
sea que el tercer objeto se agrupe con los dos primeros o que se forme un
nuevo conglomerado de dos objetos. En cada etapa, la distancia entre dos
conglomerados es la distancia entre sus dos puntos ms prximos.
Figura 1 - Mtodos de Enlace para el Conglomerado

En cualquier etapa, dos conglomerados surgen por el enlace sencillo ms


corto entre stos. Este proceso contina hasta que todos los objetos se
encuentren en un conglomerado. El mtodo del enlace sencillo no funciona
adecuadamente cuando los conglomerados no estn bien definidos. El
mtodo del enlace completo es similar al enlace sencillo, excepto que se
basa en la distancia mxima o la estrategia del vecino ms lejano. En este
caso, la distancia entre dos conglomerados se calcula como la distancia
entre sus puntos ms lejanos. El mtodo del enlace promedio funciona de
manera similar, pero en este mtodo, la distancia entre dos conglomerados
se define como el promedio de las distancias entre todos los pares de
objetos, donde se encuentra un miembro del par de cada uno de los
conglomerados
(Vase
Figura
Mtodos
de
Enlace
para
el
Conglomerado). Como puede apreciarse, el mtodo del enlace promedio
emplea la informacin sobre todos los pares de distancias, no slo las
mnimas o mximas. Por esta razn, generalmente se prefiere a los
mtodos de enlace sencillo y completo.
Los Mtodos de Varianza tratan de generar conglomerados a fin de reducir
la varianza dentro de los grupos. Un mtodo de la varianza que se utiliza
con frecuencia es el Procedimiento de Ward. Para cada conglomerado, se
calculan las medias para todas las variables. Despus, para cada objeto, se
calcula la distancia euclidiana cuadrada para las medias de los grupos
(Figura Otros mtodos de Agrupacin por Aglomeracin); estas
distancias se suman a todos los objetos. En cada etapa, se combinan los
dos conglomerados con el menor incremento en la suma total de los
cuadrados de las distancias dentro de los conglomerados.

Figura 1 - Otros Mtodos de Agrupacin por Aglomeracin

En el Mtodo Centroide, la distancia entre dos grupos es la distancia entre


sus centroides (medias para todas las variables), como se muestra en la
Figura Otros mtodos de Agrupacin por Aglomeracin. Cada vez que
se agrupan los objetos, se calcula un centroide nuevo. De los mtodos
jerrquicos, el mtodo de Enlace Promedio y el Procedimiento de Ward han
demostrado un mejor desempeo que los otros.
El segundo tipo de procedimientos de conglomerados, los mtodos de
conglomerados no jerrquicos, con frecuencia se conocen como Agrupacin
de K Medias. Estos mtodos incluyen el Umbral Secuencial, Umbral Paralelo
y la Divisin para la Optimizacin. En el mtodo del Umbral Secuencial, se
selecciona un centro de grupo y se agrupan todos los objetos dentro de un
valor de umbral que se especifica previamente a partir del centro. Despus,
se selecciona un nuevo centro o semilla de grupo y el proceso se repite para
los puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya
no se considera para su conglomerado con semillas subsecuentes. El
mtodo del Umbral Paralelo funciona de manera similar, excepto que se
seleccionan simultneamente varios centros de grupo y se agrupan los
objetos del nivel del umbral dentro del centro ms prximo. El mtodo de
Divisin para la Optimizacin difiere de los otros dos procedimientos de
umbral en que los objetos pueden reasignarse posteriormente a otros
grupos, a fin de optimizar un criterio general, como la distancia promedio
dentro de los grupos para un nmero determinado de conglomerados.
Existen dos formas bsicas de conocer el modo de agrupacin de los objetos
en cuestin:

Grfico
Sus columnas

de
corresponden a

los

objetos

Carmbanos
que se agrupan

(entrevistados,...) y las filas al nmero de grupos. Esta figura se lee


de abajo hacia arriba. Inicialmente todos los casos se consideran
como grupos individuales. En el primer caso, se combinan los dos
objetos
ms
cercanos.
Cada paso subsecuente lleva a la formacin de un nuevo grupo en
una de las siguientes tres formas: (1) se agrupan dos casos
individuales, (2) un caso se une a un grupo ya existente, (3) se unen
dos
grupos.

Dendrograma
Se lee de izquierda a derecha. Las lneas verticales representan los
grupos unidos. La posicin de la lnea en la escala indica las
distancias en las que se unen los grupos. Debido a que, en las
primeras etapas, muchas distancias tienen magnitudes similares, es
difcil determinar la secuencia en la que se forman algunos de los
primeros conglomerados. Sin embargo, es evidente que en las
ltimas dos etapas, las distancias en las que se combinan los
conglomerados son grandes. Esta informacin es til para decidir el
nmero de conglomerados.

Tambin es posible obtener informacin sobre la participacin de los


conglomerados de los casos si se especifica el nmero de grupos. Aun
cuando esta informacin puede deducirse del trazo de carmbano, resulta
til una representacin tabular.
Mtodos Jerrquicos y No Jerrquicos
6. Decisin del Nmero de Conglomerados
Un gran problema en todas las tcnicas de aglomeracin es cmo
seleccionar el nmero de grupos (clusters). Desgraciadamente, no existe un
proceso objetivo de seleccin. Para el caso del anlisis cluster jerrquico, las
distancias existentes entre los clusters reflejadas en las distintas etapas del
proceso de aglomeracin pueden servirnos de gua til, el analista podra as
establecer un tope para detener el proceso a su conveniencia (esta
informacin puede obtenerse del programa de aglomeracin o del
dendrograma). Por ejemplo, podra hacerlo cuando la distancia entre los
grupos exceda un valor especfico o cuando las distancias sucesivas entre
los pasos marquen un repentino salto. Sin embargo, la opcin ms utilizada
es calcular distintas soluciones de aglomeracin (dos, tres, cuatro grupos,
por ejemplo) para despus decidir entre las soluciones alternativas con
ayuda de un criterio prefijado de antemano, del sentido comn, o de
fundamentos tericos. Estas distancias reciben a menudo el nombre de
medidas de variabilidad del error.
Para el caso del anlisis cluster no jerrquico, se puede trazar un grfico
que compare el nmero de grupos con la relacin entre la varianza total de
los grupos y la varianza entre los grupos. El punto del grfico donde se
presente un recodo o doblez marcado indicar el nmero apropiado de
grupos. Por lo general, no merecer la pena aumentar el nmero de grupos
ms all de este punto. Otra posibilidad para decidir el nmero ptimo de
grupos es definir algn tipo de conceptualizacin intuitiva de la relacin
terica de los datos.

Los investigadores deben examinar la variacin producida entre los tamaos


de los grupos desde una perspectiva conceptual, comparando los resultados
obtenidos con las expectativas creadas en los objetivos del estudio.
Otro problema que puede presentarse en este tipo de anlisis es la
presencia de grupos unipersonales, es decir, clusters formados por un solo
individuo. Son un problema porque podran ser outliers (valores atpicos) no
detectados en el proceso de depuracin de nuestra fuente de datos. Si
aparece un grupo de un solo miembro, el analista debe estudiar si
representa un componente estructural vlido en la muestra o si, por el
contrario, debiera suprimirse por no ser representativo. Si se suprime del
anlisis alguna observacin, el investigador deber ejecutar de nuevo el
anlisis cluster para las nuevas observaciones vlidas y conseguir as definir
nuevos grupos.
7. Interpretacin y Elaboracin del Perfil de los Clusters
La interpretacin y el perfil de los grupos comprende el anlisis de los
centroides de grupo. Los centroides representan los valores medios de los
objetos que contiene el grupo en cada una de las variables. Los centroides
nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el
programa de conglomerado no ofrece esta informacin, puede obtenerse
por medio del anlisis discriminante.
El objetivo de esta etapa es, esencialmente, examinar la variacin de los
clusters para asignar etiquetas que describan de un modo veraz su
naturaleza. Resulta til elaborar el perfil de los grupos en trminos de las
variables utilizadas para el conglomerado, como los datos demogrficos, los
psicogrficos, uso del producto, uso de los medios u otras variables.
Consideremos un ejemplo para poder comprender mejor el funcionamiento
del proceso. Supongamos que estamos interesados en estudiar la dieta
eficaz contra la ingesta regular de bebidas ligeras. Para ello, se
confeccion una escala de evaluacin de la actitud del encuestado que se
compona de siete aseveraciones diferentes. De este modo, los individuos
entrevistados arrojaron valores de 1 a 7 puntos. Las afirmaciones que
formaban parte de la escala de siete puntos eran del tipo: las bebidas
ligeras dietticas saben ms fuerte, las bebidas dietticas son ms
sanas, etc. Se convino en recoger los datos demogrficos y los datos de
consumo de bebidas refrescantes por su relevancia para el estudio
planteado.
Como se dijo anteriormente, en esta fase se examinan los promedios de la
puntuacin de los perfiles. Para nuestro caso concreto, basndonos en la
escala de actitud diseada para cada grupo y poder asignar de esta manera
una etiqueta descriptiva a cada uno de ellos. Supongamos que dos de los
grupos resultantes del anlisis cluster tuvieran actitudes favorables hacia las
bebidas dietticas ligeras y un tercer grupo actitudes negativas. Se podra
manejar la posibilidad de que, de los dos grupos favorables en actitud, uno
de ellos fuera favorable slo hacia las bebidas dietticas ligeras y el otro
favorable tanto hacia refrescos ligeros como hacia refrescos normales.
Evaluaramos entonces las actitudes de cada cluster y desarrollaramos
interpretaciones substantivas para facilitar el etiquetado de cada grupo. Por
ejemplo, uno de los cluster podra etiquetarse como individuos

conscientes de la salud y las caloras y el otro como individuos


indiferentes a una subida de azcar.
Con respecto al perfilado de los conglomerados o grupos, cabe decir que no
es ms que la descripcin de las caractersticas de cada cluster para explicar
como podran inferir en dimensiones relevantes. Para conseguir esto, se
recurre normalmente al empleo del Anlisis Discriminante o a algn otro
estadstico apropiado. El analista utiliza los datos no incluidos previamente
en el procedimiento de aglomeracin para perfilar las caractersticas de cada
cluster. Estos datos suelen ser caractersticas demogrficas, perfiles
psicogrficos, pautas de consumo, etc.
Aplicando este proceso y extrapolndolo al ejemplo de las bebidas
concluiramos que el cluster individuos conscientes de la salud y las
caloras radica en una mejor educacin o en mayores ingresos
profesionales al ser consumidores moderados de bebidas refrescantes. En
resumen, el anlisis de perfiles se enfoca a describir no a lo que determinan
directamente los clusters sino (una vez se han determinado los distintos
grupos) a sus caractersticas propias. Por ello, se hace especial nfasis en
las caractersticas que definen los grupos y en la capacidad de los miembros
de cada conglomerado para predecir una actitud particular del cluster en
cuestin.
8. Validacin de Conglomerados Obtenidos
Dados los criterios generales que comprende el AC , no debe aceptarse
ninguna solucin de agrupacin sin una evaluacin de su confianza y
validez. La validacin es el intento por parte del analista de asegurar que los
clusters obtenidos sean representativos de la poblacin original y que sean
generalizables a otros objetos y estables a lo largo del tiempo.
Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de
los resultados de la agrupacin:

Realizar el AC con los mismos datos y utilizar distintas medidas de


distancia. Comparar los resultados con todas las medidas a fin de
determinar la estabilidad de las soluciones.
Utilizar diversos mtodos de conglomerado y comparar los
resultados.
Dividir los datos a la mitad de forma aleatoria. Realizar el AC por
separado en cada mitad (submuestra). Comparar las soluciones de
los dos anlisis y evaluar la correspondencia de los resultados o bien
comparar los centroides de grupo de las dos submuestras.
Eliminar las variables de forma aleatoria. Realizar la agrupacin
basndose en el conjunto reducido de variables. Comparar los
resultados basados en el conjunto completo con los que se
obtuvieron al realizar el conglomerado.
En el conglomerado no jerrquico la solucin puede depender del
orden de los casos en el conjunto de datos. Para estudiar sto, es
recomendable llevar a cabo corridas mltiples y utilizar distintos
rdenes de los casos hasta estabilizar la solucin.

Vous aimerez peut-être aussi