Académique Documents
Professionnel Documents
Culture Documents
UNIVERSIDAD DE JAN
ndice
1.
2.
3.
4.
M
A
A
N
S
T
U
T
E
L
E
R
R
R
S
A
P
L
C
S
D
N
E
C
O
N
MA
AT
XV
VA
A
D
DEEESSSCCCR
AN
N
CLLLU
TE
L
US
ST
TE
ER
LIIIS
ER
RIIIA
RIIIP
R
SIIIS
AL
PC
LX
CIII
SD
N
DE
NC
EC
CO
ON
NA
1. Conceptos fundamentales
conglomerados)
del
anlisis
de
cluster
(o
Tambin puede emplearse para formar grupos de variables. Semejante al AFE y al AD.
Pero en el AD, el criterio de formacin de los grupos es conocido y permite determinar la
importancia que cada variable medida tiene para discriminar a los grupos entre s. En
contraposicin, en el AC, se concede a todas las variables el mismo peso. En el AFE se
proporcionan estadsticos relativamente claros acerca de si la solucin final es
satisfactoria, lo que no ocurre en el AC.
dij
N
dis tan cia
sujetos i j
x x
r
ik
jk
suma a traves k
var iables medidas
3. El Anlisis
profundidad
de
Cluster
Conglomerados
en
Semejanza-Igualacin
Coseno
(semejante
Pearson)
Pearson
CategricasFrecuencias
DicotmicasBinarias
Dispersin
Concordancia simple
Coeficiente
Phi
(Correl.)
Porcentaje Desacuerdo
Lambda Goodman &
Kruskal
D de Andemberg
Dice
Hamann
Jaccard
Kulczynski 1, 2
Ochiai
Rogers y Tanimoto
Russel y Rao
Sokal y Sneath 1, , 5
Y de Yule
Q de Yule
Diferenciacin-distancia
D. eucldea (al cuadrado)
Manhattan (Bloques o cityblock)
Mtrica
Minkowsky
(Potencia)
Chevycheb
D.
generalizada
de
Mahalonobis (Statistica).
Personalizada
Chi-cuadrado
Phi-cuadrado
(Chinormalizada)
D. eucldea (al cuadrado)
Diferencia de tamao
Diferencia de configuracin
Disepersin
Varianza
Forma
Lance y Williams
6. Evaluar
la
bondad
de
ajuste
del
agrupamiento
efectuado.
Fundamentalmente decidir el nmero de agrupaciones adecuado y la
contribucin de variables al agrupamiento.
a. Para evaluar la solucin de agrupamiento alcanzada, as como si el
nmero de clsteres seleccionado es adecuado o no. Esta es una
decisin difcil pues el nmero de grupos no est determinado a
priori al no haber criterio objetivo de clasificacin. En las jerrquicas
este nmero puede definirse a posteriori pero en las no jerrquicas
este nmero debe ser especificado antes de aplicar la tcnica. El
problema es que las tcnicas de agrupamiento no proporcionan
ningn criterio objetivo al respecto, aunque las jerrquicas s lo
facilitan.
b. Se obtienen para cada etapa del anlisis de manera que podamos
decidir el punto en el que quedara la agrupacin. No se
implementan en la mayora de los programas del tipo SPSS (ver
Catena, Ramos y Trujillo, 2003).
c. Variantes.
i. Raz Cuadrtica Media de las Desviaciones Tpicas
(RMSSTD). Desviacin tpica promedio de todas las variables
que forman un cluster. Slo se puede interpretar de forma
relativa, buscando el menor RMSSTD, es decir un punto de
equilibrio entre n y 1 cluster.
ii. R2. Cociente de la suma de cuadrados entre los cluster y
suma de cuadrados total. Proporcin de variabilidad total
explicada por los clusters. Es semejante a la medida RPE del
Modelo Lineal General. Lo deseable es un valor elevado.
iii. R2 Semiparcial. Prdida de homogeneidad que se produce
cuando se aade un nuevo sujeto en la etapa actual, respecto
de la etapa precedente. Mejor valores de menor magnitud
(estamos incluyendo en el cluster un sujeto que es bastante
semejante a los que ya estaban).
iv. La distancia entre dos cluster. Se computa alguna de las
medidas indicadas pero en este caso para determinar la
distancia entre cluster (por Pares) en lugar de hacerlo entre
sujetos. Esta distancia no debe ser grande para que los dos
clsteres puedan mezclarse.
7. Interpretacin de la solucin obtenida. Siempre que se aplique la tcnica
es posible obtener una solucin de agrupamiento de sujetos (o de
variables), pero no siempre ese agrupamiento tiene sentido. Es posible que
los grupos obtenidos no existan en realidad, a pesar de lo cual, se obtendr
una solucin de tantos grupos como se desee.
2) Diseo de investigacin
a) Variables a medir
b) Posibilidad de validacin interna
(doble sujetos)
c) Posibilidad de validacin externa,
prever otro criterio de clasificacin
3) Evaluacin de supuestos
Se cumplen?
N
Estrategias paliativas tipo
transformacin de los datos o
eliminacin de casos completos
a)
b)
c)
d)
N grupos se
puede establecer a
priori?
Alternativa
Anlisis Robusto
S
N
k-Medias: Probl
eleccin centroides
Centroides
De aglomeracin
6) Interpretacin resultados
a)
b)
c)
d)
Se resuelve el problema?
Otras investigaciones derivadas
Importancia terica resultados
Validacin solucin cluster con un
criterio interno y/o externo y
posibilidad de AD
10
Volver Principio
10