Académique Documents
Professionnel Documents
Culture Documents
Quito, Ecuador
paul.fiallos@hotmail.com
I. INTRODUCCION
El conjunto de datos disponible. Tambin se usa como paso previo a otras tcnicas de
Minera de Datos:
La medida de similitud utilizada para comparar Exploracin de datos (segmentacin &
objetos (usualmente, definida como medida de distancia).
Exploracin de datos (segmentacin & outliers
outliers)
Inicializacin
Escoger k Escoger k centroides centroides
aleatoriamente aleatoriamente
(hay mtodos ms sofisticados).
Formar k grupos, asignando cada punto al
centroide ms cercano Proceso iterativo
Mientras que los Mientras que los centroides
centroides cambien: cambien:
Calcular las distancias
de todos los puntos a los k de todos los puntos a
los k centroides centroides.
Formar k grupos, asignando cada punto al
asignando cada punto al centroide centroide ms
cercano. ms cercano.
Recalcular los nuevos Recalcular los nuevos
centroides centroides.
Problema
Cuando se usan la media para calcular los centroide
centroides, el mtodo es sensible a el mtodo es
sensible a outliers outliers (valores anmalos).
(valores anmalos).
Posibles soluciones
- Usar medianas en vez de medias (aun con la
distancia (aun con la distancia eucldea
eucldea).
- Eliminar previamente los Eliminar
previamente los outliers outliers.
Ojo! Los Ojo! Los outliers outliers pueden ser
valores interesantes pueden ser valores
interesantes
- Usar k-medoids medoids: En vez de usar el
vector de medias : En vez de usar el vector de
medias como centroide centroide, se usa el
vector correspondiente , se usa el vector
correspondiente a un dato real (un
As pues, cuando se usa la distancia As pues,
representante).
cuando se usa la distancia eucldea eucldea, - K-Means no funciona bien cuando los no
SSE es una buena medida del grado de ajuste
funciona bien cuando los clusters clusters son:
(cohesin y separacin) de los (cohesin y
separacin) de los centroides centroides de distinto tamao de diferente densidad no
hallados. hallados. convexos
= =KixCiSSE d m x 12( , ) Posibles soluciones
Por otro lado, ya sabamos que, en cada iteracin - Mtodos ad Mtodos ad-hoc.
del algoritmo de las k algoritmo de las k-medias, - Usar un valor de k alto y revisar los
se maximizaba SSE al medias, se maximizaba resultados.
SSE al calcular los calcular los centroides
BIBLIOGRAFIA
centroides usando la media aritmtica. usando la
http://elvex.ugr.es/decsai/intelligent/slides/d
media aritmtica.
Garantiza lo anterior que los Garantiza lo m/D3%20Clustering.pdf
https://www.cs.us.es/~fran/curso_unia/cluste
anterior que los centroides centroides finales
ring.html
sean finales sean los que minimicen SSE
globalmente? NO