Vous êtes sur la page 1sur 14

K-MEANS XMEANS

DANIELA BARRERA

CLUSTERING
Las tcnicas de Clustering de aprendizaje no supervisado consisten en algoritmos matemticos que, usando la informacin que brindan las variables pertenecientes a cada objeto, se mide la similitud entre los mismos, y se colocan en clases que son muy similares entre los miembros de la misma clase. Varias de sus aplicaciones incluyen: exploracin de datos cientficos, recuperacin de informacin y minera de texto, aplicaciones sobre bases de datos espaciales, etc.

K-MEANS
K-Means es un algoritmo estndar de aprendizaje no supervisado que se utiliza para reconocimiento de patrones, clasificacin, y anlisis de datos.

Este tipo de algoritmo es uno de los ms populares iterativos mtodos de cluster. Se aplica a problemas en los cuales todas las variables son de tipo cuantitativo, y la distancia cuadrtica Euclidea es elegida como medida de diferencia.

PROCEDIMIENTO K-MEANS
Los pasos bsicos para aplicar el algoritmo se pueden resumir en: Primeramente se determina la cantidad de clusters en los que se quiere agrupar la informacin, y se asume de forma aleatoria los centros para cada cluster, una vez encontrados los primeros centroides el algoritmo har los tres pasos siguientes: Determina las coordenadas del centroide. Determina la distancia de cada objeto a los centroides. Agrupa los objetos basados en la menor distancia.

PROCEDIMIENTO K-MEANS

X-MEANS
Este algoritmo es una variante mejorada del KMeans. Su ventaja fundamental est en haber solucionado una de las mayores deficiencias presentadas en K-Means, el hecho de tener que seleccionar a priori el nmero de clusters que se deseen obtener. En X-Means se le define un lmite inferior K-min (nmero mnimo de clusters) y un lmite superior KMax (nmero mximo de clusters) y este algoritmo es capaz de obtener en ese rango el nmero ptimo de clusters, dando de esta manera ms flexibilidad al usuario

X-MEANS
Durante este proceso, el conjunto de centroides que alcanzan el mejor valor son almacenados, y estos seran la salida final, es decir, los valores finales de cada simulacin de acuerdo a la distancia entre ellos. Se ha comprobado que sus resultados son ms fiables que los obtenidos con el K-Means, debido a que presenta un valor de distorsin menor, es mucho mejor para realizar Clusters de un conjunto grande de datos y es incluso una variante mucho ms rpida.

X-MEANS

PROCEDIMIENTO X-MEANS
Establecer un nmero inicial de clusters K0 (por defecto 2), lo suficientemente pequeo. Aplicar K-Means a los datos con K=K0. Siendo los clusters divididos: Se aplica nuevamente K-Means con K=2 a cada uno de los clusters Ci divididos anteriormente. Se calcula BIC, el Criterio de Informacin Bayesiano: Si BIC>BIC el modelo dividido en 2 es preferible, caso contrario los clusters no se dividen ms.

EJEMPLO K-MEANS
Se tiene cuatro tipos de medicina con dos atributos: peso e ndice de PH, como se muestra en la siguiente tabla. Cada medicina se puede representar en un espacio coordenado segn sus atributos:

EJEMPLO K-MEANS
Se eligen los puntos C1 (1,1) y C2 (2,1) como los valores iniciales para los centroides de los k-grupos.

Se calcula la distancia euclideana de cada objeto a los dos centroides:

EJEMPLO K-MEANS
Se asigna cada objeto a cada grupo teniendo en cuenta el centroide con la mnima distancia:

Una vez asignados los miembros de los grupos se calcula nuevamente los centroides de cada cluster:

EJEMPLO K-MEANS
Se calcula nuevamente la matriz de distancias para todos los objetos con base en los nuevos centroides y se asignan a los grupos correspondientes:

El proceso se repite hasta que la clasificacin de los objetos deje de variar. Por lo tanto, se calcula ahora los nuevos centroides:

EJEMPLO K-MEANS
La matriz de distancias:

Se agrupan segn el mnimo error:

Y se detiene el algoritmo.

Vous aimerez peut-être aussi