Deber PSD

ALGORTIMOS DE CLUSTERING
Paul Isidro Fiallos Lopez
Planificacion de Sistemas de Distribucion
Quito, Ecuador
paul.fiallos@hotmail.com
Resumen-. El documento actual nos presenta un

resumen detallado de las caractersticas acerca de
algoritmos de Clustering el cual de trata dentro de una
disciplina de inteligencia artificial la cual identifica de
forma automtica agrupaciones de acuerdo a una
medida de similitud.
I. INTRODUCCION
Clustering es una tcnica de minera de datos (data

mining) dentro de la disciplina de Inteligencia Artificial
que identifica de forma automtica agrupaciones o
clsteres de elementos de acuerdo a una medida de
similitud entre ellos.
El objetivo fundamental de las tcnicas de clustering

consiste en identificar grupos o clsteres de elementos tal
que:
La similitud media entre elementos del mismo
Fig. 1 formas de agrupamiento
clster sea alta. Similitud intra-clster alta.
La similitud media entre elementos de distintos
Aplicaciones:
clsteres sea baja. Similitud inter-clster baja. Reconocimiento de formas.
Mapas temticos (GIS)
La identificacin de clsteres o grupos de elementos se Marketing: Segmentacin de clientes
basa en una medida de similitud. Diferentes medidas de Clasificacin de documentos
similitud dan lugar a diferentes clsteres.Los resultados Anlisis de web Anlisis de web logs
obtenidos dependern de: (patrones de acceso similares) (patrones de
acceso similares)
El algoritmo de agrupamiento seleccionado.
El conjunto de datos disponible. Tambin se usa como paso previo a otras tcnicas de
Minera de Datos:
La medida de similitud utilizada para comparar Exploracin de datos (segmentacin &
objetos (usualmente, definida como medida de distancia).
Exploracin de datos (segmentacin & outliers
outliers)
Preprocesamiento Preprocesamiento (p.ej.

reduccin de datos) (p.ej. reduccin de datos)
La tcnica de clustering jerrquico construye un

dendograma o rbol que representa las relaciones de
similitud entre los distintos elementos. La exploracin de
todos los posibles rboles es computacionalmente
intratable. Por lo tanto, suelen seguirse algoritmos
aproximados guiados por determinadas heursticas.
Existen dos aproximaciones diferentes al clustering
jerrquico:
Clustering jerrquico aglomerativo: se
comienza con tantos clsteres como individuos y
consiste en ir formando (aglomerando) grupos
segn su similitud.
Clustering jerrquico de divisin: se comienza
con un nico clster y consiste en ir dividiendo
clsteres segn la disimilitud entre sus
componentes.
En el clustering jerrquico no es necesario especificar en

nmero de clsteres a priori. Es posible seleccionarlo a
posteriori segn un umbral de corte. La estructura
jerrquica es cercana a la intuicin humana. La principal
Fig. 2 Tipos de Clustering
En este tutorial nos centraremos en el clustering desventaja consiste en la acumulacin de errores. Errores
jerrquico aglomerativo. Esta tcnica comienza con una que se comenten en un paso de agrupamiento se propagan
matriz de similitud que contiene las distancias entre los durante el resto de la construccin del dendograma sin ser
distintos elementos a agrupar. En nuestro caso esta matriz posible su reajuste.
se calcula a partir de la matriz de correlaciones.
Clstering de particin.
La tcnica de clustering de particin entorno a centroides
Consideramos todas las agrupaciones posibles y elegimos
(PAM) realiza una distribucin de los elementos entre un
la mejor segn la matriz de similitud.
nmero prefijado de clsteres o grupos. Esta tcnica
recibe como dato de entrada el nmero de clsters a
formar adems de los elementos a clasificar y la matriz de
similitudes. Explorar todas las posibles particiones es
computacionalmente intratable. Por lo tanto, suelen
seguirse algoritmos aproximados guiados por
determinadas heursticas. En lugar de construir un rbol el
objetivo en PAM consiste en agrupar los elementos
entorno a elementos centrales llamados centroides a cada
clster. Definimos el centroide de un clster como aquel
elemento que minimiza la suma de las similitudes al resto
Consideramos todas las agrupaciones posibles y de los elementos del clster:
elegimos la mejor segn la matriz de similitud.
mC=argmin mC mjCdist(m,mj)
Paso 1: Seleccionar k centroides aleatoriamente.

Paso 2: Crear k clsteres asignando cada elemento al
centroide ms cercano.
Se recalcula la matriz de similitud teniendo en Paso 3: Calcular nuevos centroides como aquellos
cuenta el nuevo clster formado. La distancia al elementos que minimizan la suma de las distancias al
nuevo clster se calcula como la media de las resto de elementos del clster.
distancias a los elementos que lo forman. Paso 4: Volver al paso 2 mientras haya cambio en los
clsteres o se alcance un nmero mximo de iteraciones.
En cada iteracin de PAM se realiza un reajuste y mejora
de los clsteres construdos de esta forma se evita la
propagacin de errores. Adems de formar clsteres este
algoritmo devuelve el elemento ms central en cada
clster. La principal desventaja que presenta PAM
consiste en la necesidad de fijar de antemano un nmero
de clsteres a formar.
A la hora de calcular la similitud entre dos objetos:

- No tienen por qu utilizarse todos los atributos
disponibles en nuestro conjunto de datos.
- Hay que tener cuidado con las magnitudes de
cada variable.
Usualmente, se expresan en trminos de distancias:

d(i,j) > d(i,k)
nos indica que el objeto i es ms parecido a k que a j
La definicin de la mtrica de similitud/distancia
ser distinta en funcin del tipo de dato y
de la interpretacin semntica que nosotros
hagamos.
Mtricas de distancia para atributos no

continuos:
Distancia de edicin = Distancia de Distancia de
edicin = Distancia de Levenshtein Levenshtein
Nmero de operaciones necesario
para transformar una cadena en otra.
d(data d(data mining, data minino) = 1 ,
data minino) = 1
d(efecto, defecto) = 1
d(poda, boda) = 1
d(night,natch night,natch) = d( ) =
d(natch,noche natch,noche) = 3
Aplicaciones: Correctores ortogrficos,
reconocimiento de voz,
deteccin de plagios, anlisis de ADN
Para datos binarios: Distancia de Para datos
binarios: Distancia de Hamming
Inicializacin
Escoger k Escoger k centroides centroides
aleatoriamente aleatoriamente
(hay mtodos ms sofisticados).
Formar k grupos, asignando cada punto al
centroide ms cercano Proceso iterativo
Mientras que los Mientras que los centroides
centroides cambien: cambien:
Calcular las distancias
de todos los puntos a los k de todos los puntos a
los k centroides centroides.
Formar k grupos, asignando cada punto al
asignando cada punto al centroide centroide ms
cercano. ms cercano.
Recalcular los nuevos Recalcular los nuevos
centroides centroides.
Problema
Cuando se usan la media para calcular los centroide
centroides, el mtodo es sensible a el mtodo es
sensible a outliers outliers (valores anmalos).
(valores anmalos).
Posibles soluciones
- Usar medianas en vez de medias (aun con la
distancia (aun con la distancia eucldea
eucldea).
- Eliminar previamente los Eliminar
previamente los outliers outliers.
Ojo! Los Ojo! Los outliers outliers pueden ser
valores interesantes pueden ser valores
interesantes
- Usar k-medoids medoids: En vez de usar el
vector de medias : En vez de usar el vector de
medias como centroide centroide, se usa el
vector correspondiente , se usa el vector
correspondiente a un dato real (un
As pues, cuando se usa la distancia As pues,
representante).
cuando se usa la distancia eucldea eucldea, - K-Means no funciona bien cuando los no
SSE es una buena medida del grado de ajuste
funciona bien cuando los clusters clusters son:
(cohesin y separacin) de los (cohesin y
separacin) de los centroides centroides de distinto tamao de diferente densidad no
hallados. hallados. convexos
= =KixCiSSE d m x 12( , ) Posibles soluciones
Por otro lado, ya sabamos que, en cada iteracin - Mtodos ad Mtodos ad-hoc.
del algoritmo de las k algoritmo de las k-medias, - Usar un valor de k alto y revisar los
se maximizaba SSE al medias, se maximizaba resultados.
SSE al calcular los calcular los centroides
BIBLIOGRAFIA
centroides usando la media aritmtica. usando la
http://elvex.ugr.es/decsai/intelligent/slides/d
media aritmtica.
Garantiza lo anterior que los Garantiza lo m/D3%20Clustering.pdf
https://www.cs.us.es/~fran/curso_unia/cluste
anterior que los centroides centroides finales
ring.html
sean finales sean los que minimicen SSE
globalmente? NO
Cuando usamos la distancia Cuando usamos la

distancia eucldea eucldea, el centroide
centroide determinado en cada iteracin por el
determinado en cada iteracin por el vector de
medias garantiza la mejor solucin con respecto
a SSE, pero considerando:
un valor de k fijo, y
los centroides centroides dados por la iteracin
anterior. dados por la iteracin anterior.
La solucin final no ser la ptima:
El algoritmo de las k medias no garantiza que
los centroides centroides finales obtenidos sean
los que minimizan finales obtenidos sean los que
minimizan globalmente la funcin objetivo SSE.

Deber PSD

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Deber PSD

Transféré par

Droits d'auteur :

Formats disponibles

ALGORTIMOS DE CLUSTERING

Paul Isidro Fiallos Lopez

Planificacion de Sistemas de Distribucion

Resumen-. El documento actual nos presenta un

Clustering es una tcnica de minera de datos (data

El objetivo fundamental de las tcnicas de clustering

Preprocesamiento Preprocesamiento (p.ej.

La tcnica de clustering jerrquico construye un

En el clustering jerrquico no es necesario especificar en

Paso 1: Seleccionar k centroides aleatoriamente.

A la hora de calcular la similitud entre dos objetos:

Usualmente, se expresan en trminos de distancias:

Mtricas de distancia para atributos no

Cuando usamos la distancia Cuando usamos la

Vous aimerez peut-être aussi