Vous êtes sur la page 1sur 26

UNIVERSIDAD DE CUENCA

Métricas para la validación de Clustering


Inteligencia artificial
Integrantes: David Valladarez
Belén Vélez
OBJETIVOS

● Conocer cómo se evalúa el resultado de aplicar modelos


de clustering
● Conocer las diferentes técnicas para la validación de un
agrupamiento
INTRODUCCIÓN

● El Clustering es un proceso no supervisado en


Minería de Datos y en el Reconocimiento de
Patrones, ampliamente utilizado y es sensible a
los parámetros de la entrada.
● Es importante evaluar el resultado de un
clustering, sin embargo, es difícil definir si un
resultado de un agrupamiento es aceptable.
Por esta razón existen técnicas e índices para
la validación de un agrupamiento realizado.
¿CUAL DEBO
UTILIZAR?
¿POR QUÉ DEBO REALIZAR UNA
VALIDACIÓN DE CLÚSTER?

● Compara algoritmos de agrupamiento


● Resuelve el número de grupos
● Compara dos conjuntos de grupos
● Compara dos grupos
● Evita encontrar patrones en el ruido.
TIPOS DE VALIDACIONES

● Validación Externa
● Validación Interna
¿QUÉ ES LA VALIDACIÓN EXTERNA?

● Utiliza información externa


○ Información que no es producto del modelo de Clustering
● Mide la calidad del agrupamiento conociendo información de
antemano
● Es muy utilizado a la hora de escoger un algoritmo de clustering
óptimo sobre un conjunto de datos específico.
NOTACIÓN

 
ÍNDICE EXTERNO

 
ÍNDICE DE RAND
● Definición: es una medida de la similitud entre dos agrupaciones de
datos
● El índice de Rand tiene un valor entre 0 y 1
○ 0 que indica que los dos grupos de datos no concuerdan con
cualquier par de puntos
○ 1 que indica que los grupos de datos son exactamente iguales.
COEFICIENTE DE JACCARD

● Definición: mide el grado de similitud entre dos conjuntos


● Siempre toma valores entre 0 y 1, correspondiente este último a la
igualdad total entre ambos conjuntos.
MATRIZ DE CONFUSIÓN

 
MATRIZ DE CONFUSIÓN

 
MEDIDAS BASADAS EN LA PUREZA

 
PUREZA

Mide el hecho de que un clúster contenga solo una clase entre sus
datos. La pureza de cada clúster se calcula con:

 
¿QUÉ ES LA VALIDACIÓN INTERNA?

● No utiliza información externa


● Puede utilizarse para escoger el mejor modelo de clustering
● Encontrar el número de clúster óptimo sin ningún tipo de información
adicional
● Una buena agrupación producirá agrupaciones de alta calidad
MÉTRICAS DE VALIDACIÓN INTERNA

Como el objetivo del clustering es agrupar objetos similares, las


métricas de validación interna están basadas usualmente en los dos
siguientes criterios:

● Cohesión: El miembro de cada clúster debe ser lo más cercano


posible a los otros miembros del mismo clúster.
● Separación: Los clúster deben estar ampliamente separados entre
ellos.
SUM OF SQUARED WITHIN (SSW)
● Medida interna especialmente usada para evaluar la Cohesión de
los clústeres que el algoritmo de agrupamiento generó.

Siendo c el número de grupos, n tamaño de muestra del grupo j, Xj es media muestral


del grupo j y Xij observaciones del grupo j
SUM OF SQUARED BETWEEN (SSB)
● Es una medida de separación utilizada para evaluar la distancia
interclúster (Separación)

Siendo k el número de clústeres, 𝑛𝑗 el número de elementos en el clúster j, 𝑐𝑗 el


centroide del clúster j y 𝑥 es la media del data set.
COEFICIENTE DE SILHOUETTE
Dado un punto x del conjunto de datos :

● Cohesión a(x): Distancia promedio


de x a todos los demás puntos en el
mismo clúster.

● Separación b(x): Distancia


promedio de x a todos los demás
puntos en el clúster más cercano.
COEFICIENTE DE SILHOUETTE
● Este coeficiente cuantifica qué tan buena es la asignación que se ha
hecho de una observación comparando su similitud con el resto de
observaciones de su cluster frente a los otros clusters.
● El coeficiente de silhouette para el punto x está definido como:

● Donde el valor de s(x) puede variar entre -1 y 1


-1 = mal agrupamiento
0 = indiferente
1 = bueno
NÚMERO ÓPTIMO DE CLUSTERS

● Determinar el número óptimo de clusters es uno de los pasos más


complicados a la hora de aplicar métodos de clustering.
● Es un proceso que depende en gran medida del tipo de clustering
empleado y de si se dispone de información previa sobre los datos
con los que se está trabajando
MÉTODO DEL CODO

● El método Elbow calcula la varianza


total intra-cluster en función del
número de clusters y escoge como
óptimo aquel valor a partir del cual
añadir más clusters apenas
consigue mejoría.
● La curva indica que a partir de 4
clusters la mejora es mínima.
MÉTODO DE SILUETA PROMEDIO
● Este método es muy similar al
método del codo, con la diferencia
de que, en lugar de minimizar el
total inter-cluster sum of squares
(wss), se maximiza la media de los
coeficiente de silueta.
● Este método considera como
número óptimo de clusters aquel
que maximiza la media del
coeficiente de silueta de todas las
observaciones, en este caso 2.

Vous aimerez peut-être aussi