Metricas de Validacion

UNIVERSIDAD DE CUENCA
Métricas para la validación de Clustering

Inteligencia artificial
Integrantes: David Valladarez
Belén Vélez
OBJETIVOS
● Conocer cómo se evalúa el resultado de aplicar modelos

de clustering
● Conocer las diferentes técnicas para la validación de un
agrupamiento
INTRODUCCIÓN
● El Clustering es un proceso no supervisado en

Minería de Datos y en el Reconocimiento de
Patrones, ampliamente utilizado y es sensible a
los parámetros de la entrada.
● Es importante evaluar el resultado de un
clustering, sin embargo, es difícil definir si un
resultado de un agrupamiento es aceptable.
Por esta razón existen técnicas e índices para
la validación de un agrupamiento realizado.
¿CUAL DEBO
UTILIZAR?
¿POR QUÉ DEBO REALIZAR UNA
VALIDACIÓN DE CLÚSTER?
● Compara algoritmos de agrupamiento

● Resuelve el número de grupos
● Compara dos conjuntos de grupos
● Compara dos grupos
● Evita encontrar patrones en el ruido.
TIPOS DE VALIDACIONES
● Validación Externa
● Validación Interna
¿QUÉ ES LA VALIDACIÓN EXTERNA?
● Utiliza información externa

○ Información que no es producto del modelo de Clustering
● Mide la calidad del agrupamiento conociendo información de
antemano
● Es muy utilizado a la hora de escoger un algoritmo de clustering
óptimo sobre un conjunto de datos específico.
NOTACIÓN

ÍNDICE EXTERNO

ÍNDICE DE RAND
● Definición: es una medida de la similitud entre dos agrupaciones de
datos
● El índice de Rand tiene un valor entre 0 y 1
○ 0 que indica que los dos grupos de datos no concuerdan con
cualquier par de puntos
○ 1 que indica que los grupos de datos son exactamente iguales.
COEFICIENTE DE JACCARD
● Definición: mide el grado de similitud entre dos conjuntos

● Siempre toma valores entre 0 y 1, correspondiente este último a la
igualdad total entre ambos conjuntos.
MATRIZ DE CONFUSIÓN

MATRIZ DE CONFUSIÓN

MEDIDAS BASADAS EN LA PUREZA

PUREZA
Mide el hecho de que un clúster contenga solo una clase entre sus
datos. La pureza de cada clúster se calcula con:

¿QUÉ ES LA VALIDACIÓN INTERNA?
● No utiliza información externa

● Puede utilizarse para escoger el mejor modelo de clustering
● Encontrar el número de clúster óptimo sin ningún tipo de información
adicional
● Una buena agrupación producirá agrupaciones de alta calidad
MÉTRICAS DE VALIDACIÓN INTERNA
Como el objetivo del clustering es agrupar objetos similares, las

métricas de validación interna están basadas usualmente en los dos
siguientes criterios:
● Cohesión: El miembro de cada clúster debe ser lo más cercano

posible a los otros miembros del mismo clúster.
● Separación: Los clúster deben estar ampliamente separados entre
ellos.
SUM OF SQUARED WITHIN (SSW)
● Medida interna especialmente usada para evaluar la Cohesión de
los clústeres que el algoritmo de agrupamiento generó.
Siendo c el número de grupos, n tamaño de muestra del grupo j, Xj es media muestral

del grupo j y Xij observaciones del grupo j
SUM OF SQUARED BETWEEN (SSB)
● Es una medida de separación utilizada para evaluar la distancia
interclúster (Separación)
Siendo k el número de clústeres, 𝑛𝑗 el número de elementos en el clúster j, 𝑐𝑗 el

centroide del clúster j y 𝑥 es la media del data set.
COEFICIENTE DE SILHOUETTE
Dado un punto x del conjunto de datos :
● Cohesión a(x): Distancia promedio

de x a todos los demás puntos en el
mismo clúster.
● Separación b(x): Distancia

promedio de x a todos los demás
puntos en el clúster más cercano.
COEFICIENTE DE SILHOUETTE
● Este coeficiente cuantifica qué tan buena es la asignación que se ha
hecho de una observación comparando su similitud con el resto de
observaciones de su cluster frente a los otros clusters.
● El coeficiente de silhouette para el punto x está definido como:
● Donde el valor de s(x) puede variar entre -1 y 1

-1 = mal agrupamiento
0 = indiferente
1 = bueno
NÚMERO ÓPTIMO DE CLUSTERS
● Determinar el número óptimo de clusters es uno de los pasos más

complicados a la hora de aplicar métodos de clustering.
● Es un proceso que depende en gran medida del tipo de clustering
empleado y de si se dispone de información previa sobre los datos
con los que se está trabajando
MÉTODO DEL CODO
● El método Elbow calcula la varianza

total intra-cluster en función del
número de clusters y escoge como
óptimo aquel valor a partir del cual
añadir más clusters apenas
consigue mejoría.
● La curva indica que a partir de 4
clusters la mejora es mínima.
MÉTODO DE SILUETA PROMEDIO
● Este método es muy similar al
método del codo, con la diferencia
de que, en lugar de minimizar el
total inter-cluster sum of squares
(wss), se maximiza la media de los
coeficiente de silueta.
● Este método considera como
número óptimo de clusters aquel
que maximiza la media del
coeficiente de silueta de todas las
observaciones, en este caso 2.

Metricas de Validacion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Metricas de Validacion

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD DE CUENCA

Métricas para la validación de Clustering

● Conocer cómo se evalúa el resultado de aplicar modelos

● El Clustering es un proceso no supervisado en

● Compara algoritmos de agrupamiento

● Utiliza información externa

● Definición: mide el grado de similitud entre dos conjuntos

● No utiliza información externa

Como el objetivo del clustering es agrupar objetos similares, las

● Cohesión: El miembro de cada clúster debe ser lo más cercano

Siendo c el número de grupos, n tamaño de muestra del grupo j, Xj es media muestral

Siendo k el número de clústeres, 𝑛𝑗 el número de elementos en el clúster j, 𝑐𝑗 el

● Cohesión a(x): Distancia promedio

● Separación b(x): Distancia

● Donde el valor de s(x) puede variar entre -1 y 1

● Determinar el número óptimo de clusters es uno de los pasos más

● El método Elbow calcula la varianza

Vous aimerez peut-être aussi