Vous êtes sur la page 1sur 18

Clustering

Agrupamientos
Aprendizaje automático
Minería de Datos
• ¿Qué es ?

• ¿Para que usar Minería de Datos?

• Datawarehouse y Datamining

• Tools
– Clustering
Minería de Datos
• ¿Qué es?
– Consiste en la extracción no trivial de
información que reside de manera implícita en
los datos.(wikipedia)

– El Data Mining (DM; minería de datos) es un


proceso para descubrir, a partir de una base
de datos, nuevos conocimientos que sean
válidos, potencialmente útiles y, sobre
todo, comprensibles.(ebook DataMinig)
Minería de Datos
• ¿Para que usar Minería de Datos?
– La minería de datos es una herramienta
fundamental para la toma de decisiones.
El proceso de aprendizaje de los datos
juega un papel muy importante en
muchas áreas de la ciencia, las finanzas
y la indústria, dónde las entidades o
empresas han de minimizar los riesgos
en la toma de decisiones estratégicas.
Minería de Datos
• Datawarehouse y Datamining
Las empresas establecen relaciones
con sus clientes, recogiendo sus
necesidades, recordando sus
preferencias e interaccionando
personalmente, lo que les debería
permitir analizar cómo servirles
mejor en el futuro.
Minería de Datos
• Tool
• ¿Qué es Clustering?

• Algoritmos

• Ejemplo Practico

filas

columnas
Clustering Definiciones(1/2)
• Los algoritmos de clustering
permiten clasificar un conjunto de
elementos de muestra en un
determinado número de grupos
basándose en las semejanzas y
diferencias existentes entre los
componentes de la muestra.
Clustering Definiciones(2/2)
• Un algoritmo de agrupamiento (en inglés,
clustering) es un procedimiento de agrupación
de una serie de vectores según criterios
habitualmente de distancia; se tratará de
disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan
características comunes. Un algoritmo de
clustering permite extraer representantes de un
conjunto de datos, que pueden ser
posteriormente usados para transmisión, para
eliminación de ruido o con una fase posterior de
calibración, para clasificación de vectores en
diferentes conjuntos.
Algoritmos
• K-means

– Es probablemente el algoritmo de
agrupamiento más conocido.

– El algoritmo está basado en la


minimización de la distancia interna (la
suma de las distancias de los patrones
asignados a un agrupamiento al
centroide de dicho agrupamiento)
Algoritmos
• K-means Ejemplo
Algoritmos
• ISODATA
– Iterative Self-Organizing Data Analysis
Techniques (con la A añadida para hacer
pronunciable el nombre), un iterativo método
de agrupamiento que, como ya sucedía con el
método de agrupamiento secuencial, requiere
un considerable esfuerzo para ajustar
adecuadamente todos sus parámetros.
Además, éstos pueden modificarse en cada
iteración del algoritmo.
Algoritmos
• Algoritmo adaptativo

– El método adaptativo es un algoritmo


heurístico de agrupamiento que se
puede utilizar cuando no se conoce de
antemano el número de clases del
problema
Algoritmos
• Algoritmo de Batchelor y Wilkins

– Como el método adaptativo, el


algoritmo de Batchelor y Wilkins es un
método de agrupamiento con número
de clases desconocido.
Algoritmos
• Algoritmo GRASP
– GRASP es una técnica de los años 80
que tiene como objetivo resolver
problemas difíciles en el campo de la
optimización combinatoria. Esta técnica
dirige la mayor parte de su esfuerzo a
construir soluciones de alta calidad que
son posteriormente procesadas para
obtener otras aún mejores.
Algoritmos
• Matriz de similaridad

– Los métodos basados en grafos, igual


que los algoritmos GRASP, intentan
evitar este hecho pero su coste
computacional los hace inaplicables en
muchas ocasiones.
Clustering Jerárquico -
Ejemplo

1−clustering

5
2−clustering
1
3−clustering
4
2
4−clustering
3
5−clustering
1 2 3 4 5
Clustering-Ejemplo
http://www.lsi.us.es/~ndiaz/proyectosFinCarrera.html
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html
Clustering-Ejemplo

Un ejemplo practico
Datos para cada una de las 52 provincias.
Los datos son:
Nombre de la provincia
Población
Ratio varones/mujeres
Ratio extranjeros/españoles
Extensión de la provincia (en Km2)
Paro
Número de teléfonos fijos registrados
Número de vehículos de motor matriculados
Número de oficinas bancarias
Precio medio del m2 de vivienda

Vous aimerez peut-être aussi