Académique Documents
Professionnel Documents
Culture Documents
INTELIGENCIA EN REDES DE
ORDENADORES
5 INGENIERIA DE TELECOMUNIACIN
ABSTRACT
En este documento vamos a realizar un estudio de minera
de datos a partir de datos obtenidos en gapminder.
Trminos Generales
Algoritmos,
Documentacin,
Confiabilidad,
Experimentacin, Factores Humanos, Teora.
1. Qu es la minera de datos?
3.
2. Aprendizaje
supervisado,
supervisado y algoritmos.
Estudio de datos.
no
A. Xmeans
Este algoritmo se basa en la tcnica de los centroides
buscando los knn vecinos ms prximos los va agrupando
con la referencia de los centroides y as se da origen a los
clusters. En dicho algoritmo necesita el nmero mximo y
mnimo de clusters que deseamos; y el propio algoritmo se
encargar de elegir el nmero ptimo en el rango
asignado.
TEST
Con los datos restantes observamos a que cluster
pertenecen y observamos que el 80% de los datos de test
pertenecen al cluster 0 (los que mayor tasa de hijos tienen
y menor de escolarizacin) y tan solo el 20% al cluster 1
que es el cluster intermedio.
4 CLUSTERS
Como es de esperar conforme vayamos incrementando el
nmero de clustering para clasificar nuestros datos el error
ser menor ya que al tener ms grupos los datos que
ajustarn ms a estos. Que vaya disminuyendo el error no
es siempre bueno ya que podemos incrementar de tal
forma el nmero de clusters que haya muy pocos
elementos en los grupos o que las diferencias entre unos y
otros sean insignificantes. Hemos realizado la prueba con 4
clusters.
TRAIN
Comprobamos que el error ha disminuido frente al
anterior caso ha pasado a ser 0.26 frente a 0.59.
Este caso sera aceptable o incluso elegiramos este
nmero de cluster para analizar la informacin porque
todava hay diferencias significantes entre los distintos
grupos.
B. SimpleKmean
En este algoritmo tenemos que fijar el nmero de
clustering que queremos encontrar con los datos dados,
como en nuestro caso contamos con pocos queremos que
el nmero de clustering no sea muy elevado.
3 CLUSTERS
10 CLUSTERS
TRAIN
Con este ejemplo con diez cluster verificamos lo
anteriormente comentado en cuanto al error y a las pocas
diferencias que se observan entre los clustering.
TEST
DecisionStump
DecisionStump o rbol de decisin de un solo
nivel.
Cada nodo representa una caracterstica de un
caso para ser clasificado, y cada rama representa
un valor que el nodo puede tomar. Los casos son
M5P
4. Conclusiones
En el caso de clustering podemos observar como
al aumentar el nmero de clusters disminuye el error. Pero
siempre debemos encontrar una relacin de compromiso
entre el nmero de datos con el que contamos en el
estudio y el de clusters, es decir, no puede haber tantos
clusters como datos. Dependiendo del caso en concreto
nos interesar clasificar en ms o menos grupos. Como
hemos comentado anteriormente, sino tenemos claro el
nmero de clusters es mejor elegir el algoritmo Xmeans ya
que te optimiza el nmero de clusters dentro de un rango
dado.
En el caso del estudio que nos ocupa, mediante
rboles y Knn, podemos observar que la mejor tasa de
error la obtenemos con el rbol de regresin M5P.
ReepTree