Vous êtes sur la page 1sur 7

TALLER MNERIA DE DATOS

Gina medina 47151320

Jennifer molina 47151376

Brayan mora 47151429

En conjunto vote est compuesto por 17 atributos, en total suman 435 elementos de los cuales hay
12 elementos perdidos.

El conjunto vote posee 2 grupos el n y el y.

MATRIZ DE CONFUSION DECISION STUMP


Precisin= 0.956/(0.956+0.039)

Precisin= 0.9608

Recall= 0.956/(0.956+0.0437)

Recall=0.956

VRP= 0.956/0.958

VRP=0.9979

F-score= 2*precisin*recall / (precisin+recall)


F-score= 2*0.958*0.956/(0.958+0.956)

F-score= 1.832/1.914

F-score=0.957

Toma un atributo, que considera representativo, y lo utiliza para clasificar las instancias. Procesa los
valores vacos de atributos extendiendo una tercera rama del tronco, es decir, tratando los valores
missing como un valor diferente del atributo.

ALGORITMO BAYESIANO:

NAIVEBAYES:

BAYESNET:
En los 2 algoritmos anteriores se puede observar la similaridad de las metricas obtenidas siendo
practicamente iguales,encontrando solo una variacion en la ROC AREA de 0.003 en el naivebayes,
lo cual nos indica que los dos algoritmos clasifican al conjunto de manera parecida,la matriz de
confusion nos muestra que clasificados correctamente ahy 392 y 43 mal clasificados.

Se puede usar cualquiera de los 2 para este conjunto de datos.

ALGORITMO JRIP:
REGLAS

Se observa que basa las reglas en un atributo del conjunto de datos el cual es physician fee freeze
para las 3 reglas condicionados con un atributo diferente para cada uno , clasificando primero la
clase republicana y en base a esta deduce la clase democrata, donde el algoritmo arroja un total de
4 reglas.

ALGORITMO PART:
Reglas
Las opciones disponibles para este algoritmo son un subconjunto por tanto de las disponibles para
J4.8. Al igual que podamos reducir el tamao del rbol de decisin J4.8 usando poda de error
reducido, se puede reducir el nmero de reglas de PART (con lo que se reduce tambin el tiempo
de ejecucin porque la complejidad depende del nmero de reglas que se generan). Sin embargo,
el podado de bajo error reduce la precisin del rbol de decisin y reglas resultante porque reduce
la cantidad de datos que se usan en el entrenamiento. Con grandes cantidades de datos no es
necesario tener esta desventaja en cuenta.

Instancias Tiempo para Kappa statistic ROC AREA


clasificadas contruir el
correctamente (%) modelo(s)
DECISION STUMP 95.63 0.0 0.9088 0,928
NAIVEBAYES 90.1149 0.04 0.7949 0,973
BAYESNET 90.1149 0.14 0.7949 0,971
JRIP 95.4023 0.09 0.9037 0,924
PART 94.7126 0.04 0.8879 0,929

El decision stump es el algoritmo que mejor clasifica los datos y presenta un buen comportamiento
clasificando mas del 95% de los datos , la curva ROC tambien presenta un comportamiento optimo
lo cual indica que es el que mejor clasifica el conjunto de datos.

Vous aimerez peut-être aussi