Vous êtes sur la page 1sur 11

ALUMNO:

JESUS GIOVANNY ALVAREZ HERRA

CARRERA:

INGENIERA EN COMPUTACIN

MATERIA:

MINERA DE DATOS PRACTICA 3

PROFESOR:

L.S.C JAQUELINE SNCHEZ ESPINOZA

PRCTICA 3

Uso del entorno Weka para Minera de Datos

OBJETIVO: Conocer el entorno general del software para minera de datos Weka a travs de un ejemplo.

INTRODUCCIN: Weka es un conjunto de libreras JAVA para la extraccin de conocimientos desde bases de datos. Es un software ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las suites ms utilizadas en el rea en los ltimos aos.

La versin 3.4.7 incluye las siguientes caractersticas: Diversas fuentes de datos (ASCII, JDBC). Interfaz visual basado en procesos/flujos de datos (rutas). Distintas herramientas de minera de datos: reglas de asociacin (a priori, Tertius, agrupacin/segmentacin/conglomerado (Cobweb, EM y k-medias), clasificacin (redes neuronales, reglas y rboles de decisin, aprendizaje Bayesiona) y regresin (Regresin lineal, SVM). Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin de modelos (Bagging, Boosting ). Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROC, curvas de coste). Entorno de experimentos, con la posibilidad de realizar pruebas estadsticas (t-test).

Fig. 1 Pantalla inicial Weka.

Como se puede observar en la figura1, Weka define 4 entornes de trabajo: Simple CLI: Entorno consola para invocar directamente con java a los paquetes de weka Explorer: Entorno visual que ofrece una interfaz grfica para el uso de los paquetes Experimenter: Entorno centrado en la automatizacin de tareas de manera que se facilite la realizacin de experimentos a gran escala. KnowledgeFlow: Permite generar proyectos de minera de datos mediante la generacin de flujos de informacin.

Explorer Permite el acceso a la mayora de las funcionalidades integradas en Weka de una manera sencilla.

Como se puede observar en la figura anterior existen 6 sub-entornos de ejecucin: Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos. Classification: Acceso a las tcnicas de clasificacin y regresin Cluster: Integra varios mtodos de agrupamiento. Associate: Incluye una pocas tcnicas de reglas de asociacin. Select Attributes: Permite aplicar diversas tcnicas para la reduccin del nmero de atributos. Visualize: En este apartado podemos estudiar el comportamiento de los datos mediante tcnicas de visualizacin.

MATERIAL Y EQUIPO A UTILIZAR: Tener instalado Weka de preferencia la versin 3.4.7 en el equipo de cmputo a trabajar. Realizar la base de datos en formato arff o csv. Sistema operativo Windows o Linux (cualquier versin). Uso de PC.

DESARROLLO: Crear el archivo CSV


Fig. 2 Ventana del explorador Weka. Disear la base de datos en Microsoft Access de preferencia versin 2007 o 2010. Fig. 2 Ventana del explorador Weka.

Fig. 3 Exportar archivo a Excel.

Exportar la base de datos a Microsoft Excel versin 2007 o 2010

Guardar la base de datos de Microsoft Excel con la extensin CSV.

Fig. 4 Guardar archivo con extensin CSV.

Actividad Realizar la siguiente base de datos (ver fig. 5) con la extensin arff o csv y guardarlo con el nombre weather.arff . Determinar con los datos acerca de los das que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos. El objetivo es poder determinar (predecir) si hoy se podr jugar al tenis, los datos son los siguientes:

Fig. 5 Registro de una base de datos.

Cargar los datos en el rea de trabajo. Para ello, darle click en el botn Open file del entorno preprocess, seleccionando el fichero weather.arff y aparecer la pantalla siguiente (ver fig. 6).

Elegir el archivo para realizar el filtrado de los datos.

Fig. 6 Exportar al dataset en Weka.

Pulsando en el botn Choose en Filter, tendremos acceso a multitud de herramientas para el pre procesamiento de datos. Estas herramientas permiten (entre otras muchas funcionalidades): Realizar un filtrado de atributos. Cambiar el tipo de los atributos (discretizar o numerizar). Realizar muestreos sobre los datos. Normalizar atributos numricos. Unificar valores de un mismo atributo.

Base De Datos

Abrir Archivo weather.arff

Pantallazos de las diferentes opciones:

algoritmos que Weka utiliza son: classify, cluster, asocciate, seleccin de atributos y visualizacin de minera de datos.

Reporte Llenar el siguiente cuadro con los resultados obtenidos del ejercicio anterior.

ALGORITMO
Classify

CARACTERSTICAS
Permite al usuario aplicar algoritmos de clasificacin estadstica y anlisis de regresin a los conjuntos de datos resultantes, para estimar la exactitud del modelo predictivo resultante, y para visualizar predicciones errneas. Da acceso a las tcnicas de clustering o agrupamiento de Weka como por ejemplo el algoritmo K-means. Proporciona acceso a las reglas de asociacin aprendidas que intentan identificar todas las interrelaciones importantes entre los atributos de los datos. Muestra una matriz de puntos dispersos (Scatterplot) donde cada punto individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios operadores de seleccin.

Cluster Associate

Visualizacin

Vous aimerez peut-être aussi