Vous êtes sur la page 1sur 2

TRABAJO PRCTICO PARA LA EVALUACIN DE LA ASIGNATURA

INTRODUCCIN A LA CIENCIA DE DATOS


Este trabajo consta de tres apartados: Anlisis de datos, Regresin y Clasificacin.

Cada estudiante contar con dos conjuntos de datos propios: datasetR especfico para
realizar el apartado de regresin y datasetC para el apartado de clasificacin. Adems,
todos los estudiantes contarn con el resultado de 16 conjuntos de datos para
regresin e 20 conjuntos de datos para clasificacin aplicados a los distintos algoritmos
vistos en clase, tanto de regresin como de clasificacin, para poder hacer tests
comparativos.

Se pide al estudiante que presente un informe nico que contenga las respuestas a cada
apartado. Este informe puede entregar en .doc, .odt o .pdf. Para cada apartado se pide
adems incluir el cdigo que se ha utilizado para realizar todas las tareas requeridas.
Es imprescindible que ste cdigo est debidamente comentado de manera que ayuden
a entender los distintos pasos que se han realizado.

La fecha lmite de entrega del trabajo ser el da 12/12/2014 (Viernes) a las 23:59 a
travs de la plataforma SWAD en la actividad Trabajo Final (solapa Evaluacin / tem
del men Actividades).

APARTADO ANLISIS DE DATOS

En este apartado el estudiante debe realizar un estudio previo de sus dos conjuntos de
datos asignados (datasetR y datasetC). Este estudio debe incluir:
A.1 Descriptcin del tipo de datos de entrada (lista, dataframe, ect.. numero de filas,
columnas, tipo de datos atmicos, ect..)
A-1. Clculo de media, desviacin estndar, etc.
A-2. Grficos que permitan visualizar los datos adecuadamente.
A-3. Descripcin del conjunto de datos a partir de los puntos anteriores.

APARTADO REGRESIN

En este apartado el estudiante debe utilizar el datasetR asignado para realizar lo


siguiente:

R-1. Utilizar el algoritmo de regresin lineal simple sobre cada regresor (variable
de entrada) para obtener los modelos correspondientes. Si el datasetR
asignado incluye ms de 5 regresores, seleccione a su criterio los 5 que
considere ms relevantes. Una vez obtenidos los modelos, elegir el que

considere ms adecuado para su conjunto de datos segn las medidas de


calidad conocidas.
R-2. Utilizar el algoritmo para regresin lineal mltiple. Justificar adecuadamente
si el modelo obtenido aporta mejoras respecto al modelo elegido en el paso
anterior.
R-3. Aplicar el algoritmo M5 para regresin lineal mltiple local.
R-4. Comparar los resultados de los dos algoritmos de regresin mltiple

APARTADO CLASIFICACIN

En este apartado el estudiante debe utilizar el datasetC asignado para realizar lo


siguiente:

C-1. Utilizar el algoritmo k-means probando con diferentes valores de k. Elegir el


que considere ms adecuado para su conjunto de datos.
C-2. Utilizar el algoritmo LDA para clasificar.
C-3. Utilizar el algoritmo QDA para clasificar.
C-4. Comparar los resultados de los tres algoritmos.

Vous aimerez peut-être aussi