Vous êtes sur la page 1sur 5

Universidad del Quindo

Programa de Ingeniera de Sistemas y Computacin


Espacio acadmico Inteligencia Artificial

Informe del laboratorio 5


Regresin Logstica
Semestre acadmico: I de 2014
Laboratorio: 5-Regresin Logstica
Presentado por:
Andrs David Montoya Aguirre
admon28@live.com
Higgor Alexander Vargas Peuela
alexandervargas1985@hotmail.com
Fecha: 15/04/14
Presentado al profesor: Leonardo Hernndez R.

Introduccin

Al igual que en la regresin lineal, la regresin logstica maneja un algoritmo de aprendizaje supervisado el cual como se ha
mencionado en anteriores informes de laboratorios, son aquellos que son implementados en ambientes controlados mediante
el ingreso de datos de alimentacin manual o automtico de la informacin necesaria para realizar, en este caso, el clculo
de la prediccin de una variable discreta, permitiendo una respuesta de 1/0, si/no, siendo muy til en problemas de
clasificacin.
En este laboratorio se puede encontrar la implementacin de un algoritmo de aprendizaje el cual es construido para conocer
la prediccin sobre si un tumor es maligno o no, para esta prediccin se analizaron 2 caractersticas, la edad y el tamao del
tumor, utilizando datos simulados de cientos de tumores suministrados por el docente en la gua de laboratorio N 5, adems
se pueden encontrar las grficas relacionadas con el proceso de aprendizaje de dicho algoritmo.

El conjunto de entrenamiento

Para determinar el conjunto de entrenamiento, se carg un archivo con datos simulados de 888 tumores, separados por
comas, en el cual el primer nmero del registro corresponde al tamao del tumor, el segundo a la edad y finalmente el
tercero corresponde a la respuesta correcta de si el tumor es maligno o no (1/0).
En la figura 1 se puede observar la matriz de: tamanio (tamao) del tumor (x1), edad del tumor (x2), si el tumor es maligno
o no (y) y la totalidad de los ejemplos del conjunto de entrenamiento.
En la figura 2 se puede observar la tendencia de los datos del conjunto de entrenamiento, en la cual las cruces rojas
describen la cantidad de tumores malignos y los crculos verdes los benignos, en ella adems, se pueden observar que
existen 3 puntos atpicos en la grfica respecto a tumores benignos que se encuentran sobre la frontera determinada para la
prediccin de tumores malignos, para esta grfica debimos implementar una nueva funcin en el programa OCTAVE, que
nos ayud a encontrar los casos positivos y negativos, y separarlos para posteriormente graficarlos correctamente.

Figura 1- CONJUNTO DE ENTRENAMIENTO.

Figura 2- GRFICA DE LOS DATOS DE ENTRENAMIENTO.

El aprendizaje

En los algoritmos de aprendizaje, el aspecto llamado costo es muy importante, ya que debido a este se puede saber si el
algoritmo de aprendizaje est bien implementado o no, es decir, permite conocer que tan bien ajusta el modelo a los datos
del conjunto de entrenamiento, entre ms bajo sea el valor del costo, mejor el ajuste que el modelo hace a los datos.
En la figura 3 se puede observar el costo (j) obtenido mediante el ensayo y el error, dependiendo de una variable alpha (taza
de aprendizaje) y un nmero especfico de iteraciones, las cuales combinadas correctamente logran que dicho costo sea
inferior al solicitado en la gua N 5 (0,0482399), se utilizaron 2800 iteraciones para lograr estos resultados.
En la figura 4 se puede observar el grfico superpuesto de las caractersticas mencionadas en la figura 3, all logramos
analizar que el alpha correspondiente a 30 es el que desciende ms rpidamente, adems de ser la taza de aprendizaje que se
mantiene siempre por debajo de las dems alphas implementadas para encontrar el alpha correcto.
Figura 3- DESCENSO POR EL GRADIENTE.

Figura 4- GRFICA DE TASAS DE APRENDIZAJE.

La hiptesis

Despus de haber ejecutado el algoritmo con parmetros provisionales, este realiz un aprendizaje propio, encontrando
parmetros de prediccin apropiados para el modelo.
En la figura 5 se puede observar las predicciones que realiza el modelo para el conjunto de entrenamiento con parmetros
apropiados para el modelo, con esto logramos observar que la hiptesis ajusta correctamente el conjunto de entrenamiento,
el parmetro (h) hace referencia a la columna de predicciones de probabilidad para los ejemplos de entrenamiento, y el
parmetro (y) hace referencia a la columna de respuestas correctas de cada uno de los ejemplos de entrenamiento.
En la figura 6 se puede observar la interfaz para el ingreso de nuevos datos con los cuales se realiza la prediccin del tumor,
para este caso, se ha realizado el ejemplo con 4 tumores, a lo cual la interfaz solicita el valor numrico de las 2 variables del
tumor descritas anteriormente, para posteriormente realizar el clculo correspondiente y dar un valor de prediccin para el
tumor.
En la figura 7 se puede observar la grfica del modelo superpuesto de los datos en la cual se ve la frontera de la decisin y la
grfica de los datos del conjunto de entrenamiento, en ella se precisa que la recta separa muy bien los casos positivos y
negativos, y como se anot anteriormente, existen datos atpicos que se encuentran por encima de dicha lnea.
Figura 5- PREDICCIONES PARA TODO EL CONJUNTO DE ENTRENAMIENTO.

Figura 6- PREDICCIONES PARA NUEVOS EJEMPLOS.

Figura 7- GRFICA DEL MODELO SUPERPUESTO A LOS DATOS.

Tiempo promedio en la realizacin del laboratorio

Para la realizacin del laboratorio se emple un tiempo promedio por estudiante de 5h

Conclusiones

Logramos aprender que el modelo de aprendizaje de la regresin logstica es importante para realizar predicciones
que pueden ser tiles en amplias ramas del saber, con esto, se puede llegar a predecir de manera rpida, como en
este caso, si un tumor es maligno o no, de la misma forma se puede saber si un estudiante desertar o no, entre
muchos otros.

Como se puede observar en la figura 7, la regin de frontera separa lo mejor posible los casos positivos de los
negativos inicialmente mostrados en la figura 2, con esto podemos concluir que la hiptesis ajusta muy bien los
datos del conjunto de entrenamiento, aunque existiendo excepciones de datos atpicos que se encuentran
desubicados para este tipo de ajuste.

Para finalizar, con la interfaz de ingreso de datos para la prediccin de nuevos ejemplos, denotada en la figura 6, en
la cual se ingresan datos similares a los suministrados en el conjunto de entrenamiento, se puede observar el
correcto funcionamiento de la implementacin del algoritmo predictivo ya que la probabilidad de que el tumor sea
maligno corresponde a la prediccin de la etiqueta, haciendo muy confiable esta prediccin.

Vous aimerez peut-être aussi