Vous êtes sur la page 1sur 6

Aplicacin de redes neuronales multicapa para la o aproximacin de supercies o

Mximo Cavazzani and Alejandro J. Mildiner a 8 de junio de 2009


(Instituto Tecnolgico de Buenos Aires ITBA) o

Indice
1. Introduccin o 2. Desarrollo 3. Problema: Supercie a aproximar 4. Arquitecturas utilizadas 4.1. Cantidad de Capas . . . . . . . . . . . . . 4.1.1. Red Simple sin capas ocultas . . . 4.1.2. Red multica con una capa oculta . 4.1.3. Red multica con dos capas ocultas 4.1.4. Red multica con tres capas ocultas 5. Conclusiones 2 2 3 4 4 4 4 5 5 5

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Resumen En este informe se muestra la utilizacin de redes neuronales multicapas o para resolver problemas matemticos los cuales son muy complicados (o impoa sibles ) de resolver mediante los mtodos convencionales. Se analizan distintas e arquitecturas de redes neuronales variando la cantidad de capas ocultas y la cantidad de neuronas en cada una de ellas, tambin se analizan diversas e mejoras al algoritmo de backpropagation.

1.

Introduccin o

Las redes de neuronas articiales son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los a animales. Si bien este paradigma presenta un modelo reducido del sistema nervioso de un ser vivo si rescata sus principales caracter sticas como ser: procesamiento paralelo, memorizar y aprender. Una red neuronal articial es un sistema de interconexin de neuronas en una red que colabora para producir un est o mulo de salida. A lo largo del presente informe nos referiremos a ellas como redes neuronales. Las Redes neuronales poseen diversas aplicaciones entre ellas la resolucin de proo blemas matemticos que es nuestra rea de inters ya que es el objetivo del presente a a e mostrar una aplicacin de un sistema de redes neuronales para la aproximacin de o o funciones. Sin embargo, este paradigma es utilizado para una vasta diversidad de tares como: el reconocimiento de caracteres, perles de marketing y clientes, modelos econmicos, modelos nancieros y robtica entre otros. o o En la seccin 2 se da una explicacin de lo que es una red neuronal y las cao o racteristicas que estas poseen, mientras que en la siguiente seccin 3 se muestra y o describe la funcin que se va a aproximar. Luego en la seccin 4 se explican las o o arquitecturas utilizadas para aproximar la supercie y se comentan los resultados obtenidos. Por ultimo, en la seccin 5 se extraen conclusiones o

2.

Desarrollo

Las redes neuronales son un paradigma de aprendizaje en el que cada neurona recibe una serie de entradas y emite una salida a la red, la cual puede a su vez ser una entrada de otra neurona o la salida misma de la red. La estructura de la red neuronal puede ser simple o multicapa, en el primer caso todas las entradas estn conectadas con las neuronas que producen las salidas. a Mientras que en las redes multicapa cada neurona de una capa est conectada con a todas las neuronas de la capa anterior. La primer capa de una red neuronal son las entradas y la ultima son las salidas. Las redes multicapa resultan de utilidad para resolver problemas no linealmente separables (un problema se dice linealmente separable si existe un plano que separe las salidas en clases). Adems, a esta esa tructura se le agrega el uso de bias, los cuales representan el umbral de activacin o de cada capa y se modelan agregando una conexin mas a cada capa. Luego, ino dependientemente de la estructura utilizada, cada neurona cuenta con una serie de entradas cuyos valores se modican por el peso de cada conexin y una sola salida o condicionada por la funcin de activacin utilizada. o o

Las aplicaciones basadas en redes neuronales deben denir ciertos comportamientos y estructuras en la conexin entre neuronas que no reejan el verdadero o funcionamiento del cerebro. Entre estas caracter sticas podemos destacar el uso de algoritmos de aprendizaje adaptativo. Aparte de denir la estructurade la red neuronal se debe denir a que tipo de entrenamiento se va a someter la res neuronal. El entrenamiento puede ser: con pesos jos, no supervisado y supervisado. En las redes de pesos jos no se realiza ningn entrenamiento, sino que se setean los pesos dados. En las redes con aprendiu zaje no supervisado, la red neuronal, no puede comprobar si el resultado obtenido es el correcto ni que tan lejos se encuentra del mismo. Mientras que en las redes con aprendizaje supervisado, se genera una serie de patrones (entrada, salida) de entrenamiento y se agrega una etapa en la que esos puntos se entregan a la red para actualizar sus pesos, antes de probar el funcionamiento con puntos que no se encuentran dentro de los patrones dados. En la aplicacin que presentamos, utilio zamos aprendizaje supervisado. Para que un sistema de redes neuronales resuelva el problema para el cual fue construida hay que ajustar numerosos parmetros adems de pensar la arquiteca a tura propia de la red. Encontrar la parametrizacin correcta que logre un buen o aprendizaje es una tarea que requiere muchas pruebas y anlisis de resultados y a los parmetros encontrados solo van a satisfacer a este problema puntual. Entre los a factores que tuvimos en cuenta para parametrizar el sistema destacamos: cantidad de neuronas de entrada, cantidad de neuronas de salida, cantidad de capas internas, cantidad de neuronas por capas, la cantidad de pocas, el umbral de tolerancia, la e funcin de activacin, la generacin de puntos de entrenamiento, el learning rate o o o (parmetro que afecta la velocidad de aprendizaje, relacionado al paso que toma) y a los parmetros de las variaciones a Backpropagation. a Existen variaciones que se le pueden realizar al mtodo explicado anteriormente, e de las cuales hemos implementado momentum y eta-adaptable. La idea detrs de a momentum es dar a los pesos de la red algn tipo de inercia, que permita modicaru los en el sentido dado por el vector de pesos, pero sin la necesidad de oscilaciones. Esta variacin favorece en que aumenta la convergencia y disminuye el riesgo de caer o en m nimos locales. La mejora de eta-adaptable est basada en la idea de adaptar el a factor de aprendizaje que afecta al clculo de los coecientes de ajuste de los pesos, a dependiendo lgicamente de si la funcin de costo decreci en el sentido que se lo o o o est ajustando. a

3.

Problema: Supercie a aproximar

En el presente nos disponemos a mostrar la aplicacin de redes neuronales para o la aproximacin de funciones y en particular para la funcin descripta en la ecuacin o o o (1). z = 10 (
2 2 x x3 y 5 ) expx y conxen[3; 3]yen[3; 3] 5

(1)

En ls gura (1) se puede ver grcamente la supercie descripta. Como puede a observarse la supercie es bastante irregular en el centro del intervalo analizado alcanzando varios m nimos y mximos para luego ser plana en los puntos mas alea jados de la misma. La imagen de la supercie tiene sus valores en el intervalo [-8, 8], tambin se puede ver que toma un mximo y un m e a nimo en los puntos globales en (0,-2) y (0,2) respectivamente. Los puntos cr ticos en los que el mtodo puede e tener mayor error son aquellos puntos en los que la supercie cambia su concavidad y a simple vista se los puede estimar en el entorno del origen.

4.

Arquitecturas utilizadas

A continuacion se muestra el progreso que el equipo fue realizando para ajustar los parametros para asi obtener una conguracin exitosa y una arquitectura que o satisfaga el problema presentado.

4.1.

Cantidad de Capas

En este apartado se mostrara como varia el comportamiento de la red neuronal modicando solamente la cantidad de capas que la misma posee. La cantidad de neuronas por capa se obtuvo luego de un arduo trabajo de prueba y error hasta obtener las conguraciones de capas que mejor aproximan a la funcin de testeo. o Cabe destacar que la primer y ultima capa de la red, es decir sus entradas y salidas estan claramente denidas por el enunciado, es decir la primer capa cuenta con 2 neuronas que son las entradas (x e y) y la ultima capa cuenta con una neurona que es la salida z. Como factor para comparar como se aproxima cada conguracin a la funcin de o o testeo usamos el error cuadratico medio y su evolucion a lo largo de las 20000 epocas de entrenamiento a las que sometemos la red. Como es de esperarse a lo largo de todas las epocas de entrenamiento el error se compota de manera ruidosa, con una tendencia generalmente decreciente hasta que se vuelve estable en un determinado punto debido a que la red tiene capacidad nita y mas no puede aprender. El comportamiento ruidoso en el error se debe a a la aleatoriedad con que se eligen los patrones de entrenamiento y esto implica que la correccion de ciertos pesos puede mejorar mucho la memorizacion de un patron pero no del otro y eso genera los picos de error. Por otro lado la tendencia decreciente implica que la red esta aprendiendo a pesa de la aleatoriedad con que se estan tomando los patrones de entrada. Si este error, al cabo de una epoca, es menor de 10 entonces no se sigue entrenando a la red. Por que consideramos que la diferencia es insignicante con respecto al problema presentado.

4.1.1. 4.1.2.

Red Simple sin capas ocultas Red multica con una capa oculta

Ahora analizaremos las mejoras que se producen agregando una capa interna, es decir, dos capas de pesos. Esta arquitectura agrega una capa intermedia entre la capa de entrada y la de salida que posee 20 neuronas y cuya funcin de activacion o es la tangente hiperbolica, cada neurona de esta capa esta conectada a todas las

neuronas de la capa inmediata anterior ( la capa de entrada )y con la capa de salida. Tanto esta nueva capa oculta como la capa de entrada se le agregaron una neurona mas que es el bias. La intencin en agregar una capa mas a la red neuronal es para o mejorar la memorizacin y la interpolacion de puntos. Como se puede observar o en la gura (??) esta aproximacin dista mucho de la supercie a la que se intento o aproximar pero es mejor que la obtenida con una red simple. La gura (2) muestra la evolucin del error cuadratico medio a lo largo de las 20000 epocas de entrenamiento. o 4.1.3. Red multica con dos capas ocultas

Ahora analizaremos las mejoras que se producen agregando una capa interna, es decir, dos capas de pesos, mejora la memorizacin y la interpolacion de puntos. o Como se puede observar en la gura (??) esta aproximacin dista mucho de la o supercie a la que se intento aproximar. La gura (2) muestra la evolucin del error o cuadratico medio a lo largo de las 7800 epocas de entrenamiento. 4.1.4. Red multica con tres capas ocultas

5.

Conclusiones

Figura 1: Supercie utilizada para entrenar y testear la red.

Figura 2: Evolucin del error cuadratico medio en las etapas de entrenamiento o

Vous aimerez peut-être aussi