CH Csaavedra

Redes Neuronales Artificiales
Fernando Izaurieta y Carlos Saavedra

Departamento de Fsica, Universidad de Concepcin, Concepcin, Chile
RESUMEN
En esta charla se entrega una descripcin de las caractersticas principales del funcionamiento de redes
neuronales artificiales. En primer lugar, se presenta un modelo sencillo de red neuronal y las familias de
problemas que pueden ser modeladas por ellas. Adems, se describe esquemas simples de entrenamiento de
redes orientadas al reconocimiento de patrones de informacin. Se presenta un ejemplo de aplicacin de las
redes al reconocimiento de texto.
1. Introduccin. por ejemplo, de una persona que quizs ha cambiado de

aspecto (luce distinto o simplemente envejeci) en un paisaje
Las actividades de investigacin desarrolladas en torno al cambiante (que puede contener muchos otros rostros). En
estudio de redes neuronales artificiales, simplemente redes la actualidad, tareas mucho ms simples consumen das de
neuronales o neuroredes, estn motivadas en modelar la trabajo de los computadores ms veloces. La plasticidad
forma de procesamiento de la informacin en sistemas se percibe tambin en la capacidad de responder de forma
nerviosos biolgicos. Especialmente, por la forma de correcta frente a un estmulo nunca antes recibido. Esa
funcionamiento del cerebro humano, que es completamente capacidad hace que cuando nos presentan por primera vez a
distinta al funcionamiento de un computador digital alguien, sepamos automticamente que es una persona y no
convencional. El cerebro humano corresponde al de un un objeto u otro ser biolgico. Debido a estas caractersticas
sistema altamente complejo, no-lineal y paralelo. En trminos y muchas otras, las neuroredes se han convertido en una
sencillos lo anterior equivale a decir que puede realizar gran ayuda en el procesamiento de datos experimentales
muchas operaciones simultneamente a diferencia de los de comportamiento complejo. Adems, su comportamiento
computadores comunes que son de tipo secuencial, o sea, iterativo no lineal las une de modo natural al caos y teoras de
realizan slo una operacin a la vez. En este sentido, una la complejidad. De hecho, las posibilidades son tan amplias
neurored es un procesador de informacin, de distribucin que se empieza a hablar de un nuevo campo, aparte de la
altamente paralela, constituido por muchas unidades sencillas Biologa, la Matemtica y la Fsica: las Neurociencias. Como
de procesamiento llamadas neuronas. La neuroredes se ya lo dijimos, lo que se desea inicialmente es imitar, al menos
caracterizan principalmente por: parcialmente, el funcionamiento del cerebro. Para hacerlo
revisaremos, superficialmente, algunos conceptos bsicos de
Tener una inclinacin natural a adquirir el conocimiento
neurobiologa.
a travs de la experiencia, el cual es almacenado, al
igual que en el cerebro, en el peso relativo de las
conexiones interneuronales. 2. Neurobiologa
Tienen una altsima plasticidad y gran adaptabilidad, Una neurona tpica posee el aspecto y las partes que se
son capaces de cambiar dinmicamente junto con el muestran en la figura 1. Sin embargo, debemos observar que
medio. el dibujo no est a escala, el axn alcanza un largo tpico de
centmetros y a veces de varios metros, las dendritas tambin y
Poseen un alto nivel de tolerancia a fallas, es
las terminales sinpticas, son ms largas, numerosas y tupidas.
decir, pueden sufrir un dao considerable y continuar
teniendo un buen comportamiento, al igual como ocurre
en los sistemas biolgicos.
Tener un comportamiento altamente no-lineal, lo que

les permite procesar informacin procedente de otros
fenmenos no-lineales.
Entre las motivaciones principales para el estudio del

funcionamiento de las redes neuronales se encuentran los
fenmenos neurolgicos. Nuestro cerebro es un procesador
de informacin muchsimo ms eficiente que un computador.
La clave de esto se encuentra en la inmensa plasticidad del Figura 1: Neurona y sus partes.
cerebro, existen tareas cotidianas para el cerebro que sera
impensable realizar mediante computacin tradicional. Un Tpicamente, las neuronas son 6 5 rdenes de magnitud
ejemplo de esto es la capacidad reconocer a una persona en ms lentas que una compuerta lgica de silicio, los eventos
un tiempo de 100 a 200 ms. En ese breve lapso, el cerebro es en un chip de silicio toman alrededor de nanosegundos
capaz de procesar un patrn de informacin tridimensional, (109 s), mientras que en una neurona este tiempo es del
2 F. IZAUTIRETA Y C. SAAVEDRA
orden de los milisegundos (103 ). Sin embargo, el cerebro se transmitir un pulso a lo largo del axn, en caso
compensa en forma excepcional la lentitud relativa en el contrario no transmitir. Despus de transmitir un
funcionamiento neuronal con un nmero inmenso de neuronas impulso, la neurona no puede transmitir durante un
con interconexiones masivas entre ellas. Se estima que el tiempo de entre 0,5 ms a 2 ms. A este tiempo se le
nmero de neuronas en el cerebro es del orden de 1010 , y llama perodo refractario.
que el nmero de conexiones sinpticas es 6 1013 . La red
En base a estas dos caractersticas, construiremos el
resultante que es el cerebro es una estructura enormemente
modelo de red neural.
eficiente. Especficamente, la eficiencia energtica del
cerebro es aproximadamente de 1016 J=(operaciones s),
la cual es del orden de 1010 veces mayor que la de los mejores 3. Modelo Neuronal.
computadores en la actualidad.
Aqu se desea introducir un modelo sencillo de la
La mayora de las neuronas codifican sus salidas como
neurona, para construir redes, nuestro fin ltimo es modelar
una serie de breves pulsos peridicos, llamados potenciales
correctamente el comportamiento global de toda la red. No se
de accin, que se originan cercanos al soma de la clula y
pretende modelar exactamente el comportamiento fisiolgico
se propagan a travs del axn. Luego, este pulso llega a las
de la neurona, sino ms bien slo sus caractersticas ms
sinapsis y de ah a las dendritas de la neurona siguiente.
relevantes, que entran en juego en su interaccin con toda la
Una sinapsis es una interconexin entre dos neuronas, un
red.
dibujo esquemtico de ella se incluye en la figura 2. En ella,
Tenemos un esquema de neurona en la figura 3. En l
el botn sinptico corresponde al trmino del axn de una
nuestra neurona de inters es la yj . Las n neuronas xi estn
neurona pre-sinptica, y la dendrita es la correspondiente a
enviando seales de entradas, que son los valores numricos
una neurona post-sinptica.
de algo. Los valores wji representan los pesos sinpticos en
50 nm las dendritas de yj . Obsrvese la notacin: el primer ndice
denota a la neurona hacia donde se dirige la informacin, el
segundo ndice denota de qu neurona procede la informacin.
Botn Sinptico Dendrita

x1
wj1 (y j(in) ) v
1j
Figura 2: Salto sinptico xi wji yj
El tipo ms comn de sinapsis es la sinapsis qumica, que
funciona como sigue. Una seal neural elctrica pre-sinptica, wj0 v2j
llega al botn sinptico de la figura 2. All, sta hace que
las vesculas sinpticas (en azul en nuestra figura) se rompan, xn
liberndose as una sustancia llamada neurotransmisor. Esta Figura 3: Esquema de Neurona.
sustancia qumica se difunde a travs del espacio entre las
neuronas. Luego, es captada por la dendrita, en donde Lo que hace cada peso sinptico es simplemente multiplicar
estimula la emisin de un nuevo impulso elctrico, post- a su entrada correspondiente y define la importancia relativa
sinptico, que se propaga hacia la derecha. As vemos que de cada entrada. Recordemos que en el soma de la neurona
las dendritas son las zonas receptivas de una neurona, siendo biolgica se sumaban las entradas provenientes de todas las
el axn una lnea de transmisin, y los botones terminales dendritas. Entonces tenemos que la entrada total a la neurona
yj es:
comunican los impulsos a otras neuronas.
En la neurona, hay dos comportamientos que son n
importantsimos para nosotros: (in)
X
yj = wji xi (1)
i=1
- El impulso que llega a una sinapsis y el que sale
En donde el ndice (in) denota input o entrada. Como
de ella no son iguales en general. El tipo de pulso
mencionamos la neurona se activa si la entrada total supera un
que saldr depende muy sensiblemente de la cantidad
cierto umbral. Lo que se hace para esto es aplicar una funcin
de neurotransmisor. Esta cantidad de neurotransmisor (in)
cambia durante el proceso de aprendizaje, es aqu donde de activacin ' sobre yj , que puede ser, por ejemplo,
se almacena la informacin. Una sinapsis modifica el una funcin tipo escaln o sigmoidea, como la tangente
pulso, ya sea reforzndolo o debilitndolo. hiperblica. Entonces tenemos que la seal de output o salida
de la neurona yj es:

- En el soma se suman las entradas de todas las dendritas. (in)
yj = ' yj (2)
Si estas entradas sobrepasan un cierto umbral, entonces
REDES NEURONALES ARTIFICIALES 3
3.1. Funciones de Activacin.
Algunas funciones de activacin tpicas, no lineales, se

presentan en las figuras 4 y 5.
y y
y(in) y(in)
Figura 4: Escaln. Figura 5: Sigmoidea.
Estas funciones evidentemente transmiten la idea de Resulta mucho ms compacto y prctico aadir lo que se
disparar sobre un umbral. Las neuronas y sus funciones de llama una neurona de inclinacin, x0 , a la que se asigna un
activacin se dividen en dos tipos: bipolares o antisimtricas y valor fijo de 1, y un peso sinptico wj0 . A la neurona yj le
binarias. En las primeras, -a yj a, siendo generalmente asignamos un umbral fijo de cero.
a = 1, y en las segundas, 0 yj 1. Adems, a veces Se ve claramente que esto es equivalente a que la neurona
se suele usar como funcin de activacin una relacin lineal, yj tenga un umbral de wj0 . Entonces se tiene que:
generalmente la funcin identidad. Esta se usa por lo general
para neuronas de entrada a la red o sensores. Esto se debe
a que evidentemente, lo que esperamos de un sensor es que n
X
(in)
indique precisamente lo que est percibiendo. yj = wji xi ; con x0 = 1. (3)
Si la funcin de activacin de una neurona es lineal, i=0
decimos que es una neurona lineal, en caso contrario, decimos

que es una neurona no lineal. Aqu, las neuronas lineales 3.3. El Comienzo: McCulloch-Pitts.
se las representa por un cuadrado, y a las no lineales por un
crculo. Despus de las definiciones previas, es conveniente revisar
un ejemplo sencillo, pero muy instructivo, sobre el tema.
3.2. Umbrales e Inclinacin. Este consiste en el primer modelo que se cre de red neural,
el ao 1943, antes de que se construyeran los primeros
Anteriormente, se explic que una neurona se activa o
computadores. McCulloch era un siquiatra y neuroanatomista
dispara si su entrada total supera un cierto umbral. Ahora
y Pitts un matemtico. El primero pas 20 aos estudiando
bien, muchas veces es deseable modificar este umbral,
sobre cul era la representacin de un evento en el sistema
haciendo ms difcil que la neurona dispare (subir el umbral)
nervioso. Su modelo tiene las siguientes caractersticas:
o ms fcil (bajar el umbral). Es posible hacer esto
directamente. Sin embargo, esto suele ser un poco engorroso
al programar. - Las neuronas son del tipo binario, [0; 1].
- Los umbrales y las sinapsis se mantienen fijas.

1= x0
x1 wj0 - La funcin de activacin es del tipo escaln.
wj1 (y j (in) )v
1j Ellos demostraron que todas las funciones lgicas se pueden
xi wji yj describir mediante combinaciones apropiadas de neuronas de
este tipo, y que por lo tanto, se poda crear, en principio,
wj0 v2j una red capaz de resolver cualquier funcin computable.
Adems, el modelo sirve para explicar algunos fenmenos
xn biolgicos sencillos. De esta forma es posible describir
Figura 6: Esquema con Inclinacin. algunas funciones lgicas como:
x1 x2 y x1 x2 y
1 1 1 x1 1 1 1 1 x1 2
0 1 0 y 0 1 1 y
1 0 0 1 0 1
0 0 0
x2 1 0 0 0
x2 2
Figura 7: Funcin And Figura 8: Funcin Or

En todos estos ejemplos, se supone que el umbral de cada neurona no lineal es 2. O sea,

0 si y in < 2
y= (4)
1 si y in 2
Ahora es muy fcil comprobar que las tablas de verdad efectivamente se cumplen1 , por ejemplo, la primera lnea de la tabla de
verdad para el And:
1 1 + 1 1 = 2 = y in ) y = 1
Veamos una funcin lgica ms: el xOr u Or excluyente.
x1 x2 z 2
1 1 0 x1 -1
y1 2
0 1 1 z
1 0 1 -1
0 0 0 x2 y2 2
2
fig 9: Funcin xOr.
Es fcil comprobar que la red mostrada efectivamente

cumple con la tabla de verdad. Sin embargo, llama la atencin neurona de inclinacin, en vez de un umbral.
el que su red sea ms compleja que la de las funciones And
u Or, pese a que slo se diferencia de la funcin Or en la
primera lnea. Pudiramos darnos el trabajo de buscar una red
diferente para representar xOr, buscando algo ms sencillo. 1 x0 w0
Existen varias otras redes que tambin la representan, pero
ninguna de ellas sencillas como la para And u Or.
Fijmonos primero en que consiste la complejidad. En x1 w1
las redes And u Or las neuronas de entrada y la de salida
estn conectadas directamente, en cambio, se puede demostrar y
que para la funcin xOr habr siempre por lo menos, una
conexin indirecta. Para entender esta diferencia se debe
incorporar dos nuevos conceptos: Problemas linealmente
x2 w2
separables y Capas Neurales. Figura 10: Funcin Lgica simple.
3.4. Problemas Linealmente Separables y Capas Neurales. Sabemos que la entrada y (in) estar dada por:
3.4.1. Problemas Linealmente Separables.

y (in) = w0 + w1 x1 + w2 x2 ; (5)
Volvamos a una red simple, como la del And u Or, pero ms
general, como la de la figura 10. En ella, hemos aadido una y la respuesta, por:
1 Se asume que 1=Verdadero y 0=Falso.
Mediante simple inspeccin podemos comprobar que

0 si y(in) < 0 efectivamente es imposible encontrar una lnea recta que deje
y= (6) a un lado las entradas que deben producir 0, y al otro, las que
1 si y(in) 0
deben producir 1. En este caso, decimos que el problema no
Esto divide al plano formado por x1 y x2 en dos regiones: en
es linealmente separable. Por eso no nos basta con una red
una, se tendr que y = 0 e y(in) < 0, en la otra se tendr que
sencilla para resolver el xOr.
y = 1 e y (in) 0. La frontera entre ambas est dada por la
Lo que en realidad estamos haciendo es un caso muy
ecuacin lineal de la recta:
sencillo del problema general de clasificacin de patrones.
Estamos clasificando las entradas en Clase 1 o Clase
w0 + w1 x1 + w2 x2 = 0: Verdadera y Clase 0 o Clase Falsa.
Veamos por ejemplo que ocurre con la funcin And. El concepto de separabilidad lineal se extiende de modo
Tenemos que y (in) = x1 + x2 2, la frontera es x1 + x2 = 2: natural a entradas de ms dimensiones. Las entradas que
Si superponemos las respuestas que nos debe arrojar la red pertenecen a una clase y las que no pertenecen a esta
con el grfico de las regiones, obtenemos la figura 11. simplemente tienen que poder separarse por el hiperplano
Pn
wji xi = 0 en el espacio x de las entradas.
i=0
x 1+ x 2= 2
x2 No- Linealmente
LinealmenteSeparable: Separable:
n
0 1
C la s e 1
wji xi =0
1 i =0
Clase1 Clase1
C la s e 0
0 0 0
x1 Clase2
0 1
Clase2
Espaciox
Figura 11: And sobre el plano.
Si la entrada est en la regin Clase 1 producir una salida
1, si est en la Clase 0, una salida de 0. Vemos que se
Figura 13: Separabilidad Lineal.
pueden separar las entradas que deben producir una salida 1
de las que deben producir una salida 0 por una lnea recta. Se Para aclarar el concepto de redes sencillas primero
dice entonces que el problema es linealmente separable. Para revisaremos otro concepto: las Capas Neurales.
resolver un problema linealmente separable, nos basta con una
red sencilla. 3.4.2. Capas Neurales
Revisemos en cambio, como es la funcin xOr sobre el
plano: Cuando trabajamos con grandes cantidades de neuronas,
es natural ordenar aquellas que tienen comportamientos
similares en capas, como en la figura 14. De ah que se
x2 usen los subndices para las neuronas. Cada capa es un vector
de neuronas.
1 1 0
0 0 1
x1
0 1
Figura 12: xOr sobre el plano.
w10
1= x0 wj0
wn0
w11
x1 wj1 y1
wn1
w1i
Entrada
Salida
xi wji yj
wni
w1m
xm wjm yn
wnm
Capa 0 Capa 1
Figura 14: Red Unicapa.
Se acostumbra no contabilizar la capa de entrada, por lo tanto se dice que la red de la figura 14 es Unicapa. Las sinapsis
obviamente estn ordenadas en una matriz wji de n (m + 1). Evidentemente, de nuestro anlisis anterior, tenemos que una red
unicapa slo puede resolver problemas linealmente separables. En una red unicapa, las neuronas de salida pueden ser lineales o
no lineales.
Pero es evidente que podemos seguir aadiendo capas, como se muestra en la figura 15.
1
u10 v10
1= x0 uj0 y0 vk0
un0 vp0
u11 v11
x1 uj1 y1 vk1 z1
un1 vp1
u1i v1i
Entrada
Salida
xi uji yj vkj zk
uni vpj
u1m w1n
xm ujm yn wkn zp
unm wpn
Capa 0 Capa 1 Capa 2
Figura 15: Red Multicapa.
En una red multicapa, las capas ocultas, que en nuestra Luego, con la seal de error ej (n), corrijo las sinapsis
figura corresponde a la Capa 2, siempre son no lineales. Se de la red mediante algn algoritmo de los que se ver a
puede demostrar muy fcilmente que si se construye una red continuacin. No hijo, esta no es una E, es una A....
multicapa con capas ocultas lineales, sta es equivalente a una
red unicapa.
Podemos ver fcilmente la idea de paralelismo al observar
las capas de las redes. Cada neurona de una capa no necesita
de las dems en su misma capa para trabajar, son capaces Profesor
por lo tanto de trabajar simultneamente. Esta cualidad {xi(n);dj(n)}
se ha aprovechado al disear chips paralelos con la nueva xi (n) dj (n)
tecnologa VLSI (Very Large Scale Integrated), en donde se
han implementado varios tipos de neuroredes. oj (n) - +
Una red multicapa es capaz de resolver problemas ms
complejos, pero su proceso de aprendizaje tambin es ms Neurored

complicado.
4. Aprendizaje o Entrenamiento. ej (n)

Figura 16: Aprendizaje con Profesor o Supervisado.
El aprendizaje es la clave de la plasticidad de una neurored
y esencialmente es el proceso en el que se adaptan las La secuencia completa de los N pares de entrenamiento es
sinapsis, para que la red responda de un modo distinto a los conocida como una poca. En general, pueden haber muchas
estmulos del medio. Recordemos que en una neurored, toda pocas, y el aprendizaje se detiene cuando la red responda
la informacin adquirida se guarda en el valor de cada peso correctamente a todos los pares de entrenamiento.
sinptico. De hecho, las neuronas de la mayor parte de los En general, cuando adaptemos las sinapsis, la forma de
seres vivos con sistema nervioso, desde un caracol hasta el hacerlo ser mediante la siguiente ecuacin:
hombre son esencialmente iguales. Lo que nos hace ms
inteligentes que un caracol es el nmero, organizacin y modo
de cambio de las conexiones sinpticas. El aprendizaje se wji (n + 1) = wji (n) + wji (n) (7)
divide principalmente en dos tipos: Aprendizaje con Profesor
o Supervisado y sin Profesor o No Supervisado. Nosotros slo en donde wji (n) son los pesos sinpticos con los que
estudiaremos aprendizaje con profesor y algunas variantes de la red responder al n-simo ejemplo. Esto equivale a
ste. no cambiar los pesos sinpticos en forma radical, sino
que simplemente los variamos en una cantidad pequea
4.1. Aprendizaje con Profesor o Supervisado. wji (n) con respecto a su estado anterior. Lo que diferencia
a los algoritmos o reglas de aprendizaje, es bsicamente como
El proceso es completamente anlogo a ensearle algo a un
encontrar wji (n). El que hayan distintos algoritmos tiene
nio, digamos por ejemplo, a reconocer las vocales. Los pasos
cierta base biolgica. Neuronas de distintas partes del cerebro
del proceso son los siguientes:
aprenden de forma distinta tambin.
- El profesor dispone de un conjunto de N pares de
N
entrenamiento, fxi (n); dj (n)gn=1 , en donde xi (n) es 4.2. Regla de Hebb.
la n-sima entrada y dj (n) es la respuesta correcta a
esa entrada. En nuestro ejemplo, significa que tenemos Esta es la ms antigua y la ms famosa de las reglas
todas las vocales dibujadas en un papel ( xi (n) ) y que de aprendizaje, su base es completamente biolgica. Fue
nosotros sabemos las respuestas correctas ( dj (n) ) a encontrada por el neurofisiologo Hebb en 1949, quien
cada una de las figuras, los sonidos A,E,I,O,U. descubri que si dos neuronas a ambos lados de la sinapsis
estaban activas (o inactivas) simultneamente, entonces las
- Introducimos una de las entradas xi (n) y esperamos sinapsis entre ellas se reforzaban, y si se activaban (o
que nuestra red nos responda. Sera como mostrarle desactivaban) asincrnicamente, se debilitaban. Una forma
al nio la letra A y preguntarle: Dime, Qu letra es de expresar esta idea de forma sencilla es la siguiente:
esta?.
La neurored responde mediante una salida oj (n).
Digamos, el nio nos respondi Esa es una E. wji (n) = yj (n)xi (n); > 0; (8)
Luego comparamos ambas seales, la respuesta donde las capas de neuronas xi e yj estn distribuidas como en
deseada dj (n) y la respuesta de la red oj (n), creando la figura 14. A la constante de proporcionalidad se le llama
una seal de error, ej (n) = dj (n) oj (n). Mmm... el razn de aprendizaje. Para ver como funciona, supongamos
nio no est tan despierto como esperaba.... que xi e yj son bipolares o antisimtricas, con a = 1. Si xi
e yj toman ambas simultneamente el valor de 1 (o de -1), ser un receptor, es capaz de reconocer el movimiento y
wji (n) = , y esa sinapsis se reforzar. En cambio, si una
tomase el valor -1 y la otra el de 1, wji (n) = , y esa bordes, y puede adaptarse a cambios locales en el brillo.
sinapsis se debilitar. Un perceptrn es una red de una sola capa, como la de
Este aprendizaje explica el famoso experimento de Pavlov. la figura 14. Las neuronas de salida son no lineales, con
l le daba alimento a un perro y simultneamente tocaba una funcin de activacin tipo escaln. En nuestros experimentos
campanilla. Despus de repetir esto muchas veces, Pavlov numricos, utilizamos funciones de activacin bipolares o
toc slo la campanilla, sin alimento. Y el perro, slo antisimtricas, como la siguiente:
oyendo la campanilla, salivaba. La explicacin es muy simple.
Al activarse simultneamente las neuronas que controlan la 8 (in)
salivacin y las que perciben la campanilla, las sinapsis entre >
< 1 si yj < 0
(in)
ellas se refuerzan. yj = 0 si yj = 0 (9)
>
: (in)
1 si yj > 0
4.3. Aprendizaje para redes Unicapa.
4.3.1. Regla de Aprendizaje perceptrnico. Ntese que se incluy un punto neutro. A este se le suele
llamar punto de indeterminacin. A veces incluso se usa
Objetivo y funcionamiento general: Esta regla una regin en torno al origen que produce una salida de cero, a
de aprendizaje est diseada especialmente para el la cual se le llama banda de indeterminacin. Simplemente
reconocimiento de patrones, pero por ser red unicapa, dice que la neurona no sabe que responder. Cada neurona de
slo se pueden usar patrones linealmente separables. El salida representa a una clase determinada, si una de ellas se
perceptrn naci como un primer intento de modelar la retina, activa con una entrada, significa que pertenece a esa clase,
en 1958, por Rosenblatt. Es usual pensar que la retina es si est desactiva, que no pertenece. Aqu, incluimos dos
simplemente un receptor (como el detector CCD de una experimentos al respecto, clasificando imgenes de letras.
cmara de vdeo), pero en realidad es una red altamente La entrada xi corresponde al i-simo pxel de la imagen.
compleja. Slo ha podido ser reproducida en ojos para robots Digamos por ejemplo que tenemos una red que nos clasifica
y retinas artificiales para ciegos en la ltima dcada, mediante una entrada como X u O. Lo que queremos es que funcione
los llamados circuitos neuromrficos. La retina, adems de como se muestra en la figura 17, en donde la neurona marcada
con X reconoce a la clase X, y la con O, a la clase O:
x 1: E s una X
X O -1 : N o es u n a O
x -1 : N o es u n a X
O O 1: E s una O
Figura 17: Funcionamiento de un Perceptrn
Algoritmo Perceptrnico. Veamos ahora como entrenar 1; :::; N , hacer los pasos del 3 y 4.
esta red que cuenta mo y m1 nmero de neuronas de entrada
y salida respectivamente. Adems, existen N pares de
entrenamiento fxi (n); dj (n)gN
n=1 . De esta forma el algoritmo Paso 3: j = 1; :::; m1
es:
m0
X
Paso 0: Inicializar las sinapsis de la red, se puede elegir (in)
wji (0) = 0 valores aleatorios. se elige una razn yj (n) = wji (n)xi (n)
de aprendizaje , 0 < 1. i=0
8 (in)
Paso 1: Mientras la condicin de parada del paso 5 sea falsa, >
< 1 si yj (n) < 0
(in)
realizar los pasos del 2 al 5. yj (n) = 0 si yj (n) = 0
>
: (in)
Paso 2: Para cada par de entrenamiento, (xi (n); dj (n)) ; n = 1 si yj (n) > 0
Paso 4: Si yj (n) 6= dj (n), para algn j entre 1 y m1 , el mismo hiperplano de separacin, aunque distintos pesos
entonces sinpticos. Adems, generalmente, no es un solo hiperplano
el que nos podra delimitar bien la frontera, sino que ms bien
wji (n + 1) = wji (n) + dj (n)xi (n); hay infinitos, como se muestra en la figura 18:
donde j = 1; :::; m1 ; i = 0; :::; m0 . En caso contrario
wji (n + 1) = wji (n)
Paso 5: Si los pesos sinpticos no cambian para cada patrn
de entrenamiento durante la ltima vez que se realiz el Clase 1
paso 2, entonces parar, sino es as, continuar.
Se ve claramente que en nuestro caso, wji (n) =
dj (n)xi (n) o 0, dependiendo de si hubo error o no. Podemos
entender intuitivamente el algoritmo de la siguiente forma.
Supongamos que la j-sima neurona respondi de forma
(in) Clase 2
incorrecta, dijo -1 en vez de 1. Esto significa que yj (n) fue
demasiado pequeo, debemos hacer que crezca haciendo que
P0
m
ms trminos en la sumatoria wji (n)xi (n) sean positivos
i=0
y lo mximo posible. O sea, si la i-sima entrada, xi (n) es Espacio x
+1, entonces la i-sima sinapsis, wji (n), debiera ser positiva
y lo ms grande posible tambin: debemos hacerla crecer. Si Figura 18: Infinitas Soluciones.
por el contrario, xi (n) es -1, debemos hacer bajar a wji (n).
O sea, o no existe ninguna solucin, o existen infinitas.
Eso es lo que se re eja en la forma en que hemos construido
Es posible demostrar que si existe solucin, entonces
el wji (n), si dj (n) es +1, entonces wji (n) tiene el mismo
el algoritmo perceptrnico converger a una de las infinitas
signo que xi (n). En el caso contrario, es todo al revs.
soluciones en un nmero finito de pasos.
Es bastante evidente que si un problema es linealmente
separable, existen infinitos pesos sinpticos que servirn
para solucionar el problema. Basta con multiplicar por una Experimentos Computacionales. A modo de ejemplo se
Pn incluyen dos experimentos (computacionales), ambos de
constante la ecuacin wji xi = 0 y seguimos teniendo
i=0 clasificacin de letras. Para el primero, usamos las siguientes
entradas:
Figura 19: Patrones de entrenamiento para el Experimento 1
Cada imagen es de 7 9 = 63 pxels, un pxel negro corresponde a un +1 y uno blanco a un -1, se us = 1. Las sinapsis
se inicializaron con 0. Para construir el vector xi de entradas, simplemente ponemos una fila de la imagen despus de la otra.
Despus del entrenamiento, algunos patrones que fueron clasificados correctamente fueron los siguientes:
A C D E K
Aqu observamos el funcionamiento de la red que se ha

construido, que a pesar de ser muy simple, tiene plasticidad
y es capaz de generalizar. A pesar de que nunca vio esos
patrones con errores durante su entrenamiento, fue capaz de 4
reconocer a qu letra correspondan.
Para ampliar el experimento nos preguntamos: Se podr 0
realizar con patrones ms grandes? y, Qu imagen podemos
hacernos de cmo estn distribuidas las sinapsis? -4
Para responder esas preguntas, construimos un perceptrn
que slo clasificara entre X, O e I, pero con entradas de
una resolucin mucho mayor: 56 72 = 4032 pixeles.
X O I
Trabajamos exactamente del mismo modo que con el ejemplo Figura 23: Sinapsis para X,O e I.
anterior. Los patrones de entrenamiento ahora son los
siguientes: Simplemente observando se puede entender cmo funcionan
las sinapsis, y qu regiones son ms cruciales que otras al
reconocer el patrn.
Pero dijimos que las sinapsis no eran nicas. Si
empezamos con valores iniciales aleatorios llegamos a otro
tipo de conexiones sinpticas, como estas:
-4
X O I
Figura 24: Otras Sinapsis para X, O e I.
Figura 21: Patrones de entrenamiento, 2 Ahora, pasaremos a otra tarea que realizan muy bien las
neuroredes: predecir.
Se necesitaron slo tres pocas. Algunos patrones que
fueron clasificados correctamente, son: 4.3.2. Regla Delta, o correccin de error.
Esta es una regla muy popular, en ella se usa una red de una
sola capa, igual que la perceptrnica, pero la neurona de salida
tiene una funcin de activacin derivable, generalmente la
funcin identidad o la tangente hiperblica. Para esta regla,
usamos un algoritmo ms sencillo, simplemente calculamos el
X O I error ej (n) = dj (n) yj (n) correspondiente a cada entrada,
y luego corregimos las sinapsis de la red mediante la regla:
Nuevamente observamos la plasticidad. Pero, cmo se
distribuyen las sinapsis?. Para verlo de un modo grfico,
(in)
simplemente reordenamos en la misma forma de la imagen wji (n) = ej (n)'0j (yj (n))xi (n) (10)
original a las sinapsis, obtenindose 3 grficas: Una para las
sinapsis que se conectan con la neurona de la X, otra con la de Si las neuronas de salida tienen a la identidad como
(in)
la O y otra con la de la I. funcin de activacin, '0j (yj (n)) = 1, y entonces,
en nuestro experimento simplemente recurrimos al ensayo y

wji (n) = ej (n)xi (n) error, que suele ser mucho ms rpido.
que es la forma ms comn del algoritmo. Esta regla en
realidad es un caso particular muy sencillo del algoritmo de Predictor lineal, o filtro Lineal Adaptativo. Supongamos
retropropagacin de errores. que tenemos un sistema dinmico al que estamos describiendo
La convergencia del algoritmo depende fuertemente del por un nico parmetro x. Lo nico que conocemos de l
valor de . Si se elige uno muy pequeo, la convergencia se es su historia, muestreando x cada cierto perodo T . Lo
har muy lenta, y si se elige muy grande, el proceso se volver que queremos hacer es predecir cul ser la respuesta del
inestable y no converger. Existen criterios para determinar sistema en el prximo instante. Esto lo hacemos mediante
cotas superiores para , pero suelen ser complicados, nosotros una interaccin red - sistema dinmico como la mostrada en
la figura 25:
x( [n+1]T )
x( nT )
wn +
Sistema x( [n+1]T )
x( iT ) wi x -

Dinmico
w1
e(n)
x( T ) w0
1 wi(n)
figura 25: Predictor Lineal
Aqu vemos que el papel de profesor es llevado de modo

automtico por el mismo sistema dinmico. La red conoce Se puede observar fcilmente que a medida que la red va
todas las entradas desde x (T ) hasta x (nT ), y debe predecir aprendiendo, cada vez es capaz de predecir mejor.
el valor de x ([n + 1] T ). El papel de respuesta deseada lo
juega x ([n + 1] T ) y el de entrada el historial del proceso.
Es completamente anlogo al proceso de aprendizaje con 4.4. Aprendizaje para Redes Multicapa.
profesor, excepto por que el nmero de neuronas de entrada
debe aumentar constantemente. Ahora, romperemos con nuestras limitaciones anteriores y
estudiaremos el caso nolineal. Debemos recordar que en este
tipo de redes, las funciones de activacin de las capas ocultas
Experimento computacional. Usamos un = 0:01 y una
son siempre no lineales. Adems, veremos de las ecuaciones
neurona de salida con la funcin identidad. Nuestro sistema
que necesitamos una funcin de activacin diferenciable en
dinmico era una seal senoidal con variaciones aleatorias.
todo su dominio. Adems, se encuentra que el algoritmo
de aprendizaje es ms difcil de visualizar. Nosotros
Sist. Dinm ico.
slo estudiaremos un tipo de aprendizaje, el Aprendizaje
1
0.8
Retropropagador de Error.
0.6 Neurored
0.4
x 0.2
4.4.1. Estructura y Notacin general
0
-0.2
-0.4 La estructura de la red se muestra en la figura 27, la capa de

-0.6
-0.8
salida es la capa L-sima, y tiene mL neuronas. La de entrada
-1 es la capa 0, y tiene m0 neuronas. Decimos que nuestra red
50 100 150 200 250 tiene L capas, a L se le llama a veces la profundidad de la
Tiem po [T] red.
Figura 26: Experimento de Prediccin.
Entrada
Salida
m0 m1 m2 ... mL-2 mL-1 mL
Figura 27: Red Multicapa.
Supondremos que cada capa tiene sus neuronas de la seal de salida.

inclinacin, que por lo general no dibujaremos en los
diagramas. En general, las neuronas de cada capa estn
- Seales de Error: Luego de la etapa hacia adelante,
completamente conectadas con las de la siguiente.
viene la retropropagacin del error, hacia atrs. Cuando
En el funcionamiento de nuestra red, nos encontraremos
corregimos las sinapsis, corregimos las de la capa L
con dos tipos de seales: Seales de Funcin y Seales de
primero. Luego, observando las sinapsis de la capa L,
error.
corregimos las de la capa L 1, y as sucesivamente
- Seales de Funcin: Es el estmulo que entra en la hasta la primera capa. A esto se le llama seal de
capa 0, y pasa hacia adelante, capa por capa del modo error, vamos desde las ltimas capas hasta las primeras
tradicional, hasta la ltima capa, L, en donde se genera corrigiendo sinapsis. Esto es lo que se ilustra en la
figura 28:
Seal de Funcin
2 Etapas:
Seal de Error
Figura 28: Etapas hacia adelante y hacia atrs.
4.4.2. Definiciones.
Muchos fsicos han trabajado en este campo, y han
Error: Supongamos que la capa de salida est constituida empleado trminos de la Fsica.
por las neuronas zk . Entonces, el error cometido al
presentarse el n-simo par de entrenamiento es: Energa promedio de error. Es el promedio de la energa
de error durante una poca completa de presentacin de
ek (n) = dk (n) zk (n): (11) patrones.
N
Energa de error: La energa de error al presentarse el 1 X
"pro = "(n) (13)
n-simo par de entrenamiento es: N n=1
donde "(n) y "pro son funciones de todas las sinapsis de la

m
1XL
red. El objetivo del proceso de aprendizaje ser minimizar
"(n) = e2k (n) (12)
2 "pro . Sea wji una sinapsis cualquiera de la red. Es fcil ver
k=1
que "av (wji ) y "(n)(wji ) constituyen superficies de error. La
Esta no es una energa fsica, en la jerga de las neuroredes slo idea del algoritmo ser la del descenso paso a paso. Vamos
se le llama as por su forma anloga a la energa cintica. a hacer una primera aproximacin para aclarar conceptos.
El gradiente de "av seala su direccin de crecimiento. Se puede intentar evitar esto tratando de minimizar las " (n)
Evidentemente, viene dado por: en vez de "pro , pero de un modo bien especial, como se explica
en la siguiente seccin.
@"pro
@ji "pro (wji ) = : (14)
@wji
Si queremos minimizar "pro , deberamos dirigirnos en contra
del gradiente, como vemos en la siguiente relacin: 4.4.3. Idea del Algoritmo.
@"pro Intentaremos minimizar "av minimizando las " (n). Es decir,

wji (p + 1) = wji (p) (15)
@wji (p) tendremos que:
En donde p simplemente seala que estamos en el p-simo
paso. Lo que estamos haciendo es esquiar o resbalarnos
sobre la superficie de error, tratando de llegar al mnimo
global de la superficie. Sin embargo, haciendo esto, corremos @"(n)
wji (n + 1) = wji (n) : (16)
el peligro de quedar atrapados en un minmo local de la @wji (n)
superficie, y nunca alcanzar el mnimo global, como se ilustra
en la figura 29.
Cada patrn que se presenta tiene una superficie de
error "(n) diferente. Lo que hacemos es presentar el n-
av simo par de entrenamiento y corregir todas las sinapsis
de la red. Es decir tenemos la n-sima superficie y nos
resbalamos un paso. Luego, presentamos el (n + 1)-simo
par de entrenamiento y corregimos nuevamente todas las
sinapsis de la red. O sea, cambiamos de superficie y nos
resbalamos otro paso. Este constante cambio de superficie
wji
? hace muy difcil quedar atrapado en un mnimo local. Una
buena imagen mental sera estar esquiando en una montaa,
que est temblando alocadamente!. Evidentemente, tarde o
temprano llegaremos al valle ms profundo que exista. Este
Figura 29: Peligro de caer en mnimo local. poceso se ilustra en la figura 30.
(n+1)
(n)
wji wji
Figura 30: Esquivando Minmos Locales.
Lo que estamos suponiendo implcitamente es que el

promedio de los cambios individuales en las sinapsis es un mismo procedimiento, llammoslo F . Entonces
estimador del cambio que debiera ocurrir si minimizaramos estaramos iterando:
directamente "pro .
Adems, el orden de presentacin de los pares wji ((n + 1)-poca) = F (wji (n-poca)) (17)
de entrenamiento se randomiza de poca en poca.
Esto hace que la trayectoria seguida sobre la superficie Desde Teora de Caos, sabemos que procesos como estos
sea completamente estocstica. Supongamos que no pueden converger a estados metaestables, como ciclos lmites.
randomizramos el conjunto de entrenamiento. Entonces Para eliminar esta posibilidad se intenta randomizar el
tendramos que poca tras poca estaramos repitiendo el conjunto de entrenamiento, mediante:
4.4.4. Algoritmo de Retropropagacin de Error.

wji (1-poca) = F (wji (0-poca))
wji (2-poca) = G(wji (1-poca)) Consideremos la red de la figura 31. No dibujamos las
sinapsis, slo las sealamos con una echa. La red puede
wji (3-poca) = H(wji (2-poca)), etc. seguir teniendo ms capas ocultas hacia atrs. Se puede
demostrar que:
@"(n)
wkj (n) = = k (n)yj (n), k = 1; :::; mL ; j = 0; :::; mL1 (18)
@wkj
@"(n)
vji (n) = = j (n)xi (n), j = 1; :::; mL1 ; i = 0; :::; mL2
@vji
Salida
vji wkj
xi yj zk
mL-2 mL-1 mL
Figura 31: Red Multicapas.
O sea, cada cambio en las sinapsis es directamente

proporcional a las seales enviadas por la capa que se
encuentra antes. wkj / yj ; vji / xi , y as para todas
las capas de la red.
Si la capa es de salida o si es oculta, el gradiente local
l = @"(n)
(in) se calcula de formas diferentes. (L1)
@yl donde j = 1; :::; mL1 . Aqu vemos que el j depende
Capa de Salida: (L)
de los k de la capa de ms adelante. Con las otras capas
ocultas, se hace exactamente lo mismo, siempre la correccin
(L) (L) (in) depende, de la misma forma, de lo que haya sucedido en las
k (n) = ek (n)'0k (zk ), k = 1; :::; mL (19)
capas de ms adelante. Es a lo que nos referamos con que la
Aadimos el superndice L (aunque con la notacin que seal de error va hacia atrs.
estamos usando no es estrictamente necesario) para recalcar
que nos referimos a la capa de salida. Usamos '0k , la 0 A este mtodo, en donde evitamos los mnimos locales,
significa derivada con respecto al argumento, y el subndice se le llama Mtodo Secuencial. Algunas veces, pese al
k se refiere a que cada neurona, en general, pudiera tener una riesgo de caer en mnimos locales, se minimiza directamente
funcin de activacin distinta!. "av , llamndose a esto Mtodo Grupal, que no es muy
Este es el mismo resultado que tenamos para el filtro usado. Aunque las caractersticas estocsticas del mtodo
lineal adaptativo de una sola capa. As que ahora sabemos de secuencial hacen que evite caer a un mnimo local, hacen que
donde vena esa ecuacin. Simplemente estbamos tratando sea muy difcil establecer tericamente la convergencia. En
de minimizar "av de la forma ya descrita. cambio, con el mtodo grupal, la convergencia a un mnimo
Capas Ocultas: local est garantizada con un mnimo de condiciones. Pese
a ello, el mtodo secuencial es altamente popular, pues es
mL
X muy simple de implementar computacionalmente y adems,
(L1) (in) (L) (L)
j (n) = '0j (yj (n)) k (n)wkj (n); (20) efectivamente funciona muy bien en una inmensa mayora de
k=1 casos difciles.
5. Conclusiones poder construir computadoras con ellas, por lo menos en

principio.
Este trabajo ha pretendido realizar una pequea introduccin Otra caractersticas fundamentales que no podemos
a algunas caractersticas de neuroredes conocidas. De hecho, olvidar son la Robustez y la Capacidad de Aprendizaje. Las
an los estudios ms avanzados que existen hoy da sobre el neuronas son capaces de imitar y predecir el comportamiento
tema estn muy alejados de entender el funcionamiento del de sistemas dinmicos sin usar ningn modelo explcito, y
cerebro, que fue su motivacin inicial. El tema en realidad es capaces de reconocer patrones, aunque stos tengan errores.
muy vasto. Sin embargo, pese a que hemos visto una parte Adems de todo eso, son muy interesantes para la Fsica,
nfima del total, hemos podido apreciar algunas cualidades de tanto para procesar informacin como en s mismas. En
este mecanismo de procesamiento de informacin. cuanto a esto ltimo, se han descubierto interesantes reas que
En primer debemos lugar destacar que es posible modelar relacionan las neuroredes con la Teora de la Informacin, el
el funcionamiento de una neurona en forma extremadamente Caos, la Mecnica Estadstica.
simple, y sin embargo, posee una gran capacidad, vemos la
sencillez y la complejidad unidas de un modo maravilloso. 6. Bibliografa
Por ejemplo, de describi la posibilidad de procesar
cantidades increbles de informacin en forma paralela, de un [1] Laurene Fausett, Fundamentals of Neural Networks
modo sencillo y natural. (Prentice-Hall, New Yersey, USA, 1994).
Al poder establecerse las funciones lgicas mediante la [2] Simon Haykin, Neural Networks (Prentice-Hall, New
combinacin de neuronas vemos tambin la posibilidad de Yersey, USA, 1999).

CH Csaavedra

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CH Csaavedra

Transféré par

Droits d'auteur :

Formats disponibles

Redes Neuronales Artificiales

Fernando Izaurieta y Carlos Saavedra

1. Introduccin. por ejemplo, de una persona que quizs ha cambiado de

Tener un comportamiento altamente no-lineal, lo que

Entre las motivaciones principales para el estudio del

Botn Sinptico Dendrita

3.1. Funciones de Activacin.

Algunas funciones de activacin tpicas, no lineales, se

Figura 4: Escaln. Figura 5: Sigmoidea.

decimos que es una neurona lineal, en caso contrario, decimos

- Los umbrales y las sinapsis se mantienen fijas.

Figura 7: Funcin And Figura 8: Funcin Or

Veamos una funcin lgica ms: el xOr u Or excluyente.

Es fcil comprobar que la red mostrada efectivamente

3.4.1. Problemas Linealmente Separables.

Mediante simple inspeccin podemos comprobar que

4. Aprendizaje o Entrenamiento. ej (n)

Figura 17: Funcionamiento de un Perceptrn

Figura 19: Patrones de entrenamiento para el Experimento 1

Aqu observamos el funcionamiento de la red que se ha

en nuestro experimento simplemente recurrimos al ensayo y

Aqu vemos que el papel de profesor es llevado de modo

-0.4 La estructura de la red se muestra en la figura 27, la capa de

Supondremos que cada capa tiene sus neuronas de la seal de salida.

Figura 28: Etapas hacia adelante y hacia atrs.

donde "(n) y "pro son funciones de todas las sinapsis de la

@"pro Intentaremos minimizar "av minimizando las " (n). Es decir,

Lo que estamos suponiendo implcitamente es que el

4.4.4. Algoritmo de Retropropagacin de Error.

O sea, cada cambio en las sinapsis es directamente

5. Conclusiones poder construir computadoras con ellas, por lo menos en

Vous aimerez peut-être aussi