Académique Documents
Professionnel Documents
Culture Documents
orden de los milisegundos (103 ). Sin embargo, el cerebro se transmitir un pulso a lo largo del axn, en caso
compensa en forma excepcional la lentitud relativa en el contrario no transmitir. Despus de transmitir un
funcionamiento neuronal con un nmero inmenso de neuronas impulso, la neurona no puede transmitir durante un
con interconexiones masivas entre ellas. Se estima que el tiempo de entre 0,5 ms a 2 ms. A este tiempo se le
nmero de neuronas en el cerebro es del orden de 1010 , y llama perodo refractario.
que el nmero de conexiones sinpticas es 6 1013 . La red
En base a estas dos caractersticas, construiremos el
resultante que es el cerebro es una estructura enormemente
modelo de red neural.
eficiente. Especficamente, la eficiencia energtica del
cerebro es aproximadamente de 1016 J=(operaciones s),
la cual es del orden de 1010 veces mayor que la de los mejores 3. Modelo Neuronal.
computadores en la actualidad.
Aqu se desea introducir un modelo sencillo de la
La mayora de las neuronas codifican sus salidas como
neurona, para construir redes, nuestro fin ltimo es modelar
una serie de breves pulsos peridicos, llamados potenciales
correctamente el comportamiento global de toda la red. No se
de accin, que se originan cercanos al soma de la clula y
pretende modelar exactamente el comportamiento fisiolgico
se propagan a travs del axn. Luego, este pulso llega a las
de la neurona, sino ms bien slo sus caractersticas ms
sinapsis y de ah a las dendritas de la neurona siguiente.
relevantes, que entran en juego en su interaccin con toda la
Una sinapsis es una interconexin entre dos neuronas, un
red.
dibujo esquemtico de ella se incluye en la figura 2. En ella,
Tenemos un esquema de neurona en la figura 3. En l
el botn sinptico corresponde al trmino del axn de una
nuestra neurona de inters es la yj . Las n neuronas xi estn
neurona pre-sinptica, y la dendrita es la correspondiente a
enviando seales de entradas, que son los valores numricos
una neurona post-sinptica.
de algo. Los valores wji representan los pesos sinpticos en
50 nm las dendritas de yj . Obsrvese la notacin: el primer ndice
denota a la neurona hacia donde se dirige la informacin, el
segundo ndice denota de qu neurona procede la informacin.
y y
y(in) y(in)
Estas funciones evidentemente transmiten la idea de Resulta mucho ms compacto y prctico aadir lo que se
disparar sobre un umbral. Las neuronas y sus funciones de llama una neurona de inclinacin, x0 , a la que se asigna un
activacin se dividen en dos tipos: bipolares o antisimtricas y valor fijo de 1, y un peso sinptico wj0 . A la neurona yj le
binarias. En las primeras, -a yj a, siendo generalmente asignamos un umbral fijo de cero.
a = 1, y en las segundas, 0 yj 1. Adems, a veces Se ve claramente que esto es equivalente a que la neurona
se suele usar como funcin de activacin una relacin lineal, yj tenga un umbral de wj0 . Entonces se tiene que:
generalmente la funcin identidad. Esta se usa por lo general
para neuronas de entrada a la red o sensores. Esto se debe
a que evidentemente, lo que esperamos de un sensor es que n
X
(in)
indique precisamente lo que est percibiendo. yj = wji xi ; con x0 = 1. (3)
Si la funcin de activacin de una neurona es lineal, i=0
wj1 (y j (in) )v
1j Ellos demostraron que todas las funciones lgicas se pueden
xi wji yj describir mediante combinaciones apropiadas de neuronas de
este tipo, y que por lo tanto, se poda crear, en principio,
wj0 v2j una red capaz de resolver cualquier funcin computable.
Adems, el modelo sirve para explicar algunos fenmenos
xn biolgicos sencillos. De esta forma es posible describir
Figura 6: Esquema con Inclinacin. algunas funciones lgicas como:
4 F. IZAUTIRETA Y C. SAAVEDRA
x1 x2 y x1 x2 y
1 1 1 x1 1 1 1 1 x1 2
0 1 0 y 0 1 1 y
1 0 0 1 0 1
0 0 0
x2 1 0 0 0
x2 2
Ahora es muy fcil comprobar que las tablas de verdad efectivamente se cumplen1 , por ejemplo, la primera lnea de la tabla de
verdad para el And:
1 1 + 1 1 = 2 = y in ) y = 1
x1 x2 z 2
1 1 0 x1 -1
y1 2
0 1 1 z
1 0 1 -1
0 0 0 x2 y2 2
2
fig 9: Funcin xOr.
3.4. Problemas Linealmente Separables y Capas Neurales. Sabemos que la entrada y (in) estar dada por:
0 1
C la s e 1
wji xi =0
1 i =0
Clase1 Clase1
C la s e 0
0 0 0
x1 Clase2
0 1
Clase2
Espaciox
Figura 11: And sobre el plano.
Si la entrada est en la regin Clase 1 producir una salida
1, si est en la Clase 0, una salida de 0. Vemos que se
Figura 13: Separabilidad Lineal.
pueden separar las entradas que deben producir una salida 1
de las que deben producir una salida 0 por una lnea recta. Se Para aclarar el concepto de redes sencillas primero
dice entonces que el problema es linealmente separable. Para revisaremos otro concepto: las Capas Neurales.
resolver un problema linealmente separable, nos basta con una
red sencilla. 3.4.2. Capas Neurales
Revisemos en cambio, como es la funcin xOr sobre el
plano: Cuando trabajamos con grandes cantidades de neuronas,
es natural ordenar aquellas que tienen comportamientos
similares en capas, como en la figura 14. De ah que se
x2 usen los subndices para las neuronas. Cada capa es un vector
de neuronas.
1 1 0
0 0 1
x1
0 1
Figura 12: xOr sobre el plano.
6 F. IZAUTIRETA Y C. SAAVEDRA
w10
1= x0 wj0
wn0
w11
x1 wj1 y1
wn1
w1i
Entrada
Salida
xi wji yj
wni
w1m
xm wjm yn
wnm
Capa 0 Capa 1
Figura 14: Red Unicapa.
Se acostumbra no contabilizar la capa de entrada, por lo tanto se dice que la red de la figura 14 es Unicapa. Las sinapsis
obviamente estn ordenadas en una matriz wji de n (m + 1). Evidentemente, de nuestro anlisis anterior, tenemos que una red
unicapa slo puede resolver problemas linealmente separables. En una red unicapa, las neuronas de salida pueden ser lineales o
no lineales.
Pero es evidente que podemos seguir aadiendo capas, como se muestra en la figura 15.
1
u10 v10
1= x0 uj0 y0 vk0
un0 vp0
u11 v11
x1 uj1 y1 vk1 z1
un1 vp1
u1i v1i
Entrada
Salida
xi uji yj vkj zk
uni vpj
u1m w1n
xm ujm yn wkn zp
unm wpn
Capa 0 Capa 1 Capa 2
Figura 15: Red Multicapa.
REDES NEURONALES ARTIFICIALES 7
En una red multicapa, las capas ocultas, que en nuestra Luego, con la seal de error ej (n), corrijo las sinapsis
figura corresponde a la Capa 2, siempre son no lineales. Se de la red mediante algn algoritmo de los que se ver a
puede demostrar muy fcilmente que si se construye una red continuacin. No hijo, esta no es una E, es una A....
multicapa con capas ocultas lineales, sta es equivalente a una
red unicapa.
Podemos ver fcilmente la idea de paralelismo al observar
las capas de las redes. Cada neurona de una capa no necesita
de las dems en su misma capa para trabajar, son capaces Profesor
por lo tanto de trabajar simultneamente. Esta cualidad {xi(n);dj(n)}
se ha aprovechado al disear chips paralelos con la nueva xi (n) dj (n)
tecnologa VLSI (Very Large Scale Integrated), en donde se
han implementado varios tipos de neuroredes. oj (n) - +
Una red multicapa es capaz de resolver problemas ms
complejos, pero su proceso de aprendizaje tambin es ms Neurored
complicado.
Luego comparamos ambas seales, la respuesta donde las capas de neuronas xi e yj estn distribuidas como en
deseada dj (n) y la respuesta de la red oj (n), creando la figura 14. A la constante de proporcionalidad se le llama
una seal de error, ej (n) = dj (n) oj (n). Mmm... el razn de aprendizaje. Para ver como funciona, supongamos
nio no est tan despierto como esperaba.... que xi e yj son bipolares o antisimtricas, con a = 1. Si xi
8 F. IZAUTIRETA Y C. SAAVEDRA
e yj toman ambas simultneamente el valor de 1 (o de -1), ser un receptor, es capaz de reconocer el movimiento y
wji (n) = , y esa sinapsis se reforzar. En cambio, si una
tomase el valor -1 y la otra el de 1, wji (n) = , y esa bordes, y puede adaptarse a cambios locales en el brillo.
sinapsis se debilitar. Un perceptrn es una red de una sola capa, como la de
Este aprendizaje explica el famoso experimento de Pavlov. la figura 14. Las neuronas de salida son no lineales, con
l le daba alimento a un perro y simultneamente tocaba una funcin de activacin tipo escaln. En nuestros experimentos
campanilla. Despus de repetir esto muchas veces, Pavlov numricos, utilizamos funciones de activacin bipolares o
toc slo la campanilla, sin alimento. Y el perro, slo antisimtricas, como la siguiente:
oyendo la campanilla, salivaba. La explicacin es muy simple.
Al activarse simultneamente las neuronas que controlan la 8 (in)
salivacin y las que perciben la campanilla, las sinapsis entre >
< 1 si yj < 0
(in)
ellas se refuerzan. yj = 0 si yj = 0 (9)
>
: (in)
1 si yj > 0
4.3. Aprendizaje para redes Unicapa.
4.3.1. Regla de Aprendizaje perceptrnico. Ntese que se incluy un punto neutro. A este se le suele
llamar punto de indeterminacin. A veces incluso se usa
Objetivo y funcionamiento general: Esta regla una regin en torno al origen que produce una salida de cero, a
de aprendizaje est diseada especialmente para el la cual se le llama banda de indeterminacin. Simplemente
reconocimiento de patrones, pero por ser red unicapa, dice que la neurona no sabe que responder. Cada neurona de
slo se pueden usar patrones linealmente separables. El salida representa a una clase determinada, si una de ellas se
perceptrn naci como un primer intento de modelar la retina, activa con una entrada, significa que pertenece a esa clase,
en 1958, por Rosenblatt. Es usual pensar que la retina es si est desactiva, que no pertenece. Aqu, incluimos dos
simplemente un receptor (como el detector CCD de una experimentos al respecto, clasificando imgenes de letras.
cmara de vdeo), pero en realidad es una red altamente La entrada xi corresponde al i-simo pxel de la imagen.
compleja. Slo ha podido ser reproducida en ojos para robots Digamos por ejemplo que tenemos una red que nos clasifica
y retinas artificiales para ciegos en la ltima dcada, mediante una entrada como X u O. Lo que queremos es que funcione
los llamados circuitos neuromrficos. La retina, adems de como se muestra en la figura 17, en donde la neurona marcada
con X reconoce a la clase X, y la con O, a la clase O:
x 1: E s una X
X O -1 : N o es u n a O
x -1 : N o es u n a X
O O 1: E s una O
Algoritmo Perceptrnico. Veamos ahora como entrenar 1; :::; N , hacer los pasos del 3 y 4.
esta red que cuenta mo y m1 nmero de neuronas de entrada
y salida respectivamente. Adems, existen N pares de
entrenamiento fxi (n); dj (n)gN
n=1 . De esta forma el algoritmo Paso 3: j = 1; :::; m1
es:
m0
X
Paso 0: Inicializar las sinapsis de la red, se puede elegir (in)
wji (0) = 0 valores aleatorios. se elige una razn yj (n) = wji (n)xi (n)
de aprendizaje , 0 < 1. i=0
8 (in)
Paso 1: Mientras la condicin de parada del paso 5 sea falsa, >
< 1 si yj (n) < 0
(in)
realizar los pasos del 2 al 5. yj (n) = 0 si yj (n) = 0
>
: (in)
Paso 2: Para cada par de entrenamiento, (xi (n); dj (n)) ; n = 1 si yj (n) > 0
REDES NEURONALES ARTIFICIALES 9
Paso 4: Si yj (n) 6= dj (n), para algn j entre 1 y m1 , el mismo hiperplano de separacin, aunque distintos pesos
entonces sinpticos. Adems, generalmente, no es un solo hiperplano
el que nos podra delimitar bien la frontera, sino que ms bien
wji (n + 1) = wji (n) + dj (n)xi (n); hay infinitos, como se muestra en la figura 18:
donde j = 1; :::; m1 ; i = 0; :::; m0 . En caso contrario
wji (n + 1) = wji (n)
Paso 5: Si los pesos sinpticos no cambian para cada patrn
de entrenamiento durante la ltima vez que se realiz el Clase 1
paso 2, entonces parar, sino es as, continuar.
Se ve claramente que en nuestro caso, wji (n) =
dj (n)xi (n) o 0, dependiendo de si hubo error o no. Podemos
entender intuitivamente el algoritmo de la siguiente forma.
Supongamos que la j-sima neurona respondi de forma
(in) Clase 2
incorrecta, dijo -1 en vez de 1. Esto significa que yj (n) fue
demasiado pequeo, debemos hacer que crezca haciendo que
P0
m
ms trminos en la sumatoria wji (n)xi (n) sean positivos
i=0
y lo mximo posible. O sea, si la i-sima entrada, xi (n) es Espacio x
+1, entonces la i-sima sinapsis, wji (n), debiera ser positiva
y lo ms grande posible tambin: debemos hacerla crecer. Si Figura 18: Infinitas Soluciones.
por el contrario, xi (n) es -1, debemos hacer bajar a wji (n).
O sea, o no existe ninguna solucin, o existen infinitas.
Eso es lo que se re eja en la forma en que hemos construido
Es posible demostrar que si existe solucin, entonces
el wji (n), si dj (n) es +1, entonces wji (n) tiene el mismo
el algoritmo perceptrnico converger a una de las infinitas
signo que xi (n). En el caso contrario, es todo al revs.
soluciones en un nmero finito de pasos.
Es bastante evidente que si un problema es linealmente
separable, existen infinitos pesos sinpticos que servirn
para solucionar el problema. Basta con multiplicar por una Experimentos Computacionales. A modo de ejemplo se
Pn incluyen dos experimentos (computacionales), ambos de
constante la ecuacin wji xi = 0 y seguimos teniendo
i=0 clasificacin de letras. Para el primero, usamos las siguientes
entradas:
Cada imagen es de 7 9 = 63 pxels, un pxel negro corresponde a un +1 y uno blanco a un -1, se us = 1. Las sinapsis
se inicializaron con 0. Para construir el vector xi de entradas, simplemente ponemos una fila de la imagen despus de la otra.
Despus del entrenamiento, algunos patrones que fueron clasificados correctamente fueron los siguientes:
10 F. IZAUTIRETA Y C. SAAVEDRA
A C D E K
-4
X O I
Figura 24: Otras Sinapsis para X, O e I.
Figura 21: Patrones de entrenamiento, 2 Ahora, pasaremos a otra tarea que realizan muy bien las
neuroredes: predecir.
Se necesitaron slo tres pocas. Algunos patrones que
fueron clasificados correctamente, son: 4.3.2. Regla Delta, o correccin de error.
Esta es una regla muy popular, en ella se usa una red de una
sola capa, igual que la perceptrnica, pero la neurona de salida
tiene una funcin de activacin derivable, generalmente la
funcin identidad o la tangente hiperblica. Para esta regla,
usamos un algoritmo ms sencillo, simplemente calculamos el
X O I error ej (n) = dj (n) yj (n) correspondiente a cada entrada,
y luego corregimos las sinapsis de la red mediante la regla:
Nuevamente observamos la plasticidad. Pero, cmo se
distribuyen las sinapsis?. Para verlo de un modo grfico,
(in)
simplemente reordenamos en la misma forma de la imagen wji (n) = ej (n)'0j (yj (n))xi (n) (10)
original a las sinapsis, obtenindose 3 grficas: Una para las
sinapsis que se conectan con la neurona de la X, otra con la de Si las neuronas de salida tienen a la identidad como
(in)
la O y otra con la de la I. funcin de activacin, '0j (yj (n)) = 1, y entonces,
REDES NEURONALES ARTIFICIALES 11
x( [n+1]T )
x( nT )
wn +
Sistema x( [n+1]T )
x( iT ) wi x -
Dinmico
w1
e(n)
x( T ) w0
1 wi(n)
figura 25: Predictor Lineal
0.8
Retropropagador de Error.
0.6 Neurored
0.4
x 0.2
4.4.1. Estructura y Notacin general
0
-0.2
-0.8
salida es la capa L-sima, y tiene mL neuronas. La de entrada
-1 es la capa 0, y tiene m0 neuronas. Decimos que nuestra red
50 100 150 200 250 tiene L capas, a L se le llama a veces la profundidad de la
Tiem po [T] red.
Figura 26: Experimento de Prediccin.
12 F. IZAUTIRETA Y C. SAAVEDRA
Entrada
Salida
m0 m1 m2 ... mL-2 mL-1 mL
Figura 27: Red Multicapa.
Seal de Funcin
2 Etapas:
Seal de Error
4.4.2. Definiciones.
Muchos fsicos han trabajado en este campo, y han
Error: Supongamos que la capa de salida est constituida empleado trminos de la Fsica.
por las neuronas zk . Entonces, el error cometido al
presentarse el n-simo par de entrenamiento es: Energa promedio de error. Es el promedio de la energa
de error durante una poca completa de presentacin de
ek (n) = dk (n) zk (n): (11) patrones.
N
Energa de error: La energa de error al presentarse el 1 X
"pro = "(n) (13)
n-simo par de entrenamiento es: N n=1
El gradiente de "av seala su direccin de crecimiento. Se puede intentar evitar esto tratando de minimizar las " (n)
Evidentemente, viene dado por: en vez de "pro , pero de un modo bien especial, como se explica
en la siguiente seccin.
@"pro
@ji "pro (wji ) = : (14)
@wji
Si queremos minimizar "pro , deberamos dirigirnos en contra
del gradiente, como vemos en la siguiente relacin: 4.4.3. Idea del Algoritmo.
wji
? hace muy difcil quedar atrapado en un mnimo local. Una
buena imagen mental sera estar esquiando en una montaa,
que est temblando alocadamente!. Evidentemente, tarde o
temprano llegaremos al valle ms profundo que exista. Este
Figura 29: Peligro de caer en mnimo local. poceso se ilustra en la figura 30.
(n+1)
(n)
wji wji
Figura 30: Esquivando Minmos Locales.
@"(n)
wkj (n) = = k (n)yj (n), k = 1; :::; mL ; j = 0; :::; mL1 (18)
@wkj
@"(n)
vji (n) = = j (n)xi (n), j = 1; :::; mL1 ; i = 0; :::; mL2
@vji
Salida
vji wkj
xi yj zk
mL-2 mL-1 mL
Figura 31: Red Multicapas.