Académique Documents
Professionnel Documents
Culture Documents
CONEXIONISMO - I. INTRODUCCIN
La psicologa cognitiva como paradigma psicolgico tiene una historia reciente: aunque
algunas propuestas de finales de los aos cuarenta y de la dcada de los cincuenta se pueden
considerar como primeros esbozos de esta forma de hacer psicologa, es a partir de los aos
sesenta cuando realmente se empieza a extender por el mundo entero, compitiendo en los
centros de estudio y de investigacin con el conductismo, al que finalmente parece haber
desbancado como paradigma dominante.
El conductismo supuso uno de los mayores esfuerzos de los psiclogos por hacer de su
disciplina una ciencia. Los principios metodolgicos que exigieron a la psicologa
(experimentacin, rechazo de la introspeccin, empleo de categoras explicativas definidas
operacionalmente, ...) supuso un adelanto y una conquista que la mayora de los psiclogos
consideran irrenunciable. Sin embargo, estos triunfos se vieron claramente empaados en
cuestiones fundamentales: el conductismo es una psicologa sin sujeto (psicologa del
organismo vaco); su pretensin terica fundamental consiste en explicar toda la conducta a
partir del aprendizaje: son los refuerzos y los estmulos presentes en la vida de los organismos
los que determinan su modo de relacionarse con el medio y de resolver sus problemas
adaptativos. Esta paradjica renuncia al sujeto para explicar lo que el sujeto hace se puede
plantear en los trminos tradicionales de cuerpo y mente: el conductismo da poca importancia al
cuerpo y a las predisposiciones genticas de la conducta; pero tambin rechaza la mente,
prescinde de forma explcita y, en muchos casos combativa, de la mente como elemento
explicativo. La psicologa conductista estudia la conducta para explicar la conducta.
Esta idea del ambientalismo y del organismo vaco entra en crisis en los aos sesenta. Por
un lado los etlogos y las investigaciones en neurociencias, y por otro los desarrollos de la propia
la psicologa, van a cuestionar estos principios explicativos bsicos.
Por parte de la psicologa cognitiva, la crtica se referir bsicamente al olvido de la
mente. Sabemos por qu result atractiva la psicologa cognitiva: de nuevo se introducen en la
psicologa temas como el de la atencin, la percepcin, la memoria, el pensamiento, el lenguaje,
temas que parecen irrenunciables para toda psicologa que quiera ser completa y que el
conductismo a duras penas pudo incluir en sus investigaciones. Y como compendio de todas estas
capacidades y actividades, la mente. De nuevo la mente entra el la psicologa, y, adems,
explicada con mtodos que heredan del conductismo la pretensin de objetividad: la psicologa
cognitiva rechaza tambin la introspeccin como acceso privilegiado a lo psquico favoreciendo los
informes objetivos obtenidos en laboratorio. Simplificando, el mentalismo tradicional quiere
estudiar la mente mirando a la mente, la psicologa cognitiva quiere estudiar la mente
mirando la conducta. Considera irrenunciable la referencia a la mente como causa de la
conducta, pero tambin considera irrenunciable la observacin objetiva de la conducta para el
descubrimiento de las estructuras y procesos mentales supuestamente elicitadores de la
conducta.
Pero la diferencia con otros mentalismos no est slo del lado del mtodo (el conductismo
metodolgico del cognitivismo frente a la introspeccin del mentalismo tradicional), sino, ms
importante an, de los conceptos y categoras fundamentales con los que intenta comprender la
mente: la diferencia esencial est en la idea de mente.
2.
3.
4.
5.
Otro contraste que se suele destacar es el que se refiere al aprendizaje: los modelos
2. Dichas unidades interactan entre s mediante las conexiones que los asocian.
3. Los estmulos que afectan a las unidades de entrada se expresan en trminos
cuantitativos.
4. Toda unidad de la red viene definida por un nivel de activacin expresado de forma
cuantitativa.
5. Toda conexin viene caracterizada por un valor de fuerza del trazo o peso de la
conexin, tambin expresado de forma cuantitativa.
9.
La funcin de cada unidad es simplemente realizar clculos con las entradas que
reciben y producir la informacin que envan a las unidades con las que estn
conectadas.
10. Las seales de salida que emite la red se expresan en trminos cuantitativos.
11. Dado que toda la actividad de la red no es otra cosa que clculos o transformaciones
de nmeros, se puede afirmar que en realidad la red neural es un dispositivo para
computar una funcin, un sistema capaz de transformar la informacin de entrada
en informacin de salida. La funcin presente en la red y que realiza el computo es
bsicamente el patrn o conjunto de pesos sinpticos de las unidades.
el axn: es la fibra ms gruesa y larga de todas las que se originan en el cuerpo celular;
mediante los axones las neuronas se conectan unas con otras; su funcin es transmitir la
informacin generada en el cuerpo celular a las otras clulas;
las dendritas: son pequeas extensiones del soma y su funcin es recibir la informacin.
De este modo, las dendritas son los canales receptores de la informacin, el soma la
unidad de procesamiento y el axn el canal transmisor de la informacin.
La informacin se traslada a travs del axn y las dendritas en la forma de seales
elctricas. Sin embargo, el paso de la informacin de una unidad a otra no tiene la forma de
cambios elctricos sino qumicos. La conexin entre el axn de una neurona y las dendritas de
otra recibe el nombre de sinapsis. Las neuronas no estn en contacto fsico completo pues existe
un pequeo espacio en la sinapsis (el espacio intersinptico). Cuando el impulso elctrico llega al
final del axn, se produce la liberacin de unas sustancias qumicas denominadas
neurotransmisores. Los neurotransmisores se difunden en el espacio intersinptico y se unen a
los extremos de las dendritas en ciertos lugares denominados receptores. En estos receptores se
producen cambios qumicos que provocan modificaciones elctricas en la neurona y el flujo
elctrico o impulso nervioso.
Por su importancia en las redes neuronales conexionistas, es importante recordar tambin
entrada (millones de cmputos recursivos), lo que les permite a las mquinas aventajarnos en
tareas como la de clculos matemticos; sin embargo el cerebro parece ms eficaz que los
ordenadores tradicionales en tareas tpicas de los seres vivos: reconocer un enemigo en una
ambiente que no presenta su figura con precisin, recordar instantneamente formas de huida o
aproximacin, comprender una frase, reconocer un rostro, seguir en tiempo real el movimiento de
un objeto en el espacio, ...; hay tareas para las cuales un nio de tres aos resulta ms eficiente
que los ordenadores ms potentes y los programas ms sofisticados.
La explicacin de la eficacia del cerebro para este tipo de tareas se encuentra en el hecho de
que para el procesamiento de la informacin el cerebro utiliza simultneamente millones de
neuronas y el ordenador convencional utiliza uno (o unos pocos) procesadores. En un
procesamiento serial en cada momento slo se realiza una operacin, en un procesamiento en
paralelo en cada momento se realizan tantas operaciones como unidades participan en el
procesamiento completo. sta es precisamente una de las caractersticas principales del cerebro:
en el cerebro cada unidad, o pequeas poblaciones de unidades, participan en el procesamiento
conjunto de la informacin, y aunque cada una de ellas, tomadas por separado, tarden en realizar
sus procesamientos correspondientes, en conjunto la actividad es ms eficaz. Las redes
neuronales nos permiten reproducir ms adecuadamente aqul tipo de tareas porque reproducen
el procesamiento en paralelo caracterstico del cerebro, lo que otorga a las redes una
considerable ventaja en velocidad sobre un ordenador convencional pues la multitud de sinapsis
de cada nivel ejecutan simultneamente muchos pequeos cmputos, en lugar de hacerlo en
laboriosa sucesin como en los ordenadores tradicionales.
los relojes digitales suelen expresar la informacin horaria mediante segmentos; en este
ejemplo, con los siete segmentos siguientes podemos representar diez nmeros, dependiendo
de los que estn activados y de los que estn desactivados (es obvio en realidad que se puede
representar ms informacin, por ejemplo, adems de nmeros, letras); se puede observar que
el dao en una de las unidades afectara a la capacidad del sistema para representar la hora,
pero no de un modo completo, a la vez que est claro tambin que cuanto ms distribuida sea
la forma de almacenar la informacin (cuantos ms segmentos emplesemos) menos se
resentira el sistema:
las matrices nos pueden servir de ejemplo para mostrar cmo un conjunto de
elementos puede procesar distintos conjuntos de datos (distintos vectores de entrada) para
producir cada uno de ellos la salida correspondiente (distintos vectores de salida)
por ejemplo, la matriz
nos permite emparejar los vectores de entrada (1,1) y (1,-1) con los vectores de salida (-1,1) y
(-1,-1):
la entrada +1 +1 produce: 1x -1 + 1x 0 1x 0 + 1x 1 = -1 1
la entrada +1 -1 produce: 1x -1 + -1x 0 1x 0 + -1x 1 = -1 -1
Por cierto que sta es precisamente una de las curiosas eficacias de las redes conexionistas:
un mismo patrn de pesos (que se puede representar mediante matrices) permite emparejar
distintos vectores de entrada a sus vectores de salida correspondientes.
V. 4. COMPUTACIN SIN REGLAS
En las redes conexionistas la computacin no se rige por reglas. En los modelos
cognitivos tradicionales el procesamiento consiste en la manipulacin de smbolos mediante el
empleo de reglas. Los smbolos tienen una interpretacin semntica (son conceptos, propiedades,
clases, frases, lneas, ngulos, recuerdos, ...) y las reglas describen el modo de transformar dichos
smbolos en conjuntos significativos ms amplios. Para el conexionismo, sin embargo, la
computacin no es otra cosa que el clculo de las salidas a partir de informacin de entrada, y los
tres elementos, (entradas, salidas y clculos) expresados en trminos cuantitativos. El
comportamiento general de la red puede parecer comportamiento guiado por reglas, pero en
realidad en sus componentes no hay otra cosa que elementos de cmputo puramente
cuantitativos. El sistema se sita en un estado o en otro a partir de la modificacin de los pesos y
la activacin o inhibicin de cada unidad. Dado que las redes conexionistas son bsicamente
modelos de aprendizaje, la no utilizacin de reglas se traslada tambin al campo del aprendizaje.
En la psicologa cognitiva clsica aprender una destreza psicolgica (la competencia lingstica,
la capacidad para narrar un cuento, la capacidad matemtica, ...) se describa como la adquisicin
o desarrollo de reglas capaces de organizar las salidas correspondientes (frases significativas,
narracin de cuentos, clculos matemticos, ...) a partir de los datos almacenados en la memoria;
en el conexionismo el aprendizaje no es otra cosa que la modificacin de los pesos de las
conexiones para la transformacin de los vectores de entrada en los vectores de salida
pertinentes. Mediante funciones de aprendizaje adecuadas, las redes pueden modificar los pesos
de modo que tras sucesivas presentaciones de los vectores de entrada representativos de una clase
de datos (fonemas, caracteres escritos, figuras bidimensionales, ondas elctricas, ...) la red va
afinando sus respuestas hasta que se logran aciertos estadsticamente aceptables en el
emparejamiento de los vectores de entrada con los vectores de salida pertinentes.
Podemos apreciar la diferencia de enfoques si nos fijamos en una de las tareas para la que
las redes neuronales parecen ms pertinentes, el reconocimiento de patrones; el reconocimiento
de patrones no es otra cosa que la capacidad para identificar ejemplos de un mismo modelo, para
clasificar distintos estmulos como siendo del mismo tipo. Los sistemas de reconocimiento
tradicionales, los que aparecen en la psicologa cognitiva clsica y en la Inteligencia Artificial
tradicional, exigan elaborar reglas explcitas que recogiesen los aspectos esenciales que el
sistema deba captar. Con las redes neuronales podemos conseguir que el sistema reconozca
patrones sin presentarle dichas reglas explcitas de reconocimiento, basta con presentarle los
ejemplos adecuados y entrenar a la red. Esta peculiaridad lleva tambin a caracterizar a las redes
neuronales como sistemas dinmicos autoadaptativos:
autoadaptativos porque ellas mismas, sin que exista una unidad central rectora, son capaces
de ajustar sus unidades de procesamiento o neuronas de modo conveniente para producir el
vector de salida requerido;
dinmicos porque pueden cambiar constantemente para adaptarse a las nuevas condiciones
que imponen los nuevos conjuntos de datos o vectores de entrada que se le presentan.
El aprendizaje no es otra cosa que la modificacin de los pesos o fuerzas de conexin
existentes entre las distintas unidades, no la adquisicin de reglas o algoritmos explcitos. Se
supone que la red ha aprendido cuando consigue un patrn de pesos que provoca, para las
entradas del mismo tipo, las salidas deseadas. Los problemas ms importantes de la persona que
disea la red se refieren a la obtencin de la arquitectura apropiada (las capas y unidades
necesarias, las conexiones entre ellas, las funciones de activacin y transferencia que ha de
utilizar) y de un buen algoritmo de aprendizaje que le permita a la red discriminar los diferentes
tipos de estmulos.
Una consecuencia de la ausencia de reglas explcitas y que merecera la pena estudiar con
detalle es que con este sistema de procesamiento conseguiremos que el sistema o red reconozca
las semejanzas entre entidades, pero no seremos capaces de describir en qu consisten dichas
semejanzas.
corriente elctrica.
En 1947 McCulloch y Pitts escribieron How We Know Universals: The Perception of
Auditory and Visual Formas, obra en la que trataron el problema del reconocimiento de
patrones o problema del reconocimiento de variaciones de un mismo patrn y en la que
presentaron dos redes. La primera tena como objetivo reconocer propiedades comunes en
distintos individuos (propiedades invariantes del mismo patrn); la segunda era capaz de
generar el patrn a partir de ejemplos de dicho patrn. Hicieron una interpretacin biolgica
de estas redes suponiendo que las redes neuronales de los crtices auditivo y visual eran
redes del primer tipo y que el colculo superior (involucrado en el control del movimiento de
los ojo) era una red del segundo tipo.
carcter relativamente indiferenciado del cerebro pues aunque se dae una parte
otras pueden realizar su funcin, particularmente si el dao es en una poca
temprana;
Fue l precisamente uno de los primeros en afirmar que el cerebro no es otra cosa que
una mquina de carne. Estas tesis pertenecen a sus primeras investigaciones (con las
que consigui el grado de doctor). Sin embargo, pronto abandon este planteamiento
conexionista defendiendo la idea de que es posible comprender la mente humana
prescindiendo del estudio del cerebro y atendiendo exclusivamene a sus mecanismos o
comportamiento. Como se sabe, esta tesis es uno de los principios fundamentales de la
psicologa cognitiva tradicional, por lo que, en resumen, se podra decir que las primeras
propuestas de Minsky favorecieron las tesis conexionistas y las segundas (por las que es
clebre) las tesis de la psicologa cognitiva clsica.
Otra importante y curiosa aportacin fue la de O. Selfridge con su obra de 1959
Pandemonium: A paradigm for learning, 1959, en donde llam Pandemonium a su
modelo de procesamiento distribuido y paralelo de la informacin. Su propuesta es
importante porque su modelo para el reconocimiento de patrones descansa en el
procesamiento interactivo realizado por un conjunto de unidades de procesamiento; y es
tambin curiosa porque en vez de hablar de neuronas para referirse a las unidades de
procesamiento les di el nombre de demonios (incluso en los libros que explican el modelo
se los dibuja como pequeos diablillos). Es habitual presentar este modelo como un intento
de comprender el reconocimiento de las letras del alfabeto. Ms adelante se presenta el
Pandemonium con cierto detalle.
Bernard Widrow y Marcial Hoff (Adaptive Switching Circuits,1960) inventaron una
variante del Perceptrn y un nuevo procedimiento de aprendizaje, la regla delta del
aprendizaje. Llamaron adaline a su red (por ADaptive LInear NEuron, neurona lineal
adaptativa). En realidad, la nica diferencia con el Perceptrn es el procedimiento de
aprendizaje o entrenamiento que utilizaron. Era tambin una red de dos capas (capa de
entrada y capa de salida) interconectas, y compuestas por unidades biestables. Su finalidad
era tambin el reconocimiento de patrones. El adaline fue la primera red neuronal aplicada a
un problema real (como filtro para eliminar los ecos en las lneas telefnicas) y se ha usado
comercialmente durante varias dcadas.
VI.2.3. Limitaciones de perceptrones y adalines elementales
Marvin Minsky y Seymour Papert, publicaron en 1969 Perceptrons: An introduction
to Computational Geometry: en este libro estudiaron los perceptrones y demostraron que los
perceptrones y adalines elementales (los que constan slo de dos capas) eran incapaces de
distinguir entre patrones tan sencillos como T y C, ni de llevar a cabo tareas lgicas simples,
como la de decidir la tabla de verdad de la disyuncin exclusiva; probaron matemticamente
que dichas redes, aunque pudiesen modificar sus pesos mediante reglas de aprendizaje, no
podan resolver ms que problemas linealmente separables. Adems, ampliaron sus crticas
conjeturando que esta dificultad no se podra superar aadiendo unidades ocultas en redes
multicapa. Esto ltimo se demostr falso a partir de 1986, cuando se descubri la regla delta
generalizada y la validez de su uso en redes con capas ocultas. Este tipo de redes y la regla
citada permiti resolver el problema ms famoso planteado a los perceptrones y adalines, el
problema de la disyuncin exclusiva antes citado. Se suele indicar que como consecuencia
de las crticas de estos autores las autoridades americanas dirigieron sus fondos a la
inteligencia artificial y la psicologa cognitiva clsica, con el consiguiente freno de la
investigacin en los modelos de computacin conexionista.
(1)
En las redes conexionistas es preciso distinguir dos tipos de elementos: los relativos a
su estructura y los relativos a sus mecanismos de procesamiento:
Conceptos y elementos de la
estructura conexionista
Las unidades
El estado de activacin
La regla o funcin de activacin
El peso sinptico
El patrn de conexin
Reglas de aprendizaje
informacin externa es informacin sensorial; si la red est conectada con otras redes, las
unidades de entrada reciben datos de las salidas de las otras redes; en otros casos,
simplemente, las unidades de entrada reciben los datos que el usuario de la red introduce
manualmente en el ordenador.
2. Unidades de salida: ofrecen las seales o informacin al exterior de la red; dan la
respuesta del sistema. Si la red dispone de conexiones con sistemas motores (robots, por
ejemplo) su respuesta ser la intervencin en el mundo fsico; si la red est conectada
con otras redes, su respuesta sern datos de entrada para stas ltimas redes; y si,
simplemente, son redes que utilizamos en nuestro ordenador, las unidades de salida
ofrece datos al usuario para su posterior tratamiento.
3. Unidades ocultas: aunque no todas las redes poseen este tipo de unidades, las redes
mnimamente sofisticadas las incluyen. Estas unidades no tienen una relacin directa ni
con la informacin de entrada ni con la de salida, por lo que no son visibles al ambiente
exterior a la red, de ah su nombre. Su funcin es procesar la informacin en niveles ms
complejos, favorecer cmputos ms eficaces.
La informacin que puede recibir una red, la que puede ser almacenada y la que puede
emitir, est determinada en gran medida por lo que se llama el abanico de entrada (fanin) y el abanico de salida (fan-out). El abanico de entrada es el nmero de elementos que
excitan o inhiben una unidad dada. El abanico de salida de una unidad es el nmero de
unidades
que
son
afectadas
directamente
por
dicha
unidad.
Se llama capa o nivel o estrato al conjunto de neuronas que reciben informacin de
la misma fuente (informacin externa, otra capa de neuronas) y ofrecen informacin al
mismo destino (al usuario, a sistemas motores, a otra capa de neuronas).
los pesos positivos indicarn entradas excitatorias y los negativos entradas inhibitorias. Para
representar el patrn de conexin se utiliza una matriz de pesos W, en donde cada uno de
los elementos de la matriz (representado como wij) indica el peso correspondiente a la
conexin de la unidad j y la unidad i. El nmero correspondiente a w representa la
intensidad o fuerza de la conexin, y el signo (+ o ) indica si la unidad j excita a la
unidad i (la conexin es excitatoria) o si la unidad j inhibe a la unidad i (la conexin es
inhibitoria). Si el nmero correspondiente a w es 0 se quiere indicar que la unidad j no est
conectada a la unidad i.
Veamos un ejemplo:
u1
u2
u3
u4
ui
-0.5
0.3
-1
0.6
uj
1
0.2
0
-0.3
0.5 1
0.3 0.2
-1
0
0.6 - 0.3
(2)
Una neurona recibe seales desde mltiples neuronas por lo que es necesario calcular
el efecto global que tendr ese conjunto de seales o inputs. El input total se denomina
NET, y para el caso de las entradas que le llega a la neurona i en el tiempo t, NETi(t).
Llamamos regla de propagacin a la frmula que nos indica cmo calcular dicha entrada
total o NET; existen varias reglas de propagacin, pero la ms sencilla y habitual es la que
se representa del siguiente modo:
NETi(t+1) = j wij * oj(t)
NETi es la suma de todas las seales que llegan a la neurona i (seales representadas
como oj), ponderada cada una de ellas por el peso de conexin asociado, (wij). Cuando una
determinada seal oj llega a la neurona i por una sinapsis inhibidora, el peso wij asociado a
dicha sinapsis ser negativo, por lo que el resultado del producto, wij*oj, aportar un
elemento negativo a la suma.
Los valores que transmite una neurona a las neuronas con las que est conectada se
representan como o (oj sera el valor que transmite la neurona j). Pongamos que los
valores que transmite las neuronas de la capa de entrada, y los pesos correspondientes a
sus conexiones con la neurona i son los siguientes:
valores: O(t)
pesos: (Wij)
oj: 0.5
wil: -0.5
ok: 0.3
wik: 1
ot: 0.5
wit: 0.5
ou: -1
wiu: -0.3
unidad son la salida que produce otra unidad). En el caso anterior, el vector de valores que
le llegan desde otras neuronas y correspondiente al instante anterior a la modificacin de la
neurona i (instante que se suele representar como (t)) sera:
O(t) = [0.5, 0.3, 0.5, -1].
Si utilizamos la regla de propagacin antes sealada, la entrada total que le llega a la
neurona i o NETi ser la suma de las entradas parciales ponderadas por los pesos
correspondientes:
(0.5 x -0.5) + (0.3 x 1) + (0.5 x 0.5) + (-1 x -0.3) = -2.5 + 0.3 + 2.5 + 0.3 = 0.6
La entrada total se calcula para despus averiguar el estado de activacin que la va a
corresponder a la unidad, pero, dado que la regla de propagacin citada es muy sencilla, la
funcin de activacin que ha de calcular su activacin no se suele referir a NETi, sino
simplemente al sumatorio de los productos del peso por el valor de las entradas (Wij * Oj).
I. CONTINUOS
a) abiertos; los modelos que utilizan este tipo reciben el nombre de modelos no
acotados (o modelos sin lmite): el valor de activacin de una neurona i puede ser
cualquier nmero real;
b)
o cerrados; los modelos que utilizan este tipo reciben el nombre de modelos
acotados (o modelos con lmites): pueden tomar cualquier valor real comprendido en
un intervalo con un valor mnimo y un valor mximo, por ejemplo, el intervalo {0,1},
o el intervalo {-1,1}, generalmente siguiendo una funcin sigmoidal.
los pesos de las conexiones que la unidad en cuestin tiene con las unidades de las
que recibe las entradas.
todas las entradas oj recibidas por la unidad i desde las neuronas j de la capa
anterior en el tiempo t;
los pesos de conexin wij correspondientes a las distintas sinapsis por los que cada
seal oj llega a la neurona i en el tiempo t.
De este modo, podemos representar la funcin de activacin para el clculo del nuevo
estado de activacin de la unidad i en el tiempo t+1 utilizando la siguiente notacin:
ai(t+1) = Fa [ai(t), oj(t), wij]
Dado que la entrada total o NET correspondiente a dicha unidad es igual a la suma de
todas las entradas ponderadas por sus correspondientes pesos, la anterior frmula tambin
se puede expresar del siguiente modo:
ai(t+1) = Fa [ai(t), NETi(t)]
Como ms arriba se ha indicado, la notacin utilizada no es la misma en todos los
autores, as en la frmula algunos utilizan F, otros Fa, y para referirse al tiempo algunos
utilizan la notacin t y t-1 y otros t+1 y t, pero son frmulas equivalentes.
Como ocurra para los valores de activacin de cada neurona, existen mltiples
funciones de activacin, y es el diseador de la red quien debe establecer la que se ha de
utilizar en funcin de las peculiaridades de la tarea para la que se disea la red.
una funcin matemtica que modula dicho estado de activacin provocando la seal
de salida, funcin que suele ser la misma para todas las unidades.
Por lo tanto, unidades con el mismo grado de activacin pero distintas funciones de
salida producirn distintas seales (oi). A dicha funcin se le llama habitualmente funcin de
transferencia, y puede representarse del siguiente modo:
oi(t+1) = fi[ai(t+1)]
El valor de salida o respuesta de la unidad i (representado por oi), en el tiempo t+1,
ser el resultado de aplicar la funcin de transferencia (fi) a su estado de actividad (ai) en el
tiempo t+1.
Podemos utilizar la notacin vectorial para representar el conjunto de todos los
valores de salida en el tiempo t+1. As, el vector O(t+1) contendr las salidas de todas las
neuronas o unidades en el tiempo t+1:
O(t+1) = (f1[a1(t+1)], f2[a2(t+1)],..., fi[ai(t+1)],..., fn[an(t+1)])
oi(t+1) = ai(t+1)
y, en representacin grfica:
umbral
0 si ai(t+1) < umbral
si el umbral es 0 tendramos
1 si ai(t+1)
oi(t+1) =
1 si ai(t+1) 0
oi(t+1) =
0 si ai(t+1) < 0
y, en representacin grfica:
-1 si ai(t+1) < 0
f(x) =
0 si x < -C
1
si
x
C
x/ (2C) + en otro
caso
-1 si x < - C
f(x) =
1 si x C
a.x en otro caso
y, en representacin grfica
actividad de la unidad est por encima de dichos lmites, la salida es siempre el valor
mximo.
Hay varias funciones de saturacin, siendo la ms utilizada la funcin sigmoide.
Funcin Sigmoide
Es una de las funciones de transferencia ms utilizadas. Produce salidas
continuas y proporcionales al nivel de activacin de la neurona dentro del rango
[0,1]; sus niveles de saturacin son 0 y 1, por lo que su salida mxima ser 1 y la
mnima 0. Cuando el nivel de activacin supere al umbral de saturacin mximo la
salida seguir siendo 1 y cuando el nivel de activacin sea inferior al umbral de
saturacin mnimo la salida seguir siendo 0.
Funcin Tangencial Hiperblica
Es similar a la anterior pero en este caso la saturacin es 1 para el valor
mximo y -1 para el mnimo.
: es la tasa de aprendizaje
ai(t) : es la activacin de la neurona i en el tiempo t
ai : media de los valores de activacin de i
aj : es la activacin de la neurona j
aj : media de los valores de activacin de j
oj(t) : es la seal que emite la neurona j en el tiempo t
Se trata de una regla de aprendizaje no supervisado, pues no existe ninguna
informacin externa que nos indique si los resultados de la red son errneos, ni que nos
ayude a decidir cmo y en qu grado modificar las conexiones.; la regla hace simplemente
que las unidades vayan influyndose unas a otras, y se autoconfiguran la permeabilidad
sinptica de la red a partir de las reacciones a los estmulos recibidos.
VII.2.6.c. Regla de Windrow-Hoff o regla delta o regla del menor error cuadrtico
La utilizaron por primera vez, en 1960, B. Widrow y M. Hoff para su red ADALINE. Se
trata de una regla de aprendizaje supervisado (es preciso presentar a la red todos los casos
de pares entrada-salida que se desea que la red aprenda, y que el maestro modifique los
pesos de las conexiones para corregir los errores en las salidas). Se denomina regla delta
porque en esencia el procedimiento consiste en modificar los pesos de las conexiones (por lo
tanto, favorecer el aprendizaje de la red) a partir del clculo de la diferencia (o delta) entre
las salidas efectivas de la red y las salidas deseadas.
El maestro presenta a la red un vector o patrn de entrada. Si la red produce el
vector de salida deseado no realiza ningn cambio en los pesos. Si existe discrepancia entre
ambos vectores, los pesos se cambian para reducir la diferencia. Cuando existe diferencia
entre las salidas efectivas y las deseadas la modificacin afecta a todos los pesos de las
neuronas que colaboran en el error, y se modifican en proporcin a su influencia en el error.
Se sigue el procedimiento citado minimizar el error y, en los mejores casos, convertirlo en
cero. En la literatura sobre el tema existen varias formulaciones; presentamos dos de las
ms sencillas:
wij = [Ti(t+1) ai(t+1)] oj(t)
: tasa de aprendizaje
Ti(t+1) : activacin deseada en la neurona i
ai(t+1) : activacin real de la neurona i
oj(t) : seal emitida por la neurona j y enviada a la neurona i
En esta primera frmula intervienen los valores de los estados de activacin (el que
realmente tiene la unidad y el deseado), por lo que para averiguar si la salida final de la red
es la correcta es preciso tener en cuenta la funcin de transferencia.
Otra formulacin es la siguiente:
wij = [Ti(t+1) oi(t+1)] aj(t)
: tasa de aprendizaje
Ti : es la seal deseada de la unidad i (la unidad de salida)
oi : es la seal producida por la unidad i (la unidad de salida)
aj(t) : es la activacin de la unidad j (la unidad de entrada)
La expresin entre corchetes representa el error que se comete en el nivel de
activacin de la neurona. El nuevo peso sinptico wij se calcula sumando o restando el
incremento obtenido con la frmula general.
Las redes siguientes son algunos ejemplos que presentaron en su artculo, y, como
se indica, sirven para calcular los valores de verdad de la disyuncin, la conjuncin y la
conjuncin con negacin. Las neurona poda recibir tanto entradas excitadoras como
inhibidoras. La neurona tomaba valor 0 cuando estaba desactivada y valor 1 cuando estaba
activada (es decir utilizaba una funcin de activacin tipo umbral). La salida de la unidad era
1 cuando estaba activada y 0 cuando estaba desactivada (por lo tanto la funcin de
transferencia era la funcin identidad). En todos los casos el peso sinptico de las
conexiones excitadoras era 1. Las sinapsis inhibidoras provocaban la inhibicin total de la
neurona: independientemente de la cantidad de excitacin que le llegase desde las sinapsis
excitadoras, si una sinapsis inhibidora se excitaba, la neurona quedaba totalmente
desactivada y produca la salida 0; por lo tanto, la neurona produca 1 de salida si y slo si
no reciba ninguna seal inhibidora y las seales excitadoras que reciba igualaban o
superaban el valor umbral. Esta es una de las diferencias fundamentales respecto de las
redes que se utilizan actualmente
pero tambin podemos utilizar los siguientes grficos para representar las neuronas
McCulloch- Pitts, grficos que seguramente resultan ms intuitivos (tomado de Estructura,
dinmica y aplicaciones de las redes de neuronas artificiales, VVAA, Editorial Centro de
Estudios Ramn Areces, p. 103); el nmero en el interior de la neurona indica el umbral
VIII. 2. PERCEPTRONES
En 1958 Frank Rosenblatt escribi The Perceptron, a Probabilistc Model for
Information Storage and Organization in the Brain. Rosenblatt rechaz el uso que McCulloch
y Pitts hicieron de la lgica simblica aplicada a las redes y defendi mtodos probabilsticos.
En esta obra llam perceptrones a unas redes McCulloch-Pitts capaces de modificar los
pesos de sus conexiones si las respuestas de la red no eran las correctas y demostr que
estas redes se podan entrenar para clasificar ciertos patrones en iguales o distintos, por
tanto que eran capaces del reconocimiento de formas sencillas.
es posible a la red computar cada uno de los patrones de entrada para producir los
correspondientes patrones de salida.
En el prrafo anterior se ha descrito de modo cualitativo y poco preciso la
modificacin que han de sufrir los pesos cuando la red produce errores; existen varios
algoritmos que se pueden utilizar para detallar con exactitud el modo de modificar los pesos
de las conexiones, por ejemplo:
si la respuesta es 0 debiendo ser 1, wij (t+1) = wij(t) + *oi;
si la respuesta es 1 debiendo ser 0, wij (t+1) = wij(t) *oi
donde
wij : es el peso correspondiente a la conexin de la unidad i con la unidad j
oi : es la salida de la unidad i
: es la tasa de aprendizaje que controla la velocidad de adaptacin
En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An Introduction to
Computational Geometry. En esta obra analizaron las capacidades y limitaciones del
Perceptrn, y demostraron que hay ciertas clases de problemas que el Perceptrn y
cualquier modelo simple de dos capas no puede resolver. Los perceptrones slo pueden
distinguir tramas o patrones linealmente separables, y dado que hay muchos e importantes
problemas que no son linealmente separables, concluyeron que los perceptrones son poco
adecuados como clasificadores de patrones. Adems ampliaron su crtica afirmando que
esta dificultad no se puede resolver con redes multicapa (algo que posteriormente se
demostr errneo). Decimos que un patrn o conjunto de datos de entrada de la red es
linealmente separable cuando el espacio de todas las entradas puede dividirse en dos
regiones, quedando en uno de los lados del hiperplano las correspondientes a una categora
y en la otra parte del hiperplano las correspondientes a otra categora. Se llaman
hiperespacios a los espacios n-dimensionales (por ejemplo, el espacio euclideo es un caso
particular de hiperespacio, y consta de tres dimensiones); se llaman hiperplanos a los
objetos de n-1 dimensiones que dividen un hiperespacio de n dimensiones en varias
regiones; en el caso de un espacio bidimensional, el hiperplano es una lnea que
descompone el espacio en dos regiones; en el caso del espacio tridimensional, el
hiperespacio es un plano y puede dividir el espacio en tres regiones. En la resolucin de
problemas puede ser til la referencia a los hiperplanos puesto que permiten separar
regiones de puntos de un hiperespacio en categoras individuales o clases, por lo que es un
recurso til para distinguir unas clases de otras.
La obra de Minsky y Papert supuso un importante freno en el desarrollo de la
investigacin en redes neuronales pues convenci a la administracin americana de la
bondad de la arquitectura tradicional (la arquitectura Von Neumann) y de la incompetencia
de las arquitecturas de redes neuronales, y llev a muchos investigadores a preocuparse por
la lnea tradicional en psicologa cognitiva e Inteligencia Artificial y despreocuparse de los
modelos conexionistas.
Se puede comprender la crtica de Minsky y Papert y el problema de la separabilidad
lineal si nos fijamos en uno de los ms conocidos y sencillos problemas que la red no puede
resolver: el relativo al problema XOR o disyuncin exclusiva. Dado que el Perceptrn es
capaz de asociar patrones de entrada con patrones de salida y que las tablas de verdad de
los funtores son tambin correspondencias entre pares de valores de verdad y el valor del
enunciado molecular compuesto por el funtor correspondiente, parece que podemos utilizar
los perceptrones para decidir los valores de verdad de los enunciados moleculares; por
ejemplo, la tabla de verdad de la funcin AND (la conjuncin) y de la funcin OR (la
disyuncin inclusiva) son las siguientes
x1
0
0
1
1
x2 x1 x2
0
1
0
1
x1
0
0
0
1
0
0
1
1
tabla de verdad de la
conjuncin
x2 x1 x2
0
1
0
1
0
1
1
1
La tarea que tiene que realizar el Perceptrn es, en el primer caso, aprender a asociar
la entrada (1,1) con la salida 1, y las entradas restantes con la salida 0; en el segundo caso
debe aprender a asociar la entrada (0,0) con la salida 1, y las entradas restantes con la
salida 1. La red que se ha de utilizar para realizar la computacin debe constar de dos
unidades de entrada y una unidad de salida: cada unidad de entrada recoge uno de los
elementos del patrn de entrada y la unidad de salida produce una salida, que es la que
corresponde a la solucin.
Como se ha indicado, para la funcin OR (disyuncin inclusiva) la
red debe ser capaz de devolver la salida 0 si se le presenta el patrn
(0,0) y para los restantes patrones la salida 1; para la funcin AND
(la conjuncin) la red debe devolver la salida 1 para el patrn (1,1) y
0 para los restantes patrones. Veamos el caso de la funcin OR:
x1 y x2 son las entradas a la neurona;
en las neuronas de la capa de entrada la salida es igual a
su entrada;
w1 y w2 son los pesos de las conexiones entre las
neuronas de entrada y la neurona de salida;
la entrada neta es la suma ponderada de las entradas
(w1x1 + w2x2);
la funcin de activacin de la neurona de salida es la
funcin identidad;
la salida es discreta tomando alguno de los valores del
par (1,0);
la funcin de salida o transferencia es de tipo escaln, es
decir establece un umbral que es necesario superar para
que la salida sea 1.
De este modo, tendramos:
La recta divide el espacio en dos regiones que podramos interpretar uno como
correspondiendo al valor 1, y el otro como correspondiendo al valor 0; si en cada una de
estas regiones se incluye el patrn de entrada correspondiente, entonces podemos decir que
la red es capaz de computar la funcin lgica, pues distribuye adecuadamente los valores de
verdad del patrn de entrada con el valor de salida que les debe corresponder. En las figuras
siguientes se muestra el plano xi, x2 con los cuatro puntos que corresponden a los cuatro
vectores de entrada (0,0), (0,1), (1,0), (1,1).
0
1
0
1
x1
x2
0
1
1
0
Los
tipos
de
demonios de los que
consta el modelo son
los siguientes:
Demonios de la
imagen: su tarea es
registrar la imagen del
signo externo.
Demonios
de
caractersticas:
la
tarea de las unidades
de este tipo es analizar
la imagen registrada;
cada
demonio
de
caractersticas
est
especializado
en
un
aspecto particular de la
forma (unos detectan
lneas, otros ngulos,
otros curvas, ...) por lo
que el procesa- miento
en este nivel consiste
en la descomposicin
de la forma en sus
caractersticas
relevantes;
cada
demonio
de
caractersticas detecta
la presencia de alguno
de los rasgos para los
que ha sido definido
(por
ejemplo
el
demonio
correspondiente a las
lneas verticales detecta
la presencia y nmero
de lneas verticales en
la figura).
Demonios cognitivos: reciben y examinan la informacin de los demonios de
caractersticas; cada demonio cognitivo est especializado en el reconocimiento de una
forma (por ejemplo, uno para la letra "A" otro para la "B", ...) y busca en los datos que les
ofrecen los demonios de caractersticas la presencia de los rasgos que definen la letra en la
estn especializados (por ejemplo el demonio cognitivo de la letra "A" buscar la presencia
de una lnea horizontal, dos oblicuas y tres ngulos agudos).
Lneas
horizontales
Lneas
oblicuas
ngulos
rectos
ngulos
agudos
Curvas
continuas
3
4
1
2
1
O
P
Q
Curvas
discontinuas
1
1
3
1
1
2
2
1
Y
Z
1
2
Existen ciertas tcnicas que nos permiten preparar el ojo de tal modo que la imagen
visual en la retina sea la misma aunque el ojo cambie de posicin; en estos casos se
observa (y quiz por la fatiga de los receptores retinianos) que la imagen empieza a
desaparecer, pero lo hace perdiendo partes significativas, no al azar (la imagen
detenida va perdiendo lneas rectas, curvas, segmentos significativos, ...). Estos
estudios de fragmentacin perceptual parecen avalar la teora del anlisis de
caractersticas.
conexionistas es que aprenden a reconocer patrones, no slo que reconocen patrones; pero
en el caso del Pandemonium quien debe aprender es el diseador de la red: debe descubrir
y aprender cules son las caractersticas bsicas que tiene cada letra (ngulos, lneas rectas,
lneas curvas, ...) y debe descubrir a mano las dificultades con las que puede tropezar el
sistema para realizar un procesamiento eficaz. Por ejemplo, si intentamos poner en
funcionamiento el Pandemonium podemos observar que en principio tendra dificultades
para distinguir la letra "P" de la "R": la "P" tiene una lnea vertical, dos horizontales, tres
ngulos rectos y una curva discontinua y la "R" todas ellas ms una lnea oblicua, de modo
que los demonios cognitivos de la "P" y la "R" se activan por igual y el demonio de decisin
no podr elegir entre ellos. El diseador ha de utilizar alguna estrategia para resolver este
problema, por ejemplo obligar a que un demonio cognitivo se active al mximo si y slo si
estn presentes todas las caractersticas de la letra correspondiente, de este modo tanto la
ausencia de una caracterstica como la presencia de una caracterstica irrelevante inhibir la
respuesta de la unidad. Con este ejemplo se quiere sealar que el modelo del Pandemonium
exige que el diseador conozca la lgica del procesamiento de la informacin para el
reconocimiento de patrones, algo que, como se sabe, constituye uno de los objetivos de la
psicologa cognitiva tradicional. Esto no ocurre en el caso de los modelos conexionistas: en
ellos la red utiliza algoritmos para la modificacin de los pesos de sus conexiones y gracias a
dichas modificaciones puede aprender por s misma a reconocer los patrones (una
consecuencia de ello es que en los modelos conexionistas no es posible saber cules son los
elementos relevantes que la red toma en cuenta para el procesamiento ni el orden ni la
lgica de dicho procesamiento; precisamente la originalidad del planteamiento conexionista
es
que
rechaza
la
existencia
de
reglas
de
procesamiento).
Tras casi 50.000 presentaciones y las modificaciones correspondientes de sus pesos, la red
era capaz de leer y hablar con una exactitud del 95 por ciento.
Resultan sorprendentes algunas semejanzas entre NETtalk y la capacidad lingstica
humana:
la progresiva eficacia de la red guarda cierta semejanza con la de los nios: las
primeras respuestas se parecen a los balbuceos sin sentido de un beb, pero el
sucesivo ajuste de los pesos mejora la calidad de los balbuceos lentamente, hasta
culminar en unas respuestas coherentes e inteligibles ante cualquier texto en ingls;
Las propiedades citadas son las que cabra esperar de un sistema de procesamiento
distribuido y paralelo (como se ha comentado en la seccin correspondiente), y, sin duda,
resulta ms eficaz para modelar la capacidad humana para detectar patrones que los
modelos de plantillas y de anlisis de caractersticas.
La figura siguiente es un esquema simplificado de la arquitectura del NETtalk (tomado
de Soledad Ballesteros, Psicologa General. Un enfoque cognitivo).
El conexionismo parece ser una teora que apela al cerebro para explicar
competencias atribuidas tradicionalmente a la mente. Con esto se quiere sugerir que desde
la regla de aprendizaje descubierta por Hebb quera describir el modo real en que se
relacionan las neuronas en el cerebro para formar asociaciones estables entre ellas;
en su obra de 1947 How We Know Universals: The Perception of Auditory and Visual
Formas, McCulloch y Pitts, defendieron la tesis de que las redes neuronales de los
crtices auditivo y visual eran capaces de reconocer propiedades invariantes del
mismo patrn, que las redes neuronales del colculo superior (involucrado en el
control del movimiento de los ojo) podan generar el patrn a partir de ejemplos de
dicho patrn, y presentaron una descripcin abstracta de dichas redes;
Taylor propuso las redes que llevan su nombre para explicar la memoria asociativa y
afirm que las reas de asociacin de la corteza cerebral y el tlamo contenan dichas
redes;
y en este mismo contexto hay que situar las teoras del cerebelo, del hipocampo y del
neocortex defendidas por Marr a finales de los sesenta y principios de los aos
setenta:
* el funcionamiento del cerebelo es semejante a las redes
asociativas direccionables por contenido (ACAMs), y gracias a
dicho funcionamiento los animales pueden realizar movimientos
voluntarios delicados y precisos;
* el hipocampo es el soporte fsico de la memoria a corto plazo
o memoria de trabajo, y puede clasificar patrones y recuperar
un patrn a partir de datos fragmentarios porque es tambin un
ACAM;
* las representaciones que nos formamos de las clases y
subclases de objetos se basan en el hecho de que el neocortex
tiene una estructura y mecanismo similares al del Perceptrn.
La figura siguiente representa la red propuesta por Marr para explicar el funcionamiento del cerebelo (tomado de Stephen R. Graubard, comp. El nuevo debate sobre la
inteligencia artificial).