Vous êtes sur la page 1sur 61

CONEXIONISMO - BREVE INFORME

M.C. Escher - Manos Dibujando (1948)

"La nueva perspectiva es completamente diferente,


ya que el procesamiento se hace por las redes PDP
que se configuran ellas mismas para emparejar los
datos que les llegan con el mnimo conflicto o
discrepancia. Los sistemas se estn siempre
ajustando a s mismos (modificando sus pesos). El
aprendizaje es continuo, natural y esencial para el
funcionamiento
operativo.
Las
nuevas
conceptualizaciones
se
reflejan
mediante
configuraciones
de
estados
cualitativamente
diferentes. La informacin se pasa entre las
unidades, no a travs de mensajes sino mediante
valores de activacin, mediante escalares y no
mediante
smbolos.
La
interpretacin
del
procesamiento no es en trminos de mensajes que
van a ser enviados, sino ms bien mediante qu
estados estn activados. por lo tanto, lo importante
es que las unidades estn activas y no qu
mensajes
sean
enviados.
En
el
sistema
convencional, el aprendizaje tiene lugar a travs de
los cambios en las estructuras representacionales,
en la informacin contenida en la memoria. En este
nuevo enfoque, el aprendizaje se produce mediante
nuevas conexiones y las ms antiguas se debilitan.
En el sistema convencional, distinguimos entre la
informacin que se procesa y las estructuras de
procesamiento. Sin embargo, en el sistema PDP son
la misma cosa: la informacin se refleja en la misma
configuracin, forma y operacin de las estructuras
de procesamiento."
D. E. Rumelhart, J. L. McClelland y el grupo PDP:
Introduccin al Procesamiento Distribuido en
Paralelo, p. 354. Alianza Psicologa, Madrid 1992

Javier Echegoyen Olleta

CONEXIONISMO - I. INTRODUCCIN
La psicologa cognitiva como paradigma psicolgico tiene una historia reciente: aunque
algunas propuestas de finales de los aos cuarenta y de la dcada de los cincuenta se pueden
considerar como primeros esbozos de esta forma de hacer psicologa, es a partir de los aos
sesenta cuando realmente se empieza a extender por el mundo entero, compitiendo en los
centros de estudio y de investigacin con el conductismo, al que finalmente parece haber
desbancado como paradigma dominante.
El conductismo supuso uno de los mayores esfuerzos de los psiclogos por hacer de su
disciplina una ciencia. Los principios metodolgicos que exigieron a la psicologa
(experimentacin, rechazo de la introspeccin, empleo de categoras explicativas definidas
operacionalmente, ...) supuso un adelanto y una conquista que la mayora de los psiclogos
consideran irrenunciable. Sin embargo, estos triunfos se vieron claramente empaados en
cuestiones fundamentales: el conductismo es una psicologa sin sujeto (psicologa del
organismo vaco); su pretensin terica fundamental consiste en explicar toda la conducta a
partir del aprendizaje: son los refuerzos y los estmulos presentes en la vida de los organismos
los que determinan su modo de relacionarse con el medio y de resolver sus problemas
adaptativos. Esta paradjica renuncia al sujeto para explicar lo que el sujeto hace se puede
plantear en los trminos tradicionales de cuerpo y mente: el conductismo da poca importancia al
cuerpo y a las predisposiciones genticas de la conducta; pero tambin rechaza la mente,
prescinde de forma explcita y, en muchos casos combativa, de la mente como elemento
explicativo. La psicologa conductista estudia la conducta para explicar la conducta.
Esta idea del ambientalismo y del organismo vaco entra en crisis en los aos sesenta. Por
un lado los etlogos y las investigaciones en neurociencias, y por otro los desarrollos de la propia
la psicologa, van a cuestionar estos principios explicativos bsicos.
Por parte de la psicologa cognitiva, la crtica se referir bsicamente al olvido de la
mente. Sabemos por qu result atractiva la psicologa cognitiva: de nuevo se introducen en la
psicologa temas como el de la atencin, la percepcin, la memoria, el pensamiento, el lenguaje,
temas que parecen irrenunciables para toda psicologa que quiera ser completa y que el
conductismo a duras penas pudo incluir en sus investigaciones. Y como compendio de todas estas
capacidades y actividades, la mente. De nuevo la mente entra el la psicologa, y, adems,
explicada con mtodos que heredan del conductismo la pretensin de objetividad: la psicologa
cognitiva rechaza tambin la introspeccin como acceso privilegiado a lo psquico favoreciendo los
informes objetivos obtenidos en laboratorio. Simplificando, el mentalismo tradicional quiere
estudiar la mente mirando a la mente, la psicologa cognitiva quiere estudiar la mente
mirando la conducta. Considera irrenunciable la referencia a la mente como causa de la
conducta, pero tambin considera irrenunciable la observacin objetiva de la conducta para el
descubrimiento de las estructuras y procesos mentales supuestamente elicitadores de la
conducta.
Pero la diferencia con otros mentalismos no est slo del lado del mtodo (el conductismo
metodolgico del cognitivismo frente a la introspeccin del mentalismo tradicional), sino, ms
importante an, de los conceptos y categoras fundamentales con los que intenta comprender la
mente: la diferencia esencial est en la idea de mente.

La categora explicativa bsica que utiliza el paradigma cognitivo es la de informacin: la


mente es una entidad capaz de recibir, almacenar y procesar de diversos modos la
informacin, y de generar una conducta en virtud de dichas actividades. Esta tesis
primordial tiene importantsimas consecuencias en la idea de mente y de psicologa propuesta por
este paradigma. Por ejemplo, parece claro que las actividades mentales que no son cogniciones,
las actividades mentales que no consisten en informar o describir el mundo, slo con enormes
dificultades pueden entrar en el programa de investigacin cognitivo: aqu hay que incluir
fundamentalmente el mundo de las emociones y el de la motivacin: estar triste no es tener un
estado informativo determinado, desear no es tener una representacin del mundo, aunque,
evidentemente, la informacin manejada por el sujeto tiene clara influencia tanto en la emocin y
el sentimiento como en el deseo y la voluntad. En trminos clsicos, la psicologa cognitiva
estudia la dimensin intelectual de la psque, pero no la emotiva y la volitiva.
En la forma de entender la informacin y el modo de procesar la informacin fueron
importantes tanto ciertas ideas filosficas como los avances tecnolgicos en informtica. Por
parte de la filosofa, la influencia ms clara tiene que ver con tesis racionalistas. En primer lugar
por la importancia que se le da a las representaciones: el trato con la cosas est determinado
por el conocimiento que el sujeto tiene del mundo, conocimiento que ha de estar presente de
algn modo en l para que su conducta resulte eficaz. A esta forma vicaria de estar el mundo se
le suele llamar representacin, y la investigacin de su estatuto y peculiaridades es precisamente
uno de los temas principales en el paradigma cognitivo. Estas entidades tienen contenido
semntico, significan algo (por ejemplo, conceptos, figuras, formas, ngulos, notas o
propiedades, ...) y gracias a dicho significado se refieren al mundo De este modo, las
representaciones son las unidades informativas que maneja el sujeto y cuyo procesamiento
determina la conducta. Pero las representaciones se combinan unas con otras siguiendo reglas y
el rendimiento de cada una de las facultades mentales (percepcin, memoria, lenguaje, atencin,
...) se define a partir de las distintas reglas de transformacin y combinacin de
representaciones. De este modo, reglas y representaciones son dos de los elementos
conceptuales bsicos del cognitivismo y dan lugar al programa de investigacin caracterstico de
este paradigma.
La tecnologa existente estableci el modo concreto de concebir las formas de instanciar la
representacin y de procesar la informacin. Aunque en los primeros aos de la informtica hubo
algunos intentos de construir sistemas artificiales de procesamiento que reprodujesen algunos
aspectos muy abstractos del cerebro (el Perceptrn, por ejemplo), el modelo que sin embargo
tuvo xito fue el del ordenador Von Neumann (los ordenadores actuales son ejemplos de este
modelo). Sus caractersticas principales son las siguientes:
1.

2.

3.
4.

5.

la informacin est localizada en partes fsicas concretas: si guardo en el disco duro de mi


ordenador lo que ahora estoy escribiendo, la informacin se almacenar fsicamente en un
lugar preciso, al que el ordenador sabr acceder mediante un sistema preciso de
direcciones;
la informacin se procesa en serie, si hago que corra un programa en mi ordenador,
las instrucciones de que ste consta se realizarn siguiendo un orden, y una en cada
unidad de tiempo, nunca dos en el mismo momento (decimos que no hay dos
procesadores, sino uno);
adems, la informacin con la que trabaja el ordenador es significativa al menos en el
nivel del programador: una palabra, una letra, una lnea, un ngulo, una figura, ...
el ordenador consta de partes fsicamente diferenciadas para tareas realmente diferentes:
grandes estructuras como la memoria, los perifricos, la unidad lgico-matemtica, la
unidad de procesamiento central, ...
la informacin est controlada desde una parte del ordenador privilegiada: la unidad

central de procesamiento, unidad que se encarga de establecer las jerarquas en la


actuacin y el control del sistema;
6. las reglas de procesamiento describen transformaciones que atienden a restricciones
lgicas, semnticas y sintcticas.
La psicologa cognitiva clsica tom estas ideas y las traslad a la psicologa: se entendi
que la mente era como un programa informtico y el cerebro como el hardware del ordenador. Se
intent describir el flujo de la informacin con la idea de que la mente procesa la informacin,
que consta de macroestructuras que la transforman a su manera, se busc el autntico modo de
darse las representaciones, ... hasta que en la segunda mitad de los aos ochenta se produce una
modificacin sustancial en el paradigma cognitivo con el desarrollo del conexionismo. En 1986 D.
E. Rumelhart y J. L. McClelland editan Parallel Distributed Processing, obra considerada como la
Biblia del conexionismo y que supuso el cambio de rumbo en la psicologa cognitiva. Es comn
sealar la radicalidad de dicho cambio, hasta el punto de que algunos autores sealan que con el
conexionismo se da realmente un cambio de paradigma. Aunque slo tras la lectura de la
totalidad de este informe sobre el conexionismo se puede apreciar de un modo ms cabal el
contraste entre estas dos formas de hacer psicologa cognitiva, se pueden adelantar algunas
importantes semejanzas y diferencias entre ambos enfoques:

Parece claro que un primer punto comn es la referencia a la computacin: ambas


teoras entienden la mente como un sistema que procesa informacin y responde al medio
a partir de dicho procesamiento. Pero ni siquiera en este punto, que sin duda es el que da
continuidad a las dos corrientes, se da el acuerdo:
o

La psicologa cognitiva clsica entiende el procesamiento como la aplicacin


de un conjunto de reglas a entidades situadas en el nivel de la psicologa
popular (creencias y deseos, bsicamente); el conexionismo entiende el
procesamiento como el clculo de las seales de salida a partir de los
cmputos que realizan las unidades de la red en funcin de los pesos de las
conexiones y de determinadas funciones matemticas que determina la
activacin de dichas unidades y las salidas correspondientes a cada una de
ellas. Para el conexionismo la computacin no se realiza sobre entidades
reconocibles desde el nivel de la psicologa popular.

Las dos teoras proponen el uso de la simulacin por ordenador para la


comprobacin de las hiptesis relativas a los procesos mentales, pero la
psicologa cognitiva clsica propone la simulacin en el ordenador
convencional y el conexionismo la simulacin mediante arquitecturas
semejantes a la del cerebro.

La psicologa cognitiva clsica propone la lgica y las reglas que imponen


restricciones semnticas y sintcticas para realizar los cmputos (como
ocurre en los programas de ordenador de la Inteligencia Artificial
tradicional); el
conexionismo, sin embargo utiliza herramientas
matemticas, particularmente estadsticas, para la realizacin de los
cmputos que se supone realiza nuestra mente.

El objetivo de la psicologa la psicologa cognitiva clsica es el descubrimiento de las


reglas que rigen los procesos mentales y de los elementos o estructuras bsicas del
procesamiento humano; el del conexionismo es el descubrimiento de redes adecuadas
para la simulacin de tareas caractersticamente mentales y de reglas de aprendizaje
eficientes.

Otro contraste que se suele destacar es el que se refiere al aprendizaje: los modelos

clsicos rechazan el asociacionismo y tienen a defender posiciones innatistas, el


conexionismo parece una vuelta al asociacionismo (las redes neuronales no son otra cosa
que asociaciones entre unidades) y, puesto que las redes comienzan el aprendizaje con
pesos establecidos aleatoriamente, tiende a defender la idea de la mente como una
tabula rasa o papel en blanco, siendo la experiencia, el ambiente en el que se
desenvuelve la red, y no factores innatos, la que provoca la aparicin de los pesos
adecuados para el procesamiento y el almacenamiento de la informacin. Algunos autores
consideran que estas diferencias separan al conexionismo de la psicologa cognitiva y lo
aproximan al conductismo pues, aunque no exactamente en el mismo sentido, ste
tambin defiende el asociacionismo y el ambientalismo.

CONEXIONISMO-II. CARACTERSTICAS GENERALES DEL


ENFOQUE CONEXIONISTA
En psicologa, esta nueva forma de estudiar y explicar la mente y la conducta recibe el
nombre de conexionismo (aunque otros prefieren el trmino neoconexionismo, para
distinguirlo del antiguo conexionismo propuesto por Alexander Bain en la segunda mitad del siglo
XIX, autor que tambin subray la importancia de las conexiones entre neuronas, y la
investigacin y experimentacin fisiolgica). Dado que para este paradigma el procesamiento y
el almacenamiento de la informacin recae en amplios conjuntos de elementos simples (las
unidades de las redes conexionistas), el modelo de procesamiento conexionista se llama tambin
Procesamiento Distribuido en Paralelo (o PDP).
En Inteligencia Artificial, los mtodos de computacin basados en redes neurales se
incluyen en un campo de computacin que prescinde del enfoque algortmico tradicional y tomo
como modelo los sistemas biolgicos; esta nueva forma de computacin incluye, entre otras, la
lgica borrosa, las redes neuronales y el razonamiento aproximado, y recibe los nombres de
computacin cognitiva, computacin del mundo real o computacin Soft, para
distinguirlo del enfoque algortmico tradicional o Computacin Hard.
En psicologa llamamos conexionismo al paradigma que utiliza redes neuronales para
comprender y explicar la vida psquica y la conducta. Las redes neuronales son conjuntos de
unidades interconectadas masivamente capaces de procesar y almacenar informacin mediante
la modificacin de sus estados. Aunque la siguiente afirmacin exigira importantes precisiones,
en general se puede decir que el psiclogo conexionista considera que ha explicado un fenmeno
psicolgico (el reconocimiento de formas, la produccin de lenguaje, la memoria, ...) cuando el
modelo neuronal que construye se comporta del mismo modo que los seres humanos cuando
realizan la misma tarea. No hay que olvidar que el conexionismo participa de una idea comn
con la psicologa cognitiva clsica: para la psicologa cognitiva (tanto la clsica como el
conexionismo) la mente es un sistema capaz de procesar informacin, un sistema capaz de
recibir seales de entrada, almacenar informacin y provocar informacin de salida a partir la
informacin de entrada, la informacin almacenada y los mecanismos de cmputo. Dada esta
suposicin de que los fenmenos mentales y la conducta son consecuencia de elementos
internos al sujeto, el conexionismo considera adecuada la explicacin cuando la red que
construye es capaz de realizar, a partir del vector de entrada, los distintos cmputos que
provocan el vector de salida deseado.
Los elementos caractersticos presentes en la mayora de los modelos conexionistas son los
siguientes:
1. La red es un conjunto de unidades de procesamiento (neuronas) muy simples.

2. Dichas unidades interactan entre s mediante las conexiones que los asocian.
3. Los estmulos que afectan a las unidades de entrada se expresan en trminos
cuantitativos.

4. Toda unidad de la red viene definida por un nivel de activacin expresado de forma
cuantitativa.

5. Toda conexin viene caracterizada por un valor de fuerza del trazo o peso de la
conexin, tambin expresado de forma cuantitativa.

6. El procesamiento y almacenamiento de la informacin se realiza de forma


paralela y distribuida.

7. Existen reglas o funciones que computan la informacin en distintos niveles del


procesamiento (para la modificacin del nivel de activacin a partir de las entradas,
para la produccin de la salida a partir del nivel de activacin, ...).

8. Existen reglas o funciones de aprendizaje que le permiten a la red modificar los


pesos de las conexiones para acomodar de modo cada vez ms perfecto la
informacin de entrada a la salida requerida.

9.

La funcin de cada unidad es simplemente realizar clculos con las entradas que
reciben y producir la informacin que envan a las unidades con las que estn
conectadas.

10. Las seales de salida que emite la red se expresan en trminos cuantitativos.
11. Dado que toda la actividad de la red no es otra cosa que clculos o transformaciones
de nmeros, se puede afirmar que en realidad la red neural es un dispositivo para
computar una funcin, un sistema capaz de transformar la informacin de entrada
en informacin de salida. La funcin presente en la red y que realiza el computo es
bsicamente el patrn o conjunto de pesos sinpticos de las unidades.

CONEXIONISMO - III. IMPLEMENTACIN


DE LAS REDES NEURONALES
Las redes neuronales suelen implantarse en los ordenadores tradicionales, ordenadores
seriales con arquitectura Von Neumann. Pero, naturalmente, las mquinas ms adecuadas para
este tipo de sistemas de computacin son aquellas que reproducen en su arquitectura la propia
arquitectura de la red. Las mquinas ms conocidas son los neurocomputadores y los neurochips.
Neurocomputadores: constan de un conjunto de procesadores conectados entre s y que operan
concurrentemente. Por ejemplo, el MARK IV est formado por un conjunto de procesadores
Motorola 68020 asociados cada uno de ellos a un coprocesador matemtico, es capaz de
simular hasta 256.000 neuronas y 5.500.000 sinapsis, y puede alcanzar una velocidad de
5.000.000 de interconexiones por segundo. El ANZA Plus puede simular redes de hasta
1.000.000 de neuronas y 15.000.000 de conexiones, a velocidades de 1.500.000 conexiones
por segundo.
Neurochips: en este caso las redes neuronales se implementan en o uno o varios circuitos
integrados especficos. Soportan menos neuronas que los neurocomputadores, pero la
velocidad es muy superior que en los neurocomputadores pues las interconexiones entre
neuronas se encuentran dentro del propio chip. No son productos comerciales y los
encontramos fundamentalmente en las universidades y los centros de investigacin. Un
ejemplo de estas mquinas es el chip N64 de Intel, que incluye 64 neuronas, 10.000 sinapsis y
cuya velocidad de procesamiento es de 2.500 conexiones por segundo.

Neurocomputadores de propsito especial: las mquinas anteriores son de propsito


general, pero existen tambin algunas mquinas que han sido diseadas para implementar un
modelo especfico de red neuronal.

CONEXIONISMO - IV. CAMPOS DE APLICACIN


DE LAS REDESNEURONALES
La mayora de los modelos existentes tienen que ver con el reconocimiento de patrones:
buscar un patrn a partir de una serie de ejemplos, clasificar patrones, identificar un estmulo,
reconstruir un patrn a partir de datos distorsionados o incompletos, ... Muchas redes neuronales
trabajan a partir de datos sensoriales y otras a partir de datos introducidos por el usuario.
Los campos de aplicacin son fundamentalmente la psicologa (en los campos de
percepcin, memoria, pensamiento, aprendizaje y lenguaje) y la Inteligencia Artificial, aunque
tambin encontramos ejemplos en biologa (modelos de retina y del neocortex, por ejemplo).
Las aplicaciones obtenidas en Inteligencia Artificial se utilizan en muchos dominios: por
ejemplo, en medicina (diagnstico y tratamiento a partir de datos obtenidos mediante
electrocardiograma, encefalograma, anlisis sanguneo, ...), el ejrcito (clasificacin de las
seales de radar; creacin de armas inteligentes, reconocimiento y seguimiento en el tiro al
blanco, ...), la empresa y la industria (reconocimiento de caracteres escritos, optimizacin de
plazas y horarios en lneas de vuelo, construccin de robots y sistemas de control, ...).

CONEXIONISMO - V. DIFERENCIAS ENTRE EL CONEXIONISMO


Y LOS MODELOS COGNITIVOS TRADICIONALES
V.1. Inspiracin neuro-fisiolgica: aproximacin a las ciencias neurolgicas
V.2. El procesamiento es paralelo, no serial
V.3. Procesamiento y representacin de la informacin distribuido, no
localista
V.4. Computacin sin reglas
V.5. Degradacin elegante. Tolerancia a fallos
Como consecuencia de las caracterstica citadas en la seccin 2, el conexionismo presenta
importantes diferencias respecto de los modelos que encontramos en la psicologa cognitiva
clsica. Veamos alguna de ellas.
V.1. INSPIRACIN NEURO-FISIOLGICA: APROXIMACIN A LAS CIENCIAS
NEUROLGICAS
La psicologa cognitiva clsica no daba importancia a la base orgnica de la vida mental.
Cabe recordar que incluso sus propios postulados bsicos le llevaron a considerar que la lgica
existente en los procesos mentales se puede comprender y explicar con independencia de su
realizacin en un sistema fsico (esto es lo que afirma la tesis del funcionalismo, la teora
filosfica de la mente compartida por los psiclogos cognitivos). El conexionismo, sin embargo,
toma al cerebro como modelo de procesamiento y su inspiracin neurofisiolgica aproxima la
psicologa a la biologa. Si en la psicologa cognitiva clsica la metfora dominante era la
metfora del ordenador, ahora, en el conexionismo, la metfora es el cerebro: la primera
psicologa clsica consideraba que podamos entender el comportamiento de la mente
comprendiendo el comportamiento del ordenador tipo Von Neumann, sin embargo el
conexionismo afirma que podemos entender el comportamiento de la mente si comprendemos el
comportamiento del cerebro humano. Con el conexionismo la Inteligencia Artificial, la
Psicologa y la Biologa se convierten en disciplinas ms prximas que lo que permita el enfoque
de la psicologa cognitiva clsica. Claro est que esta aproximacin es interesante desde el punto
de vista de la unidad de las ciencias y la posicin materialista dominante, pero tambin puede ser
una dificultad para los que quieren defender la posibilidad de la psicologa como ciencia
independiente; de hecho las posiciones filosficas de los conexionistas en el tema del estatuto de
la mente tienden a ser reduccionistas o a defender el materialismo eliminativo (en lo esencial,
tesis segn las cuales los estados mentales no tienen autntica realidad, son epifenmenos y, por lo
mismo, no pueden ser causas de las conductas).
Aunque tambin existen redes neuronales que intentan ser modelos de los procesos reales
de partes del cerebro, las que interesan a la psicologa no intentan imitar el comportamiento del
sistema nervioso sino de la mente. El conexionismo quiere ser una teora psicolgica no una
teora fisiolgica. Sin embargo, s se puede hablar de inspiracin biolgica en los modelos
mentales propuestos. Las redes neuronales intentan reproducir las caractersticas principales del
comportamiento del cerebro, particularmente de su estructura fisiolgica bsica, la neurona, y de

su agrupacin en estructuras complejas o redes de neuronas. A continuacin vamos a fijarnos en


los aspectos ms elementales de las redes neuronales biolgicas, aspectos que las redes
conexionistas intentan emular.
Las unidades bsicas del sistema nervioso son las neuronas. Estas unidades se conectan
unas con otras formando redes extraordinariamente complejas. La principal funcin de las
neuronas es recoger seales de diversas fuentes, transformarlas y producir seales de salida que
transmiten a otras neuronas u otras partes del organismo. De este modo, en el cerebro el
procesamiento de la informacin es paralelo y distribuido, paralelo en tanto que las seales
recibidas las procesan simultneamente millones de conexiones diferentes y distribuido porque la
responsabilidad del almacenamiento de la informacin no recae sobre una unidad (una neurona)
sino sobre amplios conjuntos de unidades.
Los rganos sensoriales reciben seales del exterior y mediante elementos transductores
convierten las distintas energas que reciben en seales nerviosas. La informacin fluye desde los
nervios sensoriales y, recorriendo estaciones intermedias como la mdula espinal, el tronco
cerebral, cerebelo, etc., llega hasta la corteza cerebral. A su vez, del cerebro parte la informacin
por los nervios motores hasta los msculos u otros rganos y constituye la respuesta del
organismo al medio.
En las neuronas cabe destacar las siguientes partes fundamentales:
el cuerpo celular o soma, cuya funcin principal es procesar las seales que recibe la unidad
y enviar la informacin de salida hacia otras unidades;

el axn: es la fibra ms gruesa y larga de todas las que se originan en el cuerpo celular;
mediante los axones las neuronas se conectan unas con otras; su funcin es transmitir la
informacin generada en el cuerpo celular a las otras clulas;

las dendritas: son pequeas extensiones del soma y su funcin es recibir la informacin.
De este modo, las dendritas son los canales receptores de la informacin, el soma la
unidad de procesamiento y el axn el canal transmisor de la informacin.
La informacin se traslada a travs del axn y las dendritas en la forma de seales
elctricas. Sin embargo, el paso de la informacin de una unidad a otra no tiene la forma de
cambios elctricos sino qumicos. La conexin entre el axn de una neurona y las dendritas de
otra recibe el nombre de sinapsis. Las neuronas no estn en contacto fsico completo pues existe
un pequeo espacio en la sinapsis (el espacio intersinptico). Cuando el impulso elctrico llega al
final del axn, se produce la liberacin de unas sustancias qumicas denominadas
neurotransmisores. Los neurotransmisores se difunden en el espacio intersinptico y se unen a
los extremos de las dendritas en ciertos lugares denominados receptores. En estos receptores se
producen cambios qumicos que provocan modificaciones elctricas en la neurona y el flujo
elctrico o impulso nervioso.
Por su importancia en las redes neuronales conexionistas, es importante recordar tambin

dos hechos ms que se dan en las redes neuronales biolgicas:


los efectos de los neurotransmisores sobre las dendritas pueden ser excitadores o inhibidores
de forma que para calcular la influencia final del conjunto de entradas sobre una neurona es
preciso sumar y restar sus estmulos.
para que la neurona responda enviando una seal elctrica a lo largo del axn (el impulso
nervioso) es necesario que los estmulos que recibe de otras unidades alcancen un cierto nivel
elctrico (el umbral del impulso elctrico o intensidad mnima del estimulo que es suficiente
para provocar el impulso nervioso); de este modo, la respuesta de la clula ante los estmulos
tiene la forma de todo o nada.
Cuando se habla de la inspiracin biolgica de los modelos conexionistas se quiere
sealar que estos modelos intentan reproducir gran parte de los aspectos existentes en las redes
neurolgica biolgicas y descritos ms arriba. Sin embargo hay otros aspectos del sistema
nervioso que no se intentan reproducir. Citemos algunos:
Por ejemplo, el relativo al nmero de unidades de procesamiento: en todo el sistema nervioso
central hay del orden de 1011 neuronas y de 1015 interconexiones, mientras que las redes
conexionistas generalmente constan como mucho de varias centenas de unidades y de varios
miles de conexiones.
En las redes conexionistas los pesos entre las conexiones se establecen inicialmente de forma
aleatoria y se van corrigiendo mediante el aprendizaje; esto supone, traducido a los trminos
tradicionales, primar el ambientalismo y el aprendizaje frente a los componentes innatos. En el
cerebro la importancia del aprendizaje para el desarrollo de las sinapsis no se puede obviar,
pero tampoco se puede negar la importancia de factores innatos, factores que determinan los
recursos fisiolgicos necesarios para el procesamiento e incluso las rutas en el establecimiento
de las conexiones.
En el caso de las redes biolgicas, el aprendizaje da lugar a modificaciones en las fuerzas de
conexin, pero tambin a modificaciones de las estructuras mismas de interconexin (por
ejemplo, de las unidades conectadas y de los tipos de conexiones); en las redes conexionistas
el aprendizaje acta sobre los pesos de las conexiones pero no sobre las estructuras mismas.

V.2. EL PROCESAMIENTO ES PARALELO, NO SERIAL


A pesar de que los desarrollos tcnicos permitieron incrementar la velocidad de los ordenadores,
los resultados de stos en tareas aparentemente sencillas como el reconocimiento de formas
necesitaban un tiempo de ordenador muy alto y sus resultados no eran muy buenos. El contraste
con la eficacia del cerebro se hizo cada vez ms manifiesto pues aunque la velocidad de
procesamiento de cada neurona es muy inferior a la del ordenador (la velocidad de procesamiento
en los ordenadores se mide en nanosegundos y la de las neuronas en milisegundos o incluso
centsimas de segundo) el cerebro humano es capaz de realizar ciertas tareas en un tiempo
inferior que el ordenador. Los programas construidos por la Inteligencia Artificial tradicional
resultan muy buenos para tareas que exigen la repeticin del mismo proceso sobre los datos de

entrada (millones de cmputos recursivos), lo que les permite a las mquinas aventajarnos en
tareas como la de clculos matemticos; sin embargo el cerebro parece ms eficaz que los
ordenadores tradicionales en tareas tpicas de los seres vivos: reconocer un enemigo en una
ambiente que no presenta su figura con precisin, recordar instantneamente formas de huida o
aproximacin, comprender una frase, reconocer un rostro, seguir en tiempo real el movimiento de
un objeto en el espacio, ...; hay tareas para las cuales un nio de tres aos resulta ms eficiente
que los ordenadores ms potentes y los programas ms sofisticados.
La explicacin de la eficacia del cerebro para este tipo de tareas se encuentra en el hecho de
que para el procesamiento de la informacin el cerebro utiliza simultneamente millones de
neuronas y el ordenador convencional utiliza uno (o unos pocos) procesadores. En un
procesamiento serial en cada momento slo se realiza una operacin, en un procesamiento en
paralelo en cada momento se realizan tantas operaciones como unidades participan en el
procesamiento completo. sta es precisamente una de las caractersticas principales del cerebro:
en el cerebro cada unidad, o pequeas poblaciones de unidades, participan en el procesamiento
conjunto de la informacin, y aunque cada una de ellas, tomadas por separado, tarden en realizar
sus procesamientos correspondientes, en conjunto la actividad es ms eficaz. Las redes
neuronales nos permiten reproducir ms adecuadamente aqul tipo de tareas porque reproducen
el procesamiento en paralelo caracterstico del cerebro, lo que otorga a las redes una
considerable ventaja en velocidad sobre un ordenador convencional pues la multitud de sinapsis
de cada nivel ejecutan simultneamente muchos pequeos cmputos, en lugar de hacerlo en
laboriosa sucesin como en los ordenadores tradicionales.

V. 3. PROCESAMIENTO Y REPRESENTACIN DE LA INFORMACIN DISTRIBUIDO,


NO LOCALISTA
El carcter distribuido de la informacin tpico de las redes conexionistas se extiende a dos
aspectos muy importantes relativos a la informacin: el procesamiento mismo y el
almacenamiento de las representaciones.
El modelo conexionista no es localista en primer lugar porque, a diferencia de lo que ocurre
en los ordenadores tradicionales, en las redes neuronales no existe la unidad central de
control, unidad que controle y coordine el conjunto de unidades del sistema; en este modelo el
procesamiento es responsabilidad de cada una de las unidades o neuronas, cada una de ellas se
encarga de cmputos parciales cuya activacin conjunta produce la seal de salida final. Desde
un punto de vista fisiolgico estos modelos suponen que en el cerebro no existe una parte
encargada de un tipo especfico de procesamiento, sino que la actividad cerebral tiene carcter
global.
La informacin se puede almacenar de dos formas: los sistemas localistas retienen la
informacin en unidades discretas: en cada unidad (por ejemplo, en cada porcin fsica del disco
duro del ordenador) se almacena una unidad informativa; en los sistemas distribuidos cada
unidad informativa se retiene en poblaciones de individuos y cada una de ellas colabora de
forma parcial en el almacenamiento de la informacin. La ventaja de esta forma de

almacenamiento es que la destruccin de unidades en los sistemas localistas tiene un efecto ms


devastador que la destruccin de unidades en los sistemas distribuidos. En los modelos
distribuidos de memoria cada unidad informativa se representa a partir de amplias poblaciones de
unidades, pero, a la vez, cada unidad de memoria colabora en el almacenamiento de varias
unidades informativas. No se puede dar interpretacin cognitiva a cada una de las unidades o
neuronas; la interpretacin cognitiva (el decir, por ejemplo, que recuerda y relaciona conceptos)
es algo vlido slo para la red en su conjunto, y en todo caso para los patrones de los pesos de
las unidades.
Podemos apreciar qu se quiere indicar con la idea del carcter distribuido del
almacenamiento y procesamiento de la informacin con dos ejemplos muy sencillos:

los relojes digitales suelen expresar la informacin horaria mediante segmentos; en este
ejemplo, con los siete segmentos siguientes podemos representar diez nmeros, dependiendo
de los que estn activados y de los que estn desactivados (es obvio en realidad que se puede
representar ms informacin, por ejemplo, adems de nmeros, letras); se puede observar que
el dao en una de las unidades afectara a la capacidad del sistema para representar la hora,
pero no de un modo completo, a la vez que est claro tambin que cuanto ms distribuida sea
la forma de almacenar la informacin (cuantos ms segmentos emplesemos) menos se
resentira el sistema:

las matrices nos pueden servir de ejemplo para mostrar cmo un conjunto de
elementos puede procesar distintos conjuntos de datos (distintos vectores de entrada) para
producir cada uno de ellos la salida correspondiente (distintos vectores de salida)
por ejemplo, la matriz

nos permite emparejar los vectores de entrada (1,1) y (1,-1) con los vectores de salida (-1,1) y
(-1,-1):
la entrada +1 +1 produce: 1x -1 + 1x 0 1x 0 + 1x 1 = -1 1
la entrada +1 -1 produce: 1x -1 + -1x 0 1x 0 + -1x 1 = -1 -1

Por cierto que sta es precisamente una de las curiosas eficacias de las redes conexionistas:
un mismo patrn de pesos (que se puede representar mediante matrices) permite emparejar
distintos vectores de entrada a sus vectores de salida correspondientes.
V. 4. COMPUTACIN SIN REGLAS
En las redes conexionistas la computacin no se rige por reglas. En los modelos
cognitivos tradicionales el procesamiento consiste en la manipulacin de smbolos mediante el
empleo de reglas. Los smbolos tienen una interpretacin semntica (son conceptos, propiedades,
clases, frases, lneas, ngulos, recuerdos, ...) y las reglas describen el modo de transformar dichos
smbolos en conjuntos significativos ms amplios. Para el conexionismo, sin embargo, la
computacin no es otra cosa que el clculo de las salidas a partir de informacin de entrada, y los
tres elementos, (entradas, salidas y clculos) expresados en trminos cuantitativos. El
comportamiento general de la red puede parecer comportamiento guiado por reglas, pero en
realidad en sus componentes no hay otra cosa que elementos de cmputo puramente
cuantitativos. El sistema se sita en un estado o en otro a partir de la modificacin de los pesos y
la activacin o inhibicin de cada unidad. Dado que las redes conexionistas son bsicamente
modelos de aprendizaje, la no utilizacin de reglas se traslada tambin al campo del aprendizaje.
En la psicologa cognitiva clsica aprender una destreza psicolgica (la competencia lingstica,
la capacidad para narrar un cuento, la capacidad matemtica, ...) se describa como la adquisicin
o desarrollo de reglas capaces de organizar las salidas correspondientes (frases significativas,
narracin de cuentos, clculos matemticos, ...) a partir de los datos almacenados en la memoria;
en el conexionismo el aprendizaje no es otra cosa que la modificacin de los pesos de las
conexiones para la transformacin de los vectores de entrada en los vectores de salida
pertinentes. Mediante funciones de aprendizaje adecuadas, las redes pueden modificar los pesos
de modo que tras sucesivas presentaciones de los vectores de entrada representativos de una clase
de datos (fonemas, caracteres escritos, figuras bidimensionales, ondas elctricas, ...) la red va
afinando sus respuestas hasta que se logran aciertos estadsticamente aceptables en el
emparejamiento de los vectores de entrada con los vectores de salida pertinentes.
Podemos apreciar la diferencia de enfoques si nos fijamos en una de las tareas para la que
las redes neuronales parecen ms pertinentes, el reconocimiento de patrones; el reconocimiento
de patrones no es otra cosa que la capacidad para identificar ejemplos de un mismo modelo, para
clasificar distintos estmulos como siendo del mismo tipo. Los sistemas de reconocimiento
tradicionales, los que aparecen en la psicologa cognitiva clsica y en la Inteligencia Artificial
tradicional, exigan elaborar reglas explcitas que recogiesen los aspectos esenciales que el
sistema deba captar. Con las redes neuronales podemos conseguir que el sistema reconozca
patrones sin presentarle dichas reglas explcitas de reconocimiento, basta con presentarle los
ejemplos adecuados y entrenar a la red. Esta peculiaridad lleva tambin a caracterizar a las redes
neuronales como sistemas dinmicos autoadaptativos:
autoadaptativos porque ellas mismas, sin que exista una unidad central rectora, son capaces
de ajustar sus unidades de procesamiento o neuronas de modo conveniente para producir el
vector de salida requerido;
dinmicos porque pueden cambiar constantemente para adaptarse a las nuevas condiciones

que imponen los nuevos conjuntos de datos o vectores de entrada que se le presentan.
El aprendizaje no es otra cosa que la modificacin de los pesos o fuerzas de conexin
existentes entre las distintas unidades, no la adquisicin de reglas o algoritmos explcitos. Se
supone que la red ha aprendido cuando consigue un patrn de pesos que provoca, para las
entradas del mismo tipo, las salidas deseadas. Los problemas ms importantes de la persona que
disea la red se refieren a la obtencin de la arquitectura apropiada (las capas y unidades
necesarias, las conexiones entre ellas, las funciones de activacin y transferencia que ha de
utilizar) y de un buen algoritmo de aprendizaje que le permita a la red discriminar los diferentes
tipos de estmulos.
Una consecuencia de la ausencia de reglas explcitas y que merecera la pena estudiar con
detalle es que con este sistema de procesamiento conseguiremos que el sistema o red reconozca
las semejanzas entre entidades, pero no seremos capaces de describir en qu consisten dichas
semejanzas.

V.5. DEGRADACIN ELEGANTE. TOLERANCIA A FALLOS


En estas redes, cuando algunas unidades dejan de funcionar adecuadamente su efecto no es
catastrfico, afecta slo a la eficacia y precisin de la red en una medida mayor o menor
dependiendo de la cantidad de unidades deterioradas. Esto no ocurre con los modelos
tradicionales en donde la prdida de alguna de las unidades de memoria provocaba efectos
importantes en el sistema. Otra dimensin de la degradacin elegante es que la recuperacin de la
memoria en redes distribuidas es capaz de darse an en los casos en que la informacin que se
introduce para la bsqueda sea confusa, incompleta e incluso errnea (lo que se suele llamar
tolerancia a fallos respecto de los datos). Esta es una caracterstica de las redes y tambin del
funcionamiento real de nuestra memoria: por ejemplo, cuando intentamos recordar el nombre de
una persona utilizando descripciones de sus caractersticas, somos capaces de dar con el nombre
aunque no recordemos todas sus propiedades y tambin aunque algunas de estas descripciones no
correspondan en realidad a dicho sujeto. La razn por la que las redes son tolerantes a fallos es la
existencia de un cierto grado de redundancia en el procesamiento y almacenamiento de la
informacin, es decir su carcter distribuido y paralelo. En los ordenadores tradicionales y en
los modelos cognitivos basados en la arquitectura de dichos ordenadores cada unidad de
informacin tiene una localizacin y direccin precisa, por lo que los fallos de los distintos
elementos que intervienen en el procesamiento tienen consecuencias ms graves que en los
modelos conexionistas.

CONEXIONISMO - VI. BREVE HISTORIA


DEL CONEXIONISMO
VI.1. Hasta la primera mitad de nuestro siglo
VI.2. Aos cincuenta y sesenta
VI.2.1. La memoria asociativa
VI.2.2. El reconocimiento de patrones
VI.2.3. Limitaciones de perceptrones y adalines elementales
VI.3. Aos setenta y ochenta

V.1. HASTA LA PRIMERA MITAD DEL SIGLO XX


Las primeras aportaciones destacables provienen de la neurofisiologa: Luria, Lashley
y Hebb se enfrentaron a las doctrinas dominantes a finales del siglo XIX, doctrinas que
defendan el carcter localista del almacenamiento y de las funciones del cerebro; frente a
estas doctrinas defendieron una concepcin distribuida de los sistemas de procesamiento y
memoria del cerebro. Sus investigaciones demostraron que la especializacin poda darse en
relacin a grandes regiones del cerebro, pero en absoluto en las neuronas singulares.
Lashley llev tan lejos la hiptesis distribuida que postul el carcter equipotente del cerebro
(cualquier regin del cerebro puede realizar cualquier tarea determinada).
De los tres autores citados es sin duda Donald Hebb el ms importante en relacin con
el desarrollo del conexionismo, particularmente a partir de su libro publicado en 1949 La
organizacin de la conducta. Hebb defendi la conexin entre psicologa y fisiologa, propuso
la tesis del carcter distribuido de la informacin en unidades informativas y formul uno de
los primeros procedimientos de aprendizaje (procedimiento que algunos autores creen que
ya haba sugerido Santiago Ramn y Cajal): si un conjunto de neuronas conectadas entre s
se activan repetidamente, sus sinapsis aumentan su conductividad, o de otro modo:
conjuntos de neuronas sincrnicamente activadas tienden a organizarse en conjuntos
conectados.
Estas ideas de Hebb han resultado particularmente fecundas. Por ejemplo, ya en 1954
Albert M. Uttley demostr en The Classification of Signals in the Nervous System que redes
entrenadas con el modelo de aprendizaje hebbiano eran capaces de reconocer patrones
simples binarios (111000, 110111, ...) en clases (por ejemplo las que comienzan por 110).
El siguiente hito reseable se refiere a la aportacin del neurofisilogo Warren
McCulloch y el matemtico Walter Pitts: en 1943 publicaron A logical calculus of the ideas
immanent in nervous activity. El artculo de McCulloch y Pitts fue importante, entre otras
razones, porque en l se trata al cerebro como a un organismo computacional.
Propusieron la construccin de mquinas de computar con una estructura abstracta similar a
la que creyeron encontrar en las redes neuronales biolgicas, aunque, a diferencia de las
redes conexionistas actuales, dirigidas por un enfoque lgico y no uno probabilstico. Dieron
ms importancia al aprendizaje que a disposiciones innatas en la formacin de las
conexiones entre las unidades, y demostraron que redes neuronales sencillas conectadas
entre s mediante sinapsis excitadoras e inhibidoras y asignando un valor umbral para la
activacin de la unidad de salida, eran capaces de representar adecuadamente las leyes
lgicas fundamentales. A estas neuronas sencillas las llamaron neuronas formales;
actualmente a las redes constituidas por dichas unidades se las suele llamar redes de
McCulloch-Pitts. Aunque intentaron modelar aspectos elementales de las neuronas
biolgicas, las neuronas formales eran simplemente conmutadores lgicos, semejantes a los
circuitos lgicos que se pueden crear mediante interruptores y por los que puede fluir la

corriente elctrica.
En 1947 McCulloch y Pitts escribieron How We Know Universals: The Perception of
Auditory and Visual Formas, obra en la que trataron el problema del reconocimiento de
patrones o problema del reconocimiento de variaciones de un mismo patrn y en la que
presentaron dos redes. La primera tena como objetivo reconocer propiedades comunes en
distintos individuos (propiedades invariantes del mismo patrn); la segunda era capaz de
generar el patrn a partir de ejemplos de dicho patrn. Hicieron una interpretacin biolgica
de estas redes suponiendo que las redes neuronales de los crtices auditivo y visual eran
redes del primer tipo y que el colculo superior (involucrado en el control del movimiento de
los ojo) era una red del segundo tipo.

VI.2. AOS CINCUENTA Y SESENTA


En la dcada de los cincuenta las redes neuronales se utilizaron para dar cuenta de dos
capacidades importantes de la mente humana: la memoria asociativa y el reconocimiento de
patrones.
VI.2.1. La memoria asociativa
Empecemos con la memoria asociativa: la asociacin entre recuerdos es un hecho
conocido desde hace mucho tiempo; cuando dos recuerdos tiene algn aspecto comn
quedan ligados entre s de tal modo que uno puede evocar a otro.
El primer trabajo en este campo corresponde a Wilfrid K. Taylor con su obra de 1956
Electrical Simulation of Some Nervous System Functional Activities. Taylor propone una red
en tres capas: una con unidades sensoriales, otra con unidades asociativas y la ltima con
unidades motoras. Los pesos de las sinapsis son modificables y las unidades ya no son
neuronas biestables (todo-o-nada), al modo de las neuronas formales de McCulloch-Pitts,
sino dispositivos analgicos. El procedimiento de entrenamiento es la regla de Hebb: se
aumentan los pesos activados si se activan las unidades motoras deseadas. Inicialmente se
le presentan pares de patrones; de ese par de patrones uno provoca una respuesta precisa
en las neuronas motoras y el otro no; mediante el aprendizaje, la red consigue que estos
ltimos patrones, los que originariamente no provocaban la respuesta en las neuronas
motoras, ahora s lo hagan. En este sentido se puede decir que la red consigue asociar
patrones sensoriales diferentes, y muestra un comportamiento parecido al condicionamiento
pavloviano. Adems en su red, la memoria asociada se almacena en el patrn de pesos y
por lo tanto de forma distribuida.
En trabajos posteriores Taylor construy una red ms elaborada, con sinapsis que
volvan de las unidades motoras a las unidades sensoriales y con sinapsis entre unidades de
la misma capa. Esta red era ms eficaz en la asociacin de estmulos apareados y se mostr
tambin capaz de discriminar patrones (recogiendo por tanto las capacidades de los
perceptrones y adalines). En 1964 (Cortico-Thalamic Organization and Memory) aventur
incluso una interpretacin biolgica de su red, sugiriendo que las reas de asociacin de la
corteza cerebral y el tlamo contenan esas redes.
Las redes anteriores asocian indirectamente el elemento a y el elemento b al estar
asociados ambos con c (como ocurre con el condicionamiento clsico); estudios de los aos
sesenta y setenta mostraron que estas redes pueden servir tambin para representar la
memoria asociativa accesible o direccionable por el contenido; llamamos memoria accesible
por el contenido a aquella que nos permite recordar tems a partir de descripciones parciales
de sus contenidos o caractersticas, incluso cuando alguna de estas descripciones es
errnea. Y precisamente por esta capacidad actualmente a las redes asociativas se las llama
tambin memorias asociativas direccionables o accesibles por contenido (ACAMs).

VI.2.2. El reconocimiento de patrones


En cuanto al reconocimiento de patrones, cabe destacar lo siguiente: en esencia el
problema consiste en explicar cmo se puede reconocer que individuos distintos pertenecen,
no obstante, al mismo tipo. Un caso tpico de reconocimiento de patrones es nuestra
capacidad de interpretar como A signos que sin embargo son distintos (A, A, A, A,
A, A), pero evidentemente esta capacidad aparece tambin en otros contextos: somos
capaces de reconocer el rostro de una persona en distintas condiciones de luminosidad e
incluso aunque cambie su peinado, su maquillaje o se deje barba; un animal debe reconocer
los individuos de otra especie como siendo la presa con la que se ha de alimentar, o su
posible pareja para la reproduccin,...
Ya se ha citado la aportacin de McCulloch y Pitts en este campo, por lo que ahora
podemos referirnos a otros autores, comenzando por John von Neumann: en su escrito de
1956, Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable
Components, mejor las redes McCulloch-Pitts creando redes confiables: en las redes
originales de McCulluch-Pitts cada unidad actuaba representando una unidad informativa y lo
haca con la lgica todo-o-nada. Esta redes no son muy confiables pues el dao en una
unidad puede tener efectos catastrficos en la computacin. Para resolver esta dificultad Von
Neumann introdujo la redundancia en la red: una unidad informativa no se representa
mediante una neurona sino mediante la activacin sincrnica de un cmulo de neuronas (por
ejemplo se puede representar 1 cuando ms de la mitad est activada y 0 en caso
contrario). Von Neumann prob que estas redes redundantes pueden realizar clculos
aritmticos de modo muy confiable.
En 1963 Shamuel Winograd y Jack D. Cowan escribieron Reliable Computation in the
Presence of Noise. En esta obra recogieron y mejoraron las ideas de Von Neumann,
defendiendo una propuesta an ms distribuida del conocimiento: en las redes de
Winograd-Cowan un bit o unidad de informacin se representaba mediante varias neuronas,
como en las redes de Von Neumann, pero, y esta era la novedad, cada neurona
representaba parcialmente varios bits.
La figura de Frank Rosenblatt es imprescindible par entender el desarrollo del
conexionismo. En sus obras de 1958 The Perceptron, a Probabilistic Model for Information
Storage and Organization in the Brain y de 1962 Principles of Neurodynamics, defiende la
importancia de las redes neuronales para la computacin y de los mtodos probabilsticos
ms que de los lgicos en el uso de las redes, mejora la regla de aprendizaje de Hebb y
presenta una red a la que llam Perceptrn. En su versin ms sencilla, el Perceptrn
consta de dos capas: la de entrada o capa con unidades sensoriales y, conectada con la
anterior, la de salida o capa con unidades motoras. Las unidades eran unidades McCullochPitts (podan tomar simplemente los valores activado-desactivado). Inicialmente los pesos
de las conexiones eran aleatorios, y el aprendizaje consista en la modificacin de los pesos
de tal forma que dada una entrada se consiguiese la salida deseada. Rosenblatt encontr un
sencillo procedimiento de entrenamiento con el cual la red poda dar con los pesos
requeridos para tal tarea. El Perceptrn era capaz de reconocer patrones sencillos y de
generalizar similitudes entre patrones. Pero a pesar de las esperanzas que muchos
investigadores en este tipo de red, pronto se vio que tena serias limitaciones, que se
ejemplificaron en la imposibilidad de la red para resolver una tarea lgica aparentemente
sencilla: la del problema de la disyuncin exclusiva. En trminos ms tcnicos, se vio que
era incapaz de clasificar clases o patrones no separables linealmente (ver ms adelante la
exposicin del Perceptrn y del problema citado).

En este breve recorrido de la historia del conexionismo es preciso referirse a la

trayectoria de Marvin Minsky, compaero de Rosenblatt en el instituto. En sus primeros


escritos mantuvo algunas tesis que, claramente, son un antecedente del conexionismo:

carcter relativamente indiferenciado del cerebro pues aunque se dae una parte
otras pueden realizar su funcin, particularmente si el dao es en una poca
temprana;

importancia del aprendizaje en la organizacin de las redes neuronales;


importancia del estudio del cerebro y del comportamiento de las neuronas para
la construccin de una mquina que reproduzca aspectos sustanciales de la mente
humana.

Fue l precisamente uno de los primeros en afirmar que el cerebro no es otra cosa que
una mquina de carne. Estas tesis pertenecen a sus primeras investigaciones (con las
que consigui el grado de doctor). Sin embargo, pronto abandon este planteamiento
conexionista defendiendo la idea de que es posible comprender la mente humana
prescindiendo del estudio del cerebro y atendiendo exclusivamene a sus mecanismos o
comportamiento. Como se sabe, esta tesis es uno de los principios fundamentales de la
psicologa cognitiva tradicional, por lo que, en resumen, se podra decir que las primeras
propuestas de Minsky favorecieron las tesis conexionistas y las segundas (por las que es
clebre) las tesis de la psicologa cognitiva clsica.
Otra importante y curiosa aportacin fue la de O. Selfridge con su obra de 1959
Pandemonium: A paradigm for learning, 1959, en donde llam Pandemonium a su
modelo de procesamiento distribuido y paralelo de la informacin. Su propuesta es
importante porque su modelo para el reconocimiento de patrones descansa en el
procesamiento interactivo realizado por un conjunto de unidades de procesamiento; y es
tambin curiosa porque en vez de hablar de neuronas para referirse a las unidades de
procesamiento les di el nombre de demonios (incluso en los libros que explican el modelo
se los dibuja como pequeos diablillos). Es habitual presentar este modelo como un intento
de comprender el reconocimiento de las letras del alfabeto. Ms adelante se presenta el
Pandemonium con cierto detalle.
Bernard Widrow y Marcial Hoff (Adaptive Switching Circuits,1960) inventaron una
variante del Perceptrn y un nuevo procedimiento de aprendizaje, la regla delta del
aprendizaje. Llamaron adaline a su red (por ADaptive LInear NEuron, neurona lineal
adaptativa). En realidad, la nica diferencia con el Perceptrn es el procedimiento de
aprendizaje o entrenamiento que utilizaron. Era tambin una red de dos capas (capa de
entrada y capa de salida) interconectas, y compuestas por unidades biestables. Su finalidad
era tambin el reconocimiento de patrones. El adaline fue la primera red neuronal aplicada a
un problema real (como filtro para eliminar los ecos en las lneas telefnicas) y se ha usado
comercialmente durante varias dcadas.
VI.2.3. Limitaciones de perceptrones y adalines elementales
Marvin Minsky y Seymour Papert, publicaron en 1969 Perceptrons: An introduction
to Computational Geometry: en este libro estudiaron los perceptrones y demostraron que los
perceptrones y adalines elementales (los que constan slo de dos capas) eran incapaces de
distinguir entre patrones tan sencillos como T y C, ni de llevar a cabo tareas lgicas simples,
como la de decidir la tabla de verdad de la disyuncin exclusiva; probaron matemticamente
que dichas redes, aunque pudiesen modificar sus pesos mediante reglas de aprendizaje, no
podan resolver ms que problemas linealmente separables. Adems, ampliaron sus crticas
conjeturando que esta dificultad no se podra superar aadiendo unidades ocultas en redes
multicapa. Esto ltimo se demostr falso a partir de 1986, cuando se descubri la regla delta

generalizada y la validez de su uso en redes con capas ocultas. Este tipo de redes y la regla
citada permiti resolver el problema ms famoso planteado a los perceptrones y adalines, el
problema de la disyuncin exclusiva antes citado. Se suele indicar que como consecuencia
de las crticas de estos autores las autoridades americanas dirigieron sus fondos a la
inteligencia artificial y la psicologa cognitiva clsica, con el consiguiente freno de la
investigacin en los modelos de computacin conexionista.

VI.3. AOS SETENTA Y OCHENTA


J. A. Anderson escribi en 1973 el artculo A theory for the recognition of items from
short memorized lists y en 1977 Neuronal models with cognitive implications. En estos
escritos present anlisis matemticos de algunas propiedades de las redes neuronales y
defendi la relevancia de las representaciones distribuidas en distintos campos de la
psicologa, por ejemplo en el del aprendizaje de conceptos; sus investigaciones fueron
tambin importantes en el campo de la memoria asociativa por contenido y de nuevos
modelos de redes.
Stephen Grossberg es uno de los ms destacados investigadores en el campo
conexionista; sus propuestas aparecen ya en los aos sesenta y continan en nuestros das.
Ha escrito muchos libros y desarrollado diversos modelos de redes (tal vez la ms conocida
es la red que propuso en 1967, Avalancha, para el reconocimiento del habla y el
aprendizaje del movimiento de los brazos de un robot); adems de realizar las primeras
investigaciones sobre el aprendizaje competitivo, subray la importancia de los modelos
conexionistas en los campos de la percepcin y de la memoria. Destaca su libro de 1982
Studies of mind and brain.
Hofstadter (Gdel, Escher, Bach: An eternal golden braid, 1979 y Metamagical themas
1985) defiende la existencia de dos niveles de procesamiento, el que estudia la psicologa
cognitiva clsica (nivel estructural) y un nivel de procesamiento ms bajo, y en el que se
sitan los trabajos del conexionismo (nivel microestructural), de ah que en ocasiones se
hable del conexionismo como un enfoque que analiza la microestructura de la
cognicin para comprender los fenmenos cognitivos.
Es en los aos ochenta cuando el conexionismo empieza a tener un xito considerable,
y en esta trayectoria es fundamental la obra de G. E. Hinton, y J. A. Anderson editada en
1981 Parallel models of associative memory, y la obra de J. A. Anderson de 1983 Cognitive
and psychological computation with neural models. En esta ltima Anderson estudia el
hardware del sistema nervioso real y propone modelos neuronales sencillos basados en los
biolgicos y destinados a explicar los procesos cognitivos.
J. A. Feldman y D. H. Ballard (1982: Connectionist models and their properties.
Cognitive Sciencie, 6) desarrollaron muchos de los principios computacionales del enfoque
Procesamiento Distribuido Paralelo (PDP), utilizaron por primera vez el nombre de
conexionismo para este enfoque, y criticaron el enfoque tradicional de la Inteligencia
Artificial destacando su poca plausibilidad biolgica. Pero sin duda el impulso definitivo a la
investigacin conexionista tiene como protagonistas a David. E. Rumelhart, James. L.
McClelland y varios investigadores ms que forman lo que se ha llamado grupo PDP, y
culmina con la aparicin de lo que se ha considerado como la Biblia conexionista, Parallel
Distributed Processing: Explorations in the microestructure of cognition (dos volmenes)
editada por Rumelhart y McClelland en 1986. En esta obra se tratan importantes cuestiones
pero sin duda destaca la demostracin de cmo las redes con ms de dos capas pueden
solucionar las objeciones matemticas propuestas por Minsky y Papert y que tanto limitaron
el desarrollo en la investigacin de redes neuronales.
A partir de Parallel Distributed Processing se suceden multitud de investigaciones,

artculos y congresos, tanto en los campos de la Inteligencia Artificial como en los de la


psicologa, convirtindose el conexionismo en un movimiento revolucionario en el panorama
de la ciencia cognitiva. En este contexto se crean la Sociedad Europea de Redes
Neuronales (ENNS) y la Sociedad Internacional de Redes Neuronales (INNS),
sociedades que organizan congresos y reuniones anuales y editan revistas para la
divulgacin de las investigaciones en este campo de investigacin, revistas entre las que
destacan Neural Networks (revista oficial de la Sociedad Internacional de Redes
Neuronales); Network, Computation in Neural System; Transactions on Neural Networks;
Nerual Networks Council; Neural Computation y International Journal of Neural Systems.
De octubre de 1987 a febrero de 1988, el Instituto Tecnolgico de Massachussets
(MIT), patrocinado por la Oficina de Tecnologa Tctica de la Agencia de Proyectos de
Investigacin Avanzada del Departamento de Defensa de Estados Unidos (DARPA/TTO) llev
a cabo la revisin de la investigacin y tecnologa basada en redes neuronales, revisin que
se plasm en el libro Neural Network Study (Darpa 88).
En Espaa tambin se ha creado una sociedad para la investigacin en redes neurales
que ya ha organizado varios congresos, se organizan seminarios (precisamente el que se
realiz en la UNED en el curso 87-88 dio lugar a la edicin de Introduccin al Procesamiento
Distribuido en Paralelo, Alianza Editorial, en donde se renen los capitulos ms importantes
de Parallel Distributed Processing). El programa europeo de investigacin ESPRIT ha
financiado diversos proyectos en este campo, proyectos en los que, en Espaa, han
participado las universidades Politcnica y Autnoma de Madrid, la Politcnica del Pas
Vasco, el Centro de Estudios Avanzados de Blanes, el Instituto de Ciberntica del CSIC y el
Instituto de Ingeniera del Conocimiento (IIC), entre otros.

CONEXIONISMO - VII. ELEMENTOS


DE LAS ARQUITECTURAS CONEXIONISTAS

(1)

VII.1. CONCEPTOS Y ELEMENTOS DE LA ESTRUCTURA CONEXIONISTA


VII.1.1. Las unidades
VII.1.2. Las conexiones entre las unidades (las sinapsis)
VII.1.3. Peso sinptico
VII.1.4. El patrn de conexin

En las redes conexionistas es preciso distinguir dos tipos de elementos: los relativos a
su estructura y los relativos a sus mecanismos de procesamiento:

Conceptos y elementos de la
estructura conexionista

Conceptos y mecanismos bsicos


para el procesamiento en las redes
conexionistas

Las unidades

La entrada (input) total


La regla de propagacin

Las conexiones entre las unidades


(las sinapsis)

El estado de activacin
La regla o funcin de activacin

El peso sinptico

La salida (output) de las unidades


La funcin de transferencia

El patrn de conexin

Reglas de aprendizaje

VII.1. CONCEPTOS Y ELEMENTOS DE LA ESTRUCTURA CONEXIONISTA


VII.1.1. Las unidades
Los elementos bsicos de procesamiento de la informacin en el cerebro son las
neuronas; dado que los modelos conexionistas son modelos de inspiracin biolgica, a las
unidades bsicas encargadas del procesamiento en las redes conexionistas se las llama
habitualmente neuronas, aunque tambin podemos encontrar en la literatura los trminos
clulas, unidades, neuronas artificiales, nodos, elementos de procesamiento (PEs) o,
simplemente, elementos. La funcin de estas unidades tiene que ver esencialmente con el
la recepcin y tratamiento de la informacin: recibir informacin a partir de las conexiones
que mantienen con otras neuronas, elaborar o transformar la informacin recibida y emitir
informacin de salida hacia otras neuronas.
Existen tres tipos de unidades:
1. Unidades de entrada: les corresponde este nombre por recibir informacin de fuentes
externas a la propia red. Si la red dispone de sensores (por ejemplo, un scanner), la

informacin externa es informacin sensorial; si la red est conectada con otras redes, las
unidades de entrada reciben datos de las salidas de las otras redes; en otros casos,
simplemente, las unidades de entrada reciben los datos que el usuario de la red introduce
manualmente en el ordenador.
2. Unidades de salida: ofrecen las seales o informacin al exterior de la red; dan la
respuesta del sistema. Si la red dispone de conexiones con sistemas motores (robots, por
ejemplo) su respuesta ser la intervencin en el mundo fsico; si la red est conectada
con otras redes, su respuesta sern datos de entrada para stas ltimas redes; y si,
simplemente, son redes que utilizamos en nuestro ordenador, las unidades de salida
ofrece datos al usuario para su posterior tratamiento.
3. Unidades ocultas: aunque no todas las redes poseen este tipo de unidades, las redes
mnimamente sofisticadas las incluyen. Estas unidades no tienen una relacin directa ni
con la informacin de entrada ni con la de salida, por lo que no son visibles al ambiente
exterior a la red, de ah su nombre. Su funcin es procesar la informacin en niveles ms
complejos, favorecer cmputos ms eficaces.
La informacin que puede recibir una red, la que puede ser almacenada y la que puede
emitir, est determinada en gran medida por lo que se llama el abanico de entrada (fanin) y el abanico de salida (fan-out). El abanico de entrada es el nmero de elementos que
excitan o inhiben una unidad dada. El abanico de salida de una unidad es el nmero de
unidades
que
son
afectadas
directamente
por
dicha
unidad.
Se llama capa o nivel o estrato al conjunto de neuronas que reciben informacin de
la misma fuente (informacin externa, otra capa de neuronas) y ofrecen informacin al
mismo destino (al usuario, a sistemas motores, a otra capa de neuronas).

VII. 1.2. Las conexiones entre unidades (las sinapsis)


Las sinapsis son las conexiones entre las neuronas. En la mayor parte de redes las
sinapsis son unidireccionales: la neurona j transmite informacin a la neurona i y la
neurona i la recibe, y nunca ocurre lo contrario. Sin embargo, en redes como las de Hopfield
las sinapsis son bidireccionales.
Tipos de sinapsis:
a) sinapsis inhibidora: en este tipo de conexin el impulso transmitido por una neurona
inhibe la activacin de la neurona con la que est conectada: si la neurona j le transmite
a la neurona i un impulso que inhibe a sta, el nivel de activacin de la neurona i
decrecer, y decrecer en funcin del peso establecido para dicha conexin y de la

cantidad de informacin que se transmite por dicha sinapsis. Se suele representar la


sinapsis inhibidora mediante puntos negros;
b) sinapsis excitadora: en este tipo de conexin el impulso transmitido por una neurona
excita la activacin de la neurona con la que est conectada: si la neurona j est
conectada mediante una sinapsis excitadora con la neurona i, el nivel de activacin de la
unidad i aumentar si le llega informacin por dicha conexin desde la neurona j, y lo
har en funcin del peso de la conexin y de la magnitud de la seal o informacin que
por dicha conexin se le enva. Se suele representar este tipo de conexin mediante
puntos huecos.

VII.1.3. Peso sinptico


O peso de la conexin. Es uno de los conceptos ms importantes en las redes, y ello
por varias razones: en primer lugar porque los cmputos de la red tienen que ver
esencialmente con ellos; en segundo lugar, y concretando la afirmacin anterior, porque los
clculos que el sistema realiza a partir de la informacin de entrada para dar lugar a la
informacin de salida se basan en dichos pesos; y, en tercer lugar, porque en cierto modo
(como veremos) son el anlogo a las representaciones de los objetos en los modelos
cognitivos tradicionales. Una sinapsis es fuerte, o tiene un gran peso de conexin, si la
informacin por ella recibida contribuye en gran medida en el nuevo estado que se produzca
en la neurona receptora, y es dbil en caso contrario. Los pesos sinpticos son valores
numricos, se expresan en trminos numricos sencillos (generalmente nmeros enteros o
fraccionarios negativos o positivos) con los que se ponderan las seales que reciben por
dicha sinapsis. En la literatura sobre redes encontramos ligeras variantes en la notacin
utilizada para
representar el peso sinptico de una conexin entre la neurona j y la neurona i, donde la
neurona i recibe la informacin que la neurona j emite: por ejemplo, Wij (del ingls Weight,
peso), pero tambin wij y wij.
Dado que en ocasiones es importante representar mediante un vector la totalidad de
los pesos correspondientes a las conexiones de varias neuronas con una salida, y que se
reserva para dicho vector correspondiente al peso la W mayscula, cuando nos referimos
al peso correspondiente a una conexin parece ms adecuado utilizar la w minscula.
VII.1.4. El patrn de conexin
En los modelos conexionistas el conocimiento que la red alcanza a partir del
aprendizaje se representa mediante el patrn de conexin, patrn que determinar, por lo
tanto, el modo de procesamiento de las seales y la respuesta del sistema ante cualquier
entrada.
En los modelos ms simples la entrada total correspondiente a cada unidad depende
esencialmente de los valores de entrada y de los pesos que ponderan el modo en que dichos
valores colaboran en la entrada total. Por ello en estos modelos el patrn de conexin es
simplemente el conjunto de pesos correspondientes a cada una de las conexiones de la red;

los pesos positivos indicarn entradas excitatorias y los negativos entradas inhibitorias. Para
representar el patrn de conexin se utiliza una matriz de pesos W, en donde cada uno de
los elementos de la matriz (representado como wij) indica el peso correspondiente a la
conexin de la unidad j y la unidad i. El nmero correspondiente a w representa la
intensidad o fuerza de la conexin, y el signo (+ o ) indica si la unidad j excita a la
unidad i (la conexin es excitatoria) o si la unidad j inhibe a la unidad i (la conexin es
inhibitoria). Si el nmero correspondiente a w es 0 se quiere indicar que la unidad j no est
conectada a la unidad i.
Veamos un ejemplo:

valores de los pesos


wi1: -0.5
wj1: 1
wi2: 0.3
wj2: 0.2
wi3: -1
wj3: 0
wi4: 0.6
wj4: -0.3

la matriz correspondiente al patrn de


conexin
(matriz de los pesos W ) ser

u1
u2
u3
u4

ui
-0.5
0.3
-1
0.6

uj
1
0.2
0
-0.3

o, utilizando otra forma de representacin:

0.5 1
0.3 0.2

-1
0

0.6 - 0.3

CONEXIONISMO - VII. ELEMENTOS


DE LAS ARQUITECTURAS CONEXIONISTAS

(2)

VII.2. CONCEPTOS Y MECANISMOS BSICOS PARA EL


PROCESAMIENTO EN LAS REDES CONEXIONISTAS
VII.2.1. Notacin utilizada para representar los elementos y mecanismos de las
redes conexionistas
VII.2.2. La entrada (input) total. La regla de propagacin
VII.2.3. El estado de activacin
VII.2.4. La regla o funcin de activacin
VII.2.4.a. Concepto y frmula general
VII.2.4.b. Tipos de funciones de activacin
Funcin identidad
Funcin de activacin tipo umbral
VII.2.5. La salida de las unidades. La funcin de transferencia
VII.2.5.a. Concepto y frmula general de la funcin de
transferencia
VII.2.5.b. Tipos de funcin de salida o de transferencia
Funcin identidad o funcin lineal
Funcin umbral
Funcin mixta
Funciones de Saturacin:
o Funcin Sigmoide
o Funcin Tangencial Hiperblica
Neuronas lineales
Neuronas no lineales
VII.2.6. Reglas de aprendizaje
VII.2.6.a. Concepto y modelos de aprendizaje
aprendizaje supervisado
aprendizaje no supervisado
aprendizaje reforzado
VII.2.6.b. Regla de Hebb (o regla del producto)
VII.2.6.c. Regla de Widrow-Hoff o regla delta o regla del menor
error cuadrtico
VII.2.6.d. Regla Delta generalizada (o regla de propagacin hacia
atrs)
VII.2.1. Notacin utilizada para representar los elementos y mecanismos de las
redes conexionistas
La tarea de cada neurona o unidad es simple: recibir las entradas de las clulas
vecinas y calcular un valor de salida, el cual es enviado a todas las clulas
restantes. Toda la informacin que la red recibe, almacena, transforma y enva se expresa
en trminos matemticos, en la forma de cantidades y de frmulas aplicadas a cantidades.
La representacin interna de la informacin se genera en las sinapsis o conexiones y
en la actividad de las neuronas, particularmente en las de la capa oculta. Dado que las redes
modifican sus estados a travs del tiempo como consecuencia de las distintas entradas de
informacin, es imprescindible tambin introducir en la descripcin de los estados de
activacin la referencia al tiempo:

1. a cada neurona (unidad i, ui) le corresponde en cualquier instante un valor numrico


denominado valor o estado de activacin ai(t);
2. cada unidad utiliza una funcin de salida, fi, que calcula la seal de salida (oi, del ingls
output o salida) a partir del estado de activacin que en ese momento tiene la neurona;
3. la seal de salida se trasmite a otras unidades con las que dicha neurona est conectada;
4. una neurona recibe la seal de todas las unidades con las que est conectada, pero lo
hace teniendo en cuenta:
el peso asociado a cada una de las conexiones, wij (del ingls wheit, peso)
y la intensidad o seal que se transmite por la sinapsis;
a la suma de todas las seales ponderadas por el peso de las correspondientes conexiones
se le llama NETi
5. el nuevo estado de activacin ai(t+1) de la neurona i se calcula mediante una funcin de
activacin Fa, teniendo en cuenta la entrada total calculada o NET y su anterior estado
de activacin, ai(t)

(Tomado de "Redes neuronales artificiales", J. R. Hilera y V. J. Martnez, Editorial Ra-ma; p. 51.)

La notacin empleada en las redes neuronales no es unnime:

las unidades o neuronas se representan como u o como n

la funcin de activacin se suele representar por Fa, pero tambin,


simplemente, por F; dado que es preciso referirse a dos funciones, la de activacin y
la de transferencia, conviene utilizar una notacin distinta para cada una de ellas, por
ejemplo para la funcin de activacin la F mayscula (Fa) y para la de
transferencia la f minscula (fi);

la referencia a la activacin actual se suele representar como a(t) y la siguiente


como a(t+1); pero en la literatura sobre el tema tambin podemos encontrar la
referencia a la activacin actual como a(t-1) y el estado de activacin siguiente
como a(t) (y tanto en negrita como en caracteres normales);

para distinguir la parte de la frmula que corresponde al nombre de las unidades


de la parte de la frmula correspondiente a los otros elementos, se pueden emplear
varias estrategias:
o subndice para los nombres y letra normal para el resto: oi

o letra normal para el nombre de la unidad y negrita para el resto: oi


para referirse al peso de cada conexin se puede emplear tanto la O mayscula
como la o minscula, lo mismo que para el peso (W o w) y para la entrada total en
cada unidad (Net o NET O NET o net).
VII.2.2. La entrada (input) total. La regla de propagacin

Una neurona recibe seales desde mltiples neuronas por lo que es necesario calcular
el efecto global que tendr ese conjunto de seales o inputs. El input total se denomina
NET, y para el caso de las entradas que le llega a la neurona i en el tiempo t, NETi(t).
Llamamos regla de propagacin a la frmula que nos indica cmo calcular dicha entrada
total o NET; existen varias reglas de propagacin, pero la ms sencilla y habitual es la que
se representa del siguiente modo:
NETi(t+1) = j wij * oj(t)

NETi es la suma de todas las seales que llegan a la neurona i (seales representadas
como oj), ponderada cada una de ellas por el peso de conexin asociado, (wij). Cuando una
determinada seal oj llega a la neurona i por una sinapsis inhibidora, el peso wij asociado a
dicha sinapsis ser negativo, por lo que el resultado del producto, wij*oj, aportar un
elemento negativo a la suma.

Los valores que transmite una neurona a las neuronas con las que est conectada se
representan como o (oj sera el valor que transmite la neurona j). Pongamos que los
valores que transmite las neuronas de la capa de entrada, y los pesos correspondientes a
sus conexiones con la neurona i son los siguientes:
valores: O(t)
pesos: (Wij)

oj: 0.5
wil: -0.5

ok: 0.3
wik: 1

ot: 0.5
wit: 0.5

ou: -1
wiu: -0.3

En ocasiones los pesos de todas las conexiones o sinapsis correspondientes a una


neurona se suelen representar mediante una matriz: la matriz Wij incluira todos los pesos
de las conexiones con la neurona i (wi1, wi2, wi3, ...wij); si un elemento de la matriz es
positivo indica que la conexin es excitatoria, si es negativo, la conexin es inhibitoria y si es
0 no existe conexin entre neuronas; en el caso anterior la matriz sera:
Wij = [0.5, 1, 0.5, 0.3]
Tambin es habitual referirse al conjunto de valores de entrada de una unidad como el
vector O(t) (de output, salida, puesto que normalmente estos valores que le llegan a una

unidad son la salida que produce otra unidad). En el caso anterior, el vector de valores que
le llegan desde otras neuronas y correspondiente al instante anterior a la modificacin de la
neurona i (instante que se suele representar como (t)) sera:
O(t) = [0.5, 0.3, 0.5, -1].
Si utilizamos la regla de propagacin antes sealada, la entrada total que le llega a la
neurona i o NETi ser la suma de las entradas parciales ponderadas por los pesos
correspondientes:
(0.5 x -0.5) + (0.3 x 1) + (0.5 x 0.5) + (-1 x -0.3) = -2.5 + 0.3 + 2.5 + 0.3 = 0.6
La entrada total se calcula para despus averiguar el estado de activacin que la va a
corresponder a la unidad, pero, dado que la regla de propagacin citada es muy sencilla, la
funcin de activacin que ha de calcular su activacin no se suele referir a NETi, sino
simplemente al sumatorio de los productos del peso por el valor de las entradas (Wij * Oj).

VII.2.3. El estado de activacin


La activacin (o excitacin, o actividad) de una neurona es muy importante para
el procesamiento puesto que la salida que la neurona provoca depende de ella. La activacin
es el grado o nivel de excitacin de una neurona, y, generalmente, cambia en funcin
de cuatro factores:
el anterior estado de activacin de la unidad;
las entradas que la neurona recibe;
los pesos de las conexiones por las que recibe las seales;
la funcin de activacin utilizada para calcular la activacin a partir de dichas
entradas.
Se llama ciclo a cada una de las veces que la red toma los vectores de entrada
(conjunto de valores de entrada) para realizar los cmputos correspondientes; pues bien,
dado que en cada ciclo la activacin de las neuronas puede ser distinta, es preciso
caracterizar dicha activacin en cada pasada de la informacin o ciclo, por ello es necesario
referirse al tiempo; as, es habitual representar como Ai(t) (o tambin, con minscula, como
ai(t)), el nivel de activacin de la neurona i en el tiempo t.
Lo que la red representa en cada momento depende del conjunto o patrn de
activacin de la totalidad de las unidades que la componen, por ello es conveniente
tambin especificar dicho patrn. Para reflejar el patrn de activacin se suele utilizar un
vector de N nmeros reales a(t), vector que representa el estado de activacin de todas las
unidades de la red en el tiempo t; en el vector, cada uno de los elementos representa la
activacin de cada unidad en el tiempo t:
A(t) = (a1(t), a2(t), ..., ai(t), ...., an(t))
De este modo, cabe caracterizar el procesamiento que realiza la red como la
evolucin que sufren a travs del tiempo los patrones de activacin de las unidades.
Hay muchos modelos de redes conexionistas y los valores de activacin que pueden
tomar las unidades no son los mismos en todos ellos. Los valores utilizados con ms
frecuencia son los siguientes:

I. CONTINUOS
a) abiertos; los modelos que utilizan este tipo reciben el nombre de modelos no
acotados (o modelos sin lmite): el valor de activacin de una neurona i puede ser
cualquier nmero real;
b)

o cerrados; los modelos que utilizan este tipo reciben el nombre de modelos
acotados (o modelos con lmites): pueden tomar cualquier valor real comprendido en
un intervalo con un valor mnimo y un valor mximo, por ejemplo, el intervalo {0,1},
o el intervalo {-1,1}, generalmente siguiendo una funcin sigmoidal.

II. DISCRETOS: estos valores se utilizan en los modelos ms sencillos.


a) los ms frecuentes son los valores binarios: la neurona slo puede tener dos
estados: activada o desactivada, estados que se suelen identificar mediante el par de
valores {0,1}, representado el 1 el estado de activado y el 0 el estado de desactivado
o en reposo, o bien {-1,+1}; o, simplemente, {,+}, representado el 1 (o el +) el
estado de activado y el -1 (o el ) el estado de desactivado.
b) en otros casos son valores discretos no binarios, valores que estn entre
cualquiera de un pequeo conjunto: por ejemplo, pueden estar restringidos al
conjunto de valores {-1, 0, +1}, o a un pequeo conjunto finito de valores tales
como {1, 2, 3, 4, 5, 6, 7, 8, 9}.
Naturalmente, el comportamiento y las utilidades de las redes con distintos tipos de
valores de activacin son tambin distintos; por ejemplo, si las entradas responden a
informacin analgica y no a seales discretas, entonces los valores ms adecuados son los
continuos, no los discretos.

VII.2.4. La regla de activacin


VII.2.4.a. Concepto y frmula general
El estado de activacin de una unidad depende de la funcin de activacin, que no
es otra cosa que una funcin matemtica utilizada para calcular el siguiente estado de
activacin; dicha funcin calcula la nueva actividad de la unidad o neurona a partir de:
el anterior estado de activacin de la unidad (aunque esta cantidad no siempre se
tiene en cuenta);
todas las entradas que recibe dicha unidad de las otras unidades;

los pesos de las conexiones que la unidad en cuestin tiene con las unidades de las
que recibe las entradas.

Si tenemos la unidad i, su actividad en el tiempo t+1 depender de la funcin de


activacin (Fa) aplicada a:
el estado de activacin de la neurona i en el tiempo t;

todas las entradas oj recibidas por la unidad i desde las neuronas j de la capa
anterior en el tiempo t;

los pesos de conexin wij correspondientes a las distintas sinapsis por los que cada
seal oj llega a la neurona i en el tiempo t.

De este modo, podemos representar la funcin de activacin para el clculo del nuevo
estado de activacin de la unidad i en el tiempo t+1 utilizando la siguiente notacin:
ai(t+1) = Fa [ai(t), oj(t), wij]

Dado que la entrada total o NET correspondiente a dicha unidad es igual a la suma de
todas las entradas ponderadas por sus correspondientes pesos, la anterior frmula tambin
se puede expresar del siguiente modo:
ai(t+1) = Fa [ai(t), NETi(t)]
Como ms arriba se ha indicado, la notacin utilizada no es la misma en todos los
autores, as en la frmula algunos utilizan F, otros Fa, y para referirse al tiempo algunos
utilizan la notacin t y t-1 y otros t+1 y t, pero son frmulas equivalentes.
Como ocurra para los valores de activacin de cada neurona, existen mltiples
funciones de activacin, y es el diseador de la red quien debe establecer la que se ha de
utilizar en funcin de las peculiaridades de la tarea para la que se disea la red.

VII. 2. 4. b. Tipos de funciones de activacin


Funcin identidad
Se trata de una funcin muy simple que no tiene en cuenta el anterior estado de
activacin de la unidad. Se puede expresar con la siguiente frmula:
ai(t+1) = j wij oj(t)
Segn esta funcin de activacin, el estado de activacin que le corresponde a la
unidad i (ai(t+1)) tras recibir las seales desde las unidades a las que est conectada es el
resultado de sumar todas las seales recibidas (oj), ponderadas cada una de ellas por el
peso sinptico (wij) asociado a la sinapsis por la que se transmite la seal.
Podemos representar el conjunto de estmulos de entrada que le llegan a una unidad
desde la capa anterior como un vector, y los pesos sinpticos correspondientes mediante
una matriz; en esta circunstancia, el clculo del nuevo estado de activacin de todas las
neuronas se obtiene simplemente mediante el producto de matrices.
En algunas redes se incluye en la funcin de activacin un factor que representa una
fraccin del valor de activacin anterior, por ejemplo:
ai(t+1) = ai(t) + j wij oj(t)
Con esta variante conseguimos que la unidad o neurona mantenga cierto estado de
activacin durante varios ciclos, incluso en el caso de que las entradas sean cero, en esta
ltima circunstancia en cada perodo de tiempo su estado de activacin corresponder a la
mitad del valor de activacin anterior. Con este tipo de funciones de activacin se garantiza
que cada neurona no vare en su estado y en su respuesta demasiado bruscamente
(recordamos que la respuesta de la red depende en gran medida de los estados de
activacin de las unidades que la componen).
Funcin de activacin tipo umbral
Esta funcin es algo ms complicada que la anterior y se utiliza con frecuencia en las
redes conexionistas, en particular cuando cada unidad slo puede tener dos estados:
activada o desactivada (1 0, respectivamente). Se suele representar la funcin tipo umbral
del siguiente modo:

1 si j wij oj(t) > umbral


ai(t+1) =
0 si j wij oj(t) umbral

Estas frmulas quieren indicar, simplemente, que la neurona i se activar (tomar el


valor 1) si y slo si la suma ponderada de sus entradas supera cierto umbral, umbral que ha
de ser decidido por el diseador de la red.

VII.2.5. La salida de las unidades. La funcin de transferencia


VII.2.5.a. Concepto y frmula general de la funcin de transferencia
Las unidades o neuronas transmiten seales a otras con las que estn conectadas. La
intensidad de estas seales y, por lo tanto, el grado en que influyen en las unidades con las
que estn conectadas est determinado por dos factores:
su grado de activacin;

una funcin matemtica que modula dicho estado de activacin provocando la seal
de salida, funcin que suele ser la misma para todas las unidades.

Por lo tanto, unidades con el mismo grado de activacin pero distintas funciones de
salida producirn distintas seales (oi). A dicha funcin se le llama habitualmente funcin de
transferencia, y puede representarse del siguiente modo:
oi(t+1) = fi[ai(t+1)]
El valor de salida o respuesta de la unidad i (representado por oi), en el tiempo t+1,
ser el resultado de aplicar la funcin de transferencia (fi) a su estado de actividad (ai) en el
tiempo t+1.
Podemos utilizar la notacin vectorial para representar el conjunto de todos los
valores de salida en el tiempo t+1. As, el vector O(t+1) contendr las salidas de todas las
neuronas o unidades en el tiempo t+1:
O(t+1) = (f1[a1(t+1)], f2[a2(t+1)],..., fi[ai(t+1)],..., fn[an(t+1)])

VII.2.5.b. Tipos de funcin de salida o de transferencia


Existen varios tipos de funciones de transferencia. La funcin escaln o umbral
nicamente se utiliza cuando las salidas de la red son binarias (dos posibles valores): la
salida de una neurona se activa slo cuando el estado de activacin es mayor o igual que
cierto valor umbral. Las funciones mixta y sigmoidal son las ms apropiadas cuando
queremos como salida informacin analgica.
Funcin identidad o funcin lineal
Es la ms sencilla y la de menos uso. Se llama funcin de identidad porque la salida
correspondiente a la unidad es igual a su estado de activacin. En realidad esta funcin
equivale a no aplicar funcin de salida. La frmula correspondiente a esta funcin es
fi[ai(t+1)] = ai(t+1)
y la salida correspondiente a dicha unidad se puede representar como

oi(t+1) = ai(t+1)
y, en representacin grfica:

La funcin de identidad es adecuada cuando la funcin de activacin que hemos


utilizado para calcular la activacin de la unidad es de tipo umbral. En este caso la activacin
de la unidad ser 1 si est activa y 0 si est inactiva, y la salida correspondiente ser 1 en el
primer caso y 0 en el segundo (o 1 y -1 si hemos preferido esta notacin).
Funcin umbral
O funcin escaln. Su uso es ms frecuente que la funcin identidad. Con la
funcin umbral la unidad enva seales de salida slo cuando su activacin es mayor o igual
que cierto valor umbral. La respuesta de salida ser binaria o discreta: slo 1 0 (o bien 1 y
-1 si utilizamos esta otra notacin), y depender de si el valor de activacin (que en este
caso es un valor continuo) supera cierto umbral.
1 si ai(t+1)
oi(t+1) =

umbral
0 si ai(t+1) < umbral

si el umbral es 0 tendramos

1 si ai(t+1)
oi(t+1) =

1 si ai(t+1) 0
oi(t+1) =

0 si ai(t+1) < 0

y, en representacin grfica:

-1 si ai(t+1) < 0

Si en lugar de 0 el umbral fuese otro nmero, el escaln quedara desplazado.


Funcin mixta
Con esta funcin, si la activacin es menor que un lmite inferior, la salida es 0 ( 1). Si la activacin es mayor o igual que el lmite superior, entonces la salida es 1. Si la
activacin est entre los lmites, la salida es una funcin lineal de la activacin

f(x) =

0 si x < -C
1
si
x

C
x/ (2C) + en otro
caso

-1 si x < - C
f(x) =

1 si x C
a.x en otro caso

y, en representacin grfica

C es el lmite superior de la activacin y -C el lmite inferior


Funciones de Saturacin
Son las funciones en las que los incrementos o disminuciones de la intensidad de la
actividad de la unidad producen incrementos o disminuciones de los valores de salida hasta
llegar a unos lmites de salida mxima o mnima a partir de los cuales la salida se estabiliza
y es la misma a pesar del incremento o disminucin de la intensidad de actividad de la
unidad. Dicho de otro modo: mediante las funciones de saturacin conseguimos que el
aumento de la actividad de la unidad por encima de un lmite no se traduzca en un
incremento de salida (y lo mismo para los valores mnimos). Las funciones de saturacin
establecen lmites mximos y mnimos para las salidas (por ejemplo 1 y -1) y aunque la

actividad de la unidad est por encima de dichos lmites, la salida es siempre el valor
mximo.
Hay varias funciones de saturacin, siendo la ms utilizada la funcin sigmoide.
Funcin Sigmoide
Es una de las funciones de transferencia ms utilizadas. Produce salidas
continuas y proporcionales al nivel de activacin de la neurona dentro del rango
[0,1]; sus niveles de saturacin son 0 y 1, por lo que su salida mxima ser 1 y la
mnima 0. Cuando el nivel de activacin supere al umbral de saturacin mximo la
salida seguir siendo 1 y cuando el nivel de activacin sea inferior al umbral de
saturacin mnimo la salida seguir siendo 0.
Funcin Tangencial Hiperblica
Es similar a la anterior pero en este caso la saturacin es 1 para el valor
mximo y -1 para el mnimo.

Atendiendo a los tipos de funciones que intervienen en el cmputo, las neuronas se


pueden clasificar en neuronas lineales y neuronas no lineales.
Neuronas lineales
Tienen funciones de activacin y de transferencia lineales, por lo que la composicin
de ambas funciones da lugar a otra funcin lineal. En estas neuronas la salida oi es
linealmente dependiente (es decir, proporcional) de sus entradas Oj ponderadas cada una
de ellas por el peso asociado a las sinapsis (Wij) por las que le llega a la unidad i las
entradas seal. La respuesta de las neuronas lineales no est acotada y puede tomar
cualquier valor.
Est demostrado que los cmputos que realizan redes con ms de dos capas con
unidades lineales se pueden realizar tambin con redes de dos capas, con lo que se hace
superfluo construir redes de ms de dos capas si las funciones utilizadas son siempre
lineales.
Las primeras redes que aparecieron eran de este tipo y presentaban por esta
caracterstica dos grandes problemas:
1. Falta de persistencia en las respuestas: todo cambio en las seales de
entrada produce inevitablemente cambios en las salidas; ello puede dar
lugar a que cambios realmente muy pequeos en las entradas provoquen
fluctuaciones bastante grandes en la respuesta.
2. Falta de adecuacin simultnea a seales grandes y pequeas: si las
funciones utilizadas amplifican mucho las seales de entrada, entonces
seales de entrada de pequea intensidad no se perdern sino que
provocarn una respuesta de la neurona (seales de entrada moderada
provocarn respuestas elevadsimas). En el caso de que dichas funciones

amplifiquen poco las seales de entrada (si produce salidas moderadas


ante valores medios), entonces las seales de entrada dbiles producirn
seales poco significativas.
Neuronas no lineales
En estas neuronas su respuesta no es una funcin lineal o proporcional de sus
entradas pues o bien la funcin de activacin o bien la de transferencia o bien ambas son
funciones no lineales. Este es el caso cuando la unidad o neurona utiliza las funciones no
lineales Umbral, Sigmoide o Hiperblica Tangente.
Estas neuronas son ms interesantes que las anteriores pues producen respuestas
acotadas y con ello resuelven en gran medida los problemas anteriores; por ejemplo en el
caso del uso de la funcin umbral, la neurona produce una salida discreta (0 o 1 por
ejemplo) con lo que no se da el problema de la fluctuacin de la respuesta. En el caso de
neuronas con funcin sigmoide o hiperblica tangente las repuestas slo varen
significativamente ante los cambios de las entradas cuando el valor de la actividad de la
neurona est a medio camino entre los dos niveles de saturacin, mientras que cuando se
alcanza los niveles de saturacin pequeas fluctuaciones en los datos de entrada no
producen cambios en la respuesta; con ello se consigue el efecto de que la neurona no
produce salidas con cambios significativos cuando las nuevas seales de entrada no son muy
diferentes de los actuales.

VII.2.6. Reglas de aprendizaje


VII.2.6.a. Conceptos y modelos de aprendizaje
En las redes neuronales se dice que la red aprende cuando es capaz de ofrecer ante
un determinado patrn de entrada el correspondiente patrn de salida. Esta capacidad para
emparejar adecuadamente los vectores de entrada y los vectores de salida lo consigue la red
mediante la modificacin de los patrones de interconexin. Las redes neuronales biolgicas
realizan estas modificaciones mediante, al menos, los siguientes procedimientos:
1. el desarrollo de nuevas conexiones;
2. la prdida de las conexiones existentes;
3. la modificacin de la fuerza de las conexiones que ya existen.
Los aspectos 1 y 2 han sido poco tratados en el marco de las redes neuronales
conexionistas. De todos modos, pueden considerarse como un caso especial de 3, puesto
que el cambio de la fuerza de conexin de cero a algn otro valor, sea positivo o negativo,
tiene un efecto similar al hecho de desarrollarse una nueva conexin; y, a la inversa,
siempre que se modifique la fuerza de conexin situndola en cero es como si se perdiese
una conexin existente. En definitiva, el aprendizaje en las redes conexionistas
consiste en la modificacin de las intensidades de las conexiones; las reglas de
aprendizaje no son otra cosa que las reglas o procedimientos para cambiar los pesos
sinpticos o pesos de las conexiones.
En la vida de la red se suelen distinguir dos periodos o fases: durante la fase de
aprendizaje se la entrena para que modifique sus pesos sinpticos hasta que su respuesta
ante los patrones de entrada sea correcta. En la fase de funcionamiento real o fase de
ejecucin la red ya es operativa y sus pesos sinpticos no volvern a ser modificados; la
red ya se puede utilizar en la tarea para la que ha sido diseada.

Existen varios modelos de aprendizaje, siendo los principales el supervisado, el no


supervisado y el reforzado.

aprendizaje supervisado: en este modelo existe un agente externo


(supervisor o maestro) que controla el proceso de aprendizaje de la red. La red debe
relacionar dos fenmenos (X e Y) mediante la presentacin de un conjunto de
ejemplos (x1, y1), (x2, y2), ..., (xn, yn). En la formulacin anterior, "X" representa
las entradas e "Y" las salidas requeridas Se llama juego de ensayo al conjunto
formado por las parejas anteriores, patrn de estmulos-respuesta deseada. En
algunos casos no hay ninguna duda en cuanto a los elementos que deben componer
dicho juego de ensayo puesto que se conocen perfectamente todos los patrones que
la red debe reconocer y sus salidas correspondientes (este ocurre, por ejemplo con el
uso del Perceptrn para el cmputo de las funciones lgicas); pero en la mayora de
los casos esto no es as y es preciso tener mucho cuidado en la eleccin del juego de
ensayo y tratar de incluir en l los patrones ms representativos del problema o
fenmeno que se intenta computar. El maestro presenta a la red una entrada x y la
red produce una salida oi. Normalmente esta salida no coincide con la salida
requerida, por lo que el maestro debe calcular el error de salida, ei = e(oi, yi) y
proceder a la modificacin de los pesos utilizando alguna regla de aprendizaje con la
intencin de aproximar la salida obtenida a la salida deseada. Tras esta modificacin
se presenta el siguiente patrn del juego de ensayo y se procede de la misma
manera. Cuando se termina con el ltimo patrn del juego de ensayo, se tiene que
volver a empezar de nuevo pues los pesos se han modificado y es preciso comprobar
que la red responde adecuadamente. A cada uno de los pasos completos del juego de
ensayo se le llama ciclo; dependiendo de la complejidad del problema, sern precisos
pocos o muchos ciclos para el aprendizaje. La fase de aprendizaje termina cuando los
pesos se estabilizan o convergen en unos valores ptimos. En este caso la red
consigue responder correctamente a todas las presentaciones de los patrones
estimulares del juego de ensayo. Aunque el ideal de aprendizaje es el cien por cien
de aciertos, se considera que concluye cuando se minimizan razonablemente los
errores ante el conjunto de ejemplos presentados.

aprendizaje no supervisado: en este tipo de aprendizaje no existe dicho agente


externo que vaya modificando los pesos sinpticos en funcin de la correccin de la
salida de la red; la red no compara su respuesta efectiva con la salida correcta
puesto que no se le especifica cul ha de ser dicha salida correcta. Con este
aprendizaje se busca que la red se autoorganice y encuentre por s misma
caractersticas, regularidades, correlaciones o categoras en los datos de entrada. En
el aprendizaje no supervisado es necesario presentar un mayor nmero de patrones
de entrada y utilizar reglas de aprendizaje distintas a las que nos sirven para el caso
anterior; adems las arquitecturas de las redes suelen ser distintas (por ejemplo
muchas de ellas tienen dos capas), destacando las redes de Kohonen y de
Grossberg. El modelo que comentamos tiene mucha importancia para los sistemas
biolgicos pues es evidente que la cantidad de habilidades aprendidas con la ayuda
de un profesor es muy inferior a la que se aprende espontneamente.

aprendizaje reforzado: en cierto modo es una variante del aprendizaje supervisado


pues tambin utiliza un supervisor que examina las salidas del sistema; sin embargo
en el aprendizaje reforzado no se dispone de salidas deseadas precisas por lo que no
es posible computar el error para cada una de las unidades de salida; el supervisor
valora el comportamiento global de la red mediante un criterio y en funcin de l
modifica los pesos mediante un mecanismo de probabilidades. Para ilustrar la
diferencia entre este tipo de aprendizaje y el supervisado se suele indicar que en el
reforzado el supervisor se comporta como un crtico (que opina sobre la respuesta
de la red) y no como un maestro (que indica a la red la respuesta concreta que debe

generar), mientras que en el supervisado el supervisor se comporta como un


maestro. En el aprendizaje reforzado los algoritmos son ms complejos que en el
supervisado y el tamao de las muestras superior. Uno de los algoritmos ms
conocidos para este tipo de aprendizaje es el algoritmo asociativo con recompensa y
penalizacin presentado en 1985 por Barto y Anandan
VII.2.6.b. Regla de Hebb (o regla del producto)
En La organizacin de la conducta, escrito en 1949, Hebb defiende la idea de que el
aprendizaje y la memorizacin se basa en modificaciones de las conexiones existentes entre
las neuronas y en la creacin de conexiones nuevas; pero el cambio que le pareci ms
determinante para explicar el aprendizaje y la memoria es el relativo a la modificacin del
potencial con el que se transmiten las seales nerviosas entre las neuronas. Expres esta
modificacin del modo siguiente (regla de Hebb): cuando dos neuronas tienden a estar
activas o inactivas simultneamente, la fuerza o intensidad de sus conexiones aumenta, y
disminuye en caso contrario.
Para dar cuenta de esta modificacin supuso que el incremento de la conexin se
debe a un aumento del rea de unin sinptica. En la actualidad se considera que esta
explicacin biolgica no es adecuada puesto que se cree ms bien que la causa est en un
incremento de la velocidad con que se libera el neurotransmisor en la clula presinptica.
Sin embargo, no interesa su explicacin biolgica sino la formulacin general antes citada,
que como se observa no se expresa en trminos matemticos precisos; por esta razn,
existen muchas interpretaciones matemticas de la regla de Hebb. Al aprendizaje que sigue
este modelo se le llama aprendizaje tipo Hebb. Veamos algunas de dichas
interpretaciones matemticas:

wij = ai(t) * aj(t)


wij = (aiai) * (ajaj)
wij = * ai(t) * aj(t)
wij = * ai(t) * oj(t)
wij : es el incremento que se ha de sumar o restar al peso sinptico

: es la tasa de aprendizaje
ai(t) : es la activacin de la neurona i en el tiempo t
ai : media de los valores de activacin de i
aj : es la activacin de la neurona j
aj : media de los valores de activacin de j
oj(t) : es la seal que emite la neurona j en el tiempo t
Se trata de una regla de aprendizaje no supervisado, pues no existe ninguna
informacin externa que nos indique si los resultados de la red son errneos, ni que nos
ayude a decidir cmo y en qu grado modificar las conexiones.; la regla hace simplemente
que las unidades vayan influyndose unas a otras, y se autoconfiguran la permeabilidad
sinptica de la red a partir de las reacciones a los estmulos recibidos.

VII.2.6.c. Regla de Windrow-Hoff o regla delta o regla del menor error cuadrtico

La utilizaron por primera vez, en 1960, B. Widrow y M. Hoff para su red ADALINE. Se
trata de una regla de aprendizaje supervisado (es preciso presentar a la red todos los casos
de pares entrada-salida que se desea que la red aprenda, y que el maestro modifique los
pesos de las conexiones para corregir los errores en las salidas). Se denomina regla delta
porque en esencia el procedimiento consiste en modificar los pesos de las conexiones (por lo
tanto, favorecer el aprendizaje de la red) a partir del clculo de la diferencia (o delta) entre
las salidas efectivas de la red y las salidas deseadas.
El maestro presenta a la red un vector o patrn de entrada. Si la red produce el
vector de salida deseado no realiza ningn cambio en los pesos. Si existe discrepancia entre
ambos vectores, los pesos se cambian para reducir la diferencia. Cuando existe diferencia
entre las salidas efectivas y las deseadas la modificacin afecta a todos los pesos de las
neuronas que colaboran en el error, y se modifican en proporcin a su influencia en el error.
Se sigue el procedimiento citado minimizar el error y, en los mejores casos, convertirlo en
cero. En la literatura sobre el tema existen varias formulaciones; presentamos dos de las
ms sencillas:
wij = [Ti(t+1) ai(t+1)] oj(t)

wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti(t+1) : activacin deseada en la neurona i
ai(t+1) : activacin real de la neurona i
oj(t) : seal emitida por la neurona j y enviada a la neurona i
En esta primera frmula intervienen los valores de los estados de activacin (el que
realmente tiene la unidad y el deseado), por lo que para averiguar si la salida final de la red
es la correcta es preciso tener en cuenta la funcin de transferencia.
Otra formulacin es la siguiente:
wij = [Ti(t+1) oi(t+1)] aj(t)

wij : incremento o decremento del peso sinptico

: tasa de aprendizaje
Ti : es la seal deseada de la unidad i (la unidad de salida)
oi : es la seal producida por la unidad i (la unidad de salida)
aj(t) : es la activacin de la unidad j (la unidad de entrada)
La expresin entre corchetes representa el error que se comete en el nivel de
activacin de la neurona. El nuevo peso sinptico wij se calcula sumando o restando el
incremento obtenido con la frmula general.

VII.2.6.d. Regla Delta Generalizada (o regla de propagacin hacia atrs)

La regla delta no se puede utilizar en redes que tengan ms de dos capas de


unidades pues con l no es posible averiguar en cunto colaboran las unidades de las capas
intermedias en el error total. Dado que hay muchos problemas de clasificacin que las redes
de dos capas no pueden resolver y s lo pueden hacer las redes multicapa, es necesario
ampliar la regla delta para aplicarla a estas ltimas. La regla delta generalizada es
precisamente una modificacin de la regla delta para su aplicacin a redes multicapa Se
suele atribuir su desarrollo a David E. Rumelhart, Geoffrey Hinton, Robert J. Williams
(Learning internal representations by error propagation, en Parallel Distributed Processing:
Explorations in the Microstructure of Cognition, vol. 1, Foundations, ed. David E. Rumelhart
y James L. McClelland, Cambridge: Mit Press, 1986).
Esta regla trabaja con el modelo de aprendizaje supervisado, su aplicacin es vlida
slo con redes alimentadas hacia adelante, y al igual que la regla delta, compara la
respuesta emitida por la red con la respuesta deseada y reajusta los pesos sinpticos de
todas las sinapsis de forma proporcional a la diferencia encontrada. Pero, y esta es la
diferencia fundamental, con la regla delta generalizada el clculo se hace capa a capa desde
la capa de salida hacia la de entrada (de ah que se llame retropropagacin del error, o
mejor, de la correccin del error). Dada la complejidad de la tctica empleada para la
modificacin de los pesos no se incluye en este informe su desarrollo matemtico.
La regla delta de aprendizaje presenta tambin algunas dificultades caractersticas,
por ejemplo, que se caiga en un mnimo local: en el proceso de minimizacin del error la red
puede llegar a una situacin en la que cualquier pequeo cambio en los pesos, positivo o
negativo, incrementa el error; en esta situacin la regla no es capaz de determinar la
direccin en la que se debe mover los pesos para que, con un incremento mayor, el error
vuelva a decrecer.

La regla delta generalizada es una de las ms utilizadas en las redes conexionistas


multicapa alimentadas hacia adelante; desde un punto de vista histrico y metodolgico
supuso un impulso muy importante para el conexionismo pues consigui superar las
dificultades matemticas descubiertas por Minsky y Papert y que tanto frenaron la
investigacin en redes neurales. Con este algoritmo de aprendizaje utilizado en redes
multicapa es posible resolver el problema de la disyuncin exclusiva y el de la distincin
entre T y C (recordamos que estos problemas se utilizaron como ejemplo de las limitaciones
del Perceptrn).

CONEXIONISMO - VIII. ALGUNOS MODELOS


DE REDES NEURONALES
VIII.1. REDES DE McCULLOCH-PITTS O REDES DE NEURONAS FORMALES
VIII.2. PERCEPTRONES
VIII.3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO DE PATRONES
VIII.3.1. La tarea de reconocimiento de patrones: dos explicaciones,
el modelo de plantillas y el modelo de anlisis de caractersticas
VIII.3.2. El Pandemonium: rasgos principales
VIII.3.3. El Pandemonium: base experimental
VIII.3.4. El Pandemonium: dificultades
VIII.3.5. El Pandemonium y el conexionismo
VIII.4. NETtalk: APRENDER A LEER EN INGLS

VIII. 1. REDES DE McCULLOCH-PITTS O REDES DE NEURONAS


FORMALES
En 1943, Warren McCulloch (neurofisilogo) y Walter Pitts (matemtico) publicaron
en el Bulletin of Mathematical Biophysics "Un clculo lgico de las ideas inmanentes en la
actividad nerviosa"; en este artculo defendieron la tesis de que las actividades de las
neuronas y las relaciones existentes entre ellas podan estudiarse mediante la lgica
proposicional. Creyeron que las neuronas tenan un comportamiento biestable (al producir
salidas todo-nada) y que, en este sentido, eran semejantes al comportamiento tambin
biesttico de los conmutadores elctricos (abierto-cerrado). Junto con la idea relativa al
comportamiento supuestamente lgico de las neuronas, presentaron tambin la idea de
construir mquinas de computar con una arquitectura similar a las neuronas. A pesar de su
conocimiento insuficiente de las neuronas y las sinapsis orgnicas, sus ideas han tenido
mucha importancia en el desarrollo de la psicologa cognitiva: consideraron que las leyes
que gobiernan la mente tienen ms que ver con las leyes que gobiernan la informacin que
con las relativas a la materia (idea ms comn a la psicologa cognitiva clsica que al
conexionismo); pero en su comprensin del aprendizaje anticiparon tambin ideas
conexionistas: dieron ms importancia al aprendizaje que a factores innatos, consideraron
que nuestro cerebro comienza con redes aleatorias, que los estmulos provocan conexiones
de una determinada manera y que los estmulos posteriores, si son fuertes y constantes,
llevaran a la red a manifestar una configuracin determinada. Esta configuracin
determinara que la respuesta de la red fuese distinta ante nuevos estmulos. En definitiva,
su artculo fue importante al tratar al cerebro como un organismo computacional.
Demostraron tambin que redes neuronales sencillas, conectadas entre s mediante
sinapsis excitadoras o excitadoras e inhibidoras, y asignando un valor umbral para la
activacin de la unidad de salida, eran capaces de representar adecuadamente las leyes
lgicas fundamentales. Llamaron neuronas formales a las neuronas que componen dichas
redes. Aunque intentaron modelar aspectos elementales de las neuronas biolgicas, las
neuronas McCulloch-Pitts no eran otra cosa que conmutadores lgicos, semejantes a los
circuitos lgicos que se pueden crear mediante simples interruptores por los que pueden fluir
la corriente elctrica.

Las redes siguientes son algunos ejemplos que presentaron en su artculo, y, como
se indica, sirven para calcular los valores de verdad de la disyuncin, la conjuncin y la
conjuncin con negacin. Las neurona poda recibir tanto entradas excitadoras como
inhibidoras. La neurona tomaba valor 0 cuando estaba desactivada y valor 1 cuando estaba
activada (es decir utilizaba una funcin de activacin tipo umbral). La salida de la unidad era
1 cuando estaba activada y 0 cuando estaba desactivada (por lo tanto la funcin de
transferencia era la funcin identidad). En todos los casos el peso sinptico de las
conexiones excitadoras era 1. Las sinapsis inhibidoras provocaban la inhibicin total de la
neurona: independientemente de la cantidad de excitacin que le llegase desde las sinapsis
excitadoras, si una sinapsis inhibidora se excitaba, la neurona quedaba totalmente
desactivada y produca la salida 0; por lo tanto, la neurona produca 1 de salida si y slo si
no reciba ninguna seal inhibidora y las seales excitadoras que reciba igualaban o
superaban el valor umbral. Esta es una de las diferencias fundamentales respecto de las
redes que se utilizan actualmente

pero tambin podemos utilizar los siguientes grficos para representar las neuronas
McCulloch- Pitts, grficos que seguramente resultan ms intuitivos (tomado de Estructura,
dinmica y aplicaciones de las redes de neuronas artificiales, VVAA, Editorial Centro de
Estudios Ramn Areces, p. 103); el nmero en el interior de la neurona indica el umbral

VIII. 2. PERCEPTRONES
En 1958 Frank Rosenblatt escribi The Perceptron, a Probabilistc Model for
Information Storage and Organization in the Brain. Rosenblatt rechaz el uso que McCulloch
y Pitts hicieron de la lgica simblica aplicada a las redes y defendi mtodos probabilsticos.
En esta obra llam perceptrones a unas redes McCulloch-Pitts capaces de modificar los
pesos de sus conexiones si las respuestas de la red no eran las correctas y demostr que
estas redes se podan entrenar para clasificar ciertos patrones en iguales o distintos, por
tanto que eran capaces del reconocimiento de formas sencillas.

Ejemplo de un Perceptrn sencillo


las unidades y conexiones que se muestran son slo ilustrativas
y no reflejan totalmente la complejidad del modelo
El mecanismo de procesamiento del Perceptrn es el siguiente: el patrn a reconocer
incide en la capa sensorial; cada una de las unidades sensoriales responde en forma todo o
nada al patrn de entrada; las seales generadas por las unidades sensoriales se
transmiten a las unidades de asociacin; stas unidades se activan si la suma de sus
entradas sobrepasa algn valor umbral. Cuando una unidad de la capa asociativa se activa,
provoca una seal de salida, la cual va por las sinapsis correspondientes hasta las unidades
de la capa de salida; estas responden de forma muy similar a las de las unidades de
asociacin: si la suma de sus entradas sobrepasa un umbral, producen un valor de salida 1,
en caso contrario su salida vale 0 (por lo tanto, la funcin de actividad de las unidades era
tipo umbral, produciendo actividades con valores discretos, 0 y 1, y la funcin de
trasferencia era la funcin de identidad).
La representacin del Perceptrn utilizada ms arriba puede inducir a pensar que se
trata de una red multicapa, pero este no es el caso: las conexiones entre las unidades
sensitivas y las de la capa de asociacin son fijas, no se modifican durante el aprendizaje;
siempre es preciso presentar a la red el patrn de entrada, y esto se puede hacer de varias
formas, por ejemplo el usuario puede introducir los datos en el ordenador mediante el
teclado, pero si la red est conectada a algn sensor (como el Perceptrn intentaba simular)
los datos le llegarn a travs de l. Por lo tanto, a todos los efectos el Perceptrn puede
considerarse como una red de dos capas, sin unidades ocultas.
El Perceptrn era una red capaz de aprendizaje. En su configuracin inicial a los
pesos de las conexiones se les da valores arbitrarios, por lo que ante la presencia de
estmulos la red genera respuestas arbitrarias, respuestas que no coinciden con las
deseadas. Se considera que la red ha conseguido aprender cuando los pesos se han ajustado
de tal modo que la respuesta que emite es la deseada. El procedimiento propuesto por
Rosenblatt para este entrenamiento era sencillo: se le presenta a la red un patrn cuya
seal se transmite hasta la capa de salida, provocando la activacin de alguna de sus
unidades; si se activan las unidades de respuesta correcta, no se hace ningn ajuste de sus
pesos; si la respuesta es incorrecta se procede de la manera siguiente: si la unidad deba
estar activada y no lo est, aumentar todos los pesos de sus conexiones; si la unidad deba
estar desactivada y est activada, disminuir los pesos de sus conexiones. Se repite este
procedimiento con todos los patrones deseados de estmulo-respuesta. Rosenblatt crey que
era posible hacer que los pesos converjan en un conjunto de valores, a partir de los cuales le

es posible a la red computar cada uno de los patrones de entrada para producir los
correspondientes patrones de salida.
En el prrafo anterior se ha descrito de modo cualitativo y poco preciso la
modificacin que han de sufrir los pesos cuando la red produce errores; existen varios
algoritmos que se pueden utilizar para detallar con exactitud el modo de modificar los pesos
de las conexiones, por ejemplo:
si la respuesta es 0 debiendo ser 1, wij (t+1) = wij(t) + *oi;
si la respuesta es 1 debiendo ser 0, wij (t+1) = wij(t) *oi
donde
wij : es el peso correspondiente a la conexin de la unidad i con la unidad j
oi : es la salida de la unidad i
: es la tasa de aprendizaje que controla la velocidad de adaptacin
En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An Introduction to
Computational Geometry. En esta obra analizaron las capacidades y limitaciones del
Perceptrn, y demostraron que hay ciertas clases de problemas que el Perceptrn y
cualquier modelo simple de dos capas no puede resolver. Los perceptrones slo pueden
distinguir tramas o patrones linealmente separables, y dado que hay muchos e importantes
problemas que no son linealmente separables, concluyeron que los perceptrones son poco
adecuados como clasificadores de patrones. Adems ampliaron su crtica afirmando que
esta dificultad no se puede resolver con redes multicapa (algo que posteriormente se
demostr errneo). Decimos que un patrn o conjunto de datos de entrada de la red es
linealmente separable cuando el espacio de todas las entradas puede dividirse en dos
regiones, quedando en uno de los lados del hiperplano las correspondientes a una categora
y en la otra parte del hiperplano las correspondientes a otra categora. Se llaman
hiperespacios a los espacios n-dimensionales (por ejemplo, el espacio euclideo es un caso
particular de hiperespacio, y consta de tres dimensiones); se llaman hiperplanos a los
objetos de n-1 dimensiones que dividen un hiperespacio de n dimensiones en varias
regiones; en el caso de un espacio bidimensional, el hiperplano es una lnea que
descompone el espacio en dos regiones; en el caso del espacio tridimensional, el
hiperespacio es un plano y puede dividir el espacio en tres regiones. En la resolucin de
problemas puede ser til la referencia a los hiperplanos puesto que permiten separar
regiones de puntos de un hiperespacio en categoras individuales o clases, por lo que es un
recurso til para distinguir unas clases de otras.
La obra de Minsky y Papert supuso un importante freno en el desarrollo de la
investigacin en redes neuronales pues convenci a la administracin americana de la
bondad de la arquitectura tradicional (la arquitectura Von Neumann) y de la incompetencia
de las arquitecturas de redes neuronales, y llev a muchos investigadores a preocuparse por
la lnea tradicional en psicologa cognitiva e Inteligencia Artificial y despreocuparse de los
modelos conexionistas.
Se puede comprender la crtica de Minsky y Papert y el problema de la separabilidad
lineal si nos fijamos en uno de los ms conocidos y sencillos problemas que la red no puede
resolver: el relativo al problema XOR o disyuncin exclusiva. Dado que el Perceptrn es
capaz de asociar patrones de entrada con patrones de salida y que las tablas de verdad de
los funtores son tambin correspondencias entre pares de valores de verdad y el valor del
enunciado molecular compuesto por el funtor correspondiente, parece que podemos utilizar

los perceptrones para decidir los valores de verdad de los enunciados moleculares; por
ejemplo, la tabla de verdad de la funcin AND (la conjuncin) y de la funcin OR (la
disyuncin inclusiva) son las siguientes
x1
0
0
1
1

x2 x1 x2
0
1
0
1

x1

0
0
0
1

0
0
1
1

tabla de verdad de la
conjuncin

x2 x1 x2
0
1
0
1

0
1
1
1

tabla de verdad de la disyuncin inclusiva

La tarea que tiene que realizar el Perceptrn es, en el primer caso, aprender a asociar
la entrada (1,1) con la salida 1, y las entradas restantes con la salida 0; en el segundo caso
debe aprender a asociar la entrada (0,0) con la salida 1, y las entradas restantes con la
salida 1. La red que se ha de utilizar para realizar la computacin debe constar de dos
unidades de entrada y una unidad de salida: cada unidad de entrada recoge uno de los
elementos del patrn de entrada y la unidad de salida produce una salida, que es la que
corresponde a la solucin.
Como se ha indicado, para la funcin OR (disyuncin inclusiva) la
red debe ser capaz de devolver la salida 0 si se le presenta el patrn
(0,0) y para los restantes patrones la salida 1; para la funcin AND
(la conjuncin) la red debe devolver la salida 1 para el patrn (1,1) y
0 para los restantes patrones. Veamos el caso de la funcin OR:
x1 y x2 son las entradas a la neurona;
en las neuronas de la capa de entrada la salida es igual a
su entrada;
w1 y w2 son los pesos de las conexiones entre las
neuronas de entrada y la neurona de salida;
la entrada neta es la suma ponderada de las entradas
(w1x1 + w2x2);
la funcin de activacin de la neurona de salida es la
funcin identidad;
la salida es discreta tomando alguno de los valores del
par (1,0);
la funcin de salida o transferencia es de tipo escaln, es
decir establece un umbral que es necesario superar para
que la salida sea 1.
De este modo, tendramos:

entrada neta = w1x1 + w2x2

activacin de la unidad de entrada = w1x1 +


w2x2

valor de salida = 1 si w1x1 + w2x2 umbral

0 si w1x1 + w2x2 < umbral


Para el caso de la disyuncin inclusiva, el umbral puede ser cero o superior, sin
embargo, para la conjuncin el umbral ha de ser mayor que cero. Es posible entrenar a la
red para que modifique sus pesos de modo que converjan en los adecuados para producir el
patrn de salida adecuado. Expresado en trminos de hiperplanos, la red resuelve los
problemas lgicos anteriores si existe un hiperplano capaz de distribuir el plano en dos
regiones: en el caso de la funcin AND (la conjuncin), en una regin quedaran los patrones
de entrada (0,0), (0,1), (1,0) y en la otra regin el patrn (1,1); en el caso de la funcin OR
(la disyuncin inclusiva), en una regin quedara el patrn (0,0) y en la otra los patrones de
entrada (0,1), (1,0), (1,1); estos patrones corresponden a los valores de verdad posibles de
los enunciados que componen el enunciado molecular. Veamos cmo se puede utilizar este
mtodo:

primero construimos un plano en el que se pueda representar cada uno de los


vectores de entrada; el plano tendr las coordinadas x1, x2;

en segundo lugar, mediante puntos, situamos en el plano los cuatro valores de


verdad correspondientes a la funcin lgica que se quiere computar;

en tercer lugar, representamos en el plano la ecuacin w1x1 + w2x2 (que


corresponde a la funcin de activacin); w1 y w2 son los pesos y x1 y x2 los
distintos patrones de entrada. Esta ecuacin es la ecuacin de una lnea en el plano
x1, x2.

La recta divide el espacio en dos regiones que podramos interpretar uno como
correspondiendo al valor 1, y el otro como correspondiendo al valor 0; si en cada una de
estas regiones se incluye el patrn de entrada correspondiente, entonces podemos decir que
la red es capaz de computar la funcin lgica, pues distribuye adecuadamente los valores de
verdad del patrn de entrada con el valor de salida que les debe corresponder. En las figuras
siguientes se muestra el plano xi, x2 con los cuatro puntos que corresponden a los cuatro
vectores de entrada (0,0), (0,1), (1,0), (1,1).

en la funcin AND al vector (0,0) le debe


corresponder la salida 0, al (0,1) la salida 0,
al (1,0) la salida 0 y al (1,1) la salida 1 (en el
grfico la salida se pone en negrita); como se
puede apreciar, la recta generada por la
ecuacin w1x1 + w2x2 permite distribuir
correctamente los valores de salida, luego la
red podra computar la funcin lgica AND

en la funcin OR al vector (0,0) le debe


corresponder la salida 0, al (0,1) la salida 1,
al (1,0) la salida 1 y al (1,1) la salida 1; como
en el caso anterior, la recta tambin
distribuye correctamente los valores de salida,
por ello la red podra computar la funcin
lgica OR

Sin embargo, la red de dos capas no puede computar adecuadamente la funcin


lgica XOR (la disyuncin exclusiva); vemoslo:
x1 x2
0
0
1
1

0
1
0
1

x1
x2
0
1
1
0

tabla de verdad de la disyuncin exclusiva


si ahora representamos en el plano las vectores de entrada y los valores de verdad
correspondiente, tenemos
Se observa fcilmente que con una sola lnea es imposible
separar los puntos 1 y 1 de los puntos 0 y 0; no hay forma de
disponer la lnea de modo que separe los conjuntos de puntos
citados. Esto es precisamente lo que se quiere indicar cuando
se dice que este problema no es linealmente separable. Si
tuvisemos dos lneas entonces sera posible descomponer el
espacio en tres regiones, en dos de las cuales se encontraran
los puntos 0 y en la otra los puntos 1. Los perceptrones de dos
capas no pueden dar lugar ms que a una lnea, pero podemos
conseguir dos lneas si entre la capa de entrada y la de salida
situamos una capa intermedia con dos neuronas, cada una de
las cuales nos permitir obtener una lnea (ver grficos de la
pgina siguiente). En la poca de Rosenblatt no se dispona de
un algoritmo de aprendizaje adecuado para redes con capas
ocultas y hubo que esperar a los aos ochenta para su perfecto
desarrollo (la regla delta generalizada) y, por lo tanto, para la
superacin del problema de la separabilidad lineal.

Red multicapa con unidades


ocultas que resuelve
correctamente el problema
XOR. Si el umbral de la
unidad c = 0.4, de la d =
1.2, de la e = 0.5 y los
pesos wca = 1, wcb = 1,
wda = 1, wdb = 1, wec =
0.6, wed = -0.4, la red da
lugar a la representacin
grfica inferior. Se aprecia
que las dos lneas crean una
regin en donde se sita el
conjunto formado por 1 y 1
y dos regiones en donde se
sitan los otros dos valores;
por lo tanto, la red
resuelve el problema XOR

VIII. 3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO


DE PATRONES
VIII. 3. 1. La tarea de reconocimiento de patrones: dos explicaciones, el modelo de
plantillas y el modelo de anlisis de caractersticas
Una caracterstica del sistema de procesamiento visual humano es su flexibilidad:
somos capaces de identificar un patrn, un tipo de estmulo, con independencia sus posibles
variaciones en tamao, posicin en el contexto y orientacin espacial; e incluso cuando su
forma vara en ciertos lmites; fijmonos en los siguientes ejemplos:
En todos ellos reconocemos sin dificultad la
letra "E", y todos ellos pueden interpretarse como
variaciones del mismo patrn, el correspondiente a
dicha letra. Podemos llamar reconocimiento de
patrones al hecho de identificar distintos estmulos
como perteneciendo a la misma clase, como siendo
del mismo tipo. Los psiclogos han presentado
diversas teoras para comprender el modo en que
nuestra mente es capaz de reconocer patrones; una
de las primeras y ms sencillas es la de
comparacin de plantillas. Segn esta teora en
nuestra memoria debe haber un modelo o plantilla
correspondiente a cada forma que podamos
reconocer. Cuando vemos un objeto, la imagen que

se produce en la retina se la compara con las


plantillas almacenadas en nuestra memoria y aquella
que mejor se ajusta a la imagen retiniana es la que
identifica al objeto visto. Fcilmente se ve que esta
teora no es satisfactoria: un cambio en la posicin,
tamao u orientacin del objeto provocara un
desajuste que hara imposible el reconocimiento.
Adems no podramos reconocer formas deterioradas
pues tampoco coincidiran con las plantillas.
Podramos modificar la teora para superar estas dificultades: por ejemplo suponiendo
que existen tantas plantillas almacenadas como variedades posibles de posicin, rotacin,
tamao y distorsin, pero est claro que sta no es una buena solucin pues exigira un
nmero tan grande de plantillas que ni siquiera el cerebro podra almacenar. Otra estrategia
ms razonable consistira en suponer que antes de la comparacin del input retiniano con las
plantillas nuestra mente realiza un anlisis preparatorio, lo que algunos autores llaman
preprocesamiento: mediante este anlisis las imgenes retinianas se someten a un
proceso de normalizacin que los traduce a un formato estndar compatible con los
formatos de las plantillas existentes en nuestra memoria (ajustando el tamao y la
orientacin por ejemplo). Existen algunos resultados experimentales que parecen avalar la
hiptesis de la normalizacin.
Algunas de las dificultades del modelo de plantillas se pueden resolver con otro
modelo algo ms complejo que el anterior: el modelo basado en el anlisis de
caractersticas. Esta teora defiende que nuestra mente no trabaja con copias exactas de la
informacin sino con el anlisis de las caractersticas internas de cada patrn; por ejemplo,
el sistema visual utilizara un anlisis de caractersticas al menos en las siguientes
dimensiones: lneas y sus variantes (verticales, horizontales, oblicuas), ngulos y sus
variantes y curvas. En la memoria se representa cada patrn mediante una lista de sus
caractersticas geomtricas y (al menos en las versiones ms elaboradas) sus
correspondientes pesos. As, la letra "A" podra representarse mediante la siguiente lista de
caractersticas: pesos altos: dos lneas inclinadas, una hacia la derecha y otra hacia la
izquierda, una lnea horizontal, un ngulo apuntando hacia arriba; pesos bajos o nulos:
lneas verticales, lneas curvas discontinuas, ngulos rectos, etc. El patrn estimular activa
los detectores de caractersticas, y la configuracin de la activacin resultante se comparara
con la de los patrones almacenados en la memoria; la configuracin que mejor se ajuste
determinara la interpretacin perceptual del sistema.
VIII. 3. 2. El Pandemonium: rasgos principales
El Pandemonium propuesto por O. Selfridge en su escrito de 1959 Pandemonium:
A paradigm for learning es precisamente uno de los primeros y ms conocidos modelos de
reconocimiento de patrones basados en el anlisis de caractersticas. Originariamente el
Pandemonium se concibi como un programa de ordenador para reconocer seales del
cdigo Morse, pero posteriormente se le dio una interpretacin psicolgica como modelo de
reconocimiento alfanumrico. La exposicin y comentarios que siguen se refiere precisamente
a la versin ms conocida del Pandemonium (la de Lindsay y Norman en su obra
Introduccin a la psicologa cognitiva) y cuyo objetivo es el reconocimiento de letras. El
Pandemonium consiste en varios conjuntos de unidades a las que Selfrigde dio el nombre
de demonios, unidades que realizan distintas tareas y provocan la informacin de salida (la
identificacin de la forma presentada al sistema). El dibujo siguiente es una representacin

habitual del Pandemonium (tomado de Linsay y Norman, Introduccin a la psicologa


cognitiva).

Los
tipos
de
demonios de los que
consta el modelo son
los siguientes:
Demonios de la
imagen: su tarea es
registrar la imagen del
signo externo.
Demonios
de
caractersticas:
la
tarea de las unidades
de este tipo es analizar
la imagen registrada;
cada
demonio
de
caractersticas
est
especializado
en
un
aspecto particular de la
forma (unos detectan
lneas, otros ngulos,
otros curvas, ...) por lo
que el procesa- miento
en este nivel consiste
en la descomposicin
de la forma en sus
caractersticas
relevantes;
cada
demonio
de
caractersticas detecta
la presencia de alguno
de los rasgos para los
que ha sido definido
(por
ejemplo
el
demonio
correspondiente a las
lneas verticales detecta
la presencia y nmero
de lneas verticales en
la figura).
Demonios cognitivos: reciben y examinan la informacin de los demonios de
caractersticas; cada demonio cognitivo est especializado en el reconocimiento de una
forma (por ejemplo, uno para la letra "A" otro para la "B", ...) y busca en los datos que les
ofrecen los demonios de caractersticas la presencia de los rasgos que definen la letra en la
estn especializados (por ejemplo el demonio cognitivo de la letra "A" buscar la presencia
de una lnea horizontal, dos oblicuas y tres ngulos agudos).

Demonio de decisin: cuando un demonio cognitivo encuentran una caracterstica que


buscaba empieza a gritar y cuantas ms caractersticas descubre ms grita; la tarea del
demonio de decisin es escuchar el Pandemonium producido por los demonios cognitivos y
seleccionar el que grita ms fuerte; la interpretacin que el sistema hace de la forma que se
le presenta corresponde a la letra decidida por este demonio.
Una cuestin muy importante que tiene que decidir el diseador de un Pandemonium
es la de determinar las caractersticas de cada patrn. Se han dado distintas propuestas de
los criterios ms adecuados para ello, propuestas entre las que destaca la que present en
1969 E. J. Gibson en su obra Principles of perceptual learning and development. Los
criterios que defendi se referan a la seleccin de la lista de caractersticas para las letras
maysculas, y son los siguientes:
1. Las caractersticas crticas deben estar presentes en algunos miembros,
pero no en otros, de modo que permitan una clara distincin entre ellos.
2. No deben variar cuando cambia el brillo, tamao o perspectiva.
3. Deben producir un nico patrn para cada letra.
4. La lista no debe ser muy extensa.
Ms explcita es la propuesta de Linsay y Norman en su libro ya clsico Introduccin
a la psicologa cognitiva. El cuadro siguiente (tomado de dicha obra) presenta los demonios
de caractersticas necesarios para la identificacin de una letra y los valores que activan
para cada una de las letras del alfabeto. Mediante las siete caractersticas citadas podemos
identificar adecuadamente la totalidad de las letras.
Lneas
verticales
A
B

Lneas
horizontales

Lneas
oblicuas

ngulos
rectos

ngulos
agudos

Curvas
continuas

3
4

1
2
1

O
P
Q

Curvas
discontinuas

1
1

3
1

1
2

2
1

Y
Z

1
2

En realidad, el modelo basado en el anlisis de caractersticas es semejante al de


comparacin de plantillas, slo que aqu las plantillas son las partes geomtricas que
componen la letra (podramos llamar a cada caracterstica miniplantilla) y en el segundo
caso las letras mismas. Parece que este modelo puede explicar lo que el modelo de plantillas
puede explicar (ya que las plantillas estn compuestas por caractersticas) y, adems, otra
serie de fenmenos para los que el modelo de plantillas es ineficaz.
VIII. 3. 3. El Pandemonium: base experimental
La teora del anlisis de caractersticas (bien sea al modo del Pandemonio, bien sea
con otro tipo de architectura) goza de un apoyo experimental razonable, apoyo mayor que la
teora de las plantillas. Veamos alguno de estos experimentos:

En su artculo de 1964 Visual search (Scientific American, 210) Neisser plante la


siguiente hiptesis: si el modelo de deteccin de caractersticas es correcto la
identificacin de una letra (que podramos llamar letra-objetivo) en un contexto
formado por otras letras con caractersticas muy semejantes ser ms lenta que la
identificacin de una letra en un contexto formado por letras con caractersticas muy
distintas; por ejemplo la identificacin de la letra-objetivo "Z" en el contexto de las
letras "X", "L", "N" (letras angulosas) ser ms lenta que la identificacin de dicha
letra-objetivo en el contexto de las letras "C", "S" o "G" (letras redondeadas). Esta
hiptesis parece razonable puesto que se debe tardar ms en rechazar una "N" que
una "C", puesto que la "Z" comparte con la "N" ms rasgos que con la "C". En los
experimentos, los sujetos tardaban ms en identificar la letra-objetivo cuando
estaban en un contexto con letras similares que cuando estaban en un contexto con
letras menos parecidas.

Existen ciertas tcnicas que nos permiten preparar el ojo de tal modo que la imagen
visual en la retina sea la misma aunque el ojo cambie de posicin; en estos casos se
observa (y quiz por la fatiga de los receptores retinianos) que la imagen empieza a
desaparecer, pero lo hace perdiendo partes significativas, no al azar (la imagen
detenida va perdiendo lneas rectas, curvas, segmentos significativos, ...). Estos
estudios de fragmentacin perceptual parecen avalar la teora del anlisis de
caractersticas.

Otro conjunto de experimentos importante se refiere a las confusiones que se


producen en el reconocimiento de letras cuando stas se presentan en condiciones
que dificultan su identificacin. Existen varias tcnicas para provocar la confusin en
los sujetos que realizan la tarea (por ejemplo utilizar el taquistoscopio para presentar

estmulos en tiempos extremadamente breves). Los resultados de estos


experimentos muestran que las letras que comparten ms caractersticas tienden a
confundirse, algo que la teora del anlisis de caractersticas predice.

Algunas investigaciones sugieren la existencia de diversos tipos de clulas nerviosas


funcionalmente distintas, clulas que responden selectivamente a distintos estmulos:
unas a bordes, otras a vrtices, otras a barras luminosas, otras a barras oscuras,
...). Sin embargo los resultados y experimentos son controvertidos y no hay un
acuerdo unnime en este punto. En el caso de existir la especializacin nerviosa
citada, la teora de los detectores de caractersticas quedara fuertemente avalada.

VIII. 3. 4. El Pandemonium: dificultades


Pero, ms all de su bondad (por ejemplo para explicar la identificacin de los
caracteres escritos y las formas geomtricas sencillas) el modelo del Pandemonium y, en
general, la teora del anlisis de caractersticas, presenta importantes deficiencias si lo
queremos utilizar como una teora general del reconocimiento de patrones. Veamos alguna
de ellas:
El Pandemonium no puede distinguir entre una "T" y una "T" invertida, o una letra y
su imagen en el espejo. La causa de estas limitaciones est en el tipo de informacin que el
sistema considera relevante para la identificacin: el Pandemonium se fija en los elementos
que componen el patrn pero no en sus relaciones estructurales. Las relaciones
estructurales tienen que ver, por ejemplo, con el modo de estar localizados y orientados
unos rasgos respecto de otros (la simetra, la interseccin, la igualdad, ...), y, sin duda,
intervienen realmente en el modo en que nosotros reconocemos patrones. Adems,
posiblemente nuestra mente atiende a este tipo de relaciones para distinguir variantes del
mismo patrn: vemos como distintos los signos A, A, A, y A (aunque todos sean ejemplos
de la letra "A"), somos capaces de clasificar ejemplos del mismo patrn en grupos a partir
de sus semejanzas. Seguramente debido a la limitacin citada, el modelo del Pandemonium
no puede explicar esta competencia (por ejemplo, el demonio de decisin responder del
mismo modo y sin matices ante dichos signos).
Otra limitacin de este modelo es que no introduce datos de alto nivel como puede
ser la informacin contextual (se ha demostrado experimentalmente que el sentido global de
una frase interviene en la interpretacin particular que se le asigna a una letra), o las
expectativas inducidas.
Por lo dems, cuando creamos un Pandemonium e intentamos comprobar su validez,
parece necesario que nosotros hayamos interpretado antes el estmulo en los trminos de
las categoras fsicas que el propio sistema utiliza para definir el patrn (lneas rectas,
curvas, ngulos, ...), de tal manera que, en realidad, el Pandemonium interpreta lo que
antes nosotros hemos interpretado del estmulo, no interpreta el estmulo mismo; para que
de verdad fuese capaz de realizar esto ltimo al sistema se le debera presentar la energa
luminosa del propio estmulo (es decir, debera estar conectado a un sensor y utilizar los
datos que ste le ofrezca). Por ejemplo, si al sistema le presentamos una letra que conste
de una lnea recta, no es cierto que el estmulo bsico o primitivo sea propiamente una lnea
recta pues esto ya exige una interpretacin (es necesario saber qu es una lnea recta);
nuestra mente es capaz de descubrir lneas rectas en el entorno, y es necesario una
explicacin de esta competencia; el Pandemonium no da cuenta de la habilidad de nuestra
mente para captar este tipo de regularidad en los estmulos. O dicho en otros trminos: en

el reconocimiento de patrones existe un procesamiento de la informacin anterior y ms


bsico que el que nos ofrece los modelos al estilo del Pandemonium.
Por ltimo, y relacionado con lo anterior, el modelo del Pandemonium tiene poca
validez ecolgica: puede ser competente en situaciones bastante artificiales (pocos patrones,
cada uno de ellos compuesto de un nmero reducido de categoras y que se ofrecen en
condiciones perceptuales ptimas), como ocurre en el caso de las letras del alfabeto; sin
embargo, en situaciones normales, los estmulos son objetos tridimensionales y se ofrecen
en condiciones fsicas no necesariamente perfectas (poca iluminacin, sombras, escorzos,
mezcla de unos objetos con otros, ...); en estas situaciones reales la eficacia de un
Pandemonium es prcticamente nula.
VIII. 3. 5. El Pandemonium y el conexionismo
Este modelo de identificacin de patrones se puede incluir en el enfoque conexionista
pues presenta algunos de sus rasgos principales:
1. Existen muchas unidades de procesamiento.
2. La informacin se almacena de un modo bastante distribuido: en el nivel de
los demonios de caractersticas cada letra se define por la activacin de un
conjunto de unidades y cada unidad colabora en la identificacin de varias
letras.
3. El procesamiento es en paralelo pues todas las unidades de cada nivel
actan simultneamente.
4. Las unidades estn conectadas entre s formando distintos niveles o capas.
5. La entrada y la salida de cada una de las unidades se expresa de modo
cuantitativo.
6. El cmputo que realiza el sistema es bsicamente de tipo cuantitativo y
probabilstico (los demonios cognitivos reciben informacin cuantitativa de
los demonios de caractersticas y envan su seal al demonio de decisin de
modo cuantitativo (gritando mucho, poco o nada).
Pero tambin encontramos algunas importantes diferencias:

La primera y ms llamativa se refiere al sistema de representacin grfica utilizado:


en los modelos conexionistas tpicos las unidades se suelen representar con crculos,
reciben el nombre de neuronas y las conexiones entre ellas se representan mediante
lneas rectas; en el Pandemonium las unidades reciben el nombre de demonios, se
las representa mediante pequeos diablillos, y las conexiones entre ellas mediante
flechas ms o menos imaginativas.

En el Pandemonium las conexiones son excitatorias: en el sentido de que si un


demonio de caractersticas detecta un caracterstica enva su seal a un demonio
cognitivo provocando un aumento en la posibilidad de que este se active o un
incremento en su activacin; a su vez el incremento de los demonios cognitivos
provoca un aumento en la posibilidad de que el demonio de decisin se decida por el
carcter que representa dicho demonio cognitivo; pero el Pandemonium (al menos
en sus versiones ms sencillas) no presenta conexiones inhibitorias mientras que las
redes conexionistas tradicionales s lo hacen.

Aunque, como se ha dicho, el sistema es un sistema de representacin distribuida,


las redes tradicionales distribuyen de un modo ms acentuado la informacin. Un
aspecto de esta diferencia se refiere a la interpretacin cognitiva: en los modelos de
redes conexionistas en los que la informacin est ms distribuida las unidades no
representan ni significan nada, los significados y las representaciones aparecen como
consecuencia de la interaccin entre una muchedumbre de unidades, y se reflejan
particularmente en el patrn de pesos y el patrn de actividad. En el Pandemonium
hay, al menos, un nivel en el que es posible la interpretacin cognitiva puesto que en
l la informacin se representa de forma localista y no distribuida (el de los demonios
de caractersticas, en donde cada demonio representa una letra) Por otro lado, es
cierto que tambin se han propuesto importantes ejemplos de redes conexionistas
con unidades que permiten una interpretacin cognitiva (por ejemplo la red NETtalk
explicada ms abajo), y, por lo tanto, representaciones locales.

El Pandemonium no presenta de modo preciso las modificaciones cuantitativas que


sufren las unidades (por ejemplo la intensidad exacta necesaria para la activacin de
un demonio cognitivo, ni la magnitud exacta de la seal que enva un demonio
cognitivo al demonio de decisin para que se decida por la letra correspondiente al
demonio cognitivo).

En el modelo tampoco encontramos conceptos habituales en el procesamiento de las


redes conexionistas tradicionales (umbral, funcin de activacin, funcin de
transferencia, .... );

El procesamiento realizado por el Pandemonium depende de las asignaciones que el


diseador del sistema a establecido, las cuales dependen, a su vez, de la
comprensin que el diseador tiene de las caractersticas esenciales de las letras (por
ejemplo, considerar que la caractersticas esenciales de la letra G son tener una lnea
vertical, una lnea horizontal, un ngulo recto y una curva discontinua); por esta
razn en realidad el Pandemonium no es un sistema capaz de aprender a reconocer
formas (no sufre un proceso de modificacin de las unidades para adecuar la entrada
con la salida del sistema) ni utiliza algoritmos de aprendizaje; sin embargo las redes
tradicionales pueden aprender en el sentido citado y para ello disponen de algoritmos
de aprendizaje. El Pandemonium puede llegar a reconocer patrones pero su
capacidad se debe bsicamente a la comprensin que el diseador tiene de la
estructura de los patrones que ha de identificar.

De todos modos, las diferencias anteriores no son significativas pues algunas se


refieren incluso a cuestiones de ndole esttico (el uso de demonio en vez de neurona, o
los dibujos de las unidades); y la mayora de ellos se deben a la falta de concrecin con
habitualmente se presenta el Pandemonium. De hecho es posible utilizar las ideas bsicas
que utiliza este modelo para explicar nuestra capacidad para reconocer patrones y reflejarla
de un modo ms preciso y detallado y en trminos similares a las redes conexionistas
tradicionales. Es lo que ocurrira si intentsemos implementar el Pandemonium en un
ordenador; en este caso sera preciso concretar con precisin las modificaciones
cuantitativas que afectan a las unidades, a la vez que las funciones matemticas que
determinan el cmputo en los distintos niveles de procesamiento; incluso podran aadirse
conexiones inhibitorias para favorecer el procesamiento. Con estos complementos (que no
implican un cambio en el modelo sino su concrecin) la representacin y arquitectura del
Pandemonium de Selfridge tendra el mismo aroma que los modelos conexionistas
tradicionales.
Sin embargo, en donde las diferencias estn ms marcadas es en el tema del
aprendizaje. Ya se ha dicho que una de las caractersticas principales de las redes

conexionistas es que aprenden a reconocer patrones, no slo que reconocen patrones; pero
en el caso del Pandemonium quien debe aprender es el diseador de la red: debe descubrir
y aprender cules son las caractersticas bsicas que tiene cada letra (ngulos, lneas rectas,
lneas curvas, ...) y debe descubrir a mano las dificultades con las que puede tropezar el
sistema para realizar un procesamiento eficaz. Por ejemplo, si intentamos poner en
funcionamiento el Pandemonium podemos observar que en principio tendra dificultades
para distinguir la letra "P" de la "R": la "P" tiene una lnea vertical, dos horizontales, tres
ngulos rectos y una curva discontinua y la "R" todas ellas ms una lnea oblicua, de modo
que los demonios cognitivos de la "P" y la "R" se activan por igual y el demonio de decisin
no podr elegir entre ellos. El diseador ha de utilizar alguna estrategia para resolver este
problema, por ejemplo obligar a que un demonio cognitivo se active al mximo si y slo si
estn presentes todas las caractersticas de la letra correspondiente, de este modo tanto la
ausencia de una caracterstica como la presencia de una caracterstica irrelevante inhibir la
respuesta de la unidad. Con este ejemplo se quiere sealar que el modelo del Pandemonium
exige que el diseador conozca la lgica del procesamiento de la informacin para el
reconocimiento de patrones, algo que, como se sabe, constituye uno de los objetivos de la
psicologa cognitiva tradicional. Esto no ocurre en el caso de los modelos conexionistas: en
ellos la red utiliza algoritmos para la modificacin de los pesos de sus conexiones y gracias a
dichas modificaciones puede aprender por s misma a reconocer los patrones (una
consecuencia de ello es que en los modelos conexionistas no es posible saber cules son los
elementos relevantes que la red toma en cuenta para el procesamiento ni el orden ni la
lgica de dicho procesamiento; precisamente la originalidad del planteamiento conexionista
es
que
rechaza
la
existencia
de
reglas
de
procesamiento).

VIII. 4. NETtalk: APRENDER A LEER EN INGLS


Terrence Sejnowsky y Charles R. Rosenberg escribieron en 1986 NETtalk: A
Parallel Network that Learns to Read Aloud. En este artculo presentaron la red NETtalk,
cuya finalidad era leer y hablar textos en ingls.
NETtalk tiene una estructura de tres capas interconectadas con cerca de 20.000
sinapsis:
en la capa de entrada encontramos 7 grupos de 29 unidades cada uno (203
unidades de entrada);
la capa oculta consta de 80 unidades;
y la capa de salida de 26 unidades.
De las 29 neuronas que consta cada grupo de la capa sensorial, 26 codifican una letra
del alfabeto ingls y las otras tres restantes la puntuacin y los lmites entre palabras.
Puesto que las unidades de entrada se distribuyen en siete grupos, el patrn de entrada que
la red es capaz de reconocer ha de ser de 7 caracteres como mximo. Las unidades de
salida o motoras codifican las dimensiones fundamentales del habla: fonemas, acentos y
hiatos entre slabas.
La red transformaba los datos de entrada (las letras) en fonemas o sonidos. Dado
que los pesos originales se establecieron al azar, los primeros resultados no eran buenos; el
entrenamiento consisti en presentar cerca de 1000 palabras del habla corriente de un nio;
un maestro o supervisor controlaba la correccin de la respuesta de la red y modificaba los
pesos mediante la regla delta generalizada (entrenamiento con propagacin hacia atrs).

Tras casi 50.000 presentaciones y las modificaciones correspondientes de sus pesos, la red
era capaz de leer y hablar con una exactitud del 95 por ciento.
Resultan sorprendentes algunas semejanzas entre NETtalk y la capacidad lingstica
humana:

la progresiva eficacia de la red guarda cierta semejanza con la de los nios: las
primeras respuestas se parecen a los balbuceos sin sentido de un beb, pero el
sucesivo ajuste de los pesos mejora la calidad de los balbuceos lentamente, hasta
culminar en unas respuestas coherentes e inteligibles ante cualquier texto en ingls;

es capaz de generalizar: al presentarle nuevas palabras del mismo nio el sistema


era capaz de leer y pronunciar con una exactitud del 78 por ciento;

degradacin elegante: la red muestra una clara resistencia al dao; la destruccin de


algunos elementos de la red no tiene consecuencias catastrficas en el rendimiento
total, simplemente disminuye su rendimiento.

Las propiedades citadas son las que cabra esperar de un sistema de procesamiento
distribuido y paralelo (como se ha comentado en la seccin correspondiente), y, sin duda,
resulta ms eficaz para modelar la capacidad humana para detectar patrones que los
modelos de plantillas y de anlisis de caractersticas.
La figura siguiente es un esquema simplificado de la arquitectura del NETtalk (tomado
de Soledad Ballesteros, Psicologa General. Un enfoque cognitivo).

CONEXIONISMO - IX. REDES NEURONALES


PARA EXPLICAR EL CEREBRO
Cuando nos enfrentamos con la difcil tarea de comprender los presupuestos, tesis y
alcance del conexionismo muy pronto se nos presenta la siguiente pregunta: los modelos
conexionistas, qu quieren explicar, la mente o el cerebro? Son modelos de la mente o del
cerebro? Una respuesta que habitualmente se ofrece es que las redes conexionistas se han
desarrollado en el campo de la psicologa para explicar habilidades y competencias mentales
(percepcin, lenguaje, pensamiento, ...); ese tipo de redes pertenecen a la psicologa y son
modelos de la mente; frente a ellas, se indican ejemplos de redes creadas en el marco de la
neurociencia para dar cuenta de procesos puramente cerebrales (y, en este caso, son por lo
tanto modelos del cerebro).
Con el trmino psicobiologa podemos referirnos al enfoque que intenta explicar el
mundo de la mente y la conducta a partir de elementos, estructuras y procesos biolgicos.
Una parte importante de esta disciplina incluye el estudio de la influencia que sobre la
psque tienen las substancias qumicas, tanto exgenas como endgenas (por ejemplo el
influjo de los neurotransmisores en la conducta). Pero parece claro que tambin el estudio
de cmo la arquitectura y procesos del sistema nervioso influyen en la mente y la conducta
(lo que cabra llamar psiconeurologa) debe formar parte de la psicobiologa. En el
momento actual de la ciencia disponemos ya de explicaciones biologistas para dar cuenta de
importantes fenmenos psicolgicos, y no slo en el mbito de los trastornos de conducta;
no es arriesgado afirmar que en el campo de la percepcin este enfoque ya nos permite
explicar algunos fenmenos perceptuales (por ejemplo, simplemente el hecho de poder
percibir colores, o la distincin de contornos a partir de peculiaridades del procesamiento
neural como la del efecto de la inhibicin lateral, ...). Aunque la siguiente tesis exigira,
naturalmente, un anlisis cuidadoso parece que el conexionismo tiene como destino
formar parte de la psicobiologa (o psiconeurologa) antes que de lo que
tradicionalmente entendemos por psicologa.
El conexionismo oscila entre las siguientes posiciones:

la Inteligencia Artificial: si las redes que se construyen no intentan reproducir el


funcionamiento real del cerebro y buscan, simplemente, imitar competencias
tpicamente humanas, entonces no tenemos psicobiologa pero tampoco psicologa,
tenemos una tecnologa que nos faculta para construir arquitecturas que puedan ser
implementadas en sistemas fsicos no biolgicos como los ordenadores y los robots
(por ejemplo para el reconocimiento de textos, el reconocimiento del habla, el
movimiento preciso en un entorno poco amigable, ...);

la biologa: si se construyen redes que quieren ser fieles a los mecanismos y


estructuras reales de nuestro sistema nervioso, y se las utiliza para dar cuenta de
competencias tradicionalmente atribuidas a la mente (lenguaje, percepcin,
memoria, ...); este enfoque no es psicologa (al menos psicologa mentalista) sino
psiconeurologa y, por supuesto, sus descubrimientos pueden tener relevancia en
Inteligencia Artificial.

El conexionismo parece ser una teora que apela al cerebro para explicar
competencias atribuidas tradicionalmente a la mente. Con esto se quiere sugerir que desde

el conexionismo se defiende la tesis de que lo mental no tiene un estatuto propio, que la


vida mental no posee un tipo de regularidades que puedan dar lugar a una disciplina
independiente de la biologa (ms exactamente de las ciencias del sistema nervioso). En
esta lnea de interpretacin se incluyen, por ejemplo, las tesis de dos de los representantes
ms destacados en el campo de la reflexin terica sobre el sentido, valor y lmites del
conexionismo, los Churchland.
Por otro lado, la idea de que es preciso comprender el funcionamiento de las
estructuras nerviosas para dar cuenta de los procesos mentales (es decir, la idea de que las
redes conexionistas han de ser modelos del cerebro) se encuentra en los orgenes mismos
del conexionismo y ha dado lugar a redes neuronales e hiptesis que gozan de cierto apoyo
experimental; citemos algunos ejemplos:

la regla de aprendizaje descubierta por Hebb quera describir el modo real en que se
relacionan las neuronas en el cerebro para formar asociaciones estables entre ellas;

en su obra de 1947 How We Know Universals: The Perception of Auditory and Visual
Formas, McCulloch y Pitts, defendieron la tesis de que las redes neuronales de los
crtices auditivo y visual eran capaces de reconocer propiedades invariantes del
mismo patrn, que las redes neuronales del colculo superior (involucrado en el
control del movimiento de los ojo) podan generar el patrn a partir de ejemplos de
dicho patrn, y presentaron una descripcin abstracta de dichas redes;

Taylor propuso las redes que llevan su nombre para explicar la memoria asociativa y
afirm que las reas de asociacin de la corteza cerebral y el tlamo contenan dichas
redes;

y en este mismo contexto hay que situar las teoras del cerebelo, del hipocampo y del
neocortex defendidas por Marr a finales de los sesenta y principios de los aos
setenta:
* el funcionamiento del cerebelo es semejante a las redes
asociativas direccionables por contenido (ACAMs), y gracias a
dicho funcionamiento los animales pueden realizar movimientos
voluntarios delicados y precisos;
* el hipocampo es el soporte fsico de la memoria a corto plazo
o memoria de trabajo, y puede clasificar patrones y recuperar
un patrn a partir de datos fragmentarios porque es tambin un
ACAM;
* las representaciones que nos formamos de las clases y
subclases de objetos se basan en el hecho de que el neocortex
tiene una estructura y mecanismo similares al del Perceptrn.

La figura siguiente representa la red propuesta por Marr para explicar el funcionamiento del cerebelo (tomado de Stephen R. Graubard, comp. El nuevo debate sobre la
inteligencia artificial).

clulas granulares (g);


son las nicas clulas
excitatorias, el resto son
inhibitorias;
clulas de Golgi (Go)
controlan los umbrales de
las clulas granulares;
clulas de cesta (Ba):
controlan los umbrales de
las clulas de Purkinje
(Pu)
clulas estrelladas (S):
controlan los umbrales de
las clulas de Purkinje
(Pu)
La red se comporta como
una red ACAM y asocia
los patrones de las fibras
musgosas (MF) y de las
clulas en pendiente (CF).

Vous aimerez peut-être aussi