Vous êtes sur la page 1sur 10

Capítulo 4

Un modelo de procesamiento de movimiento:

DS-LISSOM

Esta tesis presenta una versión modificada de HLISSOM (Bednar, 2002). HLISSOM es un
modelo biológicamente inspirado del sistema visual humano que se enfoca en el camino de la
información desde la retina hasta el V1. El nuevo modelo presentado aquí intenta expandir
HLISSOM para modelar la selectividad direccional tal como se encuentra en la capa MT.

El modelo expandido también intenta detectar la novedad al observar la cantidad que el


sistema debe cambiar para incorporar la nueva información. Este capítulo se enfoca en
presentar la estructura del modelo y analiza cómo cada paso tiene una inspiración biológica.
HLISSOM fue elegido como el modelo a seguir debido a su estricta adherencia a la emulación
de procesos biológicos y su capacidad para trabajar con imágenes reales.

Además, algunas partes del sistema HLISSOM se especifican de antemano y, por lo tanto, es
posible establecer conexiones entre la forma en que el modelo aprende y los experimentos
realizados en animales. En secciones posteriores demostraremos esta conexión.

Una omisión importante en este modelo es la falta de información cromática.

Los experimentos han demostrado que las propiedades cromáticas de un objeto tienen poca
influencia en el procesamiento del movimiento de las neuronas MT cuando hay suficiente
contraste de luminancia (Thiele et al, 1999). Como tal, para simplificar el modelo, la
información cromática no se procesa.

4.1 Resumen

En esta sección, DS-LISSOM (LISSOM Direccionalmente Selectivo) se presenta en su totalidad.


Las secciones posteriores se centrarán en cómo se desarrollan cada una de las capas. En la
Figura 4.1 se puede ver una representación gráfica del diseño de DS-LISSOM. La información
primero es procesada por la retina. Existen dos fuentes de información: las imágenes reales
que representan a la vista y las imágenes generadas sintéticamente que representan la
actividad espontánea dentro del sistema visual (como se explicó en capítulos anteriores).
Posteriormente se demostrará que la actividad espontánea entrena el sistema de una manera
que es biológicamente similar a la estimulación visual que ocurre antes del nacimiento. Desde
la retina, la información viaja para custodiar la LGN.

La capa LGN está diseñada para responder mejor a los puntos brillantes y oscuros dentro de un
campo receptivo determinado. Para explicar con mayor precisión esta información, la capa
LGN está formada por dos canales separados.

Uno de los canales responde mejor a los puntos de luz, mientras que el otro responde mejor a
los puntos oscuros. Desde la LGN, la información viajará a V1. Para que esto ocurra, cada
neurona en V1 mira una región dentro de la capa LGN (su campo receptivo). A medida que se
produce el aprendizaje, no solo se volverá sensible a una orientación particular, sino que las
conexiones laterales también se actualizarán de manera que las neuronas vecinas compartirán
preferencias de orientación similares.
Figura 4.1: Cada una de las áreas principales de DS-LISSOM está etiquetada. Esta es una vista
pictórica de DS-LISSOM.

En este sistema, las conexiones laterales a las neuronas cercanas serán excitadoras, mientras
que las conexiones laterales más largas serán inhibitorias. Para pasar a la capa MT, se lleva a
cabo un proceso similar. Cada neurona en MT extrae información de su campo receptivo en la
capa anterior.

Para tener en cuenta la selectividad direccional dentro de la capa V1, se realiza una
aproximación al observar las diferentes respuestas que V1 tiene en pasos de tiempo
predeterminados. De esta manera, solo los bordes que se piensa que se están moviendo se
pasan a MT.

En términos generales, el campo receptivo de una neurona MT es más grande que el campo
receptivo de una neurona V1. Las conexiones laterales dentro de la capa MT actúan de manera
similar a las de la capa V1, de modo que las neuronas con sensibilidad de dirección similar
tienden a estar cerca unas de otras. Para tener en cuenta la información direccional, MT debe
procesar la información de una serie de pasos de tiempo. Para lograr esto, MT reenvía
información de los pasos anteriores a sí mismo.
Las siguientes secciones verán cómo se construye cada una de las capas.

En cada sección se utilizan los siguientes símbolos.

 ŋ es la activación final de una capa particular.


 ς es la respuesta aferente de una neurona.
 ξ es la activación de una célula en el campo receptivo de otra célula.

4.2 Modelando las Activaciones Retinales

La información, o activación, en la retina proviene de uno de dos lugares dependiendo de si se


cree que el sistema se encuentra en una etapa prenatal o postnatal. Durante la etapa prenatal,
la activación de la retina consiste en patrones de gaussianos orientados, como se muestra en
la Figura 4.2. Estos patrones pueden ser generados por la siguiente ecuación:

donde a2 y b2 especifiquen la longitud a lo largo de los ejes mayor y menor, (xo,yo) es el centro
de Gauss, y 𝜃 es su orientación. Las coordenadas x e y se eligen aleatoriamente, de modo que
la gaussiana se produce dentro del área retiniana de tamaño RxR. 𝜃 también se elige
aleatoriamente en el intervalo 0 < 𝜃 <180. Un número aleatorio de gaussianos se produce
dentro de cada iteración de entrenamiento. Para que los gaussianos no se superpongan
cuando están presentes múltiples gaussianos, se especifica que sus centros tienen al menos
unidades dr separadas. Los capítulos posteriores analizarán la ventaja de entrenar el sistema
en imágenes específicas para solicitar respuestas significativas cuando se busca la novedad.

Figura 4.2: Estas imágenes son ejemplos de los gaussianos orientados que se utilizan como
pesos aferentes de la imagen de entrada a la LGN. Estos actúan como simples detectores de
bordes, como se cree que hacen las células del ganglio retiniano.
Una vez que se considera que el sistema pasa a la etapa postnatal (después de
aproximadamente 1.000 a 10.000 iteraciones prenatales para un sistema de aprendizaje
general), la activación de la retina es una respuesta a las imágenes de entrada reales. Estas
imágenes se convierten a imágenes en escala de grises, que tienen en cuenta la información de
contraste de intensidad. Los experimentos han demostrado que es el canal de contraste de
luminancia el que, cuando está presente, desempeña un papel importante en la detección de
movimiento (Thiele et al, 1999).

Figura 4.3: El círculo representa el campo receptivo de una célula, por ejemplo, una célula en
MT. Esto representa el hecho de que la capa anterior, en este ejemplo VI, debe ser más larga y
más ancha.

4.3 Procesamiento de la Retina a LGN

Al igual que sus predecesores, DS-LISSOM no está interesado en los procesos de aprendizaje
que tienen lugar desde la retina hasta la LGN. Por lo tanto, las conexiones a las neuronas en los
canales de ENCENDIDO y APAGADO de la LGN se configuran en fuerzas fijas que se parecen a
las que se encuentran en las células LGN adultas. Se utiliza un modelo de diferencia de
gaussianos (DoG) para lograr esto. Una decisión de diseño importante es asegurarse de que la
información se almacene de forma retinotópica.

Por lo tanto, la forma en que se organiza cada uno de los dos canales LGN es importante.

La posición (x, y) de cada neurona en la capa LGN se corresponde con el centro de cada uno de
los campos receptivos. Una consecuencia de esto es que la capa LGN será más pequeña que la
capa retiniana. El tamaño exacto de la capa LGN es el tamaño de la capa retiniana menos el
diámetro del campo receptivo de una neurona LGN como se muestra en la Figura 4.3. De la
información anterior, se puede derivar la siguiente ecuación para una neurona presente en el
canal ON de la LGN
En la ecuación anterior (a, b) es la posición de la neurona, (x, y) es la posición de cada receptor
dentro de la retina con el centro (x0, y0), es el ancho del centro de Gauss, y a2 es El ancho del
envolvente gaussiano. Los pesos de los receptores para el canal OFF se pueden encontrar de
manera similar restando el centro gaussiano del gaussiano circundante de la siguiente manera:

Una representación visual de los pesos para estos campos receptivos se puede ver en la Figura
4.2. Para evitar que tanto las celdas ON como las OFF estén activas en la misma ubicación al
mismo tiempo, cada celda tendrá un umbral para tener solo activaciones positivas. Esto es
consistente con los sistemas biológicos (Bednar, 2002).

La LGN se divide en dos capas: una que representa la activación ON y otra que representa la
activación OFF de las células ganglionares de la retina. Los resultados proporcionados por
Bednar han demostrado que cuando se trabaja con imágenes reales, esto es importante, ya
que permitirá que la LGN responda a una amplia gama de valores de brillo (Bednar, 2002).

La activación de una sola celda en la capa LGN se puede calcular por la suma de activaciones
en el campo receptivo de una celda. De esto se deriva lo siguiente:

En la ecuación anterior, pLab, pxy es el peso aferente de una celda (x, y) a (a, b), fA es un factor
de escala constante, pxy es la activación de celda (x, y), p es la ubicación del campo receptivo,
que puede ser la entrada generada (entrada PGO) o la entrada de imagen de los
fotorreceptores, y es una aproximación lineal por partes de la función de activación sigmoide
(que permite cálculos más rápidos). La función de activación sigmoide se puede definir de la
siguiente manera:
La función de activación se asegura de que haya al menos una cantidad mínima de actividad
dentro del campo receptivo antes de que la célula se active. Esto es extremadamente útil ya
que muchas imágenes reales son ruidosas. La función sigmoidea también asegura una cantidad
máxima de actividad en una celda en particular.

4.4 Modelado V1

Esta es la primera área de interés para los aspectos de aprendizaje de DS-LISSOM. Su


implementación es idéntica a la implementada en el modelo HLISSOM mencionado
anteriormente, con la excepción de que las estadísticas se almacenan para determinar si una
orientación particular se ha visto antes o no.

Las células V1 son diferentes a las células en la LGN en que su activación es un proceso de dos
pasos. El primer paso es similar al de la LGN, y la activación de una celda se puede especificar
mediante la siguiente ecuación

donde p especifica la capa ON u OFF de la LGN, (a, b) es una celda dentro del campo receptivo
de la celda (i, j), 𝜇𝑖𝑗,𝑝𝑎𝑏 es el peso de la celda (a, b) a (i, j) en el campo receptivo apropiado p, y
𝜀𝑝𝑎𝑏 es la activación de la celda (a, b) en el campo receptivo de la celda (i, j) y en el canal ON u
OFF del LGN especificado por p.

La constante 𝛾𝑁 se usa para hacer que la activación de una célula sea más selectiva.

Este valor a menudo comienza cerca de 0 y aumenta lentamente con el tiempo, de modo que
las células se vuelven más selectivas. Como resultado del valor de 𝛾𝑁 , es importante mantener
todos los valores distribuidos en el rango de 0 a 1. Por esta razón, se introduce la constante 𝛾𝐴 .
Su propósito es asegurarse de que las respuestas aferentes caigan continuamente entre 0 y 1.
Si 𝛾𝐴 no está presente mientras que 𝛾𝑁 aumenta, entonces con el tiempo la activación de
todas las celdas se moverá hacia 0, haciendo que el sistema esté inactivo.

La función sigma es la misma que la utilizada al calcular las activaciones en la capa LGN.

Una vez que se calcula la respuesta de activación inicial, los pesos inhibitorios e inhibidores
laterales tienen la oportunidad de cambiar la respuesta. Esto se logra a través de varias rondas
usando las siguientes ecuaciones
Los pesos excitadores se definen como 𝐸𝑖𝑗,𝑘𝑙 , el peso de la celda (k, I) en V1 a la celda (i, j) en
V1 (y los pesos inhibitorios) se definen de manera similar como 𝐼𝑖𝑗,𝑘𝑙 Cada una de las
iteraciones de asentamiento ayuda a asegurar que las respuestas de las neuronas cercanas
tengan respuestas similares, ayudando a reducir la cantidad de redundancia en el mapa y
ayudando en la formación de mapas de orientación, como se explicó anteriormente.

4.5 Modelado MT

En este punto las cosas cambian, porque los efectos temporales deben ser considerados.

Esta es la primera área en este modelo que es selectiva de dirección. Como tal, es necesario
implementar algún tipo de retroalimentación para tener en cuenta los diferentes períodos de
tiempo. Desde un punto de vista psicológico, se piensa que esto se logrará de una de tres
maneras: el modelo de Riechardt, el modelo de Barlow y Levick, y el modelo de dos vías
asimétricas. En el modelo de Riechardt, la información pasada actúa para fortalecer aún más
las activaciones actuales. El modelo de Barlow y Levick propone que, en lugar de fortalecer las
activaciones actuales, la interacción entre la información pasada y la actual es inhibitoria.
Finalmente, los dos modelos asimétricos combinan una idea de excitación e inhibición.
(Grzywacz & Merwine, 2002).

DS-LISSOM obtiene información temporal utilizando el modelo de Riechardt, que establece


que la cantidad de activación en diferentes períodos de tiempo tiene un efecto multiplicativo
en la activación actual de la neurona. En DS-LISSOM, la ecuación siguiente modela este
comportamiento.

En la ecuación anterior, cada ∅ es el tiempo en el que se mide una celda de 𝑉1(𝑛𝑎𝑏 ). Para DS-
LISSOM, cuatro capas de información se mantienen. Debido a los pesos cambiantes dentro de
cada capa, la activación real no se almacena; más bien, se recalcula utilizando las
ponderaciones actuales para ese período de tiempo en particular. Las siguientes ecuaciones
describen cómo se determina cada 𝑛∅𝑎𝑏 :
Figura 4.4: Cada una de las imágenes superiores representa un campo receptivo de una sola
celda en MT. El campo receptivo de un MT extraerá datos de múltiples puntos en el tiempo. En
el ejemplo anterior, un MT está mirando 5 puntos diferentes en el tiempo. A medida que un
objeto se mueve, la celda MT en desarrollo ajustará sus pesos de modo que responda con
mayor fuerza cuando, en este ejemplo, un objeto brillante se mueve hacia la derecha a través
de su campo receptivo.

De esta manera ∅ describe hace cuánto tiempo ocurrió una activación dada. Observe la forma
en que se produce 𝑛0𝑎𝑏 . Las únicas activaciones que viajan a MT son aquellas activaciones que
han cambiado de un paso de tiempo a otro. Esto se entiende como una forma sencilla de
modelar algo de la selectividad direccional que se produce en V1.

Para pensar en esto de una manera ligeramente diferente, imagine que cada una de las capas
es la activación real en el paso de tiempo actual de la capa anterior.

El campo receptivo de una célula actual es la combinación de un campo receptivo en cada una
de estas capas, y existe una conexión entre la célula y cada una de las células en cada uno de
estos campos receptivos. La activación de la célula es el total combinado de toda la activación
en todos los campos receptivos. El movimiento se aprende porque el sistema aprenderá dónde
existen los objetos a lo largo del tiempo, como se muestra en la Figura 4.4.

Al igual que V1, la capa MT también pasa por una serie de iteraciones de asentamiento en las
que la respuesta final de una celda se forma de acuerdo con las siguientes ecuaciones.
Como en V1, las iteraciones de asentamiento ayudarán a reducir la redundancia en el mapa
producido por MT. Esto también ayudará a asegurar que las neuronas cercanas tengan
patrones de actividad similares, que es una propiedad de las respuestas corticales.

4.6 Entrenando el sistema

Hasta este punto, debe quedar claro cómo se activan las células dentro del sistema.

Lo que aún no está claro es cómo el sistema es capaz de aprender en primer lugar. El
aprendizaje se produce al reconocer la correlación entre los patrones de entrada.

En las ecuaciones anteriores, las respuestas µ, E e I se ajustan a lo largo del tiempo para
adaptarse a estos patrones. Esto ocurre a través de una forma de aprendizaje Hebbiano
usando la siguiente ecuación

El objetivo de esta ecuación es aumentar el peso, 𝑤𝑖𝑗,𝑚𝑛 , si y solo si la activación de una celda
en el nivel actual, 𝑛𝑖𝑗 , y la activación de otra celda, Xmn, son altas al mismo tiempo. Para
conexiones aferentes, Xmn es la cantidad de activación de la celda mn en la capa anterior,
mientras que las conexiones laterales miran el nivel actual, 𝑛𝑚𝑛 . a es la tasa de aprendizaje, y
puede ser útil definir diferentes tasas de aprendizaje para cada capa y para cada tipo de
conexión.

La normalización que tiene lugar evita que las conexiones crezcan sin límite.

El resultado del procedimiento de aprendizaje es que los pesos inhibitorios laterales se vuelven
irregulares con el tiempo y los pesos excitadores, que se vuelven fuertes entre los vecinos
cercanos. Como se mencionó anteriormente, esto significa que los mapas producidos en cada
capa se formarán de tal manera que los vecinos tengan patrones de actividad similares.

4.7 Detección de inconsistencia

Las inconsistencias se definen como patrones de actividad que no se han visto anteriormente.
En otras palabras, si solo se han visto líneas horizontales en el pasado, las líneas verticales se
considerarían inconsistentes. Esta definición se presta a una forma natural de buscar
inconsistencias: busque grandes cambios en los pesos en todo el sistema. En este sistema son
los pesos inhibitorios que se observan a lo largo del tiempo.

El cambio en los pesos excitatorios o pesos aferentes también podría haber sido examinado
(Brazeau et al, 2003). Al observar los pesos inhibitorios (o excitatorios), examinamos la
cantidad de cambio dentro de los mapas V1 y MT. Ver los pesos aferentes correspondería
entonces a examinar la cantidad de cambio en el (los) mapa (s) anterior (es) en relación con un
campo receptor de células.
Una forma diferente de describir esto es observar cuánto está aprendiendo el sistema. Si las
células permanecen activas constantemente a lo largo del tiempo, los cambios de peso se
producirán rápidamente al principio y disminuirán con el tiempo. Esto ocurre debido a la
normalización que ocurre al calcular los nuevos pesos.

La búsqueda de eventos inconsistentes en movimiento se realiza de la misma manera. La


cantidad de cambio de peso se monitorea, y los saltos en la cantidad de cambio de peso son
indicativos de algo nuevo que se está aprendiendo.

El factor más importante en la configuración del sistema es la forma en que se capacita. El


siguiente capítulo mostrará que cuando esté entrenado en patrones de entrada aleatorios, el
sistema estará preparado para percibir una amplia variedad de orientaciones y movimientos.
Esto es consistente con la investigación que ha demostrado que los gatos levantados con los
ojos cerrados todavía pueden ver cuando sus ojos se abren más tarde. Aunque es un resultado
importante, no es el comportamiento deseado para un sistema que se utiliza para determinar
inconsistencias, ya que no permitirá verlas. En su lugar, es importante capacitar a DS-LISSOM
en el entorno que se entiende como el entorno consistente. De esta manera, cuando los
cambios en ese entorno (eventos inconsistentes) ocurran más tarde, el sistema responderá
ajustando sus ponderaciones. Nuevamente, esto es consistente con la investigación
previamente discutida, que ha demostrado los efectos de criar gatos en ambientes atípicos.

4.8 Conclusión

El sistema de aprendizaje propuesto e implementado como DS-LISSOM es un sistema de


inspiración biológica que es capaz de aprender tanto información de orientación como de
movimiento de una manera que es consistente con el conocimiento actual de los sistemas
biológicos. DS-LISSOM extiende aún más los modelos anteriores al buscar formas de inferir que
se está adquiriendo nuevo conocimiento y, por lo tanto, encontrar eventos inconsistentes. La
siguiente sección examinará ejemplos del sistema en funcionamiento y mostrará que los
campos receptivos y los mapas de orientación que se forman son biológicamente precisos.