Vous êtes sur la page 1sur 28

Clásicos en la historia de la psicología

Un recurso en internet desarrollado por


Christopher D. Green
Universidad de York, Toronto, Ontario

(Regrese al índice de Classics )

¿SON NECESARIAS LAS TEORÍAS DEL APRENDIZAJE ? [ 1 ]

BF Skinner (1950)

Publicado por primera vez en Psychological Review , 57 , 193-216.

Ciertas suposiciones básicas, esenciales para cualquier actividad científica, a veces se


llaman teorías. Que la naturaleza es ordenada en lugar de caprichosa es un ejemplo. Ciertas
declaraciones son también teorías simplemente en la medida en que todavía no son
hechos. Un científico puede adivinar el resultado de un experimento antes de que se lleve a
cabo el experimento. La predicción y la posterior declaración de resultado pueden estar
compuestas de los mismos términos en la misma disposición sintáctica, siendo la diferencia
en el grado de confianza. Ningún enunciado empírico es totalmente no teórico en este
sentido, porque la evidencia nunca es completa, y probablemente ninguna predicción se
haga completamente sin evidencia. El término "teoría" no se referirá aquí a declaraciones
de este tipo sino a cualquier explicación de un hecho observado que apele a eventos que
ocurren en otro lugar, en algún otro nivel de observación, descrito en diferentes términos, y
medido, si es que lo hace en diferentes dimensiones

Tres tipos de teoría en el campo del aprendizaje satisfacen esta definición. El más
característico se encuentra en el campo de la psicología fisiológica. Todos estamos
familiarizados con los cambios que se supone que tienen lugar en el sistema nervioso
cuando un organismo aprende. Las conexiones sinápticas se realizan o se rompen, los
campos eléctricos se alteran o se reorganizan, las concentraciones de iones se acumulan o
se difunden, y así sucesivamente.En la ciencia de la neurofisiología las declaraciones de
este tipo no son necesariamente teorías en el sentido actual. Pero en una ciencia del
comportamiento, en la que nos preocupa si un organismo secreta saliva cuando suena la
campana, o salta hacia un triángulo gris, o dice bik cuando una tarjeta lee a tuz , o ama a
alguien que se parece a su madre, todas las declaraciones sobre el sistema nervioso son
teorías en el sentido de que no están expresadas en los mismos términos y no pueden ser
confirmadas con los mismos métodos de observación que los hechos de los que se dice que
rinden cuentas.
Un segundo tipo de teoría del aprendizaje en la práctica no está lejos de lo fisiológico,
aunque hay menos acuerdo sobre el método de observación directa. Las teorías de este tipo
siempre han dominado el campo del comportamiento humano. Consisten en referencias a
eventos "mentales", como cuando se dice que un organismo aprende a comportarse de
cierta manera porque "encuentra algo agradable" o porque "espera que algo suceda". Para el
psicólogo mentalista estos eventos explicativos no son más teóricos que las conexiones
sinápticas con el neurofisiólogo, pero en una ciencia del comportamiento son teorías porque
los métodos [p. 194] y los términos apropiados para los eventos a explicar difieren de los
métodos y términos apropiados para los eventos explicativos.

En un tercer tipo de teoría del aprendizaje, los eventos explicativos no se observan


directamente. La sugerencia del escritor de que las letras CNS sean consideradas como
representantes, no del Sistema Nervioso Central, sino del Sistema Nervioso Conceptual
( 2 , p.421), parece haberse tomado en serio. Muchos teóricos señalan que no están
hablando del sistema nervioso como una estructura real sometida a cambios fisiológicos o
bioquímicos, sino solo como un sistema con un cierto rendimiento dinámico. Las teorías de
este tipo se multiplican rápidamente, al igual que las versiones operativas paralelas de los
eventos mentales. Una definición de expectativa puramente conductual tiene la ventaja de
que se evita el problema de la observación mental y, con ello, el problema de cómo un
evento mental puede causar uno físico. Pero tales teorías no llegan a afirmar que los
eventos explicativos son idénticos a los hechos conductuales que pretenden explicar. Una
afirmación sobre el comportamiento puede respaldar dicha teoría, pero nunca se parecerá a
ella en términos o sintaxis. Los postulados son buenos ejemplos. Los verdaderos postulados
no pueden convertirse en hechos. Los teoremas se pueden deducir de ellos que, como
afirmaciones tentativas sobre el comportamiento, pueden o no confirmarse, pero los
teoremas no son teorías en el sentido presente.Los postulados siguen siendo teorías hasta el
final.

No es el propósito de este trabajo mostrar que ninguna de estas teorías se puede poner en
buen orden científico, o que los eventos a los que se refieren pueden no ocurrir o ser
estudiados por las ciencias apropiadas. Sería imprudente negar los logros de teorías de este
tipo en la historia de la ciencia. La cuestión de si son necesarios, sin embargo, tiene otras
implicaciones y vale la pena preguntar. Si la respuesta es no, entonces puede ser posible
argumentar de manera efectiva contra la teoría en el campo del aprendizaje. Una ciencia del
comportamiento debe eventualmente lidiar con el comportamiento en su relación con
ciertas variables manipulables. Las teorías, ya sean neurológicas, mentales o conceptuales,
hablan de pasos intermedios en estas relaciones. Pero en lugar de incitarnos a buscar y
explorar variables relevantes, con frecuencia tienen un efecto bastante opuesto. Cuando
atribuimos el comportamiento a un evento neuronal o mental, real o conceptual, es probable
que olvidemos que todavía tenemos la tarea de dar cuenta del evento neural o
mental. Cuando afirmamos que un animal actúa de una manera determinada porque espera
recibir alimento, entonces lo que comenzó como la tarea de dar cuenta del comportamiento
aprendido se convierte en la tarea de dar cuenta de la expectativa. El problema es al menos
igualmente complejo y probablemente más difícil. Es probable que cerremos nuestros ojos
y usemos la teoría para darnos respuestas en lugar de las respuestas que podamos encontrar
a través de un estudio posterior. Se podría argumentar que la función principal de la teoría
del aprendizaje hasta la fecha ha sido, no sugerir investigaciones apropiadas, sino crear una
falsa sensación de seguridad, una satisfacción injustificada con el status quo .

La investigación diseñada con respecto a la teoría también es probable que sea un


desperdicio. Que una teoría genere investigación no prueba su valor a menos que la
investigación sea valiosa. Muchos experimentos inútiles resultan de teorías, y mucha
energía y habilidad son absorbidas por ellos. La mayoría de las teorías finalmente se
derrocan, y la mayor parte de la investigación asociada se descarta. Esto podría justificarse
si fuera cierto que la investigación productiva requiere una teoría, como es, por supuesto, a
menudo reivindicada. Se argumenta que la investigación sería sin rumbo y desorganizada
sin una teoría que lo guiara. La opinión es apoyada por textos psicológicos que toman la
indicación de los lógicos en lugar de la ciencia empírica y [p. 195] describen el
pensamiento como necesariamente involucrando etapas de hipótesis, deducción, prueba
experimental y confirmación. Pero esta no es la forma en que la mayoría de los científicos
realmente trabajan. Es posible diseñar experimentos significativos por otras razones y la
posibilidad de ser examinada es que dicha investigación conducirá más directamente al tipo
de información que una ciencia generalmente acumula.

Las alternativas son, al menos, vale la pena considerar. ¿Cuánto se puede hacer sin
teoría? ¿Qué otros tipos de actividad científica son posibles? ¿Y qué luz arrojan las
prácticas alternativas sobre nuestra preocupación actual por la teoría?

Sería inconsistente tratar de responder estas preguntas a un nivel teórico. Por lo tanto,
volvamos a algunos materiales experimentales en tres áreas en las que las teorías del
aprendizaje ahora florecen y plantea la cuestión de la función de la teoría de una manera
más concreta. [ 2 ]

El dato básico en el aprendizaje

Lo que realmente sucede cuando un organismo aprende no es una pregunta fácil. Aquellos
que estén interesados en una ciencia del comportamiento insistirán en que el aprendizaje es
un cambio en el comportamiento, pero tienden a evitar referencias explícitas a las
respuestas o actos como tales. "Aprender es el ajuste o la adaptación a una situación". Pero,
¿de qué cosas se hacen ajustes y adaptaciones? ¿Son datos o inferencias de datos? "El
aprendizaje es una mejora". Pero mejora en qué? ¿Y desde qué punto de vista? "Aprender
es restaurar el equilibrio". ¿Pero qué está en equilibrio y cómo se pone allí? "El aprendizaje
es la resolución de problemas". Pero, ¿cuáles son las dimensiones físicas de un problema, o
de una solución? Las definiciones de este tipo muestran una falta de voluntad de tomar lo
que aparece ante los ojos en un experimento de aprendizaje como un dato básico. Las
observaciones particulares parecen demasiado triviales. Un puntaje de error cae; pero no
estamos preparados para decir que esto es aprender más que simplemente el resultado del
aprendizaje. Un organismo cumple un criterio de diez ensayos exitosos; pero un criterio
arbitrario está en desacuerdo con nuestra concepción de la generalidad del proceso de
aprendizaje.

Aquí es donde interviene la teoría. Si no es el tiempo requerido para salir de una caja de
rompecabezas que cambia en el aprendizaje, sino más bien la fuerza de un vínculo, o la
conductividad de una vía neural, o el potencial excitador de un hábito, entonces los
problemas parecen desaparecer. Salir de una caja cada vez más rápido no está
aprendiendo; es meramente rendimiento. El aprendizaje continúa en otro lugar, en un
sistema dimensional diferente.Y aunque el tiempo requerido depende de condiciones
arbitrarias, a menudo varía de manera discontinua y está sujeto a reversiones de magnitud,
estamos seguros de que el proceso de aprendizaje en sí es continuo, ordenado y más allá de
los accidentes de medición. Nada podría ilustrar mejor el uso de la teoría como refugio de
los datos.

Pero finalmente debemos regresar a un dato observable. Si el aprendizaje es el proceso que


suponemos que es, entonces debe aparecer así en las situaciones en que lo
estudiamos. Incluso si el proceso básico pertenece a algún otro sistema dimensional,
nuestras medidas deben tener propiedades relevantes y comparables. Pero las situaciones
experimentales productivas son difíciles de encontrar, particularmente si aceptamos ciertas
restricciones plausibles.Mostrar un cambio ordenado en el comportamiento de una rata o un
mono o un niño promedio no es suficiente, ya que el aprendizaje es un proceso en el
comportamiento de [pág. 196] el individuo. Registrar el comienzo y el final del aprendizaje
o algunos pasos discretos no serán suficientes, ya que una serie de secciones transversales
no proporcionará una cobertura completa de un proceso continuo. Las dimensiones del
cambio deben surgir del comportamiento mismo; no deben ser impuestos por un juicio
externo de éxito o fracaso o un criterio externo de completitud. Pero cuando revisamos la
literatura con estos requisitos en mente, encontramos poca justificación para el proceso
teórico en el que nos sentimos tan cómodos.

El nivel de energía o el rendimiento laboral de la conducta, por ejemplo, no cambia de


manera adecuada. En el tipo de comportamiento adaptado al experimento pavloviano
(comportamiento del encuestado), puede haber un aumento progresivo en la magnitud de la
respuesta durante el aprendizaje. Pero no gritamos más y más nuestras respuestas a medida
que aprendemos material verbal, ni una rata presiona una palanca con más fuerza a medida
que avanza el condicionamiento. En el comportamiento operante, la energía o magnitud de
la respuesta cambia significativamente solo cuando un valor arbitrario se refuerza
diferencialmente, cuando tal cambio es lo que se aprende.

La aparición de una respuesta correcta en competencia con respuestas incorrectas es otro


dato frecuentemente utilizado en el estudio del aprendizaje. El laberinto y la caja de
discriminación producen resultados que pueden reducirse a estos términos. Pero una
relación de comportamiento de derecha vs. lo incorrecto no puede producir una medida
continuamente cambiante en un solo experimento en un solo organismo. El punto en el cual
una respuesta tiene prioridad sobre otra no puede darnos la historia completa del cambio en
ninguna de las respuestas. Promediando curvas para grupos de ensayos u organismos no
resolverá este problema.

Recientemente se ha prestado más atención a la latencia, cuya relevancia, al igual que la del
nivel de energía, es sugerida por las propiedades de los reflejos condicionados y no
condicionados. Pero en el comportamiento operante, la relación con un estímulo es
diferente. Una medida de latencia implica otras consideraciones, como lo mostrará la
inspección de cualquier caso. La mayoría de las respuestas operantes pueden emitirse en
ausencia de lo que se considera un estímulo relevante. En tal caso, es probable que la
respuesta aparezca antes de que se presente el estímulo. No es una solución escapar de esta
vergüenza al bloquear una palanca para que un organismo no pueda presionarla hasta que
se presente el estímulo, ya que apenas podemos contentarnos con las relaciones temporales
que han sido forzadas a cumplir con nuestras expectativas. Las latencias de pista están
sujetas a esta objeción. En un experimento típico, se abre la puerta de una caja de inicio y
se mide el tiempo que transcurre antes de que una rata abandone la caja. Abrir la puerta no
es solo un estímulo, es un cambio en la situación que hace que la respuesta sea posible por
primera vez. El tiempo medido no es tan simple como una latencia y requiere otra
formulación. Mucho depende de lo que la rata esté haciendo en el momento en que se
presente el estímulo. Algunos experimentadores esperan hasta que la rata está frente a la
puerta, pero hacerlo es alterar la medición que se está tomando. Si, por otro lado, se abre la
puerta sin hacer referencia a lo que está haciendo la rata, el primer efecto importante es el
condicionamiento del comportamiento de espera favorable. La rata finalmente se queda
cerca y de cara a la puerta. El tiempo de inicio más corto resultante no se debe a una
reducción en la latencia de una respuesta, sino al condicionamiento del comportamiento
preliminar favorable.

Las latencias en un solo organismo


no siguen un proceso de aprendizaje
simple. Se obtuvieron datos
relevantes sobre este punto como
parte de un extenso estudio del
tiempo de reacción. Una paloma,
encerrada en una caja, está
acondicionada para picotear un disco
empotrado en una pared. La comida
se presenta como refuerzo al exponer
una tolva a través de [p. 197] un
orificio debajo del disco. Si las
respuestas se refuerzan solo después
de que se ha presentado un estímulo,
las respuestas en otros momentos
desaparecen.Se obtienen tiempos de
reacción muy cortos mediante
respuestas de refuerzo diferencial
que ocurren muy poco después del
estímulo ( 4 ). Pero las respuestas también se hacen rápidamente sin refuerzo diferencial. La
inspección muestra que esto se debe al desarrollo de una espera efectiva. El pájaro se para
frente al disco con la cabeza en buena posición de golpe. En condiciones óptimas, sin
refuerzo diferencial, el tiempo medio entre el estímulo y la respuesta será del orden de 1/3
seg. Esta no es una verdadera latencia refleja, ya que el estímulo es discriminativo en lugar
de provocar, pero es un buen ejemplo de la latencia utilizada en el estudio del
aprendizaje. El punto es que esta medida no varía continuamente o de manera ordenada. Al
darle más comida al ave, por ejemplo, inducimos una condición en la que no siempre
responde. Pero las respuestas que ocurren muestran aproximadamente la misma relación
temporal con el estímulo (Fig. 1, curva media). En la extinción, de especial interés aquí,
hay una dispersión de latencias porque la falta de refuerzo genera una condición
emocional. Algunas respuestas se producen antes y otras se retrasan, pero el valor más
común permanece sin cambios (curva inferior en la Fig. 1). Las latencias más largas se
explican fácilmente por inspección. El comportamiento emocional, del cual los ejemplos se
mencionarán más adelante, es probable que esté en progreso cuando se presente la señal de
listo. A menudo no se interrumpe antes de que se presente la señal de "ir", y el resultado es
un largo tiempo de inicio. También comienzan a aparecer casos en los que el pájaro
simplemente no responde en absoluto durante un tiempo específico. Si hacemos un
promedio de una gran cantidad de lecturas, ya sea de un pájaro o de muchas, podemos crear
lo que parece un alargamiento progresivo de la latencia. Pero los datos para un organismo
individual no muestran un proceso continuo.

Otro dato a examinar es la velocidad a la que se emite una respuesta. Afortunadamente, la


historia aquí es diferente. Estudiamos esta frecuencia diseñando una situación en la cual
una respuesta puede repetirse libremente, eligiendo una respuesta (por ejemplo, tocar o
presionar una pequeña palanca o tecla) que se pueda observar y contar fácilmente.Las
respuestas pueden registrarse en un polígrafo, pero una forma más conveniente es una curva
acumulativa a partir de la cual la tasa de respuesta se lee inmediatamente como
pendiente. La velocidad a la que se emite una respuesta en tal situación se aproxima a
nuestra preconcepción del proceso de aprendizaje. A medida que el organismo aprende, la
tasa aumenta. A medida que desaprende (por ejemplo, en extinción) la tasa cae. Varios
tipos de estímulos discriminativos pueden controlarse con las correspondientes
modificaciones de la frecuencia. Los cambios motivacionales alteran la tasa de una manera
sensible. Entonces esos eventos de los que hablamos generan emoción. El rango a través
del cual la tasa varía significativamente puede ser tan grande como del orden de 1000:
1. Los cambios en la tasa son satisfactoriamente suaves en el caso individual, por lo que no
es necesario aver- [p. 198] casos de edad. Un valor dado es a menudo bastante estable: en la
paloma se puede mantener una tasa de cuatro o cinco mil respuestas por hora sin
interrupción durante tanto tiempo como quince horas.

La tasa de respuesta parece ser el único dato que varía significativamente y en la dirección
esperada bajo condiciones que son relevantes para el "proceso de aprendizaje". Podemos,
por lo tanto, tener la tentación de aceptarlo como nuestra medida largamente buscada de
fuerza de enlace, potencial de excitación, etc. Una vez en posesión de un dato efectivo, sin
embargo, podemos sentir poca necesidad de cualquier construcción teórica de este tipo. . El
progreso en un campo científico generalmente espera al descubrimiento de una variable
dependiente satisfactoria. Hasta que se haya descubierto una variable de este tipo,
recurrimos a la teoría. Las entidades que han figurado tan prominentemente en la teoría del
aprendizaje han servido principalmente como sustitutos de un dato directamente observable
y productivo. Tienen pocas razones para sobrevivir cuando se ha encontrado ese dato.

No es accidental que la tasa de respuesta tenga éxito como dato, porque es particularmente
apropiada para la tarea fundamental de una ciencia del comportamiento. Si queremos
predecir el comportamiento (y posiblemente controlarlo), debemos tratar con
la probabilidad de respuesta . El negocio de una ciencia del comportamiento es evaluar
esta probabilidad y explorar las condiciones que la determinan. La fuerza del vínculo, la
expectativa, el potencial excitatorio, etc., llevan la noción de probabilidad en una forma
fácil de imaginar, pero las propiedades adicionales sugeridas por estos términos han
obstaculizado la búsqueda de medidas adecuadas. La tasa de respuesta no es una "medida"
de la probabilidad, pero es el único dato apropiado en una formulación en estos términos.

Como otras disciplinas científicas pueden atestiguar, las probabilidades no son fáciles de
manejar. Queremos hacer declaraciones sobre la probabilidad de que se produzca una sola
respuesta futura, pero nuestros datos se expresan en forma de frecuencias de respuestas que
ya se han producido. Estas respuestas fueron presumiblemente similares entre sí y a la
respuesta que se predijo. Pero esto plantea el problemático problema de respuesta-
instancia vs. clase de respuesta. Precisamente, ¿qué respuestas debemos tener en cuenta al
predecir una instancia futura? Ciertamente, no las respuestas hechas por una población de
diferentes organismos, dado que tal dato estadístico plantea más problemas de los que
resuelve. Considerar la frecuencia de respuestas repetidas en un individuo exige algo como
la situación experimental que acabamos de describir.

Esta solución del problema de un dato básico se basa en la opinión de que el


comportamiento operante es esencialmente un fenómeno emisivo. La latencia y la magnitud
de la respuesta fallan como medidas porque no toman esto en cuenta. Son conceptos
apropiados para el campo del reflejo, donde el control casi invariable ejercido por el
estímulo desencadenante hace que la noción de probabilidad de respuesta sea
trivial. Considere, por ejemplo, el caso de la latencia. Debido a nuestro conocimiento de
reflejos simples inferimos que una respuesta que es más probable que sea emitida se emitirá
más rápidamente. ¿Pero es esto cierto? ¿Qué puede significar la palabra "rápidamente"? La
probabilidad de respuesta, así como la predicción de la respuesta, se refiere al momento de
la emisión. Este es un punto en el tiempo, pero no tiene la dimensión temporal de una
latencia. La ejecución puede llevar un tiempo después de que se haya iniciado la respuesta,
pero el momento de ocurrencia no tiene duración. [ 3 ] En reconocimiento- [p. 199] nizando
el carácter emisivo del comportamiento operante y la posición central de la probabilidad de
respuesta como un dato, la latencia se ve como irrelevante para nuestra tarea actual.

Varias objeciones se han hecho al uso de la tasa de respuesta como un dato básico. Por
ejemplo, un programa como este puede impedirnos tratar con muchos eventos que son
eventos únicos en la vida del individuo. Un hombre no decide una carrera, se casa, gana un
millón de dólares o muere en un accidente con la frecuencia suficiente como para que la
tasa de respuesta sea significativa. Pero estas actividades no son respuestas. No son simples
eventos unitarios que se prestan a la predicción como tal. Si vamos a predecir el
matrimonio, el éxito, los accidentes, etc., en algo más que términos estadísticos, debemos
tratar con las unidades de comportamiento más pequeñas que conducen y componen estos
episodios unitarios. Si las unidades aparecen en forma repetible, se puede aplicar el
presente análisis. En el campo del aprendizaje, una objeción similar toma la forma de
preguntar cómo el presente análisis puede extenderse a situaciones experimentales en las
que es imposible observar frecuencias. No se sigue que el aprendizaje no tenga lugar en
tales situaciones. La noción de probabilidad generalmente se extrapola a los casos en que
no se puede llevar a cabo un análisis de frecuencia. En el campo del comportamiento,
organizamos una situación en la cual las frecuencias están disponibles como datos, pero
usamos la noción de probabilidad para analizar y formular instancias o incluso tipos de
comportamiento que no son susceptibles de este análisis.

Otra objeción común es que una tasa de respuesta es solo un conjunto de latencias y, por lo
tanto, no es un dato nuevo en absoluto. Esto se muestra fácilmente como
incorrecto. Cuando medimos el tiempo transcurrido entre dos respuestas, no tenemos dudas
sobre qué estaba haciendo el organismo cuando iniciamos nuestro reloj. Sabemos que solo
estaba ejecutando una respuesta. Este es un cero natural, bastante diferente del punto
arbitrario desde el que se miden las latencias. La repetición libre de una respuesta produce
un dato rítmico o periódico muy diferente de la latencia. Muchos procesos físicos
periódicos sugieren paralelismos.

No elegimos la tasa de respuesta como un dato básico meramente a partir de un análisis de


la tarea fundamental de una ciencia del comportamiento. El último atractivo es su éxito en
una ciencia experimental. El material que sigue se ofrece como una muestra de lo que se
puede hacer. No pretende ser una demostración completa, pero debe confirmar el hecho de
que cuando estamos en posesión de un dato que varía de manera significativa, es menos
probable que recurramos a entidades teóricas que lleven la noción de probabilidad de
respuesta.

Por qué se produce el aprendizaje

Podemos definir el aprendizaje como un cambio en la probabilidad de respuesta, pero


también debemos especificar las condiciones bajo las cuales se produce. Para hacer esto
debemos estudiar algunas de las variables independientes de las cuales la probabilidad de
respuesta es [p. 200] una función. Aquí encontramos otro tipo de teoría de aprendizaje.

Una demostración efectiva de la Ley de Efecto de la sala de clase se puede organizar de la


siguiente manera. Una paloma, reducida al 80 por ciento de su peso libre, está habituada a
un pequeño anfiteatro semicircular y se alimenta allí durante varios días desde una tolva de
alimentos, que el experimentador presenta al cerrar un interruptor de mano. La
demostración consiste en establecer una respuesta seleccionada por refuerzo adecuado con
alimentos. Por ejemplo, al observar a través del anfiteatro a una escala en la pared opuesta,
es posible presentar la tolva siempre que la parte superior de la cabeza de la paloma se
eleve por encima de una marca determinada. Se eligen marcas más altas y más altas hasta
que, en pocos minutos, la paloma camina sobre la jaula con la cabeza tan alta como sea
posible. En otra demostración, el ave está condicionada para golpear una canica colocada
en el piso del anfiteatro. Esto se puede hacer en unos minutos reforzando los pasos
sucesivos. La comida se presenta primero cuando el pájaro simplemente se mueve cerca del
mármol, más tarde cuando mira hacia abajo en la dirección del mármol, más tarde aún
cuando mueve su cabeza hacia el mármol, y finalmente cuando lo picotea. Cualquiera que
haya visto tal demostración sabe que la Ley del Efecto no es una teoría. Simplemente
especifica un procedimiento para alterar la probabilidad de una respuesta elegida.

Pero cuando tratamos de decir por qué el refuerzo tiene este efecto, surgen teorías. Se dice
que el aprendizaje tiene lugar porque el refuerzo es agradable, satisfactorio, reduce la
tensión, y así sucesivamente. El proceso inverso de extinción se explica con teorías
comparables. Si la tasa de respuesta se eleva por primera vez a un punto alto mediante el
refuerzo y el refuerzo retenido, se observa que la respuesta se produce cada vez con menos
frecuencia. Una teoría común explica esto al afirmar que se construye un estado que
suprime el comportamiento. Esta "inhibición experimental" o "inhibición de reacción" debe
asignarse a un sistema dimensional diferente, ya que nada en el nivel de comportamiento
corresponde a procesos opuestos de excitación e inhibición. La tasa de respuesta
simplemente aumenta en una operación y disminuye en otra. Ciertos efectos comúnmente
interpretados como que muestran la liberación de una fuerza de supresión se pueden
interpretar de otras maneras. La desinhibición, por ejemplo, no es necesariamente el
descubrimiento de la fuerza reprimida; puede ser un signo de fortaleza suplementaria de
una variable extraña. El proceso de recuperación espontánea, a menudo citado para apoyar
la noción de supresión, tiene una explicación alternativa, que se observará en un momento.

Permítanos evaluar la pregunta de por qué el aprendizaje se lleva a cabo volviendo


nuevamente a algunos datos. Dado que el acondicionamiento suele ser demasiado rápido
para ser seguido fácilmente, el proceso de extinción nos proporcionará un caso más útil. Se
han obtenido consistentemente varios tipos diferentes de curvas de ratas y palomas usando
varios programas de refuerzo previo. Al considerar algunas de las condiciones relevantes,
podemos ver qué espacio queda para los procesos teóricos.

El simple paso del tiempo entre el condicionamiento y la extinción es una variable que
tiene sorprendentemente poco efecto. La rata es demasiado efímera para hacer factible un
experimento prolongado, pero la paloma, que puede vivir diez o quince años, es un sujeto
ideal. Hace más de cinco años, veinte palomas fueron condicionadas para golpear una gran
clave translúcida sobre la cual se proyectaba un complejo patrón visual. El refuerzo
dependía del mantenimiento de una tasa alta y constante de respuesta y al golpear una
característica particular del patrón visual. Estas aves fueron apartadas para estudiar la
retención. Fueron transferidos a la vida habitual [P. 201] trimestres, donde sirvieron como
criadores. Los grupos pequeños fueron probados para la extinción al final de los seis meses,
un año, dos años y cuatro años. Antes de la prueba cada ave fue transferida a una jaula viva
separada. Se usó un programa de alimentación controlada para reducir el peso a
aproximadamente el 80 por ciento del peso libre . El pájaro fue alimentado en el aparato
experimental débilmente iluminado en ausencia de la llave durante varios días, durante los
cuales las respuestas emocionales al aparato desaparecieron. El día de la prueba, el pájaro
fue colocado en la caja oscurecida. La clave translúcida estaba presente pero no
iluminada. No se hicieron respuestas. Cuando el patrón se proyectó sobre la llave, las
cuatro aves respondieron de manera rápida y exhaustiva. La Fig. 2 muestra la curva más
grande obtenida. Este pájaro pulsó la tecla dentro de los dos segundos posteriores a la
presentación de un patrón visual que no había visto durante cuatro años, y en el lugar
preciso sobre el cual se había basado anteriormente el refuerzo diferencial. Continuó
respondiendo durante la siguiente hora, emitiendo alrededor de 700 respuestas.Esto es del
orden de la mitad a una cuarta parte de las respuestas que habría emitido si la extinción no
se hubiera retrasado cuatro años, pero de lo contrario, la curva es bastante típica.
El nivel de motivación es otra variable a tener en cuenta. Un ejemplo del efecto del hambre
ha sido reportado en otra parte ( 3 ). La respuesta de presionar una palanca se estableció en
ocho ratas con un programa de refuerzo periódico. Se alimentaron con la parte principal de
su ración en días alternos, por lo que las tasas de respuesta en días sucesivos fueron
alternadamente altas y bajas. Dos subgrupos de cuatro ratas fueron emparejados en función
de la tasa mantenida bajo refuerzo periódico bajo estas condiciones. La respuesta se
extinguió, en un grupo en días alternos cuando el hambre era alta, en el otro grupo en días
alternos cuando el hambre era baja. (Se consumió la misma cantidad de alimento en los días
no experimentales que antes). El resultado se muestra en la Fig. 3. El gráfico superior
proporciona los datos brutos. Los niveles de hambre están indicados por los puntos en P en
la abscisa, las tasas que prevalecen bajo refuerzo periódico. Los puntos siguientes muestran
el declive en la extinción. Si multiplicamos la curva inferior por un factor elegido para
superponer los puntos en P, las curvas se superponen razonablemente de cerca, como se
muestra en el gráfico inferior. Varios otros experimentos en ratas y palomas han
confirmado este principio general. Si una proporción dada de respuesta prevalece bajo
refuerzo periódico, las pendientes de curvas de extinción posteriores muestran la misma
proporción. El nivel de hambre determina la pendiente de la curva de extinción pero no su
curvatura.
[pag. 202] Otra variable,
la dificultad de respuesta,
es especialmente
relevante porque se ha
utilizado para probar la
teoría de la inhibición de
la reacción ( 1 ), en el
supuesto de que una
respuesta que requiere
una energía considerable
acumulará más
inhibición de reacción
que una respuesta fácil y
plomo. por lo tanto, para
una extinción más
rápida. La teoría requiere
que se modifique la
curvatura de la curva de
extinción, no
simplemente su
pendiente. Sin embargo,
hay evidencia de que la
dificultad de respuesta
actúa como el nivel de
hambre simplemente
para alterar la
pendiente. Algunos datos
han sido reportados pero
no publicados ( 5 ). Una
paloma está suspendida
en una chaqueta que
limita sus alas y patas,
pero deja la cabeza y el
cuello libres para
responder a una llave y
un cargador de
alimentos. Su
comportamiento en esta
situación es
cuantitativamente muy
parecido al de un pájaro
moviéndose libremente
en una caja
experimental. Pero el uso
de la chaqueta tiene la
ventaja de que la
respuesta a la llave puede
ser fácil o difícil al cambiar la distancia que debe alcanzar el ave. En un experimento, estas
distancias se expresaron en siete unidades iguales pero arbitrarias. A la distancia 7 el pájaro
apenas podía alcanzar la llave, a los 3 podría golpear sin extender apreciablemente su
cuello. El refuerzo periódico proporcionó una línea de base recta sobre la cual fue posible
observar el efecto de la dificultad cambiando rápidamente de posición durante el período
experimental. Cada uno de los cinco registros en la Fig. 4 cubre un período experimental de
quince minutos bajo refuerzo periódico. Las distancias del pájaro de la llave se indican con
números encima de los registros. Se observará que la tasa de respuesta a la distancia 7 es
generalmente bastante baja, mientras que la de la distancia 3 es alta. Las distancias
intermedias producen pendientes intermedias. También se debe notar que el cambio de una
posición a otra se siente inmediatamente. Si las respuestas repetidas en una posición difícil
fueron construir una cantidad considerable de inhibición de la reacción, deberíamos esperar
que la tasa sea baja durante un tiempo breve después de regresar a una respuesta fácil. Por
el contrario, si una respuesta fácil fue generar poca inhibición de reacción, deberíamos
esperar una tasa bastante alta de respuesta durante algún tiempo después de asumir una
posición difícil. Nada como esto ocurre. La "extinción más rápida" de una respuesta difícil
es una expresión ambigua. La constante de pendiente se ve afectada y con ella el número de
respuestas en extinción a un criterio, pero puede no haber efecto sobre la curvatura.

Una forma de considerar la pregunta de por qué las curvas de extinción son curvas es
considerar la extinción como un proceso de ex- [p. 203] haustion comparable a la pérdida
de calor de la fuente al sumidero o la caída del nivel de un depósito cuando se abre una
salida. El acondicionamiento desarrolla una predisposición a responder, una "reserva", que
la extinción agota. Esta es quizás una descripción defendible en el nivel de
comportamiento. La reserva no es necesariamente una teoría en el sentido presente, ya que
no está asignada a un sistema dimensional diferente. Podría definirse operativamente como
una curva de extinción pronosticada, aunque, lingüísticamente, haga una declaración sobre
la condición momentánea de una respuesta. Pero no es un concepto particularmente útil, ni
la opinión de que la extinción es un proceso de agotamiento añade mucho al hecho
observado de que las curvas de extinción se curvan de cierta manera.
Sin embargo, hay dos
variables que afectan la
velocidad, que operan
durante la extinción para
alterar la curvatura. Uno de
estos cae dentro del campo
de la emoción. Cuando no
reforzamos una respuesta
que se ha reforzado
previamente, no solo
iniciamos un proceso de
extinción, sino que también
establecemos una respuesta
emocional, tal vez lo que a
menudo significa
frustración. La paloma coos
en una [p. 204] patrón
identificable, se mueve
rápidamente alrededor de la
jaula, defeca o mueve sus
alas rápidamente en una
posición de cuclillas que
sugiere el comportamiento
de pisada
(apareamiento). Esto compite
con la respuesta de golpear
una tecla y es tal vez suficiente para explicar la disminución en la tasa de extinción
temprana. También es posible que la probabilidad de una respuesta basada en la privación
de alimentos se reduzca directamente como parte de dicha reacción emocional. Cualquiera
que sea su naturaleza, el efecto de esta variable se elimina mediante la adaptación. Las
curvas de extinción repetidas se suavizan, y en algunos de los programas que se describirán
en breve hay poca o ninguna evidencia de una modificación emocional de la frecuencia.

Una segunda variable tiene un efecto mucho más serio. La máxima respuesta durante la
extinción se obtiene solo cuando las condiciones bajo las cuales se reforzó la respuesta se
reproducen con precisión. Una rata condicionada en presencia de una luz no se extinguirá
completamente en ausencia de la luz. Comenzará a responder más rápidamente cuando se
vuelva a introducir la luz. Esto es cierto para otros tipos de estímulos, como lo ilustra el
siguiente experimento en el aula. Nueve palomas fueron acondicionadas para golpear un
triángulo amarillo bajo refuerzo intermitente. En la sesión representada por la Fig. 5, las
aves se reforzaron primero en este programa durante 30 minutos. La curva acumulada
combinada es esencialmente una línea recta, que muestra más de 1100 respuestas por ave
durante este período. Un triángulo rojo fue sustituido por el amarillo y no se reforzaron las
respuestas a partir de entonces. El efecto fue una caída pronunciada en la respuesta, con
solo una ligera recuperación durante los siguientes quince minutos. Cuando se reemplazó el
triángulo amarillo, la respuesta rápida comenzó inmediatamente y siguió la curva de
extinción habitual. Experimentos similares han demostrado que el tono de un tono
incidental, la forma de un patrón que se golpea, o el tamaño de un patrón, si está presente
durante el acondicionamiento, controlará en cierta medida la tasa de respuesta durante la
extinción. Algunas propiedades son más efectivas que otras, y es posible una evaluación
cuantitativa.Cambiando a varios valores de un estímulo en orden aleatorio repetidamente
durante el proceso de extinción, el gradiente para la generalización del estímulo se puede
leer directamente en las tasas de respuesta debajo de cada valor.

Algo muy parecido a esto debe continuar durante la extinción. Supongamos que todas las
respuestas a una clave se han reforzado y que a cada una le ha seguido un breve período de
alimentación. Cuando extinguimos el comportamiento, creamos una situación en la que las
respuestas no se refuerzan, en las que no se come, y en las que probablemente haya nuevas
respuestas emocionales. La situación podría ser tan novedosa como un triángulo rojo
después de un amarillo. Si es así, podría explicar la disminución en la tasa durante la
extinción. Podríamos haber obtenido un [p. 205] curva suave, con forma de curva de
extinción , entre las líneas verticales en la Fig. 5 cambiando gradualmente el color del
triángulo de amarillo a rojo. Esto podría haber sucedido aunque no se estaba produciendo
ningún otro tipo de extinción. Las mismas condiciones de extinción parecen presuponer una
creciente novedad en la situación experimental. ¿Es por eso que la curva de extinción es
curva?

Alguna evidencia proviene de los datos de "recuperación espontánea". Incluso después de


la extinción prolongada, un organismo a menudo responderá a mayor velocidad durante al
menos unos momentos al comienzo de otra sesión. Una teoría sostiene que esto muestra
una recuperación espontánea de algún tipo de inhibición, pero otra explicación es
posible. No importa cuán cuidadosamente se maneje un animal, la estimulación que
coincide con el comienzo de un experimento debe ser extensa y diferente a cualquier cosa
que ocurra en la última parte de un período experimental. Las respuestas se han reforzado
en la presencia de, o poco después, el organismo se coloca nuevamente en la situación
experimental, la estimulación es esta estimulación. En extinción, está presente solo por
unos momentos. Cuando restaurado; se emiten otras respuestas como en el caso del
triángulo amarillo. La única forma de lograr la extinción total en presencia de la
estimulación de comenzar un experimento es comenzar el experimento repetidamente.

Otra evidencia del efecto de la novedad proviene del estudio del refuerzo periódico. El
hecho de que el refuerzo intermitente produzca curvas de extinción más grandes que el
refuerzo continuo es una dificultad problemática para quienes esperan una relación simple
entre el número de refuerzos y el número de respuestas en extinción. Pero esta relación es
realmente bastante compleja. Un resultado del refuerzo periódico es que los cambios
emocionales se adaptan. Esto puede ser responsable de la suavidad de las curvas de
extinción posteriores, pero probablemente no de su mayor extensión. Esto último puede
atribuirse a la falta de novedad en la situación de extinción. Bajo refuerzo periódico muchas
respuestas se hacen sin refuerzo y cuando no se ha comido recientemente. La situación en
extinción no es totalmente nueva.
El refuerzo
periódico no
es, sin
embargo, una
solución
simple. Si
reforzamos
[p. 206] El
refuerzo
periódico no
es, sin
embargo, una
solución
simple. Si
reforzamos en un horario regular, digamos, cada minuto, el organismo pronto forma una
discriminación. Poca o ninguna respuesta ocurre justo después del refuerzo, ya que la
estimulación de comer se correlaciona con la ausencia de refuerzo posterior. La rapidez con
que se puede desarrollar la discriminación se muestra en la Fig. 6, que reproduce las
primeras cinco curvas obtenidas de una paloma con refuerzo periódico en períodos
experimentales de quince minutos cada una. En el quinto período (o después de
aproximadamente una hora de refuerzo periódico), la discriminación produce una pausa
después de cada refuerzo, lo que resulta en una curva marcadamente gradual. Como
resultado de esta discriminación, el pájaro casi siempre responde rápidamente cuando se lo
refuerza. Esta es la base de otra discriminación. La respuesta rápida se convierte en una
condición estimulante favorable. Un buen ejemplo del efecto sobre la curva de extinción
posterior se muestra en la Fig. 7. Esta paloma había sido reforzada una vez por minuto
durante períodos experimentales diarios de quince minutos cada uno durante varias
semanas. En la curva de extinción que se muestra, el ave comienza a responder a la
velocidad prevaleciente según el cronograma anterior. Una aceleración positiva rápida al
inicio se pierde en la reducción del registro. La paloma rápidamente alcanza y mantiene una
tasa que es más alta que la tasa global durante el refuerzo periódico. Durante este período,
la paloma crea una condición estimulante previamente correlacionada de manera óptima
con el refuerzo. Eventualmente, cuando algún tipo de agotamiento interviene, la tasa cae
rápidamente a un valor mucho más bajo pero bastante estable y luego prácticamente a
cero. Entonces prevalece una condición bajo la cual una respuesta normalmente no se
refuerza. Por lo tanto, es improbable que el ave comience a responder de nuevo. Sin
embargo, cuando responde, la situación mejora ligeramente y, si continúa respondiendo, las
condiciones se vuelven rápidamente similares a aquellas bajo las cuales se recibió el
refuerzo. Bajo esta "autocatálisis", se alcanza rápidamente una tasa alta y se emiten más de
500 respuestas en una segunda ráfaga. La tasa luego disminuye rápidamente y bastante
suavemente, nuevamente a casi cero. Esta curva no es en modo alguno desordenada. La
mayor parte de la curvatura es suave. Pero el estallido de respuesta a los cuarenta y cinco
minutos muestra una fuerza residual considerable que, si la extinción fuera meramente
agotamiento, debería haber aparecido antes en la curva. La curva puede explicarse
razonablemente suponiendo que [p. 207] el pájaro está controlado en gran parte por la
correlación espuria precedente entre el refuerzo y la respuesta rápida.
Esta suposición puede verificarse mediante la construcción de un cronograma de
reforzamiento en el que es imposible una contingencia diferencial entre la tasa de respuesta
y el refuerzo. En uno de esos esquemas de lo que se puede llamar "refuerzo aperiódico", un
intervalo entre respuestas reforzadas sucesivas es tan breve que no intervienen respuestas
no reforzadas, mientras que el intervalo más largo es de aproximadamente dos
minutos. Otros intervalos se distribuyen aritméticamente entre estos valores, el promedio
restante de un minuto. Los intervalos son aproximadamente aleatorios para componer un
programa de refuerzo. Bajo este programa, la probabilidad de refuerzo no cambia con
respecto a los refuerzos previos, y las curvas nunca adquieren el carácter gradual de la
curva E en la Fig. 6. (La Figura 9 muestra las curvas de un programa similar). Como
resultado, no hay correlación entre se pueden desarrollar diferentes tasas de respuesta y
diferentes probabilidades de refuerzo.

En la Fig. 8 se muestra una curva de extinción después de una breve exposición a refuerzos
aperiódicos. Comienza característicamente a la velocidad predominante bajo refuerzo
aperiódico y, a diferencia de la curva que sigue al refuerzo periódico periódico, no se
acelera a una velocidad global más alta. No hay evidencia de la producción "autocatalítica"
de una condición estimulante óptima. También característicamente, no hay
discontinuidades significativas o cambios repentinos en la tasa en cualquier dirección. La
curva se extiende a lo largo de un período de ocho horas, frente a no exactamente dos horas
en la figura 7, y parece representar un único proceso ordenado. El número total de
respuestas es mayor, tal vez debido al mayor tiempo permitido para la emisión. Todo esto
puede explicarse por el simple hecho de que hemos hecho imposible que la paloma forme
un par de discriminaciones basadas, primero, en la estimulación por comer y, segundo, en
el estímulo de una respuesta rápida.

Dado que el intervalo más largo entre el refuerzo fue de solo dos minutos, una cierta
novedad aún debe haberse introducido con el paso del tiempo. Si esto explica la curvatura
en la figura 8 puede probarse hasta cierto punto con otros programas de refuerzo que
contienen intervalos mucho más largos. Se construyó una progresión geométrica
comenzando con 10 segundos como el intervalo más corto y multiplicándose repetidamente
a través de una relación de 1.54. Esto produjo un conjunto de intervalos de un promedio de
5 minutos, el más largo de los cuales fue más de 21 minutos. Tal conjunto fue aleatorizado
en un programa [p. 208] de refuerzo repetido cada hora.
Al cambiar a este programa de la serie aritmética, las tasas declinaron primero durante los
intervalos más largos, pero las palomas pronto pudieron mantener una tasa constante de
respuesta debajo de ella. Dos registros en la forma en que se registraron se muestran en la
figura 9. (El lápiz se restablece a cero después de cada mil respuestas. Para obtener una sola
curva acumulativa, sería necesario cortar el registro y unir las secciones para producir una
línea continua. La forma cruda se puede reproducir con
menos reducción.) Cada armadura está representada por un tablero horizontal. El tiempo
cubierto es de aproximadamente 3 horas. Los registros se muestran para dos palomas que
mantuvieron diferentes tasas generales bajo este programa de refuerzo.

Bajo tal programa, se mantiene una tasa constante de respuesta durante al menos 21
minutos sin refuerzo, después de lo cual se recibe un refuerzo. Por lo tanto, se debería
desarrollar menos novedad durante la extinción posterior. En la Curva 1 de la Fig. 10, la
paloma había estado expuesta a varias sesiones de varias horas cada una con este conjunto
geométrico de intervalos. El número de respuestas emitidas en extinción es
aproximadamente el doble que la curva de la figura 8 después del conjunto aritmético de
intervalos que promedia un minuto, pero el
las curvas son muy parecidas. La exposición adicional a la programación geométrica genera
ejecuciones más largas durante las cuales la velocidad no cambia significativamente. La
Curva 2 siguió a la Curva 1 después de dos horas y media de refuerzo aperiódico
adicional. En el día que se muestra en la curva 2, primero se dieron algunos refuerzos
aperiódicos, como se marcó al comienzo de la curva. Cuando se interrumpió el refuerzo,
prevaleció una tasa de respuesta bastante constante para varios miles de
respuestas. Después de otra sesión experimental de dos horas y media con la serie
geométrica, se grabó la curva 3. Esta sesión también comenzó con una serie corta de
refuerzos aperiódicos, seguidos de una ejecución sostenida de más de 6000 respuestas no
reforzadas con pocos cambios en la tasa (A). No parece haber ninguna razón por la cual
otras series que promedian quizás más de cinco minutos por intervalo y que contienen
intervalos excepcionales mucho más largos no lleven esa línea recta mucho más allá.

En este ataque al problema de la extinción creamos un cronograma de refuerzo que se


parece tanto a las condiciones que prevalecerán durante la extinción que no disminuye la
tasa [p. 209] lugar durante mucho tiempo. En otras palabras, generamos extinción sin
curvatura. Finalmente, se produce algún tipo de agotamiento, pero no se aborda
gradualmente. La última parte de la Curva 3 (desafortunadamente muy reducida en la
figura) puede posiblemente sugerir agotamiento en la ligera curvatura general, pero es una
pequeña parte de todo el proceso. El registro está compuesto principalmente por series de
unos cientos de respuestas cada una, la mayoría de ellas aproximadamente a la misma
velocidad que la que se mantiene bajo refuerzo periódico. La paloma se detiene
bruscamente; cuando comienza a responder nuevamente,
rápidamente alcanza la tasa de respuesta bajo la cual fue reforzada. Esto recuerda la
correlación espuria entre la respuesta rápida y el refuerzo bajo refuerzo regular. Por
supuesto, no hemos eliminado por completo esta correlación.A pesar de que ya no existe un
refuerzo diferencial de altas contra bajas tasas, prácticamente todos los refuerzos han
ocurrido bajo una tasa constante de respuesta.

El estudio adicional de los programas de refuerzo puede o no responder a la pregunta de si


la novedad que aparece en la situación de extinción es completamente responsable de la
curvatura. Parece ser necesario hacer que las condiciones prevalecientes durante la
extinción sean idénticas a las condiciones que prevalecen durante el
acondicionamiento. Esto puede ser imposible, pero en ese caso la pregunta es
académico. La hipótesis, mientras tanto, no es una teoría en el sentido actual, [p. 210] ya
que no hace declaraciones sobre un
proceso paralelo en cualquier otro universo de discurso. [ 4 ]
El estudio de la extinción después de diferentes esquemas de reforzamiento aperiódico no
se dirige completamente a esta hipótesis. El objeto es una descripción económica de las
condiciones que prevalecen durante el refuerzo y la extinción y de las relaciones entre
ellas. Al usar la tasa de respuesta como un dato básico, podemos apelar a condiciones que
son observables y manipulables y podemos expresar las relaciones entre ellas en términos
objetivos. En la medida en que nuestro dato lo hace posible, reduce la necesidad de la
teoría. Cuando observamos una paloma que emite 7000 respuestas a una velocidad
constante sin refuerzo, no es probable que expliquemos una curva de extinción que
contenga quizás unos cientos de respuestas apelando a la acumulación de inhibición de la
reacción o cualquier otro producto de fatiga. La investigación que se realiza sin
compromiso con la teoría es más probable que lleve el estudio de la extinción a nuevas
áreas y nuevos órdenes de magnitud. Al acelerar la acumulación de datos, aceleramos la
salida de las teorías. Si las teorías no han tenido parte en el diseño de nuestros
experimentos, no debemos lamentar verlos partir.

Aprendizaje complejo

Un tercer tipo de teoría del aprendizaje se ilustra con términos


como preferir , elegir , discriminar y emparejar . Se puede hacer un esfuerzo para
definirlos únicamente en términos de comportamiento, pero en la práctica tradicional se
refieren a procesos en otro sistema dimensional. Una respuesta a uno de los dos estímulos
disponibles se puede llamar elección, pero es más común decir que es el resultado de la
elección, lo que significa que esta última es una actividad preconductual teórica. Los
procesos mentales superiores son los mejores ejemplos de teorías de este tipo; paralelos
neurológicos no han sido bien resueltos. El atractivo de la teoría es alentado por el hecho de
que elegir (como discriminar, emparejar, etc.) no es un comportamiento en particular. No es
una respuesta o un acto con una topografía específica. El término caracteriza un segmento
más grande de comportamiento en relación con otras variables o eventos. ¿Podemos
formular y estudiar el comportamiento al que generalmente se aplicarían estos términos sin
recurrir a las teorías que generalmente los acompañan?

La discriminación es un caso relativamente simple. Supongamos que encontramos que la


probabilidad de emisión de una respuesta dada no se ve significativamente afectada por el
cambio de uno de los dos estímulos al otro. Luego hacemos que el refuerzo de la respuesta
dependa de la presencia de uno de ellos. El resultado bien establecido es que la
probabilidad de respuesta sigue siendo alta bajo este estímulo y
alcanza un punto muy bajo debajo del otro. Decimos que el organismo ahora discrimina
entre los estímulos. Pero la discriminación no es en sí misma una acción, o necesariamente
un proceso único. Los problemas en el campo de la discriminación pueden establecerse en
otros términos. ¿Cuánta inducción se obtiene entre estímulos de diferentes magnitudes o
clases? Cuáles son las diferencias más pequeñas en los estímulos
que producen una diferencia de control? Y así. Las preguntas de este tipo no presuponen
actividades teóricas en otros sistemas dimensionales.
Se debe especificar un segmento algo más grande al tratar
con el comportamiento de elegir uno de los dos estímulos
concurrentes. Esto ha sido estudiado en la paloma al
examinar las respuestas a dos claves diferentes- [p. 211] ing
en posición (derecha o izquierda) o en alguna propiedad
como color aleatorizado con respecto a la posición. Al
reforzar ocasionalmente una respuesta en una tecla u otra sin
favorecer ninguna tecla, obtenemos tasas iguales de
respuesta en las dos teclas. El comportamiento se acerca a
una simple alternancia de una clave a la otra. Esto sigue la
regla de que las tendencias a responder eventualmente
corresponden a las probabilidades de refuerzo. Dado un
sistema en el que una tecla u otra se conecta ocasionalmente
con la revista mediante un reloj externo, si la tecla correcta
acaba de ser golpeada, la probabilidad de refuerzo a través
de la tecla izquierda es mayor que la derecha ya que un
intervalo mayor de tiempo ha transcurrido durante el cual el
reloj puede haber cerrado el circuito a la tecla
izquierda. Pero el comportamiento del pájaro no
corresponde a esta probabilidad simplemente por respeto a
las matemáticas. El resultado específico de tal contingencia
de refuerzo es que cambiar a la otra clave y golpear se refuerza con más frecuencia que
golpear la misma tecla por segunda vez. Ya no estamos lidiando solo con dos
respuestas. Para analizar "elección" debemos considerar una única respuesta final,
impactante, sin importar la posición o el color de la clave, y además las respuestas de
cambiar de una clave o color a la otra.

Los resultados cuantitativos son compatibles con este análisis. Si periódicamente


reforzamos las respuestas solo a la tecla correcta, la tasa de respuesta de la derecha
aumentará mientras que la de la izquierda disminuirá. La respuesta de cambiar de derecha a
izquierda nunca se refuerza, mientras que la respuesta de cambiar de izquierda a derecha es
ocasionalmente. Cuando el pájaro golpea a la derecha, no hay una gran tendencia a cambiar
las llaves; cuando está golpeando a la izquierda, hay una fuerte tendencia a
cambiar. Muchas respuestas más se hacen a la clave correcta. La necesidad de considerar el
comportamiento del cambio se muestra claramente si ahora revertimos estas condiciones y
reforzamos las respuestas solo a la tecla izquierda. El resultado final es una alta tasa de
respuesta en la tecla izquierda y una tasa baja en la derecha. Al revertir las condiciones
nuevamente, la tasa alta se puede volver a desplazar a la tecla derecha. En la Fig. 11 se ha
promediado un grupo de ocho curvas para seguir este cambio durante seis periodos
experimentales de 45 minutos cada uno. A partir del segundo día en el gráfico, las
respuestas a la tecla derecha (R R ) disminuyen en la extinción mientras que las respuestas a
la tecla izquierda (R L ) aumentan a través del refuerzo periódico. La tasa media no muestra
variaciones significativas- [p. 212], ya que el refuerzo periódico continúa en el mismo
horario. La tasa media muestra la condición de la fuerza de la respuesta al golpear una tecla
independientemente de su posición. La distribución de respuestas entre derecha e izquierda
depende de la fuerza relativa de las respuestas de cambio. Si esto fuera simplemente un
caso de la extinción de una respuesta y el reacondicionamiento concurrente de otra, la curva
media no permanecería aproximadamente horizontal ya que el reacondicionamiento ocurre
mucho más rápidamente que la extinción. [ 5 ]

La velocidad con la que el pájaro cambia de una llave a otra depende de la distancia entre
las llaves. Esta distancia es una medida aproximada de la diferencia de estímulo entre las
dos teclas. También determina el alcance de la respuesta de cambio, con una diferencia
implícita en retroalimentación sensorial. También modifica la extensión del refuerzo a las
respuestas supuestamente no reforzadas, ya que si las teclas están muy juntas, una respuesta
reforzada en un lado puede ocurrir más pronto después de un precedente
respuesta en el otro lado. En la Fig. 11, las dos teclas estaban a una pulgada de
distancia. Por lo tanto, eran bastante similares con respecto a la posición en la caja
experimental. Cambiar de uno a otro implicaba un mínimo de retroalimentación sensorial, y
el refuerzo de una respuesta a una tecla podría seguir muy poco después de una respuesta a
la otra. Cuando las teclas están separadas por hasta cuatro pulgadas, el cambio en la fuerza
es mucho más rápido. La figura 12 muestra dos curvas registradas simultáneamente de una
sola paloma durante un período experimental de aproximadamente 40 minutos. Una alta
tasa [p. 213] a la tecla derecha y una tasa baja a la
izquierda había sido establecida previamente. En la figura, no se reforzaron las respuestas a
la derecha, pero las de la izquierda fueron
cada minuto, como lo indican los guiones verticales por encima de la curva L. La pendiente
de R disminuye de manera bastante suave, mientras que la de L aumenta, también bastante
suavemente, hasta un valor comparable al valor inicial de R. El ave se ha conformado al
cambio de contingencia dentro de un único período experimental. La tasa media de
respuesta se muestra mediante una línea punteada, que nuevamente muestra una curvatura
no significativa.

Lo que se
llama
"preferencia"
entra en esta

formulación. En cualquier etapa del proceso que se muestra en la figura 12, la preferencia
se puede expresar en términos de las tasas relativas de respuesta a las dos claves. Sin
embargo, esta preferencia no consiste en pulsar una tecla sino en cambiar de una clave a
otra. La probabilidad de que el ave golpee una tecla independientemente de sus propiedades
de identificación se comporta independientemente de la respuesta preferencial de cambio
de una clave a otra. Varios experimentos han revelado un hecho adicional. Una preferencia
permanece fija si se retiene el refuerzo. La Fig. 13 es un ejemplo. Muestra curvas de
extinción simultáneas de dos claves durante siete períodos experimentales diarios de una
hora cada uno. Antes de la extinción, la fuerza relativa de las respuestas de cambio a R y
cambio a L arrojó una "preferencia" de aproximadamente 3 a 1 para R. La constancia de la
velocidad a lo largo del proceso de extinción se ha mostrado en la figura al multiplicar L
por una constante adecuada e ingresar los puntos como pequeños círculos en R. Si la
extinción altera la preferencia, las dos curvas no podrían superponerse de esta manera.

Estas formulaciones de discriminación y elección nos permiten tratar lo que generalmente


se considera un proceso mucho más complejo: hacer coincidir con la muestra. Supongamos
que organizamos tres teclas translúcidas, cada una de las cuales puede iluminarse con luz
roja o verde. La tecla del medio funciona como la muestra y la coloreamos en rojo o verde
en orden aleatorio. Coloreamos las dos teclas laterales
uno rojo y otro verde, también en orden aleatorio. El "problema" es pulsar la tecla lateral
que corresponde en color a la tecla del medio. En tal caso, solo hay cuatro patrones de tres
teclas, y es posible que una paloma aprenda a dar una respuesta adecuada a cada
patrón. Esto no ocurre, al menos dentro del lapso temporal de los experimentos hasta la
fecha. Si simplemente presentamos una serie de ajustes de los tres colores y reforzamos las
respuestas exitosas, la paloma tocará las teclas laterales sin
Respecto al color o patrón y se reforzará el 50 por ciento de las veces. Este es, en efecto, un
programa de refuerzo de "relación fija" que es adecuado para mantener una alta tasa de
respuesta.

Sin embargo, es posible lograr que una paloma coincida con la muestra al reforzar las
respuestas discriminatorias de rojo-llamativo-después-de-ser-estimulado-por-rojo y verde-
llamativo-después-de-ser-estimulado-por-verde mientras se extinguen los otros dos
posibilidades. La dificultad está en organizar la estimulación adecuada en el momento de la
respuesta. La muestra puede hacerse visible, por ejemplo, al tener el color de la muestra en
la iluminación general de la caja experimental. En tal caso, el pi- [p. 214] geon aprendería a
pulsar las teclas rojas en una luz roja y las teclas verdes en una luz verde (asumiendo una
iluminación neutra
del fondo de las teclas). Pero un procedimiento que se apega más a la noción de
emparejamiento es inducir a la paloma a "mirar la muestra" por medio de un refuerzo
separado. Podemos hacer esto presentando primero el color en la tecla del medio, dejando
las teclas laterales sin color. Luego se refuerza (en segundo lugar) una respuesta a la tecla
central iluminando las teclas laterales. La paloma aprende a hacer dos respuestas en rápida
sucesión: a la tecla central y luego a una tecla lateral. La respuesta a la tecla lateral sigue
rápidamente a la estimulación visual de la tecla del medio, que es la condición necesaria
para una discriminación. El emparejamiento exitoso se estableció fácilmente en las diez
palomas analizadas con esta técnica. Elegir lo contrario también se configura fácilmente. La
respuesta discriminativa de golpear-rojo-después-ser-estimulado-por-rojo aparentemente no
es más fácil de establecer que golpear-rojo-después-ser-estimulado-por-verde. Cuando la
respuesta es a una clave del mismo color, sin embargo, la generalización puede
hacer posible que el pájaro coincida con un nuevo color. Esta es una extensión de la noción
de coincidencia que aún no se ha estudiado con este método.

Incluso cuando el comportamiento de coincidencia ha sido bien establecido, el pájaro no


responderá correctamente si las tres claves se presentan ahora al mismo tiempo. El ave no
posee un comportamiento fuerte al mirar la muestra. El experimentador debe mantener un
refuerzo separado para mantener este comportamiento en fortaleza. En monos, simios y
sujetos humanos, el éxito final en
la elección es aparentemente suficiente para reforzar y mantener el comportamiento de
mirar la muestra. Es posible que esta diferencia de especie sea simplemente una diferencia
en las relaciones temporales requeridas para el refuerzo.

El comportamiento de la coincidencia sobrevive sin cambios cuando se retiene todo el


refuerzo. Se ha establecido un caso intermedio en el que la respuesta de coincidencia
correcta solo se refuerza periódicamente. En un experimento, apareció un color en la tecla
central durante un minuto; luego se cambió o no se cambió, al azar, al otro color. Una
respuesta a esta tecla iluminó el
teclas laterales, una roja y una verde, en orden aleatorio. Una respuesta a una tecla lateral
cortó la iluminación de ambas teclas laterales, hasta que la tecla central se golpeó de
nuevo. El aparato registró todas las respuestas coincidentes en un gráfico y todas las que no
coinciden en otro. Las palomas que han adquirido un comportamiento de coincidencia bajo
refuerzo continuo han mantenido este comportamiento
cuando se refuerza no más de una vez por minuto en promedio. Pueden hacer miles de
respuestas coincidentes por hora mientras se refuerzan por no más de sesenta de ellos. Este
cronograma no necesariamente desarrollará el comportamiento de emparejamiento en un
ave ingenua, ya que el problema se puede resolver de tres maneras. El ave recibirá
prácticamente tantos refuerzos si responde a (1) solo una tecla o (2) solo a un color, ya que
la programación del experimento hace que cualquier respuesta persistente finalmente sea la
correcta.

Una muestra de los


datos obtenidos en un
experimento
complejo de este tipo
se da en la figura 14.
Aunque esta paloma
había aprendido a
combinar el color
bajo refuerzo
continuo, cambió a la
solución espuria de
una preferencia de
color bajo refuerzo
periódico. Cuando la
muestra era roja,
golpeaba tanto la
muestra como la
tecla lateral roja y
recibía todos los
refuerzos. Cuando la
muestra era verde, no
respondía y las teclas
laterales no estaban
iluminadas. El
resultado que se
muestra al comienzo
del gráfico en la Fig.
14 es una alta tasa de
respuesta en el
gráfico superior, que
registra
coincidencias-
[p. 215] respuestas
de ing. (El registro es
realmente paso a
paso, siguiendo la
presencia o ausencia de la muestra roja, pero esto se pierde en la reducción de la figura.)
Sin embargo, una preferencia de color no es una solución al problema de los opuestos. Al
cambiar a este problema, fue posible cambiar el comportamiento del pájaro como se
muestra entre las dos líneas verticales en la figura. La curva superior entre estas líneas
muestra la disminución en las respuestas de coincidencia que resultó de la preferencia de
color. La curva inferior entre las mismas líneas muestra el desarrollo de responder y
coincidir con el color opuesto. En la segunda línea vertical, el refuerzo volvió a depender
del emparejamiento. La curva superior muestra el restablecimiento del comportamiento de
coincidencia, mientras que la curva inferior muestra un descenso al golpear el color
opuesto. El resultado fue una verdadera solución: la paloma golpeó la muestra, sin importar
su color, y luego la tecla lateral correspondiente. La línea más clara conecta los medios de
una serie de puntos en las dos curvas. Parece seguir la misma regla que en el caso de elegir:
los cambios en la distribución de las respuestas entre dos claves no implican la tasa global
de respuesta a una tecla. Esta tasa media no se mantendrá constante en virtud de la solución
falsa lograda con una preferencia de color, como al comienzo de esta figura.

Estos experimentos en unos pocos procesos superiores se han descrito necesariamente muy
brevemente. No se ofrecen como prueba de que las teorías del aprendizaje no son
necesarias, pero pueden sugerir un programa alternativo en esta área difícil. Los datos en el
campo de los procesos mentales superiores trascienden respuestas únicas o relaciones de
estímulo-respuesta individuales. Pero parecen ser susceptibles de formulación en términos
de la diferenciación de respuestas concurrentes, la discriminación de estímulos, el
establecimiento de varias secuencias de respuestas, etc. No parece haber una razón
a priori por la cual una cuenta completa no sea posible sin apelar a procesos teóricos en
otros sistemas dimensionales.

Conclusión

Quizás prescindir completamente de las teorías es un tour de force que es demasiado


esperar como práctica general. Las teorías son divertidas. Pero es posible que el progreso
más rápido hacia la comprensión del aprendizaje pueda hacerse mediante investigaciones
que no estén diseñadas para probar teorías. La inclinación para obtener datos que muestren
los cambios ordenados característicos del proceso de aprendizaje proporciona un ímpetu
adecuado. Un programa científico aceptable es recopilar datos de este tipo y relacionarlos
con variables manipulables, seleccionadas para el estudio a través de una exploración del
campo de sentido común.

Esto no excluye la posibilidad de la teoría en otro sentido. Más allá de la colección de


relaciones uniformes se encuentra [p. 216] la necesidad de una representación formal de los
datos reducida a un número mínimo de términos. Una construcción teórica puede producir
una mayor generalidad que cualquier conjunto de hechos. Pero tal construcción no se
referirá a otro sistema dimensional y no lo hará, por lo tanto,
antes, caen dentro de nuestra definición actual. No obstaculizará nuestra búsqueda de
relaciones funcionales porque surgirá solo después de que se hayan encontrado y estudiado
variables relevantes. Aunque puede ser difícil de entender, no se malentendirá fácilmente, y
no tendrá ninguno de los efectos objetables de las teorías aquí consideradas.
No parece que estemos preparados para la teoría en este sentido. Por el momento hacemos
poco uso efectivo de ecuaciones empíricas, y mucho menos racionales. Algunas de las
curvas actuales podrían haberse ajustado bastante de cerca. Pero la investigación preliminar
más elemental muestra que hay muchas variables relevantes, y hasta que su importancia
haya sido determinada experimentalmente, una ecuación que
les permite tener tantas constantes arbitrarias que un buen ajuste será una cuestión de rutina
y una causa de muy poca satisfacción.

[SRA. recibido el 5 de diciembre de 1949]

Notas a pie de página

[ 1] Dirección del presidente, Asociación Psicológica del Medio Oeste, Chicago, Illinois,
mayo de 1949.

[ 2] Parte del material que sigue se obtuvo en 1941-42 en un estudio cooperativo sobre el
comportamiento de la paloma en el que colaboraron Keller Breland, Norman Guttman y
WK Estes. Parte de ella se selecciona de trabajos subsecuentes, aún inéditos, en la paloma
realizados por el autor en la Universidad de Indiana y la Universidad de Harvard. Las
limitaciones de espacio hacen que sea imposible informar todos los detalles aquí.

[ 3] No puede, de hecho, acortarse o alargarse. Cuando una latencia parece estar forzada
hacia un valor mínimo por refuerzo diferencial, se requiere otra interpretación. Aunque
podemos reforzar diferencialmente el comportamiento más enérgico o la ejecución más
rápida de la conducta después de que comienza, no tiene sentido hablar de respuestas de
refuerzo diferencial con latencias cortas o largas. Lo que en realidad reforzamos
diferencialmente son (a) comportamiento de espera favorable y (b) respuestas más
vigorosas. Cuando le pedimos a un sujeto que responda "lo antes posible" en el
experimento del tiempo de reacción humano, le pedimos esencialmente (a) que lleve a cabo
la mayor parte de la respuesta posible sin llegar realmente al criterio de emisión, (b) a haga
lo mínimo posible y (c) responda energéticamente después de que se haya dado el
estímulo. Esto puede producir un tiempo mensurable mínimo entre el estímulo y la
respuesta, pero esta vez no es necesariamente un dato básico ni nuestras instrucciones lo
han alterado como tal. Se requiere una interpretación paralela del refuerzo diferencial de
"latencias" largas. En los experimentos con palomas antes citados, se condiciona el
comportamiento preliminar que pospone las respuestas a la llave hasta el momento
adecuado. El comportamiento que "marca el tiempo" suele ser conspicuo.

[ 4] Es cierto que apela a la estimulación generada en parte por el propio comportamiento


de la paloma. Esto puede ser difícil de especificar o manipular, pero no es teórico en el
sentido actual. Mientras que estemos dispuestos a asumir una correspondencia de uno a uno
entre la acción y la estimulación, es posible una especificación física.
[ 5] Dos respuestas topográficamente independientes, capaces de emitir al mismo tiempo y,
por lo tanto, que no requieren un cambio, muestran procesos separados de
reacondicionamiento y extinción, y la tasa combinada de respuesta varía.

Referencias

( 1) MOWRER, OH, y JONES, HM Extinción y variabilidad del comportamiento como


funciones del esfuerzo de la tarea. J. exp .
Psychol ., 1943, 33, 369-386.

( 2) SKINNER, BF El comportamiento de los organismos . Nueva York: D. Appleton-


Century Co., 1938.

( 3) -----. La naturaleza de la reserva operante. Psychol. Bull ., 1940, 37, 423 (resumen).

( 4) -----. Refuerzo diferencial con respecto al tiempo. Amer. Psychol ., 1946, 1, 274-275
(resumen).

( 5) -----. El efecto de la dificultad de una respuesta sobre su tasa de


emisión. Amer. Psychol , 1946, 1, 462 (resumen).

Vous aimerez peut-être aussi