Vous êtes sur la page 1sur 297

Psicologa del aprendizaje

Ricardo Pelln Surez de Puga (Coordinador)


Miguel Miguns Vzquez
Cristina Orgaz Jimnez
Nuria Ortega Lahera
Vicente Prez Fernndez

jBs k '

NDICE

Tema 1.

A sp e c to s h is t r ic o s , c o n c e p tu a le s y m e to d o l g ic o s

Tema 2.

C o n d i c i o n a m i e n t o c l s i c o : f u n d a m e n t o s ........................................

53

Tema 3.

M e c a n ism o s a s o c ia tiv o s y t e o r a s d e l c o n d ic io n a m ie n to
CLSICO ..........................................................................................................................

101

Tema 4.

P r i n c i p i o s b s i c o s d e l c o n d i c i o n a m i e n t o o p e r a n t e ..............

155

Tema 5.

P r o g r a m a s y t e o r a s d e l r e r f o r z a m i e n t o ....................................

211

Tema 6.

C o n tr o l d e l a c o n d u c ta p o r e stm u lo
Vicente Prez Fernndez

287

Tema 7.

C o n t r o l a v e r s i v o e n e l c o n d i c i o n a m i e n t o o p e r a n t e ..........

345

EN EL ESTUDIO DEL APRENDIZAJE Y LA CONDUCTA


Miguel Miguns Vzquez y Ricardo Pelln Surez de Puga
Nuria Ortega Lahera

Cristina Orgaz Jimnez

Miguel Miguns Vzquez

Ricardo Pelln Surez de Puga

Vicente Prez Fernndez

PSICOLOGA DEL APRENDIZAJE


Quedan rigurosamente prohibidas, sin la
autorizacin escrita de los titulares del
Copyright, bajo las sanciones establecidas
en las leyes, la reproduccin total o
parcial de esta obra por cualquier medio
o procedimiento, comprendidos la reprografa
y el tratamiento informtico, y la distribucin
de ejemplares de ella mediante alquiler
o prstamos pblicos.

Universidad Nacional de Educacin a Distancia


Madrid 2014
wxvw.uned.es/publicaciones

Ricardo Pelln Surez de Puga (coordinador)


Miguel Miguns Vzquez, Cristina Orgaz Jimnez,
Nuria Ortega Lahera, y Vicente Prez Fernndez
ISBN electrnico: 978-84-362-6856-0
Edicin digital: febrero de 2014

Psicologa del aprendizaje

Ricardo Pelln Surez de Puga (coordinador)


Miguel Miguns Vzquez
Cristina Orgaz Jimnez
Nuria Ortega Lahera
Vicente Prez Fernndez

UNIVERSIDAD NACIONAL DE EDUCACIN A DISTANCIA

T em a 3

MECANISMOS ASOCIATIVOS
Y TEORAS DEL CONDICIONAMIENTO CLSICO
Cristina Orgaz Jimnez
Departamento de Psicologa Bsica I, Facultad de Psicologa. UNED

1. Las
1.1.
1.2.
1.3.

caractersiticas de los estmulos .............................................


Intensidad .........................................................................................
Novedad ............................................................................................
Naturaleza ........................................................................................
1.3.1. Tipos de estmulo ..................................................................
1.3.2. Relevancia de los estmulos .................................................
1.3.3. La fuerza biolgica ................................................................
1.4. Contigidad temporal entre estmulos ......................................

103
104
107
109
110
112
114
119

2. Cmo se asocian el EC y el El? .......................................................


2.1. El concepto de contingencia ........................................................
2.2. Fenmenos de competicin de claves ........................................
2.3. Teoras del Aprendizaje .................................................................
2.3.1. Modelo Rescorla-Wagner ......................................................
2.3.2. La importancia del contexto ...............................................
2.3.3. Hiptesis del Comparador ...................................................
2.3.4. Modelos atencionales.
Teora de Mackintosh
Teora de Pearce-Hall ............................................................
2.3.5. Otras teoras ...........................................................................

119
120
124
127
127
137
138
140
143

Referencias .................................................................................................... 147

101

P s ic o l o g a

d e l a p r e n d iz a j e

C o n o c im ie n t o s

p r e v io s

Condicionamiento clsico o pavloviano: Forma bsica de aprendizaje descu

bierta por Pavlov que se basa en la relacin EC-EI y en las respuestas dadas
ante estos estmulos por los sujetos (RC y RI).
Condicionamiento Excitatorio: Tipo de condicionamiento en el que se da
una contingencia positiva entre la aparicin del EC y la aparicin del EI.
La presentacin repetida del El tras el EC provoca una RC similar a la RI.
Condicionamiento Inhibitorio: Tipo de condicionamiento en el que se da una
contingencia negativa entre la aparicin del EC y la aparicin del El, por lo
que el EC no provoca una RC similar a la RI.
Estmulo Condicionado (EC): Estmulo inicialmente neutro que no provoca
una respuesta en el sujeto por s mismo, pero adquiere la capacidad de
hacerlo al ser asociado con un estmulo incondicionado.
Estmulo Incondicionado (El): Estmulo que provoca una respuesta en el
sujeto por s mismo, sin necesidad de asociacin con otro estmulo ni entre
namiento previo.
Respuesta Condicionada (RC): Respuesta que provoca un EC tras ser asocia
do a un El y que generalmente es similar a la RI.
Respuesta Incondicionada (RI): Respuesta que provoca un El, sin necesidad
de un entrenamiento previo.

102

En el captulo anterior hemos visto algunos tipos de condicionamiento


(excitatorio e inhibitorio) y una serie de procedimientos a travs de los
cuales podemos medir la Respuesta Condicionada (RC) generada a travs
de dichos entrenamientos.
Por ejemplo, las fobias, como en el caso del experimento de Watson y
Rayner (1920) con el pequeo Albert, son un claro ejemplo de condiciona
miento pavloviano excitatorio. Como explicamos en el captulo anterior,
entre los distintos procedimientos que nos permiten comprobar si un con
dicionamiento ha tenido lugar est, por ejemplo, la medida de la respuesta
de miedo ante un estmulo como una rata blanca.
La medicin de las RCs es importante pero lo es ms, si cabe, conocer
las variables que determinan dicha respuesta. La RC del pequeo Albert no
sera posiblemente la misma ante una rata blanca que ante cientos de ellas.
Qu determina el aprendizaje de la relacin entre un (Estmulo Condi
cionado) EC y un El (Estmulo Incondicionado)? Qu variables influyen
en que la rata blanca (EC) provoque una RC de miedo en Albert? Las carac
tersticas de los propios estmulos son determinantes para el aprendizaje, al
igual que las caractersticas de la relacin que mantienen entre s.
En este captulo mostraremos cmo el aprendizaje se ve determinado
por ciertas caractersticas estimulares, la experiencia previa y las manipu
laciones experimentales.
1. LAS CARACTERSTICAS DE LOS ESTMULOS
El El parece ser el estmulo ms importante en el condicionamiento.
Produce la RI por s mismo, sin necesidad de asociacin con ningn otro
estmulo. Esto se debe al significado biolgico que tiene para nosotros. Los
El ms utilizados en los estudios de laboratorio sobre condicionamiento
103

P s ic o l o g a

d e l a p r e n d iz a j e

pavloviano son generalmente comida, en el caso del condicionamiento ape


titivo, y descargas o malestar estomacal, en el caso de condicionamientos
aversivos. Tanto la comida como el dao fsico son EIs muy significativos,
biolgicamente hablando, para cualquier organismo.
Una rata blanca puede ser un estmulo neutro y potencialmente poco
peligroso. Pero para alguien sometido a un condicionamiento aversivo, co
mo en el caso del pequeo Albert, un estmulo inicialmente neutro puede
dar lugar a una RC similar a la que el El (ruido fuerte), con el que se ha
asociado dicho estmulo, provoca por s mismo. Que el El sea un estmulo
biolgicamente significativo y que el EC sea un estmulo neutro son condi
ciones necesarias pero no suficientes para conseguir un buen condiciona
miento. Sujetos como Albert, sometidos a algn tipo de condicionamiento
aversivo, no sentirn el mismo miedo ante ruidos a bajo o a alto volumen,
o ante sonidos continuados o breves o ante ratas a las que estaba acostum
brado previamente.
Caractersticas fundamentales como la intensidad, la novedad, la du
racin o la naturaleza de los estmulos pueden, como veremos a continua
cin, favorecer o entorpecer el condicionamiento.
1.1. Intensidad
Si al pequeo Albert le presentasen una rata muy grande o cientos de
ratas a la vez posiblemente mostrara despus del condicionamiento una
RC de miedo distinta que al mostrarle una pequea rata. Del mismo modo,
no mostrar la misma RI frente a un sonido suave que frente a uno muy
potente. Un El o un EC intenso tienen como consecuencia, por norma ge
neral, una aceleracin en el aprendizaje en un procedimiento de condicio
namiento y una mayor expresin de la RC.
Relacionado con el concepto de intensidad est el de saliencia. Un est
mulo saliente es aquel que es ms perceptible o significativo que otros para
ese organismo. Un EC que capta fcilmente la atencin es un EC saliente,
lo que le convierte en propicio para ser utilizado en un procedimiento de
condicionamiento pavloviano.
En el caso de los EIs, debido a su significacin biolgica, son intensos
y salientes por naturaleza (a diferencia de los EC, que inicialmente son es104

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

tmulos neutros). Por ejemplo, un El como la comida no ser tan saliente


para un animal que acaba de comer como para uno que lleva das en ayuno.
Cunto ms significativo sea un El para un animal, ms probabilidades
habr de que el aprendizaje se realice de forma ms rpida y exitosa. Preci
samente por el carcter biolgico de los EIs, la influencia de las variaciones
en la intensidad de los mismos en lo que al condicionamiento se refiere
ha sido ampliamente estudiada. Los estudios concluyen que la RC es ms
fuerte cuando se utilizan EIs ms salientes (Bevins, McPhee, Rauhut y
Ayres, 1997; Kamin y Brimer, 1963).
Intensificar un estmulo puede aumentar la saliencia del mismo, favore
ciendo que el animal le preste mayor atencin. Por ejemplo, podemos va
riar la intensidad de una descarga elctrica (El) y ver cmo influye esto en
la produccin de la RC. Llevando a cabo esta manipulacin experimental,
Polenchar, Romano, Steinmetz y Patterson (1984) (ver tambin Annau y
Kamin, 1961; Morris y Bouton, 2006, para resultados similares) concluye
ron, como puede verse en la Figura 3.1, que aquellos animales que reciban
descargas ms dbiles que las recibidas previamente (por ejemplo, de un
miliamperio) mostraban pocos cambios en la amplitud de la RC (movi
miento de su pata) durante el entrenamiento, mientras que los que reciban
descargas ms intensas (por ejemplo, 4 miliamperios) vean aumentada
significativamente la amplitud de dicha RC de flexin de pata.
o- 1
1 2 -i
1

r
4

Sesin de adquisicin

Figura 3.1. Amplitud de la RC


(milmetros de movimiento del
miembro) en grupos con distintas
intensidades del El (descarga;
1, 2, 3 o 4 miliamperios)
(Polenchar, Romano, Steinmetz y
Patterson, 1984).
105

P s ic o l o g a

d e l a p r e n d iz a j e

Adems
de
en
las
RCs
de
miedo,
como
las
Ejemplo
medidas a travs de la supresin de la conducta,
Sentir nn miedo tambin se perciben cambios en las RC de otro
menor ante la posible tipo, tanto conductuales cmo fisiolgicas, ge
picadura de una abeja neradas por otros EIs que varan en intensidad.
que ante la de una ser
piente venenosa.
Entre las primeras encontramos el reflejo
de parpadeo, los movimientos mandibulares
en conejos, y las RCs de flexin de pata en gatos (Smith, 1968; Sheafor y
Gormezano, 1972; Polenchar, Romano, Steinmetz y Patterson, 1984, res
pectivamente). Como ejemplos de reacciones fisiolgicas que varan debido
a la intensidad del El utilizado tenemos la salivacin, la tasa cardiaca, y los
cambios glucmicos (Wagner, Sieguel, Thomas y Ellison, 1964; Fitzgerald
y Teyler; 1970; Woods y Shogren, 1972, respectivamente).
La utilizacin en el condicionamiento de EIs de distinta intensidad no
slo puede hacer que la amplitud de la respuesta sea distinta, esto es, que
aumente o disminuya, sino que puede hacer que la respuesta dada por el
animal vare en su forma. Holland (1979) descubri que al aumentar la
cantidad de comida suministrada a un grupo de ratas no slo aumentaba la
intensidad de sus respuestas relacionadas con la obtencin de comida sino
que dedicaban ms tiempo a stas y menos a respuestas de otro tipo, como
las respuestas de orientacin.
Es de suponer que si el aumento en la intensidad de un El tiene tan
claras consecuencias a nivel de la amplitud o la variacin de la respuesta,
hacer que un El sea ms intenso presentando dos El simultneamente
debera tener las mismas o similares. Efectivamente, segn estudios como
los llevados a cabo con conejos por Frey, Maisiak y Duque (1976), si se
utilizan dos EIs aversivos simultneos (una descarga elctrica en la m an
dbula del animal y una estimulacin cerebral intracraneal aversiva) tras
un EC (auditivo en este caso), tiene lugar un condicionamiento ms fuerte
ante dicho EC, lo que tiene como consecuencia una RC de parpadeo ms
intensa.
Aunque, de forma general, la intensificacin de los estmulos se traduce
en un aumento de la RC, puede que el condicionamiento llegue a su mximo
nivel independientemente de la intensidad de los mismos. Es decir, a partir
de cierta intensidad o saliencia no hay variacin en el condicionamiento ni
en la expresin de la RC (que puede haber llegado a su nivel mximo).
106

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

1.2. Novedad
Una variable relacionada con la intensidad o la saliencia de los estmu
los es la novedad. La variacin en la intensidad o la presencia de estmulos
muy intensos puede resultar novedosa para el animal. Por eso, la novedad
puede ser responsable en cierta medida de los efectos de la intensidad de
los estmulos en el condicionamiento clsico (Kalat, 1974).
La novedad, por s misma, sin estar relacionada con la intensidad de los
estmulos, es una variable importante a tener en cuenta de cara a conseguir
un buen condicionamiento. Los estmulos novedosos suscitan reacciones
ms intensas que aquellos a los que ya estamos habituados. El efecto de la
ausencia de novedad de los estmulos puede comprobarse en el efecto de
preexposicin. Preexponer un estmulo implica presentarlo repetidamente
en solitario antes de que tenga lugar el condicionamiento EC-EI, de esta
forma el estmulo deja de ser novedoso (ver Tabla 3.1).
Tabla 3.1. Diseo experimental del efecto de preexposicin
Fase 1

Fase 2

Prueba

Preexposicin al EC

EC

EC-EI

EC?

Preexposicin al El

El

EC-EI

EC?

RC

Poca RC (retraso en el
condicionamiento)
Poca RC (retraso en el
condicionamiento)

Dependiendo que cul de los dos estmulos implicados en el condiciona


miento pavloviano sea el preexpuesto tenemos dos tipos de efectos:
Preexposicin al EC o Inhibicin latente:
Los estudios ms relevantes sobre la influencia de la novedad del EC en
lo que al condicionamiento y a la expresin de la RC se refiere (Hall, 1991;
Lubow, 1989; Lubow y Gewirtz, 1995; para las implicaciones en psicopatologa, vanse Lubow, 1989; Oberling, Gosselin y Miller, 1997), muestran
que cuando un EC es preexpuesto, es decir, aparece repetidamente en au
sencia del El, esto retrasa la adquisicin de la asociacin EC-EI posterior,
dificultando as el condicionamiento.
107

P s ic o l o g a

d e l a p r e n d iz a j e

El
efecto
de
preexposicin
al
EC
tiene
carac
Ejemplo
tersticas similares al efecto de habituacin. En
Preexposicin al ambos efectos la falta de novedad hace que se
EC. Toda mi vida he preste menos atencin a aquellos estmulos que
podido comer kiwi de no predicen ninguna consecuencia relevante. Si
forma normal porque
nunca me ha sentado un estmulo no es seguido por ninguna conse
mal. De repente, un da, cuencia significativa, ni positiva ni negativa, y
me como un kiwi y ho no provoca en nosotros ninguna RC, dejaremos
ras despus tengo dolor de prestarle atencin ya que, probablemente,
de estmago. Me cuesta no ser importante para nuestra supervivencia.
asociar ms ese dolor de Por eso, la inhibicin latente, como afirmaron
estmago a la ingesta
del kiwi porque ste no Lubow y Gewirtz (1995) promueve la selec
me haba producido ma cin de los estmulos necesaria para el apren
lestar con anterioridad.
dizaje rpido.
A pesar de sus similitudes con la habitua
cin, debemos aclarar que ambos efectos no son lo mismo. La habituacin
es una disminucin en respuestas como la de orientacin o sobresalto mien
tras que la inhibicin latente supone el retraso de un aprendizaje posterior
(Hall y Schachtman, 1987). Debemos aclarar tambin que, a pesar de que se
lo denomine inhibicin latente (adems de preexposicin al EC), no impli
ca que el EC se haya convertido en un inhibidor condicionado (Reiss y Wagner, 1972; Rescorla, 1971). Si el EC se convirtiera en un inhibidor durante la
fase de preexposicin esto debera hacer ms fcil utilizarlo posteriormente
como EC en un condicionamiento inhibitorio adems de provocar una RC
inhibitoria en un procedimiento de sumacin, lo que en realidad no ocurre.
Preexposicin al El:
Cuando el El se presenta repetidas veces, sin asociacin previa con el
EC, deja de ser novedoso. Si posteriormente intentamos que el animal o la
persona aprenda una asociacin entre dicho El y un EC inicialmente neutro,
el aprendizaje se ver dificultado (Randich, 1981; Randich y LoLordo, 1979;
Riley y Simpson, 2001; Salandin, ten Have, Saper, Labinsky y Tait, 1989).
Por qu el efecto de preexposicin dificulta el condicionamiento
posterior? La explicacin ms sencilla podra tener en su base filogentica la prdida de la atencin a los estmulos no relevantes para nuestra
supervivencia diaria. Que el efecto que producen ciertos eventos que se
108

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

repiten muy frecuentemente se vea reducido Ejemplo


se ha seleccionado como mecanismo de apren
Preexposicin al EI.
dizaje por su valor adaptativo. Probablemente
Con cierta periodicidad
por cuestiones de economa conductual o de me
duele
el
estmago
interrupcin de otras actividades que puedan sin razn aparente. Hoy
ser relevantes para la supervivencia del sujeto. he comido kiwi y des
ha comenzado a
Cuando un estmulo no predice consecuen pus
dolerme
el
estmago.
cias importantes para nosotros dejamos de Dado que el kiwi nun
prestarle atencin para centrar nuestros re ca me haba producido
cursos atencionales en otros estmulos poten dolor, me costar ms
cialmente relevantes, ya sea porque predicen aprender que mi dolor
un peligro o porque indican la posibilidad de de estmago se debe al
kiwi porque ste ya se
obtener alimento.
daba con anterioridad.
Pero, adems de esta explicacin atencional, otros mecanismos asociativos y de memoria parecen estar en la base
del efecto de preexposicin (Hall, 1991). Dichos mecanismos tienen como
origen el efecto de interferencia (Lubow, Weiner y Schnur, 1981; McPhee,
Rauhut y Ayers, 2001; Riley y Simpson, 2001), ya sea asociativa o de me
moria. Segn la perspectiva de la interferencia asociativa, si el EC o el El
son expuestos previamente, la capacidad asociativa de dichos estmulos
disminuir de cara a emparejarse con estmulos nuevos.
En el caso de la hiptesis de la interferencia de memoria en referencia
al enlentecimiento del condicionamiento una vez preexpuesto el estmulo,
el recuerdo de lo ocurrido durante la fase de preexposicin interfiere sobre
el aprendizaje de la asociacin EC-EI. La existencia de este mecanismo sub
yacente en los efectos de preexposicin se ve avalado por experimentos que
muestran que los procedimientos que reducen dicha interferencia ayudan a
fortalecer la RC (Graham, Barnet, Gunther y Miller, 1994; Rosas y Bouton,
1997; Westbrook, Jones, Bailey y Harris, 2000).
1.3. Naturaleza
La naturaleza de los estmulos es una caracterstica fundamental en el
condicionamiento pavloviano. Hablar de la naturaleza de los estmulos im
plica una serie de subcaractersticas tales como su tipo, apetitivo o aversivo,
su relevancia para ese organismo en particular o la importancia biolgica.
109

P s ic o l o g a

d e l a p r e n d iz a j e

1.3.1. Tipos de estmulo


El tipo de estmulo utilizado va a determinar el condicionamiento y la
RC que va a tener lugar. Teniendo en cuenta que el condicionamiento pa
vloviano contribuye a una mejor adaptacin al entorno permitiendo prede
cir los acontecimientos que van a suceder, que la RC se parezca a la RI, es
decir, que la RC est en funcin del El utilizado es ms adaptativo que si no
lo fuera. El condicionamiento y la RC no sern los mismos si el El utilizado
es apetitivo, como un alimento, o aversivo, como una descarga o cualquier
otra fuente de dolor. Un animal no mostrar salivacin como RC (ni como
RI) si utilizamos una descarga como El, ni adquirir un condicionamiento
de miedo si utilizamos un El apetitivo, como la comida.
Un ejemplo claro de la importancia del tipo de El utilizado en el condi
cionamiento pavloviano es el experimento de automoldeamiento llevado a
cabo por Jenkins y Moore (1973). En este experimento, dos grupos de palo
mas fueron expuestas a un condicionamiento pavloviano en el que el EC era
una tecla iluminada. Entre ambos grupos variaba el El al que podan tener
acceso, siendo comida para uno de los grupos y agua para otro. La RC es
perada, es decir, el picoteo de la tecla iluminada, fue la obtenida, pero vari
en su forma dependiendo del El utilizado. Aquellos animales que recibieron
agua como El picoteaban la tecla de forma continua y lenta, mientras que
los que recibieron comida lo hacan de forma ms vigorosa. La forma en
que colocaban sus picos tambin dependa del El utilizado. En el caso del
agua, las palomas abran sus picos de la misma forma que si fuesen a sorber
y tragar agua. En el caso de utilizar comida, la apertura de dichos picos a
la hora de picotear la tecla era mayor, como al
Ejemplo
ingerir alimento (ver tambin Woodruff y Starr,
Me duele un pi des 1978, para un experimento similar).
de hace un rato y no
Aunque
parece
evidente
que
el
tipo
de
El
s por qu. Repaso lo
que he hecho durante el utilizado es importante para el condiciona
da que me haya podido miento y la obtencin de la RC esperada, pa
producir el dolor y veo rece menos evidente la importancia del tipo de
que me he dado un golpe EC utilizado, dado que se trata de un estmulo
y que he comido kiwis. inicialmente neutro que no produce una res
Deduzco que es ms pro puesta por s mismo. Ya que el EC funciona co
bable que me duela el
mo seal anticipatoria de un futuro El, parece
pie a causa del golpe.
factible pensar que cualquier estmulo puede
110

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

funcionar bien como EC, independientemente de su naturaleza sensorial.


Pero en realidad la modalidad sensorial del EC determina en gran medida
la forma de la RC. Distintos ECs pueden producir distintos tipos de RCs.
Holland (1977) reflej la importancia de la naturaleza del EC en la ex
presin de la RC, utilizando dos ECs de naturaleza distinta para llevar a
cabo un condicionamiento apetitivo en ratas. Utiliz dos grupos de ratas,
presentando como EC en uno de ellos un tono y en el otro una luz, cada
uno seguido de comida en cada ensayo de condicionamiento. La forma de
la RC vari segn el EC utilizado: aquellas ratas que fueron expuestas a un
tono mostraron movimientos de cabeza mientras que aquellas que fueron
expuestas a una luz mostraron conductas como ponerse de pie.
Como mostr Holland (1977), la modalidad sensorial del EC es impor
tante, pero tambin lo es la capacidad sensorial que los animales tienen
para reaccionar ante dichos eventos. No todos los animales procesan los
estmulos de igual forma. Algunas caractersticas de dichos EC, como la
luz, el color o la posicin, son ms fcilmente procesadas por ciertas espe
cies animales.
Bowe, Green y Miller (1987),
pusieron a prueba la capaci
COLOR
dad de procesamiento de las
palomas en lo que a ciertas ca
S
g
ractersticas de un EC visual se
80
refiere. Estos autores utilizaron
dos grupos de palomas, para
POSICION
60
uno de ellos el EC era una luz de
un color y para el otro, la posi o12!
11 40
cin del mismo EC. En el primer o' V)
L
U
C
L
grupo, una luz roja anticipaba la
20
posterior aparicin de comida,
independientemente del lugar
en el que apareciese dicha luz,
0 T0
T2 3 4 T5
mientras que en el segundo, la
SESIONES
posicin del estmulo luminoso
Figura 3.2. Porcentaje medio de respuestas
(en este caso situado a la iz
correctas en funcin de las sesiones (Bowe,
quierda) preceda a la comida,
Green
y
Miller,
1987)
independientemente del color de
1 2 0 -i

100

G LU
LU

LU O

111

P s ic o l o g a

d e l a p r e n d iz a j e

dicho estmulo. Como muestra la Figura 3.2, las palomas del grupo en el que
el color actu como EC fueron ms eficientes al llevar a cabo la RC (tienen
un porcentaje mayor de aciertos) que las que deban actuar segn la posicin
del estmulo. Esto nos permite concluir que las palomas procesan mejor, o
prestan ms atencin a los colores que a la localizacin espacial del EC.
1.3.2. Relevancia de los estmulos
La naturaleza de un EC nos lleva a un concepto ms importante si cabe:
la relevancia. La relevancia de un EC se mide segn su pertinencia con
respecto al EL El condicionamiento es mejor si el EC y el El guardan una
relacin en un contexto natural.
Garcia y Koelling (1966) lo dejaron claro en un experimento ya clsico
sobre relevancia, en el que mostraron que ECs frecuentemente utilizados
en experimentos de aprendizaje eran relevantes con respecto a ciertos EIs.
Para ello utilizaron como ECs sabores y estmulos audiovisuales, y como
EIs una descarga elctrica y malestar estomacal. El diseo experimental del
estudio puede verse en la Tabla 3.2:
Tabla 3.2. Diseo experimental utilizado por Garca y Koelling (1966)
Condicionamiento

Prueba

RC

Grupo 1

Gustativo + Audiovisual - Descarga

Grupo 2

Gustativo + Audiovisual - Malestar

Gustativo?
Audiovisual?
Gustativo?
Audiovisual?

Poca RC
Mucha RC
Mucha RC
Poca RC

El objetivo principal del experimento era ver cules de los ECs (sabor
o estmulos audiovisuales) eran ms susceptibles de condicionarse con los
diversos EIs. Para ello, Garca y Koelling combinaron esos ECs y EIs de la
siguiente forma: requeran que las ratas bebiesen agua con sabor dulce o
salado de forma previa a la aparicin de un El (EC gustativo), y al mismo
tiempo se les mostraba un estmulo audiovisual (EC audiovisual). Tras la
presentacin simultnea de estos ECs, se les administraba como El, o bien,
una breve descarga, o bien, se les provocaba un malestar estomacal. Debido
al carcter aversivo de los EIs, se esperaba que los animales mostraran al112

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

gn tipo de aversin ante los ECs, cosa que se vio reflejada en la respuesta
de las ratas ante los mismos.
Tras el condicionamiento, se realizaron pruebas con el EC gustativo
(sabor) y con el EC audiovisual por separado. El grado de aversin condi
cionada se meda utilizando como variable la supresin del lameteo. Los
resultados, que pueden apreciarse en la Figura 3.3, muestran que los ani
males que fueron expuestos a la descarga suprimieron ms su respuesta de
lamer ante un estmulo audiovisual que ante uno gustativo, mientras que
aquellos que fueron expuestos a un malestar gstrico suprimieron ms su
respuesta de lamer ante un estmulo gustativo que ante uno audiovisual.
Gustativo

Malestar

E 3 Audiovisual

Descarga

Estimulo incondicionado

Figura 3.3. Resultados del experimento de Garca y Koelling (1966)

La explicacin principal dada por estos autores a los resultados de su


experimento fue que en un contexto real, los animales pueden enfermar, o
sentir malestar, cuando comen un alimento en mal estado. De ah que el
condicionamiento entre un sabor y un malestar genere una RC de aversin
mayor. Por otro lado, en dicho contexto natural, es ms fcil que un animal
sufra algn dao fsico (como el generado por una descarga), provocado
por el ataque de un depredador, por ejemplo, ante ciertos estmulos visua
les o auditivos, quiz procedentes del propio depredador.
Este experimento muestra la importancia del concepto de relevancia
o pertinencia del EC con respecto al El, ya que el aprendizaje de ciertas
113

P s ic o l o g a

d e l a p r e n d iz a j e

asociaciones (sabor-malestar, estmulo audiovisual-descarga), se ve favore


cido si el EC es pertinente con respecto al EI. Ninguno de los ECs fue ms
efectivo que el otro en los condicionamientos en general, slo con aquel El
con el que por cuestiones ambientales se combinaba mejor. Este efecto de
relevancia EC-EI fue posteriormente confirmado por otros autores (Garb y
Stunkard, 1974; Gemberling y Domjan, 1982; Logue, Ophir y Strauss, 1981;
Pelchat y Rozin, 1982).
Otra serie de experimentos sobre relevancia o pertinencia dignos de
mencin son los llevados a cabo por LoLordo y sus colaboradores con palo
mas (Kelly, 1986; LoLordo, Jacobs y Foree, 1982; Shapiro, Jacobs y LoLor
do, 1980; Shapiro y LoLordo, 1982). Estos experimentos concluyeron que
las palomas asocian EIs alimenticios ms fcilmente con estmulos (ECs)
visuales que auditivos, mientras que asocian EIs aversivos (descargas) ms
fcilmente a ECs auditivos. Esto indica que, al menos para las palomas, las
claves visuales son ms relevantes para la obtencin de comida mientras
que las auditivas lo son para las conductas defensivas.
La investigacin en humanos sobre relevancia del EC con respecto al El
tambin muestra una preferencia estimular con respecto a un El aversivo.
Por ejemplo, es ms fcil que los humanos asocien fotografas como EC
con una descarga (El) si dichas fotografas son de animales que no si son
de flores (hman, Dimberg y st, 1985).
La explicacin terica para todos estos ejemplos de preferencia esti
mular, es decir, de relevancia o pertinencia del EC con respecto a un El,
se centra en que el EC provoca la activacin de cierto tipo de conductas
o ciertos sistem as de conductas. El sistema de conducta que se activa
depende del estado motivacional del animal y la naturaleza del EI. Si el
El es comida, el EC activa la produccin de conductas relacionadas con
la bsqueda de la misma, mientras que ECs como descargas desencade
nan conductas defensivas similares a las mostradas en presencia de un
depredador.
1.3.3. La fuerza biolgica
Al hablar de los EIs, de su naturaleza y su pertinencia, es inevitable
pensar en su carcter biolgico. Los EIs apetitivos, como el alimento, elicitan ciertas respuestas propias de las conductas de bsqueda de alimento
114

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

del animal: aproximacin, ingesta, masticacin, salivacin... Este carcter


biolgico no es atribuible a la mayora de los ECs. Un EC neutro, como un
tono o una luz, no tiene un carcter biolgico como el de la comida, no
provoca respuestas directamente relacionadas con sistemas de conducta
como el alimenticio.
La diferencia entre la fuerza biolgica de un EC y un El es la que llev a
afirmar a Pavlov (1927) que para que el condicionamiento tuviera lugar, el
EC deba tener menos fuerza biolgica que el El y, por lo tanto, las respues
tas elicitadas por el estmulo a condicionar deban ser menores o menos
intensas que las RI provocadas por el EL
Sin embargo, las investigaciones actuales muestran que, adems de con
un El de mayor fuerza biolgica que su EC, el condicionamiento puede darse
con estmulos de igual fuerza biolgica o incluso sin fuerza biolgica alguna.
A. Condicionamiento de dos estmulos con distinta fuerza biolgi
ca: condicionamiento de segundo orden.
En los procedimientos vistos hasta ahora el condicionamiento
tena lugar emparejando un EC con un El, pero tambin es posible
condicionar un EC con otro EC que haya sido previamente condicio
nado. Qu papel juega aqu la fuerza biolgica? Un EC inicialmente
neutro que ha sido expuesto a un condicionamiento con un El puede,
a su vez, hacer las veces de El para un nuevo condicionamiento, ya
que ha adquirido una fuerza biolgica que no tena antes. Este efecto
resultante se conoce como condicionamiento de segundo orden
(ver Tabla 3.3).
Tabla 3.3. Diseo experimental del condicionamiento de segundo orden,
el contracondicionamiento y el precondicionamiento sensorial
Fase 1

Fase 2

Condicionamiento de segundo orden EC,-EI EC2- EC,


EC-EI, EC-EI2
Contracondicionamiento
ECr EC, EC,-EI
Precondicionamiento sensorial

Prueba

RC

EC2?
EC?
e c 2?

Mucha RC
Cambio de RC
Mucha RC

El condicionamiento de segundo orden es un tipo de condi


cionamiento de orden superior. El condicionamiento de orden
115

P s ic o l o g a

d e l a p r e n d iz a j e

superior
(ver
Figura
3.4)
puede
tener,
como
Ejemplo
su propio nombre indica, distintos niveles. El
Condicionam iento aprendizaje ms bsico, EC-EI, corresponde
de segundo orden. El ra a un condicionamiento de primer orden.
kiwi me produce dolor Como se describe en el prrafo anterior, un
de estmago. Hoy me condicionamiento de segundo orden es aquel
he comido una manza
na antes de comer el en el que se aprenden dos asociaciones que
kiwi. No s cmo, pero- comparten un elemento comn, un estmulo
la manzana tambin ha que toma el papel de EC en una asociacin y
terminado sentndome posteriormente de El en la segunda. Si, por
mal.
ejemplo, un sonido, que ya ha sido asociado a
su vez con un EC condicionado que acta co
mo El, se utiliza a su vez como El en el aprendizaje de una nueva
asociacin EC-EI, estaramos hablando de un condicionamiento de
tercer orden. Y as sucesivamente.
En la vida diaria abundan los ejemplos de condicionamiento de orden
superior. Uno de los ms destacados es, por ejemplo, el dinero: un estmulo
inicialmente neutro (papel) se asocia con la posibilidad de adquirir bienes.
A su vez, el dinero, una vez adquirida su fuerza biolgica por asociacin
con el El, puede actuar como El frente a un EC inicialmente neutro, como
un cajero automtico o una tarjeta de crdito.

Figura 3.4. Procedimiento de orden superior, concretamente, de segundo orden.

El condicionamiento de orden superior es coherente con la hiptesis de


Pavlov segn la cual el condicionamiento tiene lugar cuando se empareja
un estmulo sin fuerza biolgica con uno con fuerza biolgica. Adems, este
efecto muestra que el condicionamiento clsico puede tener lugar sin un El
bsico, slo con estmulos condicionados previamente.
116

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

B. Condicionamiento de dos estmulos Ejemplo


con fuerza biolgica: contracondicio
C ontracondiciona
namiento.
miento. A los nios la
Pavlov afirmaba inicialmente que un consulta del dentista les
estmulo que ya tiene fuerza biolgica produce ansiedad. Pero
no puede servir como EC para un nuevo si el dentista les regala
piruleta, la experien
condicionamiento. Por ejemplo, si una una
cia
de
ir
a
consulta
les
rata haba asociado una luz con una des resulta menos aversiva.
carga, ya no se poda asociar la misma
luz con comida.
El fenmeno de contracondicionamiento (Pavlov, 1927) mues
tra que esta idea es errnea. Como se puede ver en la Tabla 3.3, un
EC que se ha emparejado con un El puede emparejarse con un El
diferente e incluso opuesto. Por ejemplo, si un EC se asocia con un
El aversivo, puede asociarse despus con un El apetitivo.
En el laboratorio, son numerosos los ejemplos de condiciona
miento con ECs de gran fuerza biolgica. Pearce y Dickinson (1975)
mostraron cmo se pueden invertir las propiedades aversivas de
una breve descarga emparejando dicha descarga con comida. Ini
cialmente, las ratas del grupo experimental recibieron una descarga
peridicamente, pero tras la administracin de cada descarga reci
ban comida. En diferentes grupos de control, las ratas recibieron
las descargas y la comida de forma desemparejada, o recibieron
slo uno u otro de los EIs. En un condicionamiento posterior con la
descarga, el grupo que haba recibido la descarga emparejada con la
comida mostr menos miedo que los grupos control. Este resultado
indica que el procedimiento de contracondicionamiento redujo las
propiedades aversivas de la descarga (para otros ejemplos de contra
condicionamiento, vase Dickinson y Dearing, 1979).
El contracondicionamiento no slo puede variar completamente la
RC que tiene lugar (por ejemplo, del miedo a la salivacin) sino que
tambin puede variar una respuesta bidireccional de un extremo al
otro. Por ejemplo, conseguir que un estmulo que inicialmente pro
voca un acercamiento suscite despus una respuesta de alejamiento.
El contracondicionamiento est en la base de muchas terapias
de conducta, pero la nueva asociacin aprendida no borra del todo
117

P s ic o l o g a

d e l a p r e n d iz a j e

el aprendizaje original, por lo que la RC inicial puede reaparecer un


tiempo despus o en un contexto distinto (como puede verse en fe
nmenos como la recuperacin espontnea o la renovacin vistos en
el captulo anterior). Por ello, el contracondicionamiento es un buen
mtodo en el tratamiento de trastornos como las fobias, teniendo en
cuenta estas limitaciones.
C. Condicionamiento de dos estmulos sin fuerza biolgica: pre
condicionamiento sensorial.
Como hemos visto, el contracondicionamiento nos muestra que el
condicionamiento puede tener lugar entre dos estmulos de gran fuer
za biolgica, dos estmulos que provocan respuestas intensas. Tambin
se puede dar aprendizaje entre dos estmulos sin fuerza biolgica, que
a priori no provocan respuestas intensas, como en el caso del fenme
no de precondicionamiento sensorial (vase diseo en Tabla 3.3).
Si queremos, por ejemplo, que un animal aprenda la relacin en
tre dos estmulos neutros, un tono (EC,) y una luz (EC2), el principal
problema con el que nos podemos encontrar es la ausencia de una
RC medible. Esto es, generalmente, un animal no muestra una RC
ante estmulos neutros. De qu forma sabemos si el aprendizaje de
la asociacin ha tenido lugar si no podemos medirlo? Para ello, en
la segunda fase del procedimiento, se empareja el EC! con un El,
aversivo o apetitivo, para que d lugar a una RC. De esta forma, si
el aprendizaje EC,-EC2 ha tenido lugar, el EC2
provocar una respuesta similar a la mostrada
Ejemplo
por EC, tras su emparejamiento con el El (BePrecondicionamien rridge y Shulkin, 1989; Lavin, 1976; Rescorla
to sensorial. Suelo to y Durlach, 1981; Ward-Robinson y Hall, 1996,
mar arroz con leche con
canela de postre. He to 1998).
mado arroz con leche
La diferencia de fuerza biolgica entre el
(sin canela) y me ha
producido un malestar. EC y el El, como afirm Pavlov, ayuda a un co
Ahora, cuando veo la ca rrecto condicionamiento, pero tambin es una
nela, evito tomarla por forma de medir el aprendizaje, especialmente
si me produce tambin cuando medimos RCs que no son fcilmente
malestar cmo lo hace observables. La presencia de un El con fuerza
el arroz con leche.
biolgica es necesaria para que se haga eviden118

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

te el aprendizaje que se ha dado, pero no para su adquisicin. El


precondicionamiento sensorial es, por tanto, un ejemplo ms de que
aprendizaje y ejecucin son procesos distintos.
1.4. Contigidad temporal entre estmulos
Adems de las caractersticas del EC y el El como estmulos independien
tes, cmo se ha visto en el captulo anterior en relacin a los procedimien
tos de condicionamiento pavloviano excitatorio, la relacin temporal entre
ambos puede favorecer o perjudicar el aprendizaje de la asociacin entre los
mismos y, por lo tanto, influir en la aparicin e intensidad de la RC.
Las variables temporales a destacar son dos:
1. Intervalo EC-EI: Las investigaciones muestran que, generalmente,
la RC es ms dbil cuando el intervalo EC-EI es mayor (Marlin,
1981). Adems, dicho intervalo puede afectar a la forma de la RC.
Holland (1980) mostr que cuando el intervalo EC-EI es corto se dan
ms conductas de orientacin hacia el EC, mientras que si es largo,
las conductas ms probables son las de orientacin al El (por ejem
plo, acercamiento al comedero).
2. Intervalo entre ensayos (IEE): El condicionamiento es mejor (y por
tanto tambin la expresin de la RC) cuando los ensayos EC-EI estn
distanciados entre s.
La relacin entre la duracin de cada ensayo y la distancia entre los
mismos es del mismo modo importante para el aprendizaje correcto de la
asociacin EC-EI. Las mejores condiciones para un condicionamiento ex
citatorio se dan con intervalos EC-EI cortos y aislados en el tiempo (amplio
IEE). An as, el condicionamiento puede tener lugar de forma ptima con
intervalos EC-EI mayores siempre y cuando el IEE se alargue de forma
proporcional (Kaplan, 1984).
2. CMO SE ASOCIAN EL EC Y EL El?
Tradicionalmente se pensaba que lo ms importante para un buen con
dicionamiento y, por lo tanto, para la obtencin de la RC esperada, era el
119

P s ic o l o g a

d e l a p r e n d iz a j e

emparejamiento repetido de la asociacin EC-EI (Pavlov, 1927). Aunque


esto es condicin imprescindible, no es suficiente para un buen condicio
namiento. Se debe cumplir tambin la siguiente condicin: el EC debe ser
un buen predictor del EL
2.1. El concepto de contingencia
En 1968, Rescorla descubri que el mero emparejamiento de un EC
(por ejemplo, una luz) y un El (por ejemplo, una descarga) no siempre da
lugar a condicionamiento.
Para medir el grado en que una clave o estmulo, el EC, es un buen
predictor de la aparicin de otro estmulo, el El, se utiliza el concepto de
contingencia (Alian, 1980; Jenkins y Ward, 1965).
Las posibles alternativas de emparejamiento de un EC con un El en un
ensayo de condicionamiento concreto no se limitan a la aparicin de ambos
estmulos. Por ejemplo, en fenmenos como la extincin, la aparicin del
EC va seguida de la no aparicin del El, lo que nos aporta una gran infor
macin predictiva a pesar de que no se da una contigidad entre ambos
estmulos.
Estas
posibles
alternativas,
imprescindibles,
Ejemplo
como veremos, para el clculo de la contingen
La probabilidad de cia, se resumen en una tabla de contingen
que habiendo nubes en cias. Esta tabla es una matriz 2x2 que repre
el cielo despus tenga lu
gar una tormenta es ma senta las ocurrencias conjuntas del EC y el El
yor que la probabilidad (vase Tabla 3.4.).
de que estando el cielo
completamente despeja
do se ponga a llover de
repente. Por eso, cuando
vemos el cielo encapo
tado solemos pensar en
que pronto va a llover.

Tabla 3.4. Tabla de Contingencias


EC
NO EC

El
a
c

NO El
b
d

La matriz muestra en sus cuatro celdas los cuatro tipos de combinacio


nes posibles que se pueden dar entre la aparicin de un EC y la de un El en
un procedimiento de condicionamiento:
120

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

a: Indica el nmero de ensayos de condicionamiento en los que habien


do aparecido el EC despus aparece el EI.
b: Indica el nmero de ensayos de condicionamiento en los que habien
do aparecido el EC despus NO aparece el EI.
c: Indica el nmero de ensayos de condicionamiento en los que NO ha
biendo aparecido el EC si aparece el EI.
d: Indica el nmero de ensayos de condicionamiento en los ninguno de
los dos estmulos aparece.
Sabiendo esto, se pueden calcular probabilidades condicionales te
niendo en cuenta toda la informacin obtenida de las cuatro celdas o una
informacin relativa por fila o por columna. Por ejemplo, la probabilidad
de que se d el El despus de que el EC haya tenido lugar (denominada Pt)
se calcula teniendo en cuenta las veces que el El aparece despus de que lo
haga el EC en funcin de todas las veces, en total, que ha aparecido el EC
(haya o no haya aparecido despus el El). De ah que:
P,=P(EI|EC) = a / (a+b)
De la misma forma podemos hacer el clculo relativo de la probabili
dad de que el El tenga lugar tras la NO aparicin del EC (P0) teniendo en
cuenta todos los casos en los que dicho El aparece (ya sea precedido o no
de un EC):
P0=P(EI|EC) = c / (c+d)
Aunque se pueden dar mltiples combinaciones entre las celdas adems
de las mostradas por P, y P0 (por ejemplo, la probabilidad de aparicin del
EC en relacin a todas las posibles opciones : (a+b)/(a+b+c+d)), estas dos son
las utilizadas para el clculo de la contingencia en el aprendizaje asociativo.
Esto es, la contingencia se calcula teniendo en cuenta la probabilidad de
la aparicin del El en presencia del EC en relacin a la aparicin del El sin
que previamente haya aparecido el EC. El ndice resultante de este clculo
de contingencia se llama AP y puede comprender valores entre -1 y 1.
AP = P(EI|EC) - P(EI|noEC)= P,-P0= [a/a+b] -[c/c+d]
121

P s ic o l o g a

d e l a p r e n d iz a j e

Segn sus valores numricos hay tres tipos de contingencia:


Contingencia positiva: si la aparicin del EC es un buen predictor
de la aparicin del El (la luz predice bien la posterior aparicin de la
descarga), el El debe ocurrir con ms probabilidad cuando el EC ha
sido presentado previamente que en ausencia de ste. En este caso
se da un condicionamiento excitatorio.
P(EI|EC) > P(EI|noEC)
es decir, Pi>P0
AP>0
En el caso en el que el El slo ocurra en presencia del EC y nunca
en su ausencia, la contingencia ser perfecta:
AP = P(EI|EC) - P(EI|noEC) = 1 - 0 = 1
Contingencia nula: Si la probabilidad de que el El apareciese en
presencia o en ausencia del EC fuese la misma (es decir, la descarga
aparece el mismo nmero de veces en presencia que en ausencia de
la luz), la contingencia tomara un valor numrico de 0. Esto impli
cara, en teora, una ausencia total de condicionamiento.
P(EI|EC) = P(EI|noEC)
es decir, P ^ P q
AP = 0
Aunque, como decimos, en teora debera darse una falta de
condicionamiento, en la prctica tiene lugar un efecto llamado irrelevancia aprendida. El sujeto aprende que no hay una relacin de
contingencia entre el EC y el El lo que retrasa un posterior aprendi
zaje de dicha relacin, de forma similar a como ocurre en el fenme
no de preexposicin al EC o al EL
Contingencia negativa: Una contingencia negativa indica que el EC
es un gran predictor del El, pero de su ausencia, no de su presencia.
Esto implicara que el El es menos probable en presencia que en
ausencia del EC. En nuestro ejemplo, la descarga aparecera ms

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

veces en ausencia de la luz que en su presencia, por lo que la luz no


nos senaria para predecir su posterior aparicin sino su posterior
NO aparicin.
P(EI|EC) < P(EI|noEC)
es decir, Pi<P0
AP<0
En el caso en el que el El siempre apareciese en ausencia del EC
y nunca en su presencia,
AP = P(EI|EC) - P(EI|noEC) = 0 - 1 = 1
Cuando la contingencia es negativa el condicionamiento es inhibitorio.
En el condicionamiento inhibitorio, como vimos en el captulo anterior, un
EC predice la no aparicin de un EI. Cuando la contingencia es negativa, el
El aparece con ms frecuencia cuando el EC no est presente, por lo que el
EC se convierte en un buen predictor, pero en este caso, de la ausencia del EI.

Figura 3.5. Representacin grfica de AP

Como se puede ver en la Figura 3.5, la contingencia tambin se puede


representar grficamente. Los valores superiores a la lnea diagonal (trin
gulo superior izquierdo) representan situaciones de contingencia positiva,
mientras que los que estn por debajo (tringulo inferior derecho) repre
sentan la contingencia negativa. Las situaciones representadas por la dia
gonal corresponden a la ausencia de condicionamiento, es decir, AP = 0.
123

P s ic o l o g a

d e l a p r e n d iz a j e

2.2. Fenmenos de competicin de claves


La importancia de que un EC sea un buen predictor del El para que
el condicionamiento tenga lugar ha quedado patente con el concepto de
contingencia. Pero, a veces, puede haber una contingencia perfecta entre
un EC y un El y an as la RC no tiene lugar. Esto es lo que muestran los
fenmenos de competicin de claves.
En estos fenmenos, como su propio nombre indica, se da una compe
ticin entre los distintos ECs presentes para ser el mejor predictor del EI.
Incluso cuando la contingencia entre cada uno de ellos y el El es perfecta,
existen otros factores que pueden influir en el condicionamiento, favore
cindolo o dificultndolo.
Hay varios fenmenos de competicin de claves, de los cuales destaca
remos dos: el ensombrecimiento y el bloqueo.
1. Ensombrecimiento
Este efecto (Pavlov, 1927) es el ms sencillo de todos los fenme
nos de competicin de claves (ver diseo experimental en Tabla 3.5).
En este caso, a diferencia de en el condicionamiento que hemos
visto hasta ahora, son dos los ECs presentes de forma simultnea.
Por ejemplo, supongamos que queremos condicionar una luz (EC,)
y un sonido (EC2) con una descarga posterior (El) para provocar una
respuesta de miedo en unos animales. Aunque la contingencia entre
el ECt y el El y entre el EC2 y el mismo El es perfecta, ambos ECs
compiten para ser un mejor predictor del EI.
Por eso, al aparecer juntos, EC2 ensombrece a
Ejemplo
EC1;
teniendo
como
consecuencia
una
menor
Como huevos fritos RC frente a ECj con respecto a ese mismo EC
con patatas para cenar en un grupo control en el que EC, no ha sido
y horas despus siento
malestar estomacal. En ensombrecido.
vez de pensar que am
bos alimentos me han
producido el dolor por
igual, creo que han si
do los huevos fritos los
responsables de que me
encuentre mal.
124

Tabla 3.5. Diseo experimental


del ensombrecimiento
Entrenamiento Prueba

Prueba

Gr. Experimental (EC,+EC2)-EI EC,? Poca RC


EC, - El
Gr. Control
EC,? Mucha RC

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

Este fenmeno puede revertirse si llevamos a cabo una recuperacin


del ensombrecimiento (ver Tabla 3.6). Para ello, tras el ensombrecimiento
debemos mostrarle al sujeto que ahora el estmulo ensombrecedor ya no es
un buen predictor del El, con lo que conseguiremos que la RC frente al EC
ensombrecido aumente (con respecto a un grupo control en el que la fase
de recuperacin del ensombrecimiento no ha tenido lugar).
Tabla 3.6. Diseo experimental de la recuperacin del ensombrecimiento
Gr. Experimental
Gr. Control

Fase 1

Fase 2

Prueba

Resultado

(EC,+EC2)-EI
(EC,+EC2)-EI

EC2- no El

EC,?
EC,?

Mucha RC
Poca RC

------

2. Bloqueo
El bloqueo (Kamin, 1968) es un efec
to muy estudiado de competicin de
claves que consta de dos fases de entre
namiento (ver diseo experimental en
Tabla 3.7). Al igual que ocurre con el en
sombrecimiento, la aparicin conjunta
de dos ECs igualmente contingentes con
el El determina la RC frente a cada uno
de ellos.

Ejemplo
Cada vez que como
htievos fritos siento ma
lestar estomacal. Ayer,
mi madre me puso hue
vos fritos con patatas
para comer. Como pre
viamente ya he sufrido
este malestar comiendo
slo huevos fritos, si
como patatas sin huevo
frito no me producir
por si solas el malestar.

En este caso el emparejamiento pre


vio (durante la primera fase de entre
namiento) de un estmulo (EC,) con el
El correspondiente determinar el con
dicionamiento de un EC posterior (EC2) con el mismo El, cuando
ambos ECs aparecen juntos. Es decir, inicialmente se establece
una asociacin entre el estmulo EC, y el El y cuando este estmulo
est completamente condicionado se aade un segundo estmulo
(EC2). La poca fuerza de la RC ante el EC2 durante la fase de prueba
muestra que el aprendizaje previo del EC, bloquea el desarrollo de
la RC ante el estmulo aadido durante la segunda fase de entre
namiento (EC2).
125

P s ic o l o g a

d e l a p r e n d iz a j e

Tabla 3.7. Diseo experimental del bloqueo.


Gr. Experimental
Gr. Control

Fase 1

Fase 2

Prueba

Resultado

ECr EI
EC./EI

(EC,+EC2)-EI
(EC,+EC2)-EI

e c 2?
e c 2?

Poca RC
RC Media

Por ejemplo, de manera similar al caso de ensombrecimiento del apar


tado anterior, supongamos que condicionamos una luz (EC,) con una
descarga posterior (El) para provocar una respuesta de miedo en unos
animales. Si en una segunda fase de entrenamiento aadimos un estmulo
nuevo (EC2), por ejemplo, un sonido, aunque la contingencia entre dicho
sonido y el El es perfecta, el hecho de que la luz (ECt) ya se haya mostrado
como un predictor eficaz de la descarga en una fase previa va a dar como
resultado una menor RC frente a EC2 con respecto a ese mismo EC en un
grupo control en el que en la Fase 1 no se produce la asociacin EC,-EI y,
por lo tanto, EC2 no ha sido bloqueado.
Merece especial atencin el control utilizado en el procedimiento de
bloqueo. Para conseguir que los grupos experimental y control sean lo ms
parecidos posibles desde un punto de vista metodolgico, se presentan los
mismos estmulos el mismo nmero de veces en ambos grupos pero en el
caso del grupo control el ECj y el El se muestran explcitamente desempa
rejados para que no se cree asociacin alguna entre ellos en la primera fase
de entrenamiento.
La inversin de las fases de entrenamiento en un diseo de bloqueo da
lugar a un tipo de bloqueo distinto: el bloqueo hacia atrs (Shanks, 1985).
En este caso, como se puede ver en la Tabla 3.8, primero tiene lugar en
entrenamiento en compuesto de ambos estmulos (EC! y EC2) seguidos
por el EI.
Tabla 3.8. Diseo experimental del bloqueo hacia atrs.
Gr. Experimental
Gr. Control

126

Fase 1

Fase 2

Prueba

Resultado

(EC,+EC2)-EI
(EC,+EC2)-EI

ECr EI
EC,/EI

EC2?
e c 2?

Poca RC
RC Media

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

2.3. Teoras del aprendizaje


Numerosas son las teoras y modelos que tratan de dar explicacin a la
forma en la que los humanos y dems animales aprendemos. A continua
cin introducimos algunas de las ms relevantes en el rea.
2.3.1. Modelo Rescorla-Wagner
Pensemos en la primera vez que se asocia un EC con un EI. Ya que hasta
ese momento el El no era predicho por ningn otro elemento, ste resulta
sorprendente y, por ello, aprendemos algo nuevo sobre la asociacin ECEI. El emparejamiento sucesivo, a lo largo del entrenamiento, de estos dos
estmulos hace que nos resulte menos sorprendente la aparicin del El a
continuacin del EC. En algn momento del entrenamiento, el EC predice
de forma perfecta al El, es decir, esperamos sin lugar a dudas que el El
aparezca tras el EC, por lo que el El no resulta sorprendente de ninguna
manera y el aumento en el aprendizaje ya no tiene lugar.
Esta idea fue sugerida inicialmente por Kamin (1968, 1969) en referen
cia a los efectos de competicin de claves que hemos visto anteriormente.
Como se describe en el efecto de bloqueo, la asociacin previa entre un
ECj y el El condicionar el aprendizaje de otra asociacin en el que el mis
mo El se ve implicado (EC2-EI). Segn este autor, esto es debido a que el
El ya no nos resulta sorprendente, porque es predicho de forma perfecta
por el ECt.
Debido a la importancia del concepto de sorpresividad en lo que al pro
ceso de aprendizaje se refiere, Robert Rescorla y Alian Wagner (Rescorla y
Wagner, 1972; Wagner y Rescorla, 1972), propusieron un modelo asociativo
para el aprendizaje que, a da de hoy, sigue siendo un modelo de referencia.
La principal caracterstica del mismo es que asume que en un ensayo de
condicionamiento el aprendizaje slo tiene lugar si el El es sorprendente.
Rescorla y Wagner sugieren que la fuerza asociativa entre un EC y un El
aumenta en cada ensayo de aprendizaje hasta que el EC predice completa
mente el El y ste deja de ser sorprendente, punto en el cual dicha fuerza
alcanza su mximo posible. Estas variaciones de la fuerza asociativa en
cada ensayo de aprendizaje dependen de las siguientes variables:
127

P s ic o l o g a

d e l a p r e n d iz a j e

La saliencia del EC y el El (que llamaremos, a y (3), constantes durante


todo el proceso de aprendizaje. Numricamente, esta saliencia pue
de expresarse desde un valor mnimo de 0 a uno mximo de 1, para
ambos estmulos en el caso de que estn presentes. Habitualmente la
saliencia del EC toma un valor de 0.5 y la saliencia del El un valor de 1.
La magnitud del El (X, lambda). Tras la aparicin del EC en un en
sayo de condicionamiento, y relacionado con el concepto de contin
gencia, puede tener lugar la aparicin del El, en cuyo caso el valor
de X sera 1, o, no tener lugar, en cuyo caso su valor numrico sera
0. Este concepto est asociado con el lmite superior de una curva de
aprendizaje, es decir, el mximo de esperabilidad del El (asntota),
que correspondera a un X = 1.
La fuerza asociativa que la asociacin EC-EI ha adquirido hasta el
ensayo anterior de condicionamiento (Vn',) Indica el aprendizaje
previo sobre la relacin EC-EI llevado a cabo hasta ese momento. Su
valor numrico puede, de nuevo, oscilar entre 0 y 1.
El clculo final del incremento de fuerza asociativa entre el EC y el El
en un ensayo concreto (n) de aprendizaje se calcula matemticamente con
la siguiente frmula:
AVn = ap(^-V n_1)
Como muestra dicha frmula, el incremento en la fuerza asociativa de
la relacin EC-EI en un ensayo determinado de aprendizaje (AVn) es direc
tamente proporcional a la saliencia de ambos estmulos y depende de la
diferencia entre el mximo de aprendizaje adquirible (>.) y la fuerza de la
asociacin hasta el ensayo anterior (Vn l). AV puede, dependiendo de las
condiciones, oscilar entre valores de -1 a 1.
Una parte a destacar de esta frmula es el trmino (A.-V11'1). Este trmi
no denota la sorpresividad del EI. Como hemos visto, X indica si el El est
presente y en qu magnitud y V n l se refiere al trmino del aprendizaje,
describe en qu medida el EC est asociado o predice el EL La diferencia
entre los dos trminos indica la diferencia entre lo que podemos llegar a
aprender sobre la asociacin entre el EC y el El y lo que hemos aprendido
hasta ahora, es decir, lo sorprendente que nos resulta la aparicin del El
tras el EC en ese ensayo de condicionamiento. Cuanto mayor sea Vn l, el EC
128

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

se convierte en un mejor predictor del El y la diferencia (X-Vn l) va siendo


cada vez menor hasta que no ocurren ms cambios en la fuerza asociativa.
La fuerza asociativa neta (V) en un ensayo determinado se calcula su
mando la fuerza asociativa adquirida en el entrenamiento hasta el ensayo
anterior y el incremento de la misma en el ensayo actual.
V= V o'1+ AVn
El proceso de aprendizaje de una asociacin bsica entre un EC y un
El queda ilustrado en la Figura 3.6. Esta figura muestra el crecimiento de
la fuerza asociativa que se crea entre el EC y el El a medida que se repiten
los emparejamientos en el tiempo de estos estmulos, lo que es denominado
curva de aprendizaje.

Emparejamientos EC-EI

Figura 3.6. Curva de aprendizaje en un condicionamiento excitatorio

En cada ensayo de condicionamiento hay un aumento de la fuerza aso


ciativa y por lo tanto se da un aprendizaje. En los primeros ensayos, ese
crecimiento es mayor (hay una mayor diferencia entre ensayo y ensayo),
disminuyendo a medida que avanza el entrenamiento. Segn Rescorla y
Wagner, esto ocurre porque el El es cada vez menos sorprendente. Por eso,
en los primeros ensayos, el parntesis (A.-V n l) tiene valores mayores: la
129

P s ic o l o g a

d e l a p r e n d iz a j e

discrepancia entre lo que ocurre (aparicin del El en su magnitud) y lo que


esperamos (la fuerza asociativa entre el EC y el El en los ensayos previos) es
muy grande y por tanto el incremento del aprendizaje en dichos ensayos es
mayor. Dicho incremento, al igual que la sorpresividad van disminuyendo
con el entrenamiento hasta llegar a una asntonta, es decir, a un ensayo en
el que el incremento del aprendizaje, AV, es cercano a 0, y la fuerza asocia
tiva de la asociacin haya alcanzado el 100% de su valor.
Como hemos visto, la sorpresividad del El depende directamente de la
magnitud o intensidad del mismo (X). Por ejemplo, si el El utilizado en un
ensayo de condicionamiento es una descarga de cierta intensidad, su efecto
sobre el aprendizaje no ser el mismo que si utilizamos una descarga con
el doble de intensidad.
El comportamiento de la curva de aprendizaje en referencia a la utili
zacin de distintas magnitudes del El puede verse en la siguiente grfica
(Figura 3.7). Como se puede apreciar, la utilizacin de dos magnitudes
distintas de un El da lugar a curvas de aprendizaje que se comportan de
forma distinta. Cuando la intensidad es mayor, X es mayor y ms alta es la
asntota que puede alcanzar el aprendizaje. Esto est en consonancia con
los efectos de la intensidad descritos en el apartado anterior.

Emparejamientos EC-EI

Figura 3.7. Curva de aprendizaje de condicionamiento excitatorio con dos EIs de


intensidades distintas y ?i2)130

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

Por ltimo, como hemos visto, Rescorla y Wagner incluyen en el clculo


de la fuerza asociativa durante un ensayo de condicionamiento la saliencia
de los estmulos implicados en el mismo. La saliencia del EC (a), puede
modificar la cantidad de aprendizaje de un ensayo, ya que se multiplica por
el factor sorpresividad: cuanto mayor sea la saliencia del EC, mayor ser
el aprendizaje en ese ensayo. La consecuencia directa de esto es que una
mayor saliencia hace que se alcance ms rpido la asntota del aprendiza
je, aunque no afecta al propio mximo del aprendizaje, ya que ste viene
determinado por la magnitud del El (^). En la Figura 3.8 podemos observar
los cambios en la curva del aprendizaje utilizando valores de la saliencia de
ECs distintos.

Emparejamientos EC-EI

Figura 3.8. Curva de aprendizaje de condicionamiento excitatorio con dos EC de saliencias


distintas (a! y a 2).

Aunque en un ensayo de condicionamiento de primer orden slo estn


presentes un EC y un El, Rescorla y Wagner afirman que en situaciones en
las que varios estmulos estn presentes, la capacidad predictiva del EC se
ve afectada por la presencia de los mismos. Esto es lo que ocurre en efectos
de competicin de claves, como el bloqueo o el ensombrecimiento, expues
tos con anterioridad en este captulo.
131

P s ic o l o g a

d e l a p r e n d iz a j e

Segn estos autores, si dos ECs se presentan en compuesto, como en


un ensayo de ensombrecimiento, ambos contribuyen a predecir el El y por
lo tanto ambos influyen en los cambios de la fuerza asociativa en dicho
ensayo de condicionamiento. Para tener en cuenta este hecho a la hora de
cuantificar el aprendizaje, modificaron su frmula bsica sustituyendo V n l
por el trmino XV n l:
AV = ap(^-Vn_1)
ZV n l indica la suma de todos los valores V n l de todos los estmulos
presentes en ese ensayo. De esta forma, el valor de sorpresa viene dado por
la diferencia entre X y la suma del valor asociativo de todos los estmulos
presentes.
Adems de la adquisicin, esta teora puede dar explicacin a otros
fenmenos del aprendizaje asociativo, como los ya comentados efectos de
competicin de claves, la extincin o el condicionamiento inhibitorio, fen
menos descritos en el captulo 2 de este libro.
BLOQUEO
Como hemos comentado en este mismo captulo, en el efecto de bloqueo
el aprendizaje de la asociacin entre un nuevo EC y el El se ve alterada
porque dicho El ya era predicho de forma efectiva por otro EC con ante
rioridad.
Segn Rescorla y Wagner, la primera fase de condicionamiento de un
efecto de bloqueo, cuando el animal est aprendiendo la asociacin entre
el EC, y el El, dicho EC adquiere un valor de V positivo a medida que van
transcurriendo los ensayos de condicionamiento hasta alcanzar la asntota
del aprendizaje. Suponiendo que utilizsemos un El que tuviese un X=l, al
final de la primera fase de condicionamiento el valor asociativo VEC1 sera
cercano a 1.
En el primer ensayo:
AV EC1 = ocp(l-0)= ap
V ecu ^P
132

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

En el ltimo ensayo:

AVEC1 = ccP(l-l)=0
V EC1= 0+1 = 1
la fuerza asociativa de EC, ha llegado a su valor asinttico y por lo tanto
prcticamente no se da incremento de la misma en dicho ensayo.
Durante la segunda fase de entrenamiento, los ensayos de condiciona
miento continan pero ahora se aade un EC2 al EC, presentado durante
la primera fase, ambos seguidos del EL As que durante esta fase, para
el clculo de la fuerza asociativa entre ese nuevo EC (EC2) y el El, la V
de la ecuacin se convertir en ZVn l para mostrar la fuerza asociativa de
todos los estmulos presentes en ese ensayo, es decir, de EC, y de EC2, y
su influencia sobre el incremento del aprendizaje en cada ensayo de con
dicionamiento:
AVEC2 = ap
O lo que es lo mismo
AVECl = a p a - (VEn| + VE">))
Ya que el EC2 no se ha presentado con anterioridad, todava no tiene
fuerza asociativa y su valor inicial V es 0. Pero, la fuerza asociativa del
EC, es mxima (V=l), debido a lo ocurrido durante la primera fase del
entrenamiento por lo que AVEC2 en el primer ensayo de esta segunda fase
sera
AVEC2 = ap(l - (1+ 0))=0
El incremento de la fuerza asociativa entre el EC2 y el El durante este
primer ensayo es, como se puede apreciar, inexistente. El modelo lo ex
plica por la ausencia de sorpresa. Como el El ya era predicho con ante
rioridad por EC,, su aparicin no produce sorpresa alguna en los ensayos
compuestos ((^-XV)=0) por lo que no es necesario aprender nada sobre la
relacin EC2-EI para anticipar la aparicin de dicho EL Por tanto, segn
Rescorla-Wagner, se est produciendo un bloqueo de la adquisicin de la
asociacin EC2-EI.
133

P s ic o l o g a

d e l a p r e n d iz a j e

EXTINCION
Este modelo tambin proporciona una explicacin a la extincin. Como
hemos visto en el captulo 2, tras un entrenamiento de adquisicin de una
asociacin pavloviana, EC-EI, que da lugar a una RC esperada, se puede
extinguir dicha RC si se presenta repetidamente el EC sin ir seguido del EI.
En este caso, en lo que a la aplicacin del modelo se refiere, presentar
el EC sin que vaya seguido del El es como hablar de un El que tiene inten
sidad cero (^.=0). Por esto, el primer ensayo de extincin, tras un procedi
miento de adquisicin, se plasmara numricamente de la siguiente forma:
AV = a(3(?i-V)= ap(0-l)= - ap
El incremento de la fuerza asociativa (AV) en el primer ensayo de ex
tincin es en realidad un decremento, ya es un trmino negativo. A medida
que transcurren los ensayos de extincin, el valor de V va reducindose
hasta que no hay ms sorpresa (es decir, el trmino (X-V) se acerca a 0) y la
asntota se acerca esta vez a cero (Figura 3.9).
AV = ap a -V n'!)= ap(0-0)= 0

Emparejamientos EC-EI

Figura 3.9. Curva de aprendizaje en la extincin


134

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

Teniendo en cuenta lo anterior, el modelo se apoya formalmente en la


idea de que la excitacin y la inhibicin son extremos contrarios de un con
tinuo (Rescorla, 1967b). Por lo tanto, la extincin consiste en un desaprendi
zaje segn este modelo. Como veremos en el siguiente apartado, ste enfoque
no es correcto ya que no se ajusta a lo que se conoce como la extincin.
INHIBICIN CONDICIONADA
De forma similar a lo que ocurre en la extincin, en el fenmeno de inhi
bicin condicionada (para una explicacin ms detallada del fenmeno (va
se captulo 2), un EC predice la ausencia de la aparicin posterior de un EL
En el caso de este efecto, durante la primera fase de entrenamiento, un
EC (ECj) es emparejado con un El hasta llegar a la asntota del aprendizaje
(V= 1). En una segunda fase, ese mismo EC se empareja con el EC que va
a convertirse en inhibitorio (EC2), siendo ambos seguidos de la ausencia
del EI. Durante esta segunda fase, segn Rescorla y Wagner, en el primer
ensayo del compuesto ocurrira lo siguiente:
AVEC] = cxP(Jt - (VEC1+ VEC2))= ap(0 - (1+0))= - ap
Esto indica que la fuerza asociativa del EC! ir decreciendo a medida
que aumenten los ensayos en compuesto, hasta llegar a 0.
Como hemos podido ver, segn este modelo, en el caso de entrenamien
tos en compuesto los EC excitatorios suman fuerza asociativa mientras que
los inhibitorios la restan.
PROBLEMAS DEL MODELO
Aunque es un modelo de referencia en el estudio del aprendizaje asocia
tivo, el modelo Rescorla-Wagner tiene una serie de limitaciones que deben
tenerse en cuenta (Miller, Barnet y Grahame, 1995). Aqu destacaremos las
ms importantes:
1. La extincin de la inhibicin condicionada
Este modelo afirma que si se presenta repetidamente un inhibi
dor condicionado sin ir acompaado de un El (es decir, X = 0), la
inhibicin se extinguir.
135

P s ic o l o g a

d e l a p r e n d iz a j e

Si aplicamos la frmula a esta fase de extincin de la inhibicin,


el incremento de la fuerza asociativa del EC inhibitorio sera positivo
en el primer ensayo:
AV = aP(A, - V)= ap(0 - (-1))= ap
lo que, segn este modelo, har que el EC anteriormente inhibi
torio se convierta en excitatorio poco a poco.
Pero esto no ocurre en realidad. De forma contraria, ciertas in
vestigaciones (De Vito y Fowler, 1986; Hallam, Grahame, Harris y
Miller, 1992; Witcher y Ayres, 1984; Zimmer-Hart y Rescorla, 1974)
muestran que no presentar el El tras la aparicin de un EC inhibi
torio puede aumentar sus propiedades inhibitorias. Es posible que
la deduccin del modelo sea errnea porque considera, como he
mos dicho previamente, la excitacin y la inhibicin como procesos
opuestos y de signo contrario.
2. La inhibicin latente (preexposicin al EC)
El modelo Rescorla-Wagner no puede explicar el efecto de inhi
bicin latente. En este efecto, como hemos visto en apartados ante
riores, un EC es preexpuesto sin ir seguido de un El para aparecer
juntos en una fase posterior. Para este modelo, como el El no apa
rece ni es esperado durante la fase de preexposicin al EC, no hay
asociacin EC-EI en esa fase y el valor de V no vara, siempre es 0,
por lo que no debera afectar al aprendizaje de la posterior fase de
condicionamiento.
Durante la fase de preexposicin al EC
AV = ap(A, - V)= ap(0 - 0)= 0
Entonces, en el primer ensayo de condicionamiento tras la preex
posicin, segn este modelo,
AV = ap(X - V)= ap(l - 0)= ap
Sin embargo, los datos muestran que, el aprendizaje de dicho
condicionamiento se ve retrasado por la previa preexposicin al EC,
no comportndose como el modelo predice.

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

3. Bloqueo
Aunque el diseo experimental utilizado en el efecto de bloqueo
(ver Tabla 3.7) suele tener como resultado una menor RC como
respuesta al EC bloqueado (EC2) durante la segunda fase del entre
namiento, algunas veces se da el efecto contrario. A este efecto se le
llama aumentacin o contrabloqueo (Batsell, Paschall, Gleason
y Batson, 2001; Batsell y Batson, 1999; Batson y Batsell, 2000). La
aumentacin consiste en un aumento de la RC ante el EC (EC2) pre
sentado en compuesto con EC,.
Al contrario que con el bloqueo, el modelo Rescorla-Wagner no
puede dar una explicacin satisfactoria al fenmeno del contrablo
queo. Como hemos visto en la explicacin del bloqueo, este modelo
predice que la aparicin de EC2no produce ninguna sorpresa en los
ensayos de compuesto ya que el El era predicho con efectividad por
otro EC (EC^, y por lo tanto no se aprende nada sobre la relacin
EC2-EI y la RC ante EC2es mnima.
4. Extincin de la excitacin condicionada
El modelo Rescorla-Wagner explica la extincin como un desa
prendizaje, pero esta explicacin no es correcta. Fenmenos cmo
la recuperacin espontnea, la renovacin o la reinstauracin,
vistos en el captulo anterior, muestran que la extincin no es un
desaprendizaje ni lo contrario a la adquisicin, sino un aprendizaje
distinto.
Aunque aqu slo hemos nombrado algunos de ellos, este modelo
tampoco explica otros fenmenos relevantes, como el precondicio
namiento sensorial, la habituacin o la irrelevancia aprendida (para
una explicacin ms detallada ver Miller y cois., 1995).
2.3.2. La importancia del contexto
Los estudios sobre contingencia y las teoras ms relevantes, empe
zando por Rescorla-Wagner, han puesto de relieve la importancia del
contexto en la manifestacin de la RC (Balsam y Tomie, 1985; Bouton y
Nelson, 1998).
137

P s ic o l o g a

d e l a p r e n d iz a je

En concreto, este modelo resalta el hecho de que el EC y el El no se pre


sentan de forma aislada a otros estmulos durante el condicionamiento, sino
que lo hacen dentro de un contexto especfico (por ejemplo, una caja de Skinner). Los estmulos propios del contexto en el que se realiza el entrenamiento
(olores, colores, formas...) son claves que el animal aprende junto con el EC.
De hecho, se podra considerar que las claves contextales son entrenadas en
compuesto con el EC, sirviendo de ECs de mayor duracin, y, por lo tanto,
produciendo efectos similares al bloqueo o el ensombrecimiento. De igual
forma, cuando el El se presenta en ausencia del EC, tambin lo hace dentro
de un contexto con diferentes claves, quedando asociado al mismo.
Teniendo en cuenta la presencia constante de estmulos del contexto
que condicionan la relacin entre el EC y el El, los tipos de contingencias
descritos en el apartado 2.1 pueden describirse en relacin a dichos est
mulos del contexto.
Conforme a la presencia o ausencia del EC en un ensayo de condicio
namiento dentro de un contexto, podran ocurrir dos tipos de ensayos dis
tintos. Los ensayos de condicionamiento EC-EI, cuando el EC (junto con
el contexto) van seguidos del El y los momentos entre ensayos de condi
cionamiento, en los que en espera del inicio del siguiente ensayo slo estn
presentes las claves del contexto y el EI. Cuando la proporcin de veces en
las que el EC, junto con el contexto, van acompaados del El es mayor que
en las que slo lo est el contexto, se dar una contingencia positiva EC-EI.
Por el contrario, si la probabilidad de aparicin del El en presencia slo del
contexto (sin el EC) es mayor, la contingencia que percibiremos entre EC
y El ser negativa. Por ltimo, si la proporcin de veces en las que el com
puesto EC+contexto va acompaado del El y en las que slo el contexto est
presente cuando el El lo est es similar, la contingencia percibida ser nula.
2.3.3. Hiptesis del comparador
La importancia de los estmulos del contexto se pone tambin de relieve
en teoras como la del comparador (Denniston, Savastano y Miller, 2001;
Miller y Matzel, 1988,1989). Esta hiptesis propone que la respuesta condi
cionada no slo depende de la asociacin entre el EC y el El sino tambin
del resto de asociaciones presentes en ese mismo momento que puedan
establecerse entre las claves del contexto y el propio EI.
138

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

El sujeto experimental expuesto a un ensayo de condicionamiento


aprende dos cosas: que el EC y el El estn asociados, y que las claves del
contexto y el El tambin lo estn. La comparacin entre ambos tipos de
asociaciones ser determinante para el nivel de respuesta al EC. La fuerza
asociativa de las asociaciones creadas entre el contexto y el El condiciona
rn la manifestacin de la respuesta. Esto es, si la fuerza asociativa de la
asociacin EC-EI es mayor que aquella que presentan la asociacin entre
las distintas claves del contexto y el El, la RC tendr lugar (contingencia
positiva).
Sin embargo, si la asociacin entre el EC y el El es ms dbil que la
asociacin entre otras claves del contexto y el El, el animal no mostrar la
RC condicionada esperada ante el EC. Esto se debe a que es ms probable
que el animal perciba como mayor la posibilidad de que el El ocurra en
presencia del contexto y no del EC (contingencia negativa). Es decir, si el
valor excitatorio de las claves del contexto es mayor que la del propio EC, se
dar una RC inhibitoria ante dicho EC. Un ejemplo de un efecto que tiene
lugar de esta forma es el de la inhibicin condicionada (Friedman, Blaisdell, Escobar y Miller, 1998; Kasprow, Schachtman y Miller, 1987; Miller,
Barnet y Grahame, 1992).
De la misma forma, si la asociacin entre el EC y el El es comparable
en fuerza a las formadas entre el contexto y el El, la contingencia ser nula
y de nuevo la RC frente al EC no tendr lugar.

comparador

Figura 3.10. Estructura asociativa del la hiptesis del comparador


139

P s ic o l o g a

d e l a p r e n d iz a je

La hiptesis del comparador asume que el animal puede aprender tres


tipos de asociaciones durante el condicionamiento (ver figura 3.10): la pri
mera de ellas es la que se da entre el EC y el El (1), la segunda la que se
da entre el propio EC y las claves del contexto (2); y la tercera, la que se da
entre las claves del contexto y el El (3).
Cuando se presenta el EC, ste activa dos tipos de representaciones del
EL directas e indirectas. El El se activa de forma directa tras la aparicin
del EC (1) pero tambin de forma indirecta por las asociaciones creadas
con el contexto y entre el contexto y el EC (2 y 3). Ser entonces la com
paracin entre las asociaciones directas e indirectas la que determine la
intensidad de la RC y su carcter excitatorio o inhibitorio.
Esta teora tiene dos premisas a destacar. La primera de ellas es que
segn este modelo no existen las asociaciones inhibitorias. Slo permite la
formacin de asociaciones excitatorias con el El (ya sea del EC o del con
texto). Por eso afirma que la manifestacin final de la RC (como inhibitoria
o excitatoria) depende de la fuerza relativa de la asociacin excitatoria
entre el EC y el El (1) con respecto a las asociaciones excitatorias entre el
mismo contexto y dicho El (2 y 3).
La segunda premisa fundamental de este modelo es que la comparacin
entre las asociaciones excitatorias que se forman durante el condicionamien
to determina la manifestacin de la RC, pero no el aprendizaje. El animal
hace la comparacin entre las distintas fuerzas asociativas una vez que ha
terminado el entrenamiento. Por esto mismo, el modelo predice que si se da
un cambio en la fuerza asociativa del contexto despus del aprendizaje, esto
cambiar la forma en la que se responde al EC. Por ejemplo, si extinguimos
la relacin contexto-EI, la RC frente al EC aumentar (Blaisdell, Gunther
y Miller, 1999; Col, Oberling y Miller, 1999; Matzel, Brown y Miller, 1987;
Miller, Barnet y Grahame, 1992). De igual forma afirma que las diferencias
en la RC se manifestarn como diferencias en la ejecucin. En este sentido,
explica efectos como el bloqueo como un fallo en la ejecucin y no en el
aprendizaje, como hara el modelo Rescorla-Wagner (Blaisdell y cois., 1999).
2.3.4. Modelos atencionales
TEORA DE MACKINTOSH
Efectos como el del bloqueo son, como hemos visto, explicados por el
modelo Rescorla-Wagner desde el punto de la falta de sorpresividad del EI.
140

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

Sin embargo, investigaciones posteriores han dado lugar a explicaciones


diferentes de este y otros fenmenos y a teoras completas del condiciona
miento, basadas no en la ausencia de sorpresividad sino en el papel de la
atencin en el aprendizaje.
Mackintosh y Turner (1971), llevaron a cabo un experimento de bloqueo
cuyas conclusiones aportaban explicaciones alternativas a las dadas por el
modelo Rescorla-Wagner a dicho fenmeno.
Estos autores presentaron a dos grupos, experimental y control (vase
Tabla 3.9), un sonido seguido de una descarga elctrica en una primera fase
de condicionamiento. Durante la fase 2, se llev a cabo el bloqueo, presen
tando en el grupo experimental un compuesto de dicho sonido con un est
mulo luminoso que no haba sido presentado con anterioridad, seguido el
compuesto de una descarga. A diferencia de en el diseo bsico de Kamin,
Mackintosh y Turner (1971) expusieron a los sujetos de ambos grupos a
una tercera fase con presentaciones del compuesto sonido-luz seguidos de
una descarga de mayor duracin que en las fases anteriores.
Tabla 3.9. Diseo experimental de Mackintosh y Turner (1971)
Gr.
Experimental
Gr. Control

Fase 1

Fase 2

Fase 3

Prueba

Sonido Descarga
Sonido Descarga

Sonido + Luz Descarga

Sonido + Luz Descarga Larga


Sonido + Luz Descarga Larga

Luz?
Luz?

Mientras que desde la teora de Rescorla-Wagner las predicciones de este


diseo experimental hubiesen predicho ausencia de diferencias de aprendi
zaje entre los dos grupos durante la segunda fase, los resultados del experi
mento mostraron otra realidad. El grupo control aprende durante la fase 3
que la intensidad de la descarga aumenta cuando la luz est presente. En
cambio, los animales del grupo experimental aprenden durante la fase 2 que
la luz es redundante, que no es necesaria para predecir la posterior aparicin
de la descarga, y, por lo tanto, dejan de prestarle atencin, lo que hace que
no aprendan nada sobre dicho EC durante la fase 3 del experimento.
Esto es, mientras que el modelo Rescorla-Wagner explica el efecto de
bloqueo como una consecuencia de la falta de sorpresividad del El, la teora
de Mackintosh muestra que dicho efecto se debe al hecho de que los anima
141

P s ic o l o g a

d e l a p r e n d iz a je

les ignoran los estmulos predictores redundantes. Es decir, efectos como el


bloqueo se deben a la falta de atencin a ciertos estmulos.
La teora de Mackintosh (Mackintosh, 1975) tiene como base la idea de
que la atencin que se presta a un EC depende de lo efectivo que sea dicho
EC prediciendo la aparicin del EI. Cuanto mejor predictor sea el EC del
El, mayor atencin le prestaremos. La atencin prestada a dicho EC tam
bin depende, como hemos visto en el caso del bloqueo, del resto de los ECs
presentes: si nuestro EC no es mejor predictor del El que los dems ECs
presentes, le prestaremos menos o ninguna atencin.
De forma similar a la frmula utilizada para el clculo de la fuerza
asociativa por Rescorla-Wagner, Mackintosh (1975) afirma que la atencin
aumenta en los ensayos en los que el EC es un buen predictor del El y dis
minuye en aquellos que no lo es tanto.
Esta teora atencional puede dar explicacin a algunos efectos para
los que el modelo de Rescorla-Wagner no es capaz ajustarse al comporta
miento real mostrado por los sujetos experimentales, como es el caso de la
inhibicin latente. Mackintosh explica este efecto basndose en la falta de
atencin al EC irrelevante durante la fase de preexposicin: si el EC no pre
dice la aparicin del El dejamos de prestarle atencin, por lo que cuando s
lo haga, nuestro aprendizaje de la asociacin EC-EI ser ms lento que si
no hubisemos sido preexpuestos a dicho estmulo.
TEORA DE PEARCE Y HALL
Mientras que Mackintosh (1975) afirma que es la falta de atencin a los
estmulos irrelevantes lo que condiciona el aprendizaje, otras teoras atencionales, como la de Pearce y Hall (1980) afirman prcticamente lo contra
rio. Estos autores sugieren que en un contexto de aprendizaje no debemos
malgastar recursos prestando atencin a estmulos que conocemos bien
pero, sin embargo, s debemos prestar atencin a aquellos que todava no
controlamos con seguridad.
Segn esta teora, prestaremos cada vez menos atencin a un EC en la
medida en que con cada ensayo de condicionamiento se convierta en mejor
predictor del EI. Si el El tras el EC no resulta sorprendente, prestaremos
menos atencin a dicho EC en el siguiente ensayo. Por el contrario, si dicho
El resulta sorprendente, nuestra atencin aumentar.
142

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

Al igual que Mackintosh, Pearce -Hall aportaron datos empricos que


apoyaron su teora (Kaye y Pearce, 1984; Wilson, Boumphrey y Pearce, 1992).
2.3.5.

Otras teoras

Numerosas son las teoras que tratan de explicar el condicionamiento


pavloviano desde distintos puntos de vista, adems de las comentadas hasta
ahora.
Una de las ms completas debido a su perspectiva integradora y su ex
plicacin de diversos efectos del aprendizaje es el modelo SOP (standard
operating procedures; Wagner, 1981) y sus versiones posteriores (Wagner,
2003; Wagner y Brandon, 1989; 2001).
El modelo SOP extiende la teora Rescorla-Wagner teniendo en cuenta
marcos de referencia como la relacin entre la memoria a corto y largo pla
zo y el aprendizaje. Wagner (1981) sugiere que un estmulo sorprendente
tiene un mejor procesamiento en nuestra memoria a corto plazo y por lo
tanto mayor probabilidad de mantenerse en nuestra memoria a largo plazo.
Dentro de nuestro sistema de procesamiento de la informacin un estmulo
resulta sorprendente si no est presente en nuestra memoria a corto plazo.
Segn esta teora, al igual que para el modelo de Rescorla-Wagner, el
aprendizaje depende de que el El sea sorprendente, pero, en este caso, la
sorpresa se ve reducida si el estmulo ya est activado en nuestra memoria
a corto plazo cuando se presenta fsicamente.
El modelo SOP representa el condicionamiento utilizando nodos y redes
neuronales, herramientas propias del conexionismo (McClelland y Rumelhart, 1985). Wagner (1981) asume que el condicionamiento da lugar a una
asociacin entre la representacin del EC y la del El (ver Figura 3.11).
La representacin de dichos estmulos se denomina nodo. Las asocia
ciones entre nodos se conocen como conexiones. Segn este modelo, los
nodos que representan el EC y el El se activan cuando los estmulos reales
lo hacen. Esta activacin ocurre a dos niveles distintos de intensidad. Cuan
do el EC o el El estn presentes fsicamente, sus nodos pasan inicialmente
a un estado llamado Al. Al se define como un estado en el que el nivel de
activacin es alto y la atencin que se est prestando al estmulo tambin
143

P s ic o l o g a

d e l a p r e n d iz a je

Figura 3.11. Representacin de los nodos de memoria de posibles ECs (luz, tono, ruido,
contexto) y sus conexiones con el EL

lo es. Un nodo slo puede mantenerse en el estado Al durante un breve


intervalo de tiempo. Pronto decae al segundo estado existente, A2, en el
que hay un menor nivel de activacin, relacionado con una atencin ms
perifrica y menos focalizada. El nodo puede permanecer en este estado un
largo periodo de tiempo hasta volver a un estado de inactivacin.
Una vez explicado el funcionamiento de la activacin de las represen
taciones o nodos del EC y el El, este modelo describe la asociacin que se
forma entre ellos durante el aprendizaje. La asociacin entre dos nodos, los
correspondientes al EC y El, slo tendr lugar si ambos estn activados, es
decir, en el estado Al, ya que ambos deben coincidir en la memoria a corto
plazo.
La coincidencia de ambos nodos en el estado Al ensayo tras ensayo
hace que la asociacin entre ambos sea cada vez ms fuerte. Una vez que
ambos nodos estn asociados, la activacin del nodo que representa al EC
tendr como consecuencia la activacin del nodo del El, pero no en su
mximo nivel, sino en el estado A2 (el nodo del El se activara en Al slo
con la presencia real de dicho El).

144

M e c a n ism o s

a s o c ia t iv o s y t e o r a s d e l c o n o c i m i e n t o c l s ic o

R esum en

Las variables que influyen en el condicionamiento pavloviano son diversas


e importantes. Quiz la ms importante de todas sea las caractersticas de los
estmulos involucrados en dicho condicionamiento. Como hemos visto, la in
tensidad, especialmente de los EIs, favorece el aprendizaje, al igual que lo hace
la novedad o la saliencia de los mismos.
Las caractersticas de los estmulos no slo son relevantes para el condi
cionamiento en general sino que condicionan la aparicin de ciertos efectos o
fenmenos ampliamente estudiados desde la Psicologa del Aprendizaje, como
la inhibicin latente, el precondicionamiento sensorial y algunos otros.
Los datos aportados sobre la influencia de las variables en el aprendizaje
durante estos ltimos aos de investigacin permiten facilitar el fin ltimo de
toda rea de conocimiento: la bsqueda de una teora general que explique
cmo aprendemos. Aunque, a da de hoy no podemos hablar de una teora
general del aprendizaje, en este captulo hemos resumido algunas de las ms
relevantes. El estudio de las mismas aporta una visin integradora de cmo los
animales y los humanos aprendemos en situaciones especficas.

145

P s ic o l o g a

d e l a p r e n d iz a je

T r m in o s

destacados

Bloqueo: Efecto de interferencia que se produce sobre el aprendizaje de una

asociacin EC-EI debido a un aprendizaje previo.


Condicionamiento de orden superior: Tipo de procedimiento en el que se
utiliza un estmulo previamente condicionado para condicionar un nuevo
estmulo.
Contingencia: Relacin probabilstica entre el EC y el El
Contracondicionamiento: Tipo de procedimiento que se utiliza para variar
o invertir la respuesta condicionada anterior utilizando un El distinto al
utilizado previamente
Ensombrecimiento: Efecto de interferencia que se produce sobre el apren
dizaje de la relacin entre un EC y un El debido a la saliencia de otro EC
presente en el condicionamiento.
Precondicionamiento sensorial: Procedimiento que se utiliza para asociar
dos estmulos biolgicamente dbiles.
Preexposicin al EC o inhibicin latente: Interferencia sobre el aprendizaje
de una asociacin debida a la preexposicin del EC implicado en la misma
Saliencia: Perceptibilidad de un estmulo para un animal o especie concretos.

146

T em a 4

PRINCIPIOS BSICOS
DEL CONDICIONAMIENTO OPERANTE
Miguel Miguns Vzquez

1. Antecedentes histricos ...................................................................... 159


1.1. Thorndike y la Ley del Efecto ....................................................... 160
1.2. El anlisis experimental del comportamiento de Skinner ...... 163
2. Definicin de condicionamiento operante ....................................
2.1. La contingencia de tres trminos .................................................
2.1.1. El estmulo discriminativo ..................................................
2.1.2. La respuesta ...........................................................................
2.1.3. El reforzador ..........................................................................
2.1.3.1. Reforzamiento condicionado ...............................
2.2. Aclaraciones ......................................................................................
2.2.1. Reforzador-reforzamiento ....................................................
2.2.2. Respuesta discreta-operante libre .......................................
2.2.3. Topografa-funcin ...............................................................
2.2.4. Instancia de respuesta y clase de respuesta
(unidad conductual) .............................................................
2.2.5. Interacciones clsicas y operantes en el control de
la conducta ............................................................................

165
166
167
168
169
169
171
171
171
172

3. Procedimientos bsicos del condicionamiento operante ........


3.1. Procedimientos destinados a aumentar conductas:
Reforzamiento positivo, escape y evitacin ..............................
3.2. Procedimientos destinados a disminuir conductas:
castigo y entrenamiento de omisin ...........................................
3.3. La extincin en el reforzamiento positivo ..................................

177

174
174

179
181
183
155

P s ic o l o g a

d e l a p r e n d iz a j e

4. Fenmenos del condicionamiento operante ................................


4.1. La conducta supersticiosa ..............................................................
4.2. La deriva instintiva y el concepto de relevancia o pertinencia
en el condicionamiento instrumental ..........................................
4.3. Los cambios en la cantidad y la calidad de la recompensa:
el fenmeno de contraste conductual ..........................................
4.4. La controlabilidad de las consecuencias aversivas y
el efecto de indefensin aprendida ..............................................
4.5. Los efectos de la demora del reforzador en el condicionamiento
instrumental: el procedimiento de marcado ...............................
4.6. Devaluacin del reforzador ............................................................

189
189
192
193
195
197
200

Referencias .................................................................................................... 206

156

P r in c ip io s

C o n o c im ie n t o s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

p r e v io s

Condicionamiento clsico o pavloviano: Tipo de aprendizaje mediante el

cual se establecen en los organismos asociaciones entre estmulos condi


cionados (ECs) y estmulos incondicionados (EIs). El condicionamiento
clsico ocurre cuando un estmulo neutro (EC) adquiere la capacidad de
provocar una respuesta debido al emparejamiento repetido con otro est
mulo que la produca (El).
Conducta elicitada: Conducta que es provocada por estmulos especficos del
entorno. Este tipo de conductas pueden ser innatas o aprendidas como
sucede en el condicionamiento clsico.
Contigidad: Proximidad en la ocurrencia espacio-temporal de dos eventos.
Los eventos son contiguos si ocurren de forma cercana en el tiempo y en
el espacio.
Contingencia: Probabilidad de ocurrencia de un suceso en funcin de la apa
ricin de otro.
Estmulo condicionado: Es un estmulo inicialmente neutro que adquiere
la capacidad de provocar una respuesta condicionada como resultado del
desarrollo de una asociacin con otro estmulo.
Estmulo neutro: Estmulo que no provoca respuestas incondicionadas o con
dicionadas especficas. En determinados casos puede producir respuestas
no especficas, como una respuesta de orientacin.

157

P s ic o l o g a

d e l a p r e n d iz a j e

O b j e t iv o s

Conocer los estudios que sirvieron de punto de partida para la formulacin


del condicionamiento operante y su consideracin actual.
Aprender a distinguir entre procedimientos de ensayo discreto y de operante
libre.
Comprender los principios del condicionamiento operante as como sus prin
cipales procedimientos.
Conocer las distintas variables que afectan a este tipo de aprendizaje.
Explicar y comprender algunos de los fenmenos de condicionamiento ope
rante ms distintivos.

158

En los captulos anteriores hemos aprendido cmo distintos estmulos


provocan determinadas respuestas de forma refleja y cmo, mediante el
condicionamiento clsico, ciertos estmulos que en principio no ejercan
ningn efecto sobre la conducta (ECs), mediante su emparejamiento con
estmulos incondicionados (EIs) que producen respuestas incondicionadas
(RIs) terminaban evocando una respuesta muy parecida (RC). En estos casos
estbamos hablando de respuestas que son elicitadas, es decir, evocadas por
estos estmulos. Sin embargo, muchas de las conductas que observamos dia
riamente como hablar, conducir o trabajar no ocurren de forma automtica
ante la presentacin de un estmulo. Este tipo de conductas, ms que evo
cadas son emitidas, es decir, en estos casos, la persona o el animal presenta
una respuesta que en el pasado estuvo relacionada con un acontecimiento
ambiental y, de esta forma, consigue o evita que un evento ocurra. Cuando
una rata recibe una bolita de comida al presionar una palanca, cuando a
nuestro perro le hacemos una caricia o le damos un pedacito de pienso des
pus de traernos una pelota, o cuando hacemos un trabajo y nos pagan por
ello, es ms probable que esas conductas se vuelvan a repetir. Sin embargo,
si una rata recibe una descarga al presionar la palanca es probable que no
vuelva a hacerlo. Del mismo modo, si a final de mes no recibimos el salario
por nuestro trabajo es probable que acabemos abandonando ese trabajo. La
investigacin en condicionamiento operante se ha encargado de estudiar los
principios que pueden predecir cmo se producen este tipo de respuestas que
no son evocadas por estmulos. Por tanto, en el presente captulo se tratar
de explicar en qu consiste el condicionamiento instrumental u operante, las
variables que intervienen en su desarrollo, as como las relaciones entre ellas.
1. ANTECEDENTES HISTRICOS
Para comprender los orgenes de la psicologa del aprendizaje en gene
ral, y del condicionamiento operante en particular, es preciso tener presen
159

P s ic o l o g a

d e l a p r e n d iz a j e

tes las condiciones histricas que lo hicieron posible. Como ya planteamos


en el primer captulo (Introduccin), una de las principales influencias
para el anlisis experimental de la conducta desde el punto de vista del
condicionamiento operante es la teora de la evolucin de Darwin. Desde
este punto de vista, los dos postulados principales de su teora (variacin
y seleccin), en cuanto a la manifestacin de las caractersticas heredadas
en los organismos, podran aplicarse tambin al comportamiento, ya que
del mismo modo ste es variable. En su obra The Behavior of Organisms
(Skinner, 1938) es donde plantea Skinner este tipo de mecanismo seleccionador en relacin con la conducta. Los acontecimientos ambientales
funcionaran en este caso como elementos seleccionadores equivalentes a
los propuestos por Darwin, es decir, entre la variabilidad de las conductas
existen respuestas que predominan en determinadas situaciones y momen
tos concretos. En el caso del condicionamiento operante, el reforzador
actuara como elemento seleccionador de las respuestas ms apropiadas en
una determinada situacin. As, los procesos de reforzamiento hacen ms
probable la aparicin de una conducta en un tipo particular de circuns
tancias a la vez que hacen menos probable su aparicin en otro tipo de
circunstancias.
1.1. Thorndike y la Ley del Efecto
El abordaje cientfico del condicionamiento instrumental comienza
con los trabajos de Thorndike. Las aportaciones de Edward Lee Thorndike
(1874-1949) a la psicologa del aprendizaje tienen que ver tanto con su acer
camiento terico como metodolgico al estudio de la investigacin animal.
Es considerado como el primer cientfico que estudi la conducta operante,
aunque l lo llam aprendizaje por ensayo y error (Thorndike, 1898). El conductismo de Watson centr su atencin en los reflejos condicionados foca
lizando el anlisis en los eventos que preceden a la respuesta, aproxima
cin conocida como paradigma E-R. Sin embargo, el inters de Thorndike
se centr en cmo los aciertos y fracasos afectaban a la conducta de los
organismos. Para este autor, el aprendizaje ocurre porque se fortalecen las
conexiones que se forman entre los estmulos y las respuestas cuando dan
lugar a un estado de satisfaccin para el animal. Esta aproximacin fue
denominada por l mismo como conexionismo y estara tambin encuadra
da dentro de lo que se conoce como paradigma E-R.
160

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

En sus experimentos ms conocidos, Thorndike utiliz gatos como


sujetos. Colocaba los animales en diferentes cajas problema, artilugios
que consistan en una especie de jaula de la que los animales podan salir
activando algn tipo de resorte desde su interior (Figura 4.1). Cuando el
gato accionaba dicho mecanismo la puerta de la caja se abra y, al salir, el
investigador le entregaba cierta cantidad de comida.

Figura 4.1. Caja Problema utilizada por Thorndike en sus experimentos.

La primera vez que los animales eran introducidos en la caja problema


tardaban un tiempo considerable en descubrir y poner en marcha el meca
nismo que abra la puerta y salir de la caja. En esos primeros intentos, el
sujeto se mova por la caja de forma aparentemente azarosa e iba exploran
do distintos puntos, hasta que en un determinado momento por casualidad
activaba el mecanismo de apertura. Segn transcurran los ensayos en los
que el sujeto repeta la tarea, el tiempo que empleaba en accionar el meca
nismo y, por tanto, el tiempo que tardaba en salir de la caja era mucho
menor. Como vemos, la medida que Thorndike utiliz para la evaluacin
de la ejecucin del aprendizaje era la latencia de escape, definida como el
tiempo que pasa desde que comienza el ensayo hasta que el sujeto consigue
salir de la caja y recibir el reforzador programado. Segn sus observacio
nes, la latencia de escape disminua de forma muy notable a lo largo de
los ensayos. La figura 4.2 muestra los resultados de un experimento tpico:
161

P s ic o l o g a

d e l a p r e n d iz a j e

como se puede observar en la figura, a lo largo de los ensayos el animal tar


daba menos tiempo en accionar el mecanismo y salir de la caja problema.
O
T3 1503W)
<VL)>
& 100
cS
o
O<u)
5003
o
<L>
03
H-l 0 1
C/5

C/5

10

Ensayos

20

Figura 4.2. En la figura se


muestran los resultados
obtenidos en un animal tipo
utilizado por Thorndike
en sus experimentos. El
eje de abscisas representa
el nmero de ensayos y el
eje de ordenadas el tiempo
que tardaban (latencia) los
animales en descubrir el
mecanismo que abra la caja
problema. Se puede ver con
claridad cmo el animal en
los primeros ensayos emplea
ms tiempo que en los
ensayos sucesivos. (Adaptado
de Thorndike, 1898).

A partir de los resultados obtenidos mediante este procedimiento,


Thorndike estableci que la entrega de comida fortaleca la conexin entre
la situacin (en este caso los estmulos situados en el entorno de la caja) y
la respuesta del animal, lo denomin Ley del Efecto:
De las muchas respuestas dadas en la misma situacin, las que vayan
acompaadas o inmediatamente seguidas de satisfaccin para el animal, en
igualdad de condiciones, se conectarn ms firmemente con la situacin; de
manera que cuando sta vuelva a presentarse, volvern a presentarse con
gran probabilidad
E d w a r d L. T h o r n d ik e , 1911 (pg. 244)

De este modo, Thorndike da una explicacin sencilla a este tipo de


aprendizajes. Cuando en una determinada situacin una conducta va
seguida de algo agradable para el animal, al volver de nuevo a esa misma
situacin ser ms probable que la conducta se vuelva a repetir. As, desa
rroll un sistema de aprendizaje basado en una concepcin hedonista: las
conductas cuyo resultado fuese algo placentero seran fortalecidas y las
conductas cuyo resultado fuese algo desagradable seran eliminadas.
162

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

1.2. El anlisis experimental del comportamiento de Skinner


Burrhus Frederic Skinner (1904-1990) ha sido, si no el investigador ms
importante, el principal responsable del aumento del inters en relacin con
la problemtica del reforzamiento. Adems de realizar una extensa investi
gacin sobre los principales fundamentos del condicionamiento operante, su
trabajo acadmico dio lugar a la formacin de un gran nmero de investiga
dores que siguieron desarrollando de forma muy intensa estos principios. En
The Behavior of Organisms (1938) desarrolla la idea de que los reflejos podran
ser estudiados como conducta ms que como un reflejo del sistema nervioso o
de la mente: es aqu donde ya Skinner distingue entre el condicionamiento de
los reflejos de Pavlov y el tipo de aprendizaje que haba propuesto Thorndike,
lo que le llev a formular que la conducta se regula tanto por el condiciona
miento de los reflejos o condicionamiento respondiente como por el operante.
A su vez, mientras Thorndike trataba de explicar su aprendizaje por ensayo y
error mediante asociaciones de naturaleza interna, Skinner se centr en las
relaciones funcionales entre la conducta y sus consecuencias. Para l, tanto
el condicionamiento operante como el respondiente deban slo prestar aten
cin al estudio de las relaciones entre los eventos observables y la conducta.
Para describir los procedimientos que dan lugar al reforzamiento de
conductas utiliz los trminos condicionamiento operante y condiciona
miento instrumental. El trmino operante refleja la capacidad que tiene el
individuo para operar sobre su ambiente, mientras que el trmino instru
mental tiene en cuenta el hecho de que la conducta del sujeto es el instru
mento para obtener el reforzador. La innovacin tcnica ms importante
que introdujo Skinner con respecto a Thorndike fue utilizar en sus experi
mentos una respuesta que el sujeto poda ejecutar repetidamente sin inter
vencin del experimentador. En el caso de los experimentos con ratas esta
respuesta fue la presin de palanca (Figura 4.3), mientras que en los experi
mentos con palomas utiliz el picoteo del animal sobre una tecla. Este tipo
de procedimientos experimentales son conocidos como de operante libre
para distinguirlos de los de ensayo discreto que utilizaba Thorndike en sus
trabajos. En ellos, la respuesta puede ocurrir en cualquier momento y de
forma repetida mientas el sujeto permanezca en la caja de condicionamien
to. La variable dependiente medida y analizada en este modelo es la tasa de
respuesta o nmero de respuestas emitidas por unidad de tiempo, en lugar
de la latencia, utilizada por Thorndike como medida del aprendizaje.
163

P s ic o l o g a

d e l a p r e n d iz a j e

Caja de Skinner
Estmulos luminosos

Rejilla

Dispensador de comida

Bolita de comida o "pellet"

Figura 4.3. Caja de Skinner.

Antecedentes histricos (Resumen)


Para entender las leyes y procedimientos del condicionamiento operante hay
que tener en cuenta la influencia de autores como Thorndike, as como de la
teora de la evolucin de Darwin en la obra de Skinner. Mediante sus experi
mentos Thorndike enunci su conocida Ley del efecto que seala que cuando
en una determinada situacin una conducta va seguida de algo agradable para
el animal, al volver de nuevo a esa misma situacin ser ms probable que la
conducta se vuelva a repetir. Skinner, es considerado por muchos como el autor
ms relevante en el estudio del condicionamiento operante. Para Skinner, el
trmino operante refleja la capacidad que tiene el individuo para operar sobre
su ambiente, mientras que el trmino instrumental tiene en cuenta el hecho de
que la conducta del sujeto es el instrumento para obtener el reforzador. Adems
de sus teoras, este autor desarroll la caja de Skinner que posibilita el registro
de forma continua del comportamiento del animal sin necesidad de interven
cin por parte del experimentador. La variable dependiente medida y analizada
siguiendo este modelo es la tasa de respuesta o nmero de respuestas emitidas
por unidad de tiempo, en lugar de la latencia, utilizada por Thorndike como
medida del aprendizaje.

164

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

2. DEFINICIN DE CONDICIONAMIENTO OPERANTE


Las leyes del condicionamiento clsico establecidas por Pavlov utiliza
ban como base los reflejos. Sin embargo, para muchas de las conductas
que realizan los organismos complejos no es posible identificar un estmu
lo evocador. Es muy fcil especificar el estmulo que produce la salivacin
en el perro, pero es mucho ms difcil detallar cul es el estmulo que
inicia la conducta de tocar el piano o incluso el de otras conductas ms
simples como que una rata presione una palanca para obtener comida.
La conducta que ocurrir en el futuro est determinada principalmente
por las consecuencias de la conducta pasada y las conductas operantes
estn ms relacionadas con lo que sucede despus de que ocurran que con
estmulos que las provoquen, es decir, son ms bien el resultado de las
consecuencias que han tenido en el pasado. Por tanto, estas conductas no
son elicitadas sino que son emitidas. Por todo esto, fueron necesarios otro
tipo de principios para explicar el desarrollo y mantenimiento de este tipo
de comportamientos.
Por condicionamiento operante entendemos el proceso que da lugar
a que la probabilidad de una respuesta se vea modificada por sus conse
cuencias, es decir, por los efectos que tiene el ambiente sobre ella. Veamos
esto con el ejemplo ms comn: un investigador coloca una rata en una
caja de Skinner en la que dispone de una palanca que est conectada a un
dispensador de comida. Para este animal el entorno de la caja de Skinner
con sus dispositivos ser las circunstancias o el ambiente. Si la rata, cuando
est explorando la caja por casualidad presiona la palanca, sta activar
el comedero y se liberar una bolita de comida. La liberacin de la bolita
de comida aumenta la probabilidad de que el animal accione de nuevo la
palanca para conseguir una nueva bolita de comida. Como vemos, el con
dicionamiento operante dispone al sujeto en unas circunstancias en las
que alguna de sus conductas da lugar a la aparicin de un evento; como
consecuencia de la manifestacin de este evento, se produce en el sujeto, en
nuestro caso la rata, un cambio en la probabilidad de la emisin de dicha
respuesta. El trmino operante se utiliza para caracterizar este tipo de
condicionamiento porque, y a diferencia del condicionamiento clsico, el
sujeto interviene u opera en el medio, lo modifica a la vez que este modifi
ca el organismo. En estos casos si el resultado de dicho comportamiento es
beneficioso para el animal la conducta se fortalecer, siendo ms probable
165

P s ic o l o g a

d e l a p r e n d iz a j e

que se emita de nuevo en circunstancias parecidas, sin embargo, si el resul


tado de la conducta es perjudicial, dicha conducta tender a desaparecer
del repertorio de conductas del sujeto. As, podemos decir de forma general
que con el condicionamiento operante, los organismos aprenden a obtener
consecuencias favorables y a eliminar consecuencias desfavorables del
ambiente. Este tipo de condicionamiento es tan poderoso que los sujetos no
slo aprenden a responder ante una nueva circunstancia con una respuesta
que formaba parte de su repertorio anterior, sino que adems puede dar
lugar a la aparicin de respuestas nuevas.
Ejemplo

2.1. La contingencia de tres trminos

Estamos situados delan


te de una mquina
expendedora de bebidas.
Una luz encendida al
lado del botn que accio
na la entrega de la bebi
da seala que la bebida
est disponible. Cuando
la luz est encendida, si
introducimos la moneda
y apretamos el botn la
mquina nos entregar
la bebida seleccionada.
Sin embargo, si intro
ducimos la moneda y
pulsamos el botn con
la luz apagada no podre
mos obtener la bebida.
Bajo estas condiciones
aprendemos que slo
podremos obtener la
bebida deseada despus
de introducir la moneda
pulsando el botn si la
luz est encendida. En
este caso decimos que la
luz acta como estmulo
discriminativo.

Para adentrarnos en el estudio del condicio


namiento operante es necesario conocer una
serie de conceptos y trminos que nos permi
tan establecer los procedimientos utilizados en
estos estudios, as como poder asimilar poste
riormente las teoras surgidas a partir de estas
investigaciones.
En el condicionamiento operante se suele
mantener que existe una contingencia entre la
respuesta y el reforzador, es decir, la consecuen
cia est relacionada con la presentacin de la
respuesta. Sin embargo, la conducta operante
puede ponerse bajo el control de los estmulos
antecedentes y, la descripcin de la conducta
operante requiere habitualmente de tres trmi
nos elementales y sus interrelaciones funciona
les. Estos tres trminos fundamentales son el
estmulo discriminativo, la respuesta y la conse
cuencia. De este modo la contingencia se redefine como: en presencia de un estmulo espe
cfico, el reforzador se presentar si y solo si la
respuesta operante sucede. La contingencia de
tres trminos constituye la unidad fundamental
de anlisis en el estudio de la conducta operante.

166

P r in c ip io s

2.1.1. El estmulo discriminativo

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

Ejemplo
Una respuesta puede
estar controlada por un
Ed y un EA. Pensemos
en una mquina dispen
sadora de bebidas en la
que introducimos una
moneda para comprar
un refresco. Una luz
verde nos indica que el
refresco que queremos
seleccionar est dispo
nible y una luz roja nos
indica que est agotado.
La respuesta operante
en este caso es apretar
el botn de seleccin de
la bebida. Como es fcil
imaginar, la probabili
dad de que pulsemos el
botn para obtener la
bebida con la luz verde
encendida ser mucho
ms alta que la proba
bilidad de que pulsemos
ese mismo botn si la
luz roja est encendida.
En este caso la luz verde
acta como un Ed por
que seala la disponibi
lidad del reforzador en
el caso de que se emita
la respuesta operante y
la luz roja como un EA
porque seala la ausen
cia del reforzador en el
caso de que la operante
ocurra.

La conducta no se compone siempre de


respuestas discretas sino que, como sealamos
al establecer la contingencia de tres trminos,
la deberamos considerar como la ejecucin
que ocurre despus de un estmulo que en un
momento determinado tiene como resultado
una consecuencia especfica. Esto nos viene a
sealar que los estmulos antecedentes tambin
tienen una gran importancia en el condicio
namiento operante. Sin embargo, las claves
contextales juegan un papel bastante diferente
que en el condicionamiento clsico. Estos est
mulos, en el caso del condicionamiento operan
te, reciben el nombre de estmulos discriminativos (Eds). En el condicionamiento operante
estos eventos no provocan la aparicin de la
respuesta sino que sealan la ocasin para que
si la conducta se presenta sea seguida por una
consecuencia, es decir, un estmulo, en prin
cipio neutro, puede indicar que una respuesta
puede llevar a la aparicin de la consecuencia,
es decir, indica si el reforzador est disponible
y, por tanto, informa al sujeto de cundo ha de
responder. El reforzamiento diferencial implica
reforzar una operante en una situacin pero no
en otra, pero aunque la probabilidad de emitir
una operante en presencia de un Ed puede ser
muy alta, esto significa que ese estmulo ejerce
un control sobre esa respuesta, pero no que el
Ed provoque la respuesta.
Las consecuencias de las respuestas ope
rantes establecen el control que ejercen los
estmulos discriminativos. Cuando un Ed es seguido de una respuesta cuya
consecuencia es apetitiva esa respuesta se ve reforzada y ello hace que la
probabilidad de que la operante ocurra aumente si en una ocasin posterior
167

P s ic o l o g a

d e l a p r e n d iz a j e

dicho estmulo est presente. Cuando una operante no es seguida de una


consecuencia reforzante, el estmulo que precede la respuesta se conoce
como estmulo delta (EA). En presencia de un EA la probabilidad de emi
tir la operante disminuye. El trmino control por el estmulo se refiere a
cmo los estmulos que preceden una conducta pueden controlar la ocu
rrencia de esa conducta.
2.1.2. La respuesta
En el caso del condicionamiento instrumental, la respuesta operante
se define por los efectos que provoca en el ambiente. Cuando una respues
ta produce el mismo efecto que otra respuesta estaremos hablando de la
misma operante. La operante se define por su funcin y no por su forma o
topografa, es decir, las respuestas que producen los mismos efectos sobre
el ambiente son ejemplos de la misma operante. En el caso de la presin
de palanca que ejercen las ratas para conseguir comida en una caja de
Skinner, los animales pueden presionar la palanca con el morro o con la
cola, las dos respuestas producen los mismos efectos (que se libere una
bolita de comida) y, por ello, son ejemplos de una misma operante. Como
seal Skinner:
El trmino enfatiza el hecho de que la conducta opera sobre el ambien
te para generar consecuencias. Las consecuencias definen las propiedades
en funcin de las cuales las respuestas se consideran similares. El trmino
se usar como adjetivo (conducta operante) y como sustantivo que designa
la conducta definida por una consecuencia dada
S k i n n e r , 1953 (p. 65)

Cuando hablamos de la conducta, sta puede ser muy compleja y adop


tar distintas formas (topografa) teniendo la misma funcin. Un ejemplo
puede ser ponernos un gorro para no tener fro en la cabeza. El gorro nos
lo podemos poner con el brazo izquierdo o el brazo derecho, desde delante
de la cabeza o desde atrs y todas estas conductas formaran parte de la
misma clase de respuesta. Cuando hablamos de clase de respuesta nos
estamos refiriendo a cualquier forma de ejecutar una conducta con una
funcin similar, en nuestro ejemplo evitar tener fro en la cabeza. Estas
168

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

respuestas pueden ser fsicamente parecidas pero no siempre tiene que ser
as. Un ejemplo de ello es cuando pedimos verbalmente que alguien haga
algo o cuando lo hacemos nosotros. Ambas conductas formaran parte de la
misma clase de respuesta aunque la forma o topografa de estas respuestas
es muy diferente.
2.1.3. El reforzador
Para el condicionamiento instrumental, el trmino reforzador debe dar
cabida a la gran variedad de estmulos y eventos que poseen la capacidad
de reforzamiento de una conducta. De este modo el reforzador no puede
definirse simplemente segn sus caractersticas fsicas sino ms bien en
funcin de los efectos que ste tiene sobre la conducta. Segn esta defini
cin funcional, un reforzador es cualquier suceso o evento que al hacerse
contingente con una respuesta cambia la probabilidad de aparicin de esa
respuesta en el futuro. Sobre esta cuestin veremos una discusin ms
especfica en captulos posteriores.
2.1.3.1. Reforzamiento condicionado
Es importante tener en cuenta en relacin con el anlisis de la conducta
humana que muy frecuentemente no es controlada por reforzadores prima
rios como puede ser la comida, sino por eventos cuyos efectos dependen de la
historia de reforzamiento. Los elogios o cumplidos que nos hacen, las crticas
o juicios que hacen sobre nuestro comportamiento o, el dinero, son conse
cuencias que pueden fortalecer o debilitar la ocurrencia de una conducta.
Este tipo de eventos adquieren los efectos que producen debido a las expe
riencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que
la misma consecuencia pueda tener efectos distintos dependiendo de la expe
riencia personal del sujeto. Un ejemplo de ello son las recompensas moneta
rias, para unas personas el dinero puede ser muy importante pero para otras
lo es menos, aunque en las sociedades occidentales sea bastante importante
para casi todos, ya que la comida y la comodidad en este caso dependen de
l. Ello me hace recordar una pelcula de Woody Alien en la que uno de los
personajes le deca a otro yo no canto por dinero, canto por placer y el otro
personaje al momento le contestaba pero el dinero da mucho placer.
169

P s ic o l o g a

d e l a p r e n d iz a j e

Como venimos sealando, un reforzador puede ser definido como un


evento cuya entrega aumenta la frecuencia de una respuesta con la que es
contingente. El componente crtico es la influencia en la tasa de respuesta,
no lo que el estmulo o evento es en realidad. En el caso del condiciona
miento operante, de forma similar al condicionamiento clsico de segundo
orden se puede producir el fenmeno del reforzamiento condicionado,
tambin llamado reforzamiento secundario. En este caso, un estmulo o
evento que originalmente no es reforzante, como puede ser una luz o un
sonido, puede adquirir capacidad de reforzamiento mediante la asociacin
repetida con otro que era previamente reforzante. Hablamos, entonces, de
reforzamiento condicionado cuando una conducta se fortalece debido a
sucesos que tienen un efecto que depende de la historia de reforzamiento
de ese sujeto. El aspecto central aqu implica una correspondencia entre
un evento arbitrario y un reforzador que es efectivo en el momento actual.
Cuando este evento arbitrario es capaz de aumentar la frecuencia o la tasa
de una respuesta, a este tipo de reforzamiento lo denominamos reforza
miento secundario o reforzamiento condicionado.
Cuando estos procedimientos para el estudio del reforzamiento condi
cionado se llevan a cabo en el laboratorio los resultados encontrados en los
experimentos son en muchos casos contradictorios. Uno de los problemas
ms habituales es que cuando entran en juego los procesos de extincin, los
reforzadores condicionados pueden perder su efectividad en poco tiempo y
mantener su capacidad reforzadora durante pocas respuestas (ver Kelleher
y Gollub, 1962; Myers, 1958). Sin embargo, otros investigadores han demos
trado que el reforzamiento condicionado que proporciona la luz situada
junto al comedero de la caja de Skinner es efectivo para mantener el picoteo
incluso en situaciones experimentales en los que los animales tienen que
picotear una tecla hasta 300 veces para que la luz se encienda (Alferink,
Crossman y Cheney, 1973). Aunque hasta el momento la investigacin de
laboratorio no ha arrojado resultados del todo concluyentes en cuanto a
la duracin del reforzamiento condicionado, la experiencia con el refor
zamiento condicionado en la vida diaria sugiere que eventos de este tipo
pueden reforzar gran cantidad de conductas sin extinguirse. La conducta
de los animales est conformada por secuencias de conducta complejas que
son mantenidas en muchos casos por reforzamiento condicionado y, esto es
bastante evidente en la especie humana, en la que multitud de conductas se
mantienen da a da como consecuencia del reforzamiento condicionado.
170

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

2.2. Aclaraciones
2.2.1. Reforzador-reforzamiento
En cuanto a la distincin entre reforzador y reforzamiento, debemos
tener clara la diferencia entre el evento (el reforzador) y el procedimiento
o proceso (reforzamiento). Es importante aclarar que el reforzamiento
produce incrementos en la conducta y los reforzadores son los eventos
que hacen que el reforzamiento produzca esos efectos. Cuando el procedi
miento disminuye la conducta se denomina castigo y los eventos utilizados
cuando la conducta se presenta son de naturaleza aversiva. En la lengua
inglesa existe el trmino punisher para referirse a estos eventos cuya tra
duccin al espaol sera castigador, aunque este termino no se suele uti
lizar en los manuales de Psicologa del Aprendizaje editados en castellano.
En el contexto del control aversivo, utilizar el trmino reforzador negativo
puede ser confuso, si no incorrecto, para referirse a eventos aversivos. La
utilizacin del trmino consecuencia es menos confusa, por lo que en estos
casos debera utilizarse el concepto consecuencia apetitiva (reforzador) y
consecuencia aversiva o punitiva (castigo).
2.2.2. Respuesta discreta-operante libre
Algunos de los procedimientos utilizados en los estudios sobre con
dicionamiento operante en la actualidad son similares a los empleados
por Thorndike en sus experimentos. En estos experimentos los ensayos
comienzan en el momento en el que el sujeto es dispuesto en el aparato y
ste puede nicamente emitir, y el investigador registrar, una respuesta en
cada ensayo. En estos procedimientos, denominados de ensayo discreto, la
variable dependiente suele ser la latencia de respuesta y el experimentador
tiene que intervenir para ubicar al animal en el aparato al final y al comien
zo de cada ensayo. Por ejemplo, en un laberinto en T como el mostrado en
la figura 4.4, el experimentador coloca la rata en el brazo de salida y recoge
al animal en el momento en que obtiene el reforzador en el brazo en el que
haya sido dispuesto.
Los procedimientos de ensayo discreto requieren mucho trabajo por
parte del experimentador y consumen gran cantidad de tiempo, adems, en
un da solo se pueden llevar a cabo un pequeo nmero de ensayos. Como
171

P s ic o l o g a

d e l a p r e n d iz a j e

Figura 4.4. Laberinto en T.

ya sealamos anteriormente, una de las principales innovaciones introdu


cidas por Skinner en la investigacin del aprendizaje fue implementar la
posibilidad de que el sujeto pueda emitir la respuesta de forma repetida sin
la intervencin del investigador utilizando una caja de Skinner tpica. De
forma tradicional en este tipo de investigacin se utiliza la tasa de presin
de palanca o tasa de respuesta como variable dependiente para la medida
del aprendizaje. Estos procedimientos se conocen como procedimientos de
operante libre y, a diferencia de los de ensayo discreto anteriormente des
critos, los sujetos pueden emitir la respuesta de forma constante sin que el
investigador tenga que manipular al sujeto entre ensayo y ensayo.
2.2.3. Topo grafa-funcin
La conducta se puede clasificar en trminos estructurales o funcionales.
Desde el punto de vista estructural, el anlisis de la conducta pone el punto
de mira en la topografa o forma de la respuesta y, as, cuando hablamos
de la topografa nos estamos refiriendo a las propiedades o caractersticas
fsicas de una respuesta, entendiendo sta no como un movimiento discreto
de un msculo sino como una secuencia de movimientos que ocurren en
el tiempo. Un ejemplo de ello seran los movimientos que realizamos con
el brazo para empujar una puerta: podemos hacerlo con un movimiento
del codo, lo podemos hacer con la mano o incluso darle una patada con la
pierna, adems estos movimientos los podemos hacer ms deprisa o ms
despacio. En este caso, la respuesta empujar la puerta vemos que puede
tener diferentes formas. Desde la ptica del condicionamiento operante la
172

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

topografa de respuesta est relacionada con las contingencias de reforza


miento, es decir, las consecuencias de una respuesta pueden modificar su
forma. Por ejemplo, es menos probable que empujemos una puerta con la
pierna en una situacin socialmente comprometida y ms probable que lo
hagamos con la mano, o que si tenemos prisa la empujemos ms deprisa
que si no la tenemos, o si queremos evitar hacer ruido. Por estos motivos,
en trminos generales, la topografa es una funcin de las contingencias de
reforzamiento.
Sin embargo, cuando hablamos de la funcin nos referimos a las rela
ciones de la respuesta con los estmulos antecedentes y las consecuencias
de la misma. Desde esta aproximacin, la conducta es la ejecucin de una
respuesta que sigue a un estmulo especfico y que tiene como resultado
algn tipo de consecuencia. De esta forma, dos respuestas con la misma
topografa pueden tener una funcin diferente y dos respuestas con dis
tinta topografa pueden tener la misma funcin. Siguiendo el ejemplo
anterior, podemos empujar una puerta con la mano o la podemos empu
jar con el codo y en ambos caso la funcin de la respuesta es empujar
la puerta.
El control que ejerce un reforzador sobre una conducta operante puede
estar limitado por la topografa de la respuesta. Por ejemplo, la comida
como reforzador ejerce poco control en la conducta de lavado de la cara,
rascado del cuerpo o el marcado de territorio en los hamsters, mientras que
sobre cavar, escarbar y alzarse sobre las patas traseras ejerce un control
muy preciso (Shettleworth, 1975). En otros casos, las relaciones funciona
les entre diferentes topografas de respuesta son similares entre ellas y se
observan diferencias cuantitativas ms que cualitativas. En las palomas,
a la hora de ingerir lquidos o slidos, la topografa de los movimientos
de la mandbula es bastante caracterstica y estereotipada: cuando beben,
su topografa se caracteriza por tasas (de 4 a 7 aperturas por segundo)
y aperturas del pico con valores relativamente constantes (de 1 a 3 mm)
(Klein, LaMon y Zeigler, 1983). Sin embargo, cuando comen, los picoteos
se producen, de forma general, sobre tres por segundo, y las aperturas son
proporcionales al tamao del objeto ingerido (Bermejo, Alian, Houben,
Deich y Zeigler, 1989). Estas cuestiones nos ponen tambin de relieve las
limitaciones que puede imponer la biologa al condicionamiento de algunas
respuestas, cuestin que veremos en mayor profundidad en los siguientes
apartados.
173

P s ic o l o g a

d e l a p r e n d iz a j e

2.2.4. Instancia de respuesta y clase de respuesta (unidad conductual)


Ya Skinner (1935) describi las relaciones conductuales como la corre
lacin entre una clase de estmulo y una clase de respuesta. Desde esta pers
pectiva estamos entendiendo la conducta desde un punto de vista molar. La
conducta operante se define por las relaciones funcionales entre clases de
respuestas y las consecuencias ambientales. Una clase de respuesta se refie
re a todas las formas en las que la ejecucin de la respuesta puede llevar a
una funcin similar. Sin embargo, una definicin completa de la conducta
operante necesita diferenciar entre lo que es una clase de respuestas y lo
que son respuestas particulares o instancias de respuesta (punto de vista
molecular). Una instancia de respuesta es la unidad mnima de conducta
y se refiere a la ocurrencia particular y especfica de una respuesta teniendo
en cuenta adems su topografa. As, podemos especificar la rata presion
la palanca de la caja de condicionamiento con la pata delantera derecha
a las 10:50 p.m. sealando una instancia de respuesta o utilizar la clase
presionar la palanca independiente del momento concreto en el que ocu
rri la instancia y sin tener en cuenta la topografa.
2.2.5. Interacciones clsicas y operantes en el control de la conducta
Cuando se pone en marcha un procedimiento de condicionamiento
clsico slo se necesita identificar un estmulo (El) que provoque una res
puesta, por lo general comn a la especie a la que pertenece, y presentar
al sujeto dicho estmulo emparejado con otro (EC), en principio neutro,
que no provoque esa misma respuesta. Es decir, estaramos ante un caso
de aprendizaje relativamente pasivo, ya que el sujeto slo necesita ser
expuesto a los estmulos para que el aprendizaje ocurra. Sin embargo, para
llevar a cabo un procedimiento de condicionamiento operante, es necesario
que el sujeto sea activo, es decir, que emita algn tipo de respuesta. Para
poder reforzar o castigar una conducta es necesario que la conducta ocurra,
que se presente con una cierta probabilidad, ya que en ausencia de ella no se
podr instaurar una contingencia sobre esa respuesta, es decir, no se podr
establecer una relacin entre esa conducta y otro acontecimiento ambiental.
Cuando la probabilidad de ocurrencia de una respuesta es baja, como por
ejemplo que una paloma picotee una tecla en una caja de Skinner si no lo ha
hecho previamente, podemos esperar a que ocurra la respuesta por casuali174

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

dad para poder reforzarla, pero esto nos puede Ejemplo


llevar mucho tiempo. Una de las soluciones
existentes para hacer aumentar la frecuencia de Si vamos caminando por
antes de la hora
una respuesta de baja ocurrencia y poder apli lade calle
comer
y
pasamos
por
car una contingencia instrumental sobre ella es delante de una hamburmediante el automoldeamiento, un procedi guesera, el olor que sale
miento ya descrito en el Captulo 2 en relacin del local podra actuar
con el condicionamiento clsico. Esta tcnica como un EC que pro
consiste en implementar en un primer momento voque el que aumente
salivacin, pero
un procedimiento de condicionamiento clsico anuiestra
la
vez
podra
actuar
excitatorio apetitivo emparejando un estmulo como un Ed que seala
inicialmente neutro, como puede ser la ilumina la ocasin para entrar y
cin de una tecla, con la presentacin de comi pedir una hamburguesa.
da. La comida en este caso acta como un El
que provoca respuestas con diferente topografa en funcin de la especie, por
ejemplo en los roedores promueve la manipulacin de la comida con las patas
delanteras y en las palomas el picoteo. La presentacin de la comida en el
momento en el que la tecla est iluminada le confiere a esta ltima pro
piedades de EC y, por tanto, la capacidad de elicitar por s misma una res
puesta similar a la provocada por la comida. Una vez que la luz provoca esa
respuesta podemos someterla a control operante haciendo que la comida
slo se presente si la paloma picotea la tecla. De esta forma la luz, que en
un principio funcionaba como un EC, se convierte en un estmulo discrimi
nativo (Ed) que correlaciona con la presentacin del reforzador (comida)
cuando el animal presiona la palanca (respuesta operante). Distinguir la RC
de la respuesta operante no es tarea fcil, sin embargo, una vez finalizado el
procedimiento podramos decir que empez siendo una respuesta condicio
nada clsicamente y termin siendo una operante, aunque topogrficamen
te las respuestas sean indiferenciables. Por estas razones, la iluminacin
de la tecla tiene una doble funcin: es un Ed en el sentido de que seala
la ocasin para que la respuesta operante sea reforzada, y acta como un
EC porque elicita una conducta condicionada clsicamente. Este ejemplo
ilustra cmo ciertas respuestas inicialmente condicionadas clsicamente
pueden posteriormente caer bajo control operante y, por tanto, depender
del efecto que producen y del estado de privacin del sujeto.
Una de las razones por las que se dan relaciones de interaccin entre
el condicionamiento clsico y el operante es porque los acontecimientos
175

BIBLIOTECA

P s ic o l o g a

d e l a p r e n d iz a j e

ambientales actan sobre los sistemas neurofisiolgicos de los organismos


de forma global y no sobre un sistema concreto. Aunque analicemos de
forma separada las respuestas condicionadas clsicamente de las respues
tas operantes, la influencia de estas contingencias tiene lugar sobre todo
el organismo. Cuando la tasa de una respuesta aumenta por un proceso
de reforzamiento, el reforzador presentado es contiguo con cualquier otra
actividad del individuo. Del mismo modo, cuando se presenta un estmulo
condicionado o un estmulo incondicionado tambin puede estar ocurrien
do algn otro tipo de actividad distinta de la RC en ese momento y que
pueda ser reforzada. Podramos argumentar que diferenciar entre el condi
cionamiento clsico y el operante es en parte artificial ya que ambos tipos
de procesos estaran ocurriendo simultneamente y que la interaccin del
organismo con el ambiente es ms complicada que las apreciaciones que
hacen estos dos modelos. Sin embargo, esta distincin ha sido eminente
mente prctica para el desarrollo de la investigacin en aprendizaje, ade
ms, neurobiolgicamente se ha sugerido que ambos tipos de aprendizajes
podran estar mediados por diferentes mecanismos a nivel celular (Baxter
y Byrne, 2006; Lorenzetti, Baxter y Byrne, 2011), lo que nos sealara que
si el cerebro procesa de forma distinta las asociaciones que se producen en
ambos tipos de aprendizaje, deberamos considerarlos como fenmenos
distintos. Finalmente, es preciso sealar que la diferenciacin neurobiolgica de ambos fenmenos es todava fuente de numerosas discusiones.
Definicin de condicionamiento operante (Resumen)
Por condicionamiento operante entendemos el proceso que da lugar a que

la probabilidad de una respuesta se vea modificada por sus consecuencias, es


decir, por los efectos que tiene el ambiente sobre ella. Si el resultado del com
portamiento es beneficioso la conducta se fortalecer, siendo ms probable que
se emita de nuevo en circunstancias parecidas, sin embargo, si el resultado de
la conducta es perjudicial, dicha conducta tender a desaparecer del repertorio
de conductas del sujeto. El trmino operante se utiliza para caracterizar este
tipo de condicionamiento porque, y a diferencia del condicionamiento clsi
co, el sujeto interviene u opera en el medio.
La contingencia de tres trminos constituye la unidad fundamental de
anlisis en el estudio de la conducta operante y est formada por el estmulo
discriminativo, la respuesta y la consecuencia. De este modo, sera definida
como: en presencia de un estmulo especfico, el reforzador se presentar si y
slo si la respuesta operante sucede. Los estmulos antecedentes, en el caso del
176

173/392

P s ic o l o g a

d e l a p r e n d iz a j e

ambientales actan sobre los sistemas neurofisiolgicos de los organismos


de forma global y no sobre un sistema concreto. Aunque analicemos de
forma separada las respuestas condicionadas clsicamente de las respues
tas operantes, la influencia de estas contingencias tiene lugar sobre todo
el organismo. Cuando la tasa de una respuesta aumenta por un proceso
de reforzamiento, el reforzador presentado es contiguo con cualquier otra
actividad del individuo. Del mismo modo, cuando se presenta un estmulo
condicionado o un estmulo incondicionado tambin puede estar ocurrien
do algn otro tipo de actividad distinta de la RC en ese momento y que
pueda ser reforzada. Podramos argumentar que diferenciar entre el condi
cionamiento clsico y el operante es en parte artificial ya que ambos tipos
de procesos estaran ocurriendo simultneamente y que la interaccin del
organismo con el ambiente es ms complicada que las apreciaciones que
hacen estos dos modelos. Sin embargo, esta distincin ha sido eminente
mente prctica para el desarrollo de la investigacin en aprendizaje, ade
ms, neurobiolgicamente se ha sugerido que ambos tipos de aprendizajes
podran estar mediados por diferentes mecanismos a nivel celular (Baxter
y Byrne, 2006; Lorenzetti, Baxter y Byrne, 2011), lo que nos sealara que
si el cerebro procesa de forma distinta las asociaciones que se producen en
ambos tipos de aprendizaje, deberamos considerarlos como fenmenos
distintos. Finalmente, es preciso sealar que la diferenciacin neurobiolgica de ambos fenmenos es todava fuente de numerosas discusiones.
Definicin de condicionamiento operante (Resumen)
Por condicionamiento operante entendemos el proceso que da lugar a que

la probabilidad de una respuesta se vea modificada por sus consecuencias, es


decir, por los efectos que tiene el ambiente sobre ella. Si el resultado del com
portamiento es beneficioso la conducta se fortalecer, siendo ms probable que
se emita de nuevo en circunstancias parecidas, sin embargo, si el resultado de
la conducta es perjudicial, dicha conducta tender a desaparecer del repertorio
de conductas del sujeto. El trmino operante se utiliza para caracterizar este
tipo de condicionamiento porque, y a diferencia del condicionamiento clsi
co, el sujeto interviene u opera en el medio.
La contingencia de tres trminos constituye la unidad fundamental de
anlisis en el estudio de la conducta operante y est formada por el estmulo
discriminativo, la respuesta y la consecuencia. De este modo, sera definida
como: en presencia de un estmulo especfico, el reforzador se presentar si y
slo si la respuesta operante sucede. Los estmulos antecedentes, en el caso del
176

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

condicionamiento operante, reciben el nombre de estmulos discriminativos


(Eds) cuando sealan que una respuesta ser seguida de una consecuencia
reforzante y estmulos delta (EA) cuando en su presencia la probabilidad de
aparicin de la consecuencia es baja. El trmino control por el estmulo se
refiere a cmo los estmulos que preceden una conducta pueden controlar la
ocurrencia de esa conducta.
Las respuestas pueden ser definidas por su topografa (forma) o su funcin.
Una clase de respuesta denota cualquier forma de ejecutar una conducta con
una funcin similar.
Los reforzadores pueden ser naturales como la comida o el sexo, o de forma
similar al condicionamiento clsico de segundo orden se puede producir el
fenmeno del reforzamiento condicionado o reforzamiento secundario.
En este caso, un estmulo o evento que originalmente no es reforzante puede
adquirir capacidad de reforzamiento mediante la asociacin repetida con otro
que era previamente reforzante. El automoldeamiento, en el caso del con
dicionamiento operante, consiste en implementar en un primer momento un
procedimiento de condicionamiento clsico excitatorio apetitivo emparejando
un estmulo inicialmente neutro, como puede ser la iluminacin de una tecla,
con la presentacin de comida para producir en el animal un acercamiento a
la respuesta operante buscada.

3. PROCEDIMIENTOS BASICOS DEL CONDICIONAMIENTO


OPERANTE
Una dificultad importante para el estudio cientfico del comportamiento
tiene que ver con la familiaridad que tenemos con numerosos hechos acer
ca de nuestra conducta, la de los dems o la de otras especies. En muchos
de estos casos las interpretaciones que se le dan a los hechos estn basadas
en opiniones preconcebidas y esto ha dado lugar a que se genere una gran
confusin a la hora de establecer explicaciones y predicciones no sesgadas
sobre la conducta.
La conducta, adems de ser dinmica y modificarse en el tiempo es el
resultado de muchas variables interrelacionadas que pueden incluso no
estar presentes en el momento de su anlisis. Los fenmenos conductuales
que tienen un patrn temporal identificable bajo condiciones objetivamen
te especificadas y que son reproducibles en diferentes individuos pueden
ser descritos como procesos conductuales reproducibles (Zimmerman,
177

P s ic o l o g a

d e l a p r e n d iz a j e

1963). La comprensin de estos procesos depender de la especificacin


exacta de las relaciones temporales entre los eventos que configuran esos
procesos y de las condiciones bajo las cuales ocurren. Para entender con
claridad en qu se basan los procedimientos bsicos de condicionamiento
operante es conveniente tener muy claro el concepto de contingencia.
Como ya se ha explicado en el Captulo 3 (Mecanismos asociativos y teo
ras del condicionamiento clsico) una contingencia es una relacin de
dependencia funcional entre dos componentes de un condicionamiento,
relacin que se establece cuando uno de los componentes correlaciona
con el otro. En el caso del condicionamiento operante estaremos hablando
de una contingencia positiva cuando una respuesta es seguida de una
consecuencia y de contingencia negativa cuando una respuesta elimina
o previene la aparicin de una consecuencia.
Dependiendo del tipo de contingencia (positiva o negativa) y de la
naturaleza de las consecuencias (apetitivas o aversivas) se pueden estable
cer cuatro procedimientos fundamentales de condicionamiento operante
(Tabla 4.1). Entre estos cuatro tipos de procedimiento hay que diferenciar
claramente los encaminados a producir incrementos de conducta (reforza
miento positivo, escape y evitacin) y los que pretenden producir disminu
ciones de conducta (castigo y entrenamiento de omisin).
Tabla 4.1. Procedimientos fundamentales de condicionamiento operante
Procedimiento
Reforzamiento positivo
(Entrenamiento de
recompensa)
Escape y evitacin
Castigo
Entrenamiento de
omisin

Contingencia
Positiva
Negativa
Positiva
Negativa

Consecuencia

Resultado de conducta

Apetitiva

Incremento de la fuerza de la
respuesta

Aversiva

Incremento de la fuerza de la
respuesta

Aversiva

Disminucin de la fuerza de la
respuesta

Apetitiva

Disminucin de la fuerza de la
respuesta

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

3.1 Procedimientos destinados a aumentar conductas:


Reforzamiento positivo, escape y evitacin
Reforzamiento Positivo (entrenamiento de recompensa):
El reforzamiento positivo o entrenamiento de recompensa tiene
lugar en el momento en el que una consecuencia apetitiva se presenta
de forma contingente a una respuesta y esto tiene como resultado un
aumento de la fuerza de la respuesta, es decir, la respuesta aumenta su
intensidad, su frecuencia de aparicin en un intervalo de tiempo (tasa de
respuesta), etc. De esta forma, en el momento en que el sujeto emite la
respuesta se presenta un evento apetitivo mientras que si la respuesta no
es emitida no se presenta la consecuencia apetitiva. Estas consecuencias
apetitivas pueden consistir en reforzadores primarios como son la comida
o el placer sexual, o reforzadores secundarios como pueden ser los elo
gios, el dinero, etc...
En el caso del entrenamiento en recompensa, en muchos experimentos
con animales se utiliza como reforzador la entrega de comida. Sin embargo,
para que la comida tenga propiedades reforzantes el animal tiene que estar
motivado para obtenerla. Una forma de hacerlo es privando al animal de
comida y, as, la medida de esa motivacin vendr dada por el porcentaje de
peso que ha perdido el animal con respecto a su peso ad libitum (comiendo
libremente). En este punto, el investigador asume, aunque todava no lo
sabe, que la comida puede actuar como reforzador. Hay que sealar que
la reduccin del peso del animal en un experimento tpico suele ser menos
severa de lo que parece, ya que para muchos procedimientos una reduccin
del 5% del peso puede ser suficiente. Tengamos en cuenta que ese mismo
animal en libertad tendra incluso un peso menor que la rata privada de
comida que estamos manteniendo en las condiciones controladas del labo
ratorio. Es decir, cuando las ratas comen con libertad la comida que tienen
a su disposicin, se suelen hacer obesas. Adems, distintos estudios han
demostrado que la restriccin de caloras aumenta la longevidad y mejo
ra la salud de los roedores (Masoro, 1992, 2005; Weindruch, 1989, 1996;
Weindruch, Walford, Fligiel y Guthrie, 1986).
Otro problema que debemos tener en cuenta es que en el reportorio
natural del animal exista la respuesta que pretendemos medir. En muchos
casos nuestra investigacin necesita que el animal emita una respuesta
179

P s ic o l o g a

d e l a p r e n d iz a j e

que no presenta o no suele presentar en su medio natural, por ejemplo,


que presione una palanca situada en el interior de una caja de Skinner. En
estos casos el investigador en lugar de esperar a que el animal presente la
respuesta por casualidad puede emplear el moldeamiento o mtodo de
aproximaciones sucesivas para conseguir establecer la respuesta. Este
procedimiento implica reforzar respuestas o conductas que se vayan apro
ximando a la respuesta final exigida (presionar la palanca) y dejar de refor
zarlas, es decir extinguirlas, una vez conseguimos respuestas ms parecidas
a la respuesta objetivo. Para ello, en un primer momento, entregaremos a la
rata una bolita de comida en el comedero de la caja simplemente por per
manecer en el lado de la caja donde se encuentra la palanca. Una vez haya
aumentado la probabilidad de esa conducta reforzaremos los acercamien
tos a la palanca y dejaremos de reforzar el que simplemente est en ese lado
de la caja. Finalmente, slo reforzaremos que el animal presione la palanca
dejando de reforzar cualquier otra conducta y as obtendremos finalmente
la respuesta que nos interesaba que el animal emitiese. Una vez establecida
la respuesta ya podemos utilizar cualquier reforzador para modificar la tasa
de respuesta del sujeto mediante el entrenamiento de recompensa.
Escape y Evitacin
Cuando el resultado de una respuesta operante consiste en la elimi
nacin o detencin de un evento de naturaleza aversiva y, a su vez, este
procedimiento tiene como resultado un aumento en la fuerza de respuesta
estamos hablando del procedimiento de escape. Una persona se puede
escapar de una sala de conferencias porque lo que estn contando no le
interesa o le est aburriendo. Asimismo, cuando en un procedimiento simi
lar una respuesta impide que se presente un suceso de naturaleza aversiva
nos estamos refiriendo al procedimiento de evitacin. Siguiendo el ejemplo
de la conferencia, podramos pensar que si esa misma persona conociese
previamente al ponente podra evitar presentarse en la sala. En el labo
ratorio es habitual que ambos procedimientos funcionen de manera con
junta y que en un principio los animales aprendan una respuesta de escape
y posteriormente una respuesta de evitacin. Por ejemplo, si una rata en
una caja de Skinner puede presionar una palanca para evitar una pequea
descarga en sus patas, en los primeros momentos el animal presionar la
palanca para escapar de la descarga, es decir recibe la descarga y cuando
presiona la palanca detiene la descarga, pero una vez que aprenda este
180

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

comportamiento la rata podr presionar continuamente la palanca para


evitar la descarga. Como se seala en la tabla 4.1, en estos casos, la contin
gencia entre la respuesta y la consecuencia es negativa y la consecuencia
que sigue la respuesta es de carcter aversivo. Este procedimiento es, en
muchas ocasiones, confundido con el castigo, pero en todo caso y como
hemos visto a partir de la tabla implica condiciones completamente dife
rentes a las que definen el castigo. El escape y la evitacin son conocidos
como procedimientos de reforzamiento negativo dadas las caractersticas
de la contingencia establecida. Tanto en un caso como en el otro, una con
tingencia negativa (eliminacin de un suceso) da lugar al fortalecimiento o
incremento de la intensidad o de la tasa de una respuesta.
3.2 Procedimientos destinados a disminuir conductas:
castigo y entrenamiento de omisin
El castigo o castigo positivo es el procedimiento que tiene como resul
tado una disminucin en la fuerza de la respuesta cuando se aplica una
consecuencia aversiva contingente a la respuesta. Es decir, si un sujeto
emite la respuesta operante, se presenta la consecuencia aversiva, mientras
que si la respuesta no ocurre, no se presenta la consecuencia aversiva. En
el anlisis funcional de la conducta, el castigo se define por su funcin y
esto implica que cuando el castigo no tiene efectos en la conducta se con
sidera que ste no ha ocurrido. Un ejemplo de castigo es infligir un dao
fsico cuando un sujeto presenta una conducta inadecuada; las burlas o
humillaciones tambin constituiran una forma de castigo. En el laborato
rio lo ms habitual es utilizar una pequea descarga elctrica en las patas
del animal cuando presenta la conducta objetivo, que suele ser la presin
de una palanca en el caso de las ratas y el picoteo de una tecla cuando se
utilizan palomas como sujetos. Tenemos que sealar aqu que para poder
castigar una respuesta antes ha tenido que ser reforzada, es decir, si pre
tendemos castigar la presin de una palanca, para poder observar los efec
tos del castigo previamente debemos hacer que la respuesta de presin de
palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo
anteriormente un entrenamiento de recompensa de la presin de la palan
ca. De esta forma el castigo consistira en la disminucin de una respuesta
previamente reforzada debido a la imposicin de una contingencia de tipo
aversivo sobre dicha respuesta.
181

P s ic o l o g a

d e l a p r e n d iz a j e

Entrenamiento de omisin o castigo negativo


El entrenamiento de omisin o castigo negativo es el procedimiento
de condicionamiento operante que tiene como resultado una disminucin
en la fuerza de la respuesta cuando se elimina o previene una consecuencia
apetitiva de forma contingente a la respuesta. Esto quiere decir que si un
sujeto emite la respuesta operante, su respuesta tendr como consecuencia
la no presentacin de un evento apetitivo que se presentara en circunstan
cias similares si no se produjese dicha respuesta. De este modo, el castigo
negativo implica no entregar una recompensa cuando se presenta una con
ducta no deseada. Un ejemplo clsico sera apagar la televisin cuando un
nio est tirando cosas en casa. Los eventos o circunstancias eliminadas
en el caso del castigo negativo se asume que son eventos reforzantes (ver
la televisin, hablar con los compaeros en clase, comer caramelos o la
atencin obtenida), qu opina el lector del rechazo sexual hacia la pareja
cuando ha manifestado conductas no deseadas hacia el otro? En este caso
estaramos hablando tambin de castigo negativo.
Efectos colaterales de los procedimientos aversivos
El control aversivo es un concepto que por lo general se refiere a los
procedimientos de condicionamiento de escape, evitacin y castigo. Existen
razones ticas muy claras en contra de la utilizacin de contingencias aver
sivas para promover cambios en la conducta. Adems de las razones ticas,
los efectos colaterales de este tipo de procedimientos tambin desaconsejan
su uso. Ya el mismo Skinner desaconsejaba de forma insistente la utiliza
cin de los procedimientos aversivos para producir cambios conductuales
(Skinner, 1953, 1971). En su libro Ciencia y conducta humana, en el cap
tulo XII dedicado al castigo, comienza con un epgrafe titulado Una tcnica
cuestionable, donde seala: El castigo es la tcnica ms comnmente utili
zada en la vida moderna. El patrn es familiar: si un hombre no se comporta
como deseas, golpalo; si un nio se porta mal, dale un cachete; si la gente de
un pas se comporta mal, bombardala.
Para l, los procedimientos aversivos no son una forma fiable de hacer
que disminuyan las conductas. En primer lugar porque la estimulacin
aversiva es posible que tenga a su vez efectos emocionales que, aunque
en un primer momento eliminen o disminuyan la conducta indeseable no
182

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

impiden que en el futuro vuelvan a ocurrir una vez que la activacin emo
cional se haya disipado. En segundo lugar, la estimulacin aversiva puede
dar lugar a que se asocie con otros estmulos presentes en esa situacin y
que puedan dar lugar a que se inhiban las conductas deseables. Un nio
puede utilizar estrategias para evitar el castigo y manifestar las mismas
conductas en entornos donde no estn presentes las contingencias aversi
vas. Finalmente, las personas y los animales cuando son castigados asocian
el castigo con quien lo ejecuta ms que con la conducta indeseada y, esto
puede dar lugar a que, en el futuro, evite y rechace a quien lo castiga en
lugar de cambiar su comportamiento.
3.3. La extincin en el reforzamiento positivo
La extincin en el condicionamiento operante es el procedimiento
mediante el cual una respuesta que previamente se reforzaba se deja de
reforzar, es decir, se deja de presentar la consecuencia que se presentaba
anteriormente cuando la respuesta operante era emitida. Adems de enten
der la extincin como un procedimiento, tambin tenemos que considerar
que la extincin es el proceso que da lugar a una disminucin de la frecuen
cia o la intensidad de la respuesta causada por la ausencia del reforzador
y a una disminucin gradual de su ejecucin. Los efectos de la extincin
sobre los procedimientos aversivos se explicarn ms adelante en el captu
lo dedicado al control aversivo.
Como hemos sealado, el resultado del procedimiento de extincin es una
disminucin de la intensidad o la tasa de respuesta, aun as, tenemos que
tener en cuenta que la conducta no se elimina de forma absoluta. Si despus
de programar cierto nmero de sesiones de extincin dejamos pasar cierto
tiempo sin que el sujeto sea expuesto a nuevas sesiones observamos que
se produce cierta recuperacin de la respuesta, fenmeno conocido como
recuperacin espontnea. Es decir, si una rata recibe entrenamiento de
recompensa para presionar una palanca y obtener una bolita de comida y,
posteriormente, es sometida a un procedimiento de extincin en el que no se
presenta la comida tras la emisin de la respuesta, la rata dejar de presionar
la palanca. Pero, si dejamos pasar cierto tiempo desde la ltima sesin de
extincin sin contacto con la contingencia entre la respuesta y la consecuen
cia prestablecida, y volvemos a introducir a la rata en la caja de condiciona
miento operante, es muy probable que la rata vuelva a presionar la palanca.
183

P s ic o l o g a

d e l a p r e n d iz a j e

Adems de la disminucin de la tasa de respuesta, la extincin tiene otros


efectos sobre la conducta. Uno de estos efectos es conocido como el esta
llido de extincin. Este fenmeno suele ocurrir en los primeros momen
tos en los que dejamos de presentar el reforzador, y consiste en un aumento
de la tasa de respuesta en un ensayo o sesin en el que se ha dejado de
presentar el reforzador que anteriormente se presentaba. Posteriormente,
la tasa de respuesta comienza a disminuir de manera gradual. Otro efecto
que ocurre cuando comienza un procedimiento de extincin es el aumento
de la variabilidad de la respuesta. Una posible interpretacin adaptativa
de este fenmeno tiene que ver con que esta variacin conductual aumenta
las oportunidades de que un organismo pueda reinstaurar el reforzamiento
o entrar en contacto con otras posibles fuentes de reforzamiento.
En relacin con estos efectos podramos pensar en el ejemplo de un
padre cuyo hijo no deja de interrumpirle tratando de llamar su atencin.
Si decide ignorar a su hijo con la esperanza de que desista de su actitud,
muy probablemente al principio el nio aumentara su insistencia e inclu
so empezar a gritar. Sin embargo, si el padre se mantiene en su actitud
durante un tiempo largo probablemente el nio deje de molestar. En este
sentido es importante sealar que como consecuencia de la extincin es
habitual encontrase con un estado emocional que se suele denominar frus
tracin, y que da lugar a que surjan respuestas emocionales incondicio
nadas como el aleteo en las palomas, el que las ratas muerdan la palanca
o la agresin en humanos. Solo tenemos que pensar lo que hacen muchas
personas cuando han introducido dinero en una mquina dispensadora de
bebidas y esta no le entrega su pedido, lo mnimo que nos encontramos es
que esta persona presione el botn muchas veces, golpee el aparato o inclu
so lo mueva violentamente.
Como hemos dicho, una de las respuestas emocionales que ocurren
durante la extincin es la agresin. En un trabajo ya clsico, se entrenaron
palomas mediante un procedimiento en el que se alternaban perodos de
reforzamiento con comida con perodos de extincin. Los investigadores
encontraron que las palomas atacaban a otra paloma atada e inactiva o a
un mueco con forma de paloma si eran introducidas en la caja durante
los perodos de extincin. Adems, estos ataques se limitaron al principio
de los perodos de extincin (Azrin, Hutchinson y Hake, 1966). De alguna
manera este experimento ilustra las conductas agresivas que pueden apa
recer como consecuencia de la reaccin emocional de frustracin asociada
184

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

con los momentos iniciales de los procedimientos de extincin. Estos efec


tos relacionados con la extincin tienen bastante sentido en condiciones
naturales. Si una conducta anteriormente daba lugar a una consecuencia
favorable para el organismo y en el momento actual ya no la produce, es
decir, cuando algo funcionaba y ya no funciona, la seleccin natural parece
haber favorecido que los organismos repitan las conductas que funciona
ron en el pasado y que adems el rango de respuestas ante esa situacin
aumente as como que se presenten con ms fuerza.
En el laboratorio, cuando la extincin sigue su curso, las respuestas
emocionales comienzan a desaparecer y la intensidad de la respuesta dis
minuye. Si el procedimiento es lo suficientemente largo la intensidad o la
tasa de la respuesta suele volver al nivel registrado antes de que la conducta
fuese reforzada. En muchas ocasiones esto no sucede en una sola sesin
y se deben programar varias o incluso muchas sesiones para que la tasa
de respuesta baje hasta el nivel establecido durante la lnea base. La tasa
de respuesta mostrada por los sujetos durante la sesiones de extincin
puede considerarse como un ndice de la resistencia a la extincin. En
contra de lo que cabra esperar, generalmente las respuestas operantes que
han sido reforzadas en pocas ocasiones se extinguen de forma lenta, sin
embargo cuando una respuesta ha sido reforzada en mltiples ocasiones
muestra menor resistencia a la extincin, sobre todo cuando en la fase
de adquisicin se ha utilizado un programa de reforzamiento continuo. A
este fenmeno se le ha denominado efecto del sobreentrenamiento en
la extincin (Ison, 1962; Senkowski, 1978; Tombaugh, 1967). Asimismo,
la resistencia a la extincin aumenta de forma importante en el momento
en que se utiliza un programa de reforzamiento parcial o intermitente.
Como veremos en el siguiente captulo (Captulo 5), en estos programas no
se refuerzan todas las respuestas sino slo algunas de ellas, por ejemplo,
dar una porcin de comida a una rata por presionar una palanca 50 veces.
La extincin de este tipo de programas muestra mucha mayor resistencia
que si el reforzamiento utilizado durante la adquisicin de la respuesta es
continuo, fenmeno conocido como efecto del reforzamiento parcial en la
extincin. Distintos experimentos han demostrado que con igual nmero
de respuestas reforzadas durante la fase de adquisicin, el reforzamiento
intermitente es ms resistente a la extincin que el continuo (Falls, 1998).
Esto podemos tambin observarlo en comportamientos humanos en los que
se ofrecen reforzadores espordicos. As, es bastante fcil de entender que
185

P s ic o l o g a

d e l a p r e n d iz a j e

conductas como el llanto de los nios, que unas veces son reforzadas y en
otros casos no, son muy difciles de erradicar. El efecto del reforzamiento
parcial se ha tratado de explicar como el resultado de dos procesos bsicos
como son el reforzamiento y la discriminacin (Nevin, 1988). Si tenemos
en cuenta que el reforzamiento aumenta la resistencia al cambio, es decir, a
mayor tasa de reforzamiento mayor resistencia al cambio, los programas de
reforzamiento continuo seran ms resistentes al cambio que los programas
de reforzamiento intermitente. Sin embargo, como hemos visto, la extincin
ocurre ms rpido con programas de reforzamiento continuo. Esta contra
diccin podra ser debida a que la discriminacin entre el reforzamiento y la
extincin es ms fcil y rpida si el programa es de reforzamiento continuo
que si es intermitente. Es decir, es ms fcil discriminar la diferencia entre
un programa con una tasa estable y alta de reforzamiento de un programa
en el que el reforzamiento no existe (extincin), que entre un programa de
tasa baja e intermitente de reforzamiento y la extincin. Otro factor que
podra estar operando es la generalizacin de la situacin de reforzamiento
intermitente a la de extincin, dando esto tambin lugar a una mayor resis
tencia al cambio en los programas de reforzamiento intermitente. Por tanto,
los factores de discriminacin y generalizacin anularan el efecto produci
do por la mayor tasa de reforzamiento de los programas de reforzamiento
continuo, mostrando una mayor resistencia al cambio los animales que han
tenido reforzamiento intermitente durante la fase de adquisicin. Otra posi
ble explicacin de la mayor resistencia a la extincin en los programas de
reforzamiento intermitente con respecto a los programas de reforzamiento
continuo podra ser el contacto con las contingencias. Pensemos en una rata
que recibe una bolita de comida por presionar una palanca 50 veces. Este
animal tendra que emitir al menos 50 respuestas para percibir el cambio
entre el reforzamiento y la extincin, sin embargo un animal que reciba una
porcin de comida por cada respuesta toma contacto con la contingencia de
extincin de forma inmediata. As, el animal bajo reforzamiento continuo
cuando pasa a la extincin y ha emitido 10 respuestas ha experimentado la
contingencia de extincin esas 10 veces, sin embargo la rata bajo reforza
miento intermitente tendra que presionar 500 veces la palanca para experi
mentar las mismas contingencias de extincin.
La teora de la frustracin (A. Amsel, 1962; Abram Amsel, 1992) trata
de explicar la persistencia de la respuesta durante la extincin como resul
tado del aprendizaje de algo paradjico, esto es, continuar respondiendo
186

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

cuando se espera no ser reforzado o ser frustrado. Esta teora asume que
el reforzamiento parcial da lugar a que el resultado del aprendizaje sea
esperar la ausencia de reforzamiento. Sin embargo, no hay nada durante la
experiencia con reforzamiento continuo que motive a los sujetos a emitir la
respuesta durante la extincin.
Otras variables que influyen en la persistencia de la respuesta durante la
extincin son la magnitud del reforzador y la inmediatez de la recom
pensa empleadas durante la fase de adquisicin. En general, cuando la
magnitud de la recompensa durante la adquisicin es alta y se administra
de forma continua durante los ensayos de adquisicin, la resistencia a la
extincin disminuye. Esto no ocurre as, sin embargo, cuando las recom
pensas grandes se administran intermitentemente, tal y como sealbamos
anteriormente, como consecuencia del efecto del reforzamiento parcial.
As, la resistencia a la extincin ser baja cuando las recompensas grandes
son administradas de forma continua, pero ser alta cuando las recompen
sas grandes se administran de forma intermitente. En cuanto a la inmedia
tez de la recompensa parece claramente demostrado que cuando la demora
en la presentacin del reforzador es baja, es decir, pasa poco tiempo entre
la emisin de la respuesta y la obtencin del reforzador, la resistencia a la
extincin es mayor. Esto tiene una gran importancia en conductas adictivas
como el juego patolgico, donde se ha observado que los juegos de azar
en los que se obtienen recompensas inmediatas, como son las mquinas
tragaperras, existe un potencial adictivo mayor que los juegos en los que se
reciben los premios de forma demorada (Choliz, 2010).
Finalmente, y como ya hemos sealado, los procedimientos de extin
cin hacen que con el tiempo la conducta operante disminuya. Esto ha
hecho pensar que esta disminucin de la respuesta podra ser debida a la
prdida de memoria o al olvido. En relacin con esto es muy importante
sealar que la disminucin de la respuesta que ocurre como resultado de la
extincin es muy diferente a lo que sucede como consecuencia del olvido.
La extincin es un procedimiento en el que una respuesta anteriormente
reforzada ya no produce reforzamiento pero la posibilidad de emitir la res
puesta sigue disponible. Sin embargo, en el caso del olvido la disminucin
de la respuesta ocurre simplemente debido al paso del tiempo y la posibili
dad de emitir la respuesta no est presente. Otro punto importante a tener
en cuenta es que la extincin no revierte lo ocurrido durante la adquisicin
sino que implica un aprendizaje nuevo, que de alguna manera se superpone
187

P s ic o l o g a

d e l a p r e n d iz a j e

a lo aprendido anteriormente. Adems de la recuperacin espontnea exis


ten otros tres fenmenos que dan cuenta de que la extincin no es debida
al olvido ni a que haya un total desaprendizaje de la conducta adquirida:
la renovacin, la restauracin y el restablecimiento. La renovacin en el
condicionamiento operante consiste en la recuperacin de la respuesta
extinguida en un contexto diferente al que se llev a cabo el procedimiento
de extincin (Bouton, Todd, Vurbic y Winterbauer, 2011). De modo similar,
se puede producir una restauracin de la conducta propia de la extincin
volviendo a situar a los sujetos en el contexto original de la extincin.
Finalmente, el restablecimiento es un procedimiento en el que se puede ver
cmo las respuestas extinguidas vuelven a aparecer. En este caso, despus
de que una respuesta instrumental es extinguida, los sujetos son expuestos
de forma no contingente al reforzador empleado durante la adquisicin. El
resultado de la presentacin es la reaparicin de la respuesta previamente
extinguida sin que sta d lugar al reforzador. Estos fenmenos y proce
dimientos concuerdan con la idea de que la recuperacin espontnea es
debida a la disminucin del control que las claves contextales tienen sobre
la conducta con el paso del tiempo (Bouton, 1993) y pone de manifiesto
que, de igual manera que en el condicionamiento clsico, la extincin en el
condicionamiento operante es especfica del contexto en el que ha ocurrido.
Procedimientos del condicionamiento operante (Resumen)
Los procedimientos fundamentales de condicionamiento operante se han
definido en funcin del tipo de contingencia (positiva o negativa) y de la natu
raleza de las consecuencias (apetitivas o aversivas). De esta forma se pueden
establecer cuatro procedimientos fundamentales de condicionamiento operan
te que dan lugar a un aumento (reforzamiento positivo, escape y evitacin) o
una disminucin de la tasa de respuesta (castigo y entrenamiento de omisin).
El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el
momento en el que una consecuencia apetitiva se presenta de forma contingen
te a una respuesta, y en el caso de los procedimientos de escape y evitacin se
establece una contingencia negativa con un evento de naturaleza aversiva. En
el caso del castigo se establece una contingencia positiva con Lina consecuencia
aversiva mientras que en el entrenamiento de omisin la contingencia es nega
tiva y la consecuencia apetitiva.
La extincin es el proceso por que se produce la reduccin de una respuesta
previamente aprendida que ocurre porque la respuesta ya no es seguida por el

188

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

reforzador, as como el procedimiento de no volver a reforzar una respuesta


instrumental previamente reforzada, y no debe confundirse con el olvido que
ocurre por el mero paso del tiempo. La extincin da lugar a fenmenos como el
estallido de la respuesta durante la extincin, as como al aumento de la varia
bilidad en la respuesta, adems de respuestas emocionales relacionadas con
la frustracin. Se ha sealado a su vez como los programas de reforzamiento
intermitente son ms resistentes a la extincin que los de reforzamiento conti
nuo, fenmeno conocido como efecto del reforzamiento parcial en la extincin.
La renovacin, la restauracin y el restablecimiento de la respuesta ponen de
manifiesto que durante la extincin no hay desaprendizaje y que es un fenme
no que tiene poco que ver con el olvido.

4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE


4.1. La conducta supersticiosa
La posibilidad de que una respuesta
presentada sin motivo aparente sea segui
da de forma azarosa por un reforzador da
lugar a que en ciertas ocasiones una con
ducta pueda ser reforzada accidental
mente. En 1948 Skinner llev a cabo un
experimento conocido a da de hoy como
el experimento de supersticin que
gener un importante debate acerca del
papel de la contigidad y la contingencia
en el reforzamiento (Skinner, 1948). Su experimento demostr, al menos en
parte, las consecuencias que el reforzamiento accidental tiene en el proceso
de aprendizaje. En este experimento los sujetos eran palomas situadas en
cajas experimentales independientes. El procedimiento consista simple
mente en dispensar una pequea cantidad de grano en los comederos de
las cajas de condicionamiento cada 15 segundos, independientemente de lo
que hiciesen las palomas, y registrar su comportamiento. Lo que observ
Skinner es que los animales presentaban ciertas pautas de comportamiento
que parecan indicar que su conducta controlaba la entrega del reforzador.
Antes de la entrega del reforzador cada paloma mostraba un tipo de com
portamiento distintivo que repeta en los sucesivos ensayos. Es decir, los
189

P s ic o l o g a

d e l a p r e n d iz a j e

animales actuaban como si su comportamiento estuviese relacionado con


la entrega del reforzador, cuando en ningn caso era as. Skinner explic
este comportamiento mediante la idea del reforzamiento accidental o
adventicio, o dicho de otra forma, que si una respuesta ocurre cuando se
entrega el reforzador esa conducta es reforzada. Si el primer reforzador se
presenta de forma inmediata a cuando la paloma alza su cabeza, la con
ducta alzado de la cabeza se reforzar y tendr una mayor probabilidad
de ocurrencia en el futuro. Adems, este aumento de la probabilidad de
ocurrencia hace tambin ms probable que la respuesta se presente en el
momento de la entrega del reforzador en los ensayos sucesivos y, de este
modo, la alta probabilidad de ocurrencia de esta respuesta en relacin con
otras conductas le confiere una alta probabilidad de ser reforzada en futu
ros ensayos.
La explicacin dada por Skinner al experimento de supersticin fue
puesta en duda por investigaciones posteriores (Staddon y Simmelhag,
1971). Staddon y Simmelhag replicaron el experimento de supersticin de
Skinner registrando el comportamiento de las palomas de forma mucho
ms minuciosa, lo que les llev a extraer conclusiones muy diferentes. Los
autores encontraron que las respuestas emitidas por los animales durante
el experimento podan ser agrupadas en dos categoras principales a las que
llamaron conductas de nterin y conductas terminales. Las conductas de
nterin fueron definidas como aquellas actividades del animal que tenan
lugar en el medio del intervalo, cuando faltaba todava bastante tiempo
para la aparicin del reforzador. Este tipo de conductas incluan moverse
a lo largo de la pared frontal de la caja o dar vueltas sobre s mismas. Las
conductas terminales las definieron como aquellas que ocurran al final
del intervalo y prximas en el tiempo a la aparicin del reforzador. Entre
estas actividades o respuestas incluyeron, por ejemplo, que la paloma pico
tease en el comedero o en sus proximidades. Los autores observaron que
este patrn de respuestas no variaba de forma significativa de unas palomas
a otras y por ello argumentaron que no es el reforzamiento accidental lo
que origina un aumento en la frecuencia de las conductas de nterin, sino
que estas conductas son simplemente respuestas que un sujeto emite de
forma innata cuando la probabilidad de reforzamiento es baja. Por otro
lado, la entrega de comida pareca slo influir en las respuestas termi
nales, como el picoteo que ocurre de forma frecuente antes de la entrega
de comida, y su aparicin no estara relacionada con un reforzamiento
190

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

accidental. En consecuencia, podramos decir que no todas las conductas


que aparecen cuando se entregan reforzadores de forma peridica son el
resultando de un emparejamiento aleatorio entre la respuesta y el refor
zador. Muchas de estas respuestas pueden ser conductas innatas con alta
probabilidad de aparicin cuando el sujeto est esperando la aparicin
del siguiente reforzador. En resumen, podramos pensar que determinadas
conductas supersticiosas estaran explicadas por el reforzamiento acci
dental propuesto por Skinner, y otras por mecanismos que tendran que
ver con conductas innatas relacionadas con la manera en que los organis
mos se relacionan con el paso del tiempo y la aparicin de reforzadores en
ambientes naturales.
Como es bien sabido por todos, el comportamiento supersticioso tam
bin ocurre en la especie humana. Las conductas supersticiosas ocurren
de forma frecuente en situaciones en las que no hay ningn tipo de control
sobre las consecuencias de las acciones, como pueden ser los juegos de
azar. Las personas que juegan en las mquinas tragaperras desarrollan
conductas estereotipadas antes de realizar una jugada, como introducir
las monedas de determinada manera, introducir un nmero de monedas
determinado o tocar los botones o partes de la mquina en una secuencia
particular. La conducta supersticiosa tambin es habitual en los deportis
tas. Los comportamientos supersticiosos que muestran muchos deportistas
de lite tienen, con frecuencia, su origen en algn tipo de xito con el que
esa conducta ha tenido relacin en el pasado. Un ejemplo bastante cono
cido es el siguiente: cuando el jugador de baloncesto Michael Jordn gan
su primer ttulo llevaba puestos unos pantalones cortos debajo de su uni
forme. A partir de ese momento llev puestos pantalones cortos debajo de
su uniforme durante gran parte de su carrera en la NBA. Existen adems
evidencias que demuestran que las personas que tienen una gran necesidad
de control sobre los eventos es ms probable que desarrollen conductas
supersticiosas (Keinan, 2002).
Herrstein diferenci la forma en que se adquieren determinadas supers
ticiones humanas estableciendo principios diferentes para cada una de
ellas (Herrstein, 1966). Por una parte las supersticiones idiosincrticas
que estaran motivadas por la experiencia propia anterior con situaciones
de reforzamiento y por otro lado las supersticiones sociales tpicas que se
han mantenido a lo largo del tiempo (por ejemplo, creer que el nmero
13 o romper un espejo trae mala suerte), que sugiri que eran un residuo
191

P s ic o l o g a

d e l a p r e n d iz a j e

de contingencias previas de reforzamiento que ya no eran efectivas. Como


ejemplo de estas ltimas seal la creencia popular de que da mala suerte
encender tres cigarrillos con la misma cerilla. La explicacin de esta con
ducta supersticiosa parece ser que proviene de la primera guerra mundial
en la que durante gran parte de las batallas los combatientes permanecan
refugiados en las trincheras. En esta situacin era probable que cuanto
ms tiempo durase la cerilla encendida para encender el cigarrillo ms
probable sera que un soldado fuese abatido por un disparo del enemigo.
En este ejemplo vemos cmo una contingencia de reforzamiento que tena
una gran relevancia en una determinada situacin deja de tenerla en otras
y, aun as, se mantiene a lo largo de varias generaciones.
4.2. La deriva instintiva y el concepto de relevancia o pertinencia en
el condicionamiento instrumental
Permite el condicionamiento instrumental condicionar de la misma
forma cualquier tipo de respuesta? La respuesta a esta pregunta parece
ser que es no. Como hemos visto en el Captulo 3, dedicado al condiciona
miento clsico, existen ECs que se condicionan con ms facilidad cuando
se presentan asociados a determinados EIs. De forma similar, en el condi
cionamiento operante existen situa
ciones en las que tambin se observan
relaciones de pertinencia o relevancia
entre respuestas y reforzadores, es
decir, hay respuestas que son ms
complicadas de condicionar cuando
se utilizan ciertos tipos de reforza
dores. Thorndike fue el primero en
sealar la facilidad o dificultad para
condicionar determinadas respuestas
y propuso el trmino de pertinen
cia para explicar los problemas para
entrenar conductas como el rascado y
el bostezo. El concepto de pertinencia
pone de relieve que algunas respuestas
se relacionaran de modo natural con
el reforzador como consecuencia de la

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

historia evolutiva del animal, por lo que seran ms fciles de condicionar


que otras dependiendo del reforzador que utilicemos.
Marin y Keller Breland fueron dos estudiantes de Skinner que poste
riormente montaron una empresa dedicada al entrenamiento de animales.
Su trabajo consista en condicionar a distintos animales para actos circen
ses, espectculos, etc... Durante sus entrenamientos, observaron algunas
limitaciones del condicionamiento instrumental cuando trataban de refor
zar conductas utilizando comida como reforzador. En distintas ocasiones
surgan conductas tpicas de las especies que entrenaban que interferan
con las respuestas operantes pretendidas. Por ejemplo, cuando trataban de
adiestrar a un mapache para que depositase monedas en una hucha a cam
bio de comida, los animales misteriosamente frotaban las monedas durante
segundos o incluso minutos sin llegar a depositar su moneda en el contene
dor, adems, la ejecucin de la tarea empeoraba segn el entrenamiento iba
avanzando. Los Breland dieron el nombre de deriva instintiva al desarrollo
de estas conductas como la de hozar en los cerdos y frotar monedas en los
mapaches, respuestas naturales, aparentemente muy fuertes, relacionadas
con la comida y que competan con las respuestas que requera el entrena
dor (Breland y Breland, 1961).
Seguimiento de signo?

4.3. Los cambios en la cantidad y la calidad de la recompensa:


el fenmeno de contraste conductual
El efecto de la recompensa en la conducta depende de la experiencia
pasada con otros reforzadores. El contraste conductual es un fenmeno
muy interesante en relacin con la psicologa de la motivacin y se basa en
el hecho de que la efectividad de un reforzador para controlar una conducta
puede verse modificada por la experiencia previa con el mismo reforzador
cuando ste es de una magnitud o calidad diferente. Es muy fcil darse
cuenta de lo contenta que se pone la gente cuando recibe un aumento de
sueldo, y del mismo modo, ocurre lo contrario cuando hay una bajada, nor
malmente nos enfadamos muchsimo. Sin embargo, esto no tiene que ver
con el valor absoluto del reforzador. Planteemos la situacin de forma dis
tinta, una persona gana por su trabajo 1400 euros al mes y otra gana 1600
euros, si todo sigue as esas dos personas llevarn una vida ms o menos
tranquila. De pronto, la primera de estas dos personas recibe un aumento
193

P s ic o l o g a

d e l a p r e n d iz a j e

de sueldo de 100 euros y la segunda una bajada de 100 euros. Lo que vemos
aqu es que las dos personas finalmente reciben una cantidad de 1500
euros, es decir, el mismo reforzador, que sin embargo los dos sujetos perci
ben ahora de forma muy diferente. Los efectos que tienen los cambios en la
eficacia del reforzador debido a la experiencia previa con otros reforzadores
fueron descritos en primer lugar por Crespi en 1942, de hecho, al fenmeno
se le dio en un primer momento el nombre de efecto Crespi. Un estudio
ms reciente de Mellgren ilustra de forma clara el fenmeno. En su experi
mento (Mellgren, 1972) utiliz cuatro grupos de ratas en un corredor recto
a las que midi la velocidad de sus carreras. Durante la primera fase tanto
el grupo A como el grupo B recibieron 2 bolitas de comida en el momento
en que llegaron al final del corredor, mientras que los grupos C y D recibie
ron 22 bolitas de comida. En una segunda fase se reasign la cantidad de
comida entre los grupos. De esta manera, el grupo A sigui recibiendo la
misma cantidad de comida (2 pellets o bolitas de comida) mientras que el
grupo B pas a recibir 22; el grupo C sigui recibiendo 22 pellets, mientras
que el grupo D pas a recibir nicamente 2 pellets de comida. El diseo del
experimento qued establecido como se seala en la siguiente tabla:
Tabla 4.2. Esquema del experimento de Mellgren en el que se demuestran los fen
menos de contraste conductual positivo y negativo
Grupo

Fase 1

Fase 2

Resultado

Grupo A
(Pequeo-Pequeo)

Recompensa Pequea
(2 Bolitas de comida)

Recompensa Pequea
(2 Bolitas de comida)

Misma velocidad en
las carreras

Grupo B
(Pequeo-Grande)

Recompensa Pequea
(2 Bolitas de comida)

Recompensa Grande
(22 Bolitas de comida)

Aumento de la velocidad
en las carreras

Grupo C
(Grande-Grande)

Recompensa Grande
(22 Bolitas de comida)

Recompensa Grande
(22 Bolitas de comida)

Misma velocidad en
las carreras

Grupo D
(Grande-Pequeo)

Recompensa Grande
(22 Bolitas de comida)

Recompensa Pequea
(2 Bolitas de comida)

Disminucin de la
velocidad en las carreras

Los resultados del experimento mostraron que los grupos a los que no
se les cambi la cantidad de comida durante la fase 2 mostraron la misma
velocidad en sus carreras a lo largo del corredor recto. Sin embargo, los
animales que durante la fase 2 del experimento recibieron una cantidad
194

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

de comida mayor mostraron un aumento en la velocidad de sus carreras


mientras que los animales que cambiaron de la recompensa grande a la
recompensa pequea mostraron una disminucin significativa en la veloci
dad de sus carreras. De este modo, se pudo observar que los efectos de la
recompensa dependen de la experiencia previa con otras recompensas. Las
ratas que experimentaron una recompensa favorable en contraste con la
que haban recibido anteriormente, corrieron ms deprisa incluso que las
ratas que tenan una recompensa grande durante las dos fases, fenmeno
conocido como contraste conductual positivo. Sin embargo, las ratas que
recibieron una recompensa desfavorable con respecto a la que haban obte
nido durante la primera fase del experimento, mostraron una disminucin
en la velocidad de sus carreras con respecto a los animales que siempre
experimentaron una recompensa pequea, efecto denominado contraste
conductual negativo.
Experimentos recientes han demostrado que los fenmenos de contraste
pueden depender a su vez del estado afectivo previo (Mitchell, Marston, Nutt
y Robinson, 2012), es decir, el fenmeno de contraste puede mostrarse de
diferente forma dependiendo de si el estado afectivo del animal es positivo
o negativo. As, se ha propuesto que la sensibilidad de un individuo hacia la
ganancia o prdida de recompensas depender del estado emocional en el que
se encuentre (Hajcak, McDonald y Simons, 2004; Wenzlaff y Grozier, 1988).
4.4. La controlabilidad de las consecuencias aversivas y el efecto de
indefensin aprendida
Otro de los fenmenos interesantes relacionados con el condicionamien
to operante es el efecto que tiene la controlabilidad de las consecuencias
aversivas de la propia conducta. Martin E. P. Seligman y sus colaboradores
descubrieron que cuando los animales son sometidos a situaciones en las
que tienen poco o ningn control, desarrollan una reaccin emocional en
la que manifiestan un comportamiento pasivo ante dichas circunstancias
o circunstancias parecidas, y se piensa que esta reaccin es similar a la
depresin humana (Seligman, 1975). Este efecto conductual, denomina
do indefensin aprendida, ha sido confirmado en distintas ocasiones, por
varios laboratorios y en diferentes especies, lo que indica lo robusto y
general que es el fenmeno (Peterson, 1993). En estos experimentos (vase
195

P s ic o l o g a

d e l a p r e n d iz a j e

Tabla 4.3), en una primera fase conocida como fase de preexposicin al


entrenamiento escape/evitacin, los investigadores asignaron grupos de
perros a tres condiciones experimentales: en la primera de ellas, el grupo de
control escapable era sometido a un entrenamiento de escape/evitacin en
el que si el animal emita la respuesta requerida poda detener o impedir la
presentacin de una descarga. El segundo de los grupos, el grupo acoplado
(grupo experimental) reciba las mismas descargas que el grupo anterior,
pero en este caso la conducta del animal no tena consecuencias sobre las
descargas. Finalmente utilizaron, adems, un segundo grupo control que
simplemente estaba confinado en la misma situacin que los dems grupos
pero no reciba tratamiento. En una segunda fase del experimento, todos
los grupos de animales fueron sometidos a varios ensayos de entrenamiento
en escape/evitacin. Lo que observaron los investigadores es que el grupo
que recibi las descargas inescapables durante la fase de preexposicin
mostr un aprendizaje de escape/evitacin mucho ms lento que los otros
dos grupos (Figura 4.5). Adems, tambin demostraron que no existan
diferencias estadsticamente significativas entre los grupos de animales
sometidos durante la fase de preexposicin a las descargas escapables y
los que no recibieron las descargas durante esta fase. Los investigadores
concluyeron que el entrenamiento anterior con las descargas inescapables,
generaba en los animales la expectativa de que su conducta no tena ningn
efecto sobre las consecuencias aversivas que experimentaba, ya que apren
dan que la aparicin de las descargas era independiente de su conducta. A
esta explicacin del fenmeno se la conoce como la hiptesis de la inde
fensin aprendida.
Tabla 4.3. Diseo tridico empleado en los estudios sobre el efecto de la infedensin
aprendida (Seligman y Maier, 1967)
Grupo

Fase de preexposicin

Fase de aprendizaje
escape / evitacin

Escape

Descargas
controlables

Seal - descarga

Aprendizaje rpido

Acoplado

Descargas
incontrolables

Seal - descarga

Aprendizaje lento

Control confinado

Sin descargas

Seal - descarga

Aprendizaje rpido

196

Resultado conductual

P r in c ip io s
Latericia de escape media en los
diferentes gru p os utilizados en el diseo tridico

Porcentaje de sujetos que no consiguen escapar en 9


de cada 10 e n sayos

SSOO-
TO-

50 -

100

(/)
D<D20
(/)

60 50 40 30 -

40 -

T3

30 -

U)

QQQSSBOSSSS

wm

10 -

0-

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

l i i n

Escape

20
10 -

Control confinado

Acoplado

Escape

Control confinado

Acoplado

Figura 4.5. Resultados obtenidos en el experimento de Seligman y Maier utilizando el


diseo tridico en el que demostraron el efecto de indefensin aprendida. Los sujetos
que pertenecan al grupo acoplado tuvieron mayores latencias de escape y un porcentaje
mayor de ensayos de escape-evitacin fallidos que los pertenecientes a los grupos escape y
control confinado. Resultados adaptados de M. E. Seligman y Maier, 1967.

El propio trabajo de estos investigadores sugiere posibles medidas para


reducir el efecto de la indefensin. Una posible manera de hacerlo podra
ser forzando a los perros a cruzar la barrera durante un buen nmero de
ensayos, lo que tendra como consecuencia que posteriormente presentasen
la respuesta por s mismos. Seligman sugiri que el mejor tratamiento para
la indefensin es ubicar al sujeto en una situacin en la que no fuese posible
fallar dado que ello generar de nuevo la expectativa de que la conducta
toma control sobre las consecuencias.
Son tambin interesantes los estudios que demostraron que la inde
fensin aprendida se puede, de alguna manera, prevenir. Seligman llam
inmunizacin al proceso que se desarrolla cuando un sujeto tiene una
primera experiencia con descargas escapables que bloquea el desarrollo de
la indefensin aprendida cuando se presentan descargas inescapables en
una fase posterior (Williams y Lierle, 1986).
4.5. Los efectos de la demora del reforzador en el condicionamiento
instrumental: el procedimiento de marcado
Es evidente que la entrega de una recompensa aumenta la probabilidad
de que una respuesta vuelva a ocurrir y, por tanto, que vuelva a ser emitida.
Pero, cul es el momento en el que tenemos que aplicar la recompensa para
que el reforzamiento de la respuesta ocurra? Uno de los fenmenos ms
firmemente establecidos en la psicologa del aprendizaje es la dificultad de
197

P s ic o l o g a

d e l a p r e n d iz a j e

reforzar una respuesta cuando la entrega de la recompensa se demora en el


tiempo. Es muy fcil reforzar una conducta cuando el reforzador se entrega
inmediatamente, pero la cosa es bien distinta cuando el mismo reforzador
es entregado despus de que pase un lapso importante de tiempo. La demo
ra del reforzamiento ocurre cuando existe un perodo de tiempo entre la
respuesta que da lugar al reforzador y la entrega posterior del mismo. En
funcin de las circunstancias, la demora del reforzamiento puede disminuir
o aumentar la conducta, o incluso no modificarla respecto al reforzamiento
no demorado. Adems, el mismo valor de la demora puede tener diferentes
efectos en funcin de otros parmetros, tanto de la misma demora como de
las condiciones de mantenimiento del reforzamiento (Shahan y Lattal, 2005).
Una cuestin muy importante que hay que tener en cuenta a la hora de estu
diar los efectos de la demora es obtener una lnea base de respuesta estable a
partir de la cual poder observar los efectos de la presentacin demorada del
reforzador. Cuando la lnea base es estable y se impone una demora, normal
mente sta da lugar a una reduccin de la respuesta, sin embargo, incluso
en estas condiciones no siempre eso es as, ya que en un primer momento
incluso puede ocurrir un aumento. En conclusin, los efectos de la demora
del reforzamiento deben analizarse desde una perspectiva en la que se con
sidere ms como un proceso dinmico resultante de las acciones directas o
indirectas de distintas variables en la conducta que de la influencia de un
simple parmetro esttico del reforzamiento (Lattal, 2010).
La mayora de las teoras asociativas del aprendizaje defienden que dos
eventos deben ser contiguos para que puedan ser asociados. Una forma
de evitar los efectos de la demora en la entrega del reforzador consiste en
marcar la respuesta haciendo que esta pueda diferenciarse de otros eventos
que ocurren durante el perodo de demora. La presentacin de un estmulo
contingente a la respuesta convierte esa respuesta en un evento significa
tivo. Los efectos del procedimiento de marcado (Lieberman, Mclntosh
y Thomas, 1979) fueron inicialmente descritos utilizando un diseo expe
rimental en el que los animales fueron asignados a dos grupos al azar: el
grupo marcado (experimental) y el grupo no marcado (control). Los anima
les deban realizar una tarea como la que se muestra en la (figura 4.6) que
consista en que si los animales pasaban por el brazo lateral negro reciban
una bolita de comida en la caja meta. En el momento en que los animales
realizaban la eleccin (pasar al brazo negro o al brazo blanco) los animales
del grupo marcado fueron cogidos por el experimentador y trasladados a la
198

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

Figura 4.6 Esquema del instrumento utilizado para el procedimiento de marcado.

-- No marcado

Marcado

Bloques de 10 ensayos

Figura 4.7 Porcentaje de


respuestas correctas en
la primera eleccin en
bloques de 10 ensayos para
cada grupo. Adaptado de
Lieberman, Mclntosh y
Thomas, 1979.

caja de demora, sin embargo, a los animales de grupo control se les abri
la puerta a la caja de demora y se les dej pasar libremente. Tal como est
planteado el diseo, los investigadores trataron a los dos grupos de forma
idntica, salvo en el momento en que los animales realizaban la eleccin
de la respuesta. Como se muestra en la figura 4.7, los sujetos del grupo
marcado mostraron un mayor nmero de elecciones correctas a lo largo
de los ensayos, llegando a un 90% en el ltimo de los bloques, mientras
que el grupo control slo mostr la ejecucin correcta en un 50% de los
ensayos. La explicacin que dieron los autores a estos resultados es que la
manipulacin de los animales posterior a la respuesta de eleccin provoca
un marcado de la respuesta de eleccin en la memoria de los sujetos y que
esto hace ms probable recuperar esta respuesta cuando los sujetos reci
ben la recompensa despus de la demora. Otra posible explicacin es que
el marcado pudiese estar operando a modo de reforzador secundario, sin
199

P s ic o l o g a

d e l a p r e n d iz a j e

embargo, esto no sera as desde el momento en que el estmulo se present


tanto tras la elecciones correctas como tras las incorrectas, por lo que si
fuese debido al reforzamiento secundario deberan aumentar ambas res
puestas, las correctas y las incorrectas.
4.6. Devaluacin del reforzador
Una forma de demostrar que en el condicionamiento operante se apren
den asociaciones entre la respuesta y la consecuencia es utilizando el proce
dimiento de devaluacin del reforzador. El procedimiento consiste en aso
ciar al reforzador que se est utilizando (comida, por ejemplo) un estmulo
o evento de naturaleza contraria (en experimentos con animales, podra ser
una sustancia aversiva como el cloruro de litio). Una forma de llevar a cabo
este procedimiento es utilizando una caja de condicionamiento operante
con dos palancas. En la primera fase del experimento, la presin de cual
quiera de las dos palancas da lugar a la obtencin de una bolita de comida,
que en el caso de que el animal presione la palanca A tiene sabor a naranja
y en el caso de que presione la palanca B sabor a fresa. Esta primera fase da
lugar a que los animales presionen indistintamente ambas palancas, si no
tienen preferencia previa por alguno de los sabores. En una segunda fase,
las bolitas de comida de uno de los sabores, por ejemplo la del sabor a fresa,
se emparejan fuera de la caja de condicionamiento con la sustancia aversi
va. Finalmente, en una tercera fase los animales vuelven a ser introducidos
en la caja de condicionamiento operante para determinar la preferencia de
respuesta. El efecto resultante de este procedimiento es una disminucin de
la respuesta operante en la palanca que da lugar a la entrega del reforzador
asociado a la sustancia aversiva (en nuestro caso la presin de palanca B,
que entregaba bolitas de comida con sabor a fresa), aunque la respuesta en
esta palanca no haya sido nunca contingente al estmulo aversivo.
En un experimento con ratas para demostrar el fenmeno de la deva
luacin del reforzador (Colwill y Rescorla, 1985), los animales disponan
de dos formas diferentes de emitir una respuesta que daban lugar a dos
reforzadores tambin distintos. Mediante la presin de una palanca obte
nan bolitas de comida y tirando de una cadena obtenan una pequea can
tidad de agua con azcar. Posteriormente se les dispens a los animales de
forma no contingente, ya que la palanca y la cadena no estaban disponibles,
las bolitas de comida y el agua con azcar, y a la mitad de las ratas se les
200

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

inyect una solucin de cloruro de litio para producirles malestar. Cuando


los animales fueron dispuestos de nuevo en las cajas de condicionamiento,
los investigadores observaron que las ratas que recibieron el cloruro de
litio despus de recibir la comida o el agua con azcar presionaron mucho
menos la palanca o tiraron menos de la cadena que los animales a los que
no se les inyect el cloruro de litio. Los resultados de este experimento
sugieren que los animales aprenden acerca de las consecuencias de su con
ducta durante el condicionamiento operante.
Sin embargo, en determinadas ocasiones la ejecucin de una respuesta
instrumental puede llegar a automatizarse si se entrena o practica de forma
masiva. En este sentido, algunos autores han diferenciado entre lo que sera
la accin instrumental, relacionada con aquellas respuestas que son modi
ficadas por el valor de sus consecuencias, de aquellas cuya ejecucin no
depende del valor actual del reforzador a las que se les dara el nombre de
hbitos (Dickinson y Balleine, 1993). Esta diferenciacin se ha demostrado
de forma emprica mediante experimentos de laboratorio en los que se ha
visto que la extensin del entrenamiento puede hacer que una conducta se
automatice y que no sea controlada por el valor de las consecuencias toman
do forma de hbito rgido. En un estudio utilizando el procedimiento de
devaluacin del reforzador se entrenaron dos grupos de ratas para presionar
una palanca utilizando bolitas de sacarosa como reforzador (Adams, 1982).
En uno de los grupos, el entrenamiento se limit a 100 respuestas reforza
das y en el otro grupo, las ratas obtuvieron hasta 500 reforzadores. Tras este
entrenamiento los investigadores inyectaron cloruro de litio a la mitad de los
animales de cada grupo. En la fase de prueba se observ que la devaluacin
del reforzador slo tuvo un efecto claro en los animales con entrenamiento
corto, mostrando muy poco efecto de devaluacin del reforzador los ani
males que recibieron un entrenamiento largo. Estos resultados indican que
la prctica prolongada da lugar al establecimiento de una ejecucin de la
conducta mucho ms rgida, menos deliberada y que dependera menos de
las consecuencias de la misma. Siguiendo este razonamiento, determinadas
conductas compulsivas, como puede ser la bsqueda de drogas, dependeran
de mecanismos de aprendizaje diferentes a los que intervienen durante la
adquisicin de la conducta (Zapata, Minney y Shippenberg, 2010). En este
sentido, distintos autores han implicado los procesos de aprendizaje relacio
nados con la formacin de hbitos en la transicin entre el uso recreativo y el
uso compulsivo de las drogas que caracteriza la adiccin (Everitt et al., 2008).
201

P s ic o l o g a

d e l a p r e n d iz a j e

Fenmenos del condicionamiento operante (Resumen)


En este apartado se han tratado algunos fenmenos relacionados con el
condicionamiento operante que por su inters o repercusin es importante
conocer. La conducta supersticiosa ocurre cuando una respuesta es reforzada
por la aparicin azarosa de un reforzador y fue explicada por Skinner mediante
la idea del reforzamiento accidental o adventicio. Esta explicacin fue puesta
en duda por investigaciones posteriores que sealaron que las respuestas de
los animales podran estar agrupadas en conductas de nterin y conductas
terminales dependiendo del intervalo temporal en el que sucediesen con res
pecto a la entrega del reforzador. Otro interesante fenmeno estudiado en este
apartado es el de la deriva instintiva que da lugar al concepto de relevancia
o pertinencia en el condicionamiento instrumental, y seala que ciertas res
puestas se relacionaran de modo natural con determinados reforzadores como
consecuencia de la historia evolutiva del animal, por lo que es ms fcil de con
dicionar unas respuestas que otras dependiendo del reforzador que utilicemos.
El efecto de la recompensa en la conducta depende de la experiencia pasa
da con otros reforzadores y el fenmeno de contraste conductual se basa en
el hecho de que la efectividad de un reforzador para controlar una conducta
puede verse modificada por la experiencia previa con el mismo reforzador
cuando ste es de una magnitud o calidad diferente. El contraste conductual
positivo se refiere al aumento de la respuesta debido a una recompensa favo
rable como resultado de la experiencia anterior con una recompensa menos
favorable y el contraste conductual negativo a la disminucin de la respuesta
que tiene lugar cuando se presenta una recompensa desfavorable con respecto
a una experiencia anterior con una consecuencia ms favorable.
La indefensin aprendida es un fenmeno que tiene que ver con la percep
cin que tienen los sujetos sobre la controlabilidad de las consecuencias de la
propia conducta. El efecto de indefensin aprendida consiste en que cuando
los animales son sometidos a situaciones en las que tienen poco o ningn con
trol desarrollan una reaccin emocional en la que manifiestan un comporta
miento pasivo ante dichas circunstancias o circunstancias parecidas.
Un factor muy importante que influye en el aprendizaje por condiciona
miento operante es el de la demora del reforzamiento. La demora del refor
zamiento ocurre cuando existe un perodo de tiempo entre la respuesta que da
lugar al reforzador y la entrega posterior del mismo. La demora en la entrega
del reforzador dificulta el aprendizaje en los procedimientos de condiciona
miento instrumental y el procedimiento de marcado es una forma de evitar
los efectos de la demora en la entrega del reforzador. Este procedimiento con
siste en marcar la respuesta haciendo que sta pueda diferenciarse de otros
eventos que ocurren durante el perodo de demora.

202

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

Finalmente, se ha visto como el procedimiento de devaluacin del refor


zador consiste en asociar al reforzador que se est utilizando un estmulo o
evento de naturaleza contraria. El efecto resultante de este procedimiento es
una disminucin de la respuesta operante que ha sido reforzada con el reforza
dor devaluado, aunque esta respuesta nunca haya sido contingente al estmulo
aversivo.

203

P s ic o l o g a

d e l a p r e n d iz a j e

T r m in o s

destacados

Castigo: Procedimiento de condicionamiento instrumental en el que se impo

ne una contingencia positiva con un evento de naturaleza aversiva. Este


procedimiento tiene como resultado la disminucin de la probabilidad de
emisin de dicha respuesta.
Castigo negativo o entrenamiento de omisin: Procedimiento de condicio
namiento operante en el cual se impone una contingencia negativa con una
consecuencia de naturaleza apetitiva, dando lugar a una disminucin de la
probabilidad de aparicin de dicha respuesta
Clase de estmulos: Estmulos que varan en distintas caractersticas fsicas
pero que tienen el mismo efecto sobre la conducta.
Clase de respuestas: Cualquier forma de ejecucin de una conducta que tiene
una funcin similar.
Conducta supersticiosa: Conducta que es reforzada por la aparicin azarosa
de un reforzador. Fue explicada por Skinner mediante la idea del reforza
miento accidental o adventicio.
Contraste conductual negativo: Disminucin de la respuesta que tiene lugar
cuando se presenta una recompensa desfavorable con respecto a una expe
riencia anterior con una consecuencia ms favorable.
Contraste conductual positivo: Aumento de la respuesta debido a una recom
pensa favorable como resultado de la experiencia anterior con una recom
pensa menos favorable.
Control por el estmulo: Trmino que se refiere a como los estmulos que
preceden una conducta pueden controlar la ocurrencia de esa conducta.
Deriva instintiva: Tendencia de algunos animales a mostrar respuestas ins
tintivas que compiten con la respuesta requerida cuando son entrenados
mediante procedimientos de condicionamiento operante.
Devaluacin del reforzador: Procedimiento que consiste en asociar al refor
zador que se est utilizando un estmulo o evento de naturaleza contraria.
El efecto resultante de este procedimiento es una disminucin de la res
puesta operante que ha sido reforzada con el reforzador devaluado, aunque
esta respuesta nunca haya sido contingente al estmulo aversivo.
204

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

Efecto de indefensin aprendida: Consiste en que cuando los animales son

sometidos a situaciones en las que tienen poco o ningn control desarrollan


una reaccin emocional en la que manifiestan un comportamiento pasivo
ante dichas circunstancias o circunstancias parecidas.
Escape: Procedimiento de condicionamiento operante en el qiie la respuiesta
instrumental detiene o elimina un evento o consecuencia de naturaleza
aversiva y tiene como resultado un aumento de la tasa de respuesta.
Evitacin: Procedimiento de condicionamiento operante en el que la respuesta
instrumental previene la aparicin de un evento o consecuencia de natura
leza aversiva y tiene como resultado un aumento de la tasa de respuesta.
Extincin: Procedimiento mediante el cual una respuesta que previamente se
reforzaba se deja de reforzar, es decir, se deja de presentar la consecuencia
que se presentaba anteriormente cuando la respuesta operante era emitida.
Ley del Efecto: Principio de Aprendizaje enunciado por Thorndike De las
muchas respuestas dadas en la misma situacin, las que vayan acompaa
das o inmediatamente seguidas de satisfaccin para el animal, en igualdad
de condiciones, se conectarn ms firmemente con la situacin; de manera
que cuando sta vuelva a presentarse, volvern a presentarse con gran pro
babilidad.
Procedimiento de marcado: Es una forma de evitar los efectos de la demora
en la entrega del reforzador. Este procedimiento consiste en marcar la res
puesta haciendo que sta pueda diferenciarse de otros eventos que ocurren
durante el perodo de demora.
Reforzamiento positivo: Tambin llamado entrenamiento de recompensa, es
un procedimiento de condicionamiento instrumental en el que una conse
cuencia apetitiva se presenta de forma contingente a una respuesta y esto
tiene como resultado un aumento de la tasa de respuesta.
Reforzamiento secundario: Proceso por el que un estmulo o evento que
originalmente no es reforzante puede adquirir capacidad de reforzamiento
mediante la asociacin repetida con otro que era previamente reforzante.
Tasa de respuesta: Nmero de respuestas emitidas por unidad de tiempo.

205

P s ic o l o g a

d e l a p r e n d iz a j e

REFERENCIAS
C. D. (1982). Variations in the sensitivity of instrumental responding
to reinforcer devaluation. The Quarterly Journal of Experimental Psychology
Section B, 34, 77-98.
A l f e r i n k , L. A.; C r o s s m a n , E. K. y C h e n e y , C. D. (1973). Control of responding
by a conditioned reinforcer in the presence of free food. Animal Learning &
Behavior, 1, 38-40.
A m sel, A. (1962). Frustrative nonreward in partial reinforcement and discrimination learning: some recent history and a theoretical extensin. Psychol Rev, 69,
306-328.
(1992). Frustration theory : an analysis of dispositional learning and memoiy.
Cambridge ; New York: Cambridge University Press.
A zrin, N. H.; H u tc h in s o n , R. R. y H ake, D. F. (1966). E x tin ctio n -in d u ced aggression. J Exp Anal Behav, 9, 191-204.
B a x t e r , D. A. y B y r n e , J. H. (2006). Feeding behavior of Aplysia: a model system
for comparing cellular mechanisms of classical and operant conditioning.
Learn Mem, 13, 669-680.
B e r m e j o , R.; A l l a n , R. W.; H o u b e n , A. D.; D e ic h , J. D. y Z e i g l e r , H. P. (1989).
Prehensin in the pigeon. I. Descriptive analysis. Exp Brain Res, 75, 569-576.
B o u t o n , M. E. (1993). Context, time, and memory retrieval in the interference paradigms of Pavlovian learning. Psychol Bull, 114, 80-99.
B o u t o n , M. E.; T o d d , T. P.; V u r b ic , D. y W i n t e r b a u e r , N. E. (2011). Renewal after
the extinction of free operant behavior. Learn Behav, 39, 57-67.
B r e l a n d , K. y B r e l a n d , M. (1961). The misbehavior of organisms. American
Psychologist, 16, 681-684.
C o lw ill, R. M. y R e s c o r la , R. A. (1985). Postconditioning devaluation of a rein
forcer affects instrumental responding. Journal of Experimental Psychology:
Animal Behavior Processes, 11, 120-132.
C r e s p i, L. P. (1942). Quantitative variation of incentive and performance in the
white ral. American Journal of Psychology, 55, 467-517.
C holiz, M. (2010). Experimental analysis of the game in pathological gamblers: effect
of the immediacy of the reward in slot machines. J Gamhl Stud, 26, 249-256.
D ic k in s o n , A. y B a l l e i n e , B. (1993). Actions and responses: The dual psychology of
behaviour. en Eilan, N.; McCarthy, R. y Brewer, B. (eds.), SpatialRepresentaron.
Oxford: Oxford University Press.
Adams,

E veritt , B. J.; B elin , D.; E conomidou , D.; P elloux , Y.; D alley , J. W. y R obbins , T. W.
(2008). Review. N eu ral m e c h a n ism s u n d erly in g the vulnerability to develop

206

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

compulsive drug-seeking habits and addiction. Philos Trans R Soc Lond B Biol
Sci, 363, 3125-3135.

F a lls , W. A. (1998). E xtinction: A review of th eo ry a n d the evidence suggesting


th a t m e m o rie s are n o t erased w ith n o n re in fo rc e m e n t. Learning and behavior
therapy, 205-229.

G.; M c D o n a l d , N. y S im o n s, R. F. (2004). Error-related psychophysiology


and negative affect. Brain Cogn, 56, 189-197.
H e r r s t e i n , E. J. (1966). Superstition: A corollary of the principies of operant conditioning. In W. K. Honig (Ed.), Operant behavior: areas of research and application (pp. 33-51). New York: Appleton-Century-Crofts.
I s o n , J. R. (1962). Experimental extinction as a function of number of reinforcements. Journal of Experimental Psychology, 64, 314-317.
K e in a n , G. (2002). The effects of stress and desire for control on superstitious beha
vior. Personality and Social Psychology Bulletin, 28, 102-108.
K e l l e h e r , R. T. y G o l l u b , L. R. (1962). A review of positive conditioned reinforcement. J Exp Anal Behav, 5, 543-597.
Klein, B. G., LaMon, B., & Zeigler, H. P. (1983). Drinking in the pigeon (Columba
livia): Topography and spatiotemporal organization. Journal of Comparative
Psychology, 97, 178-181.
L a t t a l , K. A. (2010). Delayed reinforcement of operant behavior. J Exp Anal Behav,
93, 129-139.
L i e b e r m a n , D. A.; M c I n t o s h , D. C. y T h o m a s , G. V. (1979). Learning when reward
is delayed: a marking hypothesis. J Exp Psychol Anim Behav Process, 5, 224-242.
L o r e n z e t t i , F. D.; B a x t e r , D. A. y B y r n e , J. H. (2011). Classical conditioning analog enhanced acetylcholine responses but reduced excitability of an identified
neuron. J Neurosci, 31, 14789-14793.
M a s o r o , E. J. (1992). Retardation of aging processes by food restriction: an expe
rimental tool. Am J Clin Nutr, 55, 1250S-1252S.
(2005). Overview of caloric restriction and ageing. Mech Ageing Dev, 126, 913-922.
M e l l g r e n , R. L. (1972). Positive and negative contrast effects using delayed rein
forcement. Learning and Motivation, 3, 185-193.
M i t c h e l l , E. N .; M a r s t o n , H. M .; N u t t , D. J. y R o b i n s o n , E. S. (2012). Evaluation
of an operant successive negative contrast task as a method to study affective
State in rodents. Behav Brain Res, 234, 155-160.
M y e r s , J. L. (1958). Secondary reinforcement: a review of recent experimentation.
Psychol Btill, 55, 284-301.
N e v in , J. A. (1988). Behavioral momentum and the partial reinforcement effect.
Psychological Bulletin, 103, 44-56.
H a jc a k ,

207

P s ic o l o g a

d e l a p r e n d iz a j e

C. (1993). Helpless behavior. Behav Res Ther, 31, 289-295.


M. E. y M a i e r , S. F. (1967). Failure to escape traumatic shock. J Exp
Psychol, 74, 1-9.
S e lig m a n , M. E. P. (1975). Helplessness: on depression, development, and death. San
Francisco: W. H. Freeman.
S e n k o w s k i, P. C. (1978). Variables affecting the overtraining extinction effect
in discrete-trial lever pressing. Journal of Experimental Psychology: Animal
Behavior Processes, 4, 131-143.
S h a h a n , T. A. y L a t t a l , K. A. (2005). Unsignaled delay of reinforcement, relative
time, and resistance to change. J Exp Anal Behav, 83, 201-219.
S h e t t l e w o r t h , S. J. (1975). Reinforcement and the organization of behavior in
golden hamsters: Hunger, environment, and food reinforcement. J Exp Psychol
Anim Behav Process, 104, 56-87.
S k i n n e r , B. F. (1938). The behavior of organisms. New York: Appleton-CenturyCrofts.
(1948). Superstition in the pigeon. Journal of Experimental Psychology, 38, 168172.
(1953). Science and human behavior. New York: Macmillan.
(1971). Beyond freedom and dignity ([ 1st ed.). New York: Knopf.
S t a d d o n , J. E . y S im m e lh a g , V. L. (1971). The supersitition experiment: A
reexamination of its implications for the principies of adaptive behavior.
Psychological Review, 78, 3-43.
T h o r n d i k e , E. L. (1898). Animal intelligence: an experimental study of the
associative processes in animals. Psychological Review Monograph, 2 (Whole
N.8).
(1911). Animal intelligence : experimental studies. New York: The Macmillan
company.
T o m b a u g h , T. N. (1967). The overtraining extinction effect with a discrete-trial barpress procedure. J Exp Psychol, 73, 632-634.
W e i n d r u c h , R. (1989). Dietary restriction, tumors, and aging in rodents. J Gerontol,
44, 67-71.
(1996). The retardation of aging by caloric restriction: studies in rodents and
primates. Toxicol Pathol, 24, 742-745.
W e i n d r u c h , R.; W a l f o r d , R. L.; F l i g i e l , S. y G u t h r i e , D. (1986). The retardation of
aging in mice by dietary restriction: longevity, cncer, immunity and lifetime
energy intake. J Nutr, 116, 641-654.
W e n z l a f f , R. M. y G r o z i e r , S. A. (1988). Depression and the magnification of fai
lure. J Abnorm Psychol, 97, 90-93.
P e te rso n ,
S e lig m a n ,

208

P r in c ip io s

b s ic o s d e l c o n d ic i o n a m i e n t o o p e r a n t e

J. y L i e r l e , D. (1986). Effects of stress controllability, immunization,


and therapy on the subsequent defeat of colony intruders. Animal Learning &
Behavior, 14, 305-314.
Z a p a ta , A.; M in n e y , V. L. y S h i p p e n b e r g , T. S. (2010). Shift from Goal-Directed to
Habitual Cocaine Seeking after Prolonged Experience in Rats. The Journal of
Neuroscience, 30, 15457-15463.
Z im m e rm a n , D. W. (1963). Functional laws and reproducible processes in behavior.
Psychological Record, 13, 163-173.

W illia m s,

209

T em a 5

PROGRAMAS Y TEORAS
DEL REFORZAMIENTO
Ricardo Pelln Surez de Puga

1. Programas de reforzamiento .............................................................


1.1. Programas bsicos de reforzamiento .........................................
1.1.1. Programas de razn frente a programas de intervalo:
funciones de retroalimentacin ..........................................
1.2. Programas de reforzamiento diferencial de tiempos entre
respuestas ..........................................................................................
1.2.1. Teora del reforzamiento diferencial de los tiempos entre
respuestas ...............................................................................
1.3. Programas compuestos de reforzamiento ................................
1.3.1. Programas alternantes y secuenciales: el control por el
estmulo y el reforzamiento condicionado .......................
1.3.2. Programas simultneos: programas concurrentes
y programas combinados ....................................................

217
217

2. Conducta de eleccin ...........................................................................


2.1. La ley de igualacin ........................................................................
2.2. Maximizacin: eleccin entre programas concurrentes
de razn ..............................................................................................
2.3. Igualacin temporal .......................................................................
2.4. Ley generalizada de la igualacin ...............................................
2.5. Teoras de la igualacin ................................................................
2.6. Impulsividad y autocontrol: la eleccincon compromiso ......
2.7. La nocin de valor de los reforzadores ......................................
2.8. La tasa de respuesta en relacin a la ley de igualacin .........

238
239

225
230
231
233
233
236

241
243
244
251
254
257
259
211

P s ic o l o g a

d e l a p r e n d iz a j e

3. La naturaleza de la asociacin en el aprendizaje


instrumental ............................................................................................ 261
4. Reglas de ejecucin operante ............................................................ 266
4.1. Teora de la probabilidad diferencial ......................................... 267
4.2. Teora de la privacin de respuesta ............................................ 270
Referencias .................................................................................................... 280

212

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

C o n o c im ie n t o s p r e v i o s

Castigo: Procedimiento del condicionamiento operante por el que las conse

cuencias de la conducta tienen como resultado la disminucin de la proba


bilidad de emisin de dicha conducta, bien sea a travs de la presentacin
contingente de consecuencias aversivas o de la retirada de consecuencias
de naturaleza apetitiva.
Conducta supersticiosa: Conducta quie es reforzada por la aparicin azaro
sa de un reforzador. Fue explicada por B. F. Skinner mediante la idea del
re forzamiento accidental o adventicio. Otros autores la atribuyen a factores
filogenticos.
Conductismo: Trmino que hace referencia a la teora psicolgica por la que
se considera a la conducta como objeto de estudio en s misma y que ha
tomado diferentes interpretaciones (conductismos) a lo largo de la historia,
destacando la distincin clsica entre neoconductismo (como en C. L. Hull)
y conductismo radical (B. F. Skinner), o la ms actual entre conductismo
molar y molecular.
Constructo hipottico: Entidad hipottica que se refiere a un concepto no
observacional pues por definicin los constructos no se pueden demostrar,
no son directamente manipulables y se infieren de la observacin de la
conducta.
Efectos de contraste: Disminuciones o aumentos de la respuesta debido a
la experiencia anterior (o simultnea) con recompensas, respectivamente,
ms o menos favorables a la actualmente experimentada.
Estmulos discriminativos: Estmulos que han adquirido cierto grado de
control sobre la emisin de la conducta en virtud de que en su presencia
la conducta ha sido seguida de consecuencias reforzantes o castigadoras.
Reforzador: Evento ambiental (que puede ser un estmulo o la realizacin
de una actividad) que programado de forma contingente a una respuesta
incrementa su probabilidad futura.
Reforzador (demora del): Manipulacin experimental por la que se altera
el intervalo temporal entre la emisin de la respuesta y la consecucin del
reforzador, resultando en una menor efectividad de los reforzadores cuanto
ms demorados (principio de contigidad temporal).
213

P s ic o l o g a

d e l a p r e n d iz a j e

Reforzador (magnitud del): Manipulacin experimental por la que se altera la

cantidad de reforzador que se entrega como consecuencia de la respuesta,


de manera que normalmente resultan preferidos los reforzadores que sean
ms grandes.
Reforzamiento condicionado: Proceso por el que un estmulo o evento que
originalmente no es reforzante puede adquirir capacidad de reforzamiento
mediante la asociacin repetida con otro que era previamente reforzante.
Reforzamiento positivo: Tambin llamado entrenamiento de recompensa,
es un procedimiento del condicionamiento operante por el que una conse
cuencia apetitiva se presenta de forma contingente a una respuesta y esto
tiene como resultado un aumento de la respuesta.
Respuesta operante: Accin que lleva aparejada una consectiencia, que puede
ser apetitiva o aversiva, y que se define por su funcin ms que por su topo
grafa.
Tasa de reforzamiento: Nmero de reforzadores obtenidos por unidad de
tiempo.
Tasa de respuesta: Nmero de respuestas emitidas por unidad de tiempo.
Variable interviniente o intermedia: Es una variable que no se refiere a
factores de causa o efecto pero que modifica (interviene) en las relaciones
de otras variables, lo que aplicado a la teora psicolgica sera suponer la
intervencin de procesos no directamente observables pero que se pueden
hacer operacionales con el fin de ser manipulados experimentalmente.

214

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

O b je t iv o s

Conocer los principales programas de reforzamiento, tanto bsicos como


compuestos.
Distinguir los programas de razn y de intervalo, teniendo en cuenta si son
fijos o variables.
Conocer los patrones conductuales que generan los distintos programas de
re forzamiento.
Conocer los programas de reforzamiento diferencial de tasas de respuesta y
la teora del reforzamiento diferencial de los tiempos entre respuestas.
Conocer los fundamentos de la ley de igualacin, las variables que relaciona
y cmo predice la conducta en diferentes circunstancias de eleccin.
Conocer los principales estudios sobre autocontrol y el uso de programas
concurrentes encadenados.
Conocer las relaciones asociativas estmulo-respuesta y estmulo-consecuencia como potencialmente responsables del aprendizaje instrumental.
Conocer el principio de Premack y los principales conceptos relacionados
con la regulacin conductual, como el punto de bienestar y la distribucin
de la respuesta.

215

1. PROGRAMAS DE REFORZAMIENTO
Los programas de reforzamiento han sido una de las reas de investiga
cin ms activas del condicionamiento operante, donde se puede apreciar
la relacin funcional existente entre el estmulo discriminativo, la respuesta
operante y el reforzador (Ferster y Skinner, 1957). Constituyen, pues, uno
de los determinantes ms importantes de la conducta y aqu explicaremos
sus principales caractersticas.
1.1. Programas bsicos de reforzamiento
La forma en que se programan los reforzadores contingentemente con
la emisin de una respuesta operante constituyen los programas de refor
zamiento. Cada uno de los programas de reforzamiento especifica una regla
que determina las condiciones en las que una respuesta puede ser reforza
da. Normalmente no se refuerzan todas las respuestas que emiten los suje
tos experimentales, tan slo algunas de ellas lo son. La conducta producida
en circunstancias como sta se dice que se ha aprendido bajo un programa
intermitente de reforzamiento, y el reforzamiento intermitente o parcial
es, de hecho, lo que generalmente mantiene todo comportamiento condi
cionado de forma operante. As, por ejemplo, no siempre que nos atraiga
una persona tendremos xito en nuestras proposiciones para establecer una
relacin personal. El reforzamiento parcial, en comparacin con el refor
zamiento continuo, produce un aprendizaje ms duradero, que posterior
mente resulta ms difcil de extinguir. La mayor resistencia a la extincin
despus del reforzamiento parcial ha sido motivo de un extenso trabajo
experimental (vase ms informacin en el Captulo 4), a la vez que se han
propuesto diferentes hiptesis explicativas para el efecto del reforzamiento
parcial en la extincin (como revisiones consultar Lewis, 1960; Robbins,
1971). El anlisis experimental de los programas de reforzamiento, sin em
217

P s ic o l o g a

d e l a p r e n d iz a j e

bargo, se ha centrado principalmente en sus efectos sobre la adquisicin,


por lo que ser en la adquisicin y no en la extincin donde consideraremos
los efectos diferenciales de los programas de reforzamiento (consultar las
revisiones de Morse, 1966; Zeiler, 1977).
Se han investigado muy diferentes formas de programar los reforzadores
de forma intermitente, habindose destacado que los programas principales
y ms bsicos de reforzamiento positivo intermitente se pueden clasificar en
dos grandes bloques: programas de razn y programas de intervalo. En pala
bras de Ferster y Skinner (1957), autores de un texto clsico que compila un
conjunto de experimentos sobre las diversas formas de programar la entrega
de los reforzadores: Un programa de re forzamiento puede definirse sin refe
rencia a sus efectos sobre la conducta. De esta manera, una respuesta puede
ser reforzada en base al tiempo que ha transcurrido desde que se administr
el reforzador precedente, o en base al nmero de respuestas que han sido
emitidas desde que se administr el anterior reforzador. Un programa dado
puede ser fijo o puede variar, ya sea al azar, ya sea de acuerdo con un plan.
Estas dos posibilidades suministran cuatro programas bsicos: intervalo fijo,
intervalo variable, razn fija y razn variable. Pero otras posibilidades exis
ten, as como muchas combinaciones de tales programas (p. 2).
Los programas de razn estipulan que se debe emitir un determinado
nmero de respuestas antes de que la ltima de ellas sea reforzada. Los
programas de intervalo establecen que debe pasar un determinado tiem
po desde la consecucin del reforzador anterior antes de que la respuesta
requerida sea de nuevo reforzada. El requisito del nmero de respuestas
en los programas de razn, o del tiempo transcurrido en los programas de
intervalo, es a partir de la ocurrencia del reforzador anterior (vase la cita
anterior de Ferster y Skinner).
Los programas de razn y de intervalo pueden a su vez clasificarse en
programas variables y programas fijos, resultando de esta combinacin, y
como se ha dicho antes, cuatro programas bsicos de reforzamiento: razn
fija, razn variable, intervalo fijo e intervalo variable.
En un programa de razn fija, el nmero de respuestas requerido para
que se administre el reforzador siempre es el mismo, de manera que consis
tentemente se tiene que dar el mismo nmero de respuestas para conseguir
cada reforzador. Los programas de razn fija se abrevian por la sigla RF
seguida de un nmero que indica el valor del nmero de respuestas requeri218

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

do, por ejemplo RF-50. El programa RF-1 es lo que anteriormente denomi


namos como reforzamiento continuo, al ser reforzada cada respuesta. Un
programa de razn variable requiere un nmero de respuestas que vara
de una ocasin a la siguiente de manera irregular alrededor de un nmero
promedio de respuestas por cada reforzador y se abrevian por la sigla RV,
de manera que por ejemplo en un programa RV-100 se conseguir el re
forzador si en promedio se han emitido cien respuestas, en unas ocasiones
ms y en otras menos, resultando 100 como valor medio.
Los programas de intervalo fijo son aquellos que, al mantener cons
tante el tiempo requerido para que se entregue el siguiente reforzador,
reforzarn la primera respuesta que ocurra despus de que haya transcu
rrido un tiempo siempre igual desde que se dispens el anterior reforzador;
mientras que los programas de intervalo variable son aquellos donde vara
la cantidad de tiempo necesaria que deber transcurrir entre un reforzador
y el siguiente antes de que una respuesta sea reforzada, dando lugar a un
valor promedio de intervalo entre reforzadores. Los programas de interva
lo, como los de razn, se pueden abreviar con las siglas IF e IV, respectiva
mente, seguidas del valor numrico que indica la cantidad de tiempo que
necesariamente debe transcurrir, por ejemplo IF 60-seg o IV 60-seg.
Cada uno de estos cuatro programas bsicos de reforzamiento produce
una ejecucin conductual caracterstica y diferente, que puede ser aprecia
da a simple vista examinando la forma cmo se distribuyen las respuestas a
lo largo del tiempo. Una forma de registrar las respuestas de manera auto
mtica y continuada es con un registrador acu
mulativo. El registrador acumulativo consiste Ejemplo
en un rollo de papel que, gracias a la accin de
Ejemplos cotidianos
un pequeo motor, gira a velocidad constante del funcionamiento de
a lo largo de un rodillo (hoy existen versiones los programas bsicos
de
reforzamiento
son
el
informticas que han sustituido a estos viejos trabajo a destajo (RF),
aparatos de registro). Sobre el papel se apoyan los juegos de azar (RV),
dos plumillas que van dibujando determinadas el tiempo dedicado a es
lneas a medida que ste avanza. Como se pue tudiar en base a fechas
de apreciar en la Figura 5.1., la primera plu programadas de examen
milla sirve para medir las respuestas del sujeto (IF) y el chequear repeti
damente
el
correo
elec
experimental. Cuando se registra una respues trnico mientras se est
ta, la pluma se mueve verticalmente una deter usando internet (IV).
minada distancia desde su posicin inicial. En
219

P s ic o l o g a

d e l a p r e n d iz a j e

la Figura 5.1. se ve cmo las respuestas se van acumulando a lo ancho del


papel (el eje de ordenadas), siendo el largo del mismo (el eje de abscisas),
el tiempo transcurrido. De esta forma se obtiene, acumulando, un registro
directo de la conducta del sujeto experimental en funcin del tiempo. En
los registros acumulativos resultantes se puede medir, por tanto, el nmero
de respuestas (veces que la pluma se mueve hacia arriba) y el nmero de
pausas (veces que la pluma no se mueve). Tambin se puede medir el tiem
po transcurrido entre una respuesta y la siguiente (TER: tiempo entre res
puestas) o el tiempo total empleado en responder o en estar sin responder,
as como la perseverancia, ndice que relaciona proporcionalmente ambos
periodos temporales (tiempo empleado en estar respondiendo dividido por
el tiempo que se ha estado sin responder). El resultado de registrar las res
puestas de esta manera es una curva acumulativa continua que refleja la
tasa de respuesta (el nmero de respuestas por unidad de tiempo) en cual
quier momento de un experimento de condicionamiento operante.
La capacidad del re
gistrador
acumulativo,
sin
Plumilla marcadora
Plumilla marcadora embargo, no se limita ex
de las respuestas
de los estmulos
discrimina tivos
clusivamente a registrar el
nmero de respuestas. Pue
de, al mismo tiempo, dejar
constancia de la ocurrencia
de otros sucesos ambien
Rollo de papel tales. Los reforzadores se
suelen indicar mediante un
Reforzadores'------
desplazamiento descenden
te de la misma plumilla
utilizada para registrar las
respuestas, resultando en
una pequea marca diago
nal en el papel. Una segun
da plumilla, fija a lo largo
de la base del papel, se
utiliza normalmente para
sealar la presentacin de
los estmulos discriminatiFigura 5.1. Dibujo esquemtico que representa
vos.
En
la
Figura
5.1.
tamun registrador acumulativo.
Respuestas

220

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

bin se pueden observar registros de los estmulos discriminativos y de los


reforzadores.
La observacin de la forma cmo se distribuyen las respuestas en un re
gistro acumulativo permite una lectura fcil de la tasa de respuesta y de los
cambios asociados a ella que ocurren en funcin del tiempo. Dado que el
papel avanza a una velocidad constante, cuando se responde rpidamente
(a una tasa alta de respuesta), el registro ser muy inclinado. Si por el con
trario, la tasa de respuesta fuera muy baja, el registro sera prcticamente
plano; resultando en un registro con una pendiente intermedia cuando la
tasa de respuesta sea de un valor medio. El registrador acumulativo, por
tanto, presenta ciertas ventajas con respecto a otras tcnicas de medida.
Se pueden medir las respuestas incluso cuando estas ocurren muy rpi
damente y registrar estructuras complejas de comportamiento sin perder
detalles de cambios relativamente pequeos en la conducta. Los registros
acumulativos proporcionan una medicin no contaminada de las respues
tas de los sujetos experimentales durante periodos prolongados de tiempo,
resultando que en cada uno de los programas de reforzamiento la ejecucin
conductual en los registros acumulativos es distintiva y peculiar. Aunque su
uso como forma de informar de resultados experimentales ha disminuido
en estos ltimos aos, es muy til en el trabajo diario del laboratorio por
las razones anteriormente sealadas.
En la Figura 5.2. se representan los registros acumulativos ms caracte
rsticos de los programas de RF, RV, IF e IV.
Los programas de RV (panel b) proporcionan tasas de respuesta muy
altas y constantes, que a veces se aproximan a los lmites de capacidad
fsica de los organismos. Los programas de IV (panel d) tambin propor
cionan tasas constantes de respuesta, aunque comnmente son de un valor
inferior a las producidas por los programas de RV. Ambos programas, por
consiguiente, y de manera contraria a los programas fijos, proporcionan un
ndice de perseverancia muy elevado.
La ejecucin en un programa de RF (panel a) se caracteriza inicialmente
por una tasa elevada de respuesta, que se mantiene desde la primera res
puesta despus de haber obtenido el reforzador hasta la siguiente respuesta
reforzada. Esta ejecucin alta y estable de conducta se desarrolla rpida
mente cuando la razn es relativamente pequea. Sin embargo, cuando la
razn es mayor, por ejemplo RF-50 como la representada en la Figura 5.2.,
221

P s ic o l o g a

d e l a p r e n d iz a j e

IV-60 seg

Figura 5.2. Registros acumulativos caractersticos de los programas bsicos de


condicionamiento operante. Para cada grfica, el eje vertical es el nmero de respuestas
y el eje horizontal el tiempo en segundos. El reforzador se indica por una ligera marca
diagonal, y en los programas de intervalo por las lneas verticales que interseccionan con
los tiempos en el eje de abcisas y en los programas de razn por las lneas horizontales
que interseccionan con el nmero de respuestas en el eje de ordenadas. RF: Razn Fija;
RV: Razn Variable; IF: Intervalo Fijo; IV: Intervalo Variable.

222

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

tambin se observa una pausa post-reforzamiento que se sigue de una tran


sicin casi instantnea a una tasa alta de respuesta posterior (la carrera de
la razn), lo que en ingls ha servido para describir la ejecucin conductual
en los programas de RF como de Break and Run (parada y carrera). La
duracin de la pausa post-reforzamiento en los programas de RF depende,
principalmente, del valor de la razn. Si el requisito de la razn fuese muy
elevado, se puede dejar de responder por completo, lo que se denomina
tensin de la razn.
La ejecucin en un programa de IF (panel c) se caracteriza por una
pausa post-reforzamiento ms o menos prolongada en funcin de la dura
cin del intervalo, y por una progresiva aceleracin posterior de la tasa de
respuesta en cada uno de los intervalos, de manera que la tasa mayor de
respuesta se produce cerca del final del intervalo. Esta pauta de conducta,
como la representada en la Figura 5.2. para un programa de IF-60 seg, es
frecuentemente referida como festoneado, para resaltar as la existencia
de cambios sistemticos en la tasa de respuesta. En los programas de IF,
la tasa global de respuesta no parece ser el mejor indicador de la ejecucin
conductual en estos programas de reforzamiento. Como se ha sealado, la
tasa de respuesta aumenta progresivamente en cada uno de los intervalos a
medida que avanza el tiempo, y estos cambios son lo genuinamente carac
terstico de los programas de IF. El patrn de respuestas en un programa
de IF refleja un proceso de discriminacin temporal, de manera que los
animales responden cuando subjetivamente consideran que es altamente
probable la consecucin del reforzador.
La diferencia fundamental entre los programas fijos (RF e IF) y los
variables (RV e IV) es que en los primeros, de forma contraria a los segun
dos, suele aparecer una pausa tras cada reforzamiento. La diferencia fun
damental entre un programa de RF y uno de IF es que en la ejecucin del
primero se pasa de la pausa post-reforzamiento a una tasa alta y estable de
respuesta, mientras que en IF se pasa de la pausa post-reforzamiento a una
aceleracin gradual en la tasa de respuesta hasta alcanzar una tasa alta al
final del intervalo.
En los programas de intervalo, una vez que la recompensa est disponible
(porque se ha cumplido el intervalo de tiempo estipulado), el sujeto puede
recibirla en cualquier momento a partir de entonces, con tal de que d la res
puesta requerida. Sin embargo, en muchas ocasiones esta disponibilidad del
223

P s ic o l o g a

d e l a p r e n d iz a j e

reforzador es limitada en el tiempo: se puede estipular un tiempo limitado


para conseguir el reforzador. Esta clase de restriccin del tiempo que est
disponible la recompensa (esperando a que se d la respuesta) se llama
duracin limitada. Las restricciones por duracin limitada se pueden apli
car tanto a los programas de intervalo fijo como a los de intervalo variable.
La duracin de la pausa post-reforzamiento que ocurre en los pro
gramas de RF se incrementa sistemticamente a medida que aumenta el
requisito de la razn (Felton y Lyon, 1966; Powell, 1968). De igual forma, la
duracin de la pausa post-reforzamiento est directamente relacionada con
la longitud del programa de IF, de manera que a mayor duracin del inter
valo mayor ser la pausa (p. ej., Zeiler y Powell, 1994). En los programas
de razn, a medida que se aumenta el requisito del nmero de respuestas,
se aumenta tambin el intervalo entre reforzadores, dado que se tarda ms
en completar las respuestas necesarias para conseguir el reforzador. Killeen
(1969) mostr que la duracin de la pausa post-reforzamiento en los pro
gramas de RF depende ms de la frecuencia de reforzamiento (que viene
determinada por el intervalo temporal entre los reforzadores) que del pro
pio requisito del programa en cuanto al nmero de respuestas a realizar.
En los programas de razn, la duracin de la pausa est determinada
ms por el programa que se va a completar que por el que ha ocurrido
inmediatamente antes, como se ha comprobado en estudios donde se han
utilizado programas mltiples de RF (Barn y Herpolsheimer, 1999; Crossman, 1968). En dichos estudios se han utilizado dos programas de RF de
diferente longitud, siendo el inicio de cada uno de ellos sealado por una
clave discriminativa distinta (un programa mltiple, como se ver ms
adelante). Los programas se pueden disponer en cuatro series secuenciales
distintas en base a la longitud corta o larga de la razn. As, las transiciones
de uno a otro programa de RF pueden ser: corta-corta, larga-larga, corta-larga, larga-corta. Si el programa que va a ocurrir es el responsable de la
longitud de la pausa, se deben esperar pausas ms largas en las secuencias
corta-larga y larga-larga que en las secuencias corta-corta y larga-corta, por
cuanto el requisito del programa que se tiene que completar es mayor en
los primeros casos que en los segundos. Si el programa que ya ha ocurrido
fuera el responsable de la pausa subsiguiente, las pausas ms largas de
beran ocurrir cuando el programa precedente hubiera sido una RF larga,
como en las secuencias larga-larga y larga-corta. Los resultados parecen
comprobar que la longitud de la pausa post-reforzamiento est mejor pre224

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

dicha por el programa de RF que va a ocurrir que por el que ya ha ocurrido,


y esto puede ser debido a que las RF ms largas incrementan la separacin
entre las respuestas iniciales y el reforzador que ocurre al final de la serie
de respuestas, de manera que es ms contiguo con las ltimas respuestas
que con las primeras (Mazur, 1998). En los programas de intervalo, la pau
sa post-reforzamiento tiende a ajustarse proporcional y rpidamente a los
cambios en la frecuencia de reforzamiento (p. ej., Higa, Wynne y Staddon,
1991; Lejeune, Ferrara, Simons y Wearden, 1997).
Aunque en principio pueda parecer paradjico, las variables de control
sobre la longitud de la pausa post-reforzamiento no son tan diferentes en
los programas de intervalo y en los programas razn, y eso a pesar de que
en los programas de razn el dejar de responder lleva a una prdida efectiva
de reforzadores (cuanto ms rpido se responda ms reforzadores se ob
tendrn), siendo la frecuencia de reforzamiento y el programa que se acaba
de iniciar determinantes fundamentales. Son en todos los aspectos los
programas de razn y de intervalo explicables por los mismos mecanismos?
1.1.1. Programas de razn frente a programas de intervalo:
funciones de retroalimentacin
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de res
puesta suele ser mayor en los programas de razn que en los de intervalo
(Baum, 1993; Catania, Matthews, Silverman y Yohalem, 1977; Col, 1994;
Peele, Casey y Silberberg, 1984). Esto se ha investigado mediante un proce
dimiento que asigna un valor de intervalo a un programa de reforzamiento
en funcin de lo que hayan tardado los animales en completar previamente
un programa de razn (midiendo el tiempo que les haya llevado realizar
todas las respuestas requeridas: vase posteriormente la descripcin de
programa entrelazado en el Apartado 1.3.2.). De esta manera los programas
de intervalo y de razn se equiparan en cuanto al nmero de reforzadores
obtenidos y en cuanto a la distribucin de los mismos. En la Figura 5.3. se
representan registros tpicos de programas de RV e IV acoplados de esta
manera (las lneas discontinuas verticales indican el momento de ocurren
cia de los reforzadores, que como se puede ver coinciden en los dos pro
gramas) y, como se puede apreciar, el programa de RV gener una tasa de
respuesta mucho ms alta que el programa de IV.
225

P s ic o l o g a

d e l a p r e n d iz a j e

Figura 5.3. Registros acumulativos de programas de razn variable e intervalo variable


acoplados en cuanto a la frecuencia y patrn de reforzamiento (indicado por las marcas
diagonales en los registros y por las lneas verticales discontinuas que los relacionan).
(Adaptado de Benjumea, S., Programas de reforzamiento y conducta de eleccin, en
Pineo, O., Vadillo, M.A., y Matute, H. Psicologa del aprendizaje, Badajoz: Abecedario,
2007).

En los programas de intervalo, la tasa de respuesta no influye directa


mente sobre la frecuencia de administracin de los reforzadores (la tasa
de reforzamiento), mientras que la tasa de reforzamiento vara de manera
directa con los cambios en la tasa de respuesta en los programas de razn
(comparar las lneas verticales que interseccionan con el eje de abscisas
en los paneles c y d de la Figura 5.2., con las lneas horizontales que inter
seccionan con el eje de ordenadas en los paneles a y b). Una explicacin
de estas diferencias es que los programas de intervalo (particularmente
IV) tienden a reforzar TER largos, porque el mero paso del tiempo lleva
a un incremento en la probabilidad de reforzamiento. Dado que en los
programas de IV se generan TER largos, stos se reforzarn y llegarn a
predominar, reduciendo as la tasa de respuesta (Anger, 1956; Col, 1999).
Los programas de razn (particularmente RV) no presentan la tendencia de
reforzar diferencialmente un TER particular y, por tanto, no favorecen la
ocurrencia de TER largos. Es ms, dada la tendencia a responder en rfagas
226

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

de respuestas se hace ms probable que el reforzador acte sobre TER cor


tos. Baum (1989) ha denominado este tipo de explicacin como molecular,
porque un acontecimiento que puede ocurrir en un determinado momento,
en este caso el reforzamiento de un TER, es suficiente para producir un
efecto. El mecanismo explicativo implicado sera las variaciones momento
a momento en la contigidad respuesta-reforzador.
Una segunda forma de explicar las diferentes tasas de respuesta gene
radas por los programas de razn y de intervalo parte de que en los pro
gramas de RV existe una correlacin directa entre la tasa de respuesta y la
tasa de reforzamiento (Baum, 1973; Rachlin, 1978). La tasa de respuesta
tender a aumentar para maximizar la tasa de reforzamiento. En los pro
gramas de IV, sin embargo, no existe virtualmente ninguna relacin entre la
tasa de respuesta y la tasa de reforzamiento. Por mucho que se incremente
la tasa de respuesta, la tasa de reforzamiento sufrir poca variacin. Baum
(1989) ha denominado este tipo de explicacin como molar, porque las
variables efectivas la tasa de reforzamiento y su dependencia de la tasa
de respuesta son fenmenos temporalmente extensos, haciendo nfasis
en la correlacin frente a la contigidad. Las correlaciones entre la tasa
de respuesta y la tasa de reforzamiento han sido denominadas funciones
de retroalimentacin (vase posteriormente el apartado sobre conducta de
eleccin).
Las relaciones entre la conducta y el ambiente, como las establecidas
por los programas de reforzamiento, se pueden describir, por tanto, en
trminos de funciones de retroalimentacin (Baum, 1973, 1992; Nevin y
Baum, 1980). Una funcin de retroalimentacin es una descripcin de
la forma en que acta el ambiente, como la frecuencia de reforzamiento,
la magnitud del reforzador, o la demora al reforzador, en funcin de algn
aspecto de la ejecucin conductual. Las funciones de retroalimentacin no
asumen que la conducta est bajo el control de una variable independiente,
simplemente que la conducta afectar a algn aspecto del ambiente. Los as
pectos de la conducta y del reforzamiento son variables dependientes, que
se relacionan por funciones de retroalimentacin, pero que no necesaria
mente tienen por qu mantener una relacin causal (vase posteriormente
la ley de igualacin). En el condicionamiento operante, la obtencin de los
reforzadores programados depende de la emisin de la respuesta criterio,
y as la tasa de reforzamiento obtenida es tambin una medida de una eje
cucin eficiente.
227

P s ic o l o g a

d e l a p r e n d iz a j e

La funcin de retroalimentacin de la tasa de reforzamiento para la tasa


de respuesta en un programa de RF que requiera N respuestas por reforza
dor es R = B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa
de respuesta emitida. El resultado de aplicar esta ecuacin para diferentes
programas de RF se representa en el panel superior de la Figura 5.4. La
tasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de res
puesta realizada, y la proporcionalidad es el requisito de la razn. Cuanto
ms rpido se responda, mayor ser la tasa de reforzamiento, y el nmero
de respuestas requeridas para producir incrementos en la tasa de reforza
miento debe aumentar conforme se incrementa el requisito de la razn.
La misma ecuacin puede aplicarse para los programas de RV. Dado que
la ejecucin en los programas de RF y RV es diferente, deben existir otras
RF-10
3c

UO
aC/)
cu
uo
<N3
UO

RF-50
RF-100
RF-200

cu

P4

200

IV 30-s

3C
6U
oa
V)
io<-U
<
aN
UO
<D

i-H

IV 60-s
IV 120-s
IV 240-s

50

100

150

RespLiestas p o r m in uto

228

200

Figura 5.4. Funciones


de retroalimentacin
para varios programas
de RF (panel superior)
e IV (panel inferior) que
muestran las tasas de
reforzamiento obtenidas
en relacin con las tasas
de respuesta emitidas.

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

variables controladoras, para las que tambin se pueden postular funciones


de retroalimentacin.
Las funciones de retroalimentacin que relacionan la tasa de respuesta
y la tasa de reforzamiento son ms difciles de calcular para los programas
de intervalo. Por ejemplo, en los programas de IV (y tambin en los de IF)
la forma de la funcin es hiperblica, como las representadas en el panel
inferior de la Figura 5.4. Los cambios en la tasa de respuesta a tasas bajas
de respuesta afectarn mucho a las tasas de reforzamiento, pero cuando las
tasas de respuesta sean altas, los cambios en la tasa de respuesta tendrn
poco efecto sobre la tasa de reforzamiento. Cuanto ms corto es el progra
ma de IV existe un mayor margen para que pequeos incrementos en las
tasas bajas de respuesta produzcan incrementos sustanciales en la tasa de
reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta,
porque por mucho que se responda la tasa mxima de reforzamiento no
puede aumentar ms que el valor especificado por el programa de intervalo.
El que en los programas de intervalo existan reas aplanadas en las
funciones de retroalimentacin indica que el control diferencial de la con
ducta es bastante dbil, las contingencias de reforzamiento no empujan la
conducta en ninguna direccin. Esta es la diferencia fundamental entre
los programas de intervalo y los programas de razn, como se vio con
anterioridad. Si la tasa de reforzamiento tiene una funcin de retroalimen
tacin plana, o relativamente plana, con la conducta, el punto en el que
las variables dependiente e independiente llegan a la semiestabilidad es
bastante impredecible en base al conocimiento del valor actual de la tasa
de reforzamiento. Es por esta razn que los programas de intervalo generan
una mayor variabilidad entre sujetos en la tasa de respuesta, es decir, se
encontrarn ms diferencias individuales en la tasa de respuesta entre unos
animales y otros bajo programas de intervalo que de razn.
El ejemplo paradigmtico de una funcin de retroalimentacin plana
es el experimento de supersticin (vase el Captulo 4), donde no hay con
tingencia programada entre la ocurrencia o no de la respuesta y la presen
tacin del reforzador, ni por supuesto entre la tasa de respuesta y la tasa
de reforzamiento. Sin entrenamiento explcito, los animales desarrollan
conductas de carcter innato que son especficas de la especie (Skinner,
1948; Staddon y Simmelhag, 1971), que pueden considerarse resultado de
la operacin de historias conductuales remotas.
229

P s ic o l o g a

d e l a p r e n d iz a j e

Ejemplo
Ejemplo de progra
ma RDA sera contes
tar un cuestionario con
tiempo lmite para ca
da pregunta, de manera
que si no se respondiese
a una pregunta en el
tiempo especificado se
saltara a la siguiente,
forzndose a responder
antes de que venza el
tiempo estipulado. En
los partidos de tenis,
hay un tiempo mximo
para poder efectuar el
saque sin ser penaliza
do, esta limitacin de
tiempo tambin define
una contingencia RDA.
El ser impacientes con
la preparacin de la co
mida en el horno o en
la sartn puede hacer
que retirarla antes de
tiempo lleve a que se
tenga que volver a ini
ciar la accin de calen
tar la vitrocermica o el
horno, lo que retrasara
su preparacin final. Es
ta contingencia sera de
RDB. Ejemplos de pro
gramas RDB se pueden
encontrar tambin en
la coordinacin de los
pasos de baile o de los
instrumentos musicales,
cualquier aceleracin en
la conducta lleva a un
resultado no reforzado
(sino castigado).

230

1.2. Programas de reforzamiento diferen


cial de tiempos entre respuestas
Hemos visto en el apartado anterior que en la
diferente ejecucin en los programas de razn e
intervalo puede estar implicado el reforzamien
to diferencial de los TER. Para probar que el
reforzamiento diferencial de los TER es posible
se disearon programas de reforzamiento espe
cficos a tal fin, reforzando especficamente TER
cortos y TER largos. El diseo bsico de estos
programas es elegir un tiempo determinado
y reforzar nicamente los TER que sean ms
largos que ese tiempo, lo que viene a definir los
programas de Reforzamiento Diferencial de
tasas Bajas de respuesta (RDB), o los TER
ms cortos que el tiempo elegido, lo que viene
a definir los programas de Reforzamiento Di
ferencial de tasas Altas de respuesta (RDA).
Los programas RDB se diferencian de los
programas de IF en que, en los programas RDB
slo se refuerza la respuesta si ha transcurri
do un tiempo especificado desde la anterior
respuesta (un TER), mientras que en los pro
gramas de IF la respuesta es reforzada si ha
transcurrido un tiempo determinado desde el
anterior reforzador. Ello implica que en los pro
gramas RDB se aade una contingencia de cas
tigo para las respuestas que ocurren con ante
rioridad al tiempo especificado por el programa.
De esta forma, cualquier respuesta prematura
reinicia el intervalo de tiempo especificado por
el programa RDB. La nica manera de obtener
el reforzador es, por tanto, refrenar la respuesta
por un tiempo y emitirla una vez transcurrido
dicho intervalo temporal. Esta pequea mo
dificacin resulta en una ejecucin operante

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

radicalmente diferente de la que se obtiene bajo un programa de IF. Ntese


que la contingencia aadida para las respuestas que ocurren antes de trans
currir el tiempo especificado debe ser considerada como un procedimiento
de castigo, por cuanto la consecuencia de la respuesta es la presentacin de
un tiempo-fuera de reforzamiento positivo, pero para la obtencin del refor
zador sigue siendo necesario emitir la respuesta criterio (en el procedimiento
de entrenamiento de omisin, como se vio en el Captulo 4, el reforzador se
presenta contingente con la no ocurrencia de la respuesta criterio).
El reforzador tambin se puede hacer contingente con la respuesta si
esta ocurre antes de que haya transcurrido un tiempo determinado, lo que
define el programa RDA. Aqu se refuerzan especficamente TER cortos,
frente al reforzamiento diferencial de TER largos que ocurra en los progra
mas RDB. En concreto, en un programa RDA se obtendr el reforzador si se
responde antes de que transcurra un tiempo especificado, y las respuestas
que ocurran despus de ese intervalo temporal simplemente reinician el
intervalo (son diferencialmente castigadas). Es por ello que con este tipo
de programa de reforzamiento se obtienen tasas altas de respuesta. La
ejecucin en los programas RDA es ms fcil que en los programas RDB,
ya que es dificultoso el entrenamiento de reforzar especficamente una res
puesta pero que no se haga de forma repetida. Esta dificultad para esperar
a dar la respuesta en los programas RDB se puede deber a la induccin de
respuestas por el reforzamiento espaciado (Killeen y Pelln, 2013) y/o a la
degradacin del valor del reforzador por encontrarse precisamente demo
rado desde la emisin de la respuesta criterio (ver Mazur, 2001).
1.2.1. Teora del reforzamiento diferencial de los tiempos
entre respuestas
Como se ha visto, los reforzadores no slo refuerzan ejecutar Lina deter
minada respuesta, refuerzan tambin el hacerlo a un determinado ritmo, con
un determinado espaciamiento entre respuestas. La teora del reforzamiento
diferencial de los TER se basa en ese hecho para afirmar, como ya hemos
visto anteriormente, que en todos los programas de condicionamiento ope
rante se refuerzan especficamente TER de una duracin determinada. De
acuerdo con esta teora, en cada uno de los programas de reforzamiento se
debera reforzar el TER que ocurre precisamente antes de la administracin
231

P s ic o l o g a

d e l a p r e n d iz a j e

del reforzador, siendo este TER el tiempo que transcurre entre la penltima
respuesta emitida en un intervalo entre reforzadores y la ltima respuesta
que es la que directamente va seguida del reforzador. Los programas RDB y
RDA estn especficamente diseados para reforzar, respectivamente, TER
de duracin larga y de duracin corta. Sin embargo, en los programas de
reforzamiento operante el sujeto experimental puede normalmente respon
der libremente en los periodos entre reforzadores, pero de suyo el patrn y
la tasa de respuesta se ajustan al tipo de programa de reforzamiento que est
en funcionamiento. As, se ha visto que dependiendo de si los reforzadores
se administran de acuerdo a programas de razn o intervalo, cambiaba la
ejecucin de los sujetos experimentales, de la misma manera que la ejecucin
de los sujetos tambin depende de si estos programas son fijos o variables.
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto
es, sin pausas post-reforzamiento, con lo que la duracin de los TER es muy
homognea y es fcil atribuir dicha ejecucin al reforzamiento diferencial de
los TER de una duracin determinada (ms largos en los programas de inter
valo que en los de razn). Como apoyo a esta propuesta, Peele y cois. (1984)
demostraron que la ejecucin en los programas de IV y RV fue muy similar
cuando la longitud de los TER reforzados en los dos programas se igual a
travs de un procedimiento de acoplamiento como el descrito anteriormente
para las tasas de reforzamiento (Apartado 1.1.1.).
La ejecucin en los programas de RF e IF, sin embargo, no es tan homo
gnea como en los programas variables y normalmente se obtienen acusadas
pausas post-reforzamiento. De acuerdo con la aplicacin estricta de la teora
del reforzamiento diferencial de los TER, los TER reforzados en los progra
mas de RF e IF deberan ser siempre muy cortos, puesto que los reforzadores
se presentan al final cuando los sujetos estn respondiendo a una tasa alta.
Si el mecanismo implcito en determinar la ejecucin en los programas de
condicionamiento operante fuera exclusivamente el reforzamiento diferen
cial de los TER, no se tendra por qu esperar que los sujetos dejaran de
responder inmediatamente despus de haber conseguido el reforzador (la
pausa post-reforzamiento), dado que este intervalo de tiempo no es otra cosa
que un TER de muy larga duracin, aqul que transcurre entre la respues
ta reforzada y la primera respuesta despus del reforzador. Para solventar
esta dificultad se han ideado diferentes alternativas que lo que hacen es
considerar mecanismos adicionales que se combinen con el reforzamiento
diferencial de los TER y as explicar tanto la constancia en los programas
232

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

variables como las variaciones en tasas de respuesta observadas en los pro


gramas fijos. Por ejemplo, se puede aadir un mecanismo de discriminacin
temporal para explicar que las pausas post-reforzamiento que se obtienen en
los programas RF/IF obedecen a que los sujetos experimentales son capaces
de discriminar con bastante eficacia el momento de entrega del reforzador
(Lejeune, Richelle y Wearden, 2006) con lo que inmediatamente despus de
obtener cada reforzador la posibilidad de conseguir otro es altamente impro
bable. Aqu podran considerarse teoras que basan su nivel explicativo en
la competicin entre respuestas, de manera que en unos momentos u otros
del intervalo temporal entre reforzadores sucesivos se reforzaran respuestas
diferentes que explicaran los diferentes patrones de respuesta mostrados
por los programas de reforzamiento (p. ej., Killeen y Pelln, 2013; Staddon,
1977). Tanno y Silberberg (2012) han desarrollado recientemente un modelo
por el que el peso de cada TER cuenta en una funcin exponencial con res
pecto a la distancia a la ocurrencia del reforzador, de manera que los TER
ms alejados pesarn (aportarn) menos que los ms cercanos, lo que en su
conjunto determinar la tasa de respuesta. Evidencia en favor de la mayor
sensibilidad a los emparejamientos locales respuesta-reforzador frente a las
relaciones globales entre la respuesta y el reforzamiento se puede encontrar
en Reed, Hildebrandt, DeJongh y Soh (2003) y en Tanno y Sakagami (2008).
1.3. Programas compuestos de reforzamiento
Los programas compuestos resultan de la aplicacin de dos o ms pro
gramas bsicos de reforzamiento y pueden dividirse en dos grandes bloques,
aquellos donde la presentacin de los programas componentes es secuencial
y aquellos donde los componentes se presentan de forma simultnea. En los
siguientes apartados analizaremos estos dos tipos de programas.
1.3.1. Programas alternantes y secuenciales: el control por el estmulo
y el reforzamiento condicionado
Los programas secuenciales son cuatro: programa mixto, programa
mltiple, programa tndem y programa encadenado, siendo los dos prime
ros alternantes y los dos ltimos estrictamente secuenciales. En la Tabla
5.1. se esquematizan las diferencias entre ellos.
233

P s ic o l o g a

d e l a p r e n d iz a j e

Tabla 5.1. Esquema que representa los programas compuestos alternantes


y secuenciales
Alternantes
Secuenciales

Sin Ed

Con Ed

Mixto
Tndem

Mltiple
Encadenado

En un programa mixto se presentan dos o ms programas bsicos


alternndose al azar. El cambio de uno a otro de los programas es inde
pendiente de la conducta del sujeto en experimentacin. Depende, sin
embargo, de la duracin de un tiempo establecido con anterioridad por
el experimentador. Por ejemplo, si cada componente dura diez minutos,
durante los diez primeros minutos estar en funcionamiento un programa
de IF 60-seg, de tal manera que se obtendr un reforzador (p. ej., una bo
lita de comida) cada vez que se d una respuesta (p. ej., presin de la pa
lanca) despus de transcurridos 60 segundos desde el anterior reforzador.
Durante los diez minutos siguientes estar en funcionamiento el segundo
programa, por ejemplo RF-50, y as durante ese tiempo se reforzar cada
vez que el sujeto emita cincuenta respuestas consecutivas, para una vez
finalizados esos diez minutos volver a empezar el programa de IF 60-seg
y as sucesivamente hasta un nmero de veces determinado previamente
por el experimentador.
El programa mltiple es exactamente igual que el mixto con la diferen
cia de que cada componente se seala con una clave discriminativa distinta,
por ejemplo con una luz, con un sonido, o con cualquier otra estimulacin
ambiental, y el sujeto es informado en todo momento de en qu parte del
programa mltiple se encuentra. Por ejemplo, el encendido de una luz
puede indicar la presencia de un programa de IF 60-seg, y cuando la luz se
encuentre apagada el funcionamiento de un programa de RF-50. Los pro
gramas mltiples han sido ampliamente utilizados en la investigacin sobre
discriminacin y generalizacin estimular en el condicionamiento operante
(ver Honig y Urcuioli, 1981). Cuando, por ejemplo, un estmulo ambiental
indique que las respuestas pueden ser reforzadas de acuerdo a un programa
de reforzamiento positivo y cuando un estmulo diferente seale la imposibi
lidad de conseguir reforzamiento positivo alguno, nos encontramos ante un
programa mltiple donde se establece una discriminacin entre un estmulo
discriminativo positivo (E+ o Ed) y un estmulo discriminativo negativo (E234

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

o EA). El aprendizaje de una discriminacin como la anterior consistira en


emitir respuestas en presencia del Ed y en omitirlas en presencia del EA, por
lo que dicho programa mltiple permitira estudiar el grado de control ejer
cido por los estmulos discriminativos sobre la respuesta instrumental. La
evaluacin comportamental del control por los estmulos se efecta en una
prueba de generalizacin posterior al entrenamiento de discriminacin. El
control estimular se tratar con detalle en el Captulo 6.
Un programa tndem consta al menos de dos programas simples que
se presentan siempre en el mismo orden. Los sujetos experimentales deben
completar el primer programa para poder iniciar el segundo, al final del
cual consiguen la administracin del reforzador. A diferencia de los pro
gramas mixto/mltiple, en el programa tndem slo es posible conseguir
el reforzador si se cumplen en sucesin los programas componentes, el
cumplimiento del primero de ellos (y por extensin de todos los anteriores
al ltimo) slo dar lugar a la posibilidad de realizar el siguiente, pero el
reforzador slo se conseguir al terminar de completar todos. Por ejemplo,
un programa tndem IF 60-seg RF-50 se inicia con el programa de IF 60seg, de forma que la primera respuesta despus de transcurridos 60 segun
dos da acceso al programa de RF-50. Cuando se hayan emitido cincuenta
respuestas se obtendr el reforzador, lo que de nuevo puede permitir co
menzar el programa de IF 60-seg y repetir el programa tndem durante un
determinado nmero de veces o durante un periodo fijo de tiempo que ha
sido determinado con anterioridad por el experimentador.
El programa encadenado es exactamente igual que el tndem, pero en
este caso cada uno de los dos programas simples est sealado de manera
diferente, de forma que el sujeto experimental conoce en qu componente
del programa se encuentra en cada momento. Habitualmente la termina
cin del primer programa se acompaa del encendido de una luz o de la
presentacin de un sonido, que permanece en funcionamiento durante el
segundo programa hasta el momento de la consecucin del reforzador. Por
ejemplo, en un programa encadenado IF 60-seg RF-50, la primera respuesta
una vez transcurridos 60 segundos inicia el programa de RF-50, al tiempo
que provoca el encendido de una luz de la caja experimental, que perma
necer encendida hasta que se complete la respuesta nmero cincuenta y
se consiga el reforzador. Los programas encadenados se han utilizado para
estudiar el reforzamiento condicionado (ver la revisin de Gollub, 1977).
El reforzamiento condicionado hace referencia al hecho de que algunos
235

P s ic o l o g a

d e l a p r e n d iz a j e

estmulos adquieren capacidades reforzantes por su asociacin con los re


forzadores primarios. Un cambio en el ambiente, como la presentacin de
una luz, puede adquirir capacidades reforzantes de segundo orden por su
emparejamiento con la comida. En los programas encadenados, el cambio
en el ambiente producto de la finalizacin del primer programa adquiere
propiedades de reforzador por su asociacin con el reforzador que se consi
gue al finalizar el segundo programa. Las propiedades reforzantes de estos
estmulos se miden por su capacidad para encadenar respuestas, de manera
que los sujetos experimentales responden para conseguir dichos cambios
en el ambiente. Esta tcnica del encadenamiento ha permitido estudiar en
los estmulos capacidades reforzantes de segundo orden, de tercer orden, e
incluso de rdenes superiores (vase el Captulo 4 para ms detalles).
1.3.2. Programas simultneos: programas concurrentes y programas
combinados
Entre los programas compuestos simultneos, los ms importantes y
conocidos son los programas concurrentes, que se caracterizan por dispo
ner simultneamente de al menos dos programas bsicos de reforzamiento.
Contrario a los programas secuenciales anteriormente expuestos, en los
programas concurrentes se puede cambiar de un programa a otro sin que
normalmente haya sido necesario haber completado un tiempo o un nme
ro de respuestas en cada uno de los programas. Los sujetos experimentales,
en consecuencia, deben elegir entre responder a uno u otro de los progra
mas que componen el programa concurrente. Por ejemplo, en una caja de
condicionamiento podemos disponer de dos palancas de respuesta, una a
la derecha y otra a la izquierda. En la palanca de la derecha puede estar en
funcionamiento un programa de IV 60-seg y en la palanca de la izquierda
un programa de IV 30-seg. En circunstancias experimentales como sta, se
mide el nmero de respuestas en cada una de las palancas y se calcula la
proporcin por la que se distribuyen las respuestas entre una y otra.
Otros programas compuestos simultneos consisten en combinaciones
de un programa de razn y otro de intervalo, y existen al menos tres combi
naciones que deben distinguirse. En un programa alternativo se refuerza
una respuesta cada vez que se cumple con el requisito del programa de
razn o el del intervalo, existiendo as dos formas de conseguir el reforza236

P s ic o l o g a

d e l a p r e n d iz a j e

estmulos adquieren capacidades reforzantes por su asociacin con los re


forzadores primarios. Un cambio en el ambiente, como la presentacin de
una luz, puede adquirir capacidades reforzantes de segundo orden por su
emparejamiento con la comida. En los programas encadenados, el cambio
en el ambiente producto de la finalizacin del primer programa adquiere
propiedades de reforzador por su asociacin con el reforzador que se consi
gue al finalizar el segundo programa. Las propiedades reforzantes de estos
estmulos se miden por su capacidad para encadenar respuestas, de manera
que los sujetos experimentales responden para conseguir dichos cambios
en el ambiente. Esta tcnica del encadenamiento ha permitido estudiar en
los estmulos capacidades reforzantes de segundo orden, de tercer orden, e
incluso de rdenes superiores (vase el Captulo 4 para ms detalles).
1.3.2. Programas simultneos: programas concurrentes y programas
combinados
Entre los programas compuestos simultneos, los ms importantes y
conocidos son los programas concurrentes, que se caracterizan por dispo
ner simultneamente de al menos dos programas bsicos de reforzamiento.
Contrario a los programas secuenciales anteriormente expuestos, en los
programas concurrentes se puede cambiar de un programa a otro sin que
normalmente haya sido necesario haber completado un tiempo o un nme
ro de respuestas en cada uno de los programas. Los sujetos experimentales,
en consecuencia, deben elegir entre responder a uno u otro de los progra
mas que componen el programa concurrente. Por ejemplo, en una caja de
condicionamiento podemos disponer de dos palancas de respuesta, una a
la derecha y otra a la izquierda. En la palanca de la derecha puede estar en
funcionamiento un programa de IV 60-seg y en la palanca de la izquierda
un programa de IV 30-seg. En circunstancias experimentales como sta, se
mide el nmero de respuestas en cada una de las palancas y se calcula la
proporcin por la que se distribuyen las respuestas entre una y otra.
Otros programas compuestos simultneos consisten en combinaciones
de un programa de razn y otro de intervalo, y existen al menos tres combi
naciones que deben distinguirse. En un programa alternativo se refuerza
una respuesta cada vez que se cumple con el requisito del programa de
razn o el del intervalo, existiendo as dos formas de conseguir el reforza236

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

dor. En un programa conjuntivo se refuerza una respuesta cada vez que


se cumple al mismo tiempo con el requisito de la razn y del intervalo. Por
ltimo, en un programa entrelazado la respuesta que se refuerza viene de
terminada por dos programas, pero la disposicin de uno de ellos se altera
por el desarrollo del otro. En este ltimo tipo de programa, una posibilidad
es que cierta suma de respuestas y de tiempo (p. ej., 10 respuestas, 6 res
puestas en 4 segundos, 3 respuestas en 7 segundos, 10 segundos) debe
darse antes de que la respuesta sea reforzada, o bien (como se ha visto con
anterioridad) que algn valor recogido en un programa de razn determine
las caractersticas de un programa de intervalo.
Programas de reforzamiento (Resumen)
Los programas bsicos de reforzamiento se construyen en base al requisito
de haber realizado un nmero de respuestas o al de emitir la respuesta criterio
despus de pasado un tiempo, de manera que el cumplimiento del criterio espe
cificado lleva a la obtencin del reforzador. Si se pide un nmero de respuestas
por reforzador se trata de un programa de razn, que puede ser un nmero
fijo o puede variar para dar un valor promedio. Si se exige que haya pasado
un tiempo desde el reforzador anterior se trata de un programa de interva
lo, pudiendo ser el tiempo siempre el mismo o pudiendo variar en torno a un
valor medio. Estos requerimientos definen los programas de razn fija (RF),
razn variable (RV), intervalo fijo (IF) e intervalo variable (IV). Cuando al
requisito del tiempo desde el reforzador previo se le aade el requerimiento de
que pase un determinado tiempo entre respuestas, se consigue una tasa baja
de respuesta correspondiendo con el programa de reforzamiento diferencial
de tasas bajas de respuesta (RDB). Igualmente se puede reforzar que se
responda antes de que haya pasado un tiempo determinado, constituyendo el
programa de reforzamiento diferencial de tasas altas de respuesta (RDA).
La ejecucin en los programas de reforzamiento se puede explicar a nivel
general por funciones de retroalimentacin que relacionan la conducta con el
reforzador (aproximacin molar) o a travs de mecanismos especficos como
el reforzamiento diferencial de los tiempos entre respuestas (aproximacin

molecular).

Los programas bsicos se pueden combinar para dar como resultado los
programas compuestos. Los ms utilizados han sido los programas mixto y
mltiple para el estudio del control estimular, los programas tndem y enca
denado para la investigacin sobre reforzamiento condicionado, y los progra
mas concurrentes para el estudio de la conducta de eleccin.

237

P s ic o l o g a

d e l a p r e n d iz a j e

2. CONDUCTA DE ELECCIN
Volviendo a los programas concurrentes, la eleccin o preferencia entre
las alternativas de respuesta se calcula por la tasa relativa de respuesta y se
representa por el cociente:
Ra
Ra +Rb
donde Ra y Rb representan, respectivamente, la tasa de respuesta en la al
ternativa a y la tasa de respuesta en la alternativa b.
El procedimiento de los programas concurrentes presenta ventajas
con respecto a procedimientos utilizados con anterioridad para medir la
eleccin en el sentido de que se miden las preferencias de los sujetos por
dos fuentes alternativas de reforzamiento pero para cuya consecucin
se requieren respuestas operantes semejantes (por ejemplo, presionar la
palanca a presionar la palanca b). Con anterioridad a los programas
concurrentes, muchos investigadores utilizaron procedimientos que se
podran definir como de premios concurrentes (vase posteriormente el
Apartado 4) donde normalmente se daba a elegir a los sujetos entre dos
actividades diferentes, como por ejemplo correr y beber, y se meda el
tiempo que dichos sujetos experimentales empleaban en cada una de estas
dos actividades conductuales. En base a los resultados que se obtenan, se
inferan las preferencias relativas de los sujetos. Este procedimiento para
medir la eleccin no es el ms adecuado en muchas circunstancias pues
la eleccin entre premios concurrentes presenta la dificultad de comparar
entre s dos actividades conductuales que implican respuestas consumatonas distintas. En los programas concurrentes, los sujetos ya no eligen
directamente entre diferentes premios, sino que eligen entre distintas al
ternativas que requieren una respuesta operante idntica pero que pueden
llevar a premios diferentes. Este procedimiento, frente a la eleccin entre
premios concurrentes, se puede denominar de eleccin entre respuestas
instrumentales concurrentes, y especficamente es el utilizado en los pro
gramas concurrentes de reforzamiento (para revisiones, consultar Davison
y McCarthy, 1988; Williams, 1988).

238

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

2.1. La ley de igualacin


El primero que utiliz los programas concurrentes de reforzamiento
con la finalidad de estudiar la eleccin fue Herrnstein (1961), quien haba
sido estudiante de doctorado de B. F. Skinner. Herrnstein utiliz un pro
grama concurrente donde las alternativas diferan en la tasa o frecuencia
de reforzamiento, con cada alternativa proporcionando reforzamiento de
acuerdo a un programa independiente de IV. Herrnstein observ que los
animales (palomas) distribuan sus respuestas en funcin de la frecuencia
de reforzamiento en cada una de las alternativas y postul lo que a partir
de entonces se ha venido a conocer como ley de igualacin. La ley de igua
lacin afirma que la tasa relativa de respuesta entre dos alternativas de
respuestas concurrentes es igual a la tasa (frecuencia) relativa de reforza
miento asociada con cada una de dichas alternativas de respuesta, y qued
expresada matemticamente por la Ecuacin 5.1:
Ra _ Fa
Ra +Rb Fa + Fb
donde Ra y Rb representan las tasas de respuesta en las alternativas a y b;
y Fa y Fb representan la tasa (frecuencia) de reforzamiento asociada a las
alternativas a y b respectivamente.
En la Figura 5.5 se representan los principales resultados encontrados
por Herrnstein (1961) referidos a tres palomas (nmeros 055, 231 y 641)
y que relacionan la tasa relativa de respuesta en el eje de ordenadas con
la tasa relativa de reforzamiento en el eje de abscisas (aqu referido a por
centaje de respuestas y reforzadores en la tecla A). La ley de igualacin
establece una equiparacin entre la distribucin de las tasas de respuesta
en las alternativas a y b y la distribucin de las tasas de reforzamiento en
dichas alternativas de respuesta. En los casos extremos, y si el total de
reforzadores se obtuviese en la alternativa a, tambin se daran el total de
respuestas en dicha alternativa (sera el caso del vrtice superior derecho de
la Figura 5.5). Si, por el contrario, el total de reforzadores se obtuviese en la
alternativa b, sera en la alternativa b donde se daran todas las respuestas
(vrtice inferior izquierdo de la Figura 5.5). Si los reforzadores se distribu
yesen al 50% entre las dos alternativas, la ley de igualacin establece que las
respuestas se distribuiran por igual entre las dos alternativas. Esta relacin
239

P s ic o l o g a

d e l a p r e n d iz a j e

% de reforzadores en la Tecla A

Figura 5.5. Frecuencia relativa de respuesta a la Tecla A en funcin de la frecuencia


relativa de reforzamiento a dicha tecla para tres palomas (con DPC de 1,5 seg - vase
posteriormente).

lineal entre la tasa relativa de respuesta y la tasa relativa de reforzamiento


viene representada por la lnea diagonal que divide el rea de la figura en
dos partes iguales. Lo que Herrnstein encontr es que variando la frecuen
cia de reforzamiento asociada a las alternativas de respuesta por medio
de la utilizacin de distintos programas de IV, los animales se ajustaban
bastante bien a esa relacin lineal, de manera que si en la alternativa a se
ofreca una mayor frecuencia de reforzamiento que en la alternativa b, los
animales elegan ms la alternativa a que la b y en proporcin semejante a
la tasa de reforzamiento obtenida en ambas alternativas, y al contrario si la
alternativa a ofreca una menor frecuencia de reforzamiento que la alterna
tiva b. El comportamiento de eleccin de las tres palomas de Herrnstein se
puede ver en la Figura 5.5 y se puede comprobar el cumplimiento bastante
ajustado a las predicciones de la ley de igualacin.
240

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Adems de igualar la tasa relativa de respuesta con la tasa relativa de


reforzamiento, como demostr Herrnstein, se ha observado que los anima
les igualan la tasa relativa de respuesta con otros parmetros que definen
al reforzador, como pueden ser la magnitud del reforzador o su inmediatez
(Catania, 1963; Landon, Davison y Elliffe, 2003). De esta manera se puede
extender la formulacin de la ley de igualacin para incluir todos estos
parmetros de reforzamiento (Logue, Rodrguez, Pea-Correal y Mauro,
1984), siguiendo la Ecuacin 5.2:
Ra
Fa
Ma
1
/
Da
_______ = ______ _________ X___________
Ra + Rb Fa + Fb Ma + Mb 1/ Da +1 / Db
donde Ra y Rb se corresponden con las tasas de respuesta en las alternati
vas a y b) Fa y Fb con las tasas de re forzamiento en las alternativas a y b\
Ma y Mb con las magnitudes de reforzamiento de las alternativas a y b; y
Da y Db con las demoras al reforzador en las alternativas a y b. Ntese que
en el caso de la demora del reforzador los valores se corresponden con la
inversa del valor de la demora, pues los reforzadores son ms preferidos
cuanto ms inmediatos (menos demorados).
La Ecuacin 5.2 establece que todos los factores de reforzamiento in
fluyen de forma igual en la eleccin, y en concreto de forma multiplicativa,
de manera que cualquiera de esos factores (frecuencia, magnitud, demora)
puede reducir la eleccin por una alternativa de respuesta aunque los otros
factores sean altamente favorables.
Lo esencial de la ley de igualacin es que establece una igualdad entre
la tasa relativa de respuesta y la tasa relativa de reforzamiento (o cantidad
relativa de reforzamiento, o demora relativa al reforzador), de manera que
la proporcin entre las respuestas emitidas en las alternativas debe ser igual
a la proporcin de los reforzadores obtenidos en dichas alternativas. En la
ley de igualacin no se equiparan tasas absolutas de respuesta y de refor
zamiento, exclusivamente tasas relativas de respuesta y de reforzamiento.
2.2. Maximizacin: eleccin entre programas concurrentes de razn
El intento de generalizar la ley de igualacin a situaciones diferentes
que la originalmente descrita por Herrnstein, ha llevado a los investiga
241

P s ic o l o g a

d e l a p r e n d iz a j e

dores a variar el tipo de programa de reforzamiento asociado a las alter


nativas de respuesta. Como se ha dicho, Herrnstein vari la frecuencia de
reforzamiento dotando de diferentes valores a los programas de IV. Otros
investigadores han evaluado la eleccin cuando las diferentes alternativas
consistan en programas de razn. Cuando se tiene que elegir entre dos
alternativas de respuesta que proporcionan reforzadores de acuerdo a
programas de razn diferentes (un programa concurrente RF-RF o uno
RV-RV), los sujetos tienden a elegir la alternativa de respuesta que tiene
una razn ms baja, describindose dicho resultado como maximizacin.
La maximizacin es un comportamiento adaptativo pues no tiene mucha
ventaja dedicar esfuerzo a responder en una alternativa menos favorable a
expensas de perder oportunidad de reforzamiento en la ms ventajosa (es
to no suceda en los programas concurrentes de intervalo pues probando
de vez en cuando en la alternativa menos favorable se podan recoger los
reforzadores disponibles por haber superado el tiempo estipulado en el pro
grama, sin perder realmente reforzadores en la alternativa ms ventajosa).
La maximizacin, que implica elegir en exclusiva la alternativa ms favo
rable, no contradice, sin embargo, la ley de igualacin. Es ms, es el nico
comportamiento que en una situacin de programa concurrente de razn
cumple con la ley de igualacin. Por ejemplo, en un programa concurrente
RV-10 RV-20, si se responde exclusivamente al programa de RV-10 (esto
es, se maximiza) se obtendrn todos los reforzadores conforme a dicho
programa. De esta forma, la tasa de respuesta en la alternativa de RV-10
ser igual a la tasa total de respuesta en las dos alternativas (no se dan res
puestas en la alternativa RV-20), y la tasa relativa de respuesta ser igual a
1. De igual forma sucede con la tasa de reforzamiento en RV-10, la tasa de
reforzamiento total y la tasa relativa de reforzamiento sern necesariamen
te 1. Como se puede apreciar la tasa relativa de respuesta es igual a la tasa
relativa de reforzamiento, tal como estipula la ley de igualacin. Se puede
comprobar que cualquier otra distribucin de las respuestas en los progra
mas concurrentes de razn se alejara de la formulacin de la igualacin.
Se han utilizado tambin combinaciones de programas de intervalo con
programas de razn, de manera que por ejemplo uno de los componentes
fuese un programa de RV y el otro un programa de IV. En circunstancias
como sta, lo ptimo sera que los animales se dedicasen a responder casi
en exclusiva en el programa de razn, probando espordicamente en el
de intervalo para recoger los reforzadores que estuviesen all disponibles
242

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

por el mero paso del tiempo. Aunque en general se prefiere responder a la


alternativa del programa de razn, la preferencia no es tan marcada como
podra pensarse de haber habido una explotacin ptima de los recursos,
perdiendo ms reforzadores de los necesarios por una dedicacin extra al
programa de intervalo (ver Herrnstein y Heyman, 1979). Este resultado tie
ne importantes implicaciones tericas, como se ver ms adelante.
2.3. Igualacin temporal
Otra observacin adicional es tambin importante por sus implicaciones
tericas. Se ha demostrado experimentalmente que los organismos no slo
igualan la tasa relativa de respuesta con la tasa relativa de reforzamiento,
sino que al mismo tiempo igualan el tiempo de estancia en las alternativas
de respuesta con la tasa relativa de reforzamiento en dichas alternativas de
respuesta. Para ello se ha utilizado una variante de programa concurren
te, ideada por Findley (1958). Consiste en presentar en una nica tecla de
respuesta los dos programas de IV en sucesin, cada uno sealado por una
clave discriminativa distinta, como en un programa mltiple. Sin embargo,
los sujetos pueden cambiar de programa de reforzamiento respondiendo en
una segunda tecla, denominada de cambio. La gran ventaja del programa
concurrente de Findley es que separa la respuesta de cambio de la respues
ta instrumental. Esta separacin permite que se pueda comparar entre
diversas respuestas instrumentales, e incluso permite que algunas de ellas
puedan eliminarse. Por ejemplo, Brownstein y Pliskoff (1968) emplearon
un programa concurrente tipo Findley para estudiar las preferencias de
las palomas entre varias fuentes de reforzamiento sin emplear respuestas
instrumentales. Los picotazos en la tecla de cambio modificaban el color
de la otra tecla, pero los animales no tenan que picotearla para obtener
los reforzadores. Los reforzadores se administraron independientemente
de la conducta de los sujetos a tasas diferentes dependiendo del color de
la tecla. Lo nico que poda hacer el animal era picotear la tecla de cam
bio para activar uno u otro programa de administracin de la comida. Un
primer picotazo tornaba la tecla de un color y activaba un programa de
reforzamiento, un segundo picotazo cambiaba el color de la tecla y activa
ba el otro programa de reforzamiento, y as sucesivamente. La medida de
preferencia en este estudio fue el tiempo de permanencia en los programas
de reforzamiento, asumindose que una mayor permanencia reflejara una
243

P s ic o l o g a

d e l a p r e n d iz a j e

mayor preferencia. Al igual que la igualacin de respuestas, la igualacin


temporal es un hallazgo muy corriente en los experimentos de eleccin. Es
posible encontrar igualacin temporal con procedimientos concurrentes
normales, as como con procedimientos concurrentes tipo Findley donde
sea necesaria la respuesta instrumental, donde la respuesta instrumental no
sea necesaria (como en el trabajo de Brownstein y Pliskoff), e incluso donde
la respuesta instrumental sea necesaria para un programa pero no para el
otro. La igualacin temporal se puede formalizar (Baum y Rachlin, 1969)
siguiendo la Ecuacin 5.3:
Ta _ Fa
Ta +Tb~ Fa + Fb
siendo Ta y Tb los tiempos de permanencia en las alternativas a y b; y Fa y
Fb las tasas de reforzamiento de dichas alternativas de respuesta.
2.4. Ley generalizada de la igualacin
Al comienzo del Apartado 2 se ha hecho referencia a dos formas de medir
la eleccin, los premios concurrentes y las respuestas instrumentales concu
rrentes, y tambin se ha hecho referencia a las limitaciones que presentaba
el primero de estos mtodos. El procedimiento de las respuestas instrumen
tales concurrentes supera las dificultades impuestas por el procedimiento
de los premios concurrentes, pero, sin embargo, hay que considerar algunas
influencias no deseables que intervienen en la eleccin de los sujetos entre
respuestas instrumentales concurrentes. En primer lugar, cuando se tiene
que elegir entre dos o ms alternativas de respuesta se suele producir un
tipo de comportamiento denominado de alternancia, caracterizado por el
cambio intermitente de una alternativa de respuesta a otra sin que guarde
relacin con los reforzadores asociados a cada una de dichas alternativas de
respuesta. En las situaciones de la vida en libertad, los animales tienden a
cambiar el lugar donde consiguen sus alimentos, y la alternancia es en este
sentido un comportamiento reminiscente de esta tendencia natural de los
animales. Adems, en algunos programas de reforzamiento, principalmente
los programas de intervalo, el animal puede ser reforzado por la primera
respuesta que da despus de pasar de una alternativa a otra. Este reforza
miento accidental puede fortalecer an ms el comportamiento natural
244

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

de alternancia. Dado que en las situaciones de eleccin en los laboratorios


de psicologa del aprendizaje interesa que el comportamiento de eleccin se
gue simplemente por las consecuencias de reforzamiento en las diferentes
alternativas de respuesta (y no por otras variables que podran ser tambin
importantes pero no relevantes al caso), se tiene que controlar la influencia
extraa que se introduce con este comportamiento alternante de los anima
les experimentales. Para ello los investigadores aaden la limitacin de que
no se refuerce la respuesta de cambio de alternativa por un tiempo. Este
procedimiento se denomina demora por el cambio (DPC), y consiste en
introducir un periodo temporal breve, de aproximadamente 2 3 segundos,
despus de la primera respuesta a una de las alternativas para que pueda
entrar en funcionamiento el programa de reforzamiento asociado a dicha
alternativa de respuesta. En otras palabras, si los sujetos experimentales
persisten en su comportamiento de alternancia, y se ha introducido la con
tingencia de DPC, no podran obtener ningn reforzador en ninguna de las
alternativas de respuesta. La consecuencia normal de haber introducido
la contingencia de DPC es que los sujetos enfrentados con una situacin
de eleccin abandonan su comportamiento de alternancia y realizan la
eleccin en base exclusivamente a las contingencias de reforzamiento aso
ciadas con cada una de las alternativas de respuesta. Adems de prevenir el
reforzamiento inmediato de la conducta de alternancia, la DPC garantiza la
independencia de los operandos de respuesta.
Existen muchas otras fuentes potenciales de influencias no deseables
en los experimentos de eleccin, y genricamente estas influencias se han
denominado sesgos. Los sesgos pueden ser de muchos tipos, pero los ms
frecuentes en los experimentos de eleccin realizados en los laboratorios de
conducta animal pueden ser, adems de la conducta de alternancia descrita
anteriormente, la disposicin espacial de las alternativas de respuesta (iz
quierda frente a derecha), el color y la iluminacin de dichas alternativas,
o la fuerza requerida para responder en cada una de las alternativas. En
un programa concurrente de reforzamiento se requiere que las alternativas
de reforzamiento difieran exclusivamente en base a las caractersticas de
reforzamiento, y que todos los dems factores permanezcan iguales. Como
esto no es siempre posible, Baum (1974) ide un mtodo para corregir la
influencia de los sesgos, por definicin fuentes de influencia desconocida.
Parti de la idea conceptual de que los sesgos influyen en la eleccin de
forma idntica a los factores de reforzamiento (frecuencia, magnitud, de245

P s ic o l o g a

d e l a p r e n d iz a j e

mora), y formul la ley generalizada de la igualacin (vase posteriormente


la Ecuacin 5.5 para una formalizacin ms ajustada de la ley). Para el caso
de la frecuencia de reforzamiento (pero podra hacerse para cualquier otro
factor de reforzamiento, o para todos juntos), la tasa relativa de respuesta
se iguala a un factor multiplicativo de la tasa relativa de reforzamiento y de
los sesgos relativos, y se puede expresar matemticamente como se sigue
por la Ecuacin 5.4:
Ra _ Fa
Sa
Ra +Rb Fa + Fb Sa + Sb
donde Ra y R, son las tasas de respuesta en las alternativas a y b respecti
vamente; Fa y Fy son las frecuencias (tasas) de reforzamiento en las alter
nativas a y b respectivamente; y Sa y S, son los sesgos en las alternativas a
y b respectivamente.
El mtodo de Baum (1974) para corregir los sesgos consiste en tres pasos.
En primer lugar, se deben equiparar los factores de reforzamiento entre las
alternativas de respuesta. Por ejemplo, la frecuencia, magnitud y demora del
reforzador deben ser iguales. En segundo lugar, se deben medir las preferen
cias relativas de los sujetos. Si los sujetos distribuyen las respuestas de forma
igual entre las alternativas de respuesta, entonces no hay influencia de sesgos.
Si, por el contrario, existe una desviacin hacia una preferencia mayor por
una de las alternativas, dicha eleccin indicara la contribucin de los sesgos,
que se puede determinar cuantitativamente por el valor de la tasa relativa de
respuesta. En tercer lugar, una vez conocido el valor de los sesgos relativos,
se deben variar los factores de reforzamiento asociados con las alternativas
de respuesta. Por ejemplo, se puede programar el doble de reforzamiento en
una de las alternativas y comprobar si los sujetos eligen dicha alternativa el
doble del valor de los sesgos relativos (hay que recordar que, segn Baum, los
sesgos influyen de forma multiplicativa). Si esto es as, a medida que se vayan
variando los factores de reforzamiento entre las alternativas de respuesta se
debera observar una desviacin paralela a la igualacin en la direccin del
sesgo. Como la desviacin producida por el sesgo es constante a cualquier va
lor relativo del reforzamiento, se puede corregir dicho valor en los resultados
obtenidos. Grficamente quedara como en la Figura 5.6, donde se ve que el
valor de los sesgos relativos se multiplica por cada valor de la tasa relativa de
reforzamiento corrigindose el resultado sobre el eje de las abscisas.
246

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Ya se ha visto que hay sesgos de respuesta que pueden incidir en la


eleccin y que conviene corregir cuando no evitar (por imposible), aun as
se parte de la situacin ideal de que los animales (y nosotros) somos ca
paces de hacer clculos exactos sobre las cualidades de los reforzadores y
elegir proporcionalmente en consecuencia. Es considerar que el clculo es
puramente matemtico, como si el cerebro, o las relaciones conducta-con
secuencia, reflejasen una suerte de computacin exacta. No es de extraar
que ajustes tan exactos como los predichos por la ley de igualacin de Herr
nstein en realidad no se cumplan (McDowell, 2005) y que las estimaciones
en cuanto a las ventajas de reforzamiento de las alternativas de respuesta
conduzcan a errores de estimacin que es lo genuinamente psicolgico. Ya
se ha visto con anterioridad (Captulo 4) que la estimacin del valor de un
reforzador depende mucho de la experiencia previa o simultnea con otros
reforzadores, de manera que el valor no es algo que provenga exclusiva-

Fa/Fb (escala log)


Figura 5.6. Ejemplo de correccin de sesgo en la igualacin. Los crculos negros sealan
los datos antes de corregir los sesgos. Los crculos blancos sealan lo que sucede cuando
cada valor de la abscisa se multiplica por el sesgo. Ntese la escala logartmica de los ejes.
247

P s ic o l o g a

d e l a p r e n d iz a j e

mente de unos rasgos estrictamente objetivos sino que pueden ser relaci
nales, en comparacin con otras alternativas o con experiencias previas. En
el caso de los programas concurrentes sucede exactamente lo mismo. Es
posible que la valoracin de una de las alternativas de respuesta dependa no
slo de su valor objetivo, sino del valor que se ofrece en la otra alternativa.
Y esto es as, habindose demostrado repetidamente. A veces la alternativa
de respuesta es sobrevalorada (si la otra alternativa es significativamente
peor) y a veces es infravalorada (si la otra alternativa es manifiestamente
mejor). Y este clculo del valor de los reforzadores es la generalidad, lejos
de la excepcin. Existe sobreigualacin cuando la mejor alternativa es va
lorada por encima de la preferencia establecida por la igualacin perfecta;
existe infraigualacin cuando la mejor alternativa es valorada por debajo
de la preferencia establecida por la igualacin perfecta. Es ms comn
encontrar infraigualacin que sobreigualacin (Baum, 1974), debido prin
cipalmente a la tendencia a cambiar de alternativa cuando se ha obtenido
reforzamiento en una de ellas (el comportamiento de alternancia descrito
anteriormente), lo que disminuye el ajuste perfecto a la igualacin.
Cuando se habla de sobreigualacin y de infraigualacin, siempre se
hace referencia a la tasa de respuesta en la alternativa ms favorable (con
mayor frecuencia de reforzamiento) en el contexto de las predicciones de
la ley de igualacin. Ello implica que las dos alternativas de respuesta no
son iguales, siempre tiene que haber una ms favorable. En estas circuns
tancias, la ley de igualacin hace unas predicciones cuantitativas sobre las
preferencias relativas de los sujetos basadas en la frecuencia relativa de
reforzamiento. Por ejemplo, dado un programa concurrente IV 30-seg IV
60-seg, los organismos siguiendo la igualacin respondern el doble al pro
grama IV 30-seg (porque ofrece el doble de frecuencia de re forzamiento).
Si la relacin de igualacin se desviara hacia valores superiores al doble,
tendramos un ejemplo de sobreigualacin. Si, por el contrario, la relacin
de igualacin fuera menor del doble, sera un caso de infraigualacin (asu
miendo que el numerador en la ley de la igualacin fuera el programa ms
favorable). Si entre dos alternativas igualmente favorables, los animales
eligen ms una que la otra, entonces esa aparente desviacin de la ley de
igualacin puede ser debida a sesgos de respuesta (vase ms arriba), pero
no podra concluirse que fuera un caso de sobreigualacin o de infraigua
lacin. Por otra parte, los sesgos tambin pueden intervenir en facilitar la
sobreigualacin y la infraigualacin.
248

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

En la Figura 5.7 se dibujan curvas hipotticas de sobreigualacin (curva


de puntos) e infraigualacin (curva de guiones), junto con la relacin lineal
de la igualacin perfecta. Dado que los ejes son proporciones de respuesta
y de reforzamiento entre las alternativas a y b, se debe entender que el valor
de 1 se corresponde con la situacin en que ambas alternativas de respuesta
ofrezcan el mismo reforzamiento. En este caso, y si no hubiera sesgos, las
respuestas se deberan distribuir por igual entre las dos alternativas. Cuan
do la proporcin de reforzamiento (Fa/Fb) sea mayor que 1, la alternativa
a ofrecer un mejor reforzamiento que la alternativa b. En este caso, si
existiese sobreigualacin se debera elegir la alternativa a proporcional
mente ms de lo que se predice por la igualacin perfecta. La proporcin
de respuestas (Ra/Rb) debera estar por encima de la igualacin (curva de
puntos en la parte derecha de la figura). Por el contrario, si existiese infrai
gualacin se debera elegir la alternativa a proporcionalmente menos de lo
que se predice por la igualacin perfecta. Aqu la desviacin de la iguala
cin debera estar por debajo de la igualacin (curva de guiones en la parte
derecha de la figura).

Fa/Fb
Figura 5.7. La diagonal representa la igualacin, la curva a puntos la sobreigualacin y la
curva a guiones la infraigualacin. Ntese la escala logartmica de los ejes.

249

P s ic o l o g a

d e l a p r e n d iz a j e

Lo ms complejo es quizs entender la parte izquierda de la Figura 5.7,


el caso en el que los valores de las tasas relativas de respuesta y de refor
zamiento sean menores que 1. Lo ms importante es darse cuenta que si
la proporcin de reforzamiento (Fa/Fb) es menor que 1, el programa b es
mejor que el a (el denominador tiene que ser mayor que el numerador). La
igualacin predice que aqu b se debe elegir proporcionalmente ms que a.
Si existiese sobreigualacin, dicha preferencia por b debera exagerarse en
relacin a lo predicho por la igualacin perfecta. Al aumentar la propor
cin de respuestas en b sobre las de a, la tasa relativa de respuesta (Ra/Rb)
debera disminuir. Eso es justamente lo que se representa por la curva de
puntos en la parte izquierda de la figura. En el caso de infraigualacin, por
el contrario, el programa ms favorable b se debera elegir en una propor
cin menor que la predicha por la igualacin perfecta. La curva en este caso
sera como la de los guiones en la parte izquierda de la figura, desviada por
encima de la igualacin.
Si volvemos la vista por un momento a los resultados originales de
Herrnstein (1961) representados en la Figura 5.5, ninguna de la palomas
realmente se ajust a la igualacin perfecta, notndose que la paloma 231
(y quizs la 645) mostr sobreigualacin y la paloma 055 infraigualacin.
Baum (1974, 1979) ampli la ley de igualacin de Herrnstein para incor
porar las desviaciones por sobreigualacin o infraigualacin, adems de la
influencia multiplicativa de los sesgos en la eleccin (como en la Ecuacin
5.4), resultando en la Ecuacin 5.5:
Ra 7 Fa
r
=
k
x
Rb
Jby
siendo k la constante que representa los sesgos relativos (una constante cal
culada por el mtodo explicado ms arriba) y 5 un exponente que representa
la sensibilidad hacia los programas de reforzamiento. Cuando k y s sean igual
a 1, la ecuacin se reduce a la de Herrnstein (con el cambio de que en los
denominadores no se consideran el total de respuestas y de reforzamiento,
slo la tasa de respuesta y de reforzamiento de la alternativa b). Los valores
de 5 inferiores a lse corresponderan con la infraigulacin, los valores de 5
superiores a 1 con la sobreigualacin. La sobreigualacin sera ms frecuen
te cuando se utilice una contingencia de DPC relativamente larga o cuando
resulte muy costoso el cambio de una a otra alternativa de respuesta (p. ej.,
250

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Aparicio, 2001); en otras circunstancias resulta ms frecuente obtener infrai


gualacin. En el caso extremo en que 5 sea igual a 0, las tasas de respuesta
en las alternativas a y b sern siempre las mismas independientemente de
las tasas de reforzamiento que acompaen dichas alternativas de respuesta,
reflejando una completa insensibilidad a las contingencias de reforzamien
to. Esto podra ocurrir cuando los sujetos obtuviesen todos los reforzadores
respondiendo simplemente a las dos alternativas de respuesta en estricta
alternancia, o de acuerdo a cualquier otro patrn de comportamiento que
fuese independiente de los valores de los programas de re forzamiento. En
relacin con el cmputo de las tasas relativas de respuesta y de reforzamiento
en base al total o slo en relacin a la otra alternativa de respuesta, la lgica
de la igualacin no cambia pero se ha visto que mantener la proporcin de
conducta y de reforzamiento slo de una alternativa sobre la otra (como en
la ley generalizada de la igualacin) se ajusta mejor a los resultados experi
mentales. Las Figuras 5.6 y 5.7 ya reflejaban este cambio.
2.5 Teoras de la igualacin
Las ecuaciones de igualacin vistas hasta ahora se refieren a relaciones
entre variables de comportamiento, a cmo diferentes aspectos de la con
ducta se relacionan entre s, estableciendo relaciones muy precisas entre
aspectos del registro de la conducta como la tasa de respuesta y aspectos
de los reforzadores que dependen de la propia ejecucin operante, como
puede ser la tasa de reforzamiento. Ambas mediciones son reflejo de la
ejecucin operante, donde se requiere la emisin de una respuesta parti
cular para la obtencin del reforzador, pero los reforzadores no se pueden
obtener sin una respuesta previa. Por tanto, las diferentes versiones de la
ley de igualacin lo que establecen son relaciones (correlaciones, si se quie
re) entre al menos dos medidas de la conducta, que como tal son variables
dependientes de la ejecucin operante. La forma en que dos aspectos de la
conducta se relacionan constituye una explicacin meramente descriptiva,
no presupone ninguna explicacin mecanicista. La forma en que los anima
les llegan a la igualacin puede ser variada y explicada, por tanto, a travs
de diferentes mecanismos.
Al igual que con los programas bsicos de reforzamiento, en la igualacin
hay dos enfoques principales, la aproximacin molecular y la aproximacin
de corte ms molar, que tienen que explicar cmo se distribuyen las respues251

P s ic o l o g a

d e l a p r e n d iz a j e

tas entre las alternativas disponibles as como el momento en que se produce


el cambio de una a otra alternativa. La aproximacin terica molecular afir
ma que el cambio de una alternativa de respuesta a otra se realiza en el mo
mento en que la probabilidad momentnea de reforzamiento sea mayor en la
otra alternativa (Shimp, 1966). Basa su anlisis en el clculo de las probabili
dades relativas de reforzamiento en cada momento, de aqu que se denomine
molecular. Por ejemplo, si los sujetos tienen que elegir entre dos programas
de intervalo variable, IV 60-seg e IV 45-seg, en un primer momento elegirn
el programa de IV 45-seg porque es el que ofrece una mayor probabilidad de
ser reforzado, pero cuando se obtenga aqu el reforzamiento cambiarn al
programa de IV 60-seg porque la probabilidad de conseguir el reforzador se
r entonces mayor en ese programa (tendran que esperar por trmino medio
15 seg, mientras que en el programa de IV 45-seg tendran que esperar por
trmino medio 45 seg al haberse iniciado de nuevo el intervalo). Distribuyen
do las respuestas de esta manera, y si al final se sumasen todas, se vera que
se respondera ms al programa de IV 45-seg que al de IV 60-seg y en una
proporcin semejante a la establecida por la ley de igualacin.
La aproximacin molar, de forma contraria a la teora molecular, afir
ma que los animales distribuyen sus respuestas de acuerdo a un clculo
global de las tasas relativas de reforzamiento entre las dos alternativas de
respuesta, eligiendo ms aquella alternativa que proporciona una mayor
tasa de reforzamiento (Rachlin, Battalio, Kagel y Green, 1981). A travs de
un clculo general, los animales ajustan proporcionalmente sus respuestas
entre los reforzadores disponibles en las diferentes alternativas, cumplien
do la ley de igualacin.
Aunque las predicciones de la teora molecular, y el mecanismo pro
puesto, parecen demasiado precisas, justo en su precisin est la virtud, en
el sentido de ser comprobable, y lo que se ha visto es que en general este
mecanismo explica bastante bien la distribucin de respuestas en progra
mas concurrentes de intervalo, donde los animales podran responder de
muchas maneras pero lo hacen de forma muy aproximada a como predice
la teora. Adems, la aproximacin molar tiene problemas para explicar
resultados como los comentados sobre la no preferencia casi exclusiva por
el programa de razn cuando se presenta un programa concurrente RV-IV
(Apartado 2.2). Tambin tendra ms dificultad que la aproximacin mole
cular para explicar por qu los animales en general prefieren reforzadores
variables a fijos cuando en ambos se ofrezca un promedio igual de tasa de
252

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

reforzamiento (p. ej., McSweeney, Kowal y Murphy, 2003). Para la apro


ximacin molecular, en la administracin de reforzadores variables se au
menta la probabilidad de que haya una mayor contigidad entre la respues
ta y la consecucin del reforzador. A favor de esta idea estara el resultado
de que habiendo una mayor preferencia por los reforzadores variados, sin
embargo no existe tal preferencia por responder de forma variada frente a
repetitiva si se mantienen los reforzadores fijos (Abreu-Rodrigues, Lattal,
Dos Santos y Matos, 2005).
Una tercera teora, denominada del mejoramiento, puede considerarse
una sntesis de las aproximaciones molecular y molar. Segn esta idea, los
organismos eligen entre dos fuentes de premio de manera que se igualen
las tasas locales de reforzamiento, respondiendo a la alternativa que en
un momento dado presenta una mejor tasa local de reforzamiento (Herr
nstein y Vaughan, 1990). La mejora se establece en trminos de tasa local
de reforzamiento, ms que en trminos de probabilidad momentnea de
reforzamiento (como haca la aproximacin molecular). As, los resultados
tienen un alcance a ms largo plazo que la teora molecular, pero no se
refiere a tasas globales de reforzamiento, como ocurre con la teora molar.
Intrnseco a la teora del mejoramiento es la igualacin temporal, puesto
que los sujetos al elegir ms la alternativa que proporcione un mejor re
forzamiento, darn una mayor tasa de respuesta, obtendrn una mayor
tasa de reforzamiento y permanecern ms tiempo en dicha alternativa de
respuesta. Como resultado de todo ello las tasas locales de respuesta y de
reforzamiento (el nmero de respuestas o de reforzadores por tiempo de
estancia en la alternativa) sern iguales o muy parecidas entre las diferentes
alternativas de respuesta, por cuanto se responder menos a la alternativa
menos favorable, se obtendrn menos reforzadores en ella, pero tambin
se le dedicar menos tiempo. Las tasas locales de respuesta y de reforza
miento, por tanto, sern iguales en las diferentes alternativas de respuesta,
siendo esa la consecuencia de elegir en cada momento la alternativa que
proporcione la mejor tasa local de re forzamiento. La teora de la mejora se
deriva perfectamente de la igualacin: teniendo en cuenta el tiempo em
pleado en responder a cada alternativa (como veamos anteriormente en
relacin con la igualacin temporal - Ecuacin 5.3.), se puede derivar con
cierta lgica (y matemticamente) que los animales al igualar estn real
mente equiparando las tasas locales de respuesta y de reforzamiento entre
las alternativas de respuesta (Baum y Rachlin, 1969).
253

P s ic o l o g a

d e l a p r e n d iz a j e

2.6. Impulsividad y autocontrol: la eleccin con compromiso


En cuanto a la medida de la eleccin, existe un ltimo procedimiento
experimental que introduce ventajas sobre el procedimiento de las res
puestas instrumentales concurrentes, que es el hasta ahora referido para
el estudio de la eleccin. Este procedimiento se denomina cadenas concu
rrentes de respuesta, y con l no se mide la eleccin entre premios de for
ma directa, ni tampoco se mide directamente la eleccin entre respuestas
instrumentales concurrentes, sino que se mide la eleccin entre diferentes
fuentes de premio.
En la Figura 5.8. se representa un esquema de un programa concurrente
simple (como los tratados hasta ahora en este captulo) y otro de un progra
ma concurrente encadenado. En el programa concurrente simple (arriba) se
da a elegir a los animales entre dos alternativas de respuesta (en este caso,
rojo frente a verde), cada una acompaada de un programa de reforzamien
to (comida) particular. El programa concurrente encadenado (abajo), con
trario al simple, se compone como mnimo de dos pasos, un eslabn inicial
donde el sujeto tiene que elegir entre dos alternativas de respuesta idnticas
(blanco frente a blanco), y un eslabn terminal donde se proporcionan los
reforzadores por responder en la alternativa de respuesta elegida durante el
eslabn inicial. Si se hubiese elegido la alternativa de la izquierda, la tecla
central se iluminara de rojo y se acompaara de un programa de reforza
miento particular; si se hubiese elegido la alternativa de la derecha, la tecla
central se iluminara de verde y se acompaara de otro programa de refor
zamiento. Una vez transcurrido un tiempo predeterminado en el eslabn
terminal, se vuelve a presentar el eslabn inicial hasta que el sujeto elija otra
vez una de las alternativas de respuesta y se vuelva a pasar al eslabn termi
nal. Este procedimiento para medir la eleccin permite, entre otras cosas,
que los sujetos sean ms consecuentes al decidir sus respuestas de eleccin
en comparacin con los otros procedimientos experimentales de eleccin
discutidos anteriormente. Este procedimiento tambin permite separar el
aprendizaje de responder para conseguir el reforzador en los eslabones
terminales, del aprendizaje de eleccin en el eslabn inicial. Es, por tanto,
un procedimiento ms limpio para medir la eleccin, descontaminada de
los propios efectos del reforzamiento sobre la tasa de respuesta (que se po
dran confundir con respuestas de eleccin). Al ser sometidos a programas
concurrentes encadenados, los sujetos experimentales normalmente igualan
254

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

la tasa relativa de respuesta en los eslabones terminales con la tasa relativa


de reforzamiento en dichos eslabones terminales (el resultado normal de la
igualacin), pero tambin igualan la tasa relativa de respuesta en el eslabn
inicial con la tasa relativa de reforzamiento en los eslabones terminales. Los
programas concurrentes encadenados se asemejan ms a las elecciones en la
vida cotidiana, donde optar por una alternativa te compromete por un tiem
po hasta poder cambiar de opcin y donde normalmente no se puede estar
cambiando caprichosamente de alternativa en cada momento. Por ejemplo,
al inicio de un curso acadmico un estudiante decide matricularse de un
cierto nmero de asignaturas, para darse cuenta inmediatamente de que
la eleccin de alguna de ellas mejor la hubiese dejado para otro momento
PROGRAMA CONCURRENTE SIMPLE

Comida

Comida

PROGRAMA CONCURRENTE ENCADENADO


Eslabn inicial

Eslabn terminal

Reforzamiento
Figura 5.8. Diagrama esquemtico de procedimientos tpicos de programa concurrente
simple y programa concurrente encadenado. Consultar el texto para explicacin.
255

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

la tasa relativa de respuesta en los eslabones terminales con la tasa relativa


de reforzamiento en dichos eslabones terminales (el resultado normal de la
igualacin), pero tambin igualan la tasa relativa de respuesta en el eslabn
inicial con la tasa relativa de reforzamiento en los eslabones terminales. Los
programas concurrentes encadenados se asemejan ms a las elecciones en la
vida cotidiana, donde optar por una alternativa te compromete por un tiem
po hasta poder cambiar de opcin y donde normalmente no se puede estar
cambiando caprichosamente de alternativa en cada momento. Por ejemplo,
al inicio de un curso acadmico un estudiante decide matricularse de un
cierto nmero de asignaturas, para darse cuenta inmediatamente de que
la eleccin de alguna de ellas mejor la hubiese dejado para otro momento
PROGRAMA CONCURRENTE SIMPLE

Comida

Comida

PROGRAMA CONCURRENTE ENCADENADO


Eslabn inicial

Eslabn terminal

Reforzamiento
Figura 5.8. Diagrama esquemtico de procedimientos tpicos de programa concurrente
simple y programa concurrente encadenado. Consultar el texto para explicacin.
255

P s ic o l o g a

d e l a p r e n d iz a j e

(Psicologa del Aprendizaje, por ejemplo), pero el cambio de matrcula de


asignatura no puede realizarse siempre, slo cuando se habilite su dispo
nibilidad, mientras tanto se ha adquirido un compromiso de permanencia.
Igual se puede aplicar para elecciones de ir a ver una pelcula u otra en una
sala multicines, o elegir un plato de un men en lugar de otro.
Rachlin y Green (1972) realizaron un trabajo seminal que ilustra perfec
tamente las implicaciones diferenciales de utilizar un programa concurren
te simple o uno encadenado cuando dieron a elegir a sus animales entre
una opcin que implicaba una recompensa pequea inmediata y otra que
implicaba una recompensa mayor demorada. Cuando la eleccin era direc
ta, como en el caso del programa concurrente simple, se prefera la opcin
que llevaba al premio pequeo inmediato an cuando dicha opcin no fue
se la ms ventajosa en trminos de obtencin del mximo reforzamiento.
La situacin estaba diseada para que por esperar al premio mayor en la
otra opcin de respuesta se consegua a la larga un mejor reforzamiento.
Era como si la inmediatez del reforzador influyese ms en la eleccin que
la magnitud. Cuando utilizaron un programa concurrente encadenado e
introdujeron un tiempo constante de espera para poder acceder a la opor
tunidad de que las respuestas fuesen reforzadas (por la introduccin del
eslabn inicial de eleccin), las preferencias cambiaron y ahora los ani
males optaron ms por la alternativa que llevaba al reforzador mayor pero
ms demorado. Al introducir una pequea demora entre la eleccin y la
respuesta reforzada, la fuerza de la inmediatez del reforzador se debilit y
la eleccin se gui ms por la magnitud del reforzador. La preferencia por
una recompensa pequea inmediata se denomina impulsividad; la prefe
rencia por una recompensa mayor demorada se denomina autocontrol. El
trabajo de Rachlin y Green muestra que demorar un poco la entrega del
reforzador pequeo hace que su fuerza se debilite y se prefiera esperar (ya
que hay que esperar) a uno de mayor magnitud.
Estudios como estos de autocontrol muestran que en realidad los pesos
relativos de los diferentes factores que definen a los reforzadores no influ
yen de la misma manera en la eleccin, y que por tanto la Ecuacin 5.2 no
es del todo correcta. La idea expresada en la ecuacin sigue siendo vlida
(como se ha visto a lo largo de todo este apartado) pero no que cada uno
de los factores tenga que influir de la misma forma en la distribucin de las
respuestas entre las alternativas de eleccin, no al menos en el caso de la
magnitud y de la demora al reforzador.
256

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Una forma de explicar los resultados de los estudios de autocontrol a


travs de la ley de igualacin es aceptar una extensin de la ley generalizada
de la igualacin (Ecuacin 5.5) que incorpore los parmetros de frecuencia
(inmediatez) y magnitud del reforzador como se detalla en la Ecuacin 5.6
(Elliffe, Davison y Landon, 2008):
Ra = k x Fa x
~Rb
Mb
V~Fb y
/ -,
7

\Sf

donde los exponentes de la sensibilidad (5 ) a las caractersticas de los refor


zadores se hacen diferentes para la frecuencia (s/) y para la magnitud (sm).
Cording, McLean y Grace (2011) encontraron que haciendo que las es
timaciones de sm fuesen menores (un valor numrico ms pequeo) que
las de sf se podan explicar muchos de los estudios que han mostrado que
la proporcin de la magnitud del reforzador en realidad controla menos la
distribucin de conducta que la proporcin de frecuencia de reforzamiento.
2.7. La nocin de valor de los reforzadores
Una aproximacin complementaria a la de la ley de igualacin es inte
grar los distintos factores de reforzamiento bajo el concepto de valor de
la alternativa, y esto se ha investigado de forma bastante sistemtica con
los parmetros de la magnitud y la demora del reforzador (como en los
estudios de autocontrol comentados en el apartado anterior, pero tambin
con programas no concurrentes). El valor de una alternativa de respuesta
aumentar con la magnitud del reforzador y disminuir con la demora para
la entrega del reforzador. Matemticamente el valor del reforzador vendr
determinado, en este caso, por el cociente magnitud/demora.
Este anlisis simple nos permite predecir algunos fenmenos interesan
tes, algunos de ellos relativamente complejos en apariencia. Imaginemos
una situacin donde se ofrece un programa concurrente de IV 30-seg IV
20-seg, pero el reforzador es el doble en el primer componente. En esta
situacin, los sujetos elegirn la alternativa de mayor premio ms demo
rado, esto es, mostrarn un comportamiento autocontrolado. Esto es as
porque el valor de la alternativa IV 30-seg es 2/30 = 0,07 (dos reforzadores
257

P s ic o l o g a

d e l a p r e n d iz a j e

cada 30 seg por trmino medio), mientras que el valor de la alternativa IV


20-seg es 1/20 = 0,05 (un reforzador cada 20 seg por trmino medio).
Tomemos otro ejemplo, un programa concurrente IV 40-seg IV 15-seg,
con el doble de cantidad de reforzador en el primer componente. En este
caso, los animales elegirn ms la opcin de IV 15-seg (1/15 = 0,07) que
la opcin de IV 40-seg (2/40 = 0,05). Esto representara un caso de im
pulsividad.
Aunque los casos anteriores se han puesto como ejemplos de autocon
trol e impulsividad, la verdad es que no son del todo correctos. En cual
quiera de las dos situaciones, siempre haba una alternativa que ofreca
una mejor frecuencia de reforzamiento, lo que es plenamente acorde con
la ley de igualacin. Para entender mejor cmo funciona el autocontrol es
necesario partir de una situacin donde los animales elijan la alternativa
que les ofrezca un premio menor ms inmediato (como en el trabajo de
Rachlin y Green comentado en el apartado anterior). Por ejemplo, en un
programa concurrente IV 5-seg IV 10-seg que suministre 1,5 veces ms
cantidad de reforzador en el segundo componente, los sujetos elegirn
con ms probabilidad el programa IV 5-seg (1/5 = 0,2) que el programa IV
10-seg (1,5/10 = 0,15). Si se aadiera un retraso constante a la entrega de
las dos recompensas, como en los programas concurrentes encadenados,
se podran invertir las preferencias. Por ejemplo, aadiendo un intervalo
temporal de 20 seg a las dos alternativas, el valor de la alternativa IV 5-seg
sera 1/25 = 0,04, y el valor de la alternativa IV 10-seg sera 1,5/30 = 0,05.
Aadir un retraso constante a la entrega de los dos reforzadores vuelve un
comportamiento impulsivo en autocontrolado, y esto es precisamente
lo que demostraron Rachlin y Green (1972).
Mazur (1984) ha propuesto que el cambio de un comportamiento im
pulsivo a uno autocontrolado se puede explicar mediante una funcin hi
perblica que podra expresarse como sigue {Ecuacin 5.7):
Va= 1+Ma
kDa
donde Va sera el valor de un reforzador a que tuviese una magnitud Ma y
una demora Da\ k sera una constante que representa la tasa de descuento
de la demora para cada individuo particular en una situacin dada (una
258

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

tasa que indica hasta qu punto son apreciados los reforzadores demora
dos). El valor del reforzador sera mayor a medida que su magnitud fuese
mayor y la demora para su obtencin menor, pero la relacin no sera
lineal sino hiperblica (Mazur, 2001). Por ejemplo, para una magnitud
dada, el valor del reforzador aumentara en una proporcin creciente a
medida que sea menor la demora. En el caso de reforzamiento inmediato,
el valor del reforzador vendra exclusivamente determinado por su magni
tud. Aplicando esta ecuacin se puede comprobar que cuando un reforza
dor grande y otro pequeo son demorados, aunque el primero lo sea ms
que el segundo, el valor del reforzador grande ser superior al del pequeo
(autocontrol). El valor del reforzador pequeo ser mayor que el del gran
de, por el contrario, cuando la espera para el primero sea relativamente
pequea (impulsividad).
El valor aversivo de un castigo tambin cambia mediante una funcin
hiperblica semejante a la de la recompensa y expresada en la Ecuacin 5.7
(vase Dinsmoor, 1998). Como en el caso del reforzamiento, en la determi
nacin del valor aversivo relativo de dos castigos de intensidad y demoras
diferentes, tiende a incidir ms la diferencia entre sus intensidades que en
tre sus demoras si se trata de castigos muy diferidos (aqu se preferira el
castigo pequeo), pero tiende a incidir ms la diferencia entre sus demoras
que entre sus intensidades cuando el menos intenso es relativamente inme
diato (aqu se preferira el castigo grande). En el Captulo 7 se tratarn
estos y otros aspectos relacionados con el castigo.
2.8. La tasa de respuesta en relacin a la ley de igualacin
Herrnstein (1970) ampli la ley de igualacin al considerar que cual
quier situacin implica necesariamente una eleccin, incluso cuando slo
se ofrezca una alternativa de respuesta, como en los programas bsicos de
re forzamiento. En este caso, los animales deben elegir entre responder y no
hacerlo. Mejor dicho, los animales estn confrontados entre responder de
la manera especfica que requiere el experimentador (por ejemplo, presio
nar una palanca o picar una tecla) y realizar otras actividades (asearse, dar
vueltas, picotear el suelo, oler agujeros de la cmara experimental). Los su
jetos recibiran reforzadores explcitos, programados por la ocurrencia de la
respuesta operante explcita, pero tambin recompensas implcitas por las
259

P s ic o l o g a

d e l a p r e n d iz a j e

otras actividades que pueden realizar. Por tanto, tiene que considerarse que
el reforzamiento total de la situacin comprende los reforzadores progra
mados y los reforzadores no explcitamente programados. Matemticamen
te se puede describir esta conducta de eleccin como en la Ecuacin 5.8:
Ra
Fa
Ra +Ro Fa + Fo
donde Ra representa la tasa de respuesta operante especfica del programa,
R0 la tasa de las otras actividades del animal, Fa la frecuencia de reforza
miento explcito programado, y F0 la frecuencia de reforzamiento intrnse
co de las otras actividades.
Es ms, Herrnstein (1970) teoriz que la tasa total de conducta {Ra +
Ro) debera ser una constante pues, en general, se debe aceptar la idea de
que los organismos siempre estn haciendo algo, que siempre estn desa
rrollando alguna actividad (aunque sea descansar). Por tanto, la suma de
la tasa de respuesta criterio ms la de cualquier otra actividad debe ser
siempre igual. Si la tasa de respuesta criterio bajase, necesariamente quiere
decir que los animales estaran dedicndose a otras actividades; si subiese,
las otras actividades disminuiran. Es decir, la adquisicin de una respuesta
particular implica una redistribucin de respuestas entre las alternativas
disponibles. Si se representa la constante del total de la tasa de respuesta
por el parmetro k (Ra + Ro = k), despejando Ra en la Ecuacin 5.8 queda
ra como sigue (.Ecuacin 5.9):
/

7- _ N
Fa
Ra = k x
v Fa + Fo j

lo que significa que la tasa absoluta de una conducta (Ra) est en funcin
de la tasa relativa de reforzamiento de esa conducta en relacin con otras.
Una forma de aumentar la tasa de la respuesta sera aumentar la tasa de
reforzamiento asociada a esa conducta (haciendo que Fa fuese mayor), y
otra sera disminuir la tasa de reforzamiento alternativo (haciendo que Fo
disminuyese). Esta ecuacin es a menudo referida como la cuantificacin
de la ley del efecto de Thorndike (de Villiers, 1977) en la medida en que
especifica cuantitativamente cmo las consecuencias afectan a la conducta,
y transforma una ley de igualacin puramente descriptiva en una teora.
260

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Conducta de eleccin (Resumen)


La eleccin en programas concurrentes de reforzamiento ha sido por lo ge
neral bien descrita a travs de la ley de igualacin, que en virtud del desarrollo
de la investigacin es generalmente aceptada en su formulacin denominada
ley generalizada de la igualacin. Segn esta formulacin, la distribucin de
la conducta entre dos alternativas de respuesta se iguala a la distribucin del
reforzamiento obtenido en dichas alternativas, con la consideracin de que en
la eleccin pueden intervenir sesgos de respuesta (tendencias de respuesta no
debidas a reforzamiento) y una sensibilidad diferencial a los parmetros de
reforzamiento de las alternativas de respuesta.
La ley generalizada de la igualacin se cumple con diferentes mediciones
de la conducta (tasa de respuesta, tiempo de permanencia en las alternativas
de respuesta) y con diferentes caractersticas de los reforzadores (programas
concurrentes de intervalo o de razn, diferentes frecuencias de reforzamiento,
o diferentes magnitudes y demoras al reforzador), habiendo sido necesario
modificar un poco la formulacin original de la ley para poder incorporar los
resultados experimentales ms relevantes.
La ley de igualacin es una descripcin de la relacin que se establece entre
aspectos de la conducta y de los reforzadores, estableciendo como mucho una
correlacin entre aspectos de ejecucin de la conducta operante. Para explicar
cmo se obtiene la igualacin se han propuesto teoras molares y molecula
res, as como un mecanismo de mejoramiento que podra considerarse snte
sis de ambas aproximaciones.
Con base en la ley de igualacin se ha desarrollado una teora que explica
que la tasa de respuesta est determinada por el reforzamiento que acompaa
la realizacin de una conducta en particular as como por los reforzadores al
ternativos que se pudiesen obtener por realizar otras conductas, partiendo de la
idea de que los organismos siempre estn haciendo algo (estn comportndose
de manera continua).

3. LA NATURALEZA DE LA ASOCIACION EN EL APRENDIZAJE


INSTRUMENTAL
Siguiendo a Skinner (1938) y a Hull (1943), la formulacin de la ley de
igualacin y de la teora de la igualacin por Herrnstein se basaron en el
constructo de fuerza de la respuesta. Este constructo es probablemente
mejor entendido como variable interviniente y no realmente como un cons261

P s ic o l o g a

d e l a p r e n d iz a j e

tructo hipottico (MacCorquodale y Meehl, 1948), en el sentido de que res


ponde a un conjunto de cantidades empricamente medibles de conducta
(preferentemente la tasa de respuesta, pero no slo) (vase Conocimientos
previos para aclaracin de la distincin entre variable interviniente y constructo hipottico).
Cmo se desarrolla la fuerza de la respuesta? La respuesta tradicional
a esta pregunta ha sido (y quizs contina siendo la ms extendida) de
naturaleza asociativa, y en concreto a partir de la formacin de asociacio
nes entre los estmulos y las respuestas. ste fue el planteamiento de E. L.
Thorndike en la formulacin de la ley del efecto, y por eso se considera que
la ley del efecto propuesta por Thorndike es de naturaleza terica. Sin em
bargo, es C. L. Hull quin mejor representa la teora de que el aprendizaje
es fruto de la formacin de asociaciones estmulo-respuesta (E-R). Segn
este punto de vista, los estmulos ambientales elicitan respuestas, y su aso
ciacin se ve estampada por la ocurrencia del reforzador. En el futuro, ante
la presentacin de tales estmulos ser ms probable la ocurrencia de las
respuestas que han sido reforzadas.
E. L. Thorndike (1874-1949) comenz a trabajar experimentalmente
con animales dentro del ambiente darwinista de finales del siglo XIX (vase
el Captulo 1). Para sus experimentos, y como se vio en el Captulo 4, cons
truy unas ingeniosas cajas-problema que, aunque de rudimentario diseo,
le permitieron estudiar experimentalmente la conducta de los animales. Es
tas cajas se encontraban cerradas con una puerta que el animal poda abrir
accionando un pestillo. Sus sujetos experimentales, generalmente gatos,
estaban hambrientos cuando se colocaban en el interior de la caja. La co
mida se situaba en un recipiente a la vista de los animales, aunque lejos de
su alcance. El modo de obtener la comida era el problema que tenan que
resolver los gatos de Thorndike. Tras varios intentos infructuosos, los ani
males conseguan por casualidad accionar el pestillo para abrir la puerta
y as acceder a la comida. En intentos sucesivos la rapidez con que los gatos
conseguan abrir la puerta de la caja iba disminuyendo progresivamente,
hasta el punto de que nada ms introducirlos en la caja eran capaces de
salir casi inmediatamente. Estos resultados experimentales constituyeron
en parte la tesis doctoral de Thorndike, que present en 1898, obteniendo el
primer grado de doctor en la historia de la psicologa del aprendizaje, apro
ximadamente un ao despus de que Pavlov hubiera iniciado sus estudios
sobre los reflejos condicionados (Boakes, 1984).
262

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Thorndike formul las leyes necesarias para explicar el aprendizaje, en


tre las que destaca la ley del efecto y que qued enunciada de la siguiente
manera: De las varias respuestas que se dan en la misma situacin, aque
llas que van acompaadas o estrechamente seguidas de satisfaccin para
el animal, siendo constantes otras condiciones, tendern a conectarse ms
firmemente con la situacin, de modo que, cuando sta se repita, tales res
puestas tendrn mayor probabilidad de volver a ocurrir; aquellas que van
acompaadas o estrechamente seguidas de malestar para el animal, siendo
constantes otras condiciones, vern debilitadas sus conexiones con tal si
tuacin, de modo que, cuando sta se repita, tales respuestas tendrn me
nor probabilidad de ocurrir. Cuanto mayor sea la satisfaccin o el malestar,
mayor ser el fortalecimiento o debilitamiento del vnculo (Thorndike,
1911, p. 244). Aunque la formulacin de la ley del efecto ya se trat en el
Captulo 4, aqu es importante considerarla de nuevo por sus repercusiones
tericas. La ley del efecto en realidad es Lina ley terica, que postula que la
fuerza de la asociacin E-R (o percepcin de la situacin e impulso motor,
en el lenguaje de Thorndike) no depende de los principios asociacionistas
clsicos que explicaban el condicionamiento pavloviano, ms bien dichas
asociaciones dependen de la propia consecuencia de la accin. Como se
dijo en el Captulo 1, el pensamiento de Thorndike fue que el efecto de una
accin acta retroactivamente para sellar la asociacin que conduce a tal
efecto. La ley del efecto reemplaz a comienzos del siglo XX el antiguo prin
cipio de Spencer-Bain, segn el cual cualquier accin espontnea que fuera
seguida de sentimientos subjetivos de placer o de disminucin del dolor era
ms probable que volviera a ocurrir. El trabajo de Thorndike inaugur as
la investigacin experimental en condicionamiento instrumental.
Durante los aos treinta y cuarenta del siglo XX, la investigacin en
condicionamiento y aprendizaje animal goz de un auge extraordinario.
La influencia de Pavlov y de Thorndike fue decisiva para que en los Esta
dos Unidos de Amrica un grupo relativamente amplio de investigadores
centraran su inters y sus discusiones en torno a la naturaleza asociativa
del aprendizaje. Fueron tiempos donde la formulacin de teoras del apren
dizaje pretenda dar una explicacin coherente de la conducta animal y
humana en general, y de esta poca es necesario destacar a tres grandes
investigadores: Edwin R. Guthrie (1886-1959), Clark L. Hull (1884-1952)
y Edward C. Tolman (1886-1959). Vase el Captulo 1 para una primera
consideracin de sus contribuciones.
263

P s ic o l o g a

d e l a p r e n d iz a j e

Edwin R. Guthrie es quizs el continuador ms directo del pensamiento


de Watson. Guthrie (p. ej. 1935) opinaba que la funcin del reforzador en el
aprendizaje es facilitar la formacin de una asociacin entre el estmulo y la
respuesta, por lo que a este autor se le suele identificar con el esquema E-R.
La contribucin de Guthrie, sin embargo, no es exclusivamente terica.
Guthrie fue quien primero distingui entre actos y movimientos, argumen
tando que todo comportamiento est formado de movimientos musculares
discretos. Guthrie y Horton (1946) realizaron una serie de experimentos
con gatos utilizando cajas-problema semejantes a las empleadas con an
terioridad por Thorndike. Los gatos podan escapar de la caja accionando
una palanca colocada en su interior, resultando que la mayora de los ani
males ejecutaban la conducta sin grandes dificultades. Guthrie y Horton
(1946) fotografiaron la ejecucin de sus gatos y comprobaron que todos
ellos escapaban de la caja-problema pero que cada uno lo haca de manera
muy diferente. Algunos accionaban la palanca con una de sus patas delan
teras, otros la accionaban con el hocico. Segn Guthrie el acto de escapar
de la caja-problema se poda efectuar con movimientos diferentes, y, en su
experimento con Horton, cada gato haba aprendido una cosa diferente si
los movimientos para escapar de la caja eran tambin distintos.
Clark L. Hull (1943) utiliz, como Guthrie, los principios de la asocia
cin E-R para explicar el comportamiento aprendido. El papel del refuerzo
para Hull es, sin embargo, algo diferente que el otorgado por Guthrie. La
consecucin del reforzador, segn Hull, refuerza la formacin de una aso
ciacin E-R debido a una reduccin del impulso, introduciendo as el con
cepto de motivacin en la teora del aprendizaje. Para que los animales eje
cuten una accin determinada es imprescindible que tengan una necesidad
biolgica, que queda reducida por la consecucin del reforzador y que en
consecuencia produce un incremento en la fuerza de la asociacin entre el
estmulo y la respuesta. Hull (1943) desarroll la primera teora formal so
bre la formacin de los hbitos, convirtindose as en el ms clsico de los
psiclogos hipottico-deductivos del aprendizaje y en el mejor exponente
de la corriente de pensamiento conocida como neoconductismo. Posterior
mente Hull (1952) introdujo el concepto de incentivo para poder explicar
resultados como los de los efectos de contraste que no se podan explicar
nicamente en base a la nocin de impulso (vase el Captulo 4). La con
secucin del reforzador, segn Hull, reduce las necesidades del organismo
(impulso) al tiempo que incita a la accin (incentivo), distinguiendo estos
264

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

dos aspectos motivacionales de los reforzadores, que quedaron incorpora


dos a la ecuacin que determina la fuerza de la respuesta como factores
separados. La ejecucin conductual va a depender de la fuerza del hbito
(.H ), del nivel de impulso (.D=drive) y del valor del incentivo (/), siguiendo
la Ecuacin 5.10 (ntese que tanto la ejecucin como la fuerza del hbito
estn en funcin de la conexin E-R):
eE r = eH r x D x I
Edward C. Tolman es generalmente descrito como el defensor de un
esquema estmulo-estmulo (E-E) en el aprendizaje, contrario a la teora
E-R. Varios datos experimentales sirvieron a Tolman para apoyar este pun
to de vista. Por ejemplo, un grupo de ratas fue entrenado para nadar por
un pasillo con la finalidad de conseguir comida al final del mismo. Una vez
realizado este aprendizaje, se situ un suelo falso en el laberinto de ma
nera que las ratas podan llegar a conseguir la comida corriendo. Tolman
(1932) describe este experimento indicando que, a pesar de que no se haba
enseado a las ratas a correr para llegar al final del pasillo, todas las ratas
del experimento ejecutaron la conducta adecuada para conseguir la comi
da. Si el aprendizaje de las ratas hubiera sido exclusivamente el de nadar
por el pasillo, nunca habran podido correr casi inmediatamente despus
de situar el suelo falso en la segunda parte del experimento. Para Tolman,
las ratas aprendieron un mapa cognitivo del pasillo y podan trasladarse
de un extremo al otro del mismo de la forma fsica adecuada para cada
momento. Las ratas en este experimento aprendieron dnde ir y no tanto
a efectuar unos movimientos musculares concretos, resultado opuesto al
predicho por los defensores de un esquema E-R para el aprendizaje. Con
este experimento Tolman no slo intent demostrar que los cambios en la
conducta atribuidos al aprendizaje son el resultado de la intervencin de
procesos como la expectativa de recompensa, sino que al mismo tiempo
para Tolman es necesario distinguir entre el aprendizaje y la ejecucin,
no resultando necesario el reforzador para el aprendizaje pero s para la
ejecucin.
Tolman (1932) recoge varios ejemplos experimentales donde, en oca
siones, los animales pueden estar aprendiendo una determinada tarea y,
sin embargo, no ejecutar en ese momento la respuesta requerida para la
consecucin del premio. Una situacin experimental de este tipo es, por
ejemplo, la denominada de aprendizaje latente (Blodgett, 1929), donde los
265

P s ic o l o g a

d e l a p r e n d iz a j e

sujetos experimentales recorren un laberinto pero no se les recompensa por


hacerlo. Una vez finalizada esta fase del experimento, se vuelve a situar a
los animales en el laberinto y se refuerza con comida la respuesta correcta.
En circunstancias como sta se comprueba que los animales experimenta
les aprenden a efectuar la respuesta correcta ms rpidamente que otros
animales de control que no haban tenido la oportunidad de recorrer el la
berinto en primera instancia. Se dice entonces que los animales experimen
tales haban aprendido ya a recorrer el laberinto antes de empezar a recibir
el premio, pero que no ejecutaban la respuesta porque faltaba el reforzador.
El reforzador o recompensa, de acuerdo con Tolman, no es necesario para
el aprendizaje, pero es imprescindible para que posteriormente se ejecute la
respuesta aprendida. Esta caracterstica de los reforzadores es diferente de
la propuesta por las teoras E-R del aprendizaje. En este caso, el reforzador
estampa la conexin entre el estmulo y la respuesta, pero la ejecucin de
la respuesta es provocada por la mera presentacin del estmulo ambiental
antecedente. A pesar de esta diferencia esencial entre los planteamientos de
Tolman y Hull, ambos autores coincidiran en sealar que el aprendizaje y
la ejecucin son aspectos separables (recurdese la ecuacin de Hull donde
el aprendizaje - el hbito - es slo uno de los factores que determinan la
ejecucin, pero no es la ejecucin misma).
Seguramente los mecanismos asociativos E-R y E-E puedan estar am
bos implicados en el aprendizaje instrumental, siendo el mecanismo E-R
ms especfico en cuanto que establece formas precisas para producir las
respuestas, y no slo la adquisicin de la asociacin. A travs del meca
nismo E-R se pueden entender por qu determinadas respuestas son ms
adecuadas a determinados estmulos antecedentes y en funcin de las con
secuencias que hayan seguido a las respuestas con anterioridad, un meca
nismo que establece reglas de ejecucin y no slo de aprendizaje.
4. REGLAS DE EJECUCIN OPERANTE
Para explicar el desarrollo de la fuerza de la respuesta no todas las solu
ciones han sido de tipo asociativo, de hecho hay un grupo de psiclogos que
han propuesto que la asociacin realmente no es la nica solucin posible
(ni quizs la solucin) y han propuesto aproximaciones conductuales que
son herederas del planteamiento conceptual de B. F. Skinner (p. ej., Skin266

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

ner, 1950). B. F. Skinner propuso que en el condicionamiento operante los


reforzadores seleccionan las respuestas, no otorgando un papel necesario
a la formacin de ningn tipo de asociacin concreta, ni E-R, ni E-E. El
papel que otorg a los estmulos ambientales fue el de sealizadores al
disponer la oportunidad de que las respuestas se vieran recompensadas,
sirviendo los estmulos ambientales antecedentes como moduladores de las
relaciones entre las respuestas y los reforzadores (en trminos asociativos
como moduladores de una asociacin respuesta-reforzador), pero no se les
otorga ningn papel elicitador como es caracterstico de posiciones ms reflexolgicas. En la base de esta concepcin se encuentra la distincin entre
estmulo condicionado, como en el condicionamiento clsico, y estmulo
discriminativo, como en el condicionamiento operante.
4.1. Teora de la probabilidad diferencial
Premack (1965) seal que las respuestas que acompaan a los estmu
los reforzadores son actividades altamente probables, mientras que las acti
vidades instrumentales son menos probables. La razn de que una respues
ta se convierta en reforzadora viene determinada por su probabilidad de
ocurrencia en la lnea de base: Dadas dos respuestas en un procedimiento
de condicionamiento instrumental, la respuesta ms probable reforzar
a la menos probable y la respuesta menos probable no reforzar a la ms
probable (Premack, 1959, 1965).
El principio del reforzamiento de Premack puede considerarse un
desarrollo de la idea de que los reforzadores no tienen caractersticas in
trnsecas en s mismos sino que derivan su efecto de las disposiciones expe
rimentales en forma de relaciones de contingencia y que cualquier evento,
sea un estmulo o una respuesta, potencialmente puede convertirse en un re
forzador eficaz. El principio de Premack tiene dos supuestos fundamentales
para que una actividad pueda convertirse en un reforzador. Primero, dicha
actividad debe ser preferida en la lnea de base, y segundo, la probabilidad
de ocurrencia de la actividad preferida debe restringirse y ocurrir de forma
contingente con la realizacin de una actividad menos preferida, fruto de
lo cual la actividad menos preferida se convierte en instrumental. Como
resultado de la operacin de reforzamiento, la actividad reforzadora ocurre
a menor probabilidad que en condiciones de libre acceso y la actividad ins267

P s ic o l o g a

d e l a p r e n d iz a j e

trumental aumenta su probabilidad de ocurrencia. Esto es de hecho lo que


normalmente ocurre en los experimentos de condicionamiento operante. En
una situacin tpica, animales que tienen un cierto nivel de hambre deben
accionar un operando de respuesta para conseguir una pequea cantidad de
comida. En condiciones de acceso ilimitado a la comida y de disponibilidad
continuada del manipulando, los animales que tienen hambre dedicarn la
mayor parte del tiempo a comer y muy de vez en cuando pueden presionar
una palanca o picar una tecla iluminada. Para que la operacin de reforza
miento pueda tener lugar, hay que restringir el acceso a la comida y hacerlo
contingente con la emisin de la respuesta instrumental (la de menor proba
bilidad de ocurrencia en la lnea de base), que en consecuencia aumentar
su frecuencia de aparicin o su probabilidad de ocurrencia. De lo anterior
tambin se concluye que las actividades con una menor probabilidad de
ocurrencia en las situaciones de libre acceso nunca podrn reforzar a las
actividades con una mayor probabilidad de ocurrencia.
Premack y sus colaboradores llevaron a cabo muchos experimentos
para comprobar su teora. En uno de los experimentos, Premack (1962)
alter las probabilidades de las respuestas cambiando las condiciones de
privacin. En un estudio, las ratas fueron privadas de agua, pero no de la
oportunidad de correr por una rueda de actividad. En esas circunstancias
beber era ms probable que correr, y la oportunidad de beber pudo reforzar
el correr por la rueda. En un segundo estudio, las ratas no fueron privadas
de agua, y as, en esas circunstancias, correr era ms probable que beber.
Correr poda utilizarse para reforzar la bebida. As pues, correr y beber
podan usarse indistintamente como respuestas reforzadoras e instrumen
tales, dependiendo del estado de privacin de agua del animal.
En un experimento con nios, tras una lnea de base donde se midieron
las preferencias individuales por comer golosinas o jugar a las maquinitas
del milln, se realizaron dos fases en las que cada actividad se hizo con
tingente a la otra. Los nios que preferan comer golosinas, aumentaron
su tasa de jugar a las maquinitas para conseguir dulces, mientras que los
nios que preferan jugar con las maquinitas no incrementaron su tasa de
jugar por el hecho de que esta actividad fuera seguida de comer dulces.
Cuando las contingencias se invirtieron haciendo dependiente el jugar a
las maquinitas de haber comido una cantidad de dulces, slo los nios que
prefirieron aquella actividad en la lnea de base aumentaron su consumo de
golosinas (Premack, 1965).
268

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Premack complement el principio del reforzamiento con otro para


lelo sobre el castigo. En esta ocasin, Premack argument que la activi
dad de ms baja probabilidad puede castigar a la de mayor probabilidad
siempre y cuando se aumente su probabilidad de ocurrencia y suceda
contingentemente con la actividad ms preferida, que como resultado de
dicha operacin disminuir su frecuencia de aparicin en relacin con
su ocurrencia en la lnea de base. De aqu tambin se desprende que las
actividades ms preferidas nunca podrn castigar a las actividades menos
preferidas.
La posicin terica de Premack es plenamente conductual y se deriva
de la tradicin skinneriana, cuyo eje central es la ley emprica del efecto en
oposicin a la ley terica del efecto defendida por Thorndike. Traslada el
problema del reforzamiento a un plano diferente que el resto de las teoras
consideradas en el apartado anterior. Esta forma de concepcin terica
siempre estar limitada por no saber la razn ltima de por qu los sujetos
prefieren una actividad ms que otra en la prueba de libre eleccin, pero
la contestacin a esta pregunta puede que resulte innecesaria para la psi
cologa del aprendizaje, siendo la respuesta de corte ms bien biolgico y
no necesariamente incompatible con concepciones como la defendida por
Premack.
La teora de la probabilidad diferencial es simple a la vez que compleja.
Por un lado es simple y tiene un gran poder predictivo. Para predecir si una
conducta reforzar a otra, simplemente basta con medir sus probabilidades
bajo una condicin de lnea de base, donde las dos conductas estn libre
mente disponibles en ausencia de limitacin alguna. Evaluadas despus en
un programa de reforzamiento, una actividad reforzar a la otra si, y solo
si, sta era ms probable que la otra en la situacin de lnea de base. No
importa si la conducta provoca placer, reduce una necesidad, provoca una
activacin fisiolgica, o simplemente es caracterstica de la especie, lo ni
co importante es que sea ms probable que la otra conducta en condiciones
de libre acceso.
Por otro lado, es compleja en cuanto a la medida de la probabilidad de
la respuesta. Una posible medida es la frecuencia con la que ocurre dicha
respuesta. Esa medida es buena siempre que comparemos respuestas pare
cidas, por ejemplo las presiones a dos palancas (vanse los programas con
currentes), pero cmo comparar las frecuencias de actividades tan distin269

P s ic o l o g a

d e l a p r e n d iz a j e

tas como hacer un crucigrama o comer? cul es la unidad conductual, dar


un bocado o tomarse la racin entera?, resolver una palabra del crucigra
ma o el crucigrama entero? Para solventar este problema, Premack sugiri
que la probabilidad de la respuesta deba de considerarse en una dimensin
temporal, de forma tal que pudiera definirse como el tiempo dedicado a una
actividad particular sobre el tiempo total. El periodo de observacin en la
lnea de base es, por consiguiente, crucial para valorar la probabilidad de
las respuestas que ocurran slo peridicamente. Por ejemplo, aunque en un
da dedicamos mucho tiempo a comer, la actividad de comer no se distri
buye uniformemente a lo largo del da. Es altamente probable a unas horas
determinadas. Dado que las probabilidades de las respuestas varan con el
tiempo, Premack sugiri que la medida de la respuesta ms apropiada es la
probabilidad momentnea.
4.2. Teora de la privacin de respuesta
En la mayora de los procedimientos de condicionamiento operante,
la probabilidad momentnea de la respuesta reforzadora se mantiene a
un nivel alto. Esto se consigue restringiendo la oportunidad de realizar la
respuesta reforzadora. Es decir, la respuesta reforzadora tiene que ser ms
probable que la instrumental y estar restringida. Premack formul el refor
zamiento en funcin de las probabilidades relativas de las respuestas ins
trumentales y reforzadoras. Sin embargo, el propio Premack se dio cuenta
de que no basta con la probabilidad diferencial, la eficacia del reforzador
depende de que estn limitadas las posibilidades de ejecutar esa respuesta.
Eisenberger, Karpman y Trattner (1967) propusieron una hiptesis ms
radical, consistente en que los programas de reforzamiento incrementarn
la frecuencia de ocurrencia de la respuesta operante por encima de su lnea
de base si, y slo si, dichos programas privan al individuo de realizar la
respuesta reforzadora.
La direccionalidad en el principio del reforzamiento propuesta por Pre
mack es cuestionada por la hiptesis de privacin de respuesta (Allison,
1989; Timberlake y Allison, 1974). Segn esta propuesta, para que una
actividad pueda funcionar como un reforzador eficaz slo es necesario
restringir la realizacin de dicha actividad en relacin con su ocurrencia
en el punto de bienestar (o lnea de base con acceso ilimitado a todas las
270

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

actividades), pero no es necesario que dicha actividad tenga que ser ms


preferida que la que se va a convertir en actividad instrumental. Como se
puede comprobar, esta hiptesis es todava ms relativa que la de Premack
sobre el concepto de reforzador, y de hecho en su formulacin elude refe
rirse a algo as como el reforzador para poder explicar el proceso de condi
cionamiento. Puede esquematizarse as: I/R > Oi/Or, siendo I = Respuesta
Instrumental, R = Respuesta Reforzadora, Oi = Conducta Observada en la
lnea de base (la que luego ser instrumental), Or = Conducta Observada en
la lnea de base (la que luego ser reforzadora). Refleja que la proporcin
entre una actividad instrumental y una reforzadora debe ser mayor que la
proporcin observada entre estas dos actividades en el punto de bienestar.
Imaginemos una situacin donde a una rata se le permite el libre acceso
a dos actividades, beber de una botella y correr por una rueda, y que se ob
tienen los resultados representados en la Figura 5.9. El punto de bienestar
es dar 400 lametones y realizar 200 giros en la rueda. Beber resultara una
actividad preferida sobre correr. Ahora se restringe la oportunidad de beber
y se hace contingente a la ocurrencia previa de una cierta actividad de girar
Se restringe correr (RF-4)

y)o

GO
J2o
-oo
o

beber (RF-l)

"H

o
o

CG

500
Correr (nmero de giros en una rueda)

600

Figura 5.9. Situacin


experimental donde
el animal tiene acceso
a las actividades de
correr y beber, cuando
ambas actividades estn
disponibles libremente,
o cuando se restringe el
correr o el beber.
271

P s ic o l o g a

d e l a p r e n d iz a j e

la rueda, conforme a lo estipulado por el principio de Premack. Correr sera


la respuesta instrumental y beber la respuesta contingente o reforzadora,
y el resultado de dicha operacin de reforzamiento sera la lnea A de la
figura. En concreto, se representa un programa de reforzamiento de RF-1,
donde cada giro en la rueda de actividad va seguido de la emisin de un
lametn a la botella con agua. Como se puede apreciar, la contingencia no
pasa por el punto de bienestar, y lo que la teora pretende determinar es
cmo se ajustarn los animales a la contingencia (que se debe aceptar como
supervivencial) aceptando las limitaciones impuestas por el medio. El argu
mento puede ser el siguiente. Para intentar restablecer su punto ptimo (de
bienestar), el animal debe ejecutar la respuesta instrumental designada por
encima del nivel que exista cuando la respuesta era irrelevante para obte
ner el reforzador. La frecuencia de la respuesta o su tasa se estabilizar en
el punto en que el coste de incrementos mayores en la respuesta sobrepase
el beneficio de obtener el reforzador lo ms cerca posible del nivel alcan
zado en la lnea de base. Este punto es como el representado sobre la lnea
A porque es el que minimiza la distancia al punto de bienestar cumplien
do con la contingencia de reforzamiento (Staddon, 1979). Como se puede
apreciar, en este punto la actividad instrumental ha aumentado en probabi
lidad de ocurrencia, al tiempo que la actividad contingente ha disminuido
su probabilidad, en relacin con el punto de bienestar, de acuerdo tambin
con el principio de Premack.
La situacin crtica que diferencia la hiptesis de privacin de la res
puesta del principio de Premack es cuando, en la Figura 5.7, lo que se res
tringe es la actividad de correr, en principio de menor probabilidad que la
de beber. En este caso, el animal tiene que dar un determinado nmero de
lametones para tener acceso a la rueda de actividad, lo que en el ejemplo se
representa por la lnea B y se corresponde a un programa de RF-4. Segn
la hiptesis de privacin de la respuesta este tipo de contingencia es posible
y los datos experimentales parecen confirmar esta prediccin (p. ej., Allison
y Timberlake, 1975), por otro lado contraria a uno de los supuestos del
principio de Premack (vase anteriormente). Los animales distribuirn sus
comportamientos de acuerdo al punto representado sobre la lnea B porque
es el que minimiza la distancia al punto de bienestar, de manera que la acti
vidad instrumental (beber, la que era en principio ms probable) aumenta,
y la actividad contingente (correr) disminuye, su frecuencia de ocurrencia
en relacin a la lnea de base.
272

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

Si los argumentos presentados han quedado lo suficientemente claros,


no debe ser difcil determinar a simple vista qu actividad es instrumental
y cul contingente en figuras como la aqu representada. Observando el
punto de bienestar y los ejes cartesianos, se puede establecer la regla de que
la contingencia que se desva en direccin opuesta a uno de los ejes desde
el punto de bienestar, la actividad representada en dicho eje se restringe y
por lo tanto constituye la actividad reforzadora.
La hiptesis de privacin de respuesta ha sido aplicada a muchas si
tuaciones de condicionamiento operante, resultando en predicciones rela
tivamente novedosas y contraintuitivas. Tomemos por caso la frecuencia
de reforzamiento, considerada anteriormente en relacin con la ley de
igualacin. De acuerdo con lo all tratado, a una mayor frecuencia de refor
zamiento se debe esperar una mayor tasa de respuesta. En otras palabras,
cuanto ms largo sea el intervalo entre reforzadores, la tasa de respuesta
deber ser menor. Esta funcin lineal negativa se desprende de forma lgica
de la idea de igualacin, pero tambin se ha obtenido con la utilizacin de
programas bsicos de reforzamiento (Catania y Reynolds, 1968). La hipte
sis de privacin de respuesta, sin embargo, predice que la tasa de respuesta
y la tasa de reforzamiento deben relacionarse en forma de U-invertida y no
100

o 90
80 SOh
a 70 O3 60 <oSah/) 50 ca<r 40 oZj
<oa/) 30 C/D

>
(/)

o
c/)

20

10

Tasa de reforzamiento (reforzadores por minuto)

Figura 5.10. Hipotticas


relaciones lineales o
bitnicas entre la tasa
de respuesta y la tasa de
reforzamiento.

273

P s ic o l o g a

d e l a p r e n d iz a j e

de manera lineal. Especficamente, a medida que disminuya la frecuencia


de reforzamiento, la tasa de respuesta instrumental debe aumentar, para
posteriormente disminuir a intervalos entre reforzadores an mayores. La
Figura 5.10 ilustra como resultara cada una de estas dos funciones.
El argumento que se sigue por la hiptesis de privacin de respuesta
para predecir que la funcin debe ser bitnica es que a medida que el re
querimiento del programa sea mayor (una longitud mayor del programa de
razn o de intervalo), el nmero de respuestas debe aumentar inicialmente
porque el beneficio de obtener el reforzador compensa el coste de respon
der ms frecuentemente. Sin embargo, si el requisito del programa au
mentara demasiado, el coste de responder en exceso no compensara ms
la baja frecuencia de reforzamiento obtenido. Timberlake y Peden (1987)
obtuvieron funciones bitnicas para los programas de IV y RF (vase, tam
bin, Felton y Lyon, 1966).
Veamos cmo funciona la idea grficamente para los programas de RF.
La Figura 5.11 ilustra una situacin experimental tpica en los laboratorios
de psicologa del aprendizaje, aunque el ejemplo sea totalmente arbitrario
y cumpla un propsito meramente didctico. Una rata que tiene hambre
tiene a su disposicin comida y una palanca de respuestas, en condiciones
de libre acceso consumir ms bolitas de comida que presionar la palanca.
Supongamos que el punto de bienestar se corresponde con la ingesta de
100 bolitas de comida y la realizacin de 10 presiones de palanca. Si intro
dujramos ahora un programa de RF-1 por la que cada presin de palanca
fuera seguida de la administracin de una bola de comida, la contingencia
sera como la de la lnea A de la figura. Se puede calcular, como se hizo
anteriormente, la distancia mnima al punto de bienestar, y as se puede
predecir hasta dnde se puede forzar la respuesta instrumental de la rata
de acuerdo a esa contingencia de reforzamiento. Si se alargarse el requisito
de la razn, se debera reducir la frecuencia de reforzamiento, al tardarse
ms en completar el programa. Esto es lo que ocurre en las otras dos si
tuaciones representadas en la figura. Un programa de RF-5 (lnea B) aleja
la contingencia del punto de bienestar, pero todava existe algn punto en
la contingencia donde la distancia es significativamente menor al punto
de bienestar. Esto hace que el animal tenga que efectuar ms presiones
de palanca para acercarse lo ms posible a su ptimo conductual. Cuando
la frecuencia de reforzamiento disminuya ms todava y el requisito del
programa se alargue en exceso, la distancia mnima desde la contingencia
274

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

al punto de bienestar ser grande, y, lo que es ms importante, no existir


ningn rea de la contingencia que sea significativamente mejor que otra.
Esta es la situacin que se puede producir en el ejemplo con un programa
de RF-25 (lnea C).
Un aspecto interesante que se deriva del anlisis anterior es que la ob
tencin de una funcin lineal o bitnica puede depender de la longitud de la
sesin experimental, puesto que las contingencias se separan ms a medida
que se aumente el nmero de reforzadores administrados (vase la Figura
5.11). Cuando las sesiones experimentales sean relativamente cortas, co
mo en la mayora de los experimentos, la funcin que relaciona la tasa de
respuesta con la tasa de reforzamiento debera tender hacia la linealidad,
lo que reconcilia esta posicin terica con los resultados generalmente
encontrados en investigaciones previas como las comentadas en apartados
anteriores de este captulo.

Nmero de bolitas de comida

Figura 5.11. Punto de bienestar y restricciones impuestas por diferentes programas de


razn fija, segn la hiptesis de la privacin de respuesta.

275

P s ic o l o g a

d e l a p r e n d iz a j e

Teoras del aprendizaje (Resumen)


Para explicar por qu se realizan (fortalecen) las respuestas a travs del
proceso de reforzamiento ha habido dos aproximaciones generales, que son
histricas y que continan en la actualidad. Por una parte, se ha pensado que
los reforzadores participan de alguna manera en la formacin de asociaciones
entre los estmulos y las respuestas, bien sea directamente a travs de asocia
ciones E-R o a travs de asociaciones entre estmulos (asociaciones E-E). Co
mo alternativa a la postura asociacionista se ha desarrollado la aproximacin
que considera que el reforzamiento acta sobre la conducta a travs de un pro
ceso seleccionista, de manera que se selecciona respuestas concretas porque en
el pasado resultaron ventajosas. Ejemplos de este tipo de aproximacin son la
teora de la probabilidad diferencial, ms conocida como principio del refor
zamiento de Premack, y la teora de la privacin de respuesta, que tienen
en comn la defensa de que una actividad va a funcionar como un reforzador
eficaz si est restringida con respecto al ptimo al que se desarrollara dicha
actividad en situaciones de no limitaciones ambientales.

276

P rogramas

T r m in o s

y t e o r a s d e l r e f o r z a m ie n t o

destacados

Asociaciones E-R vs. E-E: Para explicar la adquisicin de fuerza de una res

puesta tradicionalmente se ha pensado que se forman asociaciones entre


los estmulos y las respuestas. Este tipo de explicacin no se adeca a
todos los resultados experimentales, habiendo sido necesario postular la
co-ocurrencia de asociaciones estmulo-estmulo. La explicacin E-R ha
sido importante para establecer reglas de aprendizaje, pero tambin para
determinar reglas de ejecucin de lo ya aprendido.
Autocontrol (frente a impulsividad): Eleccin de un reforzador grande de
morado frente a la eleccin ms natural de reforzadores pequeos inme
diatos (impulsividad). El peso de la inmediatez de la recompensa influye
normalmente ms en la conducta que la magnitud del reforzador (siguien
do el principio de contigidad temporal), una forma de contrarestarlo es
demorar aunque sea brevemente el reforzador pequeo, resultando en que
esperar un poco ms para un premio mayor se vuelve ms atractivo. El va
lor de los reforzadores basado en las caractersticas de magnitud y demora
se puede cuantificar siguiendo un modelo hiperblico.
Funciones de retroalimentacin: Son descripciones de las posibles relaciones
existentes entre aspectos ambientales relacionados con la ocurrencia del re
forzador (por ejemplo, su frecuencia de ocurrencia) y aspectos de ejecucin
conductual (como puede ser, por ejemplo, la frecuencia de ocurrencia de la
respuesta). Por lo general en los programas de razn se encuentran funcio
nes lineales, mientras que en los programas de intervalo se encuentran fun
ciones hiperblicas. Las funciones de retroalimentacin se corresponden
con una explicacin molar de las relaciones del ambiente con la conducta.
Ley de igualacin: Es una relacin matemtica que establece una equipara
cin entre la tasa relativa de respuesta entre las alternativas existentes en un
programa concurrente y la tasa relativa de reforzamiento que acompaa la
eleccin de dichas alternativas de respuesta. La conducta de eleccin predicha por la ley de igualacin se ha visto influida por factores como los sesgos
de respuesta y la sensibilidad a las consecuencias de reforzamiento, lo que
ha llevado a su reformulacin matemtica dando lugar a la ley generalizada
de la igualacin.
Mejoramiento: Teora propuesta para explicar la eleccin en programas con
currentes de reforzamiento y basada en la idea de que siempre se respon
277

P s ic o l o g a

d e l a p r e n d iz a j e

der para mejorar la tasa local de reforzamiento, dando como resultado


la igualacin al equipararse las tasas locales de reforzamiento fruto de
que a las alternativas de respuesta se les darn respuestas, se obtendrn
reforzadores y se les dedicar un tiempo que estarn en proporcin al re
forzamiento disponible en dichas opciones de respuiesta. El mejoramiento
es una alternativa terica que tiene elementos molares y moleculares de
explicacin de la conducta.
Programas bsicos de reforzamiento: Son reglas que determinan cmo se
reforzarn las respuestas, destacando cuatro programas fundamentales:
razn fija, razn variable, intervalo fijo e intervalo variable. La diferencia
entre ellos se basa en el criterio de si se reforzar la respuesta que completa
un nmero determinado de respuestas o la respuesta dada despus de haber
pasado un tiempo especificado, criterio que tanto en un caso como en otro
puede ser fijo o puede variar de una ocasin a la siguiente. Los programas
de razn mantienen por lo general tasas de respuesta ms altas que los de
intervalo, y los programas fijos, a diferencia de los variables, generan pau
sas post-reforzamiento.
Programas compuestos secuenciales de reforzamiento: Hace referencia a
la presentacin en sucesin de al menos dos programas bsicos de reforza
miento, destacando los programas mixto, mltiple, tndem y encadenado,
cuya diferencia radica en cmo se pasa de uno a otro de los programas
componentes y si existe seal discriminativa para los mismos.
Programas concurrentes y conducta de eleccin: Se refieren a la disposi
cin de dos o ms programas bsicos de reforzamiento de forma simult
nea, de manera que para obtener el reforzador se tiene que elegir a cul
de ellos responder. La forma en que se programan las contingencias de
reforzamiento en las alternativas de respuesta determina la forma en que
se elegir entre ellas.
Programas (y teora) de reforzamiento diferencial de tiempos entre res
puestas: Se puede reforzar especficamente que se separen las respuestas
entre s por un tiempo mnimo (un programa de reforzamiento diferencial
de tasas bajas de respuesta) o por un tiempo mximo (un programa de re
forzamiento diferencial de tasas altas de respuesta), lo que genera respecti
vamente responder lenta o rpidamente. Este reforzamiento diferencial de
los tiempos entre respuestas se piensa que est involucrado en la ejecucin
de todos los programas de reforzamiento aunque especficamente no se
278

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

hubiesen programado as, y responde a un tipo de explicacin caractersti


co de una aproximacin terica molecular (frente a la explicacin de tipo
molar).
Sensibilidad al reforzador: Estimacin de cuanto una caracterstica de re
forzamiento influye en su efecto, de manera que no todas las variables que
definen a los reforzadores (como su frecuencia o magnitud) contribuyen lo
mismo a determinar el valor de los mismos, ni tienen el mismo valor para
todos los individuos. Estimar la influencia relativa de una caracterstica
de reforzamiento en relacin a otras, y con referencia a cada sujeto, es
importante para poder determinar las preferencias en pruebas de eleccin
como las de los programas concurrentes. Un parmetro de sensibilidad es
incorporado a la ley generalizada de la igualacin para poder explicar por
qu en ocasiones la mejor alternativa es preferida por encima de lo que
objetivamente vale (sobreigualacin) y en muchas otras es preferida por
debajo de lo que vale (infraigualacin).
Teora de la privacin de respuesta: Propuesta terica que matiza el princi
pio del reforzamiento de Premack al postular que lo nico necesario para
que una actividad pueda funcionar como reforzadora es restringir su ocu
rrencia con respecto a su ptimo (ahora denominado punto de bienestar),
pero que no es necesario establecer ninguna jerarqua de preferencias para
saber si las actividades instrumental y reforzadora son diferencialmente
preferidas.
Teora de la probabilidad diferencial: Tambin conocida como principio de
Premack, y por la que se propone que para que una actividad pueda fun
cionar como reforzadora debe ser preferida sobre la actividad que se quiere
reforzar y hacerla posible slo de forma contingente a la realizacin previa
de la conducta instrumental, para lo cual habr que restringir su ocurrencia
en relacin a los niveles ptimos de preferencia (pues si no estuviese res
tringida dicha actividad no podra funcionar como reforzadora).

279

P s ic o l o g a

d e l a p r e n d iz a j e

REFERENCIAS
A breu -R odrigues , J.; L attal , K.A.;

Dos S antos , C.V. y M atos , R. A. (2005). Variation, repetition, and choice. Journal of the Experimental Analysis of Behavior,
83, 147-168.
A llison , J. (1989). The nature of reinforcement. En S.B. Klein y R.R. Mowrer
(Eds.), Contemporary Learning theories: Instrumental conditioning and the impact of biological constraints on learning (pp. 13-39). Hillsdale, NJ: Erlbaum.
A llison , J. y T imberlake , W. (1975). Response deprivation and instrumental perfor
mance in the controlled-amount paradigm. Learning and Motivation, 6, 122-142.
A n g e r , D. (1956). The dependence of interresponse times upon the relative rein
forcement of different interresponse times. Journal of Experimental Psychology,
52, 145-161.
A paricio , C. F. (2001). Overmatching in rats: The barrier choice paradigm. Journal
of the Experimental Analysis of Behavior, 75, 93-106.
B arn , A. y H erpolsheim er , L. R. (1999). Averaging effects in the study of fixed-ratio
response patterns. Journal of the Experimental Analysis of Behavior, 71, 145-153.
B aum , W. M. (1973). The correlation-based law of effect. Journal of the Experimen
tal Analysis of Behavior, 20, 137-153.
(1974). On two types of deviation from the matching law: Bias and undermatching. Journal of the Experimental Analysis of Behavior, 22, 231-242.
(1979). Matching, undermatching, and overmatching in studies of choice. Jour
nal of the Experimental Analysis of Behavior, 32, 269-281.
(1989). Quantitative prediction and molar description of the environment. The
Behavior Analyst, 12, 167-176.
(1992). In search of the feedback function for variable-interval schedules. Jour
nal of the Experimental Analysis of Behavior, 57, 365-375.
(1993). Performances on ratio and interval schedules: Data and theory. Journal
of the Experimental Analysis of Behavior, 59, 245-264.
B aum , W. M. y R achlin , H. C. (1969). Choice as time allocation. Journal of the Ex
perimental Analysis of Behavior, 12, 861-874.
B lodgett , H. C. (1929). The effect of the introduction of reward upon the maze per
formance of rats. JJniversity of California Publications in Psychology, 4, 113-134.
B oakes , R. A. (1984). From Darwin to behaviourism. Cambridge: Cambridge University Press, (traducido por Editorial Alianza)
B row nstein , A. J. y P liskoff , S. S. (1968). Some effects of relative reinforcement
rate and chageover delay in response-independent concurrent schedules of
reinforcement. Journal of the Experimental Analysis of Behavior, 11, 683-688.
280

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

C atania , A. C. (1963)

Concurrent performances: A baseline for the study of reinfor


cement magnitude. Journal of the Experimental Analysis of Behavior, 6, 299-300.
C atania , A. C.; M atthew s , T. J.; S ilverman , P. J. y Y ohalem , R. (1977). Yoked variable-ratio and variable-interval responding in pigeons. Journal of the Experi
mental Analysis of Behavior, 28, 155-161.
C atania , A. C. y R eynolds , G. S. (1968). A quantitative analysis of the responding
maintained by interval schedules of reinforcement. Journal of the Experimental
Analysis of Behavior, 11, 327-383.
C o l , M. R. (1994). Response-rate differences in variable-interval and variable-ratio schedules: An od problem revisited. Journal of the Experimental Analysis of
Behavior, 61, 441-451.
(1999). Molar and molecular control in variable-interval and variable-ratio
schedules. Journal of the Experimental Analysis of Behavior, 71, 319-328.
C ording , J. R.; M c L ean , A. P. y G race , R. C. (2011). Testing the linearity and independence assumptions of the generalized matching law for reinforcer magnitu
de: A residual meta-analysis. Behavioural Processes, 87, 64-70.
C rossm an , E. K. (1968). Pause relationships in mltiple and chained fixed-ratio
schedules. Journal of the Experimental Analysis of Behavior, 11,117-126.
D avison , M. y M c C arthy , D. (1988). The Matching Law: A research review. Hillsdale,
NJ: Erlbaum.
D e V illiers , P. A. (1977). Choice in concurrent schedules and a quantitative formulation of the law of effect. En W.K. Honig y J.E.R. Staddon (Eds.), Handbook of
operant behavior (pp. 233-287). Englewood Cliffs, NJ: Prentice-Hall (traducido
por Editorial Trillas).
D insm oor , J. A. (1998). Punishment. En W. ODonohue (Ed.), Learning and beha
vior therapy (pp. 188-204). Boston, MA: Allyn and Bacon.
E lliffe , D.; D avison , M. y L andon , J. (2008). Relative reinforcer rates and magnitu
des do not control concurrent choice independently. Journal of the Experimen
tal Analysis of Behavior, 90, 169-185.
E isen b er g er , R.; K arpman , M. y T rattner , J. (1967). What is the necessary and
sufficient condition for reinforcement in the contingency situation? Journal of
Experimental Psychology, 74, 342-350.
F elton , M. y L yon , D. O. (1966). The post-reinforcement pause. Journal of the Ex
perimental Analysis of Behavior, 9, 131-134.
F er ster , C. B. y S k in n er , B. F. (1957). Schedules of reinforcement. New York:
Appleton-Century-Crofts.
F indley , J. D. (1958). Preference and switching under concurrent scheduling. Jour
nal of the Experimental Analysis of Behavior, 1, 123-144.
281

P s ic o l o g a

d e l a p r e n d iz a j e

G ollub , L. R. (1977). Conditioned reinforcement: Schedule effects. En W.K.Honig


y J.E.R.Staddon (Eds.), Handbook of operant behavior (pp. 288-312). Englewood

Cliffs, NJ: Prentice-Hall (traducido por Editorial Trillas).


G uthrie , E. R. (1935). The psychology of learning. New York: Harper.
G uthrie , E. R. y H orton , G. P. (1946). Cats in a puzzle box. New York: Rinehart.
H err n stein , R. J. (1961). Relative and absolute strength of response as a function
of frequeney of reinforcement. Journal of the Experimental Analysis of Behavior,
4, 267-274.
(1970). On the law of effect. Journal of the Experimental Analysis of Behavior,
13, 243-266.
H err n stein , R. J. y H eyman , G. M. (1979). Is matching compatible with reinforce
ment maximization on concurrent variable interval, variable ratio? Journal of
the Experimental Analysis of Behavior, 31, 209-223.
H err n stein , R. J. y V aughan , W. (1980). Melioration and behavioral allocation. En
J.E.R. Staddon (Ed.), Limits to action (pp. 143-176). New York: Academic Press.
H iga , J. J.; W ynne , C. D. L. y S taddon , J. E. R. (1991). Dynamics of time discrimination. Journal of Experimental Psychology: Animal Behavior Processes, 17, 281-291.
H onig , W. K. y U rcuioli , P. J. (1981). The legacy of Guttman and Kalish (1956):
25 years of research on stimulus generalization. Journal of the Experimental
Analysis of Behavior, 36, 405-445.
H ull , C. L. (1943). Principies of behavior. New York, NY: Appleton-Century-Crofts.
(traducido al espaol por Editorial Debate)
(1952). A behavior system: An introduction to behavior theoiy concerning the in
dividual organism. New Haven, CT: Yale University Press.
K illeen , P. R. (1969). Reinforcement frequeney and contingency as factors in
fixed-ratio behavior. Journal of the Experimental Analysis of Behavior, 12, 391-395.
K illeen , P. R. y P elln , R. (2013). Adjunctive behaviors are operants. Learning and
Behavior, 41, 1-24.
L andon , J.; D avison , M. y E lliffe , D. (2003). Concurrent schedules: Reinforcer
magnitude effects. Journal of the Experimental Analysis of Behavior, 79, 351-365.
L e je u n e , H.; F errara , A.; S im o ns , F. y W earden , J. H. (1997). Adjusting to changes
in the time of reinforcement: Peak-interval transitions in rats. Journal of Expe
rimental Psychology: Animal Behavior Processes, 23, 211-231.
L e je u n e , H.; R ich elle , M. y W earden , J. H. (2006). About Skinner and time: Behavior-analytic contributions to research on animal timing. Journal of the Experi
mental Analysis of Behavior, 85, 125-142.
L ew is , D. J. (1960). Pardal reinforcement: A selective review of the literature since
1950. Psychological Bulletin, 57, 1-28.
282

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

L ogue , A. W.; R odrguez , M.

L.; P ea -C orreal , T. E. y M auro , B. E. (1984). Choi


ce in a self.control paradigm: Quantification of experience-based differences.
Journal of the Experimental Analysis of Behavior, 41, 53-67.
M ac C o r q u o d a l e , K. y M e e h l , P. E. (1948). On a distinction between hypothetical
constructs and intervening variables. Psychological Review, 55, 95-107.
M a z u r , J. E. (1984). Test of an equivalence rule for fixed and variable reinforcer
delays. Journal of Experimental Psychology: Animal Behavior Processes, 10, 426436.
M azur , J. E. (1998). Learning and Behavior (4th Edition). Upper Sadle River, NJ:
Prentice-Hall.
M a z u r , J. E. (2001). Hyperbolic valu addition and general models of animal choi
ce. Psychological Review, 108, 96-112.
M c D ow ell , J. J. (2005). O n the classic a n d m o d e rn th eo ries of m atch in g . Journal
of the Experimental Analysis of Behavior, 84, 111-127.
M c S w een ey , F. K.; K owal , B. P. y M urphy , E. S. (2003). The effect of rate of
reinforcement and time in session on preference for variability. Learning and
Behavior, 31, 225-241.
M o r se , W. H. (1966). Intermittent reinforcement. En W.K. Honig (Ed.), Operant
behavior: Areas of research and application (pp. 52-108). New York: Appleton-Century-Crofts (traducido por Editorial Trillas).
N e v in , J. A. y B a u m , W. M. (1980). Feedback functions for variable-interval reinfor
cement. Journal of the Experimental Analysis of Behavior, 34, 207-217.
P e e l e , D. B.; C asey , J. y S ilberberg , A. (1984). Primacy of interresponse-time
reinforcement in accounting for rate differences under variable-ratio and va
riable-interval schedules. Journal of Experimental Psychology: Animal Behavior
Processes, 10, 149-167.
P ow ell , R. W. (1968). The effect of small sequential changes in fixed-ratio size
upon the post-reinforcement pause. Journal of the Experimental Analysis of
Behavior, 11, 589-593.
P r e m a c k , D. (1959). Toward empirical behavior laws: I. Positive reinforcement.
Psychological Review, 66, 219-233.
(1962). Reversibility of the reinforcement relation. Science, 136, 255-257.
(1965). Reinforcement theory. En D. Levine (Ed.), Nebraska symposium on motivation Vol. XIII (pp. 123-180). Lincoln: University of Nebraska Press.
R achlin , H. (1978). A m o la r th e o ry of re in fo rc e m e n t schedules. Journal of the Ex
perimental Analysis of Behavior, 30, 345-360.
R a c h l in , H.; B a t t a l io , R.; K a g e l , J. y G r e e n , L. (1981). Maximization theory in
behavioral psychology. Behavioral and Brain Sciences, 4, 371-417.
283

P s ic o l o g a

d e l a p r e n d iz a j e

H. y G r e e n , L. (1972). Commitment, choice and self-control. Journal of


the Experimental Analysis of Behavior, 17, 15-22.

R a c h l in ,

R eed , P.; H ildebrandt , T.; D e J ongh , J. y S o h , M. (2003). R ats p erfo rm an ce on variable-interval schedules w ith a lin ear feedback loop betw een response rate an d
rein fo rcem en t rate. Journal of the Experimental Analysis of Behavior, 79, 157-173.

D. (1971). Pardal reinforcement: A selective review of the alleway literature since 1960. Psychological Bulletin, 76, 415-431.
S h i m p , C. P.(1966). Probabilistically reinforced choice behavior in pigeons. Journal
of the Experimental Analysis of Behavior, 9, 443-455.
S k i n n e r , B. F. (1938). The Behavior of organisms: An axperimental analysis. New
York: Appleton-Century-Crofts. (traducido al espaol por Editorial Fontanella).
(1948). Superstition in the pigeon. Journal of Experimental Psychology, 38,
168-172.
(1950). Are theories of learning necessary? Psychological Review, 57, 193-216.
S t a d d o n , J. E. R. (1977). Schedule-induced behavior. En W.K. Honig y J.E.R. Sta
ddon (Eds.), Handbook of operant behavior (pp. 125-152). Englewood Cliffs, NJ:
Prentice-Hall. (traducido por Editorial Trillas)
(1979). Operant behavior as adaptation to constraint. Journal of Experimental
Psychology: General, 108, 48-67.
S t a d d o n , J. E. R. y S im m e l h a g , V. L. (1971). The superstition experiment: A
reexamination of its implications for the principies of adaptive behavior. Psy
chological Review, 78, 3-43.
T anno , T. y S akagami , T. (2008). On the primacy of molecular processes in determining response rates under variable-ratio and variable-interval schedules.
Journal of the Experimental Analysis of Behavior, 89, 5-14.
T a n n o , T. y S i l b e r b e r g , A. (2012). The copyist model of response emission. Psychonomic Bulletin and Review, 19, 759-778.
T h o r n d i k e , E. L. (1911). Animal intelligence: Experimental studies. New York: Mac
millan.
T im b e r l a k e , W. y A l l is o n , J. (1974). Response deprivation: An empirical approach
to instrumental performance. Psychological Review, 81, 146-164.
T im b e r l a k e , W. y P e d e n , B. F. (1987). On the distinction between open and closed
economies. Journal of the Experimental Analysis of Behavior, 48, 35-60.
T o l m a n , E. C. (1932). Purposive behavior in animals and men. New York: Apple
ton-Century-Crofts.
W il l ia m s , B. A. (1988). Reinforcement, choice, and response strength. En R.C. Atkinson, R.J. Herrnstein, G. Lindzey y R.D. Luce (Eds.), Stevens'handbook of experi
mental psychology Vol.2 Learning and cognition (pp. 167-244). New York: Wiley.
R o b b in s ,

284

P rogramas

y t e o r a s d e l r e f o r z a m ie n t o

M. D. (1977). Schedules of reinforcement: The controlling variables. En


W.K. Honig y J.E.R. Staddon (Eds.), Handbook of operant behavior (pp. 201 232). Englewood Cliffs, NJ: Prentice-Hall. (traducido por Editorial Trillas)
Z e i l e r , M. D. y P o w e l l , D. G. (1994). Temporal control of fixed-interval schedules.
Journal of the Experimental Analysis of Behavior, 61, 1-9.
Z e il e r ,

285

T em a 6

CONTROL DE LA CONDUCTA
POR ESTMULO
Vicente Prez Fernndez

1. Control pavloviano y control operante .......................................... 292


2. Generalizacin y discriminacin ...................................................... 295
3. Medicin del control por el estmulo: los gradientes de
generalizacin ......................................................................................... 298
4. Control condicional .............................................................................. 303
4.1. Modulacin ....................................................................................... 304
4.2. Discriminacin condicional .......................................................... 305
5. Factores que afectan al control por el estmulo .........................
5.1. Relacionados con los estmulos ....................................................
5.1.1. Capacidad sensorial ..............................................................
5.1.2. Facilidad relativa de condicionamiento de los elementos
de un compuesto ..................................................................
5.1.3. Modalidad sensorial ..............................................................
5.1.4. Discriminabilidad ..................................................................
5.1.5. Intensidad de los estmulos discriminativos ....................
5.1.6. Aprendizaje del rasgo positivo .............................................
5.2. Relacionados con la respuesta ......................................................
5.2.1. Relacin respuesta-reforzador .............................................
5.2.3. Respuesta de observacin a la muestra ............................
5.2.2. Respuesta diferencial ............................................................
5.3. Relacionados con la experiencia previa ......................................
5.3.1. Disposiciones de aprendizaje ..............................................

309
310
310
310
311
312
312
313
313
313
314
315
315
315
287

P s ic o l o g a

d e l a p r e n d iz a j e

5.3.2. Efecto del sobreaprendizaje en la inversin .....................


5.3.3. Experiencia de reforzamiento no diferencial ....................
5.4. Relacionados con el entrenamiento discriminativo .................
5.4.1. Tipos de entrenamientos discriminativos .........................
5.4.2. Eficacia relativa de los elementos del estmulo como
seales para el reforzamiento ..............................................
5.4.3. Tipo de reforzamiento ..........................................................
5.4.4. Consecuencia diferencial ......................................................
5.4.5. Duracin del intervalo entre ensayos ................................
5.4.6. Grado de entrenamiento ......................................................
5.4.7. Entrenamiento en discriminacin sin errores .............
5.4.8. Intervalo entrenamiento-prueba .........................................

317
317
319
319
321
322
322
323
324
324
325

6. Interacciones excitatorias-inhibitorias .......................................... 325


6.1. Desplazamiento del Mximo ........................................................ 326
6.2. Efecto de Tendencia Central ........................................................ 329
7. Otras teoras sobre la generalizacin ..............................................
7.1. Hiptesis inversa: Blough ............................................................
7.2. Teora atencional: Shutherland y Mackintosh ......................
7.3. Respuesta Mltiple: Staddon ......................................................

331
332
333
334

Referencias .................................................................................................... 338

288

Control

d e la c o n d u c t a p o r e s t m u l o

C o n o c im ie n t o s p r e v i o s

Conducta de eleccin. Se considera que un individiio ha tomado una deci

sin o ha elegido una opcin cuando emite una respuesta en una situacin
en la que existan ms de una alternativa de respuesta disponible. Aunque
podra considerarse que cualquier conducta es una eleccin (responder vs.
no responder) este fenmeno suele estudiarse mediante la aplicacin de
programas de reforzamiento concurrentes.
Contingencia y Acontingencia. Podra equipararse a la correlacin o la covariacin entre dos eventos. Es decir, cundo la aparicin de un evento est
relacionada con la presencia o aparicin de un evento anterior. La relacin
de contingencia puede ser directa (positiva), cuando la aparicin del evento
B es muy probable tras la aparicin del evento A, o inversa (negativa) cuan
do tras el evento A es poco probable que aparezca B. Si no existe ninguna
de estas dos relaciones entre A y B, es decir, tras A existe aproximadamente
un 50% de que aparezca B, se considera que la contingencia es nula, no
existe, o que la relacin es de Acontingencia. Es importante sealar que la
relacin de contingencia no implica causalidad, A no tiene porqu producir
B para que correlacionen.
Extincin y Castigo. Las dos maneras ms usuales de disminuir la probabili
dad futura de una operante que est siendo sometida a reforzamiento son
la aplicacin o bien de Castigo o bien de Extincin. En un procedimiento
de Castigo positivo, o castigo simplemente, la emisin de la respuesta tiene
como consecuencia la aparicin de un evento aversivo. En el Castigo nega
tivo, o entrenamiento de Omisin, la consecuencia tras la respuesta es la
no presentacin de un reforzador cuya probabilidad de aparicin era alta.
En ambos se establece algn tipo de contingencia (positiva o negativa) con
la consecuencia. Sin embargo, la aplicacin de Extincin a una respuesta
reforzada positivamente implica romper la contingencia que mantenan
la respuesta y el reforzador, es decir, que cuando se emita la conducta no
aparezca el reforzador.
Reforzamiento positivo y Reforzamiento negativo. En una contingencia
operante, aquellos procedimientos que producen un aumento de la pro
babilidad futura de que la conducta se emita (en un contexto similar) se
denominan Reforzamiento. Si el procedimiento consiste en hacer contin
gente positiva la aparicin de un reforzador con la emisin de la respuesta
se considera un Reforzamiento Positivo, o simplemente re forzamiento. Si
289

P s ic o l o g a

d e l a p r e n d iz a j e

en el procedimiento la contingencia que mantienen la respuesta y la con


secuencia es negativa, y la consecuencia es de naturaleza aversiva, ya sea
escapando de ella o evitando su aparicin, se denomina Reforzamiento
Negativo o entrenamiento de Escape/Evitacin.
O b je t iv o s

Abordar el concepto de control por el estmulo como la identificacin de la


causa del comportamiento observado.
Diferenciar entre los fenmenos de discriminacin y generalizacin como
polos opuestos (y complementarios) de un mismo continuo, as como cono
cer las diferentes tcnicas para determinar en qu puno del continuo se
encuentra el comportamiento de un individuo.
Distinguir entre un tratamiento funcional de los eventos y un tratamiento
topogrfico.
Saber interpretar un gradiente de generalizacin, identificando si se trata de
un control excitatorio o inhibitorio y el grado de generalizacin mostrado.
Diferenciar entre los elementos y caractersticas del control simple por el
estmulo y el control condicional.
Conocer los factores de los que depende la adquisicin de la conducta discriminativa, es decir, de que un evento adquiera control sobre la conducta.
Comprender de qu depende el resultado de la interaccin entre los diferen
tes gradientes de generalizacin (excitatorio e inhibitorio) cuando se realiza
un entrenamiento de discriminacin intradimensional.

290

El objeto de estudio de la psicologa es la conducta, toda la conducta: la


pblica y la privada, la refleja y la operante, la consciente y la inconscien
te. El objetivo de la psicologa cientfica es establecer relaciones causales
entre los eventos antecedentes a una conducta y la aparicin de la misma,
no hay que olvidar que la causa siempre antecede al efecto. Identificar este
tipo de relaciones entre eventos es lo que nos permite predecir y controlar
nuestro objeto de estudio; predecir en funcin de nuestra informacin
sobre las causas, y controlar en funcin de nuestra capacidad para mani
pularlas.
La explicacin de un evento (B), por tanto, consistira en determinar la
relacin causal que mantiene con otro evento anterior (A). Una vez cono
cida esta relacin causal, podra considerarse que la aparicin de B est
controlada por la aparicin de A, o lo que es lo mismo, que B es funcin de
A, razn por la que tambin se les denomina a estas conexiones relaciones
funcionales. Por supuesto, estamos simplificando enormemente la reali
dad. El comportamiento de un individuo (nuestra variable dependiente)
rara vez est determinado por un nico factor (variable independiente),
pero la complejidad es la interaccin de elementos ms simples, y analizar
consiste justo en eso: en distinguir y separar las partes de un todo para
conocer sus elementos. As que vamos a analizar.
Volviendo al ttulo del captulo, cuando usamos la expresin control de
la conducta por el estmulo nos referimos a la explicacin de un comporta
miento por la aparicin de algn evento anterior. Este evento causal (ante
cedente) puede ser una imagen, un sonido, la conducta de otro, o incluso
nuestra propia conducta. Cualquiera de estos ejemplos estara funcionando
como un estmulo de control siempre que fuese la causa del comportamien
to en cuestin. Sin embargo, existen importantes diferencias en el control
por el estmulo en funcin del tipo de respuesta que estamos analizando:
refleja u operante (o instrumental). Por esta razn dedicaremos la primera
parte del captulo a distinguir estas dos modalidades.
291

P s ic o l o g a

d e l a p r e n d iz a j e

El control por el estmulo implica ajuste al ambiente. Los estmulos


ante los que es adaptativo desplegar segn qu reflejo pueden cambiar de
un contexto a otro. Las consecuencias que le siguen a la emisin de una
misma respuesta (topogrficamente hablando) son diferentes en funcin de
las circunstancias. Comportarse de la misma forma ante cualquier estmulo
puede ser perjudicial para el individuo, pero tambin puede serlo que cada
configuracin estimular requiera de un condicionamiento especfico para
que adquiera control sobre la conducta, sobre todo teniendo en cuenta que
existen infinitas posibilidades de configuraciones estimulares. El bienestar,
y en ocasiones la supervivencia, del organismo depende de su capacidad
para adaptarse a las exigencias del ambiente y el control por los estmulos
juega un papel fundamental en esa adaptacin.
En este sentido, consideramos que un organismo est generalizando
cuando variaciones del estmulo que ha adquirido cierto control sobre su
conducta siguen manteniendo dicho control, mientras que estara discri
minando si esas variaciones implican la prdida de control. Generalizar
y discriminar son los polos opuestos de un continuo, generalizamos ms
cuando discriminamos menos y a la inversa. Situarse en una posicin u
otra de ese continuo no implica por s mismo un mejor ajuste, depende,
como siempre, de las exigencias del ambiente. Dedicaremos el segundo
apartado del captulo a desarrollar estos conceptos y el tercero a describir
los procedimientos a travs de los cules se identifica la posicin del indivi
duo en el mencionado continuo.
El cuarto apartado abordar las principales teoras que explican el fen
meno de la generalizacin. Los siguientes se destinarn a describir fenme
nos ms complejos, como el control por estmulos compuestos, el control
condicional y otros fenmenos de relevancia. As como las variables que
determinan que un sujeto generalice o discrimine respecto a los estmulos
de control. El ltimo apartado se dedicar a repasar las principales teoras
que se han propuesto para explicar el fenmeno de la generalizacin/dis
criminacin.
1. CONTROL PAVLOVIANO Y CONTROL OPERANTE
El control por el estmulo pavloviano es ms fcil de abordar. Hemos
visto en captulos anteriores como las especies han evolucionado desa292

Control

d e la c o n d u c t a p o r e s t m u l o

rrollando ciertas respuestas innatas (RI) ante Ejemplo


determinados estmulos (El), y como estas res
Si reforzamos posi
puestas pueden extenderse ante otros estmulos
la conducta
mediante el condicionamiento clsico (o pavlo- tivamente
decir
pap
de
un
nio
viano). Los estmulos incondicionados (El) y pequeo (aplicamos
los estmulos condicionados (EC) funcionan, un entrenamiento de
por tanto, como los estmulos de control para recompensa), aumenta
las respuestas reflejas o elicitadas (RI y RC).
remos la probabilidad
de emisin de dicha
El caso de la conducta operante es muy conducta, haciendo que
diferente. La conducta emitida, no elicitada, es el nio repita el sonido
aquella que no es disparada de forma automti en cualquier situacin
ca por la presencia de un evento antecedente (El a una tasa significativa
mayor a la que lo
o EC). La emisin de una respuesta, sin embar mente
haca
inicialmente.
Sin
go, depende de mltiples factores, por lo que su embargo, podemos ir
prediccin se torna probabilstica. Esta proba limitando el refuerzo a
bilidad est determinada por las consecuencias las ocasiones en las que
que le han seguido en el pasado, por la motiva su padre est presente,
cin del individuo, por el coste que representa de forma que cuando se
encuentre
ausente
no
su emisin, por las alternativas de respuesta que se le recompense esa
estn disponibles, etc. Pero sto no significa que conducta (se la some
la conducta operante no est controlada por la ta a extincin). Con el
estimulacin antecedente. Los procedimientos tiempo, el nio slo dir
de condicionamiento operante y los programas pap en presencia de su
de reforzamiento (y castigo) aumentan o dismi padre, lo que implica un
control
por
el
estmulo
nuyen la probabilidad de que una conducta se de la conducta del nio.
emita en el futuro, pero ninguna conducta se
emite en el vaco, siempre hay algn contexto, y
cuando este contexto es contingente con la presencia de algn procedimien
to y/o programa adquiere propiedades de control sobre la operante.
El control por el estmulo de la conducta operante no es habitual, es
omnipresente. Pulsamos el interruptor de la luz si la habitacin est a
oscuras pero no si la bombilla est encendida, cantamos en voz alta en el
karaoke pero no mientras cenamos con nuestros suegros, cruzamos con la
figura del semforo en verde pero no en rojo, etc. Por supuesto, de nuevo,
todo esto depende no slo de los eventos antecedentes (luz, karaoke, sem
foro) sino tambin de nuestra historia previa, motivacin, etc. Pero la mul
tiplicidad de variables independientes no implica la negacin de cada una
293

P s ic o l o g a

d e l a p r e n d iz a j e

de ellas por separado, slo que hay que tener ms elementos en cuenta para
mejorar nuestra prediccin/control.
Los eventos de control de la conducta operante, estos contextos a los que
nos referimos, se denominan estmulos discriminativos (Skinner, 1938), y
se dividen en positivos y negativos. Los estmulos discriminativos positivos
(Ed+ o E+), tambin llamados simplemente discriminativos, son aquellos
que mantienen una contingencia positiva con el reforzamiento de alguna
conducta, ya sea mediante un entrenamiento de recompensa (reforzamien
to positivo) o de escape/evitacin (reforzamiento negativo). Los estmulos
discriminativos negativos (Ed- o E-), tambin llamados estmulos delta
(EA), seran aquellos contingentes con el castigo (castigo positivo), con el
entrenamiento de omisin (castigo negativo) o con la extincin de una con
ducta. La presencia del Ed+ aumenta las probabilidades de que se emita la
conducta con cuyo reforzamiento ha sido contingente, mientras que la pre
sencia del Ed- la disminuye. As el ambiente selecciona en cada momento
las unidades de dos trminos (Respuesta-Consecuencia) adecuadas.
Es importante sealar varias cuestiones respecto a los estmulos discri
minativos:
1) Un mismo estmulo discriminativo puede modificar la probabilidad
de emisin de varias conductas, no son exclusivos. De la misma
forma que una misma conducta puede encontrarse bajo el control de
diferentes discriminativos.
2) La presencia de un estmulo discriminativo no modifica la probabilidad
de cualquier operante, slo de aquellas con las que ha mantenido algu
na relacin de contingencia con su re forzamiento, castigo o extincin.
3) La presencia de un discriminativo no implica la aparicin de un refor
zador o un estmulo aversivo por s mismo, indica que existe una alta
o baja probabilidad de que tras la emisin de la conducta sta sea
reforzada (cuando es un E+) o castigada/extinguida (cuando es un E-).
4) Si una conducta est bajo el control de un discriminativo positivo
debe haberse condicionado tambin uno o ms discriminativos nega
tivos para esa misma conducta, y a la inversa. En el ejemplo ante
rior, si la presencia del padre se ha convertido en un discriminativos
positivo para decir pap (porque slo en su presencia se refuerza esa
respuesta), el resto de personas, incluida su madre, se han converti294

Control

d e la c o n d u c t a p o r e s t m u l o

do en discriminativos negativos para la misma conducta porque han


estado presentes durante la extincin de la misma.
5) De la misma forma que el control de un EC puede extinguirse, el con
trol de un discriminativo puede desaparecer si la conducta deja de
mantener la contingencia con la consecuencia que mantena durante
la adquisicin.
Este nuevo elemento explicativo que hemos incluido conlleva unas
notables implicaciones en el anlisis del comportamiento. Si bien la con
tingencia mnima pavloviana es de dos trminos (EI-RI o EC-RC), la ope
rante consta de tres trminos. De la misma forma que no puede entenderse
una respuesta refleja sin el estmulo que la desencadena, el anlisis de la
respuesta operante debe tener en cuenta a los discriminativos que la con
trolan. Como veremos, sta es la contingencia mnima pero no la nica,
la cantidad y complejidad de los estmulos de control pueden (y de hecho,
suelen hacerlo) aumentar extraordinariamente.
2. GENERALIZACIN Y DISCRIMINACIN
Desde una perspectiva funcional, un estmulo puede ser cualquier even
to siempre y cuando su presencia produzca alguna reaccin en el sujeto, es
decir, cumpla la funcin de estmulo para ese
sujeto. No es una definicin circular, en un an Ejemplo
lisis funcional cada evento se etiqueta segn el
Si ante la pregun
papel que representa respecto a otros eventos.
ta (evento 1) Qu
hora
es?
respondemos
Desde una perspectiva topogrfica o estruc (evento 2) las cuatro
tural (basada en las propiedades fsicas del y media, el evento 1
evento) un estmulo puede ser exteroceptivo es una operante para el
si proviene del medio externo al organismo sujeto que la emite pero
(como el sonido de un claxon o el olor de un un discriminativo para
de la misma
cocido), o interoceptivo si proviene del medio nosotros,
forma
que
el
evento
2
interno (como el latido de nuestro corazn, el es una respuesta para
malestar gstrico o como un paisaje imaginado nosotros pero un discri
o una palabra pensada). Otra posible distincin minativo positivo para
son los denominados estmulos propioceptivos, la emisin de la respues
que son aquellos generados por la posicin y ta gracias por parte de
la
otra
persona.
el movimiento del cuerpo. Y una ltima distin
295

P s ic o l o g a

d e l a p r e n d iz a j e

cin, algo ms compleja, son los llamados estmulos relacinales, que son
aquellos que dependen de la conexin que mantienen entre s dos o ms
elementos. Por ejemplo, respecto a ste ltimo, si reforzamos la respuesta
decir igual ante la presentacin de figuras idnticas pero castigamos o
extinguimos la misma conducta ante figuras diferentes, el estmulo que
adquirir control sobre esa respuesta (el E+) no ser ni cada figura por
separado ni el estmulo compuesto que representan sino la relacin que
mantienen entre s.
Pero lo que es ms importante para este apartado, desde un punto de
vista estructural, los estmulos estn compuestos por rasgos o propiedades.
Un observador puede etiquetar un crculo rojo como un estmulo unitario,
pero ese estmulo est formado por diferentes propiedades como el tama
o, la tonalidad cromtica, el olor, el tacto, la velocidad a la que se mueve,
su direccin, etc. Y esas propiedades pueden ser compartidas por otros
eventos que dicho observador etiqueta como estmulos diferentes. Es rele
vante destacar que el concepto de novedad no es absoluto. No existen dos
estmulos exactamente iguales ni completamente diferentes, incluso si nos
presentan dos figuras exactas nunca podrn compartir los mismos rasgos
espacio-temporales. Todos los estmulos comparten algn rasgo y todos se
diferencian de los dems en alguno y, por tanto, hasta qu punto es adaptativo para un individuo comportarse de la misma forma ante estmulos
semejantes? Pues, como adelantbamos en la introduccin, depende de las
exigencias de su entorno, y para ajustarse a estas exigencias los organismos
han desarrollado dos capacidades complementarias y contrarias: la genera
lizacin y la discriminacin.
Cuando un estmulo adquiere cierto control sobre la conducta (El, EC
o Ed) todos los rasgos que componen dicho estmulo adquieren cierto
grado de control, aunque no necesariamente en la misma medida, algunos
probablemente ms que otros. Esto implica que cualquier estmulo que
comparta alguno de estos rasgos tambin puede ejercer cierto control sobre
esa conducta del sujeto, y en la medida en que compartan propiedades el
control ser ms o menos parecido al que ejerce el estmulo con el que s se
ha tenido experiencia de condicionamiento. En otras palabras, aunque no
hayamos tenido experiencia con algn estmulo dependiendo de lo que se
parezca (comparta rasgos) a un El, EC o Ed controlar nuestra conducta.
Este fenmeno se denomina generalizacin del estmulo, y es considerada
por algunos autores (Pavlov, 1927) como una capacidad innata selecciona296

Control

d e la c o n d u c t a p o r e s t m u l o

da por su valor adaptativo, ya que nos permite comportarnos de manera


efectiva ante estmulos nuevos.
Pero no siempre es adaptativo responder de la misma forma ante est
mulos diferentes (generalizar), en ocasiones pequeas diferencias entre
estmulos pueden significar consecuencias completamente diferentes para
la misma topografa de conducta. El botn de encendido/apagado de un
ordenador puede parecerse mucho al de reinicio, la llave de nuestro coche
puede ser casi igual que la de nuestra casa, nuestro padre puede parecerse
mucho a nuestro to, pero a la conducta de pulsar, meter la llave o decir
pap va a seguirle una consecuencia muy diferente en funcin del estmulo
que est presente. La discriminacin consiste en responder de manera dife
rente ante estmulos diferentes, y, al contrario que la generalizacin, esta
capacidad requiere de entrenamiento. A este entrenamiento se le denomina
condicionamiento discriminativo o reforzamiento diferencial, y al compor
tamiento resultante conducta discriminativa o respuesta diferencial.
Aunque ms adelante se detallarn los diferentes tipos de entrenamien
to discriminativo, de una forma simple, y como ejemplo, podramos descri
birlos de la siguiente manera:
a) Control pavloviano. Presentamos de forma contingente positiva
un sonido (EC1) y una descarga (El), mientras que hacemos que
una luz (EC2) mantenga una contingencia nula con la descarga.
Consideraramos que existe control por el estmulo si la respuesta
condicionada excitatoria aversiva slo es elicitada en presencia del
EC1 y no del EC2, es decir, si el sujeto discrimina entre el EC1 y el
EC2. Si la respuesta condicionada se emite ante los dos estmulos
o no se emite ante ninguno concluiramos que no existe tal control.
b) Control operante. Hacemos que el reforzamiento positivo de una
conducta correlacione positivamente con la presencia de una luz roja
(El) y negativamente con una luz verde (E2). Si el sujeto emite esa
respuesta concreta (R) con una tasa mayor (o ms frecuentemente,
o de forma ms intensa) en presencia del El que en presencia del
E2 consideraremos a la luz roja como un discriminativo positivo
para esa conducta y a la luz verde como un discriminativo negativo
(o delta). De esta forma, la ejecucin del sujeto es una prueba de
que discrimina entre ambos estmulos, es decir, que su conducta se
encuentra bajo el control de stos.
297

P s ic o l o g a

d e l a p r e n d iz a j e

Antes de pasar al siguiente apartado, vamos a sealar algunos aspectos


importantes respecto a la dicotoma generalizacin/discriminacin, algu
nas ya esbozadas anteriormente:
1) El control por el estmulo es un continuo en cuyos extremos se
encuentran la generalizacin y la discriminacin, en posiciones
opuestas. Esto significa que cuando un sujeto est demostrando una
alta generalizacin tambin podra etiquetarse como una baja discri
minacin, y a la inversa. De la misma forma, se considera que existe
mayor control por el estmulo cunto mayor es la discriminacin
demostrada, mientras que si el sujeto exhibe un alto grado de gene
ralizacin se estima que el control por el estmulo es bajo.
2) La generalizacin no es ms adaptativa que la discriminacin ni
al contrario. La generalizacin de un estmulo va descendiendo a
medida que el sujeto es expuesto a reforzamiento diferencial ante
variaciones de dicho estmulo. Que generalizar o discriminar sea ms
adaptativo va a depender de las exigencias del ambiente. Distinguir
(discriminar) entre 30 tonalidades de blanco puede ser muy adapta
tivo en Groenlandia (para no pisar un oso polar, por ejemplo), pero
no mucho si vives en Egipto. No obstante, en trminos generales,
cunto mayor es nuestra discriminacin entre los estmulos ms fino
es nuestro ajuste al medio, ya que emitimos respuestas diferenciales
ante pequeas variaciones del contexto.
3) La generalizacin y la discriminacin se pueden producir con todos
los estmulos que ejercen control sobre la conducta, incluido los
estmulos discriminativos. Los estmulos discriminativos (a pesar
de su nombre) estn sujetos tambin a la generalizacin. Cualquier
modalidad de paso de cebra, por ejemplo, puede ejercer el mismo
control sobre nuestra conducta de cruzar la calle que la que ejerce la
modalidad concreta con la que se ha condicionado dicha respuesta,
por supuesto, este control va a depender de cunto se parecen.
3. MEDICIN DEL CONTROL POR EL ESTMULO:
LOS GRADIENTES DE GENERALIZACIN
El fenmeno de la generalizacin de estmulos ya fue observado por
Pavlov en sus experimentos. El propio autor describe el fenmeno como un
298

Control

d e la c o n d u c t a p o r e s t m u l o

proceso neurolgico primario (Pavlov, 1927) en el que la activacin de cier


tas reas cerebrales, provocada por la presencia del EC, se extiende a reas
prximas asociadas a otros estmulos similares. Esta aproximacin al fen
meno como un proceso primario es compartida (aunque matizada) por otros
autores como Hull (1943), aunque no es la nica teora explicativa. Lashley
y Wade (1946), por ejemplo, conciben la generalizacin como un fallo en la
discriminacin. Para estos autores, las pruebas de generalizacin (en la que
se presentan estmulos nuevos) producen confusin en los individuos, de
manera que guan su respuesta en funcin del parecido con el E+ entrenado.
A lo largo del captulo se desarrollarn algunas de las principales teoras
(especialmente en el ltimo apartado) pero, independientemente de a cul
nos acojamos, el hecho es que el control que un estmulo no entrenado
(estmulo de prueba o generalizado) ejerce sobre una conducta es directa
mente proporcional a su semejanza con el estmulo que adquiri ese con
trol durante un proceso de condicionamiento (E+ o E- original o criterio).
Podemos comprobar esta relacin a travs de varios mtodos o proce
dimientos (Tabla 1):
1) Estmulo nico. Consiste en entrenar varios grupos de sujetos para que
un estmulo adquiera cierto control (convirtindolo en un E+ o en un
E-) y despus exponer a cada grupo a un estmulo de prueba diferente,
en cuanto a su parecido con el estmulo original. Comparando la res
puesta entre los grupos ante el estmulo de prueba se observara que
cuanto mayor es el parecido de ste con el estmulo original mayor es
la fuerza (probabilidad, tasa, intensidad, etc.) de la respuesta.
2) Estmulos mltiples. Tras entrenar el estmulo criterio se presenta
junto a otros estmulos diferentes, uno cada vez, y en extincin (sin
que aparezca la consecuencia tpica de la fase de adquisicin). Se
medira la fuerza de la respuesta ante todas las combinaciones entre
el estmulo original y los estmulos de prueba en cada sujeto. Fuerza
que, tericamente, debera decrecer en funcin de lo distinto que sea
el estmulo de prueba que se presenta junto al original.
3) Generalizacin mantenida. El ltimo de los mtodos que vamos a
ver consiste en alternar ensayos reforzados con el estmulo criterio
con ensayos en los que se presenta algn estmulo de prueba en
extincin. De esta forma, el sujeto tiene experiencia con todos los
estmulos de prueba generalizados varias veces y en orden aleatorio.
299

P s ic o l o g a

d e l a p r e n d iz a j e

Tabla 1. Resumen de los mtodos para la medicin del control por el estmulo
en Condicionamiento Clsico
Mtodo

Estmulo nico
Estmulos mltiples

Generalizacin mantenida

Entrenamiento

EC-EI
EC-EI
EC-EI, EC+E1, EC-EI, EC+E2,
EC-EI, EC+E3, ...

Prueba

El / E2 / E3 /...
EC+E1, EC+E2, EC+E3, ...

El uso de un mtodo u otro conlleva ventajas y desventajas. En los


procedimientos de Estmulos Mltiples y de Generalizacin Mantenida los
sujetos son expuestos a todas las combinaciones estmulos original-prueba
o estmulos de prueba seleccionados por el experimentador. El orden en
el que stos son presentados puede alterar la fuerza de la respuesta. La
presentacin repetida y aleatoria de dichos estmulos (o compuestos), e
incluso el contrabalanceo del orden en el que aparecen, es una forma de
controlar ese efecto. El procedimiento de Generalizacin Mantenida, ade
ms, asegura el control del estmulo original ya que el sujeto sigue teniendo
experiencias reforzadas con l, pero alternar ensayos reforzados con el E+
con ensayos en extincin con los estmulos de prueba puede favorecer la
discriminacin del estmulo original, provocando que los resultados mues
tren una menor generalizacin.
Los procedimientos de
Estmulo nico, sin embar
go, aunque son ms costo
sos, ya que al realizar com
paraciones entre grupos
requieren de ms tiempo y
recursos, evitan la posible
influencia en la respuesta
de la experiencia con varios
estmulos de prueba. Sin
embargo, como cualquier
estudio de grupo, el control
de variables individuales es
1
^
.
,
v
.,
A.
,
Figura!. Gradiente de generalizacin donde
menor que en los estudios de
e\ ?+ entrenado era de 580 nanmetros (nm).
caso nico.
Adaptado de Guttman y Kalish (1956).
300

Control

d e la c o n d u c t a p o r e s t m u l o

Independientemente del mtodo que se utilice, el fenmeno es suficien


temente robusto para mostrar una relacin sistemtica entre el parecido de
los estmulos de prueba (o estmulos generalizados) con el estmulo original
y la cantidad de control que ejercen sobre la conducta. La representacin
grfica de este decremento en la fuerza de la respuesta en funcin del aleja
miento, en cuanto a parecido con el estmulo criterio, es lo que se denomi
na un gradiente de generalizacin.
Antes de describir los diferentes tipos de gradientes de generalizacin es
necesario aclarar que el control por el estmulo no se limita a que en pre
sencia de cierto evento aparezca una determinada respuesta. Los estmulos
discriminativos negativos (Estmulos Delta, Ed-, o E-) tambin ejercen
control sobre la conducta, ya que en su presencia esa respuesta es muy
improbable, podramos decir que controla su no-aparicin o la aparicin
de otras respuestas diferentes. De la misma forma, los estmulos condicio
nados inhibitorios tambin ejercen control sobre la respuesta, aunque sta
no pueda medirse directamente (lo que suele denominarse como silencio
conductual).
La exposicin a estmulos generalizados semejantes a discriminativos
positivos o ECs excitatorios generan gradientes, como el de la Figura 1, con
forma de U invertida, en los que la mayor cantidad de respuesta se observa
en los valores cercanos al E+ original y van decreciendo segn se alejan de
l, tanto si disminuye como
si aumenta el valor del rasgo.
A este tipo de gradientes se
les denomina excitatorios.
No obstante, si los est
mulos de prueba se parecen
a discriminativos negativos o
a ECs inhibitorios el tipo de
gradientes es muy diferente.
Un experimento prototpico
fue el realizado por Weisman
y Palmer, en 1969, en el que
usaron la tcnica de sumaFigura 2. Gradiente de generalizacin del
cin como medida indirecta
estmulo mostrado por los sujetos del estudio
de Weisman y Palmer (1956).
del control de los estmulos
301

P s ic o l o g a

d e l a p r e n d iz a j e

delta (en temas anteriores hemos visto el uso de esta tcnica para medir la
capacidad elicitadora de ECs inhibitorios). Los autores entrenaron como
E+ una tecla verde y como E- una tecla verde con una lnea vertical blanca,
despus presentaron en la prueba de generalizacin la tecla verde cruzada
por lneas con diferente inclinacin cada vez (de -30 a +30). En la Figura
2 puede verse cmo el nmero de respuestas registrado va aumentando a
medida que el estmulo de prueba presentado se diferencia ms del E- ori
ginal. El gradiente inhibitorio, al contrario que el excitatorio, tiene forma
de U y suele ser menos inclinado.
La forma del gradiente no slo nos informa de la naturaleza del estmu
lo de control original (E+ o E-), sino tambin, en funcin de la pendiente
del gradiente, del grado de generalizacin/discriminacin que demuestra el
sujeto. En trminos generales, cunto ms plana es la pendiente que forma
ms generalizacin se ha producido (menos discriminacin) y cuando ms
inclinado menos generalizacin (ms discriminacin). La explicacin es

G. Inhibitorio - alta
generalizacin

100-1
1uu
^0
n
U

-30 -20 -10 0

10 20 30

Figura 3. Ejemplos de gradientes de generalizacin con baja y alta discriminacin.


302

Control

d e la c o n d u c t a p o r e s t m u l o

sencilla: un alto grado de respuestas diferenciales (mucha discriminacin


y poca generalizacin) implica que la mayora de las respuestas se dan de
forma exclusiva ante el estmulo de control original o ante los que se pare
cen mucho, de manera que los cambios sutiles presentes en los estmulos
de prueba son suficientes para que no controlen la respuesta objetivo. De
la misma forma, si el sujeto sigue respondiendo aunque los estmulos pre
sentados difieran mucho del discriminativo (o EC) original obtendremos
un gradiente plano. En la Figura 3 se muestran dos ejemplos de gradientes
propios de una alta discriminacin y otros dos propios de una alta genera
lizacin, uno excitatorio y otro inhibitorio.
La utilidad de los gradientes de generalizacin es mltiple, no slo nos
permite confirmar la existencia o no de respuestas diferenciales sino tam
bin determinar cunto tiene que modificarse el ambiente para producir un
cambio en la conducta del individuo. La forma que adquiere un gradiente
de generalizacin, es decir, el grado de generalizacin o discriminacin de
un estmulo, est determinada por diversos factores relacionados tanto con
el propio estmulo como con la experiencia previa o con el tipo de entrena
miento de discriminacin. Al final del captulo se detallarn los ms rele
vantes de estos factores.
4. CONTROL CONDICIONAL
Hasta ahora hemos abordado el anlisis del control por el estmulo en
singular, es decir, de cmo un solo evento causa determinada conducta.
Los discriminativos positivos aumentan la probabilidad de cierta respuesta
mientras que los negativos la reducen, y los estmulos condicionados elicitan reflejos, ya sean de naturaleza excitatoria o inhibitoria. Estas situacio
nes en las que el control del ambiente es tan simple son fciles de replicar
en un laboratorio pero no son tan habituales en contextos fuera del mismo.
Las causas que determinan qtie realicemos una conducta u otra son fre
cuentemente complejas, es decir, dependen de ms de una variable (sin
contar factores motivacionales, de historia de aprendizaje o genticos) y, lo
que lo hace an ms complejo, de la interaccin de esas variables entre s.
Cuando el control que ejercen ciertos estmulos sobre nuestra conducta
est matizado, o depende de la presencia de otros eventos consideramos
que estamos ante un caso de control condicional. Es importante sealar
303

P s ic o l o g a

d e l a p r e n d iz a j e

que estos eventos no afectan directamente a la conducta sino que lo hacen


a travs de los estmulos de control simple (modificando su funcin), de
hecho, su presencia en solitario no ejerce ningn control especfico sobre
el comportamiento.
El control condicional implica la adicin de un nuevo trmino a la con
tingencia mnima. As una contingencia pavloviana simple requiere de un
evento diferente al EC y al El, denominado modulador, para convertirse en
una contingencia de control condicional, pasando de dos trminos a tres.
En el condicionamiento operante, que requiere de una contingencia mni
ma de tres trminos (Ed-R-Er), el nuevo evento de control, denominado
Estmulo Condicional, aumentara el nmero de elementos de la contin
gencia a cuatro.
En este apartado analizaremos ambos casos, tanto el control condicional
pavloviano (Modulacin) como el operante (Discriminacin Condicional).
4.1. Modulacin
El estudio del control condicional en el condicionamiento clsico es
relativamente reciente, teniendo en cuenta la extensa tradicin de la que
goza la investigacin de la conducta refleja y la fecha en la que se realizaron
los primeros estudios sobre control condicional operante. Los pioneros en
este campo fueron Robert Rescorla y Peter Holland, que empezaron a estu
diar el fenmeno casi simultneamente y de forma paralela a mediados de
la dcada de los 80 (Rescorla, 1985; Holland, 1985). Tal vez por esta razn
existe cierta duplicidad en los trminos utilizados para referirse al est
mulo de control condicional, ya que Holland lo denomin Establecedor
de la ocasin y Rescorla Facilitador, y desde entonces se han utilizado
ambos de manera indistinta, existiendo trabajos posteriores que usan tanto
uno como otro. Actualmente, de hecho, puede utilizarse tanto el trmino
Modulacin como Establecimiento de la ocasin (Ocassion Setting) o
Facilitacin para referirse al control condicional pavloviano.
En una situacin de modulacin la contingencia que mantienen el EC
y el El depende de la aparicin de un estmulo anterior. Por ejemplo, si
tras presentarse una luz la aparicin de un sonido va seguida de comida,
pero en ausencia de la luz el mismo sonido no va seguido de comida, la luz
304

Control

d e la c o n d u c t a p o r e s t m u l o

terminar modulando la funcin del sonido como estmulo condicionado


excitatorio apetitivo. Esquemticamente:
Luz - sonido (EC) - comida (El) // no luz - sonido (EC) - no comida (El)
Luz - no sonido (EC) - no comida (El) // no luz - no sonido (EC) comida (El)
En este hipottico experimento (similar al realizado por Fetsko,
Stebbins, Gallagher y Colwill, 2005) podemos observar dos cuestiones
importantes:
a) La contingencia EC-EI es positiva tras la presentacin de la luz (luzEC-EI, luz-no EC-no El), pero es negativa cuando no ha aparecido
(no luz-EC-no El, no luz-no EC-EI). En trminos de control de la
respuesta, tras la presentacin de la luz el EC elicita una respuesta
condicionada excitatoria apetitiva, mientras que en ausencia de sta
la respuesta elicitada por el mismo EC es inhibitoria apetitiva.
a) La luz (el modulador) no mantiene ninguna relacin de contingen
cia con la aparicin del El, ni negativa ni positiva. Si ignoramos,
solo con objetivos didcticos, el EC de los cuatro ensayos anteriores
vemos que luz-EI, no luz-no El, luz-no El, no luz-EI. Es decir, que la
aparicin de la luz predice la presentacin de la comida con un 50%
de probabilidad y su no presentacin con un 50% tambin. En otras
palabras, no lo predice en absoluto, ya que mantienen una relacin
de acontingencia o de correlacin nula.
Los estmulos que adquieren propiedades moduladoras no elicitan por
s mismos respuestas excitatorias ni inhibitorias sino que modifican la
funcin de los EC con los que se han asociado. De hecho, la presentacin
repetida en solitario de un modulador no provoca su extincin, en otras
palabras, el efecto de un modulador no se pierde por su exposicin fre
cuente siempre que no se quiebre la conexin que mantuvo con la relacin
EC-EI durante la fase de adquisicin (Rescorla, 1986).
4.2. Discriminacin condicional
Aunque no fue el primero en estudiar discriminaciones condicionales,
se considera a Lashley como uno de los pioneros en definir este fenmeno,
305

P s ic o l o g a

d e l a p r e n d iz a j e

as como en identificar las propiedades fsicas de los estmulos controla


dores. En su experimento (Lashley, 1938), ahora un clsico, expuso a tres
ratas en cajas de salto a una tarea en la que los estmulos discriminativos
eran siempre un par de tringulos equilteros, uno hacia arriba y el otro
invertido. Los dos tringulos aparecan cada ensayo, aunque el fondo en el
que aparecan variaba cada vez que las ratas conseguan el criterio de 20
ensayos sucesivos sin error. Cuando el fondo era negro, saltar hacia el trin
gulo hacia arriba era reforzado. Sin embargo, si el fondo consista en ban
das horizontales, se requera a las ratas elegir el tringulo invertido. Con
este procedimiento se estableci una clase de control de estmulo sobre los
sujetos, de manera que la direccin o sentido de la reaccin era condicional
con respecto a un estmulo adicional de la situacin experimental, lo que el
autor denomin una reaccin condicional. Ms tarde, este mismo autor
demostr que el fondo poda ser alternado aleatoriamente de un ensayo a
otro sin perjudicar la ejecucin de los sujetos, es decir, mantenan el control
que haban adquirido.
Las discriminaciones condicionales se definen como aquellas situacio
nes de control operante en las que la funcin de los estmulos discrimina
tivos (como positivos o negativos) depende de la presencia de otro evento,
el estmulo condicional. Es comn que en ciertos trabajos se etiquete a los
estmulos condicionales como Muestras y a los estmulos discriminativos
como Comparaciones, sobre todo en los estudios en los que se utilizan pro
cedimientos de Igualacin a la Muestra, una variante de la discriminacin
condicional.
Por tanto, la contingencia operante en este tipo de situaciones aumenta
de tres (E-R-C, Estmulo discriminativo-Respuesta-Consecuencia) a cuatro
(EC-E-R-C) trminos, lo que podra esquematizarse de la siguiente forma:
E. Condicional 1-E1-R-C / E. Condicional 1-El-no R-no C
E. Condicionall-E2-R-no C / E. Condicionall-E2-no R-C
E. Condicional2-El-R-no C / E. Condicional 2-Edl-no R-C
E. Condicional 2-E2-R-C / E. Condicional 2-E2-no R-no C
En este ejemplo la presencia del estmulo condicional 1 convierte al El
en un discriminativo positivo para la conducta R y al E2 en un discrimi
nativo negativo para esa misma conducta. Sin embargo, el estmulo con306

Control

dicional 2 convierte al El en un discriminativo


negativo y al E2 en un discriminativo positivo.
Como puede notarse, la presencia de un est
mulo condicional u otro determina la funcin
del estmulo discriminativo y, por tanto, su
control sobre la conducta. De forma anloga a
la modulacin, el estmulo condicional por s
solo no controla ninguna respuesta sino la inte
raccin entre el condicional y el discriminativo.
Las discriminaciones condicionales tienen
una historia extensa en Psicologa experimental
(Garca, 2002). Desde su sistematizacin por
Skinner (1950), su uso se ha estandarizado,
ampliado y adaptado a multitud de especies
y situaciones experimentales. A pesar de la
enorme diversidad que podemos encontrar en
los estudios de discriminacin condicional, la
mayora de ellos son modificaciones de un pro
cedimiento paradigmtico con estmulos visua
les y palomas como sujetos, que es el procedi
miento de tres teclas. En dicho procedimiento,
el estmulo condicional es presentado en la tecla
central de una cmara operante, y los estmulos
discriminativos aparecen en las teclas laterales,
equidistantes de la tecla central y tambin del
comedero donde se dispensa el reforzador.
Las medidas tpicas de ejecucin en una
discriminacin condicional son la velocidad de
adquisicin (nmero de ensayos o sesiones hasta
un determinado criterio de aprendizaje) y la
precisin (porcentaje de ensayos con respuesta
correcta). Otra medida que tambin se relaciona
con la precisin es la latencia. La manipulacin
de diversas variables puede facilitar o dificultar
la ejecucin de los sujetos expuestos al aprendi
zaje de discriminaciones condicionales. Por lo
general estas variables afectan simultneamente

d e la c o n d u c t a p o r e s t m u l o

Ejemplo

Aunque pueda pa
recer un concepto com
plicado, estamos conti
nuamente expuestos a
este tipo de relaciones
de control. Podramos
considerar que el inte
rruptor de la luz es un
discriminativo positivo
para la conducta de pul
sarlo pero, en realidad,
su funcin depende de
otros eventos, como que
la luz est ya encendida o
que haya luz natural. En
presencia de la luz (EC1)
el interruptor (Edl) cum
ple funciones de discri
minativo negativo para la
conducta de pulsar, en
presencia de oscuridad
(EC2) sus funciones son
de discriminativo positi
vo. La conducta verbal,
adems, aumenta enor
memente las situaciones
de control condicional a
las que tenemos que ajus
tarnos. Siguiendo el mis
mo ejemplo, en presencia
de enciende la luz el
interruptor se convierte
en discriminativo positi
vo para pulsar, mientras
que en presencia de no
pulses el interruptor
funciona como estmulo
delta, por supuesto, en
las condiciones motivacionalmente adecuadas
y con el entrenamiento
como oyente necesario.
307

P s ic o l o g a

d e l a p r e n d iz a j e

a la velocidad de adquisicin del aprendizaje y tambin al nivel asinttico


que los sujetos llegan a alcanzar. Algunos de los parmetros ms relevantes
del aprendizaje de las discriminaciones condicionales se describirn en el
apartado sobre los factores que afectan al control por el estmulo.
Hemos visto que en las discriminaciones condicionales la presencia de un
estmulo condicional u otro modifica la funcin del estmulo discriminativo
(como positivo o negativo). Esta relacin de control estimular puede seguir
extendindose aadiendo un nuevo estmulo que, en este caso, cambie la
funcin del estmulo condicional, que, a su vez, modifica la del discrimina
tivo (Bush, Sidman y De Rose, 1989). A este nuevo estmulo de la cadena de
control estimular se le suele denominar de segundo orden (Fujita, 1983),
selectores (Ribes y Lpez, 1985) o informativos (Harzem y Miles, 1978).
En un procedimiento tpico de discriminacin condicional de segun
do orden (Figura 4) se presenta un estmulo complejo informativo que
ejemplifica el criterio de igualacin que debe cumplirse al seleccionar un
estmulo de comparacin respecto al estmulo de muestra.

Comparacin correcta por


semejanza
Comparacin correcta por
diferencia
Comparacin correcta por
identidad
Estmulo de
muestra
Estmulo de segundo orden

Ejemplifica la relacin de identidad


fsica (misma forma y codlor)
Figura 4. Ejemplo de discriminacin condicional de segundo orden.
308

Control

d e la c o n d u c t a p o r e s t m u l o

El criterio de igualacin que determina el estmulo de segundo orden


puede ser de igualdad (cuando se muestran dos estmulos fsicamente
idnticos), de semejanza (cuando los elementos que forman el estmulo
de segundo orden comparten ciertos rasgos pero difieren en otros); o de
diferencia (cuando no comparten ningn rasgo significativo).
Este tipo de procedimientos presenta una serie de importantes dife
rencias respecto a las discriminaciones condicionales de primer orden, en
las que el sujeto puede discriminar el criterio de respuesta (en ausencia de
instrucciones explcitas) slo a travs del reforzamiento explcito. Segn
Ribes, Cepeda, Hickman, Moreno, y Pealosa (1992), en una igualacin a la
muestra de segundo orden es necesario que el sujeto sea capaz de describir
verbalmente la relacin entre los estmulos de segundo orden, ya que en
caso contrario su presencia podra interferir: a) la presentacin visual gana
en complejidad al haber una mayor cantidad de estmulos presentes, b) los
estmulos de segundo orden pueden ser incluidos como parte del arreglo
de comparacin de primer orden.
La importancia de las contingencias operantes de cinco trminos para el
anlisis de ciertas conductas complejas se desarrollar en el captulo sobre
Aprendizaje y Cognicin.
5. FACTORES QUE AFECTAN AL CONTROL POR EL ESTMULO
En trminos globales, cunto ms se diferencien dos situaciones ms
sencillo es distinguirlas y cunto ms se diferencien los elementos que las
componen mayor ser la diferencia global. Siguiendo esta lgica, y cindonos a una contingencia operante, si exponemos a un sujeto a un entre
namiento del tipo: E1-R1-C1 / E2-R2-C2, cunto ms se diferencien El de
E2, R1 de R2, y C1 de C2, mayor ser la diferencia global entre ambas con
tingencias y ms fcil ser distinguirlas, o lo que es lo mismo, discriminar
entre ellas.
Hacer ms distintivos los eventos de control (los estmulos que sealan
diferentes contingencias de reforzamiento), requerir respuestas diferencia
les o aplicar consecuencias distintas, son mtodos que aumentan la velo
cidad de adquisicin de la discriminacin. La mayor parte de las variables
que vamos a ver en este apartado pueden entenderse bajo esta norma,
309

P s ic o l o g a

d e l a p r e n d iz a j e

pero no son las nicas. A continuacin se exponen las ms relevantes dis


tinguiendo si estn relacionadas con los estmulos, las respuestas u otros
parmetros del entrenamiento, entre los que se incluye el reforzamiento.
5.1. Relacionados con los estmulos
5.1.1. Capacidad sensorial
Para que un evento adquiera control sobre la conducta de un organismo
es imprescindible que funcione como un estmulo para dicho individuo,
y esto no siempre es posible. La parte de la realidad ante la que podemos
reaccionar es como mximo aquella para la que nuestros rganos senso
riales estn preparados. Existen sonidos, colores y olores fuera del rango
de audicin, visin y olfato humano que s funcionan como estmulos para
otras especies. Las diferentes presiones de supervivencia que cada especie
ha tenido que superar han seleccionado rganos sensoriales con capacida
des distintas, permitiendo que el organismo reaccione ante unos eventos (o
ciertas propiedades del mismo) y no ante otros. Estas diferencias, aunque
en menor grado, tambin se encuentran entre individuos de la misma espe
cie, ya que el desarrollo de estos rganos est sujeto a cierta variabilidad.
Evidentemente, la orientacin del sujeto respecto al evento aade una
nueva limitacin a la parte de la realidad que puede funcionar como est
mulo. Una pirmide puede funcionar como un simple tringulo si desde
nuestra posicin no podemos ver el resto de las caras. El valor del rasgo
tamao va a ser muy diferente en funcin de la distancia que separa el
objeto del observador, etc. El evento es nico, el estmulo es diferente para
cada individuo.
5.1.2. Facilidad relativa de condicionamiento de los elementos
de un compuesto.
En temas anteriores hemos visto cmo en funcin de ciertas variables
el condicionamiento, clsico y operante, se puede dar en mayor o menor
medida. Diferencias en la saliencia entre varios estmulos (debido a su
intensidad, relevancia biolgica, capacidad sensorial del sujeto, funcin
adquirida, cercana, etc.) puede dar lugar a un fenmeno de ensombreci310

Control

d e la c o n d u c t a p o r e s t m u l o

miento cuando se condicionan a la vez, determinando cul de ellos adquie


re control sobre la conducta refleja y cul no. Este mismo fenmeno puede
afectar al condicionamiento operante, si un estmulo discriminativo est
constituido por dos componentes, la adquisicin del control por parte del
componente menos saliente puede ser impedida por la presencia de un
componente ms eficaz. El fenmeno del ensombrecimiento indica que los
estmulos pueden competir por adquirir el control sobre la conducta, de
manera que los ms intensos o destacables dificultan el condicionamiento
de los estmulos ms dbiles.
5.1.3. Modalidad sensorial
Los estmulos que ms extensamente se ha utilizado en los trabajos
sobre discriminacin con animales no humanos han sido los visuales, y
ms particularmente, teclas iluminadas de distintos colores o con lneas en
distintas orientaciones (Crter y Werner, 1978; Mackay, 1991). Sin embar
go, la variedad de estmulos utilizados con xito en estos estudios con diver
sas especies ha sido muy extensa.
Adems de estmulos visuales fijos se han utilizado tambin soni
dos (Hashiya y Kojima, 2001), imgenes en movimiento (Morimura y
Matzuzawa, 2001), as como objetos tridimensionales comunes (Tomonaga
y Fushimi, 2002). Tambin se pueden encontrar estudios en los que los
estmulos utilizados son olores (Pea, Pitts y Galizio, 2006), acciones del
propio sujeto (Beninger, Kendall y Vanderwolf, 1974) o incluso estmulos
interoceptivos (Lubinski y Thompson, 1987).
Pero, como decamos, los estmulos visuales han sido los ms comunes
en los experimentos de discriminacin con palomas. El sistema visual de
estas aves las hace especialmente apropiadas para discriminar este tipo
de estmulos, debido probablemente a las intensas presiones selectivas a
las que se ha visto sometido para tareas como la navegacin, el forrajeo y
la eleccin de pareja sexual. Los estudios con esta especie han permitido
determinar que ciertas caractersticas de las imgenes son ms efectivas
que otras en el entrenamiento en discriminacin. Por ejemplo, Whyte y
Boren (1976) encontraron que la precisin de sus sujetos era mayor cuando
los estmulos de muestra utilizados eran colores que cuando eran figuras
geomtricas.
311

P s ic o l o g a

d e l a p r e n d iz a j e

5.1.4. Discriminabilidad
Intuitivamente, la discriminabilidad entre dos estmulos hace referencia
a lo fcil o difcil que resulta distinguir uno del otro, aunque, operativa
mente podramos definirlo como el cambio en la estimulacin necesaria
para producir un cambio en el comportamiento. La discriminabilidad de
los estmulos ha recibido mucha atencin en la literatura sobre aprendizaje
animal desde sus inicios (Lashley y Wade, 1946; Guttman y Kalish, 1956), y
de forma sistemtica se ha encontrado que cuanto mayores son las diferen
cias en las caractersticas fsicas de los estmulos, ms sencilla es la tarea
de discriminarlos (White, Pipe y McLean, 1985).
Pero, an en las situaciones ms simples, referirnos exclusivamente a
las caractersticas fsicas del estmulo no nos garantiza una medida fiable
de la discriminabilidad (ver Honig y Urcuioli, 1981, para una revisin). Al
margen de las consideraciones puramente psicofsicas implicadas en la
percepcin de los estmulos (Hamilton y Coleman, 1933), existen toda una
serie de influencias ambientales en la discriminabilidad. Por ejemplo, facto
res inherentes a las situaciones experimentales, como la simple exposicin
a los estmulos, influyen tanto en la discriminabilidad como en la asociabilidad de stos y en la respuesta de observacin que producen. Todos estos
efectos se mezclan de forma difcilmente distinguible en la mayora de las
situaciones, por lo que, aunque pueda determinarse a priori (atendiendo a
parmetros puramente fsicos) la discriminabilidad entre dos estmulos es,
en muchas ocasiones, un ndice que slo puede averiguarse a posteriori.
5.1.5. Intensidad de los estmulos discriminativos
En trminos generales, la intensidad de los estmulos discriminativos
entrenados afecta de manera muy aguda a los gradientes de generalizacin,
hacindolos menos simtricos y desplazando el mximo de respuesta ante
un valor diferente al E+ original (Mackintosh, 1974). Aunque esto podra
atribuirse a un efecto energizador de la conducta (por el nivel de inten
sidad), se han observado las mismas propiedades cuando el E+ era dbil
y el E- intenso (Pierrel y Sherman, 1960; Zielinski y Jakubowska, 1977).
De hecho, la mayora de los gradientes generados por estmulos de prueba
intensos suelen responder a una funcin monotnica, en lugar de una curva
312

Control

d e la c o n d u c t a p o r e s t m u l o

con un mximo de respuesta. Esta funcin es creciente cuando el E+ es ms


intenso que el E-, y decreciente en el caso inverso.
5.1.6. Aprendizaje del rasgo positivo
Experimentos como los de Hearst y Wolff (1989) con palomas pusieron de
manifiesto que cuando el elemento predictivo nico que distingue al E+ del
E- forma parte fsicamente de la presentacin del E+, los sujetos aprenden
con mayor facilidad que cuando el rasgo distintivo forma parte de la presen
tacin del E-. En su estudio los autores entrenaron a un grupo de palomas
para picotear una tecla verde con un cuadrado blanco superpuesto a cambio
de comida (E+) y a no hacerlo cuando la tecla era slo verde (E-), mientras
que el picoteo de otro grupo de palomas fue reforzado con comida cuando
la tecla era slo verde (E+) y no cuando estuvo superpuesta con el cuadrado
blanco (E-). Se encontr que el aprendizaje de discriminacin fue mejor en
los animales para los que el rasgo distintivo (el cuadrado blanco) estuvo en
el E+. A este fenmeno se le denomina aprendizaje del rasgo positivo.
5.2. Relacionados con la respuesta
5.2.1. Relacin respuesta-reforzador
Otro factor que puede determinar cul de los diversos componentes
de un estmulo discriminativo adquiere un control sobre la conducta es la
naturaleza de la respuesta requerida para obtener el reforzador. La impor
tancia de la respuesta para el control por el estmulo est ilustrada en el
experimento de Dobrezcka, Szwejkowska y Konorski (1966). Dichos inves
tigadores entrenaron a unos perros en una discriminacin izquierda-derecha o actuar-no actuar (grupos 1 y 2, respectivamente) mediante estmulos
auditivos que diferan tanto en su posicin (detrs o delante de los sujetos)
como en su naturaleza (el sonido de un zumbador o de un metrnomo).
Durante el transcurso de la prueba, la posicin de los dos sonidos fue inter
cambiada. Los resultados mostraron que la respuesta diferencial izquierda-derecha era principalmente controlada por la posicin de los sonidos,
mientras que la respuesta diferencial actuar-no actuar era controlada prin
cipalmente por la naturaleza de los sonidos. Es decir, el aprendizaje de dis
313

P s ic o l o g a

d e l a p r e n d iz a j e

criminacin izquierda-derecha fue ms fcil si los sonidos se presentaban


en diferentes localizaciones espaciales que si se utilizaban diferentes tipos
de sonido, mientras que el aprendizaje de actuar-no actuar era ms fcil
con diferentes tipos de sonido que con sonidos presentados en diferentes
posiciones. Por tanto, es ms probable que las respuestas que estn dife
renciadas por la localizacin (derecha-izquierda) queden bajo el control de
la distinta posicin de los estmulos discriminativos, y que las respuestas
que estn diferenciadas por su naturaleza quedan bajo el control del tipo
de estmulo.
5.2.2.

Respuesta de observacin a la muestra

Se ha documentado en numerosos estudio que el establecer como


requisito una respuesta de observacin a la muestra (Wyckoff, 1952) faci
lita en gran medida el aprendizaje de las discriminaciones condicionales
(Eckerman, Lanson y Cumming, 1968). Se considera un requisito de obser
vacin a la muestra cuando se refuerza alguna conducta del sujeto orienta
da al estmulo condicional. El ejemplo ms comn es retener la aparicin
de los estmulos de comparacin hasta que el sujeto toca la muestra.
Otro efecto importante del requerimiento de respuestas a la muestra es
que parece influir en el nivel asinttico de la discriminacin. Eckerman y
cois. (1968) comprobaron que despus de la adquisicin de una discrimina
cin en la que se requera picar a la muestra, el porcentaje de aciertos baj
entre un 10 y un 25% cuando se elimin este requisito.
Adems, aadir requisitos adicionales de razn fija hace ms eficiente
este mtodo. Sacks, Kamil y Mack (1972) estudiaron sistemticamente la
adquisicin de la discriminacin condicional con 1, 10, 20 y 40 respuestas
a la muestra, observando que el grupo de una respuesta necesit de ms
del doble de sesiones para adquirir la discriminacin que el grupo de 40
respuestas.
Por otra parte, tambin se ha encontrado que cuando la propia con
ducta es el elemento de muestra a discriminar, el nmero de respuestas
puede facilitar la adquisicin del aprendizaje. En un procedimiento de dis
criminacin condicional de la propia conducta con palomas como sujetos
(Garca y Benjumea, 2006) los animales a los que se les impidi la respuesta
314

Control

d e la c o n d u c t a p o r e s t m u l o

de observacin a la muestra mediante un RDO (reforzamiento diferencial


de otras respuestas) necesitaron entre 1200 y 6000 ensayos para alcanzar el
criterio de aprendizaje mientras que en el grupo en el que se pedan cinco
respuestas a la muestra se necesit como promedio unos 500 ensayos para
alcanzar el mismo criterio de aprendizaje.
5.2.3. Respuesta diferencial
La ltima variable que vamos a analizar relacionada con la respuesta
es la posibilidad de que los sujetos realicen respuestas diferentes ante cada
estmulo de control, bien como requisito del propio entrenamiento (Crter
y Werner, 1978; Urcuioli y Honig, 1980, por ejemplo) o bien requiriendo
una respuesta de observacin que permita el surgimiento espontneo (en
el sentido de no exigido) de conductas diferenciales (Sacks y cois., 1972).
Por ejemplo, en un experimento de Cohn, Looney, Brady y Aucella (1976)
se encontr que el aprendizaje de la discriminacin condicional era ms
rpido cuando se requera un programa diferente para cada muestra (RF 16
y RDB 3) que cuando a ambas se aplicaba el mismo programa de RF o RDB
(Razn Fija y Reforzamiento Diferencial de Tasas Bajas, respectivamente).
Se ha constatado tambin que estas respuestas diferenciales pue
den aparecer aunque las contingencias del experimento no lo requieran
(Cumming y Berryman, 1965), e incluso aunque se castigue explcitamente
(Garca y Benjumea, 2006).
5.3. Relacionados con la experiencia previa
La historia del sujeto, en cuanto a su experiencia con el reforzamiento
diferencial, influye no slo en la velocidad con la que adquiere nuevas dis
criminaciones, sino tambin en el grado de generalizacin que muestra en
discriminaciones ya adquiridas. Veamos algunos de estos fenmenos.
5.3.1. Disposiciones de aprendizaje
Harlow (1949) realiz un estudio con monos a los que someta a pro
blemas de discriminacin de objetos mediante un aparato que permita
315

P s ic o l o g a

d e l a p r e n d iz a j e

recompensar la eleccin correcta y ocultar los objetos ante la incorrecta. Se


presentaron 312 problemas, oscilando el nmero de ensayos entre 6 y 50.
Los resultados mostraron que en las primeras discriminaciones el apren
dizaje fue lento, pero a medida que los animales experimentaban con un
mayor nmero de problemas, la tasa de aprendizaje aumentaba, de mane
ra que en los problemas 257 al 312 los animales respondieron de forma
correcta en el segundo ensayo casi el 97% de las veces.
Lawrence (1963) entren a un grupo de ratas en una tarea de discri
minacin, una vez superado el criterio de xito las expuso a un nuevo
entrenamiento discriminativo pero de mayor dificultad que el anterior. Los
resultados mostraron una velocidad de aprendizaje mucho mayor en los
sujetos de este grupo al compararlos con los de otro grupo que no tuvieron
la primera experiencia. El experimento fue interpretado por el autor en tr
minos de atencin. Segn Lawrence, el primer entrenamiento, al ser ms
sencillo, permiti a los sujetos atender mejor a la dimensin relevante del
estmulo y fue esta reaccin de atencin la que facilit despus la discrimi
nacin ms difcil.
No obstante, este argumento ha sido discutido y refutado experimen
talmente. Seraganian (1979), por ejemplo, entren a un grupo de palomas
para que discriminasen entre diferentes colores para posteriormente entre
narlas para que lo hicieran entre inclinacin de lneas, de forma similar al
estudio de Lawrence pero cambiando la naturaleza del estmulo de control.
Sus datos tambin mostraron una mejora debida a la fase de entrenamiento
previa que no poda explicarse por una mayor atencin a la dimensin del
estmulo pertinente en la primera discriminacin. El autor defiende que lo
que mejora es la capacidad general del sujeto para resolver problemas de
discriminacin, no slo el hecho de atender a un rasgo concreto.
Los resultados de estos experimentos nos permiten concluir, por tanto,
que la experiencia con cualquier problema de discriminacin, independien
temente de qu dimensin se utilice o de su dificultad, favorece las habi
lidades generales de resolucin de problemas que ayudan al organismo a
afrontar un problema difcil posteriormente. No obstante, existen matices a
esta regla general, como por ejemplo el tipo de cambio dimensional.
En trminos generales, la generalizacin de la discriminacin apren
dida a otra discriminacin nueva puede ocurrir entre problemas en los
que se altera la misma dimensin del estmulo (cambio intradimensional)
316

Control

d e la c o n d u c t a p o r e s t m u l o

o cuando se utiliza un nuevo problema de discriminacin que implica una


dimensin estimular distinta (cambio extradimensional o interdimensio
nal). Por ejemplo, en la tarea 1 se refuerza por responder ante un color rojo
y se extingue ante el color verde, mientras que en una tarea 2 posterior se
refuerza por responder ante el color azul y se extingue la respuesta ante
el amarillo. Estaramos ante un caso de cambio intradimensional, pero
si la tarea 2 tuviese como estmulos de control dos sonidos de diferente
frecuencia el cambio sera interdimensional. Normalmente, los cambios
intradimensionales se aprenden con mayor facilidad que los cambios inter
dimensionales (Mackintosh, 1964).
5.3.2.

Efecto del sobreaprendizaje en la inversin

Un efecto peculiar de la experiencia en la adquisicin de nuevas dis


criminaciones fue el descrito por Mackintosh (1969). Este autor entren
a dos grupos de ratas para realizar una discriminacin con el mismo cri
terio de eficacia (escoger entre una caja blanca y otra negra para recibir
alimento), pero a uno de ellos les expuso a 100 ensayos adicionales de
entrenamiento en esa misma discriminacin. Tras esto entren a los dos
grupos en la discriminacin inversa, es decir, la caja con comida era ahora
la contraria que en la fase anterior. El autor encontr que el grupo que
haba recibido entrenamiento extra aprendi la discriminacin inversa en
menos tiempo que el otro grupo. A este fenmeno se le denomina efecto
del sobreaprendizaje en la inversin, y es un hallazgo en cierta medida
contraintuitivo, ya que podra pensarse que el entrenamiento extra forta
lecera la discriminacin de manera que aprender lo contrario requerira
de ms ensayos.
5.3.3.

Experiencia de reforzamiento no diferencial

Pero la facilitacin no es la nica forma en la que nuestra experiencia


anterior con discriminaciones puede influir en aprendizajes futuros. Waller
(1973) reforz con comida a cuatro grupos de ratas por recorrer un calle
jn, variando la pintura del callejn (gris o a rayas) y la probabilidad de
reforzamiento (50% o 100%) siguiendo un diseo 2x2 como el mostrado en
la Tabla 2.
317

P s ic o l o g a

d e l a p r e n d iz a j e

Tabla 2. Adaptacin del diseo experimental del estudio de Waller (1973)


Pintura
Gris
A rayas

Probabilidad de reforzamiento
Grupo 1
Grupo 3

Grupo 2
Grupo 4

En la segunda fase del estudio todos los sujetos fueron reforzados dife
rencialmente (el 100% de las veces) por elegir recorrer un corredor pintado
con lneas inclinadas 45 a la derecha (E+) o con lneas inclinadas 45 a la
izquierda (E-). Se midi como variable dependiente el nmero de ensayos
necesarios para elegir el E+, en otras palabras, la velocidad de adquisicin
de la discriminacin. Los resultados no mostraron diferencias significativas
entre los grupos 1 y 2, aquellos que haban tenido experiencia con el calle
jn gris. Sin embargo, el grupo 4 requiri de muchos ms ensayos que el
grupo 3 para aprender la discriminacin.
Waller consider estos resultados como un apoyo directo de la teora
atencional de la discriminacin (el ltimo apartado del captulo abordar
ms detalladamente esta teora), argumentando que la experiencia con un
reforzamiento dbil (50%) frente a las rayas haba provocado que estos
sujetos desatendieran la dimensin pertinente del estmulo en la fase 2.
Pero la experiencia con reforzamiento no diferencial puede afectar
incluso a aprendizajes anteriores con estmulos diferentes. En un estudio
de Honig (1974) se entren a palomas para discriminar entre una lnea
negra horizontal y otra vertical (Fase 1). Para la segunda fase se dividieron
los sujetos en dos grupos. A uno de los grupos se le reforz diferencialmente
por responder ante una luz azul como E+, mientras se extingui la respues
ta frente a una luz verde como E-. El otro grupo fue reforzado con una
probabilidad de 0,5 independientemente del estmulo ante el que respon
diesen, es decir, no se les aplic reforzamiento diferencial. La siguiente fase
consisti en una prueba de generalizacin de la discriminacin adquirida
por ambos grupos en la Fase 1. Se presentaron en la evaluacin 8 estmulos
verticales de diferente inclinacin. Los resultados mostraron un grado de
generalizacin mayor en el grupo que haba sido expuesto a la fase 2 sin
entrenamiento discriminativo. Es decir, la fase de exposicin a contingen
cias de reforzamiento no diferencial afect a una discriminacin aprendida
318

Control

d e la c o n d u c t a p o r e s t m u l o

con anterioridad, reduciendo su nivel, aunque los eventos involucrados no


estaban relacionados (lneas frente a colores).
Honig tambin interpret los resultados en trminos de factores atencionales. Segn el autor, el reforzamiento diferencial en la Fase 2 mantuvo
la atencin de los sujetos que fueron expuestos a l. En otras palabras, los
entrenamientos discriminativos potencian la atencin, reduciendo de esta
forma la generalizacin.
5.4. Relacionados con el entrenamiento discriminativo.
5.4.1. Tipos de entrenamientos discriminativos.
Hasta ahora hemos descrito las contingencias a travs de la cuales se
adquieren respuestas diferenciales sin especificar la forma en la que se
presentan los diferentes estmulos de control. Si tenemos que disear la
manera en la que vamos a entrenar una discriminacin simple lo primero
que debemos decidir es si los estmulos de control (al menos un estmulo
discriminativo positivo y uno negativo) van a aparecer juntos en cada ensa
yo o por separado, es decir, solo uno de los dos en cada ensayo.
Cuando el discriminativo positivo y el negativo aparecen juntos, es
decir, a la vez en cada ensayo (aunque su posicin cambie), se considera a
esa discriminacin como un entrenamiento simultneo. La conducta diri
gida al estmulo discriminativo positivo (picar o pulsar la tecla en la que
aparece el estmulo, por ejemplo) sera contingente con el reforzamiento,
mientras que la dirigida al estmulo delta sera sometida a extincin o
castigo. El resultado de este tipo de procedimientos es que, con suficiente
entrenamiento, los sujetos terminan respondiendo exclusivamente sobre el
estmulo discriminativo positivo.
En el entrenamiento sucesivo no aparecen los estmulos antecedentes
al mismo tiempo, sino que en determinados momentos est presente uno
y en otras ocasiones se presenta el otro. Este entrenamiento se denomina
procedimiento de discriminacin de respuesta / no respuesta (o go-no go),
ya que el sujeto acaba respondiendo en los ensayos en los que est presente
el estmulo discriminativo y no hacindolo en los que est presente el est
mulo delta.
319

P s ic o l o g a

d e l a p r e n d iz a j e

En lneas generales, la adquisicin de discriminaciones simples son ms


lentas cuando el procedimiento es sucesivo que cuando es simultneo.
En los casos anteriores se estableca una situacin con dos condicio
nes: una reforzada y otra no reforzada. Esto no tiene porqu ser siempre
as, pudiendo usarse dos condiciones y ambas reforzadas, pero de distinta
manera cada una de ellas. Un ejemplo de discriminacin simultnea entre
programas de reforzamiento es el programa concurrente, en el que el sujeto
est expuesto a dos programas simultneamente. Por ejemplo, programas
concurrentes de intervalo variable como IV 30- IV 60, donde la primera
respuesta transcurrido el tiempo medio especificado en cada programa es
reforzada. El caso de la discriminacin entre programas de reforzamiento
en el que se utiliza una aproximacin sucesiva se denomina programa ml
tiple, y en l los diferentes programas componentes se presentan de forma
secuencial en el tiempo y con un estmulo discriminativo diferente para
cada uno de ellos. De esta manera se desarrollan respuestas diferenciales a
dos (o ms) estmulos siempre que cada estmulo seale un programa dife
rente de reforzamiento. Por ejemplo, con el estmulo discriminativo rojo
funcionara un programa de razn variable y con el estmulo discriminativo
verde un programa de intervalo fijo. Como se ve, puede existir respuesta
diferencial sin que se tengan que producir respuestas ante un estmulo y
ausencia de respuestas ante otro diferente.
En los primeros estudios sobre discriminaciones condicionales los
estmulos de muestra permanecan a la vista de los sujetos durante todo el
tiempo que duraba el ensayo. Por ejemplo, en el experimento de Lashley
(1938) la muestra y la comparacin se presentaban en una misma cartulina,
en la que el fondo haca como estmulo de muestra y la forma como est
mulo de comparacin. Esta modalidad en la que el estmulo condicional y
el/los discriminativo/s se encuentran presentes a la vez se denomina discri
minacin condicional simultnea.
Ms recientemente, han sido muy comunes los experimentos en los que
los estmulos de muestra y de comparacin no estn presentes nunca de
forma simultnea, sino que media un intervalo de tiempo entre la desapa
ricin del estmulo de muestra y la aparicin del estmulo de comparacin
(Crter y Werner, 1978). Esta manipulacin da lugar a las discriminaciones
condicionales demoradas. Un caso particular dentro de este ltimo grupo
es la discriminacin condicional de demora cero, donde los estmulos de
320

Control

d e la c o n d u c t a p o r e s t m u l o

comparacin son presentados inmediatamente despus del apagado del


estmulo de muestra.
La introduccin de una demora entre la presentacin del estmulo de
muestra y los estmulos de comparacin afecta muy significativamente a
todos los ndices de ejecucin en discriminaciones condicionales. Aunque
existen diferencias entre especies en la duracin mxima de la demora que
pueden tolerar, en general se puede afirmar que los aumentos en la demora
conllevan decrementos en la ejecucin (Mackay, 1991).
Segn afirman Cumming y Berryman (1965), el simple hecho de eliminar
la muestra en el momento en que aparecen las comparaciones (procedimien
to de demora cero) aumenta el nmero de ensayos necesarios para aprender
la discriminacin con respecto a una discriminacin condicional simultnea.
5.4.2. Eficacia relativa de los elementos del estmulo como seales
para el reforzamiento
Wagner, Logan, Haberlandt y Price (1968) llevaron a cabo un experi
mento en el que fueron condicionados dos grupos de ratas con un proce
dimiento de ensayo discreto. Los sujetos fueron reforzados el 50% de los
ensayos por presionar una palanca en presencia de un estmulo compuesto
que consista en una luz y un sonido de dos posibles. Para un primer grupo
la luz en compuesto con cualquiera de los dos sonidos era reforzada siem
pre el 50% de los ensayos (Luz+Tonol > Reforzado 50%; Luz+Tono2 >
Reforzado 50%); para un segundo grupo la luz en compuesto con uno de
los sonidos era reforzada siempre, pero en combinacin con el otro soni
do nunca era reforzada (Luz+Tonol Reforzado 100%; Luz+Tono2
Reforzado 0%). Como se puede observar, con relacin a los dos tonos, la
luz predeca mejor el re forzamiento para el grupo 1 que para el grupo 2.
En el primer grupo, los sonidos no aadan ninguna informacin a la ya
proporcionada por la luz. Consecuentemente, los sujetos respondieron ms
a la luz en el grupo 1 que en el grupo 2. En el grupo 2, por el contrario, res
pondieron ms al tono 1 que a ningn otro estmulo, reflejando que dicho
estmulo era el mejor predictor del reforzamiento subsiguiente.
Los resultados sugieren que los estmulos discriminativos tienen un
poderoso efecto sobre la conducta no slo porque estn emparejados con
321

P s ic o l o g a

d e l a p r e n d iz a j e

el reforzador, sino porque sealan la forma o el momento en que se va a


producir el reforzamiento. Del mismo modo, si un estmulo es un mejor
predictor de la disponibilidad del reforzamiento que otro, es ms probable
que adquiera el control de la conducta operante.
5.4.3. Tipo de reforzamiento
El control por el estmulo depende no slo de la eficacia relativa del
estmulo como seal para el reforzamiento, sino tambin de la natu
raleza del reforzador utilizado. Ciertos tipos de estmulos tienen ms
probabilidad de ejercer un control sobre la conducta con reforzamiento
positivo que con reforzamiento negativo (entrenamiento de evitacin/
escape).
En un experimento de Foree y LoLordo (1973), la respuesta de apretar
un pedal en palomas fue reforzada en presencia de un estmulo compuesto
que consista en un sonido y una luz roja. Con un reforzamiento de comida,
la luz consigui mucho ms control sobre la conducta que el sonido. Con
un reforzamiento de evitacin de una descarga elctrica, el sonido consi
gui ms control sobre la conducta que la luz.
Estos hallazgos indican que el control por el estmulo sobre la conduc
ta instrumental est en parte determinado por el tipo de reforzamiento
que se utilice. Los estmulos visuales parece que tienen ms probabilidad
de adquirir un control sobre la conducta reforzada positivamente que las
claves auditivas; y las claves auditivas es ms probable que adquieran un
control de la conducta negativamente reforzada que las claves visuales, al
menos cuando se usan palomas como sujetos experimentales.
5.4.4. Consecuencia diferencial
En tareas de discriminacin simple, Peterson, Wheeler y Amstrong
(1978) con palomas, y Fedorchack y Bolles (1987) con ratas, demostraron
que si se usan consecuencias diferenciales para cada combinacin entre el
estmulo discriminativo y la respuesta se mejoraba la discriminacin. As,
si ante el estmulo El el sujeto tena que emitir la respuesta RI para recibir
la consecuencia C1 (comida, por ejemplo), y ante el estmulo E2 tena que
322

Control

d e la c o n d u c t a p o r e s t m u l o

emitir la respuesta R2 para recibir la consecuencia C2 (agua, por ejemplo),


la velocidad del aprendizaje ser mucho mayor que si se hubiera usado un
slo tipo de reforzador.
En cuanto a las discriminaciones condicionales, aunque la mayora de
los trabajos que utilizan este tipo de procedimientos lo hacen aplicando el
mismo reforzador en todos los casos, algunos estudios han encontrado un
efecto facilitador del uso de distintos tipos de reforzadores en funcin de la
comparacin correcta. Trapold (1970) encontr este efecto usando comida
o sacarosa en funcin de la comparacin correcta, Carlson y Wielkiewicz
(1976) usando diferente nmero de pellets, DeLong y Wasserman (1981)
con diferentes probabilidades de reforzamiento, y Maki, Overmier, Dlos
y Gutmann (1995) con reforzadores primarios frente a la posibilidad
de avanzar al siguiente ensayo. Todos estos autores coinciden en que el
reforzamiento diferencial favorece la adquisicin de la discriminacin
condicional.
5.4.5.

Duracin del intervalo entre ensayos

El lapso de tiempo programado entre la finalizacin de un ensayo y la


presentacin del siguiente ejerce tambin un efecto importante en la adqui
sicin de la discriminacin. Holt y Shafer (1973) comprobaron los niveles
de adquisicin de una discriminacin condicional en palomas usando inter
valos entre ensayos de cinco duraciones diferentes (0, 5, 15, 25 y 60 segun
dos). Sus resultados mostraron que el grupo de palomas con un intervalo
de 0 segundos entre ensayos mostraban una ejecucin a niveles de azar,
mientras que los grupos con 25 y 60 segundos exhiban los mejores desem
peos en la tarea. No obstante, una vez que la discriminacin condicional
ha sido adquirida, parece que la duracin del intervalo ejerce poco efecto
sobre la precisin, excepto cuando el intervalo se elimina por completo. De
hecho, los autores comentan que incluso los sujetos que haban alcanzado
un nivel estable de ejecucin reducan su nivel de aciertos al esperado por
azar cuando se les introduca en preparaciones con 0 segundos de intervalo
entre ensayos.
Este mismo efecto se ha encontrado con diferentes especies como del
fines (Hermn y Gordon, 1974), monos (Jarrard y Moise, 1971), y ratas
(Roberts, 1974).
323

P s ic o l o g a

d e l a p r e n d iz a j e

5.4.6. Grado de entrenamiento


La relacin entre la extensin del reforzamiento diferencial (nmero de
ensayos de entrenamiento, tasa de reforzamiento, etc.) y el grado de genera
lizacin se ha adelantado varias veces a lo largo del captulo. Cuanto mayor
es el entrenamiento para la adqLiisicin de la discriminacin ms acusado
es el gradiente formado en la prueba de generalizacin, es decir, menor
generalizacin se observa.
Este principio se ilustra perfectamente en estudios como el de Hearts y
Koresko (1968). En este trabajo se reforz a las palomas por responder a
una tecla cruzada por una lnea vertical (E+). Se midi la respuesta de los
sujetos ante seis estmulos parecidos al E+ (en los que se vari la inclina
cin de la lnea) en cuatro momentos diferentes (dividiendo a los sujetos
en cuatro grupos): tras 2, 4, 7 y 14 sesiones. Los resultados mostraron cla
ramente que el gradiente de generalizacin se iba haciendo paulatinamente
ms acusado en funcin del nmero de sesiones de entrenamiento al que
haba sido expuesto cada grupo.
5.4.7. Entrenamiento en discriminacin sin errores
Desarrollado por Terrace (1963), este procedimiento minimiza las res
puestas al E-, reduciendo tanto el nmero de errores cometidos por el suje
to como las reacciones emocionales asociadas a la aplicacin de extincin o
castigo (efectos que se desarrollarn en el tema 7 sobre el Control Aversivo).
En su experimento Terrace reforz a palomas por responder a una luz roja
(E+) que se aplic durante todo el experimento con la misma intensidad y
duracin. El E- (una luz verde), sin embargo, se presentaba a una intensi
dad tan baja y durante tan poco tiempo que no permita responder a l. A
lo largo del procedimiento se fue aumentando la intensidad y la duracin
del E- hasta equipararse a la que haba tenido desde el principio el E+. Los
resultados mostraron que, si los cambios en el E- son suficientemente gra
duales, los sujetos pueden adquirir la discriminacin simple sin cometer
ningn error, es decir, sin responder al E-.
Este tipo de procedimientos permiten optimizar la adquisicin de la dis
criminacin, demostrando su utilidad en la enseanza a sujetos con nece
sidades educativas especiales, como nios autistas, por ejemplo (Koegel y
Koegel, 1988).
324

Control

d e la c o n d u c t a p o r e s t m u l o

Este mismo principio puede seguirse en el entrenamiento de discrimi


naciones condicionales. Por ejemplo, puede presentarse la muestra y la
comparacin correcta con un nivel de intensidad mayor que la compara
cin incorrecta, para ir aumentando la intensidad de esta ltima progresi
vamente. O, en lugar de manipular la intensidad (como el brillo, por ejem
plo) puede variarse el tamao (Mcllvave y Dube, 1992).
5.4.8. Intervalo entrenamiento-prueba
Thomas, Windell, Bakke, Kreye, Kimose y Aposhyan (1985) reforzaron
la respuesta de un grupo de palomas ante una tecla cruzada por una lnea
blanca vertical (un procedimiento que ya hemos visto en otros trabajos). En
la prueba de generalizacin se presentaron el E+ y otros seis estmulos en
los que se modific la inclinacin de la lnea (de 15 a 90 grados). Esta prue
ba se aplic un minuto, un da, y una semana despus del entrenamiento.
Los resultados mostraron que el gradiente se iba haciendo cada vez ms
plano segn el tiempo entre el entrenamiento y la prueba era mayor.
Podra afirmarse, por tanto, que el paso del tiempo aumenta la genera
lizacin, es decir, que los estmulos diferentes al E+ ejercen mayor control
cuanto ms lejana se encuentra la finalizacin del entrenamiento.
6. INTERACCIONES EXCITATORIAS-INHIBITORIAS
Cuando abordamos el efecto de la experiencia previa en la adquisicin
de nuevas discriminaciones introdujimos el concepto de cambio intradimensional e interdimensional, refirindonos a posibles diferencias entre
los estmulos en cuanto al valor dentro del mismo rasgo (mantenindose
el resto constante) o de la existencia de diferentes rasgos, respectivamente.
Pero estas diferencias tambin pueden distinguirse dentro de la misma
discriminacin. De esta forma, se considerara a una discriminacin como
intradimensional si ambos estmulos discriminativos (tanto el positivo
como el negativo) son idnticos en todo excepto en el valor de uno de sus
rasgos. Por ejemplo, dos objetos del mismo tamao, forma, posicin, etc.,
que slo se diferencian en el color.
La adquisicin de discriminaciones intradimensionales da lugar en
las pruebas de generalizacin a dos interesantes fenmenos que vamos a
325

P s ic o l o g a

d e l a p r e n d iz a j e

describir en este apartado: el desplazamiento del mximo y el efecto de


tendencia central.
6.1. Desplazamiento del Mximo
Este fenmeno fue observado por primera vez por Hanson en 1959. En
su experimento entren a tres grupos de palomas a discriminar entre dos
sonidos que slo se diferenciaban en su longitud de onda. Se distribuyeron
los sujetos en cinco grupos, en todos se reforz por responder ante el soni
do de 550 nm. (que funcion como E+), sin embargo, el sonido en cuya
presencia se extingua la respuesta (el E-) vari en funcin de la condicin.
Tras el entrenamiento se comprob la respuesta de los sujetos ante diferen
tes estmulos de prueba que iban de 480 a los 600 nm.
La Tabla 3 muestra los diferentes valores de los estmulos utilizados en
el entrenamiento y el valor aproximado del estmulo de prueba en el que
se observ el mximo de respuestas (de media). Como se indica, los nicos
sujetos que no recibieron un entrenamiento en discriminacin fueron los
pertenecientes al grupo 5, que slo fueron expuestos al sonido de 550 nm.
y no se les aplic extincin en ningn momento.
Tabla 3. Resumen de los resultados del estudio de Hanson (1959)
Grupo

E+ (nm)

E- (nm)

Mximo de respuestas ante el E (nm) de

1
2
3
4
5

550
550
550
550
550

555
560
570
590

530
538
540
542
550

----------

Los resultados muestran como el nico grupo que demostr el mximo


de respuestas ante el E+ original fue aquel que no haba sido sometido a
extincin frente a otro sonido con diferente longitud de onda. En el resto de
grupos se produce un alejamiento del valor en el que se observa el mximo
de respuestas respecto al E+ original, en el sentido opuesto al valor del E-,
y ms amplio cunto ms cercano est el valor del E- al del E+.
326

Control

d e la c o n d u c t a p o r e s t m u l o

A este fenmeno se le denomina Desplazamiento del Mximo y ha sido


replicado en diferentes ocasiones (Honig y Stewart, 1993, por ejemplo),
pero cmo puede explicarse? Spence (1936, 1937) sugiri una interesante
teora.
Segn este autor, el entrenamiento en discriminacin incide tanto en
el discriminativo positivo como en el negativo (tanto en el EC excitatorio
como en el inhibitorio) y, por tanto, ambos estmulos adquieren un control
del comportamiento que puede generalizarse a otros estmulos semejan
tes. Cuando la discriminacin ha sido intradimensional, las diferencias
entre los estmulos se limitan al valor en una sola dimensin (dentro de
un continuo), de manera que los estmulos de prueba mantienen parecido
tanto con el E+ como con el E-. Spence destaca que todos los estmulos, los
condicionados y los generalizados, tienen un efecto tanto excitatorio como
inhibitorio, de manera que el efecto (la conducta provocada) podra enten
derse como la suma algebraica de ambas tendencias.

LO
N

LO
CO

LO LO
O) O
LO

LO
lf )

LO
(N I
LO

LO
(^)
l)

m
LO

co
LO

Figura 5. Datos hipotticos de la interaccin entre los gradientes excitatorios e inhibitorios


en tres ejemplos: 510 nm. (E+) y 495 nm. (E-), izquierda y derecha; y 530 nm. (E+) y 485
nm. (E-), centro. En gris los gradientes excitatorios e inhibitorios, en negro el gradiente neto.

Cmo se calculara entonces? Vamos a centramos en los datos


representados en la grfica de la izquierda de la Figura 5. Hay que tener en
cuenta que:
a) Se han tomado los valores hipotticos de respuesta que se observa
ran si el E+ y el E- hubiesen adquirido su funcin de manera inde
pendiente, es decir, como si no se hubiese entrenado una discrimi
nacin intradimensional.
327

P s ic o l o g a

d e l a p r e n d iz a j e

b) El gradiente slo est mostrando la fuerza excitatoria de cada


estmulo de prueba presentado, pero para realizar la suma algebraica
de tendencias es necesario contemplar tambin la fuerza inhibitoria.
Para ello tomaremos como valor de referencia el mximo de res
puestas observado en cada gradiente (9 en el gradiente excitatorio
y 5 en el inhibitorio). Si, por ejemplo, ante 530 nm. se observasen 4
unidades de respuesta en el gradiente excitatorio, sta sera su fuerza
excitatoria en ese gradiente, mientras que su fuerza inhibitoria sera
5 (9-4).
La Tabla 4 muestra cmo se calcularan los valores del gradiente fruto
de la interaccin entre el E+ y el E- siguiendo estos principios.
Tabla 4. Ejemplo del clculo de la suma algebraica de tendencias
urupo
500
505
510
515
520

G. Excitatorio (R)
Exc.
Inh.
8,3
8,7
9,0
8,7
8,3

0,7
0,3
0
0,3
0,7

G. Inhibitorio (R)
Exc.
Inh.
1,3
1,7
2,0
2,5
3,0

3,7
3,3
3,0
2,5
2,0

suma /ugeoraica
(8,3 + 1,3)-(0,7 + 3,7) = 5,2
(8,7+ 1,7)-(0,3+ 3,3) = 6,8
(9 + 2) - (0 + 3) = 8
(8,7 + 2 ,5 )-(0 ,3 + 2,5) = 8,4
(8,3 + 3) - (0,7 + 2) = 8,6

Los resultados hipotticos mostrados en la Figura 5 nos aportan infor


macin sobre las caractersticas que presenta este fenmeno, algunas ya
comentadas:
El desplazamiento del mximo se produce en el sentido del E- al E+.
En nuestro ejemplo, si el E- es 495 nm. y el E+ 510 nm., de existir un
desplazamiento del mximo tendra que ser ante un estmulo con un
valor superior a 510 nm.
El desplazamiento del mximo es mayor cuanto ms cercanos se
encuentran los valores del E+ y el E-. Esto puede comprobarse com
parando el gradiente neto de la grfica de la izquierda con el de la
grfica central, en la que apenas se observa desplazamiento. Esta
caracterstica se ha replicado con una amplia variedad de estmulos
y especies: Hearst (1968) usando la inclinacin de lneas con palo328

Control

d e la c o n d u c t a p o r e s t m u l o

mas, Barn (1973) usando tonos con humanos, Ohinata (1978) con
diferentes longitudes de ondas con peces, Cheng, Spetch y Johnson
(1997) con localizaciones espaciales y palomas, por ejemplo.
Cuanto mayor es la discriminacin mostrada por el individuo de los
E+ y E- menor es el efecto de desplazamiento producido por la inte
raccin entre ambos. La grfica de la derecha tiene los valores del E+
y E- idnticos a la grfica de la izquierda, sin embargo, no se observa
desplazamiento del mximo.
Aunque el fenmeno se denomine Desplazamiento del mximo,
al menos tericamente, tambin se produce un desplazamiento del
mnimo. Adems, este valor dependera de las mismas variables
que el valor en el que se observa el mximo de respuesta, excepto
porque su desplazamiento se producira en el sentido del E+ al E-.
Cuanto mayor es la interaccin (ms proximidad entre E+ y e - y
/o gradientes ms planos) menor es el valor absoluto de conducta
observada.
A pesar de la robustez del fenmeno, existen caractersticas tanto del
entrenamiento como de la prueba o de los propios estmulos utilizados
(ver Purtle, 1973, o Mackintosh, 1974) que determinan su aparicin. Por
ejemplo, se ha comprobado que el entrenamiento en discriminacin sin
errores no produce desplazamiento del mximo en la prueba de generali
zacin (Terrace, 1964). Y, por otra parte, Crawford, Steele y Malone (1980)
y Cheng y cois. (1997) encontraron que si la fase de evaluacin es suficien
temente larga tampoco se observa este desplazamiento.
Pero, probablemente, uno de las variables que modulan el Desplazamiento
del Mximo que ms inters ha despertado es la que vamos a describir
en el siguiente apartado, el Efecto de Tendencia Central o de Nivel de
Adaptacin.
6.2. Efecto de Tendencia Central
Hasta ahora hemos visto pruebas de generalizacin en las que se presen
taban estmulos generalizados con valores tanto superiores como inferiores
a los E+ y/o E- entrenados. Esta distribucin ms o menos simtrica de
329

P s ic o l o g a

d e l a p r e n d iz a j e

los estmulos de prueba da lugar a curvas normales cuyo valor intermedio


es el E+ o E- original, siempre que no se produzca un desplazamiento del
mximo. Pero qu aspecto presentara el gradiente de generalizacin si los
estmulos de prueba presentados no se distribuyeran de esa manera?
Thomas y Jones (1962) respondieron a esta pregunta mediante un expe
rimento con humanos como sujetos. En su estudio se present una luz
verde (525 nm.) durante un minuto y se advirti a los participantes que la
recordaran para poder identificarla despus. En la fase de evaluacin los
sujetos fueron distribuidos en tres grupos que diferan en los estmulos de
prueba presentados: todos por debajo del E+, todos por encima del E+, u
ordenados de manera simtrica. Los sujetos tenan que determinar cul de
ellos era el mismo que el color mostrado al principio pulsando una tecla.
Los resultados se resumen en la Tabla 5.
Tabla 5. Resumen de los resultados por Thomas y Jones (1962)
Grupos

Inferiores al E+ (525 nm)


Superiores al E+ (525 nm)
Simtrico

Estmulos de prueba (nm)


485,495, 505,515, 525
525, 535, 545, 555, 565
505, 515, 525, 535, 545

Mximo de respuesta en

515 nm
535 nm
525 nm

Es importante recordar que el E+ (el estmulo que se present al princi


pio y que se peda identificar) era el mismo para los tres grupos y que todos
tuvieron la oportunidad de sealarlo. Sin embargo, esto slo se observ en
el grupo con la distribucin simtrica, en los dos grupos restantes el mxi
mo de respuestas se desplaz en el sentido del E+ original hacia el valor
medio de los estmulos presentados. Este fenmeno es el conocido como
Efecto de Tendencia Central y es uno de los mayores apoyos empricos del
enfoque relacional. Este enfoque defiende que la respuesta generalizada no
se basara en respuestas a las caractersticas fsicas absolutas de los est
mulos, sino a sus referencias relativas en funcin de los estmulos con los
que tiene experiencia.
Podra afectar la distribucin de los estmulos de prueba a la inte
raccin entre el E+ y el E- en una discriminacin intradimensional? Para
responder a esta pregunta Thomas y su equipo (Thomas, Mood, Morrison
y Wiertelak, 1991) realizaron un experimento, tambin con humanos, en el
330

Control

d e la c o n d u c t a p o r e s t m u l o

que consiguieron modificar el sentido del desplazamiento del mximo. En


su estudio se utilizaron 11 intensidades de luz blanca clasificadas en orden
creciente del 1 al 11. Se entren a 40 estudiantes universitarios a discrimi
nar entre dos de esas intensidades. En un grupo se reforz responder ante
la intensidad de grado 2 (E+) y se castig la respuesta ante la de grado 4
(E-). En el otro grupo el E+ fue el estmulo 4 y el E- el estmulo 2. La fase
de prueba consisti en la exposicin a seis series en las que se presentaban
de manera aleatoria todos los estmulos, los once.
En ambos grupos se encontr un desplazamiento del mximo respecto
al valor del E+ entrenado muy cercano a 6, la media de los valores de los
estmulos de prueba. Para el grupo en el que el E+ fue el grado 2 de inten
sidad el mximo de respuesta se observ ante el estmulo 5, mientras que
para el grupo en el que el E+ fue 4 se desplaz al estmulo 7. Pero lo ms
destacable es que el desplazamiento en el primer grupo se produjo en el
sentido del E+ (2) al E- (4).
Invalidan estos resultados el fenmeno del desplazamiento del mxi
mo? No necesariamente. El Efecto de Tendencia Central, en primer lugar,
es un fenmeno que hasta ahora slo se ha comprobado con sujetos huma
nos, en el resto de especies (palomas y ratas, principalmente) se sigue repli
cando de manera consistente el Desplazamiento del Mximo. En segundo
lugar, no todas las investigaciones con humanos obtienen resultados cohe
rentes con l. En algunos casos, como cuando se usan procedimientos de
reconocimiento de caras, no se observan esta respuesta relacional (Spetch,
Cheng y Clifford, 2004; por ejemplo). La naturaleza, alcance y caractersti
cas de este fenmeno es un debate abierto todava.
7. OTRAS TEORIAS SOBRE LA GENERALIZACION
Por qu razn estmulos que nunca han participado en una contingen
cia de aprendizaje pueden ejercer control sobre la conducta de un individuo?
Las primeras hiptesis explicativas a esta pregunta se fundamentaron
en considerar la generalizacin como un proceso primario y no como el
efecto o el subproducto de otro proceso diferente. En esta lnea destacan
las propuestas tanto de Pavlov (1927) como de Hull (1943), ya introducidas
con anterioridad.
331

P s ic o l o g a

d e l a p r e n d iz a j e

Pavlov bas su explicacin en el concepto de irradiacin, semejante al


efecto de onda al tirar un objeto al agua. Segn el autor, cada estmulo
produce excitacin en una zona concreta del crtex cerebral, de manera
que estmulos parecidos pueden activar zonas fsicamente adyacentes. Esto
implicaba (y era coherente con lo observado en los experimentos) que la
irradiacin de la excitacin se volva ms dbil a medida que aumentaba la
distancia al centro de excitacin correspondiente al E+ original.
Hull, por otra parte, defendi que el cerebro no perciba los estmulos
como algo nico, con un solo valor por dimensin, sino que cada rasgo era
registrado con una horquilla de valores. Es decir, que cuando un estmulo
adquiere control sobre cierta conducta, ese control no es exclusivo del valor
de las dimensiones con las que se ha presentado, sino que es compartido
por valores cercanos. De esta manera, al condicionarse regiones de valores
y no valores concretos, cuntos ms valores compartan el estmulo de prue
ba con las regiones condicionadas con el E+ original mayor ser el control
que ejercer.
A lo largo del captulo hemos descrito otros desarrollos tericos que,
de alguna forma, complementan y amplan esta manera de concebir el
fenmeno, como las teoras de Spence o el enfoque relacional de Thomas y
Jones. Sin embargo, existen otras aproximaciones a este problema que no
entienden la generalizacin como un proceso primario. En este apartado
vamos a abordar dos de ellas: las que consideran la generalizacin como
un fallo en la discriminacin (la denominada hiptesis inversa y la teora
atencional), y las que critican el concepto de inhibicin (la teora de la res
puesta mltiple).
7.1. Hiptesis inversa: Blough
Siguiendo el planteamiento, ya comentado, de Lashley y Wade (1946),
esta hiptesis mantiene que la generalizacin se debe a que los sujetos no
pueden discriminar entre los estmulos de prueba a los que son expuestos.
En otras palabras, la capacidad de los sujetos para discriminar ciertos est
mulos determina si mostrarn o no generalizacin.
Esta hiptesis fue puesta a prueba por Blough en 1972. En su experi
mento entren a palomas para que discriminasen una longitud de onda
332

Control

d e la c o n d u c t a p o r e s t m u l o

concreta (color) como E+. El valor del estmulo discriminativo variaba en


funcin del grupo e iba desde 480 nm. a 645 nm. Despus, en la prueba de
generalizacin, comprob los gradientes que se formaban en cada grupo
exponindoles a valores cercanos al E+ entrenado, tanto inferiores como
superiores. Los resultados mostraron que el gradiente ms pronunciado se
observaba en los valores cercanos a 600 nm., mientras que se iban volvien
do ms planos (menos discriminacin, ms generalizacin) segn los est
mulos de prueba del grupo se alejaban de 600 nm., tanto por debajo dentro
del espectro como por arriba.
La autora concluy que la visin de las palomas es especialmente sen
sible a variaciones en ese punto del espectro, es decir, que son capaces
de distinguir mejor ciertos colores que otros. Y que, por tanto, esa mejor
capacidad para discriminar en un rango cercano a los 600 nm. minimiz
la generalizacin.
7.2. Teora atencional: Shutherland y Mackintosh
Esta teora matiza la propuesta de Lashley y Wade, ya que considera
que el fallo en la discriminacin (responsable de que se produzca generali
zacin) se debe a la falta de atencin hacia el rasgo pertinente del estmulo
discriminativo, del que correlaciona con el reforzamiento.
La teora atencional de la discriminacin fue formulada por Sutherland
y Mackintosh (1971). Estos autores distinguen dos procesos:
1. El cerebro recibe y procesa la informacin sensorial a travs de ana
lizadores especficos que representan cada dimensin del estmulo
por separado (color, brillo, tamao, etc.). Al inicio del entrenamien
to, antes del reforzamiento diferencial, la fuerza de cada analizador
dependera de la saliencia de la dimensin. El reforzamiento afectara
a la fuerza de los analizadores activos, de manera que la dimensin
ms saliente, a la que estamos prestando atencin, se condicionara
ms que el resto.
2. Se desarrolla un vnculo entre una respuesta especfica y un analiza
dor. Por ejemplo, el reforzamiento establecera una unin entre ele
gir la tecla roja en lugar de la verde y el analizador correspondiente
al color.
333

P s ic o l o g a

d e l a p r e n d iz a j e

A lo largo del captulo se han descrito tanto experimentos que apoyan


esta teora (Lawrence, 1963, Waller, 1973, y Honig, 1974), como otros que
apuntan en la direccin contraria (Seraganian, 1979).
7.3. Respuesta Mltiple: Staddon
En un experimento de psicologa la variable dependiente es la conduc
ta del sujeto, pero no cualquier conducta sino la que se ha definido como
conducta objetivo para ese experimento concreto. Las caractersticas de las
especies que suelen utilizarse para la investigacin en laboratorio y las necesi
dades tcnicas para el registro riguroso de esa conducta, entre otras variables,
suelen delimitar los eventos que son objeto de observacin y anlisis por parte
de los investigadores. En los estudios sobre generalizacin, por ejemplo, se
refuerza diferencialmente una respuesta concreta (picar en una tecla, presio
nar una palanca, recorrer un corredor, etc.) y despus se miden ciertos par
metros de esa respuesta (frecuencia, latencia, intensidad, etc.) ante estmulos
diferentes a los utilizados durante el entrenamiento. De esta manera, la ocu
rrencia de la respuesta objetivo ante estmulos parecidos al E+ se considera
fruto de las propiedades excitatorias de los estmulos generalizados, mientras
que su ausencia (o decremento) efecto de sus propiedades inhibitorias. Esto
ha limitado los anlisis tericos a una sola conducta: la conducta objetivo.
La teora de Respuesta Mltiple de Staddon (1983) propone romper con
esta concepcin incluyendo dentro del anlisis del fenmeno el resto de
conductas que despliega el sujeto, adems de la respuesta objetivo. Staddon
diferencia entre dos categoras de conducta: las terminales y las de nterin.
Las primeras estaran controladas por la presencia del E+ y fortalecidas por
la aparicin del reforzador, y las segundas seran aquellas que aparecen en
ausencia del E+ (o presencia del E-) y que son reforzadas por otro tipo de
eventos diferentes al reforzador programado por el experimentador.
Esto representa un enorme cambio respecto al resto de teoras que hemos
visto en el captulo, ya que se reemplaza el concepto de inhibicin por el de
competicin. Las respuestas terminales quedaran bajo el control excitatorio
de los E+ mientras que las conductas de nterin estaran controladas por los
E-. De esta manera, ambas tendencias excitatorias se generalizaran a todo
el conjunto de estmulos de prueba presentados durante la evaluacin, y el
resultado de esta competencia formara los diferentes gradientes.
334

Control

d e la c o n d u c t a p o r e s t m u l o

R esum en

La causa siempre antecede al efecto. Si el objeto de estudio de la Psicologa


es el comportamiento, la explicacin de dicho objeto debe explicitar la causa
del mismo. Ese evento causal puede ser la presencia de una persona, un
fenmeno meteorolgico, un sonido, una frase, sensaciones provenientes de
nuestro cuerpo, nuestro propio comportamiento, etc. No obstante, su trata
miento respecto a la conducta que pretendemos explicar ser de Estmulo,
en cuanto a que funciona como un evento que produce una reaccin. En este
captulo se ha revisado cmo stos eventos adquieren su capacidad causal, en
otras palabras, cmo el comportamiento cae bajo su control. A medida que un
estmulo adquiere dicho control los individuos dejan de comportarse de esa
misma manera en presencia de otros estmulos diferentes, dejan de generalizar
y empiezan a discriminar. Este nivel de discriminacin puede representarse
mediante gradientes de generalizacin, que tambin nos informan sobre si
ese control, respecto a la conducta a explicar, es excitatorio o inhibitorio. El
control, adems, puede ser simple (E+ y E-) o condicional, pero las variables
de las que dependen son comunes y estn relacionadas principalmente con lo
diferente que sean los elementos que forman cada contingencia y con otros
factores relacionados con la historia del sujeto y el tipo de entrenamiento. En
definitiva, aunque en los estudios experimentales se intenta reducir la cantidad
de variables relevantes al mnimo para poder establecer relaciones causales con
cierta seguridad, el control que ejerce el entorno sobre nuestro comportamien
to depende de la interaccin de una amplsima gama de factores, puede ser
altamente complejo (ver Discriminaciones Condicionales de Segundo Orden)
e incluso depender de la interaccin de los estmulos de control, dando lugar
a fenmenos aparentemente paradjicos como el Desplazamiento del Mximo
o el Efecto de Tendencia Central.Conducta de eleccin. Se considera que un
individuo ha tomado una decisin o ha elegido una opcin cuando emite una
respuesta en una situacin

335

P s ic o l o g a

d e l a p r e n d iz a j e

T r m in o s

destacados

Desplazamiento del mximo: efecto de interaccin entre el control excitatorio

e inhibitorio presente en cada estmulo de prueba cuando el entrenamiento


de discriminacin ha sido intradimensional. El resultado es que el mximo
de respuestas no se observa en presencia del E+ original sino ante otro
estmulo cuyo valor en la dimensin pertinente se aleja del E+ en direccin
opuesta al E-.
Discriminar y Generalizar: se considera que un individuo est discriminando
entre dos eventos cuando su respuesta es diferente en funcin de cul de
los dos est presente. Un estmulo demuestra un elevado control sobre una
conducta cundo slo aparece en su presencia y no ante cualquier otro est
mulo, aunque se parezca. Se considera entonces que el sujeto discrimina
muy bien ese estmulo. Generalizar sera lo contrario, es decir, comportarse
de la misma manera ante estmulos diferentes, lo que se considerara un
ndice de un bajo control por el estmulo.
Efecto de tendencia central: desplazamiento del mximo de respuestas res
pecto al E+ original como efecto de la distribucin respecto a ste de los
estmulos generalizados presentados. Se observa que el sujeto responde en
mayor proporcin ante un valor diferente al E+ original que se acerca al
valor medio de los estmulos de prueba a los que se le expone.
Gradiente de generalizacin: es la representacin grfica del control de un
estmulo sobre determinada conducta. Se forma a partir de la respuesta del
sujeto ante estmulos que difieren del original slo en el valor de uno de sus
rasgos, frecuentemente comprendiendo valores tanto superiores como infe
riores. La forma del gradiente aporta informacin tanto de la naturaleza del
control, excitatorio (U invertida) o inhibitorio (U); como de su nivel, alta
generalizacin (plano) o baja (acusado).

336

Control

E rrores

d e la c o n d u c t a p o r e s t m u l o

com unes

Estmulo discriminativo vs. Discriminar / Generalizar: Discriminar o gene


ralizar son dos formas de describir el grado en el que ciertos estmulos
antecedentes ejercen control sobre determinadas conductas. Un evento
ejercer mayor control sobre una conducta cuanta menos generalizacin
se observe, es decir, si esa conducta slo aparece ante ese estmulo y no
ante otros (aunqiie se parezcan mucho) el sujeto est demostrando que
una elevada conducta discriminativa. No obstante, a todos los estmulos
que ejercen cierto control directo (no condicional) sobre alguna operante
se les denomina discriminativos (Ed), independientemente de que ese con
trol sea escaso o muy alto. Por tanto, los estmulos discriminativos pueden
discriminarse de la misma forma que pueden generalizarse, en funcin de
multitud de variables comentadas en este captulo.
Qu muestran los gradientes de generalizacin?: Los gradientes de gene
ralizacin se forman a partir de la respuesta observada ante estmulos
de prueba que guardan un parecido decreciente con el E+ o el E- en una
dimensin (mantenindose el resto de rasgos constantes). La forma de este
gradiente (plano o puntiagudo) nos informa sobre el grado de control que
ejerce el E+ o el E- sobre determinada conducta. Por tanto, nos permite
determinar tanto el nivel de discriminacin como de generalizacin.
Estmulo Condicional vs. Estmulo Condicionado: Se denominan Estmulos
CondicionaDOS a aquellos eventos que han adquirido alguna propiedad
elicitadora por su emparejamiento con otro estmulo que ya posea esa
caracterstica, ya sea un Estmulo Incondicionado (El) u otro Estimulo
Condicionado (EC). Los estmulos CondicionaLES, sin embargo, son even
tos cuyo control sobre la conducta es operante, no Respondiente (Clsico
o Pavloviano). Son aquellos eventos que modifican la funcin positiva o
negativa de los estmulos discriminativos, es decir, los eventos que aaden
un trmino ms a la contingencia operante mnima de tres trminos, con
virtindola en condicional.

337

P s ic o l o g a

d e l a p r e n d iz a j e

REFERENCIAS
B arn , A.

(1973). Postdiscrimination gradients of human subjects on a tone continuum. Journal of Experimental Psychology, 101, 337-342.
B en in g er , R. J.; K endall , S. B. y V anderw olf , C. H. (1974). The ability of rats to
discrimnate their own behaviours. Canadian Journal of Psychology/Revue canadienne de psychologie, 28, 79-91.
B lough , P. M. (1972). Wavelength generalization and discrimination in the pigeon.
Attention, Perception and Psychophysics , 12, 342-348.
B ush , K. M.; S idman , M. y D e R o se , T. (1989). C ontextual co n tro l of e m erg en t equivalence relations. Journal of the Experimental Analysis of Behavior, 51, 29-45.
C arlson , J. G. y W ielkiew cz , R. M. (1976). Mediators of the effects of magnitude
of reinforcement. Learning and Motivation, 7, 184-196.
C rter , D. E. y W e r n e r , T. J. (1978). Complex learning and information processing
by pigeons: a critical analysis. Journal of the Experimental Analysis of Behavior,
29, 565-601.
C h e n g , K.; S petch , M. L. y J o h nso n , M. (1997). Spatial peak shift and generaliza
tion in pigeons. Journal of Experimental Psychology: Animal Behavior Processes,
23, 469-481.
C o h n , L. R.; L ooney , T. A.; B rady , J. H. y A ucella , A. F. (1976). Differential sample response schedules in the acquisition of conditional discriminations by
pigeons. Journal of the Experimental Analysis of Behavior, 26, 301-314.
C rawford , L. L.; S t e e l e , K. M. y M alone , J. C. (1980). Gradient form and sequential effects during generalization testing in extinction. Animal Learning and
Behavior, 8, 245-252.
C um m ing , W. W. y B erryman , R. (1965). The complex discriminated operant:
studies of matching-to-sample and related problems. En D. I. Mostofsky (Ed.),
Stimulus generalization (pp. 284-330). Stanford: Stanford University Press.
D e L ong , R. R. y W asserman , E. A. (1981). Effects of differential reinforcement
expectancies on successive matching-to-sample performance in pigeons.
Journal of Experimental Psychology: Animal Behavioral Processes, 7, 394-412.
D obrezcka , C.; S zwejkow ska , G. y K onorski , J. (1966). Qualitative versus directional cuies in two forms of differentiation. Science, 153, 87-89.
F edorchack , P. M. y B olles , R. C. (1987). Hunger enhances the expression of
calorie-but not taste-mediated conditioned flavor preferences. Journal of
Experimental Psychology: Animal Behavior Processes, 13, 73-79.
F etsko , L. A.; S tebbins , H. E.; G allagher , K. K. y C olwill , R. M. (2005). Acquisition and
extinction of facilitation in the C57BL/6J mouse. Learning and Behavior, 33, 479-500.
338

Control

d e la c o n d u c t a p o r e s t m u l o

D. D. y L o L o r d o , V. M. (1973). Attention in the pigeon: The differential


effects of food-getting vs. shock-avoidance procedures. Journal of Comparative
and Physiological Psychology, 85, 551-558.
F ujita , K. (1983). Acquisition and transfer of higher-order conditional discrimination
performance in the japanese monkey. Japanese Psychological Research, 25, 1-8.
G arca , A. (2002). A ntecedentes h ist rico s del u so de d iscrim in ac io n es c o n d ic io n a
les en el estu d io de la sim etra. Revista de Historia de la Psicologa, 23, 123-130.
G a rca , A. y B e n j u m e a , S. (2006). The emergence of symmetry in a conditional
discrimination task using different responses as proprioceptive samples in
pigeons. Journal of the Experimental Analysis of Behavior, 86, 65-80.
G u t t m a n , N . y K a l is h , H. I. (1956). Discriminability and stimulus generalization.
Journal of Experimental Psychology, 51, 79-88.
H a m il t o n , W. F. y C o l e m a n , T. B. (1933). Trichromatic visin in the pigeon as illustrated by the spectral discrimination curve. Journal of Comparative Psychology,
15, 183-191.
F oree,

H anson , H. E. (1959). E ffects of d isc rim in a tio n tra in in g o n stim u lu s g en eraliza


tion. Journal of Experimental Psychology, 58, 321-334.
H arlow, H .

F. (1949). The formation of learning sets. Psychological Review, 56,

51-65.
H a r z e m , P. y M i l e s , T. R. (1978). Conceptual issues in psychology. Londres: Wiley.
H a sh iy a , K. y K o jim a , S. (2001). Acquisition of auditory-visual intermodal matching-to-sample by a chimpanzee (Pan troglodytes): Comparison with visual-visu
al intramodal matching. Animal Cognition, 4, 231-239.
H e a r s t , E. (1968). Discrimination training as the summation of excitation and
inhibition. Science, 162, 1303-1306.
H earts , E. y K oresko , M. B. (1968). Stimulus generalization and amount of
prior training on variable-interval reinforcement. Journal of Comparative and
Physiological Psychology, 66, 133-138.
H e a r s t , E. y W o lf f, W. T. (1989). A dditional versus deletion as a signal. Animal
Learning & Behavior, 17, 120-133.
H e r m n , L. M. y G o r d o n , J. A. (1974). Auiditory delayed matching in the bottlenose
dolphin. Journal of the Experimental Analysis of Behavior, 21, 19-26.
H o l l a n d , P. C. (1985). The nature of conditioned inhibition in serial and simultaneous feature negative discrimination. En R. R. Miller y N. E. Spear (Eds.),
Information processing in animals: Conditioned inhibition. Hillsdale, NJ:
Erlbaum.
H o l t , G. L. y S h a f e r , J. N. (1973). Function of intertrial interval in matching-to-sample. Journal of the Experimental Analysis of Behavior, 19, 181-186.
339

P s ic o l o g a

d e l a p r e n d iz a j e

H onig , W. K. (1974). E ffects of e x tra d im e n sio n a l d isc rim in a tio n tra in in g u p o n previously a cq u ire d stim u lu s control. Learning and Motivation, 5, 1-5.
H o n i g , W.

K. y S t e w a r t , K. E. (1993). Relative numerosity as a dimensin of stim


ulus control: The peak shift. Animal Learning and Behavior, 21, 346-354.
H o n ig , W. K. y U r c u io l i , P. J. (1981). The legacy of Guttman and Kalish (1956):
25 years of research on stimulus generalization. Journal of the Experimental
Analysis of Behavior, 36, 405-445.
H u l l , C. L. (1943). Principies of behavior. New York: Appleton-Century-Crofts.
J a r r a r d , L. E. y M o i s e , S. L. (1971). Short-term memory in the monkey. En L. E.
Jarrard (Ed.), Cognitive processes of non-human primates (pp. 1-24). New York:
Academic Press.
K o e g e l , R. L. y K o e g e l , L. K. (1988). Generalized responsivity and pivotal behaviors. En R. H. Horner, G. Dunlap, y R. L. Koegel (Eds.), Generalization and
maintenance: Life-style changes in applied settings. Baltimore, MD: Paul H.
Brookes Publishing Co.
L a s h l e y , K. S. (1938). Conditional reactions in the rat. Journal of Psychology:
Interdisciplinary and Applied, 6, 311-324.
L a s h l e y , K. S. y W a d e , M. (1946). The Pavlovian theory of generalization.
Psychological Review, 53, 72-87.
L a w r e n c e , D. H. (1963). The nature of a stimulus: Some relationships between
learning and perception. En S. Koch (Ed.), Psychology: A study of a Science, Vol.
5 (pp. 179-212). New York: McGraw-Hill.
L u b in s k i , D. y T h o m p s o n , T. (1987). An animal model of of the interpersonal
communication of interoceptive (prvate) states. Journal of the Experimental
Analysis of Behavior, 48, 1-15.
M ackay , H. A. (1991). Conditional stimulus control. En I. H. Iversen y K. A. Lattal
(Eds.), Experimental analysis of behavior, Parts 1 & 2. (pp. 301-350). New York,
NY US: Elsevier Science.
M a c k in t o s h , N. J. (1964). Overtraining and transfer within and between dimensions in the rat. The Quarterly Journal of Experimental Psychology, 16, 250-256.
(1969). Further analysis of the overtraining reversal effect. Journal of Comparative
and Physiological Psychology, 67, 1-18.
(1974). The psychology of animal learning. London: Academic Press.
M a k i , P.; O v e r m i e r , B.; D l o s , S. y G u t m a n n , J. (1995). Expectancies as factors influencing conditional discrimination performance of children. The
Psychological Record, 45, 45-71.
M c I l v a n e , W. J. y D u b e , W. V. (1992). Stimulus control shaping and stimulus con
trol topographies. The Behavior Analyst, 15, 89-94.
340

Control

d e la c o n d u c t a p o r e s t m u l o

N. y M atsuzawa , T. (2001). Memory of movies by chimpanzees (Pan


troglodytes). Journal of Comparative Psychology, 115, 152-158.
O hinata , S. (1978). Postdiscrimination shift of the goldfish (Carassius auratus) on a
visual wavelength continuum. Annual of Animal Psychology, 28, 113-122.
P avlov , I. P. (1927). Conditioned reflexes. Londres: Oxford University Press.
P ea , T.; P itts , R. C. y G alizio , M. (2006). Identity matching-to-sample with olfactory stimuli in rats. Journal of the Experimental Analysis of Behavior, 85, 203-221.
P eterso n , G. B.; W h e e l e r , R.L. y A rm strong , G. D. (1978). Expectancies as
mediators in the differential-reward conditional discrimination performance.
Learning and Motivation, 6, 279-285.
P ier r el , R. y S herm an , J. G. (1960). Generalization of auditory intensity following
discrimination training. Journal of the Experimental Analysis of Behavior, 3,
313-322.
P urtle , R. B. (1973). P eak shift: A reviexv. Psychological Bulletin, 408-421.
R escorla , R. A. (1985). Conditioned inhibition and facilitation. En R. R. Miller y
N. E. Spear (Eds.), Information processing in animals: Conditioned inhibition.
Hillsdale, NJ: Erlbaum.
R escorla , R. A. (1986). Extinction of facilitation. Journal of Experimental
Psychology: Animal Behavior Processes, 12, 16-24.
R ib e s , E. (1990). Psicologa General. Mxico: Trillas.
R ib es , E. y L pez , F. (1985). Teora de la conducta: Un anlisis de campo y paramtrico. Mxico: Trillas.
R ib e s , E. y T o r r es , C. J. (2001). Un estudio comparativo de los entrenamientos
de primer y segundo orden en igualacin a la muestra. Revista Mexicana de
Anlisis de la Conducta, 27, 385-401.
R ib e s , E.; C abrera , F. y B arrera , J. A. (1997). La emergencia de descripciones en
una discriminacin condicional de segundo orden: su relacin con el tipo de
entrenamiento y la ubicacin temporal de las pruebas de transferencia. Acta
Comportamentalia , 5, 165-197.
R ib es , E.; C epeda , M. L.; H ickman , H.; M o ren o , D. y P ealosa , E. (1992). Effects of
visual demonstration, verbal instructions, and prompted verbal descriptions of
the performance of human subjects in conditional discrimination. The Analysis
of Verbal Behavior, 10, 23-36.
R oberts , W. A. (1974). Spaced repetition facilitates short-term retention in the rat.
Journal of Comparative and Physiological Psychology, 86, 164-171.
S acks , R. A.; K amil , A. C. y M ack , R. (1972). The effects of fixed-ratio sample
requirements on matching to sample in the pigeon. Psychonomic Science, 26,
291-293.
M orimura ,

341

P s ic o l o g a

d e l a p r e n d iz a j e

P. (1979). Extra dimensional transfer in the easy-to-hard effect.


Learning and Motivation, 10, 39-57.
S k in n e r , B. F. (1938). La Conducta de los Organismos. Barcelona: Fontanella,
S eraganian ,
1975.

(1950). Are theories of learning necessary? Psychological Review, 57, 193-216.


S pen c e , K. W. ( 1936). The nature of discrimination learning in animals. Psychological
Review, 43, 427-449.
(1937). The differential response of animals to stimuli within a single dimen
sin. Psychological Review, 44, 430-444.
S petch , M. L.; C h e n g , K. y C lifford , C. W. G. (2004). Peak shift but not range
effects in recognition of faces. Learning and Motivation, 35, 221-241.
S taddon , J. (1983). Adaptative behavior and learning. Cambridge: Cambridge
University Press.
S utherland , N. S. y M ackintosh , N. J. (1971). Mechanisms of animal discrimina
tion learning. NY: Academic Press.
T errace , H. S. (1963). Discrimination learning with and without errors. Journal
of the Experimental Analysis of Behavior, 6, 1-27.
(1964). Wavelength generalization after discrimination training with and with
out errors. Science, 144, 78-80.
T homas , D. R. y J o n es , C. G. (1962). Stimulus generalization as a function of the
frame of reference. Journal of Experimental Psychology, 64, 77-80.
T homas , D. R.; M ood , K.; M orrison , S. y W iertelak , E. (1991). Peak shift revisited:
A test of alternative interpretations. Journal of Experimental Psychology: Animal
Behavior Processes, 17, 130-140.
T homas , D. R.; W indell , B. T.; B akke , I.; K rey e , J.; K im o se , E. y A poshyan , H.
(1985). Long-term memory in pigeons: I. The role of discrimination problem
difficulty assessed by reacquisition measures. II. The role of stimulus modality
assessed by generalization slope. Learning and Motivation, 16, 464-477.
T omonaga , M. y F ushim i , T. (2002). Conditional discrimination using 3-dimensional objects by a chimpanzee (Pan troglodytes): Tests for derived stimulus
relations. Japanese Journal of Psychology, 73, 111-120.
T rapold , M. A. (1970). Are expectancies based upon different positive reinforcing
events discriminably different? Learning and Motivation, 1, 129-140.
U rcuioli , P. J. y H onig , W. K. (1980). Control of choice in conditional discriminations by sample-specific behaviors. Journal of Experimental Psychology: Animal
Behavior Processes, 6, 251-277.
V arela J. y Q uintana C. (1995). Transferencia del comportamiento inteligente.
Revista Mexicana de Anlisis de la Conducta, 21, 47-66.
342

Control

d e la c o n d u c t a p o r e s t m u l o

W a g n e r , A. R.; L o g a n , F. A.; H a b e r l a n d t , K. y P r ic e , T.

(1968). Stimulus selection in


animal discrimination learning. Journal of Experimental Psychology, 76, 171-180.
W a l l e r , T. G. (1973). Effect of consistency of reward during runaway training on
subsequent discrimination performance in rats. Journal of Comparative and
Physiological Psychology, 83, 120-123.
W e is m a n , R. G. y P a l m e r , J. A. (1969). Factors influencing inhibitory stimulus con
trol: Discrimination training and prior nondifferential reinforcement. Journal
of the Experimental Analysis of Behavior, 12, 229-237.
W h i t e , K. G.; P i p e , M. E. y M c L e a n , A. P. (1985). A note on the measurement
of stimulus discriminability in conditional discriminations. Bulletin of the
Psychonomic Society, 23, 153-155.
W h y t e , A. A. y B o r e n , J. J. (1976). Discriminability of stimuli in matching to sample. Bulletin of the Psychonomic Society, 7, 468-470.
W y c k o f f , L. B ., J r . (1952). The role of observing responses in discrimination learn
ing. Part I. Psychological Review, 59, 431-442.
Z i e l i n s k i , K. y J a k u b o w s k a , E. (1977). Auditory intensity generalization after CER
differentiation training. Acta Neurobiologiae Experimentalis, 37, 191-205.

343

T em a 7

CONTROL AVERSIVO
EN EL CONDICIONAMIENTO OPERANTE
Vicente Prez Fernndez

1. Estimulacin aversiva en el condicionamiento operante .......


1.1. Procedimientos de condicionamiento operante .......................
1.2. Castigo, escape y evitacin ...........................................................
1.3. Procedimientos de condicionamiento operante y estados
emocionales .......................................................................................

351
351
353

2. Conducta de evitacin ..........................................................................


2.1. Procedimientos de evitacin ........................................................
2.1.1. Evitacin discriminada .......................................................
2.1.2. Evitacin no discriminada deoperantelibre de Sidman
2.1.3. La evitacin de descarga aleatoria de
Herrnstein-Hineline ..............................................................
2.2. Variables que afectan al reforzamiento negativo ....................

358
359
359
362

3. Castigo .......................................................................................................
3.1. Variables que afectan al castigo ..................................................
3.2. La eficacia relativa del castigo para suprimir laconducta .....
3.3. Fenmenos paradjicos en el castigo ........................................
3.3.1. La conducta masoquista ......................................................
3.3.2. Crculo vicioso ......................................................................
3.4. Otras estrategias de supresin de la conducta ........................
3.4.1. Entrenamiento de omisin ..................................................
3.4.2. Modificacin de la fuerza de conductas alternativas .....
3.4.3. Extincin ................................................................................
3.4.4. Modificaciones motivacionales ..........................................

366
367
372
375
376
376
377
377
378
380
380

355

364
365

345

P s ic o l o g a

d e l a p r e n d iz a j e

4. Programas concurrentes y estimulacin aversiva ......................


4.1. Conducta de eleccin .....................................................................
4.1.1. Eleccin y reforzamiento negativo .....................................
4.1.2. Eleccin y castigo ..................................................................
4.2. Conducta auto-controlada e impulsiva

383
383
384
385
386

Referencias .................................................................................................... 391

346

Control

C o n o c im ie n t o s

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

p r e v io s

Ed+ y Ed-. Son estmulos discriminativos (Ed) aquellos que han adquirido

cierto control sobre la emisin de determinada conducta debido a que su


presencia ha correlacionado con su refuerzo (Ed+) o con su castigo/extin
cin (Ed-).
Elicitar y Emitir. La conducta que es provocada de una manera refleja por un
evento antecedente se considera elicitada, ya sea de manera innata (RI) o
aprendida (RC). La conducta emitida (operante o instrumental) depende de
las consecuencias que le han seguido en el pasado.
Ensayos discretos y Operante libre. Se considera que un estudio est utili
zando ensayos discretos cuando slo se permite que la respuesta aparezca
una vez por ensayo. De esta manera el experimentador puede controlar el
momento y la frecuencia de emisin de la operante. El uso de un mtodo
de operante libre implica que el sujeto pueda repetir la respuesta sin res
tricciones a lo largo de la sesin, sin que el experimentador intervenga al
finalizar cada ensayo.
Filogenia y Ontogenia. La filognesis del comportamiento se refiere a los cam
bios producidos en el repertorio conductual innato de una especie debido
a procesos de seleccin natural. La ontognesis del comportamiento, sin
embargo, alude a los cambios en el repertorio conductual de un individuo
generados por su experiencia.
ISI e ITI. Se define como intervalo entre estmulos (inter stimulus interval, ISI)
al tiempo que transcurre entre la aparicin de un determinado estmulo
(frecuentemente un EC) y la aparicin de otro (frecuentemente un El). El
intervalo entre ensayos (inter trial interval, ITI) es el tiempo que transcurre
desde la finalizacin de un ensayo (al cerrarse el comedero, por ejemplo) y
el comienzo del siguiente. Suele ser ms largo que el ISI.
Topografa y Funcin. La topografa de una respuesta es el conjunto de sus
propiedades fsicas, tales como la velocidad con la que se emite, direccin,
msculos que intervienen, etc. Su funcin depende del papel que juega en
relacin con los eventos que le anteceden y/o le siguen.

347

P s ic o l o g a

d e l a p r e n d iz a j e

O b j e t iv o s

Distinguir la estructura y los efectos sobre la conducta que muestran los


diferentes procedimientos de condicionamiento en los que la estimulacin
aversiva est involucrada.
Conocer los tipos de procedimientos y las variables de las que depende la
eficacia del entrenamiento de escape/evitacin y de castigo.
Valorar el efecto del uso del castigo, su eficacia para suprimir un comporta
miento y las alternativas disponibles.
Comprender cmo afecta a nuestras elecciones la presencia de estimulacin
aversiva y su interaccin con otras variables (como la demora).

348

El miedo y el dolor existen, y su presencia afecta a nuestra manera de


actuar. Y slo esto debera de ser una razn suficiente para motivar su es
tudio desde un nivel de anlisis psicolgico.
La forma en la que un individuo reacciona ante un peligro, como un
evento nocivo o un predador, es determinante para que contine vivo. En el
estudio de la conducta defensiva se ha abordado tradicionalmente este con
cepto (el de reaccin defensiva) desde dos perspectivas diferentes. Mientras
que Pavlov (1927) lo utiliz para referirse a las reacciones que los animales
demostraban ante ciertos estmulos dainos, como el parpadeo del ojo ante
la presencia de elementos extraos (reflejo parpebral) o el vmito ante un
alimento txico. Cannon (1929) consideraba como principales ejemplos de
conductas defensivas la lucha o la huida, destacando el papel de la respues
ta cardiovascular.
De hecho, son stas, las reacciones fisiolgicas, la manera ms gene
ralizada de prepararse ante una amenaza. Aumentar la tasa cardaca o la
respiracin es una eficaz estrategia para proveer de recursos energticos
al organismo (facilitando la respuesta de agresin o huida), reducir la tasa
puede hacer al sujeto ms difcil de detectar por el predador (contribuyen
do al efecto de la inmovilizacin).
Entre las respuestas que pueden ser inducidas parcial o totalmente por
la estimulacin aversiva, la huida, la inmovilizacin y la agresin son las
ms frecuentes. No obstante, las presiones de supervivencia son muy dife
rentes entre las distintas especies por lo que es razonable pensar que cada
especie haya desarrollado una serie de respuestas especficas que se ponen
en marcha ante las amenazas. Las ratas, por ejemplo, suelen responder ante
las amenazas huyendo o permaneciendo paralizadas, pero en otras especies
se han observado reacciones como la tigmotaxia (pegarse a las paredes, co
mn en conejos, por ejemplo), acercarse a zonas oscuras o el enterramiento
(muy frecuente en el hmster). Cul de estos comportamientos (general o
349

P s ic o l o g a

d e l a p r e n d iz a j e

especfico)
aparece
en
presencia
del
estmulo
Ejemplo
aversivo depende tanto de variables del propio
El color negro de la estmulo (como la duracin o la intensidad)
ropa de nuestra profeso como de la especie, de la historia del individuo
ra de piano puede corre pero, sobre todo, del contexto en el que ocurre.
lacionar con su manera
de reaccionar ante nues Se ha comprobado que si la situacin en la que
tros errores: un golpeci- se presenta la amenaza dispone de alguna sali
to con la batuta en los da la reaccin ms probable es la huida, mien
dedos. Que nuestra tasa tras que si no la tiene es la parlisis (Blanchard,
cardaca se eleve ante
1997).
El
enterramiento
no
aparece
si
no
hay
la mera presencia del arena, la agresin tampoco si no hay oponente,
color negro (como de si
una amenaza se tratase) y la parlisis es menos probable si el sujeto no
puede ser adaptativo, se encuentra cerca de una pared.
pero slo para nosotros
La
variedad,
por
tanto,
de
estmulos
aver(ni todas las profesoras
van de negro ni todas sivos es amplia pero, desde un punto de vista
usan ese mtodo edu funcional, podemos definirlos como aquellos
cativo) y ni en todas las que elicitan algn reflejo defensivo como los
ocasiones (no todos los descritos anteriormente (huida, parlisis, agre
que visten de negro son sin, vmito, rechazo, alejamiento, retirada,
profesores) ni durante etc.). Pero esta no es la nica manera en la que
toda nuestra vida (algu
na vez abandonaremos la estimulacin aversiva afecta a nuestra con
ducta. Si cruzamos un paso de cebra cuando
sus clases).
el semforo para peatones est en rojo y un
automvil pasa de improvisto cerca de nosotros haciendo sonar su claxon
no slo nos paralizamos (respuesta refleja) sino que las posibilidades de que
volvamos a cruzar en rojo (respuesta operante) en el futuro se reducen. En
los ambientes ms salvajes (menos civilizados) la probabilidad de aparicin
de estmulos aversivos es mayor an y, por tanto, es altamente adaptativo
que el sujeto disponga de mecanismos de aprendizaje que reduzcan su ex
posicin a stos. Desde un punto de vista operante (y, de nuevo, funcional),
consideraremos como estmulos aversivos aquellos que los organismos
evitan o de los que escapan.
Los sonidos intensos, el olor a descomposicin, la luz brillante, el dao
fsico, son ejemplos de eventos que funcionan como estmulos aversivos
de manera innata (en nuestra especie, al menos). En una contingencia
clsica se definiran como estmulos incondicionados aversivos (EI-), en
una contingencia operante como consecuencias aversivas primarias. Tanto
350

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

reaccionar alejndose de ellos como evitar (o escapar de) las situaciones en


las que aparecen tienen un alto valor adaptativo. Pero no todas las presio
nes de supervivencia estn tan generalizadas a lo largo del tiempo y de los
diferentes contextos. Puede que cierto evento correlacione con la presencia
de un El- en segn qu ambientes pero no en otros, o durante un tiempo
determinado y no en todas las ocasiones.
Este tipo de eventos se consideran estmulos aversivos secundarios, es
tmulos condicionados excitatorios aversivos en las contingencias pavlovianas, y consecuencias aversivas secundarias en las contingencias operantes.
Son estmulos que han adquirido su funcin a lo largo de la ontogenia del
individuo a travs de mecanismos de condicionamiento clsico, y su efecto
est sujeto a otros fenmenos de aprendizaje como la extincin o el contra-condicionamiento, por ejemplo.
En este captulo vamos a centrarnos en el efecto de la estimulacin
aversiva (primaria o secundaria) en la conducta operante, por lo que abor
daremos los procedimientos de reforzamiento negativo y castigo. Adems,
se reflexionar sobre algunos aspectos relacionados con la supresin de la
conducta operante, como ciertos efectos paradjicos o mtodos alternati
vos al castigo, as como en la influencia de la estimulacin aversiva en la
conducta de eleccin. No obstante, antes se hace necesario repasar algunos
conceptos bsicos sobre el condicionamiento operante y su relacin con la
estimulacin aversiva.
1. ESTIMULACIN AVERSIVA EN EL CONDICIONAMIENTO
OPERANTE
1.1. Procedimientos de condicionamiento operante
Como ya hemos visto, los procedimientos de condicionamiento operante
(o instrumental) pueden clasificarse en funcin de diferentes propiedades.
La primera, y ms evidente, propiedad a tener en cuenta es su efecto sobre
la conducta. Cuando el procedimiento tiene como resultado un aumento
de la probabilidad de emisin de la conducta se denomina reforzamiento,
mientras que cuando reduce su probabilidad se denomina castigo.
Esta primera clasificacin puede aumentarse atendiendo a propiedades
de tipo estructural, como son la relacin de contingencia entre la respues
351

P s ic o l o g a

d e l a p r e n d iz a j e

ta y la consecuencia, y la naturaleza de dicha consecuencia (apetitiva o


aversiva). Cuando la correlacin (contingencia) respuesta-consecuencia es
directa se le aade el trmino positivo mientras que cuando es inversa se
le aade negativo. Recordamos, de esta forma, los cuatro tipos de proce
dimientos:
Entrenamiento de recompensa (o Reforzamiento positivo): la res
puesta y la consecuencia mantienen una contingencia positiva, y la
naturaleza de la consecuencia es positiva (por ejemplo: El apetitivo,
EC excitatorio apetitivo o EC inhibitorio aversivo). Es decir, la con
secuencia es la aparicin de un reforzador tras la emisin de la res
puesta. Tiene como efecto un aumento de la probabilidad de emisin
de la conducta.
Entrenamiento de evitacin/escape (o Reforzamiento negativo): con
tingencia respuesta-consecuencia negativa y naturaleza negativa de
la consecuencia (por ejemplo: El aversivo, EC excitatorio aversivo
o EC inhibitorio apetitivo). Por tanto, la consecuencia es la no apa
ricin o retirada de una consecuencia aversiva tras la emisin de la
respuesta. Tambin tiene como efecto un aumento de la probabili
dad de emisin de la conducta.
Castigo (o Castigo positivo): contingencia respuesta-consecuencia
positiva y naturaleza negativa de la consecuencia. Es decir, la con
secuencia es la presentacin de una consecuencia aversiva tras la
emisin de la respuesta. Reduce la probabilidad de emisin de la
operante.

Entrenamiento
de
omisin
(o
Castigo
nega
Ejemplo
tivo): contingencia respuesta-consecuencia
Pedir perdn mien
negativa y naturaleza positiva de la conse
tras nos estn repren
cuencia.
Es
decir,
la
consecuencia
es
la
no
diendo algn compor
aparicin
o
retirada
de
un
reforzador
tras
la
tamiento anterior (y
emisin de la operante. Reduce su probabi
terminar con la repri
lidad de emisin en el futuro.
menda) o salir a fumar
cuando el trabajo nos
agobia (o aburre), son
ejemplos en los que se da
un alto componente de
contingencia de escape.

352

Esta distincin entre los diferentes proce


dimientos de condicionamiento operante no
siempre es tan sencilla en nuestro ambiente na-

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

tural. Si, por ejemplo, en una calurosa tarde de julio encendemos el aparato
de aire acondicionado, estaramos ante un caso de reforzamiento negativo
(el sujeto escapa del calor como estmulo aversivo) o positivo (reforzado
por la aparicin del fro)? El calor desaparece con el fro, un gesto de en
fado con una sonrisa, la privacin con la saciedad, etc. Hineline (1984),
reflexionando sobre esta cuestin, defendi que no exista tal simetra entre
el reforzamiento positivo y el negativo. Cuando un evento requiere de la
emisin de una respuesta para su desaparicin, sta debe producirse en su
presencia. Sin embargo, las respuestas reforzadas positivamente tienen que
emitirse necesariamente antes de la aparicin del refuerzo. Catania (1973)
tampoco considera tan difcil distinguir estos procedimientos en el labora
torio: si la respuesta tiene como consecuencia la retirada (o aplazamiento)
de un estmulo y la tasa de respuesta aumenta, estamos ante un caso de
reforzamiento negativo.
Como el objetivo de este captulo es abordar los efectos de la estimula
cin aversiva en la conducta operante y las variables de las que depende, en
el siguiente apartado nos centraremos en la distincin (y en la relacin que
mantienen) entre el reforzamiento negativo y el castigo positivo.
1.2. Castigo, escape y evitacin
Antes de describir los procedimientos ms relevantes del reforzamiento
negativo puede ser de utilidad recordar la distincin entre sus dos varian
tes: el entrenamiento de evitacin y el de escape.
En un entrenamiento de escape la consecuencia aversiva est presente
y no desaparece hasta la emisin de la conducta operante. La operante, por
tanto, es reforzada por la supresin del evento aversivo que estaba en curso.
Las preparaciones experimentales (de laboratorio) de escape incluyen
tanto respuestas locomotrices mediante las cuales el sujeto se desplaza
fuera del lugar donde se halla el estmulo aversivo, como respuestas manipulativas que interrumpen la emisin del estmulo. Generalmente la tcnica
de desplazamiento consiste en pasar de un compartimento a otro, en una
caja doble (o lanzadera), o correr a lo largo de un corredor entre una caja
de salida y otra de meta. En el caso de la caja doble se electrifica el suelo
de uno de los compartimentos, y en el caso del laberinto recto, la salida y el
353

P s ic o l o g a

d e l a p r e n d iz a j e

corredor, pero no la meta. Las respuestas de escape en la tcnica manipulativa suelen consistir en accionar una palanca o picar una tecla.

Figura 1. Dibujo esquemtico de una clsica caja lanzadera o caja doble.

En un entrenamiento de evitacin, sin embargo, el sujeto es expuesto


a la presentacin peridica de alguna consecuencia aversiva y la emisin
de la operante impide o retrasa su aparicin. A diferencia de la anterior, la
operante no se emite mientras el estmulo aversivo se encuentra presente
sino antes de que haya aparecido. Llamamos por telfono para avisar de
que llegaremos tarde a una cita o lavbamos los platos antes de que llegue
nuestro compaero de piso para evitar o reducir la consiguiente reprimen
da, estas conductas estn muy influenciadas por contingencias anteriores
de evitacin. Existen diferentes variantes del procedimiento de evitacin,
en el siguiente apartado (punto 2, Conducta de evitacin) describiremos las
ms relevantes.
Respecto al castigo, todos los procedimientos tienen el efecto de reducir
la conducta a la que se aplica. Sin embargo, en el entrenamiento de omi
sin la conducta del sujeto no mantiene ninguna relacin con la aparicin
de estimulacin aversiva. Por esta razn, siempre que se aluda al castigo
en este captulo es para referirse al castigo positivo, es decir, a los procedi
mientos en los que la emisin de la conducta vaya seguida de la aparicin
de un estmulo aversivo.
Aunque parezca evidente, para poder aplicar un procedimiento de cas
tigo a una conducta es necesario que sta se emita con cierto grado de pro
babilidad, lo que determina su estudio en el laboratorio. La mayora de las
354

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

preparaciones experimentales empiezan con Ejemplo


una fase previa en la que se refuerza la emisin
Si intentamos arre
de alguna conducta (presionar una palanca o
una tubera rota y
picar una tecla, por ejemplo) para poder apli glar
anegamos
la
cocina
(con
carle castigo a la misma respuesta (a la vez que la merecida reprimen
reforzamiento) en una fase posterior. El grado da de nuestra pareja),
en el que se ve suprimida dicha respuesta se las posibilidades de que
considera un ndice de la efectividad del casti volvamos a intentar algo
go. Como estmulos aversivos suelen utilizarse parecido se reducen. Si
nio se acerca a un
ruidos fuertes o descargas, aunque la variedad un
enchufe
y
le
regaamos
es muy amplia.
puede que consigamos
Como hemos visto, los procedimientos de que no vuelva a hacerlo.
reforzamiento negativo y de castigo presentan
ciertas caractersticas en comn pero tambin importantes diferencias. Me
diante el reforzamiento negativo aumentamos la probabilidad de la operan
te mientras que con el castigo la reducimos. Sin embargo, en ambos casos
la conducta del sujeto es moldelada para reducir al mximo su exposicin
a la estimulacin aversiva, o lo que es lo mismo, mediante el aumento de
los periodos de seguridad. Es por esta razn que en ciertos escritos se sue
le denominar evitacin activa a la conducta reforzada negativamente y
evitacin pasiva a la castigada positivamente. Aqu no haremos uso de
estos trminos.
1.3. Procedimientos de condicionamiento operante
y estados emocionales
A lo largo de todo el manual hemos descrito fenmenos de aprendizaje
distinguindolos como fruto del condicionamiento clsico (pavloviano) o
del operante (instrumental). Sin embargo, el efecto elicitador de un EC (o
un El) no desaparece cuando est funcionando como consecuencia en una
contingencia operante.
Por ejemplo, podemos reforzar una respuesta haciendo contingente su
emisin con la aparicin de un El apetitivo (o de un EC excitatorio ape
titivo). Si este procedimiento aumenta las probabilidades de emisin de
dicha conducta podemos catalogarlo como un reforzamiento positivo (o
entrenamiento de recompensa), y considerar que, por tanto, el El (o el EC)
355

P s ic o l o g a

d e l a p r e n d iz a j e

ha funcionado como un reforzador. Pero la funcin que ha desempeado


el El en este procedimiento no reemplaza ni su capacidad como elicitador
de respuestas incondicionadas ni su capacidad para condicionar otros
eventos con los que mantenga una relacin de contingencia y contigidad.
Si ante la orden sintate reforzamos con comida la conducta de sentarse
de nuestra mascota estamos convirtiendo la orden en un discriminativo po
sitivo para sentarse pero, adems, el uso de la comida como consecuencia
provocar la salivacin del sujeto y convertir a los eventos antecedentes (la
propia respuesta, la orden, y hasta a la persona que la emite) en estmulos
condicionados excitatorios apetitivos. En definitiva, como observadores o
analistas podemos centrar nuestra atencin en la funcin que desempe
an los eventos en el procedimiento de reforzamiento positivo, pero esos
mismos eventos pueden (y de hecho lo hacen) estar cumpliendo otras fun
ciones dentro de otro tipo de contingencias, como un condicionamiento
clsico excitatorio apetitivo.
Tabla 1. Comparacin de la funcin de ciertos eventos dentro de una
contingencia pavloviana y dentro de una contingencia operante.
Ejemplo con perro
Evento

Presencia del
entrenador

La orden
sintate

El perro
se sienta

Comida

Perro saliva

C. C.

EC
(exterocep.)
Ed

EC
(exterocep.)
Ed

EC
(propiocep.)

EC
(exterocep.)
Er

RI

C. 0.

Pero, adems de la RI especfica (como la salivacin provocada por la


comida), los estmulos elicitadores provocan en los sujetos estados emo
cionales, estados que pueden asociarse al resto de los eventos antecedentes
(convirtindolos en ECs). Por regla general, suele considerarse que los El
apetitivos provocan alegra, mientras que los aversivos generan miedo. El
efecto emocional de los ECs excitatorios apetitivos suele etiquetarse como
esperanza, el de los excitatorios aversivos como ansiedad, los inhibi
torios apetitivos generan estados etiquetados como tristeza y los inhi
bitorios aversivos alivio. Esta es la razn por la que la presencia de un
entrenador que suele utilizar procedimientos de refuerzo positivo no slo
funciona como discriminativo para segn qu conductas sino que adems
356

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

elicita un estado emocional parecido a la alegra (esperanza o ilusin).


En otras palabras, los eventos presentes durante el refuerzo, incluidos los
estmulos propioceptivos generados por nuestro comportamiento (que tam
bin se convierten en ECs), nos hacen sentir bien, y por las mismas razones,
no nos gustan los eventos presentes durante el castigo.
Tabla 2. Comparacin de la funcin de ciertos eventos dentro de una
contingencia pavloviana y dentro de una contingencia operante.
Ejemplo con humanos
Evento

Presencia del
progenitor

El nio dice una


palabrota

El progenitor
reprende al nio

E1 nio se
sobresalta

C. C.

EC
(exterocep.)
EA

EC
(propiocep.)
R

El
(exterocep.)
Er-

RI

C. 0.

Respecto a los procedimientos en los que vamos a centrarnos en este


captulo, podramos concluir que tanto los discriminativos positivos (pa
ra respuestas reforzadas negativamente) como las conductas de evitacin
o escape generan estados de alivio en los sujetos, mientras que tanto los
estmulos delta (para respuestas castigadas) como las propias conductas
castigadas producen estados de ansiedad. Pero, an ms importante, la
presencia de un estmulo incondicionado aversivo provoca miedo, y esta
poderosa reaccin es algo que hay que tener siempre en cuenta para prede
cir el efecto del procedimiento que estamos usando.
El castigo (sobre todo el positivo) tiene efectos emocionales que inhi
ben la conducta apetitiva y cualquier operante en general. En un captulo
anterior hemos visto como el efecto paralizante producido por un estmu
lo excitatorio aversivo suele requerir de una medicin indirecta para ser
identificado (a travs de la razn de supresin). Estos efectos emocionales,
sin embargo, no lo son todo en el castigo, ya que, si as fuera, la estimu
lacin aversiva tendra los mismos efectos fuera o no contingente con las
respuestas del sujeto. Se ha demostrado experimentalmente (Church, 1969)
que, aunque la estimulacin aversiva independiente de la respuesta pueda
producir cierta supresin de la conducta instrumental, se da una supresin
significativamente mayor de la conducta si la estimulacin aversiva se pro
357

P s ic o l o g a

d e l a p r e n d iz a j e

duce por la ejecucin de la respuesta instrumental. Se concluye, por tanto,


que la estimulacin aversiva producida por la respuesta es mucho ms efi
caz para suprimir la conducta que la estimulacin aversiva independiente
de la respuesta.
Existen diferentes teoras que intentan explicar el efecto en la conducta
de los procedimientos de castigo (algunas de ellas las veremos ms ade
lante), pero en lo que concierne a este apartado es de especial relevancia
la Teora de la respuesta emocional condicionada. Esta teora fue pro
puesta por Estes (1944) y se basa en las observaciones de Estes y Skinner
(1941) del procedimiento de supresin condicionada. La idea bsica es que
un EC excitatorio aversivo provoca ciertas respuestas emocionales (como
la paralizacin) por el hecho de estar emparejadas con una descarga. Esas
respuestas emocionales condicionadas son incompatibles con la respuesta
de presin de palanca (la rata no puede quedarse paralizada y al mismo
tiempo presionar la palanca). Por tanto, la tasa de presin de la palanca se
suprime durante las presentaciones del EC. No obstante, a diferencia del
experimento de Supresin Condicionada, los procedimientos de castigo no
suelen incluir un EC explcito que seale la administracin de la descarga.
Estes sugiri que cumplen esta funcin los diversos estmulos (visuales,
tctiles y propioceptivos) que el sujeto experimenta antes de dar la respues
ta castigada, como la visin de la palanca y/o de los discriminativos (luces,
sonidos, etc.), la orientacin del cuerpo o la postura antes de responder, etc.
2. CONDUCTA DE EVITACIN
Hasta ahora hemos atendido los procedimientos de reforzamiento nega
tivo abordando tanto la conducta de escape como la de evitacin. No obstan
te, sta ltima ha recibido mayor atencin por parte de los investigadores,
principalmente por dos razones: primero por el reto terico que supone
explicar la aparicin y mantenimiento de una conducta que tiene como
consecuencia la ausencia de un estmulo aversivo; segundo, porque ambos
comportamientos pueden simplemente representar extremos de un continuo
que sera el reforzamiento negativo (Hineline, 1977; Pierce y Cheney, 2008).
Aunque los primeros estudios sobre evitacin se realizaron aproxima
damente hace 100 aos, se necesitaron dos dcadas ms para re-evaluar el
fenmeno y analizarlo en un marco que no fuera exclusivo del condiciona358

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

miento clsico. Siguiendo la lnea de los tra Ejemplo


bajos de Pavlov, Bechterev (1913) llev a cabo
Podemos encontrar
un estudio con humanos en el que pretendan
ejemplos de compor
asociar un estmulo neutro (futuro EC) a una tamientos
reforzados
descarga (El). Los sujetos inicialmente levan principalmente a travs
taban de forma refleja el dedo (RI) de la placa de este tipo de proce
metlica al recibir la descarga, pero despus de dimientos cuando por
pocos ensayos empezaron a hacerlo (RC) tras la ejemplo buscamos una
aparicin del estmulo designado como EC, no gasolinera si en nuestro
se activa el aviso
recibiendo la descarga programada. El experi coche
de
depsito
en
reserva,
mento se consider como un ejemplo de apren o cuando cambiamos de
dizaje asociativo hasta que algunos autores tema de conversacin si
(Schlosberg, 1934; Brogden, Lipman y Culler, nuestro interlocutor ha
1938) exploraron una caracterstica del estudio ce algn gesto asociado
de Bechterev que lo diferenciaba radicalmente en el pasado con una
de las preparaciones habituales de condicio pelea/discusin.
namiento clsico: que el El no aparezca si se
presenta la RC. Los procedimientos usados en estos estudios consistan en
replicaciones del experimento original de Bechterev pero con animales no
humanos y, lo ms importante, aadiendo un grupo control en el que el El
se presentaba en todos los ensayos independientemente de la respuesta del
sujeto. Los resultados mostraron que tanto la velocidad de adquisicin como
el nivel de ejecucin de la supuesta RC eran mucho mayores en el grupo ex
perimental (en el que se poda evitar la descarga) que en el control. Esto de
mostr que estaban ante dos tipos de conductas diferentes y marc el inicio
de una lnea de investigacin (en el marco del condicionamiento operante)
cuyos principales mtodos y hallazgos se describirn a continuacin.
2.1. Procedimientos de evitacin
2.1.1. Evitacin discriminada
La evitacin discriminada (o sealada) recibe este nombre debido a la
existencia de claves que sealan el acontecimiento aversivo, frecuentemente
una descarga. El primer punto a tener en cuenta sobre la tcnica de evitacin
sealada es que utiliza ensayos discretos (con el consiguiente tiempo experi
mental e intervalo entre ensayos). Cada ensayo se inicia con la presentacin
359

P s ic o l o g a

d e l a p r e n d iz a j e

de un evento neutro (que suele ser un tono o una luz) al que se le denomina
seal, aunque siguiendo una terminologa operante la seal terminar
funcionando como un discriminativo positivo. Los hechos que tienen lugar
despus dependen de lo que haga el sujeto, existiendo dos posibilidades:
A) Si el sujeto no emite la respuesta requerida para la evitacin durante
el intervalo entre la seal y el El aversivo, se presenta el El programa
do y se mantiene hasta que la emite, despus de lo cual tanto la seal
como el El cesan. En este caso, la respuesta instrumental se conside
rara una forma de escape, ya que suprime la descarga elctrica en
curso. Y, por tanto, este tipo de ensayo se denomina ensayo de escape.
B) Si el sujeto emite la respuesta requerida, antes de que se presente el
El aversivo, la seal cesa y se omite el El en ese ensayo. Este s se
considerara un ensayo de evitacin con xito.
Durante los primeros estadios del entrenamiento, la mayora de los
ensayos son ensayos de escape; mientras que con el desarrollo del entrena
miento empiezan a predominar los ensayos de evitacin, y, por tanto, las
respuestas de evitacin.
Vemos, pues, que en un procedimiento de evitacin discriminada, se ba
rajan tres elementos: la seal de aviso, la respuesta operante y la consecuen
cia aversiva. Es interesante estudiar las relaciones bsicas de contingencia
que se producen entre ellos, as como la interdependencia de tales relaciones:
a) Contingencia Respuesta-Seal de aviso. La emisin de la respuesta
operante conlleva la desaparicin de la seal de aviso, lo que convier
te su relacin en una contingencia de escape.
b) Contingencia Respuesta-Consecuencia. Aunque inicialmente se produ
ce una contingencia de escape (dar la respuesta implica hacer desapa
recer la descarga que est producindose), cuando el entrenamiento
est ms avanzado la contingencia ser de evitacin (realizar a tiempo
la conducta apropiada impide la llegada de la consecuencia aversiva).
c) Contingencia Seal de aviso-Consecuencia. La contingencia entre
estos dos eventos ambientales tambin vara dependiendo (como
hemos visto anteriormente) de la respuesta del sujeto. En los prime
ros momentos del procedimiento, antes de que el sujeto adquiera la
respuesta de evitacin, la seal de aviso y la consecuencia aversiva
ocurren conjuntamente. Sin embargo, cuando el sujeto consigue evi360

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

tar con su respuesta la descarga programada, hace que se rompa esta


contingencia, de manera que ahora aparece nicamente la seal de
aviso, pero no la consecuencia. Esto implica que durante los ensayos
de escape se produce un condicionamiento excitatorio aversivo entre
la seal y la descarga, condicionamiento que se somete a extincin
en los ensayos de evitacin, en los que la seal adquiere la funcin de
discriminativo positivo para la conducta de evitacin.
Un efecto muy robusto que se ha encontrado en la adquisicin de la
conducta de evitacin discriminada en situaciones de laboratorio es la ele
vada cantidad de ensayos que requiere. Mientras que las palomas y ratas
adquieren la conducta objetivo (picar en una tecla o presionar una palanca,
por ejemplo) en muy pocos ensayos cuando se aplica un procedimiento de
reforzamiento positivo, adquirir la misma respuesta como evitacin de una
descarga es sensiblemente ms lento (Solomon y Brush, 1956). Algunos
autores (Meyer, Cho y Wessemann, 1960, por ejemplo) han explicado esta
diferencia como el resultado de la interferencia de la conducta elicitada por
la seal (la parlisis) en la emisin de la operante requerida. Sin embargo,
otros autores apuntan a que puede deberse a la especificidad de la conducta
de evitacin/escape en funcin de la especie. Mientras que Macphail (1968)
encontr que las palomas requeran aproximadamente de 120 ensayos pa
ra adquirir como respuesta de evitacin de una descarga la carrera por un
corredor recto, Baum (1965) observ que las ratas slo necesitaban dos o
tres ensayos si la respuesta requerida era saltar a una plataforma. Modaresi
(1990) demostr que slo elevando un poco la palanca operante y permi
tiendo saltar a la rata a una plataforma tras su respuesta, se reduca signifi
cativamente el nmero de ensayos necesarios para adquirir la conducta de
evitacin. En definitiva, todas estas investigaciones apuntan a que la elec
cin de la operante que se pretende reforzar determina el tiempo necesario
para adquirirla, cunto ms se asemeje a la respuesta elicitada especfica de
la especie mayor es la velocidad de aprendizaje.
Se han propuesto diferentes teoras para explicar el efecto que el entre
namiento de evitacin discriminada tiene sobre los individuos. Aqu vamos
a destacar la Teora Bifactorial de Mowrer y la Hiptesis de Schoenfeld.
La primera y ms influyente aproximacin terica al problema de la
evitacin discriminada fue propuesta por Mowrer (1947) y estaba motivada
por su preocupacin acerca de la paradoja de que una conducta pudiera es
361

P s ic o l o g a

d e l a p r e n d iz a j e

tar reforzada por la ausencia de un evento. Su propuesta, denominada Teo


ra Bifactorial, sostiene que en el aprendizaje de evitacin estn implicados
dos procesos interdependientes: el condicionamiento clsico de miedo al
EC y el reforzamiento operante de la respuesta de evitacin a travs de la
reduccin del miedo. Este reforzamiento no es posible hasta que el miedo
se condiciona al EC. En definitiva, desde esta posicin se explica la con
ducta de evitacin en trminos de escape del miedo condicionado, ms que
en trminos de prevencin de la descarga. Es decir, la operante se refuerza
por la reduccin del miedo (o ansiedad) generada por el EC (seal),
y no por impedir la aparicin del El (descarga). De esta forma, la Teora
Bifactorial predice una interaccin constante entre los procesos clsico y
operante, con cambios cclicos en las respuestas de evitacin: 1) la seal
se condiciona de forma excitatoria aversiva mientras el sujeto no emite la
respuesta de evitacin (ya que aparece el El), 2) el sujeto emite la respuesta
para escapar del miedo generado por el EC, impidiendo la aparicin del El
y provocando que la funcin del EC se extinga (al no aparecer el El), 3) una
vez se extingue el EC deja de emitir la respuesta, volviendo a presentarse el
El (lo que nos lleva de nuevo al punto 1).
Sin embargo, el uso del miedo como una variable intermediaria en el
aprendizaje de la evitacin ha sido criticado por innecesario. Schoenfeld
(1950) formul otra teora sobre la evitacin discriminada en la que no
apareca este concepto. Este autor propuso que la seal adquiere, por con
dicionamiento clsico, funciones de consecuencia aversiva secundaria o
condicionada. Los animales en la situacin de evitacin no pueden huir de
la descarga porque no est presente; lo que emiten es una respuesta de esca
pe reforzada por la retirada de la seal de aviso. As, en realidad la evitacin
sera una situacin de reforzamiento negativo secundario o condicionado.
Aunque ambas teoras se basan en la interpretacin de la conducta de evi
tacin discriminada como una forma de escape ante la seal, Schoenfeld no
considera necesario aludir al efecto emocional en proceso.
2.1.2. Evitacin no discriminada de operante libre de Sidman
En estos procedimientos la descarga se programa para que ocurra peri
dicamente, sin aviso, (cada 10 segundos, por ejemplo). Se especifica como
respuesta de evitacin una determinada conducta, y la aparicin de esta
362

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

respuesta impide la administracin durante un Ejemplo


perodo fijo (30 segundos, por ejemplo) de la
Estamos controla
descarga programada. El resultado es que los
por procedimientos
individuos aprenden a evitar las descargas aun dos
de
evitacin
de
operan
cuando no exista un estmulo de aviso.
te libre cuando guarda
En resumen, este procedimiento se constru mos peridicamente un
documento de texto en
ye a partir de dos intervalos de tiempo:
el que estamos traba
Intervalo E-E, Er-Er, o Reloj choque-cho- jando (evitando perder
modificaciones ms
que: es el intervalo entre las descargas en las
recientes
por
un
fallo
en
ausencia de una respuesta.
el sistema), o cuando lla
Intervalo R-E, R-Er, o Reloj respues mamos de vez en cuan
a nuestra madre para
ta-choque: que es el intervalo entre la do
que
no
nos
reproche
que
respuesta y la descarga programada, es nunca lo hacemos.
decir, el perodo de seguridad.
El procedimiento, al contrario que en la evitacin discriminada (que
requiere de ensayos discretos), permite que las respuestas de evitacin se
den en cualquier momento, ya que, ocurran cuando ocurran, reinician el
intervalo R-EI. Por esta razn se denomina a este tipo de evitacin de
operante libre. De la misma forma, los resultados obtenidos con el uso de
estos procedimientos tambin presentan ciertas diferencias respecto a la
evitacin discriminada:
1. Implican generalmente perodos mucho ms largos de entrenamien
to que los experimentos de evitacin discriminada.
2. Con frecuencia, aun despus de un entrenamiento extenso, los ani
males no aprenden nunca a evitar todas las descargas.
3. Distintos sujetos a menudo se diferencian enormemente en la forma de
responder ante el mismo procedimiento de evitacin de operante libre.
Entre las hiptesis explicativas del fenmeno de la evitacin de operan
te libre vamos a destacar tambin dos. La primera de ellas es la Hiptesis
Propioceptiva de Sidman (1953). Esta hiptesis sugiere que el papel de la
seal de aviso (no existente explcitamente en este tipo de procedimiento)
lo ocupa la propia conducta del individuo. Todas las conductas que realiza
el sujeto en la situacin experimental (excepto la respuesta instrumental)
quedan asociadas a la aplicacin de la descarga, con lo que en el futuro,
363

P s ic o l o g a

d e l a p r e n d iz a j e

cuando el sujeto las est realizando, sufrir una ansiedad comparable a


la del sujeto al que, en un procedimiento de evitacin discriminada, se le
presentara la seal de aviso (luz, tono,...). La nica manera que tendra de
escapar de esa ansiedad es emitiendo la operante reforzada.
Una segunda posibilidad es la que propone Anger (1963) en su Hipte
sis Interoceptivo-temporal. Segn este autor, en sntesis, sera el paso del
tiempo (a travs de la interiorizacin de los dos relojes, los dos intervalos)
el que producira la ansiedad que conduce al sujeto a responder.
De nuevo, ambas hiptesis se centran en el escape del EC excitatorio
aversivo como explicacin de la conducta de evitacin, pero existe otra
teora que elude este concepto y seala al reforzamiento positivo como
causa de la respuesta observada, la Hiptesis de la Seal de Seguridad.
De acuerdo con esta teora (Dinsmoor, 2001), los estmulos asociados a los
periodos de seguridad provocados por la respuesta de evitacin (funda
mentalmente los que son resultado de la retroalimentacin de desplazarse
hacia una zona de la caja, saltar a una plataforma o pulsar una palanca) se
convierten en estmulos condicionados inhibitorios aversivos por su contin
gencia negativa con la descarga. Por tanto, todos esos estmulos espaciales
y propioceptivos que inevitablemente siguen a la respuesta de evitacin
acaban funcionando como un reforzador para sta. Esta teora ha recibi
do un considerable apoyo emprico. Por un lado, se ha comprobado que
aquellos estmulos que se han condicionado de forma inhibitoria aversiva
a lo largo de un procedimiento de evitacin funcionan de forma eficaz co
mo consecuencias apetitivas para otras conductas (Morris, 1975). Por otro
lado, se ha demostrado que la inclusin de estmulos explcitos (como una
luz o un tono) que sigan a la emisin de la respuesta de evitacin acelera su
adquisicin (Cndido, Maldonado y Vila, 1991, por ejemplo).
2.1.3. La evitacin de descarga aleatoria de Herrnstein-Hineline
Puede mantenerse que la evitacin de Sidman es realmente de tipo
discriminativo, ya que, aunque el experimentador no programe ninguna
seal de aviso, al presentar las descargas en intervalos temporales fijos los
estmulos internos pueden adquirir esa funcin.
Un procedimiento ms eficaz de evitacin fue diseado por Richard
Herrnstein y Philip Hineline (1966). Los autores introdujeron a ratas en
364

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

una caja de Skinner que contaba con una palanca y dos mquinas dispen
sadoras de descargas (A y B) conectadas al suelo de rejilla metlica de la
caja (aunque slo una a la vez). Las descargas de cada mquina eran in
tensas, breves y programadas en perodos de tiempo irregulares. La nica
diferencia entre ambas es que la mquina A las dispensaba segn un orden
ms rpido que la B. En otras palabras, la frecuencia (nmero de choques
por unidad de tiempo) de las descargas producidas por A era mayor que las
producidas por B. Al principio se conectaba la maquina A, una presin de
la palanca la desconectaba y conectaba la B, que se mantena activa hasta
dispensar una descarga, entonces se volva a conectar A. Es decir, en ausen
cia de respuesta de evitacin operaba el programa de descargas frecuentes
y ejecutar la operante tena como consecuencia la suspensin de este pro
grama y la activacin del de descargas poco frecuentes, que operaba hasta
la siguiente administracin. Si no se volva a ejecutar la respuesta, se pona
en funcionamiento el programa de descargas frecuentes.
La mquina A sera como un registro E-E de Sidman, mientras que la B
sera como un registro R-E, excepto que las descargas se dan a intervalos va
riables en ambos casos. En estas condiciones era posible que inmediatamen
te despus de accionar la palanca, la mquina B produjese la descarga. As, el
apretar la palanca no prevena necesariamente del estmulo aversivo. Todo lo
que se poda hacer era cambiar las condiciones para decrecer la tasa total de
descargas (mantener una frecuencia baja de administracin de descargas).
Los resultados obtenidos por estos autores mostraron un aumento de la
probabilidad de emisin de la presin de la palanca (conducta de evitacin).
Herrnstein (1969) explic el reforzamiento de la conducta de evitacin
no tanto como el resultado de omitir o retardar la presentacin de la esti
mulacin aversiva, sino como el debido a la reduccin de su frecuencia to
tal o densidad, entendida sta como una contingencia molar negativa entre
las tasas de respuesta y de consecuencias aversivas.
2.2. Variables que afectan al reforzamiento negativo
En trminos generales, cuanto mayor es la intensidad de la estimulacin
aversiva, mayor es la velocidad de adquisicin de la conducta reforzada ne
gativamente. En el caso de la conducta de escape, la intensidad tambin de
365

P s ic o l o g a

d e l a p r e n d iz a j e

termina de la misma forma la rapidez con la que se emite. No obstante, hay


que tener tambin en cuenta la familiaridad del sujeto con la estimulacin
aversiva. De la misma forma que la saciedad puede reducir la efectividad del
reforzador, la habituacin (en los El) y la extincin (en los EC) pueden tam
bin reducir la efectividad de las consecuencias aversivas, tanto para la ad
quisicin de conductas (evitacin/escape) como para su supresin (castigo).
Adems de la intensidad de los estmulos aversivos, existen otros par
metros que determinan el reforzamiento negativo, principalmente en los
procedimientos de evitacin libre y de descargas aleatorias.
En el procedimiento de evitacin libre de Sidman la tasa de respuestas
est determinada por los intervalos E-E y R-E. Cuanto mayor es la fre
cuencia de las descargas en ausencia de respuestas (menor intervalo E-E) y
mayores sean los perodos de seguridad (mayor intervalo R-E), mayor ser
la probabilidad de que el animal aprenda la respuesta de evitacin. Esta re
lacin tambin se cumple teniendo en cuenta los valores relativos, es decir,
adems de su valor absoluto, el hecho de que el intervalo R-E sea mayor
que el E-E tambin mejora la adquisicin de la respuesta de evitacin.
En la evitacin de descarga aleatoria esta relacin tambin se da, no
obstante, hay que tener en cuenta que, dada la naturaleza del procedimien
to, la evitacin no ser nunca absoluta. Es ms, algunas respuestas pueden
ir inmediatamente seguidas de descargas.
3. CASTIGO
Existen diferentes aproximaciones tericas al estudio del castigo, aqu
vamos a centrarnos en tres. La primera empieza con el mismo Thorndike
(1911). Este autor propuso que el reforzamiento positivo y el castigo impli
can procesos simtricamente opuestos, as como el reforzamiento positivo
fortalece la conducta, el castigo la debilita. Es decir, las consecuencias ne
gativas de una conducta debilitan la asociacin entre dicha conducta y los
estmulos presentes en la situacin.
La segunda, ya comentada en un apartado anterior (1.3., Procedimientos
de condicionamiento operante y estados emocionales), es la Teora de la res
puesta emocional condicionada, propuesta de Estes (1944), as que no nos
detendremos de nuevo en ella.
366

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

La tercera y ltima aproximacin que vamos a ver es la Teora de las


respuestas competitivas reforzadas negativamente (Dinsmoor, 1954).
Esta teora explica el castigo en trminos de la adquisicin de respuestas
de evitacin incompatibles con la respuesta castigada. La supresin de
la conducta no se considera un reflejo del debilitamiento de la respuesta
castigada, ms bien, se explica en trminos del fortalecimiento de aquellas
respuestas competitivas que evitan eficazmente la estimulacin aversiva.
Independientemente de la explicacin a la que uno se adhiera, los datos
experimentales recogidos (principalmente a partir de la dcada de 1960)
han ayudado a definir los parmetros ptimos para el uso eficaz de este
procedimiento. En el siguiente apartado se destacan los ms relevantes.
3.1. Variables que afectan al castigo
Recordemos que el procedimiento bsico
del castigo positivo (llamado as por la con
tingencia positiva existente entre la conducta
y la consecuencia: si se da una, se da la otra
con mayor probabilidad, y viceversa) consiste
en presentar un estmulo aversivo contingente
mente despus de una respuesta especfica. El
resultado esperable del procedimiento es la su
presin (reduccin de su probabilidad de emi
sin) de la respuesta en cuestin. E igual que
para reforzar una conducta sta debe emitirse,
para poder aplicar un procedimiento de castigo
sobre una determinada respuesta su aparicin
en ausencia del castigo debe resultar probable.
Esta es la visin ms estndar del castigo, sin
embargo, de la misma forma que Premack
(1959, 1962) demostr que el reforzamiento
no es absoluto sino relativo, ms tarde exten
di el mismo principio al castigo (Premack,
1971). Ms concretamente, si tras establecer
una jerarqua de preferencias, en funcin de
la frecuencia en la ocurrencia de diferentes

Ejemplo
Podemos ver el efecto de
estas variables de una
manera muy sencilla
utilizando la conducta
de conducir como ejem
plo (es necesario enten
der la multa como
una forma de reforzador
negativo secundario, EC
inhibitorio apetitivo):
Intensidad. Las infrac
ciones con ms cuanta
de multa suelen produ
cirse en menor grado
que las leves. Por ejem
plo, aparcar el coche en
zona azul es ms fre
cuente que saltarse un
semforo en rojo.
Inmediatez. Las mul
tas impuestas por
agentes de trfico, ms
cercanas al momento de
la infraccin, suprimen

367

P s ic o l o g a

d e l a p r e n d iz a j e

respuestas,
hacemos
contingente
la
emisin
de
la conducta de una ma una conducta menos preferida con el acceso a
nera ms eficaz que las
notificaciones que lle otra ms preferida, la primera es reforzada. Pe
gan meses despus por ro si forzamos al sujeto a emitir una respuesta
correo postal. De hecho, tras la emisin de una ms preferida, el efecto
si los radares enviasen es el contrario: la que se emiti en primer lugar
las notificaciones de ve reducida su probabilidad de emisin en el
manera instantnea por futuro, es decir, es castigada.
SMS, por ejemplo, las
infracciones se reduci
No
obstante,
los
estudios
de
laboratorio
nor
ran ms rpidamente y malmente suelen ejercer un mayor control tanto
de manera ms especfi
ca. Este ltimo aspecto sobre la conducta que se va a suprimir como
es importante, ya que sobre la consecuencia punitiva. As, como ya se
en ocasiones, esta fal ha comentado con anterioridad, en lugar de apli
ta de inmediatez lejos car castigo sobre alguna respuesta que el sujeto
de reducir la probabili ya emite con alguna probabilidad, los estudios
dad de una conducta en suelen comenzar con la adquisicin de alguna
concreto (sobrepasar un
lmite de velocidad, por operante mediante reforzamiento positivo para
ejemplo) lo que generan luego superponer una contingencia de castigo
es que la conduccin sea (que suele consistir en la presentacin de al
ansigena.
gn estmulo aversivo, como una descarga). La
mayora de la investigacin sobre el castigo se
ha realizado siguiendo este esquema, lo que implica que: a) no parten de la
concepcin relativista de Premack, b) los resultados son la suma del efecto del
castigo y del reforzamiento (ya que se aplican simultneamente). A pesar de
esto, los hallazgos encontrados ponen razonablemente de manifiesto las varia
bles de las que depende la efectividad del castigo para suprimir la conducta.
A) Intensidad del estmulo aversivo. Al igual que ocurre con la magni
tud del reforzador en el entrenamiento de recompensa, cuanto ms
intensa sea la estimulacin aversiva, ms eficaz resultar para supri
mir las respuestas, de hecho, en las condiciones adecuadas, puede
hacerlo totalmente (Appel, 1961). Cuando esto pasa y la respuesta
se suprime por completo, puede darse un fenmeno paradjico: que
la conducta reaparezca ms tarde. Esto se debe a que tras la supre
sin repentina de la respuesta el sujeto deja de tener contacto con
la consecuencia aversiva y, tras un tiempo, la emisin de la misma
se realiza cuando la contingencia de castigo ya no est activa. Esta
reaparicin de la respuesta suprimida (semejante a la Recupera368

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

cin Espontnea tras la Extincin) ha


hecho pensar a algunos autores, entre
ellos a Skinner (1953), que el castigo
no es un mtodo eficaz para suprimir la
respuesta, sin embargo, existen traba
jos que demuestran lo contrario. Masserman (1946), por ejemplo, comprob
con gatos que las conductas suprimidas
con castigo podan seguir sin aparecer
incluso 20 meses despus de aplicar el
procedimiento.
B) Inmediatez y demora del estmulo aver
sivo. Como en cualquier otro procedi
miento de condicionamiento (clsico u
operante), la alta contigidad es un ele
mento favorecedor. Por tanto, el aumen
to del intervalo R-Er produce una menor
supresin de la conducta (Cohn, 1968).
Algunos autores (Estes, 1944; Hunt y Brady, 1955), sin embargo, han encontrado
que los resultados son muy parecidos
independientemente de si el castigo se
aplica de manera demorada o inmedia
tamente tras la respuesta. Sin embargo,
Azrin (1956) ha matizado estos datos.
Segn este autor, esto se debe a una ex
posicin a las contingencias demasiado
breve. En uno de sus experimentos com
prob que si la sesin se extenda a una
hora el efecto inicial de disrupcin sobre
la operante generada por las reacciones
al estmulo aversivo (presente tanto en el
grupo con demora como en el inmedia
to), se limitaba al castigo inmediato. En
definitiva, que con el tiempo suficiente,
el castigo demorado suprima en menor
medida la conducta.

Ejemplo

Graduacin de la intensi
dad. El aumento progre
sivo de la gravedad de la
multa por sobrepasar los
lmites de alcohol pue
de haber contribuido a
cierta insensibilidad por
parte de los conducto
res a una pena que ac
tualmente es de enorme
intensidad. Es probable
que si se hubiese empe
zado por el nivel de in
tensidad que se aplica en
este momento la supre
sin hubiese sido ms
generalizada y definitiva.
Experiencia previa. Aque
llos individuos que no
han sido expuesto du
rante bastante tiempo a
castigo por conducir en
moto sin casco (por vivir
en una poblacin muy
pequea, por ejemplo),
tienen una historia de re
forzamiento tan extensa
(aunque sea por refor
zamiento negativo al no
evitar despeinarse) que
probablemente se mues
tren menos sensibles a
las multas cuando cam
bien de ambiente (al mu
darse a una gran ciudad,
por ejemplo).
Castigo discriminati
vo. Si solamente somos
multados al pasar por
determinado radar o si
est presente un agente
369

P s ic o l o g a

d e l a p r e n d iz a j e

de trfico (y nunca en su
ausencia), es muy pro
bable que la infraccin
slo deje de cometerse
cuando est ese radar o
agente delante.
Programa de castigo.
Dejaremos de sal
tarnos un STOP ms
rpidamente si cada vez
que lo hacemos somos
multados (RF1) que si
slo somos multados de
media una de cada cinco
veces (RV5).
Reforzamiento concu
rrente. Es ms proba
ble que las multas por
exceso de velocidad ten
gan mayor efecto entre
aquellos cuyo entorno
no admira ese tipo de
comportamiento que
entre aquellos que son
elogiados por correr con
el vehculo.
Conducta alternativa
reforzada. Las multas
por usar vehculos que
contaminan en exceso
seran ms eficaces si,
por ejemplo, se subven
cionase la compra de
vehculos ecolgicos,
se hiciera ms barato
y eficiente el trasporte
pblico o se mejorase la
infraestructura para la
circulacin de bicicletas.
Manipulaciones motivacionales. Ms del 70% de

370

C) Cambios graduales en la intensidad del est


mulo aversivo. Un factor muy importante
del castigo es la forma en que se introduce
la consecuencia aversiva. Si, por ejemplo,
se utiliza una descarga de alta intensidad
cuando se comienza el procedimiento, la
operante se ver gravemente suprimida. Se
producir mucha menos supresin de la
conducta si se utiliza inicialmente un cas
tigo suave, y se va incrementando gradual
mente la intensidad de la descarga a lo largo
del entrenamiento. As, la exposicin inicial
a una suave estimulacin aversiva que no
altera mucho la conducta reduce los efectos
de un castigo intenso posterior (Azrin, Holz
y Hake, 1963). Por el contrario, la exposi
cin inicial a una estimulacin aversiva in
tensa aumenta los efectos supresores de un
castigo suave posterior (Miller, 1960).
D) Experiencia previa. Si la fase de re forza
miento previo fue muy larga y el volumen
de reforzamiento muy grande, los efectos
del castigo sern menores.
E) Efectos discriminativos del estmulo aversi
vo. Si la respuesta se castiga en presencia de
un estmulo discriminativo, pero no cuando
el estmulo est ausente, a esto se le llama
Castigo Discriminativo (y al discriminativo
estmulo delta o discriminativo negativo).
Con una exposicin continuada al discrimi
nativo, los efectos supresores del castigo se
limitan a la presencia de dicho estmulo.
F) Programa de castigo. Exactamente del mis
mo modo que el reforzamiento no tena que
administrarse cada vez que se produjera
la respuesta instrumental, el castigo puede

BIBLIOTECA

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

tambin administrarse intermitentemen los accidentes en trnsi


te. As, el castigo puede suministrarse to al centro de trabajo
despus de un nmero fijo de respuestas (segn datos del DGT
(Programa de Castigo de Razn Fija) o del 2012) se producen
variable (Programa de Castigo de Razn durante el trayecto de
ida. Es probable que la
Variable), as como tambin puede pro aplicacin
de
multas
gramarse la aparicin de la consecuen para reducir las infrac
cia aversiva tras la emisin de la primera ciones tenga menor efec
respuesta tras un intervalo de tiempo to cuando el sujeto est
(Programa de Castigo de Intervalo, Fijo muy motivado para lle
o Variable). En trminos generales, los gar a tiempo al destino.
programas de castigo continuos son ms
efectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y
Apple, 1966).
G) Programa de reforzamiento compuesto. Toda tcnica de castigo es
una tcnica mixta, ya que castigar una conducta requiere que esa
conducta haya sido reforzada o est siendo reforzada a la vez. As,
podemos encontrarnos estos tres casos:
Castigo sobre lneas-base apetitivas: aqu actan simultneamen
te el castigo y el reforzamiento positivo sobre la misma respuesta.
Castigo sobre lneas-base defensivas: concurren el castigo y el
reforzamiento negativo (escape/evitacin).
Castigo sobre lneas-base de extincin: se castiga una respuesta
que previamente ha sido reforzada, pero que en el momento de
aplicar el castigo est siendo extinguida.
La eficacia del castigo se ver reducida por la eficacia relativa
del procedimiento con el que est compitiendo (en el caso del re
forzamiento positivo y negativo) o aumentada por la eficacia de
proceso de extincin de la misma conducta.
H) Existencia de una conducta alternativa reforzada. En muchos expe
rimentos, la respuesta castigada es tambin la nica respuesta que
el sujeto puede realizar para obtener un reforzamiento positivo. La
disponibilidad de una fuente alternativa de reforzamiento aumenta
enormemente la supresin de las respuestas producida por el castigo
(Hermn y Azrin, 1964).
371

368/392

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

tambin administrarse intermitentemen los accidentes en trnsi


te. As, el castigo puede suministrarse to al centro de trabajo
despus de un nmero fijo de respuestas (segn datos del DGT
(Programa de Castigo de Razn Fija) o del 2012) se producen
variable (Programa de Castigo de Razn durante el trayecto de
ida. Es probable que la
Variable), as como tambin puede pro aplicacin
de
multas
gramarse la aparicin de la consecuen para reducir las infrac
cia aversiva tras la emisin de la primera ciones tenga menor efec
respuesta tras un intervalo de tiempo to cuando el sujeto est
(Programa de Castigo de Intervalo, Fijo muy motivado para lle
o Variable). En trminos generales, los gar a tiempo al destino.
programas de castigo continuos son ms
efectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y
Apple, 1966).
G) Programa de reforzamiento compuesto. Toda tcnica de castigo es
una tcnica mixta, ya que castigar una conducta requiere que esa
conducta haya sido reforzada o est siendo reforzada a la vez. As,
podemos encontrarnos estos tres casos:
Castigo sobre lneas-base apetitivas: aqu actan simultneamen
te el castigo y el reforzamiento positivo sobre la misma respuesta.
Castigo sobre lneas-base defensivas: concurren el castigo y el
reforzamiento negativo (escape/evitacin).
Castigo sobre lneas-base de extincin: se castiga una respuesta
que previamente ha sido reforzada, pero que en el momento de
aplicar el castigo est siendo extinguida.
La eficacia del castigo se ver reducida por la eficacia relativa
del procedimiento con el que est compitiendo (en el caso del re
forzamiento positivo y negativo) o aumentada por la eficacia de
proceso de extincin de la misma conducta.
H) Existencia de una conducta alternativa reforzada. En muchos expe
rimentos, la respuesta castigada es tambin la nica respuesta que
el sujeto puede realizar para obtener un reforzamiento positivo. La
disponibilidad de una fuente alternativa de reforzamiento aumenta
enormemente la supresin de las respuestas producida por el castigo
(Hermn y Azrin, 1964).
371

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

tambin administrarse intermitentemen los accidentes en trnsi


te. As, el castigo puede suministrarse to al centro de trabajo
despus de un nmero fijo de respuestas (segn datos del DGT
(Programa de Castigo de Razn Fija) o del 2012) se producen
variable (Programa de Castigo de Razn durante el trayecto de
ida. Es probable que la
Variable), as como tambin puede pro aplicacin
de
multas
gramarse la aparicin de la consecuen para reducir las infrac
cia aversiva tras la emisin de la primera ciones tenga menor efec
respuesta tras un intervalo de tiempo to cuando el sujeto est
(Programa de Castigo de Intervalo, Fijo muy motivado para lle
o Variable). En trminos generales, los gar a tiempo al destino.
programas de castigo continuos son ms
efectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y
Apple, 1966).
G) Programa de reforzamiento compuesto. Toda tcnica de castigo es
una tcnica mixta, ya que castigar una conducta requiere que esa
conducta haya sido reforzada o est siendo reforzada a la vez. As,
podemos encontrarnos estos tres casos:
Castigo sobre lneas-base apetitivas: aqu actan simultneamen
te el castigo y el reforzamiento positivo sobre la misma respuesta.
Castigo sobre lneas-base defensivas: concurren el castigo y el
reforzamiento negativo (escape/evitacin).
Castigo sobre lneas-base de extincin: se castiga una respuesta
que previamente ha sido reforzada, pero que en el momento de
aplicar el castigo est siendo extinguida.
La eficacia del castigo se ver reducida por la eficacia relativa
del procedimiento con el que est compitiendo (en el caso del re
forzamiento positivo y negativo) o aumentada por la eficacia de
proceso de extincin de la misma conducta.
H) Existencia de una conducta alternativa reforzada. En muchos expe
rimentos, la respuesta castigada es tambin la nica respuesta que
el sujeto puede realizar para obtener un reforzamiento positivo. La
disponibilidad de una fuente alternativa de reforzamiento aumenta
enormemente la supresin de las respuestas producida por el castigo
(Hermn y Azrin, 1964).
371

P s ic o l o g a

d e l a p r e n d iz a j e

I) Manipulaciones motivacionales. Aunque no es un parmetro propio


de la contingencia de castigo, se ha demostrado que su eficacia para
suprimir una conducta es mayor si se reduce la motivacin para rea
lizar esa respuesta (Dinsmoor, 1952). Experimentalmente, para una
conducta reforzada con comida, se ha comprobado que no slo la su
presin es mayor si los animales se encuentran al 85% de su peso que
si estn al 60% (Azrin, Holz y Hake, 1963), sino que incluso cuando
se aumenta su motivacin (nivel de privacin) la operante suprimida
no reaparece (Masserman, 1946).
3.2. LA EFICACIA RELATIVA DEL CASTIGO PARA SUPRIMIR
LA CONDUCTA
Si gritamos y regaamos a nuestro hijo cuando rompe uno de sus ju
guetes puede que no vuelva a hacerlo. La reprimenda est funcionando
como consecuencia aversiva en este caso, pero slo porque efectivamente
su contingencia positiva con la conducta est reduciendo su probabilidad
de emisin futura. Esta es una cuestin importante, ya que en el lenguaje
comn suele utilizarse el trmino castigo sin tener en cuenta el efecto
de la consecuencia sobre la conducta (funcin del estmulo), sino aten
diendo nicamente a aspectos morfolgicos de la misma (topografa del
estmulo). Como sealan Pierce y Cheney (2008), slo podemos hablar
de castigo cuando efectivamente la consecuencia suprime la conducta (lo
que implica que, por definicin, siempre funciona). El uso de supuestas
consecuencias aversivas secundarias (como la reprimenda) conlleva un
gran riesgo ya que su topografa no supone necesariamente una funcin
concreta. Puede que al reprender al nio (en nuestro ejemplo) no slo
no estemos suprimiendo su conducta sino reforzndola. La reprimenda
puede haberse asociado en mayor medida con la atencin (que suele ser
un poderoso reforzador generalizado) que con otros estmulos aversivos
(como un azote). En este caso, por tanto, no podramos hablar de castigo
sino de reforzamiento positivo.
El castigo ha ocupado (y lo sigue haciendo) un papel fundamental en
la sociedad como mtodo de control del comportamiento, o, por lo menos,
mucho ms que el entrenamiento de omisin, ms difcil de aplicar de ma
nera sistemtica y organizada por una sociedad. Las leyes, los sistemas edu
372

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

cativos e incluso las reglas sociales estn diseadas prestando un especial


cuidado a la tica, eficacia y proporcionalidad de los castigos programados.
Sin embargo, su estudio no interes de la misma forma a los investigadores,
o, al menos, no desde el principio. Los primeros trabajos experimentales
sobre el castigo (Thorndike, 1932; Skinner, 1938; Estes, 1944) concluyeron
que su capacidad para modelar la conducta no slo era muy reducida sino
tambin poco estable en el tiempo. Tuvieron que pasar ms de treinta aos
desde esas primeras afirmaciones para que otros trabajos experimentales
defendieran lo contrario (Church, 1963; Solomon, 1964; Azrin y Holz, 1966,
por ejemplo). Desde entonces, la investigacin sobre el castigo ha demos
trado que con los parmetros adecuados la conducta puede ser suprimida
de manera absoluta y en muy pocos ensayos, pero tambin que si no se
controlan estos parmetros la supresin puede no ser total y/o reaparecer
la conducta en el futuro.
En definitiva, el uso del castigo conlleva ventajas y desventajas que hay
que valorar antes de su puesta en prctica como tcnica para la supresin
de la conducta. Por un lado, provoca una reduccin de la conducta a corto
y largo plazo, pero, sobre todo, con un alto grado de inmediatez. Adems,
esta reduccin demuestra una alta resistencia a un posterior recondi
cionamiento, en otras palabras, el recondicionamiento de una conducta
eliminada mediante el castigo es mucho ms lento y difcil que el condi
cionamiento de esa misma conducta si no ha sido anteriormente castigada.
Pero, por otro lado, genera una serie de efectos colaterales que pueden no
ser deseables, tales como ansiedad, agresin, neurosis o una redistribucin
no prevista de la conducta del sujeto (aumentando la tasa de ciertos com
portamientos y bajando la de otros, que no han sido sometidos al castigo).
Vamos a abordar algunos de estos efectos ms detenidamente.
Como vimos al principio del captulo, aquellos eventos que correlacio
nan con la presentacin de estimulacin aversiva pueden condicionarse
de forma clsica, convirtindose en estmulos condicionados excitatorios
aversivos. En una contingencia operante los eventos antecedentes que
mantienen una contingencia positiva con el castigo de una conducta se
convierten en estmulos discriminativos para esa conducta, pero tambin
en ECs excitatorios aversivos, cuyo efecto es elicitar un reflejo al que suele
denominarse ansiedad. Por tanto, cuando aplicamos algn procedimiento
de castigo, la intensidad del estmulo aversivo determina la efectividad del
procedimiento pero tambin aumenta las probabilidades de que el contexto
373

P s ic o l o g a

d e l a p r e n d iz a j e

ambiental en el que se est aplicando adquiera la capacidad de provocar


ansiedad en el sujeto. Este ambiente, susceptible de convertirse en ansigeno, puede ser muy amplio y desconocido para el experimentador/educador/
terapeuta, abarcando tanto al lugar dnde se est aplicando el castigo (o a
elementos del mismo), como al propio agente que lo aplica, como a estmu
los propioceptivos o interoceptivos generados por el propio sujeto. A esta
cantidad y diversidad de eventos condicionables hay que aadir la posibi
lidad de que el efecto se extienda a otros estmulos que nunca estuvieron
presentes, a travs de fenmenos de generalizacin. El resultado es que con
el uso extendido del castigo, sobre todo cuando se utilizan consecuencias de
magnitudes elevadas, se corre un riesgo considerable de ampliar los estmu
los generadores de ansiedad para el sujeto, con el consiguiente desarrollo
de trastornos del comportamiento.
La presencia de eventos ansigenos suele disminuir la tasa general de
respuesta operante, provocando que ciertas conductas, que en ausencia de
estos estmulos se emitiran con una alta probabilidad, no aparezcan. El
efecto del castigo, por tanto, no se limita a la disminucin de la conduc
ta objetivo sino que puede afectar al comportamiento general del sujeto.
Pero esta redistribucin no deseada del comportamiento no se produce
exclusivamente mediante la supresin del comportamiento sino tambin
con el aumento de la tasa de otras conductas. Aunque se abordar ms
adelante con ms detalle, en trminos generales, cuando un sujeto emite
una conducta es porque dicha conducta ha sido sometida en el pasado
(en un contexto parecido) a algn procedimiento de refuerzo. Cuando este
refuerzo ha sido positivo, que es el caso ms frecuente, la probabilidad de
emisin de esa conducta depende, entre otras variables, del nivel de sacie
dad o privacin respecto al reforzador (comida, afecto, atencin, dinero,
etc.). Podemos, efectivamente, suprimir dicha conducta mediante castigo,
pero de esa forma no alteramos una importante variable causal: su mo
tivacin (privacin/saciedad). En estos casos es altamente probable que
aparezcan otras respuestas (ya existentes en el repertorio del sujeto o fruto
de la variacin conductual) y que stas sean reforzadas por la consecuencia
que reduce el estado de privacin. Por ejemplo, podemos suprimir que un
nio nos interrumpa (conducta reforzada por nuestra atencin) mientras
hablamos con otro adulto mediante castigo pero puede que se fortalezcan
otras respuestas como agredir a su hermano pequeo o subirse a un lugar
peligroso (conductas que tambin estn reforzadas por nuestra atencin).
374

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

El ltimo de los efectos colaterales del castigo que vamos a co


mentar es la conducta agresiva que suele generar. Como hemos visto, la
propia presentacin de estimulacin aversiva (en funcin del contexto,
la intensidad, la especie, etc.) puede generar agresin como respuesta
refleja, lo que suele denominarse como agresin elicitada. Cuando se
sita a dos organismos juntos y se les aplica estimulacin aversiva sue
len atacarse entre ellos, fenmeno que se ha encontrado en multitud de
especies (Ulrich y Azrin, 1962), incluida la humana (Azrin, Hutchinson
y Hake, 1963). Pero ese tipo de agresin no es el nico que puede darse
cuando aplicamos procedimientos de castigo, la agresin tambin pue
de ser operante. Cuando la presencia de un organismo (el domador, el
adiestrador, o el educador, por ejemplo) correlaciona con la presentacin
de estimulacin aversiva, la agresin dirigida hacia ese organismo puede
verse reforzada como conducta de escape/evitacin si llega a suprimir
dicha estimulacin.
En el siguiente apartado veremos otros efectos no deseados que pue
den derivarse del uso del castigo.
3.3. Fenmenos paradjicos en el castigo
En ocasiones los organismos parecen ir buscando el castigo, o lo que es
lo mismo (eliminando el carcter teleolgico de la frase), la presentacin
de estmulos aversivos tras la emisin de la operante lejos de reducir su
probabilidad de emisin la aumenta. Aunque, por motivos de parsimonia
o simplemente didcticos, solemos centrarnos en pocas variables para ex
plicar un comportamiento, la realidad es multifactorial y, sobre todo, no se
divide en ensayos. Hemos visto como la funcin elicitadora de los estmulos
tambin afecta a las contingencias operantes, pero, adems, el condiciona
miento no tiene porqu empezar con la aparicin del estmulo discrimina
tivo en el que estamos centrando nuestra atencin (como observadores) ni
terminar con el reforzador que hemos programado (como experimentador
o docente). Las relaciones de contingencia y contigidad son mucho ms
lbiles y afectan a muchos ms eventos de los que un anlisis superficial
suele tener en cuenta. En este apartado vamos a analizar cmo una situa
cin en la que aparentemente se est castigando una conducta tiene un
efecto completamente diferente al esperado.
375

P s ic o l o g a

d e l a p r e n d iz a j e

3.3.1. La conducta masoquista


El discriminativo negativo (o estmulo delta) asociado al castigo est
muy relacionado con algunas situaciones en las que ste no es eficaz para
suprimir la conducta. La bsqueda del castigo puede aparecer en una situa
cin en la que el reforzamiento positivo slo est disponible cuando se cas
tiga la operante. En tales circunstancias, el castigo puede convertirse en una
seal, o estmulo discriminativo, para la disponibilidad del reforzamiento
positivo. Por ejemplo, un nio hace algo malo, recibe una reprimenda y
acto seguido se le dan muestras de cario del progenitor arrepentido. Si la
privacin de cario es elevada, aunque se presente estimulacin aversiva
contingentemente a la conducta el resultado es un aumento de la tasa, en
lugar de una reduccin.
Otra forma de adquirir esta conducta masoquista es mediante el con
tracondicionamiento de la consecuencia aversiva. Si condicionamos un
estmulo (un EC o un El) asocindolo a otro
con un efecto inverso pero ms fuerte podemos
Ejemplo
cambiar
el
tipo
de
respuesta
elicitada
por
dicho
Un nio puede escapar estmulo y, por tanto, su funcin cmo refor
de la reprimenda de
su profesor corriendo. zador o consecuencia aversiva. Por ejemplo,
De esta manera, la re podemos empezar emparejando descargas de
primenda (que podra poca intensidad (El aversivo que puede funcio
considerarse de manera nar como consecuencia aversiva) con mucha
general como un reforza comida (El apetitivo de mayor intensidad), para
dor negativo secundario) ir paulatinamente aumentando las descargas
funciona como un Ed+
para la conducta de co y disminuyendo la comida. De esta manera, la
rrer, ya que correlaciona descarga terminar adquiriendo propiedades de
con el reforzamiento ne EC excitatorio apetitivo, lo que le convertir en
gativo de dicha conduc un reforzador para las conductas operantes, y su
ta. Esto puede derivar presentacin contingente funcionar como re
en que la reprimenda del forzamiento positivo en lugar de como castigo.
profesor pierda eficacia
para funcionar como Er
en un procedimiento de
castigo positivo. En defi
nitiva, que el no corras
que es peor! lejos de
detener al nio le anime
a correr ms rpido.

376

3.3.2. Crculo vicioso


En el caso de la conducta masoquista estaba
implicado el reforzamiento positivo, pero po
demos encontrar fenmenos muy parecidos en

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

conductas reforzadas negativamente (escape/evitacin). Cuando se entrena


una conducta de escape (por ejemplo saltar al otro compartimento de la
caja lanzadera) ante un evento aversivo (una descarga, por ejemplo), el pro
pio evento adquiere funciones discriminativas positivas para esa conducta.
Es decir, una vez se ha adquirido la conducta de escape, la presencia del
estmulo aversivo aumenta las probabilidades de emisin de dicha conduc
ta. Esto implica que el uso de dicho estmulo como consecuencia aversiva
para esa conducta (en un procedimiento de castigo) no tendr como efecto
la supresin de la respuesta sino todo lo contrario. A este fenmeno, efecto
de utilizar un discriminativo positivo como consecuencia aversiva para la
misma conducta, se le denomina crculo vicioso.
3.4. Otras estrategias de supresin de la conducta
Aunque el presente manual tiene como objetivo abordar fenmenos b
sicos, y otras asignaturas se encargarn de profundizar mucho ms en la
tecnologa que de ellos se desprende, nos gustara aprovechar el final de este
captulo para sealar algunos fenmenos relacionados con la supresin de
la conducta operante que no requieren del uso del castigo, eludiendo de esta
forma los posibles efectos colaterales descritos en los apartados anteriores.
3.4.1. Entrenamiento de omisin
El entrenamiento de omisin consiste en establecer una contingencia
negativa entre una determinada respuesta y la administracin de un refor
zador. En trminos probabilsticos diramos que la probabilidad de que se
presente un reforzador es menor si el sujeto emite la respuesta que si no la
emite. As, la forma que tiene el sujeto de conseguir el reforzador es omi
tiendo (no dando) la respuesta, ya que si la emite no se presenta el refor
zador que habra aparecido si no hubiera respondido. Este procedimiento,
como ya sabemos, resulta en una disminucin de la tasa de respuesta.
Al igual que podamos establecer un paralelismo entre los procedimientos
de reforzamiento positivo y de castigo positivo: en ambos la contingencia
es positiva y en ambos podamos utilizar programas de razn, de intervalo,
etc. Tambin podemos observar cierta similitud entre el Entrenamiento de
Omisin y la Evitacin de Sidman: en ambos el signo de la contingencia es
377

P s ic o l o g a

d e l a p r e n d iz a j e

negativo y en ambos puede hablarse de intervalos consecuencia- consecuen


cia (entre consecuencias) y respuesta-consecuencia. El intervalo consecuencia-consecuencia (al que tambin nos hemos referido como E-E) nos indica
la frecuencia con la que se van a presentar las consecuencias cuando el sujeto
no emite la respuesta. Por contra, el intervalo respuesta-consecuencia nos
indica el tiempo que va a transcurrir entre que el sujeto emite la respuesta y
el retraso aadido en la presentacin de la prxima consecuencia. En estos
procedimiento no se despliegan seales de aviso y la respuesta, se emita en
el momento en que se emita, retrasa la aparicin del reforzador.
Las variables que determinan la eficacia reductora del entrenamiento
de omisin, por tanto, tambin son muy parecidas a las que determinan
la capacidad para instaurar una conducta mediante un entrenamiento de
evitacin. Para que se produzca aprendizaje en los procedimientos de en
trenamiento de omisin, es decir, para que desaparezca la respuesta con la
que estamos trabajando, los intervalos de presentacin de la consecuencia
en ausencia de respuestas (intervalos E-E) deben ser de menor duracin
que los de entrega de la consecuencia tras la respuesta del sujeto (intervalos
R-E). Otro factor a tener en cuenta para una mayor eficacia del procedi
miento es el ajuste paramtrico en funcin de la ejecucin. Con esto nos
referimos a que se debe empezar por valores pequeos del intervalo R-E,
para, paulatinamente y teniendo en cuenta la ejecucin del sujeto, ir au
mentado el criterio de pausa.
El entrenamiento de omisin tiene como efecto inmediato sobre la tasa
de conducta un mantenimiento residual de la respuesta. Se sigue obser
vando durante un plazo de tiempo relativamente corto una tasa pequea
de respuestas motivadas por la presencia del propio reforzador. Cuando
al sujeto se le presenta el reforzador debido a que no ha dado la respuesta
castigada negativamente (entrenamiento de omisin), el sujeto comienza
de nuevo a responder. Sin embargo, esta tasa residual acaba por desapare
cer a largo plazo, dando lugar a la total eliminacin de la conducta y a una
extrema resistencia al recondicionamiento.
3.4.2. Modificacin de la fuerza de conductas alternativas
Cuando analizamos los fenmenos bsicos de conducta solemos centrar
nuestra atencin en una sola respuesta objetivo, reforzamos pulsar una te378

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

ca, desplazarnos a otra instancia de la caja o decir una palabra concreta.


Pero desde un punto de vista estricto, cualquier comportamiento (por muy
bsica o simple que sea la situacin) es una conducta de eleccin: elegi
mos pulsar o no pulsar, movernos o quedarnos quietos, decir la palabra o
quedarnos callados. Siempre estamos eligiendo, siempre hay alguna alter
nativa de comportamiento posible, incluso en las situaciones que solemos
etiquetar como forzadas.
Cuando estudiamos la conducta de eleccin lo hicimos analizando la
respuesta de los sujetos expuestos a programas concurrentes, en los que el
experimentador dispona de un mayor control de las variables que determi
naban cada programa (componente). Pero incluso un programa simple de
razn fija puede interpretarse como un programa concurrente en el que la
respuesta de pulsar la tecla es reforzada positivamente por la presentacin
de comida, y la de no pulsar es reforzada negativamente por la evitacin
del esfuerzo. Sabemos que el aumento de la razn (nmero de respuestas
requerido para la aparicin del reforzador) tiene como efecto (evidente,
por otra parte) el aumento de la tasa de respuesta, pero que hay un lmite a
partir del cual el sujeto deja de responder, es decir, se suprime la operante.
Este hecho podra interpretarse como un aumento del reforzamiento nega
tivo de la conducta alternativa (no pulsar), ya que hemos incrementado el
nivel de esfuerzo, el valor de la consecuencia aversiva del otro componente.
Este razonamiento puede extenderse a cualquier situacin, permitin
donos la supresin (o, al menos, la reduccin de la tasa) de una conducta
mediante la manipulacin de variables relacionadas con su competitividad
respecto a otras respuestas disponibles. Recordando lo que vimos sobre la
conducta de eleccin, podemos manipular desde el intervalo R-Er (demora
del reforzamiento) de las alternativas, variables relacionadas con la con
secuencia como la intensidad, la calidad o la cantidad. En definitiva, cual
quier modificacin que convierta a la alternativa en ms atractiva reducir
la probabilidad de emisin de la conducta objetivo.
Otra forma de suprimir una determinada condticta relacionada con lo
anterior es fortaleciendo alguna respuesta cuya emisin sea incompatible
con la anterior. Existen respuestas que son topogrficamente contrarias,
no se puede subir y bajar al mismo tiempo, hablar en un volumen bajo y
gritando, correr e ir despacio. Si reforzamos una conducta (Rl) que no pue
de emitirse a la vez que otra (R2) inevitablemente reduciremos la tasa de
379

P s ic o l o g a

d e l a p r e n d iz a j e

conducta de sta ltima (R2). Por ejemplo, podemos suprimir la conducta


de levantarse del asiento durante una clase aplicando un procedimiento de
castigo (cada vez que se levanta se le reprende), pero podemos obtener el
mismo efecto reforzando la conducta de estar sentado.
3.4.3. Extincin
El ltimo de los procedimientos alternativos al castigo que vamos a des
cribir es la extincin de la propia operante (no confundir con la extincin
del reforzador descrita anteriormente). Romper la contingencia positiva
respuesta-consecuencia (en las conductas reforzadas positivamente) o la
contingencia negativa respuesta-consecuencia (en las reforzadas negativa
mente, entrenamiento de evitacin/escape) en presencia de los respectivos
discriminativos resultar en un descenso de la operante (frente a estos
discriminativos). Extinguir el control de los discriminativos positivos es
un procedimiento muy eficaz para suprimir la operante pero requiere no
slo de la identificacin del reforzador sino, lo que es ms importante, del
control sobre la aparicin de dichos reforzadores. Como ya hemos visto,
la extincin no implica un desaprendizaje o un olvido, es un nuevo apren
dizaje que sustituye al anterior siempre que se mantengan determinadas
circunstancias. Un cambio en el contexto (respecto al que ha estado pre
sente durante la extincin), un tiempo sin contacto con el discriminativo
extinguido, incluso la exposicin al reforzador (sin que se haya emitido la
operante), pueden provocar la restauracin de la capacidad de control de
los discriminativos que habamos extinguido y, por tanto, la emisin de la
conducta que habamos suprimido.
3.4.4. Modificaciones motivacionales
Considerar que un comportamiento observado no es el efecto de otra va
riable equivale a considerar que no obedece a ninguna causa. Explicar una
conducta con argumentos del tipo lo ha hecho porque s, hace esto por
que quiere o lo hace porque le apetece, suele esconder o bien una falta
de informacin sobre las verdaderas causas del comportamiento o bien una
falta de motivacin para exponerlas (por la relacin coste/beneficio que le
supone, por ejemplo). Los reflejos incondicionados son efecto de la presen
380

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

cia de estmulos incondicionados, los estmulos condicionados causan los


reflejos condicionados, y la emisin de las conductas operantes dependen
del estado motivacional (grado de privacin asociado con el reforzador),
historia de reforzamiento y castigo del sujeto y de la estimulacin presente
(discriminativos positivos y negativos) en ese momento, todos eventos an
teriores a la propia emisin de la respuesta.
Que una determinada operante se emita a una tasa alta se debe, al me
nos, a la interaccin de estas variables. Y, por tanto, la manipulacin de
cada una de ellas por separado puede reducir por s misma la fuerza (pro
babilidad de emisin) de dicha operante.
La motivacin es un constructo que suele referirse, en trminos gene
rales, a la fuerza de una determinada conducta. No obstante, sabemos que
esa fuerza depende de mltiples variables (las principales las hemos co
mentado ms arriba). Consideramos que una persona est motivada a ir a
la playa cuando las probabilidades de que lo haga son muy altas, tambin
suele utilizarse al revs: ir a la playa le motiva mucho o lleva tanto tiem
po sin ir a la playa que seguro que tiene muchas ganas (est muy motivado
a ir). La motivacin suele operativizarse principalmente atendiendo o bien
al grado de privacin/saciedad respecto al reforzador, o bien al valor del
propio reforzador. Evidentemente, en situaciones de reforzamiento negati
vo o de castigo, el concepto de motivacin est relacionado casi exclusiva
mente con el valor del estmulo aversivo (intensidad, grado de habituacin,
etc.).
Retomando el ttulo del apartado, es posible suprimir una conducta
sin aplicar el castigo mediante la manipulacin de variables relacionadas
con la motivacin. Como adelantbamos al principio, si una conducta se
emite es porque ha sido reforzada y si conseguimos identificar el evento
responsable de su mantenimiento podemos saciar al sujeto respecto a ese
reforzador, reduciendo as su emisin. Por ejemplo, si en una caja de Skin
ner reforzamos a una paloma con comida cada vez que pica una tecla roja,
la tasa de respuesta de la paloma aumentar. Podemos reducir dicha tasa
simplemente dejando acceso libre a la paloma a la comida, de forma que
cuando la introduzcamos en la caja de Skinner est saciada de comida.
Pero, cmo saciamos a un sujeto cuando el reforzador no es primario?
Como ya sabemos, un reforzador puede etiquetarse como primario (El) o
secundario (EC) en funcin de si sus propiedades reforzantes requieren o
381

P s ic o l o g a

d e l a p r e n d iz a j e

no de aprendizaje por parte del sujeto. Si una conducta est siendo man
tenida por reforzamiento secundario podemos reducir su tasa de emisin
saciando al sujeto respecto al reforzador primario del que depende el se
cundario. En otras palabras, una sobreexposicin al El con el que se condi
cion el EC reduce la capacidad reforzante del EC.
Tambin podemos reducir la tasa de una operante mantenida con un
reforzador primario devaluando dicho reforzador. El procedimiento es
muy sencillo, si asociamos de forma pavloviana un reforzador primario
(El, comida, por ejemplo) con otro estmulo de signo contrario (aversivo),
provocaremos un descenso en la probabilidad de emisin de las conductas
reforzadas con dicho estmulo.
La capacidad reforzante de un reforzador secundario tambin puede
anularse (y, por tanto, reducir la tasa de la respuesta en la que influye) a tra
vs de otros mtodos: la extincin y el contracondicionamiento. El reforza
dor secundario, como cualquier otro EC, es susceptible de perder su capaci
dad elicitadora (y su capacidad reforzante) si se le presenta suficientemente
al sujeto sin ir emparejado con el El (o EC, sin el condicionamiento original
fue de segundo orden). De la misma forma, podemos cambiar el signo de
un reforzador secundario sometindole a contracondicionamiento, de posi
tivo a negativo. Aunque este ltimo caso implicara la utilizacin de estimu
lacin aversiva, tanto en el contracondicionamiento del reforzador como
en el posterior condicionamiento de la operante, ya que el procedimiento
pasara de considerarse un reforzamiento positivo a un castigo.
La saciedad y la extincin del reforzador pueden resultar muy tiles
con reforzadores secundarios simples, sin embargo, muchas conductas
son mantenidas con reforzadores secundarios generalizados, y en estos
casos dichos procedimientos no son igual de efectivos. Consideramos a un
reforzador secundario como generalizado cuando se ha condicionado con
diferentes reforzadores (primarios y/o secundarios). Dos de los ejemplos
ms claros son el dinero y la atencin (de otros individuos). El dinero es
un estmulo emparejado con multitud de reforzadores primarios (comida,
agua, etc.), secundarios (ropa, transporte, etc.) e incluso otros secundarios
generalizados (seguridad, estatus, poder, etc.). La atencin desde edades
muy tempranas suele asociarse a la comida, el contacto, la proteccin, etc.
El efecto de estos reforzadores generalizados sobre la conducta no depende
de una nica privacin ni de su contingencia con un solo evento, lo que
382

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

les convierte en muy resistentes a la saciedad y a la extincin. En otras


palabras, aunque de repente estemos completamente saciados de comida
(o de poder, o de ropa) el dinero va a seguir estando relacionado con otros
eventos reforzantes, aunque de pronto todo el transporte sea gratis (y se ex
tinga la relacin que mantiene con el dinero) el dinero seguir manteniendo
cierta contingencia con otros reforzadores. En definitiva, la sensibilidad a
la saciedad y a la extincin de la conductas mantenidas por reforzadores
secundarios generalizados es prcticamente nula.
Una estrategia con la que s podemos disminuir la tasa de una operante
sin la presentacin de estimulacin aversiva (independientemente de que
el reforzador sea primario, secundario o generalizado) es con la reduccin
de la intensidad del reforzador. Cuando se presentan reforzadores menos
intensos que los que se han utilizado en el pasado para mantener la misma
conducta, se produce un descenso de la tasa de respuesta, aunque est sien
do sometida a reforzamiento positivo. Como se ha explicado en captulos
anteriores, a este fenmeno se le denomina contraste conductual negativo.
4. PROGRAMAS CONCURRENTES Y ESTIMULACIN AVERSIVA
Aunque el estudio del efecto de los diferentes programas sobre los pa
trones de conducta se ha centrado mayoritariamente en el reforzamiento
positivo, hemos comentado en este captulo algunos hallazgos respecto a
los programas de castigo. En este apartado se describirn las principales
caractersticas de la conducta generada por programas concurrentes (dos
o ms programas simples diferentes disponibles a la vez) que involucran
estimulacin aversiva.
4.1. Conducta de eleccin
La investigacin de laboratorio sobre la denominada conducta de elec
cin se ha llevado a cabo principalmente mediante el anlisis del compor
tamiento de los sujetos ante programas de reforzamiento concurrentes.
Desde los primeros trabajos en esta lnea (Herrnstein, 1961) se com
prob que la eleccin de los sujetos, medida como la localizacin de sus
respuestas en una u otra opcin, eran funcin de la frecuencia relativa de
383

P s ic o l o g a

d e l a p r e n d iz a j e

reforzamiento de cada una de las alternativas disponibles. Los resultados


de estos experimentos llevaron a definir la denominada Ley de Igualacin
(Herrnstein, 1970): (B,/B2) = (r,/r2), donde 1 se refiere a una de las alterna
tivas y 2 al sumatorio, B son las elecciones, y r el valor del reforzador (fre
cuencia, principalmente, aunque tambin puede ser magnitud o calidad).
Esta relacin entre la frecuencia de reforzamiento positivo y la eleccin
de los sujetos obtuvo inmediatamente un alto apoyo emprico (Catania,
1963; Stubbs y Pliskoff, 1969; Schneider, 1973; por ejemplo), pero tambin
empez a comprobarse la validez de dicha ley con otros tipos de procedi
mientos.
4.1.1. Eleccin y reforzamiento negativo
Baum (1973) comprob cmo se ajustaba la Ley de Igualacin a la con
ducta controlada por escape, usando descargas como evento aversivo y el
tiempo de estancia en una localizacin de la caja como conducta de elec
cin. El experimento consisti en reforzar con 2' de tiempo fuera y la desac
tivacin de una descarga de 7-mA a 4 palomas por situarse en el punto A o
en el B de la caja. Cada punto aplicaba el reforzamiento bajo un programa
IV diferente que fue varindose: 0.5-8, 0.5'-4', l'-2', 2-2, 4'-2', 8'-2', 8-1', 80.5'. El ajuste de la eleccin de los sujetos a la frecuencia de reforzamiento
de cada alternativa fue aumentando a lo largo del experimento, siendo los
datos de las ltimas cuatro semanas los ms tiles para comparar los re
sultados con los de experimentos anteriores con reforzamiento positivo. Se
comprob que la reduccin de la tasa de refuerzo negativo funcionaba de
la misma forma que la reduccin de reforzamiento positivo. No obstante,
esta conclusin slo es apoyada por dos de las cuatro palomas, ya que el
resto mostraron elecciones contrarias consideradas por los autores como
aberrantes.
Hutton, Gardner y Lewis (1978) entrenaron a tres palomas a responder
a dos teclas mediante reforzamiento positivo, para despus mantener esa
respuesta en un programa concurrente, primero sin y luego con periodos de
descarga. La fase experimental empez con un programa concurrente IV1IV1' de 1 minuto sin descarga como reforzador, y luego continu a travs de
8 condiciones en las que se variaba la frecuencia de reforzamiento de cada
alternativa (0.33, 0.11, 0.33, 1.00, 3.00, 9.00, 3.00). Los resultados mostra
384

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

ron un importante ajuste a la Ley de Igualacin en funcin de la frecuencia


relativa de reforzamiento negativo de cada alternativa. Aunque este ajuste
no fue perfecto, al igual que en ciertas preparaciones con reforzamiento
positivo (Myers y Myers, 1977), ya que se observ cierta infraigualacin,
probablemente por la baja discriminabilidad entre pequeas diferencias en
las frecuencias.
La replicacin de estos resultados con ratas conlleva una problemtica
aadida para conseguir que el sujeto emita alguna operante mientras es
expuesto a la descarga, ya que la respuesta tpica de esta especie frente a
este tipo de estmulos es la parlisis. Logue y De Villiers (1978) empeza
ron su experimento entrenando a tres ratas para responder a dos palancas
mediante varios programas de reforzamiento positivo concurrente IV-IV.
Tras esto incluyeron la presentacin de descargas durante el intervalo (en
el programa de reforzamiento positivo) haciendo contingente el escape to
tal con la presin de la palanca (que antes no tiene efecto en ese periodo).
Una vez consiguieron un comportamiento estable fueron reduciendo gra
dualmente el tiempo de escape de 30 a 15. La fase experimental (a la que
slo llegaron 2 de las 3 ratas tras casi tres meses) consisti en exponer a
los sujetos al mismo procedimiento variando el tiempo de escape para cada
alternativa: 60'-60', 40'-120, 120'-40', 210'-35', 120'-40', 60'-60', 40-120', 35'210'. Los resultados mostraron un buen ajuste de las elecciones en funcin
de la frecuencia de escape.
4.1.2. Eleccin y castigo
El efecto del castigo en programas concurrentes no ha sido tan estudia
do como el del reforzamiento, aunque se han realizado algunos trabajos
que indican que los sujetos son capaces de ajustar su eleccin a ciertas
caractersticas del castigo.
Holz (1968) comprob que, aunque la tasa de respuesta general decrece
(una vez se ha adquirido por reforzamiento positivo), la tasa relativa se
ajusta a la frecuencia relativa de castigo en cada alternativa.
Deluty (1976) llev a cabo un experimento en el que entren a tres ratas
a presionar la palanca mediante una consecucin de programas concu
rrentes IR-IR (Intervalo aleatorio, similar al IF pero con un grado de pro
385

P s ic o l o g a

d e l a p r e n d iz a j e

habilidad del refuerzo), pasando de 15"-15 a 30-30, Y-Y y terminando en


1.5'-1.5', intervalo que se sigui usando para mantener la respuesta. Tras
este entrenamiento se aadi a cada alternativa otro programa IR pero de
castigo. De esta manera, cada alternativa ofreca la misma frecuencia de
reforzamiento pero diferente de castigo. Los resultados mostraron que el
incremento de la tasa relativa de castigo en una alternativa reduca la tasa
relativa con la que era elegida.
Se encontraron efectos muy similares usando programas mltiples en
lugar de programas concurrentes (Tullis y Walter, 1968).
4.2. Conducta auto-controlada y conducta impulsiva
La conducta auto-controlada, en contraposicin a la conducta impul
siva, se ha concebido tradicionalmente como la eleccin de la alternativa
con mayor valor relativo de reforzamiento pero ms demorada. Esto im
plica que se han utilizado programas concurrentes (con dos componentes,
principalmente) en los que se ha manipulado el tiempo entre la emisin de
la respuesta y la aparicin de la consecuencia (demora del reforzamiento),
y el valor del reforzador (en cantidad, frecuencia, duracin o calidad), es
decir, mediante contingencias de reforzamiento positivo (Green y Snyderman, 1980; Ito y Asaki, 1982; Navarick y Fantino, 1975, 1976; Rachlin y
Green, 1972; por ejemplo). Se considera, por tanto, comportarse de manera
impulsiva la eleccin de la alternativa con un reforzamiento de menor valor
relativo pero ms inmediato.
El uso o no de estimulacin aversiva no afecta a la conceptualizacin
de ambos comportamientos, siempre que los componentes del programa
apliquen un procedimiento de reforzamiento. En concreto, el uso de proce
dimientos de reforzamiento negativo conllevara que la conducta impulsiva
o auto-controlada sera una conducta de escape (o evitacin), pero, de la
misma forma, se considerara como impulsivo elegir el escape del evento
aversivo con menor valor relativo (menor tiempo de desaparicin del evento
aversivo, menor reduccin de la intensidad del evento aversivo, etc.) pero
ms inmediato. Gran parte de los estudios que han evaluado este tipo de
comportamientos se han realizado con humanos y usando ruidos molestos
como evento aversivo (Navarick, 1982; Solnik, Kannenberg, Eckerman, y
Waller, 1980), encontrando una mayor proporcin de elecciones impulsivas.
386

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

Cuando el procedimiento usado es de castigo, sin embargo, se hace


necesario un cambio en la consideracin del papel de la demora. Se con
siderara una respuesta impulsiva la eleccin del castigo con mayor valor
(intensidad o duracin) pero ms demorado, mientras que elegir el castigo
ms leve e inmediato se considerara un comportamiento auto-controlado
(Mischel y Grusec, 1967). Deluty (1978), en un estudio pionero, evalu la
conducta de cuatro ratas expuestas a una situacin de autocontrol que
involucraba procedimientos de castigo. En el primer experimento man
tuvo constante la intensidad de la descarga (0.3 mA) y su duracin (1.0)
para ambas alternativas variando su demora de aparicin: 30-30, 30-40,
40-30, 50-5, 5-50, 20-5, 5-20, 20-10, y 10-20. No se encontr
ajuste a la Ley de Igualacin en ningn caso, los sujetos siempre eligieron
la alternativa ms demorada (impulsiva). En el segundo experimento, sin
embargo, se manipul la duracin de la descarga (1-1, l -2, 2-1 , 0.52, 2-0.5, 0.5-3, 3-0.5, 2-3, 3-2), los sujetos eligieron de manera
consistente las alternativas con menor duracin de descarga, adems, se
observ una considerable infraigualacin. En el tercer y ltimo experimen
to se manipul tanto la demora como la duracin de la descarga (estudio
de autocontrol). La alternativa 1 ofreca siempre 1 de descarga, mientras
que la 2 ofreca 2. Los sujetos fueron expuestos a las siguientes secuencias
de duracin de demora:
A. 10-20, 20-30, 5-15, 30-40, 2-12, 40-50.
B. 10-20, 20-40, 5-10, 30-60.
Los resultados mostraron como la preferencia por la alternativa 1 (1 de
descarga) iba aumentando en funcin del aumento de la demora. Es decir,
cunto mayor era la demora mayor era el nmero de elecciones auto-con
troladas.

387

P s ic o l o g a
R

d e l a p r e n d iz a j e

esu m en

Las presiones de supervivencia a las que se vio sometida nuestra especie


provocaron que se seleccionasen determinadas reacciones innatas ante ciertos
eventos. Llorar antes estmulos novedosos es muy adaptativo ya que aumenta
las posibilidades de alertar a tus progenitores si aparece un depredador, alejar
se de eventos que provocan dolor ayuda a mantener la integridad de nuestro
cuerpo, etc. Pero no slo se seleccionaron reacciones innatas (respuestas incondicionadas) sino tambin mecanismos para moldear nuestro comportamiento
de manera que reduzcamos al mximo nuestro contacto con estos estmulos
aversivos. Aquellas conductas que tienen como consecuencia la aparicin de
un evento aversivo disminuyen su frecuencia de emisin, mientras que aquellas
que nos permiten escapar de l o evitar que aparezca aumentan.
La velocidad con la que aprendemos a dejar de emitir una conducta castiga
da o a emitir una que es reforzada negativamente depende de mltiples factores
tales como la intensidad del estmuilo aversivo, la historia previa, la inmediatez
de la consecuencia o la frecuencia con la que se da la contingencia, entre otras.
En el captulo se seala, adems, que los procedimientos de castigo positivo
no son ni la nica manera de suprimir una conducta ni necesariamente la ms
adecuada. El uso de estimulacin aversiva no slo puede generar reacciones
agresivas y/o ansiedad, sino conllevar efectos paradjicos como la conducta
masoquista o crculos viciosos. Se recomienda, por tanto, valorar otras opcio
nes como el uso del castigo negativo, la extincin, el refuerzo de conductas
incompatibles o la manipulacin de variables motivacionales.

388

Control
T

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

r m in o s d e s t a c a d o s

Castigo positivo: procedimiento en el que se hace contingente la emisin de

una respuesta con la aparicin de un evento aversivo (o reforzador negati


vo). Tiene como efecto la disminucin de la probabilidad futura de emisin
de dicha conducta.
Escape: modo de reforzamiento negativo en el que la respuesta aumenta su
probabilidad de emisin por hacer desaparecer un estmulo aversivo (o
reforzador negativo) que ya estaba presente.
Estmulo aversivo: evento considerado desagradable para el sujeto que puede
producir reacciones como alejamiento, parlisis, agresin, entre otras, en
funcin de su naturaleza e intensidad.
Estmulo reforzador negativo: evento cuya aparicin contingente como
consecuencia a una conducta modifica su probabilidad de emisin futura.
Cuando la contingencia es positiva suprime la respuesta mientras que cuan
do es negativa la refuerza. Puede ser primario (El aversivo) o secundario
(EC excitatorio aversivo o EC inhibitorio apetitivo).
Evitacin: modo de reforzamiento negativo en el que la respuesta aumenta su
probabilidad de emisin por impedir la presentacin del estmulo aversivo
(o reforzador negativo).

389

P s ic o l o g a
E

d e l a p r e n d iz a j e

rro res com unes

Castigo negativo y extincin. Tanto los procedimientos de castigo como los

de extincin (de un comportamiento reforzado positivamente) tienen como


resultado un descenso de la frecuencia con la que aparece la conducta a
la que se est aplicando. Distinguir el castigo positivo de la extincin no
parece difcil, mientras que el primero implica la aparicin de un evento
aversivo tras la emisin de la respuesta, el segundo consiste en no presentar
el reforzador positivo que antes segua a la respuesta cuando sta se emite.
Esta relacin (R-no Er+) es la que puede generar cierta confusin entre el
castigo negativo y la extincin, pero esto es porque este esquema resume pe
ro no describe completamente ambos procedimientos. Vamos a centrarnos
en dos diferencias que pueden aclarar esta posible confusin:
a) Una conducta debe estar (o haber estado) siendo reforzada para que
se emita con cierta frecuencia. La extincin detiene la aparicin de la
consecuencia reforzante especfica, el castigo negativo no. Es decir,
podemos aplicar castigo negativo a cierta conducta mientras sta sigue
siendo reforzada (ya que el reforzador positivo que se omite puede ser
otro diferente).
b) El castigo negativo requiere del establecimiento de una contingencia
negativa entre la emisin de la respuesta y a aparicin de algn evento
apetitivo. Por tanto, la relacin debe de describirse de la siguiente forma
R-no Er+/no R-Er+. Cuando extinguimos una conducta reforzada positi
vamente, el reforzador positivo no se presenta aunque el sujeto no emita
la respuesta (R-no Er+ / no R-no Er+).

390

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

REFERENCIAS
D. (1963). The role of temporal discriminations in the reinforcement of
Sidman avoidance behavior. Journal of the Experimental Analysis of Behavior,
6, 477-506.
A p p e l , J. B. (1961). Punishment in the squirrel monkey, Saimir sciurea. Science,
133, 36.
A z r in , N . H . y H o l z , W. C. (1966). Punishment. En W. K. Honig (Ed.), Operant
behavior: Areas of research and application (p p . 380-447). N e w York: A p p le ton-Century-Crofts.
A z r in , N. H .; H o l z , W. C. y H a k e , D. (1963). Fixed-ratio punishment. Journal of the
Experimental Analysis of Behavior, 6, 141-148.
A z r in , N. H .; H u t c h in s o n , R . R . y H a k e , D. F. (1963). Pain-induced fighting in the
squirrel monkey. Journal of the Experimental Analysis of Behavior, 6, 620.
A z r in , N. H. (1956).Effects of two intermittent schedules of immediate and non
immediate punishment. Journal of Psychology, 42, 3-21.
B a u m , W. M. (1973). Time allocation and negative reinforcement. Journal of the
Experimental Analysis of Behavior, 20, 313-322.
B e c h t e r e v , V. M. (1913). La psychologie objective. Pars: Alcn.
B l a n c h a r d , D. C. (1997). Stimulus environmental, and pharmacological control
of defensive behaviors. En M. E. Bouton and M. S. Fanselow (Eds.), Learning,
motivation and cognition (pp. 283-303). Washington, DC: American Psycholo
gical Association.
B r o g d e n , W. J.; L ip m a n , E. A. y C u l l e r , E. (1938). The role of incentive in conditioning and extinction. American Journal of Psychology, 51, 109-117.
C n d id o , A.; M a l d o n a d o , A. y V il a , J. (1991). Effects of duration of feedback of
signaled avoidance. Animal Learning and Behavior, 19, 81-87.
C a n n o n , W. B. (1929). Bodily changes in pain, hunger, fear, and rage. New York:
Reinhold.
C atania , A. C. (1963). Concurrent performances: a baseline for the study of reinfor
cement magnitude. Journal of the Experimental Analysis of Behavior, 6, 299-300.
C atania , A. C. (1973). The concept of the operant in the analysis of behavior. Behaviorism, 1, 103-116.
C h u r c h , R. M. (1963). Response supresin. En B. A. Campbell y R. M. Church
(Eds.), Punishment and aversive behavior (pp. 111-156). New York: Appleton
Century-Crofts.
(1963). The varied effects of punishment on behavior. Psychological Review, 70,
369-402.
An ger,

391

P s ic o l o g a

d e l a p r e n d iz a j e

P. S. (1968). Punishment: The interactive effects of delay and intensity of


shock. Journal of the Experimental Analysis of Behavior, 11, 789-799.
D e l u t y , M. Z. (1976). Choice and rate of punishment in concurrent schedules.
Journal of the Experimental Analysis of Behavior, 25, 75-82.
1978). Self-control and imptilsiveness involving aversive events. Journal of Expe
rimental Psychology: Animal Behavior Processes, 4, 250-266.Green y Snyderman,
1980
D i n s m o o r , J. A. (1952). A discrimination based on punishment. Quarterly Journal
of Experimental Psychology, 4, 27-45.
D i n s m o o r , J. A. (1954). Punishment: I. The avoidance hypothesis. Psychological
Review, 61, 34-46.
D i n s m o o r , J. A. (2001). Stimuli inevitably generated by behavior that avoid electric
shocks are inherently reinforcing. Journal of the Experimental Analysis of Beha
vior, 75, 311-333.
E s t e s , W. K. (1944). An experimental study of punishment. Psychological Monographs, 57, 1-40.
E s t e s , W. K. y S k in n e r B. F. (1941). Some quantitative properties of anxiety. Jour
nal of Experimental Psychology, 29, 390-400.
F il b y , Y. y A p p e l , J. B. (1966) Variable-interval punishment during variable-interval
reinforcement. Journal of the Experimental Analysis of Behavior, 9, 521-527.
H e r m n , R . L. y A z r in , N . H . (1964). Punishment b y noise in an alternative respon
se situation. Journal of the Experimental Analysis of Behavior, 7, 185-188.
H e r r n s t e i n , R. J. (1961). Relative and absolute strength of response as a function
of frequency of reinforcement. Journal of the Experimental Analysis of Behavior,
4, 267-272.
(1969). Method and theory in the study of avoidance. Psychological Review, 76,
49-69.
(1970). The law of effect. Journal of the Experimental Analysis of Behavior, 13,
243-266.
H e r r n s t e i n , R. J. y H i n e l i n e , P. N. (1966). Negative reinforcement as shock-frequency reduction. Journal of the Experimental Analysis of Behavior, 9, 421-430.
H i n e l i n e , P. N. (1977). Negative reinforcement and avoidance. En W . K. Honig y J.
E. R. Staddon (Eds.), Handbook of operant behavior (pp. 364-414). Englewood,
Cliffs, NJ: Prentice-Hall.
(1984). Aversive control: A separate domain? Journal of the Experimental Analy
sis of Behavior, 42, 495-509.
H olz , W. C. (1968). P u n ish m e n t a n d the ra te of positive rein fo rcem en t. Journal of
the Experimental Analysis of Behavior, 11, 285-292.
Cohn,

392

Control

a v e r s iv o e n e l c o n d ic i o n a m i e n t o o p e r a n t e

Hunt, H. F. y B r a d y , J. V. (1955). Some effects of punishment and intercurrent


anxiety on a simple operant. Journal of Comparative and Physiological Psycho
logy, 48, 305-310.
H u t t o n , L.; G a r d n e r , E. T. y L e w i s , P. (1978). Matching with a key-peck response
in concurrent negative reinforcement schedules. Journal of the Experimental
Analysis of Behavior, 30, 225-230.
I t o , M. y A s a k i , K. (1982). Choice behavior of rats in a concurrent-chains schedule:
Amount and delay of reinforcement. Journal of the Experimental Analysis of
Behavior, 37, 383-392.
L o g u e , A. W. y D e V i l l i e r s , P. A. (1978). Matching in concurent variable-interval
avoidance schedules. Journal of the Experimental Analysis of Behavior, 29, 61.Mischel y Grusec, 1967
M a c p h a il , E. M . (1968). Avoidance responding in pigeons. Journal of the Experi
mental Analysis of Behavior, 11, 629-632.
M a s s e r m a n , J. H. (1946). Principies of dynamic psychiatry. Philadelphia: Saunders.
M e y e r , D. R.; C h o , C. y W e s e m a n n , A. F. (1960). On problems of conditioning discriminated lever-press avoidance responses. Psychological Review, 67, 224-228.
M i l l e r , N . E . (1960). Learning resistance to pain and fear affects overlearning, exposure, and rewarded exposure in context. Journal of Experimental Psychology,
60, 137-145.
M o d a r e s i , H. A. (1990). The avoidance bar press problem: Effects of enhanced rein
forcement and an SSDR-congruent lever. Learning and Motivation, 21, 199-220.
M o r r i s , R. G. M . (1975). Preconditioning of reinforcing properties to an exteroceptive feedback stimulus. Learning and Motivation, 12, 239-260.
M o w r e r , O. H. (1947). On the dual nature of learning: A reinterpretation of con
ditioning and problem-solving. Harvard Educational Review, 17, 102-150.
M y e r s , D. L. y M y e r s , L. E . (1977). Undermatching: a reappraisal of performance
on concurrent variable-interval schedules of reinforcement. Journal of the Ex
perimental Analysis of Behavior, 27, 203-214.
N a va r ick , D. J. (1982). Negative reinforcement and choice in humans. Learning and
Motivation, 13, 361-377.
N a v a r ic k , D. J. y F a n t in o , E. (1975). Stochastic transitivity and the unidimensional
control of choice. Learning and Motivation, 6, 179-201.
(1976). Self-control and general models of choice. Journal of Experimental Psy
chology: Animal Behavior Processes, 2, 75-87.
P a v lo v , I. (1927). Conditioned reflexes. Oxford: Oxford Univeristy Press.
P i e r c e , W. D. y C h e n e y , C. D. (2008). Behavior Analysis and Learning. 4th ed. New
York: Psychology Press.
393

P s ic o l o g a

d e l a p r e n d iz a j e

D. (1959). Toward empirical behavioral laws: 1. Positive reinforcement.


Psychological Review, 66, 219-233.
(1962). Reversability of the reinforcement relation. Science, 136, 235-237.
(1971). Catching up with common sense or two sides of a generalization: Rein
forcement and punishment. En R. Glaser (Ed.), The nature of reinforcement (pp.
121-150). New York: Academic Press.
R a c h l in , H. y G r e e n , L. (1972). Commitment, choice and self-control. Journal of
the Experimental Analysis of Behavior, 17, 15-22.
S c h l o s b e r g , H. (1934). Conditioned responses in the white rat. Journal of Genetic
Psychology, 45, 303-335.
S c h o e n f e l d , W. N. (1950). An experimental approach to anxiety, escape and avoi
dance behavior. En P. H. Hoch y J. Zubin (Eds.), Anxiety (pp.70-99). New York:
Grue y Stratton.
S id m a n , M. (1953). Two temporal parameters in the maintenance of avoidance
behavior of the white rat. Journal of Comparative and Physiological Psychology,
46, 253-261.
S k in n e r , B. F. (1938). The behavior of organisms. New York: Appleton-Century-Crofts.
S o l n ic k , J. V.; K a n n e n b e r g , C. H.; E c k e r m a n , D. A. y W a il e r , M. B. (1980). An
experimental analysis of impulsivity and impulse control in humans. Learning
and Motivation, 11, 61-77.
S o l o m o n , R. L. (1964). Punishment. American Psychologist, 19, 239-253.
S o l o m o n , R. L. y B r u s h , E. S. (1956). Experimentally derived conceptions of anxie
ty and aversin. En M. R . Jones (Ed.), Nebraska Symposium on Motivation (pp.
212-305). Lincoln: University of Nebraska Press.
S t u b b s , D. A. y P l is k o f f , S. S. (1969). Concurrent responding with fixed relative rate
of reinforcement. Journal of the Experimental Analysis of Behavior, 12, 887-895.
T h o r n d i k e , E. L. (1911). Animal inteligence: Experimental studies. New York: Macmillan.
(1932). The fundamentis of learning. New York: Teachers College, Columbia
University.
T u l l s , C. y W a l t e r , G. (1968). Punished and unpunished responding in mltiple
variable-interval schedules. Journal of the Experimental Analysis of Behavior,
11, 147-152.
U l r i c h , R. E. y A z r in , N. H. (1962). Reflexive fighting in response to aversive stimulation. Journal of the Experimental Analysis of Behavior, 5, 511-520.
Z i m m e r m a n , J. y F e r s t e r , C. B. (1963). Intermittent punishment of S responding
in matching-to-sample. Journal of the Experimental Analysis of Behavior, 6,
349-356.
P remack,

394

Este manual est pensado para ser utilizado como texto bsico en la asignatura de Psicologa del
Aprendizaje del grado en Psicologa. Constituye un material didctico que permite afrontar esta
asignatura de forma autnoma. Pero para una mejor comprensin es conveniente su estudio junto
con el de otros materiales que ofrece la UNED en el curso virtual a sus estudiantes, o si el estudiante
es de otra universidad puede utilizarse como complemento a las clases y tutoras de su profesor.
Psicologa del Aprendizaje abarca el programa de la materia, recogiendo los principales fenmenos
y teoras del condicionamiento clsico y del operante, resaltando algunas de las reas de investigacin
ms activas en la actualidad.
Los autores del libro son todos profesores del Departamento de Psicologa Bsica I de la Universidad
Nacional de Educacin a Distancia (UNEDj y expertos en las materias para las que han escrito los
captulos correspondientes. Al ser todos profesores del equipo docente de la asignatura de Psicologa
del Aprendizaje destaca el esfuerzo integrador entre los diferentes temas que componen el texto.

ISBN: 978-84-362-6727-3

Editorial

0 1106

coleccin
Grado
9

788436

267273

6201106GR03A01