Vous êtes sur la page 1sur 14

Psicologa del aprendizaje

Cristina Gil

TEMA 4: PRINCIPIOS BSICOS DEL CONDICIONAMIENTO OPERANTE


1. ANTECEDENTES HISTORICOS
De nuevo la teora de la evolucin de Darwin tiene mucha influencia. Skinner en su obra The Behavior of
Organisms relaciona los mecanismos de seleccin que expuso Darwin con la conducta, donde el reforzador
es lo que actuara como elemento seleccionador de las respuestas ms apropiadas en una determinada
ocasin.
1.1. THORNDIKE Y LA LEY DEL EFECTO
Los trabajos de Thorndike son el comienzo del estudio cientfico del condicionamiento instrumental, tanto
terico como metodolgico. l denomin el condicionamiento instrumental como aprendizaje por ensayo y
error, y centr en cmo los aciertos y los fracasos afectaban a la conducta de los organismos. Para este
autor el aprendizaje ocurre porque se fortalecen las conexiones que se forman entre los estmulos y las
respuestas cuando dan lugar a un estado de satisfaccin para el animal. Denomin a esto conexionismo.
Sus experimentos ms conocidos eran con gatos metidos en diferentes cajas problema, una especie de
jaulas de las que podan salir al activar algn tipo de resorte desde el interior, y al salir el investigador les
daba una cierta cantidad de comida. En los primeros intentos, tardaban un tiempo considerable y se mova
por la caja de forma azarosa, explorando hasta dar por casualidad con el mecanismo de apertura. Segn
transcurran los ensayos y repetan la tarea, el tiempo que tardaban en accionar el mecanismo y el tiempo
en salir de la caja era mucho menor.
Este tiempo que pasaba desde que comenzaba el
ensayo hasta que el sujeto sala de la caja,
llamado latencia de escape, era la medida que
Thorndike utiliz para la evaluacin de la
ejecucin del aprendizaje. Observ que disminua
de forma muy notable a lo largo de los ensayos
A partir de estos resultados, Thorndike estableci que la entrega de comida fortaleca la conexin entre la
situacin (en este caso los estmulos en el entorno de la caja) y la respuesta del animal. Lo denomin Ley
del efecto: De las muchas respuestas dadas en la misma situacin, las que vayan acompaadas o
inmediatamente seguidas de satisfaccin para el animal, en igualdad de condiciones, se conectaran ms
firmemente con la situacin; de manera que cuando esta vuelva a presentarse, volvern a presentarse con
gran probabilidad.
Es una explicacin sencilla de este tipo de aprendizajes: cuando en una determinada situacin, una
conducta va seguida de algo agradable, al volver de nuevo a esa misma situacin ser ms probable que la
conducta se vuelva a repetir. Las conductas con resultado placentero seran por tanto fortalecidas, y las
conductas cuyo resultado fuese algo desagradable seran eliminadas.
1.2. EL ANLISIS EXPERIMENTAL DEL COMPORTAMIENTO DE SKINNER
Skinner, considerado por muchos el autor ms relevante de este tipo de aprendizaje, realiz una extensa
investigacin sobre los fundamentos del condicionamiento operante, lo que dio lugar a la formacin de un
gran nmero de investigaciones posteriores que lo siguieron desarrollando. En The Behavior of Organisms
desarrolla la idea de que los reflejos podran ser estudiados como conducta ms que como un reflejo del
sistema nervioso o de la mente: Skinner distingue entre el condicionamiento de los reflejos de Pavlov y el
1

Psicologa del aprendizaje

Cristina Gil

tipo de aprendizaje que haba propuesto Thorndike, lo que le llevo a formular que la conducta se regula
tanto por el condicionamiento de los reflejos o condicionamiento respondiente como por el operante.
Skinner se centr en las relaciones funcionales entre la conducta y sus consecuencias. Para el, tanto el
condicionamiento operante como el respondiente deban solo prestar atencin al estudio de las relaciones
entre los eventos observables y la conducta.
Para describir los procedimientos utiliz los trminos condicionamiento operante y condicionamiento
instrumental. El termino operante refleja la capacidad que tiene el individuo para operar sobre su
ambiente, mientras que el termino instrumental tiene en cuenta el hecho de que la conducta del sujeto es
el instrumento para obtener el reforzador. La innovacin de los experimentos de Skinner fue utilizar en
ellos una respuesta que el sujeto poda ejecutar repetidamente sin intervencin del experimentador (en
ratas era presionar una palanca, en palomas picotear una tecla).

Este tipo de procedimientos son conocidos como


de operante libre: en ellos la respuesta puede
ocurrir en cualquier momento y de forma
repetida mientras el sujeto siga en la caja de
condicionamiento. La variable dependiente
medida es la tasa de respuesta, o nmero de
respuestas por unidad de tiempo, en lugar de la
latencia que utilizaba Thorndike como medida.

2. DEFINICIN DEL CONDICIONAMIENTO OPERANTE


Por condicionamiento operante (CO) entendemos el proceso que da lugar a que la probabilidad de una
respuesta se vea modificada por sus consecuencias, es decir, por los efectos que tiene el ambiente sobre
ella.
El ejemplo ms comn: una rata en una caja de Skinner, que dispone de una palanca que est conectada al
contenedor de comida. Para el animal, la caja ser las circunstancias o el ambiente. Si la rata cuando est
explorando da por casualidad a la palanca, se liberar una bolita de comida, lo que hace que aumente la
probabilidad de que el animal accione de nuevo la palanca para conseguir una nueva bolita de comida.

Por tanto el condicionamiento operante dispone al sujeto en unas circunstancias en las que alguna de sus
conductas da lugar a la aparicin de un evento, lo que produce un cambio de la probabilidad de emisin de
esa conducta en el futuro. El trmino operante se utiliza porque a diferencia de lo que ocurra en el CC el
sujeto interviene u opera en el medio.
Si el resultado del comportamiento es beneficioso para el animal la conducta se fortalecer, siendo ms
probable que se emita de nuevo en circunstancias parecidas. Si el resultado es perjudicial, dicha conducta
tender a desaparecer del repertorio del sujeto.
Con el condicionamiento operante, los organismos aprenden a obtener consecuencias favorables y a
eliminar consecuencias desfavorables del ambiente Este condicionamiento hace que los sujetos, no slo
aprendan a responder ante una nueva circunstancia con una respuesta que formaba parte de su
repertorio, sino que adems puede dar lugar a la aparicin de respuestas nuevas.
2

Psicologa del aprendizaje

Cristina Gil

2.1. LA CONTINGENCIA DE TRES TRMINOS


La descripcin de la conducta operante requiere habitualmente de tres trminos elementales y sus
interrelaciones funcionales. Estos tres trminos fundamentales son el estmulo discriminativo, la respuesta
y la consecuencia o reforzador. De este modo la contingencia se define como: en presencia de un estmulo
especfico, el reforzador se presentar si y solo si la respuesta operante sucede. La contingencia de estos
tres trminos constituye la unidad fundamental de anlisis en el estudio de la conducta operante.
2.1.1. El estmulo discriminativo
Debemos considerar la conducta como la ejecucin que ocurre despus de un estmulo que en un
momento determinado tiene como resultado una consecuencia especfica. Esto nos viene a sealar que los
estmulos antecedentes tambin tienen una gran importancia en el condicionamiento operante. Las claves
contextuales en el CO reciben el nombre de estmulos discriminativos (Eds) y sealan la ocasin para que
si la conducta se presenta sea seguida por una consecuencia. Es decir, un estmulo, en principio neutro,
puede indicar si el reforzador est disponible, y por tanto indica al sujeto cundo ha de responder. Esto
implica reforzar una respuesta en una situacin pero no en otra, la probabilidad de emitir una operante en
presencia de un Ed puede ser muy alta, esto quiere decir que el estmulo ejerce un control sobre esa
respuesta, pero no es que el Ed provoqu la respuesta.
Las consecuencias de las respuestas operantes establecen el control que ejercen los Eds. Cuando un Ed va
seguido de una respuesta cuya consecuencia es apetitiva, se ve como ya hemos dicho reforzada, y por
tanto la probabilidad de que ocurra aumenta si dicho estmulo est presente posteriormente. Cuando una
respuesta operante no es seguida de una conducta reforzante, el estmulo que precede la respuesta se
conoce como estmulo delta (E), y en su presencia la probabilidad de emitir la operante disminuye. El
termino control por el estmulo se refiere a cmo los estmulos que preceden una conducta pueden
controlar la ocurrencia de sta.
Pensemos en una maquina dispensadora de bebidas en la que introducimos una moneda para comprar un
refresco. Una luz verde nos indica que el refresco que queremos seleccionar est disponible y una luz roja nos
indica que est agotado. La respuesta operante en este caso es apretar el botn de seleccin de la bebida. La
probabilidad de que pulsemos el botn con la luz verde encendida ser mucho ms alta que la probabilidad de
que pulsemos ese mismo botn si la luz roja est encendida. En este caso la luz verde acta como un Ed porque
seala la disponibilidad del reforzador en el caso de que se emita la respuesta operante y la luz roja como un E
porque seala la ausencia del reforzador en el caso de que la operante ocurra.

2.1.2. La respuesta
La respuesta operante en este condicionamiento se define por los efectos que provoca en el ambiente.
Cuando una respuesta produce el mismo efecto que otra respuesta (aunque sean diferentes) estaremos
hablando de la misma operante, porque producen los mismos efectos sobre el ambiente. La operante se
define por tanto por su funcin, y no por su forma.
En el caso de presionar la palanca, la ratita puede hacerlo con la pata o con el morro, pero ambas respuestas dan
una bolita de comida, por ello son ejemplos de una misma operante.

Skinner seal que El trmino enfatiza el hecho de que la conducta opera sobre el ambiente para generar
consecuencias. Las consecuencias definen las propiedades en funcin de las cuales las respuestas se
consideran similares. El trmino se usara como adjetivo (conducta operante) y como sustantivo que designa
la conducta definida por una consecuencia dada
3

Psicologa del aprendizaje

Cristina Gil

Cuando hablamos de la conducta, esta puede ser muy compleja y adoptar distintas formas (topografa)
teniendo la misma funcin. Cuando hablamos de clase de respuesta nos estamos refiriendo a cualquier
forma de ejecutar una conducta con una funcin similar, en el ejemplo anterior la funcin sera obtener
comida. Estas respuestas pueden ser fsicamente parecidas pero no siempre tiene que ser as: por ejemplo
podemos hacer algo nosotros mismos o pedirle a otro que lo haga. Ambas sera la misma clase de
respuesta pero con una topografa o forma muy diferente.
2.1.3. El reforzador
Para el CO el trmino reforzador debe dar cabida a la gran variedad de estmulos y eventos que poseen la
capacidad de reforzamiento de una conducta. Se define por tanto en funcin de los efectos que tiene
sobre la conducta. Segn esta definicin funcional un reforzador es cualquier suceso o evento que al
hacerse contingente con una respuesta cambia la probabilidad de aparicin de esa respuesta en el futuro.
Reforzamiento condicionado
La conducta humana muchas veces no es controlada por reforzadores primarios como puede ser la
comida, sino por eventos cuyos efectos dependen de la historia del reforzamiento. Los elogios o crticas,
los juicios sobre nuestro comportamiento, o el dinero, son consecuencias que pueden fortalecer o debilitar
la ocurrencia de una conducta. Este tipo de eventos adquieren los efectos que producen debido a las
experiencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que la misma consecuencia
pueda tener efectos distintos dependiendo de la experiencia personal del sujeto (por ejemplo para algunos
el dinero es muy importante, pero para otros lo es menos)
Como venimos sealando, un reforzador puede ser definido como un evento cuya entrega aumenta la
frecuencia de una respuesta con la que es contingente. El componente critico es la influencia en la tasa de
respuesta, no lo que el estmulo o evento es en realidad. Se puede producir el fenmeno del
reforzamiento condicionado, tambin llamado reforzamiento secundario: un estmulo o evento que
originalmente no es reforzante, como una luz o un sonido, puede adquirir capacidad de reforzamiento
mediante la asociacin repetida con otro que era previamente reforzante. Hablamos, entonces, de
reforzamiento condicionado cuando una conducta se fortalece debido a sucesos que tienen un efecto que
depende de la historia de reforzamiento de ese sujeto. Implica una correspondencia entre un evento
arbitrario y un reforzador que es efectivo en el momento actual. Cuando este evento arbitrario es capaz de
aumentar la frecuencia o la tasa de una respuesta, a este tipo de reforzamiento lo denominamos
reforzamiento secundario o reforzamiento condicionado.
Los resultados de laboratorio en el estudio del reforzamiento condicionado son contradictorios: en algunos
la extincin hace que los reforzadores condicionados pierdan efectividad, mientras que en otro se
mantienen en situaciones de muchas repeticiones. A pesar de estos resultados que no son concluyentes, la
experiencia en la vida diaria sugiere que eventos de este tipo pueden reforzar gran cantidad de conductas
sin extinguirse.
2.2. ACLARACIONES
2.2.1. Reforzador-reforzamiento
El evento sera el reforzador, y el procedimiento o proceso el reforzamiento. El reforzamiento produce
incrementos en la conducta, y los reforzadores son los eventos que hacen que el reforzamiento produzca
esos efectos. Cuando el procedimiento disminuye la conducta se denomina castigo y los eventos utilizados
cuando se presenta la conducta son de naturaleza aversiva. Hay que distinguir as entre consecuencia
apetitiva (reforzador) y consecuencia aversiva (castigo)
4

Psicologa del aprendizaje

Cristina Gil

2.2.2. Respuesta discreta-operante libre


En los experimentos de ensayo discreto, la variable dependiente es la latencia de respuesta. En stos el
ensayo comienza cuando el sujeto es dispuesto en el aparato y ste puede nicamente emitir, y el
investigador registrar, una respuesta en cada ensayo. Por ejemplo un laberinto en forma de T, se coloca al
animal y se recoge a la salida del brazo una vez obtiene el reforzador correspondiente. Llevan mucho
trabajo y tiempo y en un da solo se pueden llevar a cabo un pequeo nmero de ensayos.
Los procedimientos de operante libre incluyen la novedad introducida por Skinner: la variable dependiente
para medir el aprendizaje es la tasa de respuesta, y los sujetos pueden emitir la respuesta de forma
constante y repetidamente sin que el investigador tenga que manipular al sujeto de ninguna forma entre
ensayo y ensayo.
2.2.3. Topografa-funcin
La topografa sera el punto de vista estructural de una conducta, la forma de respuesta, sus propiedades o
caractersticas fsicas de una respuesta, entendida como una secuencia de movimientos que ocurren en el
tiempo. Por ejemplo para empujar una puerta podemos hacerlo con la mano con el codo o con el pie. Todo
ello son diferentes formas de la misma respuesta de empujar la puerta. Desde el punto de vista del CO las
consecuencias de una respuesta pueden modificar su topografa o forma. Si estamos en pblico es menos
probable que abramos esa puerta dando una patada, o si queremos evitar hacer ruido ser menos
probable que la empujemos de golpe. Por esto la topografa es una funcin de las contingencias de
reforzamiento.
Sin embargo la funcin es la relacin de la respuesta con los estmulos antecedentes y las consecuencias de
la misma. La conducta es por tanto la ejecucin de una respuesta que sigue a un estmulo especfico y que
tiene como resultado algn tipo de consecuencia. Dos respuestas con la misma forma pueden tener
funcin diferente, y dos respuestas con distinta topografa tener la misma funcin.
El control que ejerce un reforzador sobre una conducta operante puede estar limitado por la topografa de
la respuesta. Por ejemplo la comida como reforzador ejerce poco control en la conducta de rascarse el
cuerpo en los hmsteres, pero mucho control sobre otra como alzarse sobre las patas traseras. En otros
casos, las relaciones funcionales entre diferentes topografas de respuesta son similares entre ellas: por
ejemplo las palomas tienen formas distintas de abrir el pico para beber que para comer.
2.2.4. Instancia de respuesta y clase de respuesta
La conducta operante se define por las relaciones funcionales entre clases de respuestas y las
consecuencias ambientales. Una clase de respuesta se refiere a todas las formas en las que la ejecucin de
la respuesta puede llevar a una funcin similar. Una instancia de respuesta es la unidad mnima de
conducta y se refiere a la ocurrencia particular y especifica de una respuesta teniendo en cuenta adems
su topografa. As, podemos especificar la rata presiono la palanca de la caja de condicionamiento con la
pata delantera derecha a las 10:50 p.m. sealando una instancia de respuesta o utilizar la clase presionar
la palanca independiente del momento concreto en el que ocurri la instancia y sin tener en cuenta la
topografa.
2.2.5. Interacciones clsicas y operantes en el control de la conducta
Para llevar a cabo un condicionamiento operante, es necesario que el sujeto sea activo es decir, que
emita algn tipo de respuesta. Para poder reforzar o castigar una conducta es necesario que la conducta
ocurra, que se presente con una cierta probabilidad, ya que en ausencia de ella no se podr establecer una
5

Psicologa del aprendizaje

Cristina Gil

relacin entre esa conducta y otro acontecimiento ambiental. Cuando la probabilidad de que ocurra la
respuesta es muy baja (por ejemplo que una paloma picote una luz) hay ciertas soluciones para no tener
que esperar a que se d por casualidad, lo que nos llevara mucho tiempo. Una de las soluciones es el
automoldeamiento: hacer primero un procedimiento de CC que empareje el estmulo neutro, como la
tecla iluminada, con algo apetitivo, como la comida. Como ya sabemos la luz pasara tras varios ensayos a
ser un EC que provoca una respuesta por s misma al ser presentada en solitario. Una vez que la luz
provoca la RC, podemos someterla a control operante haciendo que solo aparezca la comida cuando la
paloma la picotea. De esta forma pasa de ser un EC a ser un estmulo discriminativo (Ed) que correlaciona
con el reforzador (la comida) cuando el animal presiona la tecla (respuesta operante). La luz en este caso
tiene doble funcin: es un Ed que seala la ocasin para el refuerzo, y es un EC porque elicita una conducta
condicionada clsicamente.
Hay que tener en cuenta que habitualmente se dan relaciones de interaccin entre CC y CO porque
Aunque analicemos de forma separada las respuestas condicionadas clsicamente de las respuestas
operantes, la influencia de estas contingencias tiene lugar sobre todo el organismo. Diferenciar ambos
tipos de aprendizaje puede entonces parecer algo artificial, pero ha sido necesaria la distincin prctica
para el desarrollo de la investigacin del aprendizaje, adems se ha sugerido que a nivel neurobiolgico
ambos tipos de aprendizaje podran estar mediados por diferentes mecanismos a nivel celular, lo que
seala que el cerebro los procesara de forma diferentes y por tanto seran fenmenos distintos (aunque
esto an se est discutiendo).

3. PROCEDIMIENTOS BSICOS DEL CONDICIONAMIENTO OPERANTE


Tenemos que saber que la conducta es un proceso dinmico y modificable en el tiempo, resultado de
muchas variables que interrelacionan y que pueden incluso no estar presentes en el momento de su
anlisis, lo que dificulta su estudio. Los fenmenos conductuales que tienen un patrn temporal
identificable bajo condiciones objetivamente especificadas y que son reproducibles en diferentes
individuos pueden ser descritos como procesos conductuales reproducibles, y su comprensin depende de
las relaciones entre los eventos que los configuran y de las condiciones bajo las cuales ocurren.
Es muy importante tener claro el concepto de contingencia: una relacin de dependencia funcional entre
dos componentes de un condicionamiento, dicha relacin se establece cuando uno de los componentes
correlaciona con el otro. En CO hablamos de contingencia positiva cuando una respuesta es seguida de
una consecuencia, y contingencia negativa cuando una respuesta elimina o previene la aparicin de una
consecuencia. Dependiendo del tipo de contingencia, y de la naturaleza apetitiva o aversiva de la
consecuencia, se establecen cuatro procedimientos fundamentales de CO: unos encaminados a aumentar
la conducta y otros a reducirla
APETITIVO

CONTINGENCIA
POSITIVA

CONTINGENCIA
NEGATIVA

Refuerzo positivo:
La conducta provoca consecuencias positivas
La conducta

AVERSIVO
Castigo positivo:
La conducta provoca consecuencias negativas
La conducta

Entrenamiento de omisin o castigo


Reforzamiento negativo:
negativo:
La conducta provoca la omisin de algo malo
La conducta provoca la omisin de algo
(entrenamiento de escape y evitacin )
bueno.
Reforzamiento diferencial de otras conductas. La conducta
La conducta
6

Psicologa del aprendizaje

Cristina Gil

3.1. DESTINADOS A AUMENTAR CONDUCTAS: REFORZAMIENTO POSITIVO, ESCAPE Y EVITACIN


Reforzamiento positivo (entrenamiento de recompensa)
El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el momento en el que una
consecuencia apetitiva se presenta de forma contingente a una respuesta, lo que provoca un aumento de
la fuerza de la respuesta: su intensidad, su frecuencia de aparicin, etc. De esta forma cuando el sujeto
emite la conducta se presenta un evento apetitivo, mientras que si no la emite no se presenta la
consecuencia apetitiva. Estas consecuencias pueden ser reforzadores primarios como la comida o el sexo,
o secundarios como elogios, dinero.
La comida es algo muy usado en reforzamiento positivo con animales, pero para que surja efecto el animal
tiene que estar motivado a conseguirla, por ejemplo privndolo previamente de la comida. La motivacin
vendr dada por el porcentaje de peso que ha perdido el animal respecto a su peso comiendo por libre, por
ejemplo un 5% menos.

Tambin hay que tener en cuenta que en el repertorio natural del animal exista la respuesta que queremos
medir. Si no es una conducta habitual en su medio natural, como presionar una palanca, se puede emplear
el moldeamiento o mtodo de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan
aproximando a la respuesta final que queremos medir, y dejar de reforzarlas, es decir extinguirlas, segn
vamos consiguiendo respuestas ms parecidas a nuestro objetivo. Por ejemplo vamos dando comida
primero por permanecer en la caja, luego por acercarse cada vez ms a la zona de la palanca, y al final solo
reforzaremos cuando el animal la presione.
Escape y evitacin
Aqu eliminamos o detenemos un evento aversivo como resultado de una respuesta operante, por tanto la
fuerza de la conducta o respuesta aumenta: es el procedimiento de escape. Cuando en un procedimiento
similar, la respuesta impide que se presente el evento de naturaleza aversiva estamos hablando del
procedimiento de evitacin. En laboratorio es habitual que estos dos procedimientos funcionen de manera
conjunta, y que en principio se aprenda una respuesta de escape y luego de evitacin.
Si por ejemplo al presionar una palanca se detiene una descarga, en primer momento el animal presionar la
palanca cuando nota la descarga para detenerla (escape) y una vez aprenda ese comportamiento, la presionar
continuamente para que la descarga no llegue (evitacin).

Los dos procesos son conocidos como reforzamiento negativo, y en ambos casos la contingencia negativa
que se da, da lugar al fortalecimiento de la conducta.
3.2. DESTINADOS A DISMINUIR CONDUCTAS: CASTIGO Y ENTRENAMIENTO DE OMISIN
Castigo o castigo positivo
Es el procedimiento en el cual se aplica una consecuencia aversiva de forma contingente, es decir como
consecuencia, de la respuesta o conducta, y tiene como resultado una disminucin de la misma. Es decir la
consecuencia aversiva se presenta cuando el sujeto emite la respuesta operante, y no se presenta si no la
emite. En el anlisis funcional de la conducta, el castigo se define por su funcin y esto implica que cuando
el castigo no tiene efectos en la conducta se considera que este no ha ocurrido. Tenemos que sealar que
para poder castigar una respuesta antes ha tenido que ser reforzada, es decir, si pretendemos castigar la
presin de una palanca, para poder observar los efectos del castigo previamente debemos hacer que la
respuesta de presin de palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo
anteriormente un entrenamiento de recompensa de la presin de la palanca. De esta forma el castigo
consistira en la disminucin de una respuesta previamente reforzada debido a la imposicin de una
contingencia de tipo aversivo sobre dicha respuesta.
7

Psicologa del aprendizaje

Cristina Gil

Entrenamiento de omisin o castigo negativo


Este procedimiento tiene como resultado tambin una disminucin en la fuerza de la respuesta porque se
elimina o previene una consecuencia apetitiva de forma contingente a la respuesta o conducta. Es decir, si
un sujeto emite la respuesta operante, la consecuencia ser la no presentacin de un evento apetitivo que
se presentara en circunstancias similares si no se produjese dicha conducta. Es decir, no entregar una
recompensa cuando se presenta la conducta no deseada. Los eventos o circunstancias eliminadas en el
caso del castigo negativo se asume que son reforzantes.
Efectos colaterales de los procedimientos aversivos
Los procedimientos aversivos se refieren a los condicionamientos de escape, evitacin y castigo. Adems
de las razones ticas en contra de su uso, los efectos colaterales hacen que se desaconseje su uso. En
primer lugar la estimulacin aversiva es posible que a su vez tenga efectos emocionales que aunque en
primer momento eliminan la conducta indeseable, no impiden su reactivacin en un futuro cuando se
disipan. Tambin puede pasar que la estimulacin aversiva se asocie con otros estmulos presentes en esa
situacin, y que pueden dar lugar a que se inhiban otras conductas que si son deseables: por ejemplo un
nio puede utilizar estrategias para evitar el castigo y usar esas mismas en entornos donde no estn
presentes las contingencias aversivas. Adems tanto las personas como los animales cuando son
castigados, asocian el castigo ms con quin lo ejecuta que con la conducta realizada, esto puede dar
luchar a evitacin y rechazo hacia esa persona ms que un cambio de conducta.
3.3. LA EXTINCIN EN EL REFORZAMIENTO POSITIVO
La extincin en el CO es el procedimiento mediante el cual una respuesta que previamente se reforzaba, se
deja de reforzar, es decir dejamos de presentar la consecuencia que le segua al ser emitida. La extincin es
tanto el procedimiento, como el proceso que da lugar a la disminucin de la frecuencia o intensidad de la
respuesta, causada por ausencia del reforzador, y lleva a una disminucin gradual de su ejecucin.
Aun as la respuesta no se elimina de forma absoluta: si dejamos pasar cierto tiempo sin que el sujeto sea
expuesto a sesiones de extincin observaremos cierta recuperacin de la respuesta, esto es conocido
como recuperacin espontnea. Ej. A una rata le damos comida como recompensa por pulsar una palanca,
le sometemos a extincin despus no dndole la comida y acabar por no pulsar la palanca. Pero si la
sacamos y dejamos pasar un tiempo, al volver a meterla en la caja, probablemente ir a pulsar la palanca.
Otro efecto de la extincin sobre la conducta es el estallido de extincin Este fenmeno consiste en un
aumento de la tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que
antes se presentaba. Posteriormente la tasa de respuesta comienza a disminuir de forma gradual. Otro
efecto que ocurre al comienzo de un procedimiento de extincin es el aumento de la variabilidad de la
respuesta. Tiene una posible explicacin adaptativa: la variacin conductual aumenta las probabilidades de
entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento.
Como consecuencia de la extincin es habitual encontrase con un estado emocional que se suele
denominar frustracin y que da lugar a que surjan respuestas emocionales incondicionadas como el
aleteo en las palomas, el que las ratas muerdan la palanca o la agresin en humanos. Ej. Lo que hacemos
cuando metemos una moneda y no nos sale la lata de refresco de la mquina. Estos efectos relacionados
con la extincin tienen bastante sentido en condiciones naturales. Si una conducta anteriormente daba
lugar a una consecuencia favorable para el organismo y en el momento actual ya no la produce, es decir,
cuando algo funcionaba y ya no funciona, la seleccin natural parece haber favorecido que los organismos
8

Psicologa del aprendizaje

Cristina Gil

repitan las conductas que funcionaron en el pasado y que adems el rango de respuestas ante esa
situacin aumente as como que se presenten con ms fuerza.
En el laboratorio, cuando la extincin sigue su curso, las respuestas emocionales comienzan a desaparecer
y la intensidad de la respuesta disminuye. Si el procedimiento es lo suficientemente largo la intensidad o la
tasa de la respuesta suele volver al nivel registrado antes de que la conducta fuese reforzada. A veces se
necesitan varias o muchas sesiones para llegar al nivel de la lnea base. La tasa de respuesta mostrada por
los sujetos durante la sesiones de extincin puede considerarse como un ndice de la resistencia a la
extincin. En contra de lo que cabra esperar, generalmente las respuestas operantes que han sido
reforzadas en pocas ocasiones se extinguen de forma lenta, sin embargo cuando una respuesta ha sido
reforzada en mltiples ocasiones muestra menor resistencia a la extincin, sobre todo cuando en la fase de
adquisicin se ha utilizado un programa de reforzamiento continuo. A este fenmeno se le ha denominado
efecto del sobreentrenamiento en la extincin. Asimismo, la resistencia a la extincin aumenta de forma
importante en el momento en que se utiliza un programa de reforzamiento parcial o intermitente. Se ha
demostrado que con igual nmero de respuestas reforzadas durante la adquisicin, el reforzamiento
intermitente es ms resistente a la extincin que el continuo.
El efecto del reforzamiento parcial se ha tratado de explicar cmo el resultado de dos procesos bsicos
como son el reforzamiento y la discriminacin: podra ser debido a que la discriminacin entre el
reforzamiento y la extincin es ms fcil y rpida si el programa es de reforzamiento continuo que si es
intermitente. Es decir, es ms fcil discriminar la diferencia entre un programa con una tasa estable y alta
de reforzamiento de un programa en el que el reforzamiento no existe (extincin), que entre un programa
de tasa baja e intermitente de reforzamiento y la extincin. Otro factor que podra estar operando es la
generalizacin de la situacin de reforzamiento intermitente a la de extincin, dando esto tambin lugar a
una mayor resistencia al cambio en los programas de reforzamiento intermitente. Por tanto, los factores
de discriminacin y generalizacin anularan el efecto producido por la mayor tasa de reforzamiento de los
programas de reforzamiento continuo, que segn la lgica nos llevara a pensar que a mayor tasa de
reforzamiento mayor resistencia al cambio, y no es as porque muestra una mayor resistencia al cambio los
animales que han tenido reforzamiento intermitente durante la fase de adquisicin. Tambin hay que
tener en cuenta el contacto con las contingencias: no es lo mismo darle a una rata por pulsar una palanca
una bolita siempre que pulsa (reforzamiento continuo) que solo cada 50 veces que la pulse (reforzamiento
parcial), porque en el primer caso con 10 pulsaciones ya tendra 10 bolitas de refuerzo mientras que en el
segundo para tener esas mismas 10 bolitas necesitar 500 pulsaciones.
Otras variables que influyen en la persistencia de la respuesta durante la extincin son la magnitud del
reforzador y la inmediatez de la recompensa empleadas durante la fase de adquisicin. En general,
cuando la magnitud de la recompensa durante la adquisicin es alta y se administra de forma continua
durante los ensayos de adquisicin, la resistencia a la extincin disminuye. Esto no ocurre as, sin embargo,
cuando las recompensas grandes se administran intermitentemente, tal y como sealbamos
anteriormente, como consecuencia del efecto del reforzamiento parcial. As, la resistencia a la extincin
ser baja cuando las recompensas grandes son administradas de forma continua, pero ser alta cuando las
recompensas grandes se administran de forma intermitente. En cuanto a la inmediatez de la recompensa
parece claramente demostrado que cuando la demora en la presentacin del reforzador es baja, es decir,
pasa poco tiempo entre la emisin de la respuesta y la obtencin del reforzador, la resistencia a la
extincin es mayor.
Es muy importante sealar que la disminucin de la respuesta que ocurre como resultado de la extincin
es muy diferente a lo que sucede como consecuencia del olvido. La extincin es un procedimiento en el
9

Psicologa del aprendizaje

Cristina Gil

que una respuesta anteriormente reforzada ya no produce reforzamiento pero la posibilidad de emitir la
respuesta sigue disponible. Sin embargo, en el caso del olvido la disminucin de la respuesta ocurre
simplemente debido al paso del tiempo y la posibilidad de emitir la respuesta no est presente. La
extincin no revierte lo ocurrido durante la adquisicin, sino que implica un aprendizaje nuevo que de
alguna forma se superpone al anterior.
Adems de la recuperacin espontnea hay otros tres fenmenos que prueban que la extincin no es
olvido ni desaprendizaje total. La renovacin que en CO consiste en la recuperacin de la respuesta
extinguida en un contexto diferente al que se llev a cabo el procedimiento de extincin. La restauracin
de la conducta que se da cuando se vuelve a situar los sujetos en el contexto original de la extincin. Y el
restablecimiento que es un proceso en el que se puede ver como las respuestas extinguidas vuelven a
aparecer. En este caso, despus de extinguir la respuesta, el sujeto es expuesto de forma no contingente al
reforzador, lo que hace que la respuesta vuelva a aparecer sin que esta d lugar al reforzador.

4. FENOMENOS DEL CONDICIONAMIENTO OPERANTE


4.1. LA CONDUCTA SUPERSTICIOSA
Skinner demostr con su experimento de supersticin parte de las consecuencias que el reforzamiento
accidental tiene en el proceso de aprendizaje. En el experimento pona palomas en cajas independientes, y
les daba una pequea cantidad de comida cada 15 segundos independientemente de lo que hicieran, y
registraba su comportamiento. Lo que observo es que los animales actuaban como si su comportamiento
estuviera relacionado, como si controlara, la entrega del reforzador cuando en ningn caso era as. Skinner
explico este comportamiento mediante la idea del reforzamiento accidental o adventicio, o dicho de otra
forma, que si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada. Si una de
las palomas por ejemplo haba levantado la cabeza antes de la comida, esa conducta se ver reforzada y
tendr ms probabilidad de ocurrencia.
Esta explicacin fue puesta en duda por otro experimento de Staddon y Simmelhag en el que hicieron un
registro de las conductas ms minucioso. Encontraron que las respuestas emitidas por los animales se
podan agrupar en dos categoras a las que llamaron conductas de nterin y conductas terminales. Las
conductas de nterin fueron definidas como aquellas actividades del animal que tenan lugar en el medio
del intervalo, cuando faltaba todava bastante tiempo para la aparicin del reforzador. Este tipo de
conductas incluan moverse a lo largo de la pared frontal de la caja o dar vueltas sobre s mismas. Las
conductas terminales las definieron como aquellas que ocurran al final del intervalo y prximas en el
tiempo a la aparicin del reforzador. Entre estas actividades o respuestas incluyeron, por ejemplo, que la
paloma picotease en el comedero o en sus proximidades. Los autores observaron que este patrn de
respuestas no variaba de forma significativa de unas palomas a otras y por ello argumentaron que no es el
reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de nterin, sino que
estas conductas son simplemente respuestas que un sujeto emite de forma innata cuando la probabilidad
de reforzamiento es baja. Por otro lado la entrega de comida pareca solo influir en las respuestas
terminales, y su aparicin no estara relacionada con un reforzamiento accidental. En resumen, podramos
pensar que determinadas conductas supersticiosas estaran explicadas por el reforzamiento accidental
propuesto por Skinner, y otras por mecanismos que tendran que ver con conductas innatas relacionadas
con la manera en que los organismos se relacionan con el paso del tiempo y la aparicin de reforzadores
en ambientes naturales.
En humanos, las conductas supersticiosas ocurren frecuentemente en situaciones en las que no hay ningn
tipo de control sobre las consecuencias de las acciones, como en juegos de azar. La conducta supersticiosa
10

Psicologa del aprendizaje

Cristina Gil

tambin es habitual en los deportistas. Los comportamientos supersticiosos que muestran muchos
deportistas de elite tienen, con frecuencia, su origen en algn tipo de xito con el que esa conducta ha
tenido relacin en el pasado: como la prenda que llevaban cuando ganaron un ttulo y que se ponen
siempre desde entonces.
Herrstein diferencio la forma en que se adquieren determinadas supersticiones humanas estableciendo
principios diferentes para cada una de ellas: por una parte las supersticiones idiosincrticas que estn
motivadas por la experiencia propia anterior con situaciones de reforzamiento, y por otra las
supersticiones sociales tpicas mantenidas en el tiempo, que sugiri que eran un residuo de contingencias
de reforzamiento previas que ya no eran efectivas, pero que en su momento eran de gran relevancia.
4.2. LA DERIVA INSTINTIVA Y EL CONCEPTO DE RELEVANCIA O PERTINENCIA
En el CO existen situaciones en las que se observan relaciones de pertinencia o relevancia entre respuestas
y reforzadores, es decir hay respuestas que son ms difciles de condicionar cuando se utilizan ciertos tipos
de reforzamiento. Thorndike fue el primero en sealar la facilidad o dificultad para condicionar
determinadas respuestas y propuso el trmino de pertinencia, que se refiere a que algunas respuestas se
relacionaran de modo natural con el reforzador como consecuencia de la historia evolutiva del animal, por
lo que sern ms fciles de condicionar que otras dependiendo del reforzador que usemos.
Los Breland, dos estudiantes de Skinner que se dedicaron a entrenar animales, observaron que haba
ciertas respuestas naturales que se presentaban cuando el reforzador empleado era comida y que
competan con las respuestas que requera el entrenador. Llamaron deriva instintiva al desarrollo de estas
conductas relacionadas con la comida, que eran diferentes segn el animal. Por ejemplo los mapaches
tenan que introducir una moneda en una hucha para conseguir comida, pero los animales frotaban las
monedas sin llegar a depositarla.
4.3. LOS CAMBIOS EN LA CANTIDAD Y CALIDAD DE LA RECOMPENSA: EL FENMENO DEL CONTRASTE
CONDUCTUAL
El contraste conductual es un fenmeno, relacionado con la motivacin, que se basa en el hecho de que la
efectividad de un reforzador para controlar una conducta puede verse modificada por la experiencia previa
con el mismo reforzador cuando ste es de una magnitud o calidad diferente. Si aumenta o disminuye el
reforzador, en relacin a lo que percibamos antes, tiene consecuencias en nuestra conducta y emociones.
Los efectos que tienen los cambios en la eficacia del reforzador fueron ilustrados de forma clara por
Mellgren. En su experimento utiliz cuatro grupos de ratas a las que midi la velocidad de la carrera en una
recta. En la primera fase, al grupo A y al B les dio 2 bolitas de comida al llegar al final, mientras que los
grupos C y D recibieron 22 bolitas. En la segunda fase, el grupo A segua recibiendo 2 bolitas, mientras que
el B pas a recibir 22. De la misma forma el grupo C mantuvo su recompensa de 22 bolitas, pero el D pas a
obtener solo 2. Los resultados mostraron que los grupos a los que no se les vari la cantidad de comida
mostraron la misma velocidad; a los que aumentaron la cantidad de comida aumentaron su velocidad; y
los que pasaron de una recompensa grande a la recompensa pequea disminuyeron significativamente su
velocidad. Esto demuestra que los efectos de la recompensa dependen de la experiencia previa con otras
recompensas, y no de su valor absoluto. Las ratas que experimentaron una recompensa ms favorable que
la anterior corrieron ms rpido que las que tenan recompensa grande en ambas carreras, fenmeno
conocido como contraste conductual positivo. Las que recibieron la recompensa desfavorable en la
segunda fase respecto a la primera, corran ms lento que las que siempre haban tenido recompensa
pequea: contraste conductual negativo.
11

Psicologa del aprendizaje

Cristina Gil

Tambin se ha propuesto que el fenmeno de contraste puede depender del estado afectivo previo, y
puede mostrarse de forma diferente dependiendo si es negativo o positivo. Por tanto la sensibilidad de un
individuo hacia la ganancia o prdida de recompensas tambin dependera del estado emocional en el que
se encuentre.
4.4. LA CONTROLABILIDAD DE LAS CONSECUENCIAS AVERSIVAS Y EL EFECTO DE INDEFENSIN
APRENDIDA
Martin E. P. Seligman y sus colaboradores descubrieron que cuando los animales son sometidos a
situaciones en las que tienen poco o ningn control, desarrollan una reaccin emocional en la que
manifiestan un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas, y se piensa
que esta reaccin es similar a la depresin humana. Este efecto conductual, denominado indefensin
aprendida, ha sido confirmado en distintas ocasiones, por varios laboratorios y en diferentes especies, lo
que indica lo robusto y general que es el fenmeno.
En estos experimentos, en una primera fase (fase de preexposicin al entrenamiento escape/evitacin)
asignaron grupos de perros a tres condiciones experimentales: en la primera, el grupo de control, si el
animal emita la respuesta requerida poda detener o impedir la presentacin de una descarga, era un
entrenamiento de escape/evitacin. El segundo grupo, el experimental acoplado, reciba las mismas
descargas que el grupo anterior pero en este caso la conducta del animal no tena consecuencias sobre las
descargas. Se utiliz un segundo grupo de control, que estaba confinado en la misma situacin que los
dems grupos, pero no reciba descargas en esta fase. En la segunda fase del experimento (fase de
aprendizaje) todos los grupos de animales fueron sometidos a varios ensayos de entrenamiento
escape/evitacin. Observaron que el grupo acoplado, que haba recibido descargas inescapables durante la
preexposicin, mostraba un aprendizaje escape/evitacin mucho ms lento que los otros grupos. Tambin
demostraron que no haba diferencias entre los grupos de animales sometidos a descargas escapables y los
que no recibieron descarga en la fase de preexposicin.

12

Psicologa del aprendizaje

Cristina Gil

Los investigadores concluyeron que el entrenamiento anterior con las descargas inescapables, generaba en
los animales la expectativa de que su conducta no tena ningn efecto sobre las consecuencias aversivas
que experimentaba, ya que aprendan que la aparicin de las descargas era independiente de su conducta.
A esta explicacin del fenmeno se la conoce como la hiptesis de la indefensin aprendida.
Seligman sugiri que el mejor tratamiento para la indefensin es ubicar al sujeto en una situacin en la que
no fuese posible fallar dado que ello generara de nuevo la expectativa de que la conducta toma control
sobre las consecuencias. Son tambin interesantes los estudios que demostraron que la indefensin
aprendida se puede, de alguna manera, prevenir. Seligman llamo inmunizacin al proceso que se
desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables que bloquea el
desarrollo de la indefensin aprendida cuando se presentan descargas inescapables en una fase posterior
4.5. LOS EFECTOS DE LA DEMORA DEL REFORZADOR: EL PROCEDIMIENTO DE MARCADO
Una respuesta es difcil de reforzar cuando la entrega de la recompensa se demora en el tiempo, y muy
fcil reforzar una respuesta o conducta cuando la recompensa o reforzador se entrega inmediatamente. La
demora del reforzamiento ocurre cuando existe un periodo de tiempo entre la respuesta que da lugar al
reforzador y la entrega posterior del mismo. En funcin de las circunstancias, la demora del reforzamiento
puede disminuir o aumentar la conducta, o incluso no modificarla respecto al reforzamiento no demorado.
Adems, el mismo valor de demora puede tener diferentes efectos en funcin de otros parmetros, tanto
de dicha demora como de las condiciones del mantenimiento del reforzamiento. Hay que obtener una
lnea base de respuesta estable a partir de la cual poder observar los efectos de la presentacin demorada
del reforzador. Cuando la lnea base es estable y se impone una demora, normalmente esta da lugar a una
reduccin de la respuesta, sin embargo, incluso en estas condiciones no siempre eso es as, ya que en un
primer momento incluso puede ocurrir un aumento. Se trata de un proceso dinmico resultado de las
acciones directas o indirectas de distintas variables en la conducta. Una forma de evitar los efectos de la
demora en la entrega del reforzador consiste en marcar la respuesta haciendo que esta pueda
diferenciarse de otros eventos que ocurren durante el periodo de demora. La presentacin de un estmulo
contingente a la respuesta convierte esa respuesta en un evento significativo, es el procedimiento de
marcado.
En el experimento los animales se asignan a dos grupos por azar: grupo marcado (experimental) y grupo no
marcado (control). Si los animales pasaban por el brazo lateral negro del dibujo inferior, reciban comida en la
caja meta. En el momento en que elegan por qu brazo pasar, los animales del grupo marcado eran trasladados
a la caja de demora, pero a los del grupo control se les abra la puerta del brazo y les dejaban pasar libremente.
Los sujetos del grupo marcado mostraron un mayor nmero de elecciones correctas a lo largo de los ensayos.

La explicacin que dieron los autores a estos resultados es que la manipulacin de los animales posterior a
la respuesta de eleccin provoca un marcado de la respuesta de eleccin en la memoria de los sujetos y
que esto hace ms probable recuperar esta respuesta cuando los sujetos reciben la recompensa despus
de la demora.
13

Psicologa del aprendizaje

Cristina Gil

4.6. DEVALUACIN DEL REFORZADOR


El procedimiento de devaluacin del reforzador demuestra que se aprenden asociaciones entre la
respuesta y la consecuencia en un CO. Consiste en asociar al reforzador que se est utilizando (comida, por
ejemplo) un estmulo o evento de naturaleza contraria (en experimentos con animales, podra ser una
sustancia aversiva como el cloruro de litio).
Se puede llevar a cabo en una caja de CO con dos palancas. En la primera fase del experimento,
cualquiera de las dos palancas dar acceso a la comida, en la palanca A sabor a naranja y en la B a fresa.
Los animales las presionan indistintamente. En una segunda fase, una de las bolitas de comida de uno
de los sabores (por ejemplo, la de fresa) se empareja fuera de la caja con la sustancia aversiva.
Finalmente en una tercera fase los animales vuelven a ser introducidos a la caja de CO para ver que
palana pulsan ms ahora, y por tanto que respuesta prefieren. El resultado es que la respuesta
operante de la palanca que da al reforzador asociado a la sustancia aversiva, en este caso sera la
palanca B, disminuye, aun cuando presionar esta palanca nunca ha sido contingente al estmulo
aversivo.
Otro experimento con ratas para demostrar la devaluacin del reforzador. Los animales podan bien
tirar de una cadena y les daban agua con azcar, o bien dar una palanca y les daban comida.
Posteriormente, sin estar disponibles ni la palanca ni la cadena (es decir, de forma no contingente) se
les dispens la comida y el agua y a la mitad les inyectaron litio para crearles malestar. Cuando les
metieron de nuevo en la caja de condicionamiento, vieron que las ratas que haba sufrido el malestar
presionaron mucho menos los mecanismos para acceder a los reforzadores. Por tanto haban
aprendido acerca de las consecuencias de su conducta durante el CO.
Sin embargo, en determinadas ocasiones la ejecucin de una respuesta instrumental puede llegar a
automatizarse si se entrena o practica de forma masiva. En este sentido, algunos autores han diferenciado
entre lo que sera la accin instrumental, relacionada con aquellas respuestas que son modificadas por el
valor de sus consecuencias, de aquellas cuya ejecucin no depende del valor actual del reforzador a las que
se les dara el nombre de hbitos. En laboratorio se ha demostrado que la extensin de un entrenamiento
puede hacer que una conducta se automatice y que no sea controlada por el valor de las consecuencias,
tomando forma de hbito.
Dos grupos de ratas presionando palancas utilizando como reforzador bolitas de sacarosa. Uno de los
grupos el entrenamiento se limit a 100 respuestas reforzadas, pero en otro lleg a 500. Despus
inyectaron cloruro de litio a la mitad de animales de cada grupo. En la fase de prueba se observ que la
devaluacin del reforzador solo tuvo un efecto claro en animales con entrenamiento corto,
demostrando que la prctica prolongada da lugar a una ejecucin de la conducta mucho ms rgida,
menos deliberada, y que no depende tanto de las consecuencias de la misma.
Esto explicara que determinadas conductas compulsivas, como la bsqueda de drogas, dependan de
mecanismos de aprendizaje diferentes a los que se dan durante la adquisicin de la conducta.

14

Vous aimerez peut-être aussi