Vous êtes sur la page 1sur 25

Esquema-sntesis de

TARPY, ROGER M.:

APRENDIZAJE:
Teora e investigacin
contemporneas
(Segunda parte)
Elaborado por

Jos Antonio Lpez

ndice (con hipervnculos)


8. Procedimientos bsicos del condicionamiento operante .......................................................................1
9. Variables que afectan al aprendizaje instrumental ................................................................................4
10. Fenmenos del condicionamiento instrumental ..................................................................................7
11. Perspectivas tericas en el condicionamiento instrumental ..............................................................12
12. Especializaciones adaptativas del aprendizaje ..................................................................................16
13. Generalizacin y discriminacin .......................................................................................................20

Presentacin
Los esquemas del presente documento constituyen una sntesis de la segunda parte
del libro Aprendizaje: Teora e investigacin contemporneas, de Roger M. Tarpy, Ed.
McGraw-Hill, Madrid, 2003.
Los apartados se corresponden en general con los captulos del libro original.
Se han omitido algunos contenidos.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International


License. Autor: Jos Antonio Lpez Lpez (2016).
Contacto: alfanui@hotmail.com

TARPY, R. M.

Aprendizaje

8. Procedimientos bsicos del condicionamiento operante

Condicionamiento instrumental (operante)


El C pavloviano implica el aprendizaje del E, el C Instrumental concierne al aprendizaje de la R.
Los tericos han sostenido que se trata de dos formas de aprendizaje distintas. Afirman que los centros
neuronales que controlan los respectivos procesos son distintos. La postura alternativa es que el C instrumental y
el pavloviano no son procesos de aprendizaje distintos, sino slo manifestaciones diferentes de una misma
forma de aprendizaje con un nico conjunto de reglas.
E. THORNDIKE fue el primero en proporcionar con sus experimentos un marco amplio y sistemtico para
investigar el proceso de aprendizaje de modo cientfico.

Definicin del condicionamiento instrumental


Desde un punto de vista formal, el CI se produce cuando el resultado, normalmente un EI, es contingente con
respecto a la conducta del sujeto.

Trminos
Estmulos

Respuestas

Los EI se utilizan igual que en el CC.


Los EC tambin se utilizan, pero: no hace falta que sean explcitos, existen E en el entorno de prueba, y
desempean un papel distinto al del CC: son Estmulos discriminativos.
Los Ed (E neutros que indican cundo una R puede conducir o no a la consecuencia deseada) pueden
ser + (recompensa disponible) y (no disponible).
Un E puede desempear 2 papeles simultneamente: seal discriminativa y asociarse tambin con la
consecuencia y actuar como un EC pavloviano.
La RI es la poderosa R refleja provocada por el EI, pero no suele interesar.
La R instrumental o reaccin condicionada es normalmente bastante distinta a la RI. Suele ser una R
motora relativamente arbitraria.

Fases del aprendizaje instrumental


Adquisicin
Proporciona evidencia palpable de que una R especfica se est volviendo ms fuerte, debido a su relacin
con la consecuencia reforzante.
Con un entrenamiento continuado, la tasa de R aumenta.
La fuerza

de R se mide en funcin de:


el aumento en la probabilidad o frecuencia de la conducta
una disminucin en el n de errores cometidos
un decremento en el tiempo que lleva completar la R
un aumento del vigor o velocidad de la conducta
la tendencia a persistir en la realizacin de la R.

Extincin
Implica omitir la consecuencia que sigue a la R.
El resultado de este procedimiento es una disminucin en la fuerza de la R, una reduccin gradual en la
ejecucin.
No elimina la R totalmente. Si el animal recibe un intervalo de descanso tras la extincin, se produce una
recuperacin espontnea de la R.

TARPY, R. M.

Tipos de CI

Aprendizaje

Son 4 tipos, correspondientes a una contingencia entre una R y una consecuencia.


Los procedimientos difieren en 2 dimensiones: positivo-negativo (apetitivo-aversivo) y consecuencia o
evitacin/interrupcin de consecuencia.

C de recompensa
Una R produce un resultado deseable. La probabilidad de R aumenta.

Entrenamiento de omisin

Omisin y
extincin

El resultado que sigue a la R es la ausencia de un EI+. Su efecto es la supresin de la R.


Se asemeja a la extincin en que ambos procedimientos dan lugar a la disminucin en la ejecucin. Sin embargo,
el grado de supresin es distinto (menor en la omisin), y en la omisin el reforzador se recibe siempre que no
haya R.
La mayor eficacia de la extincin para suprimir la conducta se explica porque en la omisin la recompensa
gratuita puede ser percibida como un Ed para una R adicional.
La omisin puede dar lugar a mayor supresin de conducta que la extincin si se utiliza el contracondicionamiento (entrenamiento de recompensa para la conducta alternativa), en la que se refuerza una conducta que se
opone o es antagnica respecto a la R criterio.

Castigo
La R instrumental va seguida de un EI.
Cuando se administra un EI a continuacin de una R, las claves ambientales circundantes se vuelven aversivas.
Contingencia La supresin es provocada directamente por el castigo contingente e, indirectamente, por el EC provocador de
miedo. Pero el factor ms importante es la contingencia entre la R y la consecuencia aversiva.
Las conductas alternativas suelen aumentar en frecuencia durante el castigo. Cuando se suprime mediante un
castigo la conducta con mayor prioridad en la jerarqua motivacional orientada a la comida (comer), aumenta la
siguiente conducta con mayor fuerza relacionada con la comida (escarbar en la arena).

Escape y evitacin
Implica la terminacin o no-ocurrencia de un EI aversivo.

En el escape, la R termina un EI

En la evitacin, el Ed indica cundo responder, y si hay R se omite el EI.


Normalmente, se observan R de evitacin y escape en el mismo experimento.
El resultado es el reforzamiento de la conducta.
Tcnicas de
estudio de la
evitacin

Caja de lanzadera de dos compartimentos (evitacin de descarga saltando al 2 compartimento).


Evitacin de Sidman: el sujeto pospone la descarga elctrica, por lo general presionando una palanca.
Permite el condicionamiento sin Ed.
Evitacin pasiva: se evita la descarga permaneciendo pasivamente en el lado seguro, lejos del EI.

Histricamente, el paradigma de aprendizaje escape/evitacin se ha denominado reforzamiento negativo.

Especificidad del reforzador y de la respuesta


Definicin de reforzamiento
No puede definirse en funcin de las propiedades fsicas del Er, sino ms bien del efecto que el E tiene en la
conducta: cualquier consecuencia o acontecimiento que, cuando se hace contingente respecto a una R previa,
aumenta la probabilidad de esa R en el futuro.
Los reforzadores y los E punitivos se definen empricamente, por sus efectos en la conducta, no a priori, por
alguna propiedad o caracterstica inherentes.
Sin embargo, esta definicin plantea el problema de la circularidad, no permite predecir si un E dado actuar
como reforzador.
Incluye 2 supuestos:
El principio
1. El patrn de actividad global de un sujeto puede analizarse en funcin de sus actividades constitude PREMACK
yentes. El porcentaje de tiempo que el sujeto dedica a una actividad dada refleja la probabilidad de esa
actividad, y por tanto el grado de preferencia relativa por ella.
2. La relacin de reforzamiento implica siempre dos conductas. Una actividad preferible refuerza la
ejecucin de una R menos prefernete.
Todo lo que se necesita para predecir si un E ser reforzante es estimar su preferencia relativa. Cuanto mayor
sea el aumento, p. ej., en la presin de la palanca, ms potente ser el reforzador.
La fuerza de la relacin de reforzamiento (indicada por el aumento en la conducta) es una funcin directa de la
probabilidad previa de la actividad reforzante: cuanto mayor es el grado de preferencia relativa de la actividad,
mayor capacidad tienen para reforzar la R.

TARPY, R. M.

Aprendizaje
Unidades conductuales

R discreta
frente a
conducta
operante

La mayora de los estudios de aprendizaje instrumental se centran en las reacciones motoras voluntarias.
Una tcnica de R discreta implica una R nica, ejecutada slo en un cierto momento.
La tcnica alternativa implica la R operante libre. El experimentador determina qu comportamiento es correcto,
pero el sujeto determina cundo se realiza la conducta.

Clase de R

Aparte de las reacciones motoras voluntarias, se utilizan respuestas como:

Reacciones fisiolgicas: cambios en la tasa cardiaca, en la tensin arterial... (biofeedback). Tambin


la R de conductancia de la piel. En ocasiones se han condicionado patrones de reacciones fisiolgicas
muy especficos. El biofeedback tiene un gran potencial como tratamiento para ciertos trastornos
mdicos.

Conducta verbal.

Unidades mayores y ms complejas de conducta, como hbitos de estudio, acciones desadaptativas,


respuestas sociales... Es la terapia conductual o de modificacin de la conducta, que se basa en la
extincin de la conducta y el condicionamiento posterior de un patrn ms adaptativo.

Topografa
de R

El reforzamiento puede afectar a:

La duracin de una conducta (tasa).

La forma especfica de la conducta.

La variabilidad de los componentes del patrn: puede reforzarse a los sujetos no slo por realizar una
R, sino tambin por hacerlo de forma variable. Si no se refuerza selectivamente la variabilidad, puede
darse un alto grado de estereotipia.

Creacin de unidades conductuales mediante reforzamiento


Moldeamiento

Cmo se instaura una conducta, mediante CI, si el sujeto no la realiza en el momento del entrenamiento?
Una tcnica frecuente es el moldeamiento de R, en el que se refuerzan las aproximaciones sucesivas a la R
criterio final. Si el sujeto muestra dificultades para aprender, se escoge la R anterior de la secuencia.

Principios del Condicionamiento Instrumental


Contigidad
Inmediatez del reforzador tras la R.
Experimento de SKINNER (1948): la conducta apareca justo antes de la administracin de la comida, los
sujetos se comportaban como si su respuesta provocara la aparicin de la comida. Realizaban una gran variedad
de R, pero cuando cualquiera de ellas resultaba casualmente contigua a la recompensa, era reforzada. Sin
embargo, este procedimiento era pavloviano (similar al automoldeamiento), no una conducta arbitraria reforzada
por recompensa.
La ausencia de contigidad (demora de la recompensa) provoca disminuciones pronunciadas en el aprendizaje
instrumental. Pero el problema a menudo es la dificultad para identificar la unidad conductual exacta que se
est ejecutando y, por tanto, el grado de contigidad respuesta-reforzador.
Parece que el principio de contigidad prevalece sobre un mayor reforzamiento global.

Contingencia respuesta-reforzador
Es el factor ms importante del CI. La relacin de prediccin diferencial es ms importante que la contigidad,
quiz por la percepcin de causalidad.
El aprendizaje tiene lugar si, y slo si, la presentacin de la recompensa depende de la ejecucin previa de una R.
Experimento: la R de palanca aument a medida que se incrementaba la contingencia entre la presin de la
palanca y la recompensa del agua. Cuando la probabilidad de las recompensas ganadas y gratuitas era la misma,
la R a la palanca disminua de modo espectacular.

TARPY, R. M.

Aprendizaje

9. Variables que afectan al aprendizaje instrumental

Programas de reforzamiento intermitente


La recompensa no suele darse de forma regular en entornos naturales. Animales y humanos normalmente han de
realizar varios intentos, o esperar durante cierto periodo de tiempo, hasta que la recompensa se encuentre
disponible.
Los programas de reforzamiento se clasifican segn la base para la recompensa (tiempo o nmero de respuestas)
y el criterio del programa (fijo o variable).
Razn fija
RF

El sujeto recibe una recompensa por realizar un n determinado de R.


Tasa global de R relativamente alta, pero si se aumenta demasiado el valor de la RF empeora (tensin del
programa: largas pausas tras el reforzamiento).
La pausa post-reforzamiento est determinada por la duracin del intervalo entre reforzadores.
Ejemplo humano: pago a destajo.

Razn
variable RV

El n de R requeridas vara de una recompensa a otra. Viene definido por el n medio de R requeridas.
Tasa media global de R superior a la de otros programas. Suele ser muy estable.
Ejemplo humano: mquinas tragaperras.

Intervalo
fijo IF

Se recompensa por responder una vez transcurrido un periodo de tiempo fijo.


La estrategia ms eficaz es esperar hasta la finalizacin del intervalo y realizar entonces una nica R para recibir el
reforzamiento, pero los sujetos suelen responder a lo largo de todo el intervalo.
Suelen hacer una pausa durante cierto tiempo tras la recompensa y despus comienzan a efecturar la R con una
tasa cada vez ms rpida. Discriminan el paso del tiempo, e inhiben temporalmente la R. Slo despus de cierto
tiempo comienzan a responder con anticipacin a recibir la siguiente recompensa:

La aceleracin de la tasa es ms acusada cuando el entrenamiento es prolongado.

Si se dispone de seales externas que ayuden a discriminar el paso del tiempo, se muestra una
aceleracin ms pronunciada de la tasa durante el intervalo.

Administrar una recompensa tras un intervalo fijo, sin exigir respuesta, hace que despus se muestre un
patrn de conducta tpico del IF cuando se exige responder.

Si se distrae al animal, anulando la inhibicin, la R se expresa de forma inmediata.


Ejemplo humano: paga semanal o mensual.

Intervalo
variable IV

El intervalo entre periodos de reforzamiento disponible vara. Se define por el tiempo medio entre
reforzamientos.
Tasa R estable pero baja. Aumenta en funcin de la tasa de reforzamiento, y aumenta ligeramente justo antes
de la siguiente recompensa.
Ejemplo humano: pesca.

Comparacin
La tasa de R es superior en los programas de razn, puesto que influye en la recompensa. No parece deberse a la
mayor frecuencia de reforzamiento, sino a la diferencia entre el tiempo entre respuestas (TER).
En los programas de intervalo, cuanto menor es la frecuencia con que responde el animal, ms probable es que se
refuerce la siguiente respuesta, ms prxima al final del intervalo temporal. La recompensa fortalece los valores de
TER contiguos a ella: si el TER es breve (razn), el condicionamiento se generaliza; si el TER es amplio, se
fortalece de forma selectiva. Cuanto ms breve es el valor del TER con que los sujetos deben responder,
mayor es la tasa de R.
Cuando se exige al sujeto seguir los mismos valores de TER no se observa diferencia de tasa entre RV e IV.

Programas complejos
Programas
RDB

Programa de reforzamiento diferencial de tasas bajas de respuesta: el sujeto tiene que refrenar su R hasta que
haya transcurrido un cierto perodo de tiempo. Si la R se produce antes de que haya transcurrido el criterio
temporal, el temporizador se reinicia y el intervalo comienza de nuevo.
Con entrenamiento suficiente, la R llega a ser estable y eficaz. Eficacia inversamente relacionada con la magnitud
del valor de RDB.
Los sujetos se entretienen en conductas colaterales durante el tiempo en que estn inhibiendo la R. Parece
tratarse de una reaccin en cadena: cada R es una parte inherente de una cadena y sirve como seal para la
siguiente R. Para algunos investigadores es la forma que tiene el animal de medir el intervalo; para otros estas
conductas resultan reforzadas porque interfieren con la ejecucin de la R, mejorando la eficacia.

TARPY, R. M.
Programas
combinados

Aprendizaje

Programa compuesto: la R es contingente a completar dos programas distintos.


Ejemplo: programa IF-RF. El reforzamiento se consigue si el sujeto efecta un n mnimo de R en un periodo de
tiempo concreto.
La conducta suele reflejar los patrones de cada programa por separado.
Programa tndem: los programas se presentan de modo secuencial, el sujeto debe cumplir sus requisitos
sucesivos para conseguir el reforzamiento. Si cada programa cuenta con una clave externa se llama encadenado.
Programa mixto: se puede obtener el reforzamiento en cada uno de los programas componentes, pero se
presentan en orden aleatorio. Si cada programa va sealado por una clave discriminativa es un programa
mltiple.

Ejecucin en programas con humanos o animales


A menudo, los seres humanos no muestran los mismos patrones conductuales que otros animales.
En programas de IF, las personas no suelen acelerar gradualmente la tasa de R. Presentan una tasa alta y
estable a lo largo del IF, o realizan slo una o dos R hacia el final del intervalo.
En programas de RF, los humanos no muestran la conducta de pausa y carrera tpica de las ratas, ni su tasa de R
resulta afectada por el tamao de la RF.
Las instrucciones dadas por el experimentador ejercen una poderosa influencia en la conducta humana, ya que
el estado de motivacin es distinto.
Los humanos formulan sus propias reglas y descripciones de las contingencias de reforzamiento.

Caractersticas de los reforzadores


Magnitud
Cuanto mayor es la recompensa, mejor es el aprendizaje. Esto coincide con la perspectiva evolucionista.
A veces es difcil definir la magnitud del reforzador. Concentracin y magnitud suelen afectar a la conducta de
modos diferentes.
En cuanto a la medida, suele evaluarse el aprendizaje en funcin de la tasa R o el aumento de velocidad, pero
estas medidas no siempre muestran consistencia entre s, por lo que cada una debe medir un proceso subyacente
distinto.
Entrenamiento de
recompensa

Castigo
Escape /
evitacin

El aprendizaje est ms relacionado con la magnitud del reforzador en la velocidad de carrera en callejones que
para la tasa de R en la caja de Skinner.
Cuando el requisito de RF resulta demasiado alto, los sujetos dejan de responder por completo (punto de
ruptura). Con un incentivo mayor, los animales persisten ms tiempo (efecto motivacional de la recompensa),
pero no aprenden mejor la tarea.
Hay que tener en cuenta que la magnitud interacciona con el tipo de programa utilizado. El cambio en la tasa
de conducta en funcin de la magnitud de la recompensa puede ser un subproducto del cambio en la distribucin
de los valores de TER.
Otro factor es si se trata o no de un experimento de economa cerrada (toda la comida se obtendr en la
cmara experimental). En ese caso, los animales mantienen un nivel de consumo constante, independientemente
de la duracin del acceso a la comida: si el acceso es breve, los sujetos responden con mayor rapidez, por lo que
la tasa de R est inversamente relacionada con la magnitud de la recompensa.
Cuanto mayor es la intensidad del castigo, ms parece suprimirse la R. El efecto del castigo en la tasa R puede
ser bastante especfico (por ejemplo, suprimiendo de forma selectiva TER largos).
Cuanto ms fuerte es el EI, mayor es la mejora en la ejecucin de escape (p. ej., ms rpida). Tanto la
consecuencia de la R como el nivel de motivacin inicial resultan afectados por esa intensidad: a mayor descarga
elctrica, ms motivacin y ejecucin ms rpida. La rapidez puede deberse a la motivacin.
En la evitacin los efectos son ms complejos. En general, parece directamente relacionada con la intensidad de la
descarga. Igualmente afecta a la evitacin pasiva, pero slo cuando se trata de reacciones naturales del animal.
Por ejemplo, en la caja de lanzadera, la evitacin est inversamente relacionada con la intensidad de descarga. Ello
se debe a que el condicionamiento comporta dos tendencias contrarias: la reaccin de evitacin en s misma
(alejarse) y la evitacin pasiva (no volver al lugar de la anterior descarga).

Inmediatez de la recompensa
En general, la demora interfiere en el aprendizaje de nuevas conductas, adems de en la ejecucin de R muy
arraigadas.
Entrenamiento de
recompensa

La ejecucin disminuye gradualmente con el aumento de la demora.


La demora del reforzamiento puede cambiar de forma selectiva la naturaleza de la unidad de R que se ejecuta.
Por ejemplo, una mayor demora provoca un aumento de frecuencia de valores de TER largos.
Hay poco consenso sobre el posible lmite de demora para que ocurra aprendizaje. Influyen otros factores, como la
presencia de claves externas durante el intervalo de demora. Facilitan la ejecucin y eliminan prcticamente el
dficit producido por la demora. Las claves que ocupan un porcentaje mayor del intervalo de demora facilitan la
ejecucin ms que las que ocurren slo al principio. Hiptesis:

La clave externa funciona como un reforzador en s misma (es como otra recompensa).

Hiptesis del marcado: un acontecimiento inesperado y saliente (luz, sonido) inmediatamente


posterior a una respuesta de eleccin, da lugar a un mejor repaso, y por tanto recuerdo, de la respuesta
de eleccin. Al reforzarse posteriormente, los sujetos muestras una mayor capacidad para asociar su
eleccin correcta anterior con la recompensa de la comida.

TARPY, R. M.
Condicionamiento
aversivo

Aprendizaje

Igual que en el de recompensa, el aprendizaje guarda relacin inversa con la demora, y las claves entre R y
recompensa facilitan tambin el C aversivo.
El efecto de la demora en la administracin de un castigo es una reduccin en el grado de supresin de la R: el
castigo es menos eficaz cuando se demora.

Afecta el reforzamiento al aprendizaje o a la ejecucin?


Parece que la recompensa puede tener su efecto predominante en la ejecucin en vez del aprendizaje. Vigoriza la
ejecucin pero no modifica el grado de aprendizaje sobre la relacin respuesta-consecuencia. La recompensa
instrumental no afecta a lo que el animal aprende sino ms bien influye en su motivacin para realizar la R.
Contraste de
incentivo

Disminucin
motivacin

El contraste de incentivo respalda este punto de vista, mostrando que la conducta resulta afectada tambin por
la condiciones de recompensa anteriores:

Contraste negativo: cuando se cambia a una magnitud inferior de recompensa se da menos vigor de
R que cuando se mantiene desde el principio el nivel bajo.

Contraste positivo: cuando las condiciones de recompensa mejoran de repente, los animales
sobrepasan el nivel de ejecucin y rinden an ms que los sujetos que han recibido esa magnitud de
recompensa desde el comienzo del entrenamiento.
La magnitud de la recompensa afecta a la ejecucin modificando la motivacin del animal para responder en
vez de su aprendizaje, tal como muestran:

Los cambios en la ejecucin tras el cambio de magnitud de recompensa son tan repentinos que es
improbable que el aprendizaje de los animales se vea afectado.

La disminucin de la ejecucin en el contraste negativo no puede deberse a un desaprendizaje


repentino, sino a una menor motivacin.

Naturaleza del reforzador


Un reforzador es cualquier acontecimiento que incrementa la probabilidad de una R contingente.
Ref.
sensorial
Olores

Ref. social

Cambio de la entrada sensorial en el que la presentacin de una luz o un ruido es contingente respecto a una
conducta. Se produce principalmente cuando los animales han experimentado un periodo de privacin sensorial.
Los olores estn entre los E ms salientes para los roedores. El olor de la orina de los ratones dominantes
resulta aversivo para otros ratones. Las ratas ingenuas se aproximan al olor de recompensa y evitan los olores de
frustracin.
Los reforzadores sociales no afectan a la conducta elevando slo el nivel general de estimulacin sensorial, son
reforzadores en s mismos. Para muchos animales, la interaccin social con otras especies tambin es
reforzante.

Patrn de la magnitud de la recompensa


Afecta poderosamente al aprendizaje instrumental. Cuanto ms pronunciado es el patrn (creciente o decreciente),
mejor se anticipa la magnitud en el siguiente ensayo, respondiendo en consecuencia.
Los animales son capaces de extrapolar un ensayo que no han aprendido directamente a partir del patrn,
anticipando la secuencia.

Caractersticas de la respuesta: relevancia ecolgica


Conducta
inadecuada

No todas las R son condicionables en la misma medida, aun utilizando el reforzador adecuado.
Los BRELAND demostraron que una conducta aprendida poda sesgarse progresivamente hacia otra conducta, en
este caso alimentaria, no deseada (conducta inadecuada).

Entrena. de
recompensa

Se da incapacidad para aprender ciertas respuestas de forma eficaz. Algunas respuestas, pero no otras, son ms
relevantes para, o influenciadas por, la recompensa de comida (consistencia evolucionista), por lo que son ms
susceptibles a los efectos de la recompensa de la comida que los que no lo son.

C aversivo

El patrn de supresin provocado por una descarga elctrica es distinto del patrn de aumento de respuesta
provocado por la comida. Es efectiva la supresin para algunas conductas, pero no para otras.
Ven limitada los sujetos la asociacin R-recompensa que forman, o son slo incapaces de expresar estas
asociaciones? Se da falta de aprendizaje o slo carencia de ejecucin?

Segn CHARLTON, la existencia de un condicionamiento diferencial entre varias R es probablemente


resultado de interacciones imprevistas entre las contingencias del programa y las distintas topografas de
R. Son slo diferencias de grado, no cualitativas. Reflejan dficit de ejecucin, no incapacidad de
aprendizaje.

Pero la dificultad para condicionar una conducta dada puede reflejar tambin una incapacidad para
asociar la conducta con la recompensa (fallo en el aprendizaje asociativo).
Lo que est claro es que la facilidad de condicionamiento refleja que la conducta resulta apropiada al estado de
motivacin del sujeto. Los patrones de conducta ms afectados por el reforzamiento de la comida son aquellos
exhibidos por animales hambrientos en momentos prximos a la comida.

TARPY, R. M.

Aprendizaje

10. Fenmenos del condicionamiento instrumental

10

Reforzamiento condicionado
Un reforzador secundario Sr es un E inocuo que adquiere las propiedades del reforzador primario (comida,
agua) al emparejarse de forma consistente con el reforzamiento primario. En ocasiones posteriores, la clave
secundaria refuerza por s misma la conducta (EC pavloviano).

Pruebas
Mantenimiento de R

En la fase de extincin, la presentacin del reforzador condicionado mantiene la conducta respecto a la cual es
contingente la clave.
Tambin mantiene la conducta durante la adquisicin en condiciones que, de lo contrario, produciran un dficit en
la conducta (como en demora de recompensa).

Encadenamiento

Durante el entrenamiento, un sujeto experimenta 2 clases de consecuencias tras su conducta:


1) Una R no produce ninguna recompensa en presencia de E2 pero s ante E1.
2) Responder durante la presentacin de E2 da lugar a E1; responder ante E1 produce la recompensa.
Si se mantiene la conducta en presencia de E2, el E1 debe ser reforzador.

Tcnica de
adquisicin

Procedimiento de la adquisicin:
1) Los sujetos con reforzamiento secundario reciben un E auditivo seguido de reforzador.
2) Fase de prueba: Se introduce una palanca. Presentacin del E auditivo tras cada presin de palanca.
El E auditivo emparejado previamente con el reforzador tiene el mayor efecto en la presin de palanca.
Un reforzador condicionado no slo mantiene conductas que han sido ya aprendidas y aumenta la frecuencia
de otras nuevas (tcnica de la adquisicin), sino que afecta tambin a la tasa de aprendizaje.

Tas. del reforzamiento secundario


Se plantean 2 preguntas:

Cul es la fuente de la fuerza de un reforzador secundario?

Por qu se mantiene la conducta de modo tan eficaz cuando un reforzador condicionado va a


continuacin de su ejecucin?
Adquisicin
de la fuerza
Funcin de
la clave

Un reforzador secundario obtiene una fuerza considerable mediante su asociacin con la recompensa (CC).
Los principios para generar un fuerte ref. sec. son los utilizados para entrenar fuertes EC pavlovianos. P. ej., la
fuerza del reforzamiento secundario es una funcin directa de la magnitud e inmediatez del EI.
Segn la hiptesis del E discriminativo, un E secundario acta principalmente como Ed.
En una prueba de ref. sec., la conducta se mantiene a un nivel alto porque cada presentacin de la clave tras
la R desencadena una R adicional.
La contingencia R-clave es ms crtica que la relacin clave-R. Un E puede afectar a la R en virtud de su valor
reforzante, sin afectar simultneamente a la conducta en su papel como Ed.

Conducta de eleccin
Las conductas instrumentales siempre implican una eleccin, al menos entre responder y no responder.

Ley de la igualacin
Enunciado matemtico que describe la relacin entre la tasa de R y la tasa de recompensa. Los animales
equiparan su tasa de R con la tasa a la que se refuerza la accin.
Frecuencia
del reforz.

Cuando se les presenta a los animales la eleccin entre 2 programas concurrentes que difieren en frecuencia de
reforzamiento:

responden al mejor de los dos.

distribuyen sus R de modo que el n relativo de R dadas a un programa se equipara al n


relativo de reforzadores de ese programa.

la ecuacin expresa que las tasas relativas de R se igualan.

Otras caractersticas del


reforzam.

Otras dimensiones de la recompensa (magnitud, naturaleza, inmediatez) tambin influyen en la conducta de


eleccin de un modo similar.
Se responde ms al programa que ofrece la recompensa ms inmediata, aunque tambin se responde a la opcin
menos favorable.
La igualacin tambin se produce cuando los reforzadores difieren cualitativamente.

TARPY, R. M.
Condicion.
aversivo

Aprendizaje
La frmula de la igualacin atae tambin a situaciones que comportan consecuencias aversivas.
La ley de la igualacin contribuye a especificar la relacin cuantitativa entre el valor del reforzamiento y la
respuesta.
HERRNSTEIN ha ampliado la ley para incluir no slo la proporcin de las R efectuadas en el programa a en relacin
al b, sino tambin la tasa de R en un solo programa respecto a no responder en absoluto.

Autocontrol

Muchos estudios de autocontrol muestran que las ratas y las palomas actan de forma impulsiva; escogen la
opcin de recompensa ms inmediata pero ms pequea.
Segn la ley de la igualacin, un sujeto ajusta la tasa de R a la tasa del efecto combinado de la magnitud y la
inmediatez. Predomina el efecto de la inmediatez.
Sin embargo, varios factores hacen que los sujetos ejerzan un mayor autocontrol:

Los E administrados durante el intervalo de demora justo antes de la administracin de la recompensa


disminuyen los efectos perjudiciales de la demora. Una recompensa sealada no se devala tanto
como la recompensa no sealada.

Los humanos adultos muestran a menudo un mayor autocontrol, porque desarrollan reglas relativas a
los requisitos para obtener recompensas.

El que un animal demuestre impulsividad o autocontrol depende, en parte, de las actividades que
efecte el sujeto durante el intervalo de demora. Si las recompensas son salientes, los animales
tienden a ser impulsivos; si el atractivo de la recompensa disminuye, y el sujeto puede realizar otras
clases de comportamientos de distraccin, se demuestra un mayor grado de autocontrol.

El autocontrol puede mantenerse omitiendo la demora al principio pero aumentndola despus


de forma gradual durante el entrenamiento.

La experiencia del sujeto afecta al grado de autocontrol. Los sujetos obligados a responder cinco veces
por recompensa presionaron la palanca que requera un mayor esfuerzo ms veces que el grupo que
haba recibido recompensa ms fcilmente.

La impulsividad se evita cuando los sujetos se comprometen con la recompensa grande demorada
antes del punto de eleccin. Si se establece un compromiso de antemano, que evita tener que
enfrentarse a la tentadora eleccin posteriormente, el autocontrol aumenta.

Evaluacin

Problema 1: La ley de igualacin predice que se realizar la misma eleccin siempre que se mantengan los valores
relativos de inmediatez, magnitud y frecuencia de recompensa. Sin embargo, se ha demostrado que la proporcin
de respuestas vara tambin en funcin de los valores absolutos de recompensa.
Problema 2: La ley no siempre predice la conducta de eleccin de forma precisa. Los sujetos suelen cometer 3
errores sistemticos en situaciones de eleccin:

Sesgos: se muestran cuando el sujeto tiene una especial afinidad o preferencia por una de las
elecciones.

Sobreigualacin: tasa de R superior para el mejor de dos programas respecto a lo que predice la
frmula de igualacin. Se produce cuando resulta costoso para el sujeto cambiar al lado de menor
preferencia, cuando el tiempo fuera impuesto normalmente por cambiar de un programa a otro es
relativamente largo.

Igualacin por defecto o infraigualacin: cuando el sujeto responde menos de lo previsto en el


programa preferido o ventajoso.
BAUM desarrolla la ley general de la igualacin, que corrige los errores sistemticos.
Problema 3: Los sujetos no igualan la tasa relativa de R con la tasa de reforzamiento cuando se les ofrece la
posibilidad de elegir entre 2 programas de RV. En lugar de ello, responden exclusivamente en el mejor
programa.

Teoras de la igualacin
La igualacin es una descripcin de la conducta, que predice cmo se distribuyen preferencias entre dos
opciones, pero no explica por qu (naturaleza subyacente).
Maximizacin

La igualacin se produce porque los sujetos intentan maximizar la tasa de reforzamiento.


Los animales han evolucionado para comportarse de un modo que produce la tasa ms alta de reforzamiento.
Cuando un animal opera en un programa de IV, el tiempo avanza tambin para el otro programa. Resulta
ventajoso para el sujeto responder en ambos programas. En cambio, en un programa concurrente RV-RV no se
puede almacenar recompensas, por lo que responder exclusivamente al mejor.

Mejora

Mejorar se entiende en el sentido de hacer algo ms ventajoso.


La conducta de igualacin se produce porque el sujeto est escogiendo continuamente la opcin ms
prometedora (el programa con tasa de reforzamiento momentneamente ms alta).
Ambas teoras cuentan con evidencia a favor y en contra, por lo que se requiere ms investigacin.

TARPY, R. M.

Aprendizaje
Efecto del reforzamiento parcial
Aumento de la resistencia a la extincin que se produce cuando los animales reciben reforzamiento
intermitente (en lugar de continuo) durante la adquisicin.
Si se refuerza slo a un animal en una parte de los ensayos de adquisicin, la velocidad y persistencia de la R
durante la extincin aumenta en relacin a los sujetos que reciben recompensa en todos los ensayos durante la
fase de adquisicin.
Histricamente, se consider una paradoja. Si la recompensa fortalece una R, los animales reforzados de forma
continua deberan persistir durante ms tiempo durante la extincin que los animales reforzados parcialmente.

Factores que afectan a la persistencia


Muchas de las variables que afectan a la adquisicin inflyen tambin en la persistencia del animal durante la
extincin.
Magnitud
recompensa

Las recompensas grandes, cuando se administran en cada ensayo de adquisicin, disminuyen la posterior
resistencia a la extincin. Cuando se administran de forma intermitente, aumentan la resistencia a la
extincin.

N ensayos

La resistencia a la extincin disminuye en funcin del n de ensayos reforzados de forma continua, pero aumenta
con un n mayor de ensayos de reforzamiento parcial.

Patrones de
recompensa
durante la
adquisicin

Una secuencia alterna de recompensa y ausencia de recompensa durante la adquisicin produce menos
resistencia a la extincin que el patrn aleatorio de ensayos de recompensa y no recompensa, aun cuando
se utilice el mismo n de recompensas.
T: los animales con presentacin aleatoria muestran persistencia durante la extincin porque no pueden
distinguir entre las condiciones existentes durante la extincin de las que se experimentaron durante la
adquisicin. Sin embargo, en los sujetos de la condicin alterna no se observa persistencia porque las condiciones
experimentadas a lo largo de la extincin (ausencia de recompensa) son lo bastante distintas de los patrones
estrictamente alternos de recompensa y no recompensa experimentados durante la adquisicin.
Orden de los programas: la resistencia a la extincin es mayor cuando los ensayos reforzados de forma
intermitente se administran tras los ensayos reforzados de forma continua que cuando se invierte el orden. Un
bloque de ensayos con recompensa continua se distingue ms fcilmente de la extincin que un bloque de ensayos
con recompensa parcial.

Tas. del efecto de reforzamiento parcial


T
frustracin

AMSEL y cols: los sujetos desarrollan la expectativa de recompensa durante la adquisicin. Durante la
extincin, experimentan una reaccin incondicionada denominada frustracin (Rf), que vigoriza la conducta.
La frustracin es un estado de motivacin que vigoriza la conducta. Se produce cuando los animales esperan una
recompensa pero no la reciben.
Los sujetos experimentan mayor frustracin en la fase de extincin cuando la adquisicin conlleva recompensas
grandes que cuando implica recompensas pequeas debido a que es mayor la discrepancia entre las
expectativas y lo que reciben de hecho. Una mayor frustracin implica ms perturbacin y, por tanto, extincin
ms rpida. Sucede lo mismo cuando se da un entrenamiento prolongado.
Mediante el CC se condiciona el E resultante de la reaccin de frustracin y posteriormente acta como un Ed de la
R instrumental, lo que explica la mayor resistencia a la extincin en los sujetos reforzados parcialmente.
El estmulo de frustracin Ef se convierte en un Ed para la respuesta instrumental, por lo que la resistencia a la
extincin es fuerte.

Hiptesis
secuencial

La hiptesis secuencial (de los post-efectos) afirma que los animales tienen recuerdos de las consecuencias
de ensayos previos que no son necesariamente de naturaleza emocional, sino slo la consecuencia de responder.
Los ensayos recompensados dieron un post-efecto en la memoria de recompensa (Er), y al contrario los no
recompensados (En).
Los post-efectos de la recompensa y no recompensa se convierten en parte del abanico de E que el animal
experimenta en la caja de salida durante el siguiente ensayo. Durante la extincin, Er est ausente y En resulta
saliente. La perturbacin en el complejo estimular provoca una reduccin del grado en que los E provocan la
conducta.
Una perturbacin en el complejo estimular durante la extincin acelera su curso. Las conductas extinguidas se
recobran si los animales reciben claves relacionadas con la comida antes de la prueba.
Cuanto mayor es la magnitud de la recompensa, ms salientes son los post-efectos de la recompensa durante la
adquisicin. Por tanto, en la extincin, la omisin de un Er saliente produce un dficit mayor en el complejo
estimular discriminativo que la omisin de un Er dbil.
Efecto del reforzamiento parcial: durante la adquisicin del reforzamiento parcial, se estn formando dos tipos
de memoria (Er y En). Los animales reforzados parcialmente son recompensados por responder en presencia del
En, incorporan el En en su complejo estimular discriminativo y toleran la extincin con mayor facilidad.

TARPY, R. M.

Aprendizaje
Indefensin aprendida
Cuando la R y la recompensa son independientes, deja de producirse el aprendizaje, o aprende el animal algo
sobre su independencia? La indefensin aprendida indica que los sujetos aprenden que su conducta es
independiente de la recompensa. Este aprendizaje tiene efectos perturbadores en el aprendizaje futuro.

Ejemplos
La indefensin aprendida es el hallazgo de que el aprendizaje futuro se retarda si el animal recibe previamente
consecuencias incontrolables.
Transferen.
aversivaaversiva

apetitiva

SELIGMAN y MAIER: el grupo de escape aprendi la nueva tarea con la misma facilidad que los sujetos con
ausencia de descarga, pero el grupo acoplado mostr una perturbacin acusada.
La dificultad del grupo acoplado para aprender puede haberse debido a su incapacidad para controlar la descarga
elctrica en fase 1. Esta falta de control provoc el desarrollo de la expectativa general de que la conducta es
irrelevante respecto a la terminacin de la descarga. La expectativa de falta de control se transfiri a la
nueva situacin, provocando un retardo del aprendizaje.
Se ha observado el mismo tipo de transferencia negativa en situacin de condicionamiento apetitivo, llamada
pereza aprendida.

Algunos autores han sugerido que el perjuicio del aprendizaje no se debe a la transferencia de una expectativa,
Transfer.
sino ms bien a que el animal experimenta un cambio de actividad general. Si la actividad disminuye tras una
motivacional descarga incontrolable, la ejecucin inferior de los sujetos acoplados puede deberse a una disminucin general
cruzada
de actividad.
Se comprueba que cuanta ms inactividad muestra un sujeto en fase 1, independientemente del tratamiento, ms
disminuye la actividad en la fase de prueba.
Pero hay razones para creer que est ocurriendo algo ms que un simple cambio de actividad: se comprueba
transferencia negativa entre situaciones apetitivas y aversivas que conllevan tipos notablemente distintos de tareas
de R.

Principios de la indefensin aprendida


Inmunizacin

Maestra
aprendida

Reversibilidad

Los sujetos pueden ser protegidos contra los efectos de la descarga elctrica inescapable administrando antes
una descarga susceptible de escape.
Los reforzadores incontrolables no impiden el aprendizaje posterior si los sujetos experimentan recompensas
controlables antes de la fase de indefensin.
Experimentar un control sobre la administracin de reforzadores no slo elimina los dficit de aprendizaje causados
por el entrenamiento de indefensin, sino que tambin hace que los animales sean inusualmente persistentes
en varias tareas de aprendizaje.
La experiencia con acontecimientos controlables, en nuevas situaciones, aumenta la motivacin y la capacidad para
asociar respuestas y consecuencias.
La condicin de indefensin puede corregirse. La respuesta forzada contribuy a superar el dficit de aprendizaje
provocado por una descarga inescapable.

Tas. de la indefensin aprendida


Hiptesis de
indefensin
aprendida

Cuando las consecuencias son independientes de la conducta, el sujeto desarrolla un estado de indefensin
aprendida, que se manifiesta de 2 formas:

Prdida de motivacin, indicada por disminucin de ejecucin y nivel superior de pasividad.

Expectativa generalizada de que su conducta seguir siendo independiente de las consecuencias


reforzantes.
Se ha demostrado que no es la falta de control, sino la incapacidad para predecir el EI:

Recibir una descarga inescapable y predecible perjudica el aprendizaje menos que recibir una descarga
no sealada. Sealar la descarga inescapable elimina el dficit de aprendizaje.

La presentacin de E tras la finalizacin de una descarga inescapable elimina el dficit. Los sujetos de un
grupo acoplado con retroalimentacin aprenden tan eficazmente como los de escape y sin descarga.

Hiptesis de
la ansiedad

Los animales que reciben una descarga inescapable desarrollan ansiedad crnica, que hace que aprendan de
modo deficiente despus.
Si se suprimen los olores estresantes, no se muestra efecto de indefensin aprendida.
El miedo crnico hace que los olores del entorno de pre-tratamiento se asocien con la descarga inescapable, y
tiene efectos no asociativos, como aumento de neofobia. Los olores seran por tanto mediadores del efecto de la
indefensin aprendida, quiz provocando un disminucin condicionada de norepinefrina.
Un estmulo de retroalimentacin atena el miedo crnico. Los sujetos de escape crean sus propias seales de
retroalimentacin producidas por la R cuando escapan: cuando una seal predice el final de la descarga, los
animales sienten menos miedo.
La T no explica el que la ansiedad sea innecesaria para que se produzca dficit. Animales tratados con
diazepam mostraban todava dficit de aprendizaje.

10

TARPY, R. M.
T del
procesamiento
cognitivo

Aprendizaje
Los sujetos que reciben descargas inescapables cambian el modo en el que procesan la informacin
posteriormente.
Los animales indefensos aprenden con menor eficacia, independientemente de su estado de ansiedad. Sin
embargo, con una descarga ms intensa se elimina el dficit, medido por velocidad de carrera, pero no medido por
la precisin de la discriminacin: la descarga inescapable provoc dficit cognitivo.
Es posible que los animales indefensos vean afectada su atencin. Las ratas con descarga inescapable eran ms
susceptibles a los efectos perturbadores de las claves irrelevantes que los sujetos con escape o sin descarga.
El efecto de indefensin aprendida se observ slo cuando las claves distractoras estaban presentes. Segn la T
del procesamiento cognitivo, los animales con descarga inescapable resultaran distrados por las luces irrelevantes,
lo que hara ms difcil la ejecucin correcta.

11

TARPY, R. M.

Aprendizaje

11. Perspectivas tericas en el condicionamiento instrumental

11

Mecanismos fisiolgicos del aprendizaje


Muchos sostienen que el aprendizaje implica un cambio estructural o qumico en el sistema nervioso.

Sustratos biolgicos de la memoria


Puesto que la memoria es una unidad de conducta aprendida que persiste a lo largo del tiempo, tiene sentido que
los recuerdos se codifiquen neurolgicamente en zonas especficas del cerebro.
Lashley

Penfield

Hebb

Actualidad

Algunas de las primeras investigaciones fueron llevadas a cabo por LASHLEY. Su estrategia consista en daar o
extirpar reas especficas del cerebro y realizar despus pruebas de aprendizaje. La destruccin de hasta la mitad
del tejido cortical influa muy poco en el aprendizaje de laberintos simples, aunque en laberintos ms difciles la
ejecucin resultaba daada en cierta medida.
Principios:

Equipotencialidad: Otras reas del cerebro asumen las funciones del rea daada. Ninguna parte del
crtex es ms importante que otra para aprender tareas.

Accin en masa: Las reas corticales del cerebro no estn especializadas.


PENFIELD oper a varios pacientes epilpticos graves para extirparles reas del cerebro susceptibles de producir
ataques. Para identificar esas reas, estimulaba el tejido cerebral y observaba la conducta. La estimulacin de
reas particulares haca que el paciente expresase a menudo vvidos recuerdos y emociones como miedo.
Muchas R se asemejaban ms a sueos o alucinaciones, pero se respald la idea de que los recuerdos residen en
localizaciones anatmicas especficas.
HEBB: Cuando se estimulan varias neuronas de forma reiterada y sucesiva, se producen cambios estructurales
en las sinapsis, se desarrollan protugerancias o botones en el axn. Los grupos de neuronas forman unidades
funcionales ms grandes (asociaciones de clulas); si se activa una neurona, las otras se excitan tambin. Los
grupos de asociaciones de clulas forman conjuntos mayores de material neurolgico (secuencias de fase).
Actualmente se considera que la memoria puede estar relacionada con cambios en el cido ribonucleico
cerebral. Puede ser afectada tambin por varias hormonas, como las catecolaminas, las hormonas pituitarias y los
neuropptidos. Algunos sostienen que los recuerdos son una consecuencia de los cambios de la eficacia sinptica
en las vas neuronales, consecuencia de la sntesis de protenas o cambios en la receptividad de las neuronas.
El hipocampo parece ser un elemento importante de la memoria. Sus lesiones perturban la formacin de MCP,
especialmente de ndole espacial. El hipocampo desarrolla potenciacin a largo plazo, aumento duradero de la
R post-sinptica tras un perodo de estimulacin.

Mecanismos neurolgicos del reforzamiento


Autoestimulacin
elctrica
Anatoma de
la recompensa y el
castigo

OLDS y MILNER: ratas equipadas con electrodos en el rea septal presionaban una palanca para administrarse
corriente (autoestimulacin). En otras partes del cerebro se presionaba la palanca para poner fin a la estimulacin.
Las zonas anatmicas que sustentan la autoestimulacin forman un centro de placer.
La autoestimulacin viene sustentada por la amgdala, el hipocampo y el septum, pero la principal rea es el
fascculo frontal medial.
Sistema de recompensa: Las neuronas del fascculo frontal medial descienden desde el rea preptica lateral,
atravesando el hipotlamo, para inervar tres circuitos diferentes:

Circuito eferente: atraviesa el ncleo pontino y la mdula espinal. Expresin de conductas especficas
de la especie.

Sistema ascendente (I): desde el tegmento ventral, asciende a travs del ncleo accumbens hasta la
sustancia innominada y las reas prepticas laterales. Efectos motivacionales del reforzamiento.

Las fibras frontales mediales forman un tracto ascendente (sistema II), que se extiende desde la
sustancia negra hasta el estriado. Facilita la formacin de la memoria.
La presin de la palanca para estimular el estriado (II) conlleva conductas muy estereotipadas; la destruccin del
estriado provoca una disminucin de conductas. La topografa conductual cuando se presiona para proporcionar
estimulacin al sistema I incluye componentes de conductas especficas de la especie, como R alimentarias. El
sistema I, a diferencia del II, est implicado en los aspectos motivacionales de la recompensa.
El sistema principal de castigo es el tracto periventricular.
Teora de la respuesta consumatoria del reforzamiento: lo que los sujetos encuentran reforzante es
precisamente la ejecucin de condeuctas de supervivencia especficas de la especie. La mayora pueden provocarse
mediante estimulacin directa del cerebro, en especial del hipotlamo. Las conductas de supervivencia especficas
de la especie y la estimulacin cerebral reforzante son mediadas por los mismos circuitos neuronales.

12

TARPY, R. M.
Neuroqumica de la
recompensa

Aprendizaje
El sistema de recompensa implica neuronas catecolaminrgicas (nervios en los que las principales sustancias
transmisoras son la noradrenalina y la dopamina). El sistema periventricular aversivo es un sistema colinrgico
(acetilcolina).
La accin de varios antagonistas de la dopamina, como el haloperidol, se asemeja a los efectos de una reduccin
en la recompensa. Aumentan la resistencia a la extincin una vez desaparecidos sus efectos, por lo que deben
reducir el impacto de la recompensa en los ensayos. Esto podra explicar el que algunas drogas psicoactivas, como
la herona, resulten tan reforzantes.

Teoras mecanicistas (E-R) del aprendizaje


T neoconductista de HULL
Su sistema es hipottico-deductivo porque incluye postulados y teoremas formales. Si el resultado de la prueba es
el previsto por el teorema, el postulado es respaldado. Es una teora mecanicista porque propone el uso de
variables intermedias (estados o caractersticas de los animales que median su conducta). La sed, por ejemplo,
sera un estado motivacional que surge de la necesidad biolgica de agua.

Reduccin
del impulso
Fuerza del
hbito

Potencial
excitatorio

Postulado IV: reduccin del impulso.


Los organismos tienen necesidades biolgicas bsicas. La necesidad es un estado biolgico que ocasiona conductas
no aprendidas encaminadas a reducirlo; el impulso sera el estado psicolgico que corresponde al desequilibrio
biolgico. El reforzamiento implica la reduccin del impulso.
Los incrementos producidos por reforzamientos sucesivos se suman de tal modo que producen una fuerza del
hbito: siempre que un sujeto experimenta cierta secuencia E-R seguida de una reduccin de su estado de
impulso, aumenta el hbito, que consiste en la tendencia a efectuar esa R en presencia de ese E.
El hbito es una variable intermedia, refleja la fuerza de la conexin E-R. El refuerzo disminuye el impulso y
aumenta la fuerza del hbito.
Postulado VII: potencial de reaccin
El hbito se traduce en ejecucin manifiesta slo cuando se motiva al sujeto. La ejecucin se produce cuando
tanto el hbito como el impulso se hallan presentes.
El potencial excitatorio predice la ejecucin del sujeto, que se produce cuando ha desarrollado un hbito y se
halla en estado de impulso (relacin multiplicativa).
La relacin entre el impulso y la ejecucin es aproximadamente lineal. En el caso del hbito, el efecto no es lineal:
la resistencia a la extincin aumenta en funcin del n de reforzamientos, pero el aumento resulta
proporcionalmente decreciente. Impulso y hbito afectan a la conducta de modo distinto.

Postulados VIII-IX: inhibicin reactiva y condicionada


Inhibicin
La inhibicin reactiva es la fatiga acumulada como consecuencia de la R. Disminuye el potencial excitatorio.
reactiva y
condicionada La inhibicin condicionada se basa en la reduccin de la inhibicin reactiva. A medida que el sujeto se cansa
tiene cada vez mayor motivacin para dejar de actuar porque el estado de inhibicin reactiva es aversivo; la
suspensin de la propia ejecucin se refuerza porque disipa la inhibicin reactiva aversiva. Los sujetos devienen
condicionados para dejar de responder.

Estado de la t de HULL
Esta t tuvo xito porque era coherente y susceptible de verificacin. Sin embargo:

Muchos encontraron fallos en la concepcin molecular de la conducta propuesta.


Aunque la precisin matemtica era un argumento slido, los conceptos psicolgicos en los que se
basaban los trminos matemticos estaban sujetos a verificacin directa y, por tanto, eran susceptibles
de refutacin. Las curvas de aprendizaje son muy variables, en la tasa de crecimiento influyen muchos
factores, incluyendo pequeas variaciones en el procedimiento.
Muchas conductas se aprenden aun cuando no se halle implicado ningn impulso o reduccin de
necesidad. La sacarina es muy reforzante, y tambin la exploracin.

Teora neo-hulliana: Trabajo de AMSEL sobre el efecto del reforzamiento parcial. El estado de motivacin
aversiva que denomina frustracin equivale a la inhibicin reactiva.

13

TARPY, R. M.

Aprendizaje
Tas. cognitivas (R-E) del aprendizaje
Se centran en la nocin de que los sujetos estn orientados hacia metas, desarrollando representaciones
mentales de su conducta.

Conductismo cognitivo de TOLMAN

Aprendizaje
latente
Mapas
cognitivos

Principio fundamental: los animales obtienen un conocimiento general del entorno, y desarrollan expectativas
sobre las consecuencias de su conducta. El reforzamiento no es necesario para el aprendizaje, slo para la
ejecucin.
Estudio del aprendizaje latente: una vez se proporcion la recompensa en la caja meta, mostraron una mejora
repentina en su ejecucin. Los animales haban aprendido, pero no actuaron de un modo que mostrase su
aprendizaje. El reforzamiento no es necesario para desarrollar un mapa cognitivo del entorno, slo para estimular
una ejecucin eficaz.
Mapas cognitivos: Segn TOLMAN, las ratas desarrollan expectativas sobre las consecuencias de su conducta y
desarrollan mapas cognitivos o mentales de su entorno. No se limitan a efectuar una secuencia de movimientos
musculares.
Crticas:

La conducta no siempre parece estar orientada a metas. Los sujetos actan a menudo slo para explorar
su entorno.

Los animales realizan a menudo conductas con una gran orientacin a metas, pero difcilmente pueden
calificarse de intencionadas (como la polilla que vuela a la bombilla elctrica). El concepto de propsito
es problemtico porque implica que el sujeto tiene cierta nocin interna y autoconocimiento respecto a la
meta de su conducta.

La T de TOLMAN dice poco sobre qu conducta efectuar el animal y que probablemente aprender.

Las asociaciones en el aprendizaje instrumental


La fuerza y el significado de un EC depende, entre otras cosas, de su valor informativo. El C instrumental se ve
a la misma luz que el pavloviano: los sujetos procesan la informacin no slo respecto a los E, sino tambin
respecto a su propia conducta. Los animales desarrollan representaciones de metas y las asocian con
representaciones de su propia conducta.
En una situacin tpica de aprendizaje instrumental existen 3 componentes funcamentales: Ed, R y
consecuencia. Pueden producirse asociaciones entre cada uno de estos elementos.

Asociaciones
R-C

Asociaciones
E-C

Asociaciones
jerrquicas

RESCORLA ha demostrado la asociacin de R y consecuencia. Los sujetos adquirieron dos asociaciones R-C
distintas. Esta investigacin respalda la concepcin cognitiva del C instrumental, el sujeto funciona como un
procesador de informacin al aprender asociaciones entre R y objeto meta.

Cuando se devaluaba un reforzador asocindolo con veneno, la tasa de R disminua: los sujetos
recordaban despus el reforzador como aversivo. En cambio, la R al otro reforzador mantuvo su fuerza.

Cuando los sujetos desarrollan una asociacin R-C1, esa asociacin no se ve afectada si la R va seguida
de una consecuencia distinta, C2.

La asociacin R-C2 sigue desarrollndose durante el curso de un entrenamiento prolongado.

La asociacin R-C persiste a pesar de la administracin de tratamientos que causan interferencia.


Los Ed se asocian con consecuencias. Los Ed facilitaron con mayor eficacia la realizacin de una nueva R
cuando el E y la R tenan una consecuencia comn. Por tanto, el Ed debe haberse asociado con la consecuencia
debido a que la capacidad de ste para modular la R era mayor cuando su consecuencia y la de la R coincidan.
El conocimiento supone ms que simples asociaciones entre 2 elementos. Un sujeto forma tambin una red
jerrquica de asociaciones en la que los E se asocian con la relacin entre una R y su consecuencia
E [R-C].
Un EC tiene fuerza slo cuando predice de forma fiable un EI.
RESCORLA demostr que un Ed es fuerte cuando predice de modo fiable las combinaciones R-C.
El trabajo sobre asociaciones jerrquicas est de acuerdo con la aproximacin cognitiva porque la meta se encarna
en la representacin o memoria desarrollada por el sujeto. Una asociacin jerrquica es anloga a un mapa
cognitivo, representa las relaciones funcionales o contingentes.

Tas. de la regulacin conductual


Anlisis conductual de SKINNER
SKINNER afirmaba que las tas. o mecanismos del aprendizaje eran innecesarios. No contribuyen de forma
sustancial a nuestra comprensin de la conducta, puesto que el propio mecanismo interno no es explicado.
l se centra en el concepto de contingencia de reforzamiento. Tiene 2 efectos:

Selecciona la conducta de entre las muchas posibles R del repertorio, siempre que vaya seguida de
un acontecimiento reforzante y no de un castigo (reforzamiento diferencial).

Mantiene la conducta. El fortalecimiento de la conducta mediante el reforzamiento se denomina ley


emprica del efecto (no explicativa, sino descriptiva).

14

TARPY, R. M.

Aprendizaje
Hiptesis de la privacin de R

Principio de
PREMACK

Hiptesis de
la privacin
de R

Una formulacin de la contingencia de reforzamiento es el principio de PREMACK. Segn l, el efecto del


reforzamiento se basa en la probabilidad diferencial de dos actividades:
1. Se observa la probabilidad o preferencia de 2 actividades distintas cuando el sujeto no est limitado.
2. Se establece una relacin de reforzamiento cuando la ejecucin de una R ms probable se hace
contingente respecto a realizar primero una conducta menos probable.
La hiptesis de la privacin de R de ALLISON cuestiona la afirmacin del principio de PREMACK. El cambio
previsible en la tasa de una conducta instrumental no se produce debido a una consecuencia especial denominada
reforzador, sino, ms bien, porque se priva al sujeto de la actividad respecto a la cual la conducta instrumental
es contingente.
La combinacin de 2 actividades preferida por el sujeto es su punto de deleite. Si el animal carece de acceso
libre, no puede realizar las 2 con su tasa preferida. El incremento de una actividad no se debera a la consecuencia
reforzante, sino ms bien a que el programa priva al sujeto de la otra. Lo que produce el efecto reforzante es la
limitacin de la conducta impuesta por el programa, no la consecuencia reforzante.
Las condiciones causantes de un aumento en la R instrumental implican una privacin de R. Si las limitaciones de
un programa de reforzamiento impiden o restringen el acceso a una conducta particular, los sujetos efectan otras
conductas por encima de su tasa de lnea base preferida para intentar realizar la actividad restringida con una tasa
lo ms cercana posible al punto de deleite.
La fuerza del efecto de reforzamiento depende de la diferencia entre la conducta permitida por el programa y
su punto de deleite. A medida que aumenta la diferencia entre el resultado y el punto de deleite, la conducta
instrumental aumenta tambin. Esto explica por qu los grandes incentivos producen un mayor efecto reforzante
que los incentivos pequeos (punto de bienestar superior).

Economa conductual
Principios econmicos
El anlisis econmico de la conducta comienza con una serie de supuestos sobre la motivacin, los axiomas de la
demanda: los organismos tienen necesidades esenciales, las cuales producen la demanda de los bienes que
satisfacen esas necesidades. Para satisfacer necesidades, los animales tienen que pagar cierto precio o coste.
Demanda
elstica e
inelstica

Curva de
indiferencia

Lnea de
presupuesto

T de la
optimizacin

A medida que aumenta el coste de un bien, la demanda disminuye. En el estudio del aprendizaje y la conducta
animal, puede establecerse una funcin de demanda mediante un programa de razn fija.
La demanda de un reforzador vara no slo con su coste, sino tambin en la medida en que ese bien constituye
una necesidad esencial. Con artculos no esenciales, la demanda se considera elstica: disminuye
sensiblemente con los aumentos de precio. Si se mantiene con bastante estabilidad, se considera inelstica.
Otro factor que afecta a la demanda es la sustitucin. Los individuos pueden sustituir un bien por otro cuando el
coste aumenta; en ese caso, la demanda es muy elstica.
La demanda puede expresarse como una eleccin entre 2 bienes. Un anlisis econmico supone que cada accin
refleja la consecuencia de una eleccin. La eleccin puede expresarse mediante una curva de indiferencia, que
incluye una serie de puntos, cada uno de los cuales representa una combinacin igualmente valiosa de productos.
Aunque una persona sea indiferente respecto a dos puntos cualesquiera a lo largo de una curva, prefiere situarse
en la curva ms externa, porque ah es donde tiene el mayor valor total de bienes.
La familia de curvas de indiferencia muestra las combinaciones de bienes que un sujeto encuentra igualmente
aceptables. Sin embargo, la curva de indiferencia que de hecho mantiene un individuo dado es determinada por el
presupuesto de ese individuo. La lnea de presupuesto muestra la combinacin de bienes que el individuo puede
costearse; el punto de equilibrio es el encuentro entre la curva de indiferencia y la lnea de presupuesto. Si la
lnea de presupuesto cambia, se establece un nuevo punto de equilibrio.
Planes de conducta ptima
El principal objetivo de este enfoque es describir cmo regulan la conducta del sujeto las leyes derivadas del
estudio de la economa. Manejando o regulando su conducta respecto a los costes y los beneficios, un individuo
puede obtener el mximo beneficio de sus esfuerzos.
Los animales maximizan las funciones coste-beneficio mediante la conducta adaptativa. Actuar por
debajo del punto ptimo es poner en peligro el xito en el afrontamiento de las exigencias ambientales. Segn la
T de la optimizacin, diversos planes de conducta reflejan una decisin inconsciente de maximizar el beneficio
respecto a los costes.
Un ejemplo de ello sera la conducta de eleccin de parcela. Invertir demasiado poco tiempo evaluando las
posibles parcelas puede ocasionar un error de apreciacin, y tardar demasiado sera una prdida de tiempo. La
segunda decisin importante es cundo abandonar la parcela despus de alimentarse cierto tiempo. Segn la T
de la bsqueda ptima de comida, el momento en que el sujeto debe abandonar una parcela depende de
diversos factores, entre los que se encuentran la tasa de ingestin de energa dentro de la parcela, el tiempo
necesario para trasladarse de una parcela a otra, y el tiempo requerido en buscar y procurar una presa. Son los
horizontes temporales.
En cuanto a la seleccin de la dieta, un animal ha de seleccionar lo que come teniendo en cuenta sus costes y
beneficios. Comer presas demasiado pequeas produce escasa energa en comparacin con los costes de hallarlas
y obtenerlas. Las presas mayores son mejores pero menos abundantes. Se optar por la presa ms provechosa, la
que produzca mayor cantidad de energapor unidad de tiempo.
Otro aspecto a tener en cuenta es si el sujeto corre el riesgo de ser atrapado por un depredador, por lo que habr
que compensar las conductas de bsqueda de comida y de defensa. Cuando la amenaza de un predador es baja,
el sujeto invierte ms tiempo en la bsqueda de comida que cuando la amenaza es elevada.

15

TARPY, R. M.

Aprendizaje

12. Especializaciones adaptativas del aprendizaje

12

Los animales desarrollan procesos de aprendizaje adaptativos, especficos de la especie, en el contexto del
aprendizaje de respuestas. A lo largo de la evolucin, los individuos que nacieron con la capacidad de efectuar una
R ligeramente ms ventajosa tenan ventaja desde un punto de vista selectivo.
La relacin R-reforzador no puede divorciarse de los E que desencadenan la R. La distincin entre C instrumental y
pavloviano se basa principalmente en diferencias de procedimiento.

Aprendizaje especfico de fase


A menudo, los individuos realizan un acto, pero no reciben ninguna recompensa evidente por hacerlo.
Varias formas de aprendizaje especfico de la especie corresponden a una fase especfica: se producen slo, o
con mayor fuerza, durante cierto periodo de tiempo en la vida del animal (perodos crticos).

Aprendizaje del canto


El canto es innato en muchas especies de aves; en otras es aprendido, a menudo como consecuencia de una
retroalimentacin crtica del entorno.
Limitaciones
en la
naturaleza
del canto

Perodo
sensible

Factores
sociales

Teora de la plantilla: las aves nacen con un patrn que se encarga de dar forma a los detalles del canto, una
especie de filtro. La exposicin al canto adecuado entre los 10 y los 50 das da lugar al desarrollo del canto
normal. La plantilla excluye canciones de otras especies.
En el espectrograma, la frecuencia del tono aparece representada en el eje vertical y el tiempo en el horizontal.
La T de la plantilla explica algunos resultados, pero no otros, como que algunas aves aprenden y responden a
cantos que ellas mismas nunca emiten. El aprendizaje del canto es ms flexible de lo que indica la estricta T de
la plantilla, por lo que deben influir otros factores.
El aprendizaje del canto no puede producirse antes o despus de un perodo crtico.
Pinzones cebra: todos los sujetos aislados a los 35 das de edad presentaron canto anormal: la estructura del canto
no se asemejaba a la del padre. La proporcin de elementos compartidos por padre e hijo aumentaba con el
tiempo: los pinzones cebra desarrollan su canto entre los 35 y 65 das.
El perodo sensible no es invariable. Se produce aprendizaje antes y despus. En machos pinzones cebra no
expuestos al macho cantor adulto, se produjo aprendizaje de la madre; tras 35 das de aislamiento, se permiti el
acceso al macho adulto, y se comprob que los sujetos no slo no tienen dificultades para aprender el canto, sino
que ste reemplaza de hecho cualquier canto que pueda haberse aprendido de la madre. Tambin se ha
comprobado aprendizaje posterior al perodo crtico.
La oportunidad de interaccionar socialmente con otro ejemplarde la misma especie constituye un factor importante
en el aprendizaje del canto, y puede permitir superar los dficit creados por el aislamiento.

Impronta
Es razonable suponer que la capacidad de un animal recin nacido para reconocer a un miembro de su propia
especie es innata. Pero en muchos animales se aprende por medio del aprendizaje especfico de fase llamado
impronta.
La impronta se observa ms fcilmente en ejemplares que se encuentran relativamente bien desarrollados en el
momento de su nacimiento, como en el caso de los patos, que siguen a su madre.
Los polluelos no slo siguen a su madre, sino prcticamente cualquier objeto en movimiento poco despus de
su nacimiento. Presentan una preferencia intensa y duradera por el objeto de impronta frente a la madre biolgica.
Perodo
crtico

Caractersticas crticas
de los E de
impronta

La impronta es una forma nica de aprendizaje completamente distinta al CC e instrumental.


En principio se pensaba que era irreversible y que slo poda originarse en un perodo crtico (13-16 horas de
edad). Sin embargo, se ha encontrado impronta en cras de pato de 5 a 10 das de edad, aunque con mayor
exposicin; y en algunos casos es reversible: mediante una exposicin lo suficientemente larga a un segundo
objeto de impronta, los sujetos cambian su apego, a pesar de que la presentacin ocasional del primer objeto de
impronta retarda el cambio.
Se puede recibir impronta de objetos inanimados, pero se les trata de forma distinta a los miembros de la
propia nidada, quiz porque los congneres vivos son ms reforzantes que los objetos inanimados (ms contacto
social o calor).
Los bloques de goma-espuma estticos resultaron mucho menos eficaces en la produccin de impronta que los
bloques mviles. Tanto el movimiento del objeto como del sujeto son factores crticos.
Muchas cras de patos reales parecen tener una preferencia innata por la llamada materna; la exposicin a
sus propias vocalizaciones, las cuales se asemejan a esa llamada, resultan crticas para la impronta. La respuesta
apropiada a la llamada materna tras el nacimiento depende de haber experimentado el patrn altamente especfico
de la llamada durante el desarrollo embrionario. La llamada materna caracterstica de la especie resulta
sumamente importante para dar lugar a la conducta filial; aunque las jvenes cras de patos siguen a los objetos
en movimiento, la llamada materna asegura prcticamente que se producir la respuesta filial.

16

TARPY, R. M.
Teoras de la
impronta

Aprendizaje
Un planteamiento es que la impronta se basa en el aprendizaje perceptivo. La mera exposicin al E de impronta
crea familiaridad y preferencia.
Una segunda opcin es la T del condicionamiento de la impronta:
1. Las aves jvenes estn preparadas de forma innata para responder a ciertas clases de E (objetos en
movimiento). Los animales encuentras esta estimulacin reforzante y, por tanto, muestran una
conducta filial hacia el objeto.
2. Las aves jvenes desarrollan miedo a los objetos nuevos a medida que crecen. En un principio no los
temen, pero a partir del 2 da aumenta el temor. Un sujeto de mayor edad requiere un perodo ms
amplio de exposicin para que un E de impronta resulte reforzante.
3. La conducta constituye una solucin de dos tendencias competidoras suscitadas por el E: la
tendencia filial o de aproximacin y la reaccin de miedo.
Se explica as que la conducta filial se limite al E expuesto, ya que resulta conocido y reforzante. Sin embargo, este
modelo establece varias predicciones que no han sido respaldadas, como la ausencia de extincin. En algunas
condiciones, los pjaros jvenes reciben la impronta de claves ambientales u objetos estticos.

Defensa de los predadores y aprendizaje de evitacin


RDEE

Para BOLLES, las conductas de evitacin son reacciones defensivas innatas y especficas de una especie dada. Por
tanto, son reacciones de defensa especficas de la especie (RDEE). Sobrevivir a los depredadores es algo
demasiado importante para depender de un proceso de aprendizaje gradual, por lo que la evitacin eficaz debe
haber evolucionado como una capacidad conductual innata.
Cada especie poseera una jerarqua de RDEE. Cuando se enfrenta a una amenaza, el animal efecta primero su
RDEE preferida. Si esa R no es eficaz, el sujeto pone en prctica la siguiente RDEE ms probable.

Conducta de evitacin
Evitacin
activa

La T de las RDEE es respaldada por el hallazgo de que pueden criarse las ratas de forma selectiva respecto a
conductas de evitacin eficaces o deficientes. La raza con evitacin alta acta mejor que aqulla con evitacin
baja independientemente de la condicin de entrenamiento.
Segn la T RDEE, el EC pavloviano induce una reaccin de tipo reflejo. Diversos estudios respaldan la T RDEE
al mostrar que los sujetos efectan una R natural sin ensearles a hacerlo, y que esta R puede consistir en huir o
inmovilizarse, dependiendo de las circunstancias. En presencia de un depredador, cuando las contingencias
impiden la huida, las ratas se inmovilizan.
La T fue cuestionada al mostrar que la evitacin mediante presin de palanca puede aprenderse con bastante
facilidad, siempre que se utilice el reforzador adecuado. El acceso a un rea segura, se permita o no al sujeto
correr hacia ella por s mismo, refuerza intensamente la presin de la palanca.
Cuando la R de la palanca es compatible con, y de hecho forma parte de, la RDEE de huida, el aprendizaje es
mejor que cuando la tarea de evitacin es incompatible con la tendencia de la RDEE. La presin de la palanca se
adquiere fcilmente como una reaccin de evitacin, siempre que sea congruente con la estrategia de defensa
natural de la rata, y que se refuerce adecuadamente ofreciendo al sujeto acceso a un rea segura.

Evitacin
pasiva

La tigmotaxis (tendencia a correr hasta la periferia y permanecer cerca de las paredes) resultaba incompatible con
la R de evitacin pasiva en un grupo, por lo que su conducta de evitacin fue menor: las tareas de evitacin
compatibles con la RDEE de un sujeto se aprenden con mayor facilidad que aqullas que no lo son.

Reacciones defensivas
Las ratas y otras respecies recurren tambin al enterramiento y la agresin cuando se engfrentan a E aversivos.
Enterramiento

Enterrar un objeto constituye una R defensiva. En el experimento de PINEL, los sujetos que no recibieron
ninguna descarga elctrica dedicaron poco tiempo a enterrar la vara; los que recibieron descarga dedicaron
bastante tiempo a enterrar la vara, y acumularon un montculo de material bastante mayor, tratndola como un
objeto aversivo. Esta R ocurre incluso cuando los sujetos son puestos a prueba en un entorno distinto; cuando la
descarga se administra desde el suelo de parrilla; cuando la vara produce descarga frente a otra que no lo hace. El
enterramiento defensivo se ha probado incluso con soluciones venenosas.
No se produce R de enterramiento si existe la posibilidad de escapar. Escaparse e inmovilizarse
constituyen las primeras lneas de defensa, pero cuando esas reacciones no suprimen la fuente de aversin, se
produce el enterramiento defensivo.
Muchas especies no presentan conducta de enterramiento. Puede que se haya desarrollado en las ratas como una
forma de altruismo heredado: las ratas entierran los objetos aversivos de modo que los miembros de su colonia
no los encuentren, pero este acto altruista no ha evolucionado en un animal asocial como el hmster.

Agresin

Las conductas agresivas son otra forma de defensa instrumental. En ratas sometidas a descarga, tanto las ratas
macho como las hembras mordieron el hocico del animal diana, y los mordiscos aumentaron de forma acusada en
funcin de la intensidad de la descarga.
Un ataque constituye una estrategia defensiva slo en ciertas circunstancias. Para las hembras, el ataque
preventivo est dirigido a proteger a los cachorros, y slo se produce cuando aparece un enemigo peligroso.
Al igual que el enterramiento, las conductas de ataque pueden ser slo una entre una serie de reacciones
defensivas efectuadas por una rata, dependiendo de las circunstancias. La huida suele ser la estrategia preferida, y
la inmovilizacin a continuacin. Si stas no logran poner fina a la amenaza, el ataque pasa a ser una opcin.

17

TARPY, R. M.

Aprendizaje
Enfoque de los sistemas de conducta
Aproximacin tradicional
La t de que el reforzamiento produce el aprendizaje y da lugar a la ejecucin es causal, en tanto que el
reforzamiento se considera la causa o explicacin de la conducta.
En el modelo causal, el reforzamiento se representa mediante un vnculo de retroalimentacin que fortalece la
conducta, o el vnculo R-C.
Sin embargo, para TIMBERLAKE es preferible considerar la conducta del animal como parte de un sistema de
conducta funcional integrado, que posee:
1. Un valor de comienzo inicial (entrada del E).
2. Conductas adecuadas para esos valores iniciales (R).
3. La propiedad de modificarse por medio de la consecuencia (retroalimentacin).

Sistemas de conducta y aprendizaje


Sistemas de
conducta

Segn el enfoque de los sistemas de conducta, las R y los E parecen ser arbitrarios para el experimentador, pero
no para el sujeto. Las conductas del sujeto, y sus reacciones perceptivas ante los E, se encuentran preorganizadas en unidades funcionales. Aunque el E no fuera conocido en el pasado, el sujeto reacciona segn una
estructura existente, organizada de antemano. El acto de presionar la palanca se integra en un conjunto
existente de capacidades conductuales.
Por tanto, la conducta aprendida se halla pre-organizada, integrada respecto a una nica funcin (como la
alimentacin, reproduccin, defensa, cuidado corporal...). Las caractersticas crticas de un sistema de conducta
son:

Procesos motivacionales que desencadenan otras estructuras y ayudan a organizar y mantener la


secuencia de su expresin.

Estructuras perceptivo-motoras que relacionan afinidades especficas de los E con componentes de


R particulares.

Evolucin y
aprendizaje

Un animal nacera con ciertos repertorios conductuales, y la capacidad para aprender evolucionara con respecto a
esos sistemas conductuales. Estas lneas de conducta han perdurado porque aumentaban la probabilidad de
supervivencia y reproduccin. El aprendizaje modifica estas lneas adaptndolas a nuevos ambientes o
reorganizndolas para afrontar nuevos retos ambientales.

Componentes de los sistemas de conducta


Sistema

El nivel ms inclusivo es el del sistema: es la funcin general que realiza el sistema. ste identifica una serie de
unidades perceptivas y conductuales motoras que contribuyen a una funcin particular de forma integrada.

Subsistema

El susbsistema hace referencia a estrategias coherentes que sirven a la funcin general del sistema. Siempre que
se pone en funcionamiento un subsistema dado, se vuelven salientes para el animal una serie de E particulares y
se inician ciertas lneas de conducta.
El subsistema controla distintas estrategias globales o patrones motores y perceptivos relacionados con la
funcin general.

Modo

Un modo es un sustrato motivacional relacionado con la organizacin secuencial y temporal de los


patrones de accin respecto a los E terminales del sistema.
Se trata de una unidad motivacional que coordina lneas de conducta especficas. Refleja distintas estrategias de
motivacin y conducta.

Mdulo

Los mdulos son predisposiciones a responder a E particulares con componentes de R particulares.


No se encuentran localizados fisiolgicamente en ninguna rea especfica del cerebro, sino que ms bien
constituyen unidades funcionales de la conducta, o secuencias conductuales.
Las modificaciones de los sistemas conductuales producidas como consecuencia de los procedimientos de
aprendizaje pavloviano o instrumental se producen entre y dentro de los mdulos.

Patrn de
accin

La unidad ms bsica de salida es el patrn de accin. Se trata de movimientos especficos y reacciones


motoras ejecutados de forma estereotipada. Los patrones de accin especficos pueden formar parte de ms
de un mdulo.

18

TARPY, R. M.

Aprendizaje
Los sistemas de conducta y la conducta integrada

Conductas
inadecuadas

Recorrido de
laberintos
Moldeamiento

Conductas
defensivas

Las conducta inadecuadas plantean un serio problema a la t del reforzamiento, porque los animales efectan las
reacciones de alimentacin especficas de la especie en lugar de las simples conductas criterio para las que se
proporciona el reforzamiento. Sin embargo, el enfoque de los sistemas de conducta proporciona una explicacin
coherente: la conducta inadecuada se produce porque el sistema de alimentacin natural del sujeto es
activado por los E; los patrones de accin asociados con la alimentacin son desencadenados automticamente
por estos E, haciendo irrelevante el reforzamiento.
Segn TIMBERLAKE, la accin de correr hasta el final del laberinto no est regida por la consecuencia instrumental
porque los animales se desplazan por corredores aun cuando no se proporciona ninguna recompensa. La conducta
de correr se asemeja a patrones de accin caractersticos de animales que viven en madrigueras.
El moldeamiento consiste en el proceso de fortalecimiento de una R mediante aproximaciones sucesivas. El
reforzamiento fortalecera cada conducta componente individual hasta que se efectuara la R final.
Para el enfoque de los sistemas de conducta, las conductas efectuadas por una rata durante el procedimiento de
moldeamiento reflejan reacciones apetitivas elicitadas, especficas de la especie, que forman parte del
sistema de alimentacin general.
El moldeamiento es similar al automoldeamiento, la entrega de comida activa automticamente partes del sistema
de alimentacin. promueve una combinacin de modos de bsqueda general y focal centrados principalmente en el
rea del comedero y asocia mdulos relacionados con la consecucin o manejo de la comida con el movimiento de
la palanca.
La t de RDEE del aprendizaje de evitacin sostiene que los organismos estn dotados genticamente de
conductas apropiadas para hacer frente a depredadores y otras amenazas aversivas. El enfoque de los sistemas de
conducta argumenta que las conductas efectuadas en situaciones amenazantes implican secuencias
conductuales que son provocadas por el E ambiental relevante.
Segn FANSELOW, la estrategia defensiva de una rata posee tres modos: pre-encuentro, post-encuentro y
prximo a la lucha. La secuencia de conducta natural de la rata, que es una consecuencia de estos distintos
modos de accin, depende de los E ambientales encontrados.

19

TARPY, R. M.

Aprendizaje

13. Generalizacin y discriminacin

13

Generalizacin

Estmulos similares a la clave original pueden producir tambin reacciones, fenmeno que se conoce como
generalizacin del E. Cuanto ms semejantes son las claves, mayor es la reaccin condicionada en la prueba de
generalizacin. Por lo general, la semejanza del E se basa en una caracterstica de tipo fsico, como la intensidad,
la longitud de onda o el tamao.

Discriminacin

La discriminacin es el proceso contrario: responder de forma distinta a dos E basndonos en sus diferencias
aparentes.

Control por
el E

Se puede concebir la generalizacin y la discriminacin en trminos de control por el E. Se dice que la R


producida por un EC, o en presencia de un Ed, est controlada por uno o ms atributos de la clave. Algunas
dimensiones de un E son relevantes (y producen la conducta) mientras que otras no.

Gradientes de generalizacin
Se da una relacin sistemtica entre la fuerza de la R a los E generalizados y la similitud de esos E con el EC o Ed
original, denominada gradiente de generalizacin.

Medidas de la generalizacin
E mltiples

La tcnica de los E mltiples consiste en condicionar un E+ criterio y despus, durante una sesin de extincin,
presentar el E original junto a otros muchos semejantes (en orden aleatorio). Cada sujeto experimenta todos
los E generalizados, pero tiene el inconveniente de que responder a un E puede afectar la reaccin a otros.

E nico

Consiste en entrenar a los sujetos con el E original y despus ponerlos a prueba con slo una clave generalizada.
Se comparan los grupos. Requiere ms tiempo y es ms costosa, pero la reaccin del sujeto a un E generalizado
no se ve afectada por la exposicin a otros E.

Generalizacin
mantenida

Se refuerza a un sujeto de forma continua por responder a un E+ original (programa intermitente) administrando
peridicamente ensayos de prueba en los que se presenta un E generalizado sin reforzamiento. Los sujetos
experimentan todos los E y la fuerza de la R se mantiene a lo largo de la prueba, pero los sujetos discriminan
eventualmente el E+ original de los generalizados, y puede salir un gradiente artificialmente pronunciado.

Tipos de gradientes de generalizacin


E excitatorios e inhibitorios

Los E generalizados excitatorios producen la conducta, y la magnitud de la R es funcin directa de la similitud entre
los E de entrenamiento y de la prueba. Tambin en los E inhibitorios se da inhibicin condicionada, y el grado de
supresin est relacionado con la semejanza entre el E y las claves generalizadas.

Interaccin

Cuando el entrenamiento inicial implica la discriminacin entre una clave E y otra E+, y se evala despus la
generalizacin en una fase de prueba, se produce el efecto de desplazamiento del mximo.
Consiste en un alejamiento del mximo del gradiente excitatorio respecto al E+ original, en direccin opuesta a la
del E. El mximo de la curva no se encuentra en el E+ original, sino desplazado del E+ en direccin contraria al
E. Cuanto ms prximos se hallan el E del E+, mayor es el desplazamiento del mximo.
Segn SPENCE, los gradientes de generalizacin post-discriminacin se derivan de la interaccin entre los
gradientes de excitacin e inhibicin. Si los gradientes excitatorio e inhibitorio se miden separadamente y se
calculan las sumas algebraicas, el gradiente resultante muestra un desplazamiento del mximo que lo aleja del E+.
Sustrayendo cada valor del gradiente inhibitorio al valor correspondiente en el excitatorio se obtiene el gradiente
combinado o neto.

Teoras de la generalizacin
Como proceso primario
PAVLOV

HULL

La generalizacin es un proceso neurolgico primario. Cuando se activa un rea cerebral mediante un EC+, la
actividad elctrica se extiende a otras reas cercanas del cerebro, excitando as tambin los centros neurolgicos
de otros E.
Una R se condiciona respecto a una regin de valores del E, no a un nico valor. El sistema nervioso que percibe
un E, a diferencia de un instrumento cientfico, se encuentra en un estado constante de oscilacin o flujo; el
cerebro registra varios valores del E cuando percibe una clave, no un nico valor.

20

TARPY, R. M.

Como un fallo de diferenciacin

Aprendizaje

T LashleyWade

Con respaldo ms amplio, la T de Lashley-Wade indica que la generalizacin es una consecuencia de la


incapacidad del sujeto para diferenciar los E:

Los sujetos se confunden durante la prueba de generalizacin.

El sujeto aprende sobre la dimensin en la que se produce la generalizacin.

Hiptesis
inversa

La afirmacin de que la generalizacin consiste en un fallo de discriminacin se conoce por el nombre de hiptesis
inversa. Si los sujetos no pueden discriminar, generalizan. Si discriminan, la generalizacin es mnima y el
gradiente pronunciado. Los gradientes de generalizacin reflejan la capacidad del sujeto para discriminar.

Factores
atencionales

El entrenamiento de discriminacin previo afecta a la generalizacin, ya que atrae la atencin del sujeto
hacia la dimensin pertinente del E. En algunos casos, la atencin se debe a la saliencia de las claves; en otros, los
efectos atencionales se transfieren a E no utilizados en la discriminacin.

Modelos de procesamiento de la informacin de la generalizacin


Varios modelos indican que la generalizacin implica tambin el procesamiento de informacin.
Modelo de
BLOUGH

Modelo de
PEARCE

El modelo de BLOUGH es similar al de RESCORLA-WAGNER del condicionamiento pavloviano. Afirma que la


presentacin de un reforzador modifica la probabilidad de una R en presencia del EC de entrenamiento y de
otros EC generalizados que tienen elementos comunes con l.
Cada elemento o caracterstica posee capacidad para obtener fuerza asociativa mediante su emparejamiento con
un EI. Esta fuerza se suma a travs de todos los elementos, creando la fuerza asociativa total del E.
La fuerza de un E equivale a la suma de la fuerza de los elementos individuales ponderada mediante un factor de
generalizacin, que aumenta con la semejanza fsica entre los E. [Ecuacin]
PEARCE desarroll un modelo que supone que los animales poseen un almacn breve de memoria (buffer)
que contiene el patrn de estimulacin experimentado. Al aparecer un EI a continuacin, todas las
representaciones del EC en la memoria obtienen fuerza asociativa. Sin embargo, los contenidos del almacn breve
de memoria cambian cuando se presenta un nuevo E generalizado: ste produce una R en la medida en que los
elementos que activa poseen ya fuerza asociativa derivada del entrenamiento inicial. El entorno del E se
representa como un conjunto de elementos en la memoria.
La magnitud de la R generalizada viene determinada por la proporcin de elementos comunes tanto a las claves
original como generalizada. Si dos estmulos son similares, ASA (grado de similitud de los contenidos del buffer
para 2 E distintos) se aproxima a 1; si no, su valor se aproxima a 0. [Ecuacin]

Generalizacin como R relacional


La R generalizada no se basa en las diferencias fsicas absolutas entre E, sino en sus diferencias relativas.
Efecto de
tendencia
central

THOMAS y JONES comprobaron que en un grupo de sujetos, en lugar de mostrar la misma reaccin de
generalizacin a dos E semejantes fsicamente en el mismo grado al original, el mximo de los gradientes se
desplaz respecto al valor original en direccin hacia los E de prueba.

Modelo del
efecto del
nivel de
adaptacin

Para explicar este fenmeno, THOMAS propuso que los sujetos juzgan sus E respecto a un referente ya
almacenado, o representacin subjetiva del valor medio con el que se encuentran. Si los sujetos experimentan slo un valor de E, este valor se convierte en referente. Si experimentan valores mltiples, adquieren un
referente del nivel de adaptacin, o representacin de memoria, correspondiente al valor medio de todos los E. Su
R se basa en este valor medio. [Ecuacin]

Factores que afectan al gradiente de generalizacin


Un gradiente de generalizacin pronunciado refleja escasa generalizacin, al contrario de los ms planos.
Grado de
entrenamiento

La cantidad de entrenamiento administrado con el E+ influye en la generalizacin. Cuanto ms extenso es el


entrenamiento, menor es la generalizacin. Estos hallazgos respaldan la concepcin de Lashley-Wade: a medida
que los sujetos se familiarizan con la dimensin en la que difieren los E, la discriminacin cobra mayor fuerza y,
por consiguiente, la generalizacin es ms dbil.

Intervalo
entrenamientoprueba

La generalizacin aumenta con el tiempo, no porque el sujeto responda menos a la clave E+ original, sino
porque los E generalizados ms discrepantes, los cuales no produjeron al principio una R de generalizacin fuerte,
ejercen un mayor control a medida que transcurre el tiempo.
Los detalles de un E particular se olvidan con el tiempo.

Contexto

Aunque el transcurso del tiempo hace ms plano el gradiente de generalizacin, un cambio en el contexto
general disminuye la generalizacin. Parece que se distorsionan los detalles del contexto de entrenamiento
original, provocndose as un fallo de recuperacin de memoria. Los sujetos generalizan menos cuando se cambia
el contexto pero generalizan ms a medida que transcurre el tiempo.

Entrenamiento de
discrimin.
previo

Cuando el sujeto recibe un entrenamiento de discriminacin seguido de una prueba de generalizacin, el


gradiente es ms pronunciado que si el sujeto no recibe dicho entrenamiento. Es un respaldo para la T de
Lashley-Wade: para discriminar entre 2 E, un sujeto debe aprender las dimensiones relevantes del E
implicadas en la discriminacin. Al hacerlo, confunde menos el E y muestra menos generalizacin.

21

TARPY, R. M.

Aprendizaje
Entrenamiento de discriminacin: tipos de discriminacin
El entrenamiento de discriminacin comporta la presentacin de reforzamiento tras una R a un E+, pero la omisin
de reforzamiento tras una R a un E. El hecho de que el animal responda de forma distinta a los dos E indica que
ciertas propiedades salientes del E controlan la conducta.

Simultnea

En la tcnica simultnea, E+ y E se presentan a un tiempo, y se utilizan dos teclas de R distintas.

Sucesiva

Consiste en presentar el E+ y el E sucesivamente. La medida de la discriminacin depende de que el sujeto


responda de forma distinta. Una versin especial es la de discriminacin respuesta/no respuesta, en la que el
E+ es la presencia de una clave, y el E su ausencia. Las discriminaciones sucesivas son ms difciles de resolver
que las simultneas.

Discrimin. de
programas
de reforzamiento

Las tcnicas de discriminacin simultnea y sucesiva establecen un contraste entre una condicin reforzada y otra
no reforzada. El programa de recompensa puede variar tambin durante las presentaciones del E+ y el E.
Un ejemplo de simultnea es el programa concurrente, en el que el sujeto escoge entre 2 opciones de R.
Un ejemplo de discrimnacin entre programas de reforzamiento que utiliza una aproximacin sucesiva es el
programa mltiple. Los sujetos obtendran una recompensa, por ejemplo, durante la presentacin de una tecla
verde segn un programa de IV de un minuto, pero cuando el Ed se volviese rojo, la recompensa se obtendra con
un programa de reforzamiento distinto, como un IV de 2 minutos. Los componentes se dan de forma secuencial.
La evidencia de la discrimnacin es la tasa diferencial de R a cada componente.

Discrimin.
condicional

Una discriminacin condicional se produce cuando el sujeto efecta la R1 en presencia del E1, pero una R2
ante E2. La R correcta depende del E presentado. La discriminacin condicional es esencialmente lo mismo que la
inhibicin condicionada y la modulacin en el CC.

Teoras de la discriminacin
HULL-SPENCE
Establece

3 supuestos:
El reforzamiento da lugar a la excitacin condicionada al E+.
La ausencia de reforzamiento produce la inhibicin condicionada al E.
La excitacin y la inhibicin se generalizan a otros E, y estas tendencias contradictorias se suman
algebraicamente para cualquier E dado.
Que un sujeto tenga una reaccin cuando se le presenta un E dado depende de la fuerza relativa de las tendencias
excitatoria e inhibitoria generalizadas a ese E. La ejecucin se hace patente cuando la tendencia excitatoria es
superior a la inhibitoria. Viene respaldado por el desplazamiento del mximo.

T atencional de la discriminacin de SUTHERLAND y MACKINTOSH


El aprendizaje de discriminacin consta de 2 procesos diferenciados:

La propia atencin resulta afectada cuando se refuerza al sujeto. El cerebro posee analizadores que
reciben y procesan informacin sensorial; cada dimensin de un E se representa mediante un analizador
distinto. Si un E posee un rasgo saliente, como el brillo o el color, la atencin del sujeto resulta
atrada por esa dimensin, y la fuerza del analizador se relaciona con la de la seal entrante. Esto
explica el que los E ms fuertes susciten una mayor atencin y se condicionen con mayor facilidad.

El segundo proceso consiste en la adquisicin de una R. Se desarrolla un vnculo o unin entre una R
especfica y un analizador.

Factores que afectan a la discriminacin


Dificultad

El aprendizaje de discriminacin es ms rpido cuando los E+ y E se distinguen con facilidad.

Discrimin.
previa

La experiencia previa con un problema de discriminacin influye en cmo el sujeto aprende el segundo problema.
Es el efecto de fcil a difcil. La explicacin de LAWRENCE fue que los animales atienden mejor a la dimensin
relevante del E con una tarea fcil, y que esta reaccin de atencin facilita la discriminacin difcil en la misma
dimensin. Otra T sostiene que la facilitacin de la discriminacin procede de una mejora en la capacidad
general del sujeto para resolver problemas de discriminacin.

Informacin
del E

El valor informativo de un Ed afecta al aprendizaje de discriminacin. Cuando los sujetos cuentan con
buenos E predictores, si se aade un elemento redundante al compuesto, adquiere escasa fuerza. El Ed adquiere
fuerza como consecuencia de su validez relativa. Estos resultados respaldan la T de la atencin de discriminacin,
los sujetos prestan atencin a los E relevantes o predictivos para resolver la discriminacin.

Efecto de la
consecuencia
diferencial

Se trata de en qu medida la R da lugar a una nica consecuencia. Se responde de forma distinta a E1 con
R1 y a E2 con R2 cuando R1 produce una consecuencia C1 y R2 otra C2. La discriminacin es ms eficaz en la
condicin de consistencia. Se ha explicado la facilitacin del aprendizaje de discriminacin en trminos de la
representacin del reforzador: las distintas consecuencias facilitan que el sujeto adquiera una expectativa de lo que
viene a continuacin de la secuencia E-R.

22

TARPY, R. M.

Aprendizaje
Fenmenos de discriminacin
Efecto del sobreaprendizaje en la inversin
Contradiciendo la T de discriminacin de SPENCE, los animales que recibieron entrenamiento extra
aprendieron la discriminacin inversa con mayor facilidad que el grupo de control. Este efecto se obtiene
slo cuando se emplea un problema de discriminacin relativamente difcil y se administra una recompensa grande
por la R correcta.

T de la
atencin

La T ms exitosa del efecto del sobreaprendizaje de la inversin es la T de la atencin, segn la cual la


atencin a la dimensin relevante, de la que depende la discriminacin, fortalece la R de atencin o analizador. La
t supone tambin que la discriminacin se produce sin que el sujeto atienda de forma exclusiva a la dimensin
relevante del E. El sobreentrenamiento sigue fortaleciendo el analizador respecto a la dimensin
pertinente mientras reduce la fuerza de los analizadores de la atencin para las dimensiones no
pertinentes. Durante el aprendizaje de inversin, los animales que han sido entrenados slo con el criterio
normal no estn prestando su mxima atencin a la dimensin relevante, a diferencia de los sobreentrenados, en
los que los otros analizadores se han debilitado durante los ensayos de sobreentrenamiento.
La T de la atencin ha sido cuestionada. Se sugiere que los animales son ms eficaces resolviendo problemas en
general, no porque su atencin a una dimensin especfica haya aumentado.

Disposiciones de aprendizaje
La discriminacin de nuevos objetos mejora si se administra de antemano un entrenamiento de
discriminacin con otros E. La exposicin a muchos problema de discriminacin distintos produce un aumento
espectacular de la capacidad para aprender nuevos problemas.
Un trabajo de HARLOW con monos rhesus demostr un principio importante del aprendizaje: que las experiencias
de aprendizaje previas pueden influir en la capacidad para resolver problemas, la capacidad para aprender en s.
Resulta muy relevante para los organismos en su medio natural, ms expuestos a problemas de discriminacin que
los animales de laboratorio.
La ejecucin de disposiciones de aprendizaje puede diferir segn las especies (aunque est poco probado). Est
clara la variacin en funcin de los E: las ratas son ineficaces ante E visuales, pero muy eficaces con olores, a un
nivel comparable a la ejecucin de los primates. Por tanto, la formacin de disposiciones de aprendizaje no parece
ofrecer una medida simple de la inteligencia general.
Desarrollo
de hiptesis

La T de la formacin de las disposiciones de aprendizaje de HARLOW afirmaba que un sujeto aprende lo que no
ha de hacer. La tendencia a realizar una eleccin incorrecta se inhibira gradualmente. LEVINE propuso que los
animales desarrollan, y ponen despus a prueba, hiptesis sobre los problemas de discriminacin; stas son
confirmadas o rechazadas segn el resultado. La estrategia ms habitual es ganar-continuar con el objeto;
perder-cambiar a otro objeto. La investigacin respalda la T de LEVINE.

Transferencia despus de la discriminacin


Transfer.
intra y
extradimensional

La experiencia con problemas de discriminacin se transfiere a nuevos problemas. Se produce la facilitacin slo
cuando se utiliza la misma dimensin estimular (cambio intradimensional) u ocurre tambin con una nueva
dimensin del E (cambio extradimensional)?
La experimentacin sugiere que se dan ambos cambios, pero resulta ms fcil cuando el problema inicial implica
la misma dimensin del E que cuando comporta una nueva dimensin.
La T de la atencin explica esta diferencia: una vez se produce el cambio en fase 2, los sujetos
intradimensionales poseen ya una fuerte R de atencin a la dimensin apropiada; los extradimensionales han de
suprimir la atencin a la dimensin anteriormente relevante y aprender a prestar atencin a la nueva dimensin.

Aprendizaje del rasgo


Efecto del
rasgo
positivo

Aadir un rasgo distintivo a la tecla E+ produce un mejor aprendizaje de discriminacin que incluir ese
rasgo en la presentacin del E.
Un fenmeno relacionado es el efecto del rasgo positivo, cuando el rasgo predictivo simple que distingue al E+
del E forma parte fsicamente de la presentacin del E+. El aprendizaje de discriminacin era ms eficaz cuando
la caracterstica distintiva se encontraba en la tecla E+ que cuando formaba parte del E.
Estos resultados se explican recurriendo a 2 conceptos:

La R est relacionada con la atencin. Para efectuar la R correcta, los animales han de prestar
atencin al elemento distintivo; cuando forma parte del E+ se refuerza de forma inmediata, lo cual
fortalece ms la R de atencin.

La ejecucin puede estar relacionada con el seguimiento del signo, reacciones motoras dirigidas hacia
los E asociados con la recompensa, y de alejamiento de claves asociadas con ausencia de recompensa.
Cuando el rasgo forma parte de la presentacin del E+, se facilita el aprendizaje de discriminacin
porque la reaccin es recompensada inmediatamente.

23