Vous êtes sur la page 1sur 7

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014

TEMA 5 P: PROGRAMAS Y TEORIAS DEL


REFORZAMIENTO
I PROGRAMAS DE REFORZAMIENTO
A PROGRAMAS BASICOS DE REFORZAMIENTO
Cada programa => regla que especifica condiciones de reforzamiento.
REFORZAMIENTO PARCIAL: aprendizaje ms duradero y con mayor resistencia a la extincin que
REFORZAMIENTO CONTINUO.
RAZON
INTERVALO
FIJA
VARIABLE
FIJO
VARIABLE
Mismo num de respuestas Num
de
respuestas Mismo
tiempo Tiempo
transcurrido
requerido para conseguir requerido varia de manera transcurrido
requerido variable alrededor de
reforzador
irregular alrededor de para conseguir reforzador promedio
promedio
RF
RV
IF
IV

Desarrollo rapido si razon Altas,


constantes, se Tasa mayor cerca del final Constantes pero < RV
pequea
aproximan a limites cap
del intervalo, aumenta Perseverancia elevada
Break and Run
Perseverancia elevada
progresivament
Festoneado
Registrador acumulativo: se puede medir
Numero de respuestas (pluma hacia arriba)
Numero de pausas (pluma no se mueve)
Tiempo Entre Respuestas (TER)
Tiempo total en responder o en estar sin responder
Perseverancia (responder/estar sin responder)
Ocurrencia de otros sucesos ambientales
Ventajas frente a otras tcnicas:
Medir respuestas que ocurren muy rpidamente
Registrar estructuras complejas de comportamiento sin perder detalles
de cambios pequeos
Medicin no contaminada
En los programas RF, si razn elevada, se observa una pausa post-reforzamiento que se sigue de una transicin casi
instantnea a una tasa alta de respuesta posterior (carrera de la razn)
Si el requisito de la razn es muy alto, se puede dejar de responder por completo: tensin de la razn
En los programas de IF, proceso de discriminacin temporal, responden cuando subjetivamente consideran que es
altamente probable la consecucin del reforzador.
Aparece una pausa tras cada reforzamiento en los programas FIJOS.
RF => se pausa de la pausa a una tasa alta y estable
IF => se pausa de la pausa a una aceleracin gradual
En un programa de INTERVALO, la disponibilidad del reforzador suele estar limitada en el tiempo =>
DURACION LIMITADA.

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


La duracin de la pausa post reforzamiento en los RF se incrementa sistemticamente a medida que aumenta el
requisito de la razn. Igualmente, a mayor duracin del intervalo, mayor pausa.
Segn Killeen, en RF depende ms de la frecuencia de reforzamiento (determinada por intervalo)
En programas de razn, pausa ms determinada por el programa que se va a completar que por el ocurrido
antes. Ej: pausas ms largas en transiciones L-L y C-L. En programas de intervalo, pausa se ajusta proporcional y
rpidamente a los cambios en la frecuencia del reforzamiento.
Las variables de control sobre la longitud de la pausa post-reforzamiento no son tan diferentes entre I y R.
1 PROGRAMAS DE RAZON FRENTE A DE INTERVALO: FUNCIONES DE RETROALIMENTACION
A iguales tasas y patrones de reforzamiento, tasa de respuesta mayor en programas de razn.
Para igualar, usan como base el tiempo necesario para dar todas las respuestas en el programa de razn, y
as se equiparan los programas en cuento al nmero de reforzadores y su distribucin.
En PI, tasa respuesta no influye directamente sobre frecuencia admin # PR.
PI tienden a reforzar TER largos (mero paso tiempo aumenta proba reforzamiento) lo que reduce tasa respuesta.
PR no refuerzan diferencialmente unos TER (aunque con tendencia a resp en rfagas, + proba de reforzar TER
cortos)
Baum:
Explicacin MOLECULAR: un acontecimiento es suficiente para producir un efecto. Meca explicativo:
variaciones momento a momento en la contigidad respuesta-reforzador. Reforzamiento diferencial TER
Explicacin MOLAR: en RV hay una correlacin directa entre tasa respuesta y reforzamiento # IV. Meca
explicativo: variables explicativas son fenmenos temporalmente extensos, nfasis en correlacin.
Funciones de retroalimentacin que relacionan la conducta con el reforzador.
FUNCION DE RETROALIMENTACION: descripcin de la forma en que acta el ambiente en funcin de
algn aspecto de la ejecucin conductual. Asume que la conducta afectar a algn aspecto del ambiente pero no
necesariamente es una relacin causal (correlacin).
En programa R => R = B/N (N = num de respuestas requeridas por reforzador, R = tasa de
reforzamiento y B = tasa de respuesta emitida) Cuanto ms rpido se responda, mayor R.
En programa I => ms difcil calcular. Funcin
hiperblica.
Cambios tasa baja => afecta mucho
reforzamiento pero cambios tasa alta =>
no afecta (efecto techo)
Cuanto ms corto el intervalo ms es
cierto (IV 30 # IV 240).
reas aplanadas hiprbola => control diferencial bastante dbil lo que explica la mayor
variabilidad entre sujetos.
Ej. De funcin de retroalimentacin plana: experimento de supersticin (no contingencia).

B PROGRAMAS DE REFORZAMIENTO DIFERENCIAL DE TIEMPOS ENTRE


RESPUESTAS
Reforzamiento diferencial de tasas bajas de respuesta (RDB): reforzar nicamente los TER superiores a
tiempo determinado.
Diferencia con IF: en RDB solo se refuerza la respuesta si ha transcurrido cierto tiempo desde ultima
respuesta, mientras que en IF se refuerza si ha transcurrido cierto tiempo desde anterior reforzador.
Contingencia de castigo para respuestas que ocurren antes del tiempo especificado, pero la respuesta
criterio sigue siendo necesaria (# entrenamiento de omisin).
Ms difcil que RDA (se puede deber a induccin de respuestas por reforzamiento espaciado /
degradacin valor reforzador por encontrarse demorado)
Reforzamiento diferencial de tasas altas de respuesta (RDA): reforzar nicamente los TER inferiores a
tiempo determinado.
Castigo diferencial de las respuestas que ocurren despus del tiempo (reinicializa intervalo).
1 TEORIA DE REFORZAMIENTO DIFERENCIAL DE LOS TER
En todos los programas de CO se refuerzan especficamente TER de una duracin determinada.
RV e IV
RF e IF

Tasa de respuesta muy constante, TER homogneos, reforzamiento diferencial TER (ms largos en IV)
No constancia, pausas largas. TER cortos deberan ser reforzados, pero no debera darse pausa. Otros meca

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


Meca de discriminacin temporal: competicin entre respuestas en funcin del momento en el intervalo.
Tanno y Silberberg: influencia del TER en la tasa de respuesta depende de manera exponencial a su
distancia relativamente a la ocurrencia del reforzador (TER ms alejados pesan menos). Mayor sensibilidad
de emparejamientos locales respuesta-reforzador.

C PROGRAMAS COMPUESTOS DE REFORZAMIENTO


1 PROGRAMAS ALTERNANTES Y SECUENCIALES: EL CONTROL POR ESTIMULO Y
REFORZAMIENTO CONDICIONADO

Mixto: se presentan dos o ms programas bsicos alternndose al azar. Cambio de uno al otro depende de
tiempo preestablecido.
Mltiple: igual pero con seales de cada programa.
Tndem: al menos dos programas simples que se presentan siempre en el mismo orden. Los sujetos deben
completar el primero para acceder al secundo, al final del cual consiguen el reforzador.
Encadenado: igual pero con seales de cada programa.
2 PROGRAMAS SIMULTANEOS: PROGRAMAS CONCURRENTES Y PROGRAMAS COMBINADOS
Concurrentes: disponer simultneamente de al menos dos programas bsicos del mismo tipo. Se puede cambiar
de uno al otro libremente. Los sujetos tienen que elegir.
Alternativo: disponer simultneamente de al menos dos programas bsicos de tipo distinto (I y R). Se refuerza
cuando se cumple con el requisito de cada programa de manera independiente.
Conjuntivo: igual pero se refuerza respuesta cuando se cumple al mismo tiempo con requisito de R e I, es decir,
dar un numero de respuestas en un tiempo determinado.
Entrelazado: la disposicin de uno de los programas se altera por el desarrollo del otro, es decir, cumplir con un
criterio repartido entre tiempo y numero de respuestas (no los dos a la vez)
Mixtos y Multiples
Estudio control estimular

Tandem y Encadenado
Estudio reforzamiento condicionado

Concurrentes
Estudio conducta eleccin

II CONDUCTA DE ELECCION
Ra y Rb = tasas de respuestas en a y b.
= Tasas relativa de respuesta
Eleccin de Premios concurrentes: usados antes. Se elige entre 2 RO diferentes (correr o beber por ej.)
No es el mas adecuado
Eleccin de Respuestas Instrumentales concurrentes: se elige entre 2 RO idnticas pero que pueden llevar a
# premios.

A LA LEY DE IGUALACION
Herrnstein: programa concurrente donde alternativas diferan en la frecuencia de reforzamiento, programa
independiente de IV.
Ley de igualacin: la tasa relativa de respuestas entre dos alternativas concurrentes es igual a la frecuencia
relativa de reforzamiento asociada con cada alternativa.
Fa y Fb = frecuencias de reforzamiento de a y b.
Relacin LINEAL
Tambien se iguala con otros parmetros:
Ma y Mb = magnitud reforzador
Da y Db = demora reforzador

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


B MAXIMIZACION: ELECCION ENTRE PROGRAMAS CONCURRENTES DE
RAZON
En programas concurrentes de razn: se tiende a elegir la alternativa que tiene la razn ms baja
Comportamiento adaptativo
nico componente que cumple con la ley de igualacin en un programa concurrente de razn (tasa relativa
respuesta = 1 y tasa relativa reforzamiento = 1).
En programas concurrentes de ambos tipos: se tiende a preferir alternativa programa razn pero preferencia no es
tan marcada como se esperara (dedicacin extra al programa de intervalo).

C IGUALACION TEMPORAL
Se iguala el tiempo de estancia en las alternativas de respuesta con la tasa relativa de reforzamiento.
Findley: variante programa concurrente intervalo (parecido a mltiple).
Una misma tecla para los dos programas
Una tecla de cambio
Permite distincin entre respuesta de cambio y respuesta instrumental.
Brownstein y Pliskoff: programa tipo Findley sin la tecla de RI. A mayor permanencia, mayor preferencia.
Igualacin temporal:
Ta y Tb = tiempos de permanencia en a y b.
Se encuentra en procedimientos concurrentes con o sin RI,

D LEY GENERALIZADA DE LA IGUALACION


Influencias no deseables:
Comportamiento de alternancia: cambio intermitente de una alternativa a otra sin que guarde relacin
con reforzadores asociados a cada alternativa. Tendencia natural en animales. Reforzamiento accidental
en los programas de I que fortalece este comportamiento.
DEMORA POR EL CAMBIO: introducir breve periodo despus de la primera respuesta para que pueda entrar
en funcionamiento el programa asociado. Sujetos abandonan conducta alternancia. DPC garantiza
independencia de operantes de respuesta.
Sesgos: disposicin espacial de las alternativas, color, iluminacin fuerza requerida para responder
Igualacin factores secundarios no siempre posible
Baum: mtodo para corregir influencia sesgos (Sa y Sb)
1. Equiparar factores de reforzamiento entre alternativas
2. Medir preferencias relativas sujetos (si desviacin => contribucin sesgo)
3. Una vez conocido el valor de los sesgos relativos, se varian los factores de reforzamiento
4. Se deber observar una desviacin paralela a la igualacin en direccin del sesgo.
Idea de que calculo auto en cerebro => los ajustes tan exactos como predichos no se cumplen.
Sobreigualacin: cuando mejor alternativa valorada por encima (cuando DPC larga o
cambio muy costoso)
Infraigualacin: cuando mejor alternativa valorada por debajo (ms comn)
Siempre se habla de la tasa de respuesta en la alternativa ms favorable
Ampliacin de la ecuacin:
k = sesgos relativos
s = exponente de
sensibilidad
hacia
programas del reforzamiento
s < 1 = infraigualacion
s > 1 = sobreigualacion
s = 0 tasas de respuestas siempre iguales (insensibilidad a
contingencias total).

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


E TEORIAS DE LA IGUALACION
Aproximacin molecular: cambio de una alternativa a otra cuando PROBA MOMENTANEA DE
REFORZAMIENTO sea mayor en la otra alternativa. Se elige la que proporciona mayor proba relativa de
reforzamiento.
Explica bastante bien distribucin en programas concurrentes de intervalo
Explica preferencia reforzadores variables: se aumenta proba de mayor contigidad entre respuesta y consecucin
reforzador
Aproximacin molar: se distribuyen las respuestas de acuerdo con un clculo GLOBAL DE TASAS
RELATIVAS DE REFORZAMIENTO entre las dos alternativas. Se elige la que proporciona mayor frecuencia
de reforzamiento.
Problemas para explicar no preferencia casi exclusiva por programa de razn en RV-IV, el por qu los animales
prefieren reforzadores variables a fijos
Aproximacin del mejoramiento: sntesis. Eligen entre 2 alternativas de manera que se IGUALEN TASAS
LOCALES DE REFORZAMIENTO. Alcance a ms largo plazo pero en trminos de tasa local. Con la
igualacin temporal, las tasas locales de respuesta y reforzamiento sern muy parecidas (consecuencia de elegir
alternativa que presente mejor tasa local de reforzamiento)
Cuidado: tasa de respuesta/reforzamiento = nmero de respuestas o reforzadores por tiempo de estancia en la alternativa

F IMPULSIVIDAD Y AUTOCONTROL: LA ELECCION CON COMPROMISO


Cadenas concurrentes de respuesta: se mide la eleccin entre diferentes fuentes de premios.
Procedimiento que permite que los sujetos sean ms
consecuentes al decidir sus respuestas de eleccin.
Permite separar aprendizaje de responder / aprendizaje
de eleccin
Los sujetos igualan la tasa relativa de respuesta en
eslabones terminales con la tasa relativa de reforzamiento
Tambin igualan tasa relativa de respuesta en eslabn
inicial con tasa relativa de reforzamiento en eslabones terminales.
Los programas CONCURRENTES encadenados se
parecen ms a la realidad.
Trabajo de Rachlin y Green:
Dos opciones: recompensa pequea inmediata o
recompensa mayor demorada.
Eleccin directa (programa concurrente simple): se
prefiere la opcin de recompensa pequea aunque no es mas ventajosa
Eleccin en programa concurrente encadenado: tiempo
constante de esperar para poder acceder al refuerzo => se prefiere la opcin de recompensa mayor.
La fuerza de la inmediatez del reforzador se debilit y eleccin guida por magnitud
IMPULSIVIDAD = preferencia por recompensa pequea inmediata
AUTOCONTROL = preferencia por recompensa mayor demorada
As, los diferentes factores del reforzador no influyen todos de la misma manera!
Extensin de la ley generalizada de igualacin (incorporando frecuencia y
magnitud)

G LA NOCION DE VALOR DE LOS REFORZADORES

Valor de la alternativa: aumenta con la magnitud y disminuye con la demora del reforzador.
V = M / D (V = valor, M = magnitud, D = demora)
Ej.: IV-30 / IV-20 con magnitud doble en IV-30 y IV-40 / IV-15 con magnitud doble en IV-40
V de IV-30 = 2/30 = 0.07 y V de IV-20 = 2/20 = 0.05 => muestran comportamiento autocontrolado
V de IV-40 = 2/40 = 0.05 y V de IV-15 = 1/15 = 0.07 => muestran comportamiento de impulsividad

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


Aadir un retraso constante a la entrega de los dos reforzadores vuelve un comportamiento impulsivo en
autocontrolado.
Explicacin de Mazur:
Funcin hiperblica
Va = valor reforzador a, Ma = magnitud, Da = demora, k = tasa de descuento demora (que
indica a qu punto se aprecian los reforzadores demorados, depende del indiv y situacin)
Cuando reforzador grande y otro peque son demorados, aunque el primero lo sea mas, el valor
del grande ser superior. Ej: Va = 5 / 1 + 50 = 0.1 y Vb = 2 / 1 + 30 =0.06
El valor del pequeo ser mayor cuando la espera para el pequeo sea relativamente pequea. Ej:
Va = 5 / 1 + 30 = 0.16 y Vb = 2 / 1+5 = 0.33
Valor castigo tambin cambio segn funcin semejante
Si muy demorados: incide ms la diferencia de magnitud (se prefiere castigo pequeo inmediato)
Si menos intenso inmediato: incide ms la demora (se prefiere castigo grande demorado)

H LA TASA DE RESPUESTA EN RELACION A LA LEY DE IGUALACION


Herrnstein: considera que cualquier situacin implica eleccin.
Pero tambin existen recompensas implcitas, as, el reforzamiento total es la suma de los reforzadores
programados y de los no programados

con Ro = tasa de otras actividades, Ra = tasa de respuestas operantes, Fa = frecuencia de


reforzamiento explicito programado y Fo = frecuencia de reforzamiento intrnseco otras actividades.
Tasa total (Ra + Ro) debera ser una constante puesto que al cambiar una se redistribuye entre las
alternativas disponibles

con k = Ra + Ro
As la tasa absoluta de respuesta (Ra) est en funcin de la tasa relativa de reforzamiento de esa conducta
en relacin con otras.
Par aumentar Ra, podemos aumentar Fa o disminuir Fo.
Cuantificacin de la ley del efecto de Thorndike.

III LA NATURALEZA DE LA ASOCIACION EN EL APRENDIZAJE


INSTRUMENTAL
Cmo se desarrolla fuerza respuesta? Respuesta asociativa.

THORNDIKE E-R

GUTHRIE

E-R

HULL

E-R

TOLMAN

E-E

Asociaciones E-R dependen propia consecuencia accin. Ley terica del efecto.
Reemplaz principio de Spencer-Bain (accin espontnea seguida placer ms probable q vuelva a
occurir) e inaugur investigacin expe en condicionamiento instrumental.
Reforzador facilita formacin asociacin.
Distingui entre actos y movimientos
Guthrie y Horton => cada gato escapaba de una forma diferente
Refuerzo E-R debido a reduccin impulso
Introduce concepto motivacin e incentivo
Psi hipottico deductivo y neoconductista
H = fuerza habito, D = impulso, I = incentivo, E = ejecucin
Expe con ratas nadando en laberinto: consiguen escapar corriendo.
Aprenden un mapa cognitivo (resultado opuesto a E-R)
Cambios en conducta resultados de procesos como expectativa recompensa
Distinguir entre aprendizaje y ejecucin

IV REGLAS DE EJECUCION OPERANTE


Herederas del planteamiento conceptual de Skinner. Ley emprica del efecto o ley del refuerzo.

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5 2014


Los reforzadores seleccionan la respuesta, no otorga papel necesario a la formacin de ningn tipo de
asociacin concreta, los estmulos ambientales son sealizadores

A TEORIA DE LA PROBABILIDAD DIFERENCIAL


Premarck: las respuestas que acompaan a estmulos reforzadores son altamente probables
La razn de que una respuesta se convierta en reforzadora depende de su proba de ocurrencia en lnea de base
La respuesta ms probable reforzar a la menos probable, pero la menos probable no
reforzar a la mas probable
PRINCIPIO DEL REFORZAMIENTO: reforzadores derivan su efecto de las disposiciones
experimentales en forma de relaciones de contingencia y cualquier evento puede convertirse en un
reforzador eficaz.
Actividad debe ser preferida en lnea de base (donde conductas libremente disponibles sin limitacin)
Proba de ocurrencia de actividad preferida debe restringirse y ocurrir de forma contingente
con la realizacin de actividad menos preferida
La actividad menos preferida se convierte en instrumental
Es lo que ocurre normalmente en los experimentos de CO.
Ej. Expe de Premarck: si beber es ms probable que correr (por privacin de bebida), entonces beber puede reforzar conducta de
correr / si correr es ms probable que beber (condicin sin privacin) entonces correr puede reforzar conducta de beber.
Ej. Expe con nios: segn preferencia de comer golosinas o jugar a maquinitas del milln y segn las contingencias, comer golosinas
puede reforzar el juego o al revs.
PRINCIPIO DEL CASTIGO: una actividad de baja proba puede castigar una de alta proba si se
aumenta su proba de ocurrencia y suceda en contingencia con la de alta proba.
Esta concepcin siempre estar limitada por no saber el por qu se tiene preferencia por una actividad.
Problema de medir la probabilidad: frecuencia de ocurrencia respuesta (solo si respuestas parecidas topogrficamente) => considerar
proba en una dimensin temporal (tiempo dedicado a una actividad / tiempo total) y medir proba momentnea (varan con el tiempo)

B TEORIA DE LA PRIVACION DE RESPUESTA


No basta con la proba diferencial, la eficacia del reforzador depende de que estn limitadas las posibilidades de
ejecutar la respuesta (restriccin).
Eisenberger, Karpman y Trattner => los programas de reforzamiento incrementarn la frecuencia de ocurrencia de la
respuesta operante por encima de su lnea base dichos programas privan al individuo de realizar la resp.
Timberlake y Allison => HIPOTESIS DE LA PRIVACION DE RESPUESTA: para que actividad sea
reforzador eficaz solo es necesario restringir la realizacin de dicha actividad en relacin con su ocurrencia en el
punto de bienestar. No es necesario que sea preferida # Premarck.
I/R > Oi / Or (I = Resp Instrumental, R = Reforzador, Oi = actividad que ser instrumental, Or =
actividad que ser reforzadora)
La frecuencia de la resp se estabiliza en el punto en que el coste de incrementos mayores sobrepase el beneficio de obtener el reforzador lo ms
cerca posible del nivel alcanzado en la lnea de base. Minimiza la distancia al punto de bienestar cumpliendo con la contingencia.
Cuando la actividad se restringe, es la reforzadora.
Esta hiptesis predice tasa de reforzamiento y de respuesta se relacionan en forma de U invertida (bitonica)
A medida que el requerimiento del programa sea mayor, el nmero de respuestas debe aumentar
inicialmente porque el beneficio de obtener el reforzador compensa el coste, pero llega un punto
en el que ya no compensa ms.
Funcin lineal o bitonica
depende de la longitud de
sesin expe (contingencias
se separan ms a medida que
se
aumente
num
de
reforzadores)