Aprendizaje T5

Tema 5 CONDICIONAMIENTO INSTRUMENTAL FUNDAMENTO
En este captulo se vuelve la vista al anlisis de las situaciones de aprendizaje en las cuales los estmulos a los que un organismo se enfrenta son el resultado directo de su conducta, descrita como dirigida a una meta. La conducta de sucede debido a que ha servido previamente como instrumento para producir ciertas consecuencias se denomina conducta instrumental. Primeras investigaciones sobre el condicionamiento instrumental. Los anlisis tericos y de laboratorio del condicionamiento instrumental comenzaron formalmente con el trabajo de thorndike, su intencin original era estudiar la inteligencia animal. Estudio la cuestin planteada por Darwin sobre que capacidades intelectuales humanas estaban presentes en los animales mediante investigacin emprica, para ello invento una serie de cajas problema donde introduca un gato hambriento con algo de comida fuera de la vista del animal, su tarea era aprender a salir de la caja y obtener la comida. La cuidadosa aproximacin emprica de Thorndike fue un avance significativo en el estudio de la inteligencia animal. Otra contribucin importante fue la estricta evitacin de interpretaciones antropomrficas de la conducta observada, en lugar de ello interpreto los resultados de sus estudios como el reflejo del aprendizaje de una asociacin E-R .A medida que la asociacin o conexin entre las claves de la caja y la respuesta con xito se haca ms fuerte, el gato llegaba a realizar esta de forma ms rpida. La consecuencia de la respuesta exitosa fortaleca la asociacin entre los estmulos de la caja y esa respuesta. Sobre la base de eta investigacin, Thorndike formulo la ley del efecto: si una respuesta en presencia de un estimulo es seguida por un suceso satisfactorio, la asociacin E-R se fortalece, si es seguida por un suceso molesto, se debilita. Esta ley implica un aprendizaje ER. Aproximaciones modernas al estudio del condicionamiento instrumental. Procedimientos de ensayo discreto
Similares al mtodo de Thorndike, W.S.Small (1899,1900), introdujo el laberinto en las investigaciones sobre aprendizaje inspirado en las madrigueras bajo tierra. Otro laberinto muy utilizado es el de forma de T, diseado para estudiar la conducta de eleccin La conducta en el laberinto puede cuantificarse midiendo la velocidad de carrera, que normalmente aumenta con ensayos de entrenamiento repetidos. Otra medida comn es la latencia , tiempo que tarda el animal en abandonar la caja salida y empezar a desplazarse por el pasadizo, las latencias se hacen ms cortas a medida que progresa el entrenamiento. Procedimientos de operante libre Permiten al animal que repita la respuesta instrumental una y otra vez sin restricciones, ideado por Skinner para estudiar la conducta de una manera ms continua. Estaba interesado en analizar en el laboratorio una forma de conducta que fuese representativa de toda la actividad en curso que ocurra de forma natural. La conducta no se divide como si fueran molculas, por eso propuso el concepto de operante como la forma de dividir la conducta en unidades medibles con significado. Una respuesta operante se defina a partir del efecto que produce en el ambiente. Las actividades que provocan el mismo efecto ambiental se consideran ejemplos de la misma operante. Entrenamiento y moldeamiento al comedero: Hay algunos pasos preliminares para establecer la conducta de presin de la palanca, 1 los animales tienen que aprender cuando est disponible la comida en el comedero, esto comprende un condicionamiento clsico, tras suficientes emparejamientos del sonido del dispensador con la entrega de comida, el sonido llega a elicitar una respuesta de seguimiento del signo, esta fase preliminar se llama entrenamiento al comedero. Despus, el organismo est preparado para aprender la respuesta instrumental requerida. Si la respuesta no es algo que el animal ya realiza, nunca suceder por si mima, para facilitar la adquisicin de una nueva respuesta operante, al principio la comida se entrega si el animal hace cualquier cosa remotamente relacionada con la respuesta deseada. Una vez que la respuesta de alzamiento ha sido establecida la comida solo entrega si la rata realiza la respuesta de alzamiento sobre la palanca de respuesta. Una vez que el alzamiento sobre la palanca ha sido establecido, la bolita de comida puede entregarse solo si realmente la rata presiona la palanca, esta secuencia de pasos se denomina moldeamiento, este incluye dos tcticas complementarias: reforzamiento de aproximaciones sucesivas a la respuesta requerida y no reforzamiento de las formas de respuesta ms tempranas.
Moldeamiento y nueva conducta: El condicionamiento instrumental incluye a menudo la construccin o sntesis de una nueva unidad conductual a partir de componentes de respuesta preexistentes que ya se encuentran en el repertorio del sujeto. El condicionamiento instrumental puede tambin utilizarse para producir respuestas que no se parecen en nada a lo que el individuo es probable que haga sin entrenamiento. El moldeamiento aprovecha la variabilidad inherente de la conducta. Sin esta variabilidad, los procedimientos de moldeamiento no tendran xito. El moldeamiento puede producir nuevas formas de respuesta nunca antes realizadas por el organismo. La tasa de respuesta como medida de la conducta operante: los mtodos de operante libre permiten una observacin continua durante largos periodos, proporcionan una ocasin especial para observar cambios en la probabilidad de la conducta a lo largo del tiempo. Las medidas de la latencia de la respuesta y de la velocidad que se emplea normalmente en procedimientos de ensayo discreto no permiten que se repita la respuesta. Skinner propuso que la tasa de ocurrencia de una conducta operante (frecuencia por minuto por ej.)Se utilizase como medida de la probabilidad de respuesta. Procedimientos de condicionamiento instrumental Una consecuencia placentera se denomina tcnicamente estimulo apetitivo. Una consecuencia molesta estimulo aversivo. La respuesta instrumental puede proporcionar el estimulo, en este caso se dice que surte efecto una contingencia positiva entre la respuesta y su estimulo consecuente. De forma alternativa, la respuesta instrumental puede retirar o eliminar un estimulo, en este caso se dice que existe un efecto de contingencia negativo entre la respuesta y su consecuencia: Que el resultado de un procedimiento de condicionamiento sea un aumento o una disminucin de la tasa de respuesta depende tanto de la contingencia respuesta-consecuencia como de la naturaleza de la consecuencia. Reforzamiento positivo: es un procedimiento en el que la respuesta instrumental produce un estimulo apetitivo. Si se da la respuesta el estimulo apetitivo se presenta, si no se da la respuesta el estimulo apetitivo no se presenta: existe una contingencia positiva entre la respuesta instrumental y el estimulo positivo. El reforzamiento positivo produce incremento en la tasa de respuesta. Castigo: En un procedimiento de castigo, la respuesta instrumental produce o aproxima un estimulo molesto o aversivo. Produce disminucin en la respuesta instrumental. Reforzamiento negativo: En una contingencia negativa, la respuesta retira o previene la presentacin de un suceso ambiental.
Un procedimiento en el que la respuesta instrumental finaliza o previene la entrega de un estimulo aversivo de denomina reforzamiento negativo. Hay dos tipos, escape y evitacin. En el escape, el estimulo aversivo se presenta pero puede ser eliminado por la respuesta instrumental. La presencia de un estimulo aversivo establece la ocasin para la ocurrencia de la respuesta instrumental, entonces es reforzada por la terminacin del estimulo aversivo. La evitacin implica la programacin de un estimulo aversivo para ser presentado en algn momento del futuro. En este caso la respuesta instrumental previene la entrega del estimulo aversivo Entrenamiento de omisin: Incluye una contingencia negativa entre la respuesta instrumental y un suceso ambiental. En este caso la respuesta instrumental previene la presentacin de un estimulo apetitivo o placentero. A menudo es el preferido para disuadir la conducta humana (nio a su habitacin). Los procedimientos de entrenamiento de omisin se denominan en ocasiones reforzamiento diferencial de otras conductas o RDO. Este trmino refleja el hecho de que el individuo recibe un estimulo apetitivo peridicamente a condicin de que se dedique a realizar otra conducta diferente de la respuesta especificada por el procedimiento, implica el reforzamiento de otras conductas. La respuesta instrumental disminuye por el castigo y aumenta por el reforzamiento negativo Elementos fundamentales del condicionamiento instrumental La esencia de la conducta instrumental es que est controlada por sus consecuencias. El condicionamiento instrumental consta de tres elementos claves; una respuesta, una consecuencia (el reforzador) y una relacin o contingencia, entre la respuesta y la consecuencia. La respuesta instrumental El resultado de los procedimientos del condicionamiento instrumental depende en parte de la naturaleza de la respuesta que se este condicionando. Algunas respuestas son ms fcilmente condicionables que otras. Variabilidad conductual versus estereotipia. Thorndike y Skinner enfatizaron que el reforzamiento incrementa la probabilidad de que la respuesta se repita en el futuro. Este nfasis alent la creencia de que los procedimientos de condicionamiento instrumental producan repeticiones de la misma respuesta- que producan uniformidad o estereotipia en la conducta- . Sin embargo, esto no significa que el condicionamiento instrumental no pueda verse tambin involucrado en la produccin de respuestas creativas o variables. Los organismos pueden aprender a obtener refuerzo en situaciones donde se requiera hacer algo nuevo ej. Pg. 137.
Relevancia o pertinencia en el condicionamiento instrumental: Thorndike propuso el trmino de pertinencia para explicar los fallos en el entrenamiento del rascado y del bostezo, ciertas respuestas se corresponden de forma natural con el reforzador debido a la historia evolutiva del animal. Los Breland denominaron deriva instintiva Al desarrollo de respuestas como la de hozar en los cerdos y frotar monedas en los mapaches. Estas respuestas naturales relacionadas con la comida eran aparentemente muy fuertes y competan con las respuestas que requera el investigador. Sistemas de conducta y limitaciones en el condicionamiento instrumental: Las limitaciones de respuesta que se han descrito son coherentes con la teora de los sistemas de conducta. La efectividad del procedimiento para el incremento de una respuesta instrumental depender de la compatibilidad de esa respuesta con la organizacin preexistente del sistema de alimentacin. Shettleworth (1975) encontr que la privacin de comida disminua la probabilidad de respuestas de autocuidado pero incrementaba la probabilidad de actividades dirigidas al ambiente como cavar etc. Este patrn de resultados es el que se ha observado en estudios de condicionamiento instrumental. Otra forma de diagnosticar si una respuesta es parte de un sistema de conducta es realizar un experimento de condicionamiento clsico; un EC llega a elicitar componentes del sistema de conducta activado por el EI: Si la deriva instintiva refleja las respuestas del sistema de conducta, las respuestas anlogas a la deriva instintiva deberas ser evidentes en un experimento de condicionamiento clsico. Timberlake y colaboradores comprobaron estas predicciones ratas utilizando una modificacin de los estudios de manipulacin de monedas de Brelands. El reforzador instrumental Cantidad y naturaleza del reforzador: En un estudio sistemtico, Hutt (1954) intento aislar los efectos de la cantidad y naturaleza del reforzador alimenticio liquido mediante la variacin sistemtica de ambos rasgos. Los incrementos en la calidad y cantidad produjeron mayor tasa de respuesta. Cambios en la naturaleza y la cantidad de reforzador: Se plantea la posibilidad de que la efectividad de un reforzador dependa no solo de sus propiedades sino tambin de cmo ese reforzador se compara con otros que el individuo haya experimentado. La efectividad de un EI en el condicionamiento clsica depende de cmo se compare el EI con las expectativas del individuo basndose en la experiencia previa, esta es la idea fundamental del modelo RescorlaWagner, si el EI es mayor de lo esperado, producir condicionamiento excitatorio, si el EI es menor producir condicionamiento inhibitorio.
La evidencia experimental confirma esta impresin, los efectos de una cantidad o tipo de reforzador dependen de la cantidad y la naturaleza de los reforzadores que el individuo ha experimentado previamente. Mellgren (1972) ver ejemplo libro pg. 144. Los resultados que obtuvo ilustran el fenmeno de contraste positivo; se refiere a una elevada respuesta por una recompensa favorable resultado de una experiencia anterior con una consecuencia menos atractiva y contraste negativo; se refiere a una respuesta disminuida por una recompensa desfavorable debido a una experiencia anterior con una consecuencia mejor. Los efectos de contraste tambin se dan si las condiciones de recompensa se modifican una y otra vez con una clave diferente sealando cada condicin de recompensa, estos efectos son ejemplo de contraste conductual simultaneo. Todos los efectos de contraste ilustran que la efectividad de un reforzador en una situacin est determinada en parte por las experiencias del organismo con reforzadores en otras situaciones. Por razones que no estn totalmente claras, el contraste negativo se ha obtenido de forma ms clara que el contraste positivo. La relacin respuesta reforzador La conducta instrumental eficiente requiere sensibilidad a la relacin respuesta reforzador. Existen dos tipos de relaciones entre una respuesta y un reforzador, una es la relacin temporal. Que se refiere al tiempo que transcurre entre la respuesta y el reforzador, un tipo especial de relacin temporal es la contigidad temporal, la cual se refiere a la entrega del reforzador inmediatamente despus de la respuesta. El segundo tipo de relacin es la relacin causal o contingencia respuesta reforzador, se refiere al hecho de que la respuesta instrumental es necesaria y suficiente para la ocurrencia del reforzador. Los factores temporales y causales son independientes unos de otros. Efectos de contigidad temporal: El reforzamiento inmediato es preferible al reforzamiento demorado. Los psiclogos del aprendizaje han resaltado que el condicionamiento instrumental requiere proporcionar el reforzador inmediatamente despus de la ocurrencia de la respuesta instrumental. Grice informo que el aprendizaje instrumental puede deteriorarse con demoras tan cortas como 0.5 seg. El hecho recurrente es que el aprendizaje instrumental se altera demorando el reforzador tras la ocurrencia de la respuesta instrumental, Hay varios factores que pueden contribuir a este deterioro, cuando el reforzamiento es demorado tras la realizacin de una respuesta, R1, el organismo no deja de hacer cosas, r2 r3 r4 etc. <si el reforzador se establece en r1 pero no se entrega hasta algn tiempo despus el reforzador puede ocurrir despus de alguna otra respuesta por ej. R5. Para asociar r1 con el reforzador, el
organismo tiene que poder distinguir r1 de otras respuestas que realiza durante el intervalo de demora. Hay dos formas de resolver este problema. La primera tcnica, es proporcionar un reforzador secundario o condicionado inmediatamente despus de la respuesta instrumental, este es un estimulo condicionado que previamente ha sido asociado con el reforzador. Otra tcnica es marcar la respuesta instrumental criterio de alguna manera para hacerla distinguible de otras actividades del organismo. La efectividad del procedimiento de marcado se demostr por primera vez por Lieberman, Mcintosh y Thomas (1979) La contingencia respuesta-reforzador: Los estudios de demora del reforzamiento muestran que no es suficiente una relacin causal perfecta entre la respuesta y el reforzador para producir una respuesta instrumental vigorosa: incluso con una relacin causal perfecta, el condicionamiento no ocurre si el reforzamiento es demorado durante demasiado tiempo. Datos como estos alentaron pronto a los investigadores a concluir que la contigidad respuestareforzador ms que la contingencia era el factor crtico que produca el aprendizaje instrumental. No obstante esta visin ha resultado injustificada por la investigacin posterior. L a contingencia respuesta-reforzador es tambin importante. El experimento de supersticin Skinner: Fue un hito en el debate sobre el papel de la contigidad frente a la contingencia en el aprendizaje instrumental. Las palomas parecan estar respondiendo como si la conducta controlara la entrega del reforzador, La conducta supersticiosa descansa en la idea de reforzamiento accidental o adventicio, se refiere al emparejamiento accidental de una respuesta con la entrega de un reforzador, un segundo emparejamiento accidental aumenta aun ms la probabilidad de la respuesta, de esta forma cada emparejamiento ayuda a estampar una respuesta particular. 1_Reinterpretacion del experimento de supersticin: la afirmacin de Skinner ha sido puesta en duda por la evidencia emprica posterior. Stadon y Simmelhag (1971) realizaron observaciones ms extensas, definieron y midieron la ocurrencia de muchas respuestas, algunas respuesta ocurran de modo predominante hacia el final del intervalo entre reforzadores, las llamaron respuestas terminales. Otras aumentaron tras la entrega del reforzador y disminuan a medida que se acercaba el tiempo de la siguiente comida; respuestas de interin. Las acciones que eran respuestas terminales y las que eran respuestas de interin no variaban mucho de una paloma a otra. No encontraron evidencia de reforzamiento accidental. La investigacin posterior ha proporcionado mucha evidencia adicional de que las presentaciones peridicas de un reforzador producen regularidades en la conducta.
2-Explicacion de la periodicidad de las respuestas de interin y terminales. Staddon y Simmelhag sugirieron que las respuestas terminales son respuestas tpicas de la especie que reflejan la anticipacin de la comida a medida que en el tiempo se encuentra ms cerca de la prxima presentacin de comida. En contraste, entendieron las respuestas de interin como una manifestacin de otras fuentes de motivacin que eran ms importantes al comienzo del intervalo entre comidas, cuando la presentacin de comida era improbable. Los investigadores posteriores, sin embargo han favorecido aproximaciones en las cuales las respuestas terminales y de interin se consideran diferentes manifestaciones del mismo sistema motivacional. La teora mejor desarrollada es la teora de sistema de conducta: el sistema de alimentacin esta activado en animales privados de comida a los que se les proporciona peridicamente pequeas cantidades de comida. Justo despus de la entrega de comida se asume que el organismo realiza respuestas de bsqueda focalizada poscomida, en medio del intervalo entre entregas ocurren respuestas de bsqueda general, en el momento de la prxima entrega de comida respuestas de bsqueda focalizada. La distribucin de las actividades que se desarrollan con la entrega peridica de un reforzador depende de la naturaleza de ese reforzador, se desarrollan diferentes sistemas de conducta, congruente con la teora de sistemas, segn sea agua o comida, debido a que activan diferentes patrones de forrajeo. Efectos de la controlabilidad de los reforzadores: Una contingencia fuerte entre una respuesta instrumental y un reforzador esencialmente significa que la respuesta controla el reforzador, esto es, que el reforzador suceda depende de si ha ocurrido la respuesta instrumental. Los estudios acerca de los efectos de control sobre reforzadores han proporcionado la evidencia ms amplia de la sensibilidad de la conducta a las contingencias respuesta-reforzador. La mayora de la investigacin se ha centrado en los efectos de control sobre la estimulacin aversiva, esa se origino con los estudios pioneros de Seligman, overmier y Maier, quienes investigaron los efectos de la exposicin a una descarga incontrolable en el aprendizaje posterior de escape-evitacin en perros. El hallazgo ms importante fue que la exposicin a una descarga incontrolable dificultaba el aprendizaje posterior. Efecto de indefensin aprendida. 1 Diseo tradico: los experimentos sobre indefensin aprendida se realizan normalmente utilizando este diseo, incluye dos fases; exposicin, un grupo de ratas (E escape) es expuesto a descargas peridicas que puede finalizar mediante la realizacin de un respuesta de escape. Cada sujeto del segundo grupo (a, acoplado) es acoplado a un animal del grupo E y recibe las mismas descargas, pero el grupo A no puede hacer nada por evitarlas. El tercer grupo (C
confinado), no recibe descargas durante la fase de exposicin pero est confinado en el aparato tanto tiempo como los otros grupos, Durante la fase de condicionamiento, los tres grupos reciben entrenamiento escape-evitacin. El hallazgo destacable es que los efectos de la estimulacin aversiva durante la fase de exposicin dependen de si la descarga es o no es escapable. La exposicin a una descarga incontrolable (grupo A) produce una severa interrupcin del aprendizaje posterior de escape-evitacin, esto indica que los animales son sensibles a las diferencias procedimentales entre la descarga escalable y la descarga inescapable. L principal diferencia procedimental entre los grupos E y A es la presencia de una contingencia respuesta-reforzador para el grupo E pero no para el grupo A. 2- La hiptesis de la indefensin aprendida: la primera explicacin importante estaba basada en la conclusin de que los animales pueden percibir la contingencia entre su conducta y la entrega de un reforzador. La hiptesis de la indefensin aprendida asume que durante la exposicin a descargas incontrolables, los animales aprenden que las descargas son independientes de su conducta. Es ms, llegan a esperar que los reforzadores continuaran siendo independientes de su conducta. Esta expectativa de ausencia de control debilita su habilidad para aprender una nueva respuesta instrumental, esto ocurre por dos razones, primero, la expectativa de falta de control reduce la motivacin de los sujetos para realizar una respuesta instrumental. Segundo, incluso si realizan la respuesta y son reforzados en la fase de condicionamiento, la expectativa previamente aprendida de falta de control hace ms difcil para los sujetos aprender que su conducta es ahora efectiva para producir reforzamiento. Es importante distinguir la hiptesis de indefensin aprendida del efecto de indefensin aprendida. El efecto de indefensin aprendida es el patrn de resultados obtenido con el diseo tradico, este ha sido reproducido en numerosos estudios y es un hallazgo bien establecido. En contraste, desde que se propuso, la hiptesis de indefensin aprendida ha sido una explicacin sugestiva y controvertida del efecto de indefensin aprendida. 3- >Dficit de actividad: el dficit de aprendizaje observado en el grupo A era resultado de que aprendan a ser inactivos durante la fase de exposicin. Congruente con esta hiptesis, en algunas situaciones la descarga inescapable produce una disminucin en el movimiento motor, y a esto se deberan los posteriores dficits de actuacin. Hay tambin situaciones en las cuales los efectos del aprendizaje probablemente no son debidos a la supresin del movimiento causada por la descarga inescapable. Por tanto la hiptesis de la inactividad aprendida no puede explicar todos los ejemplos de efectos de indefensin aprendida.
4: dficit atencional: Que la descarga provoque que los animales presten menos atencin a sus acciones. Si un animal no presta atencin a su conducta, tendr dificultad para asociar sus acciones con los reforzadores en el escape-evitacin o en otras formas de condicionamiento instrumental. Maier, Jackson y Tomie (1987) probaron esta hiptesis de dficit atencional con ratas, razonaron que la atencin reducida a la conducta instrumental tambin poda ser aliviada mediante la introduccin de una clave externa de retroalimentacin de la respuesta o estimulo de marcado 5: relaciones estimulares en el condicionamiento de escape: Resulta evidente que el condicionamiento de escape resulta ms complejo de lo que se pensaba anteriormente. El rasgo definitorio d la conducta de escape es que la respuesta instrumental tiene como consecuencia la terminacin de un estimulo aversivo. Realizar la respuesta de escape tiene como resultado claves internas de retroalimentacin de la respuesta. Algunos de estos estmulos producidos por la respuesta son experimentados al comienzo de la respuesta de escape, justo antes de que la descarga se retire, y se denominan claves de retroalimentacin de la terminacin de la descarga. Otros estmulos producidos por la respuesta son experimentados cuando el animal completa la respuesta, justo despus de que la descarga se haya retirado al comienzo del intervalo entre ensayos, estos se denominan claves de retroalimentacin de la seal de seguridad, estas son seguidas de forma fiable por el intervalo entre ensayos, y por tanto por la ausencia de descarga. En consecuencia, estas claves contextuales pueden llegar a convertirse en inhibidores condicionados del miedo y limitan o inhiben el miedo elicitado por las claves contextuales de la cmara experimental. Estas seales de seguridad no existen para los animales que estn acoplados a la descarga inescapable porque, para ellos, los periodos de descarga no descarga no son predecibles. Centrarse en los factores estimulares del condicionamiento de escapeen lugar de las contingencias respuesta-reforzador no ha permitido todava el desarrollo de una explicacin comprensiva de todos los resultados con el diseo tradico.

Aprendizaje T5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Aprendizaje T5

Transféré par

Droits d'auteur :

Formats disponibles

Tema 5 CONDICIONAMIENTO INSTRUMENTAL FUNDAMENTO

Vous aimerez peut-être aussi