Vous êtes sur la page 1sur 4

Linear Reward-Penalty

LR-P Algoritmo Lineal de recompensa y penalizacin

APRENDIZAJE SUPERVISADO POR REFUERZO Durante el entrenamiento no se indica exactamente la salida que se desea ante una determinada entrada. La funcin del supervisor se reduce a indicar mediante una SEAL DE REFUERZO si la salida de la red se ajusta a lo deseado (+1), o DE PENALIZACIN (-1) en caso contrario.

APRENDIZAJE ESTOCSTICO Este tipo de aprendizaje consiste bsicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad.

Linear Reward-Penalty
Fue presentado por Narendra y Thathacher en 1974 Fue ampliado por Barto y Anandan en 1985 con el nombre de Associative Reward-Penalty

Durante los aos de 1980, Barto , ampli el algoritmo de aprendizaje reforzado

desarrollando el modelo asociativo con recompensa y penalizacin, que se aplica en redes con
conexin hacia delante de dos capas cuyas neuronas de salida presentan una funcin de activacin estocstica. En este caso existe una nica seal de error, que representa un ndice global del

rendimiento de la red. Penalizando errores vs. descubriendo similitudes, el aprendizaje basado en la


similitud encuentra que elementos del conjunto de entrenamiento estn codificados de manera insuficiente por la red para adicionarlo y modificar el conocimiento almacenado para adaptarlo a las caractersticas del ambiente. Esto hace que la informacin acumulada previamente por la red no sea desechada a medida que la red interacta con el ambiente, realizando as un aprendizaje estable. El proceso de bsqueda regula de forma interna la modificacin la topologa y de los pesos de la red.

Vous aimerez peut-être aussi