Académique Documents
Professionnel Documents
Culture Documents
APRENDIZAJE SUPERVISADO POR REFUERZO Durante el entrenamiento no se indica exactamente la salida que se desea ante una determinada entrada. La funcin del supervisor se reduce a indicar mediante una SEAL DE REFUERZO si la salida de la red se ajusta a lo deseado (+1), o DE PENALIZACIN (-1) en caso contrario.
APRENDIZAJE ESTOCSTICO Este tipo de aprendizaje consiste bsicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad.
Linear Reward-Penalty
Fue presentado por Narendra y Thathacher en 1974 Fue ampliado por Barto y Anandan en 1985 con el nombre de Associative Reward-Penalty
desarrollando el modelo asociativo con recompensa y penalizacin, que se aplica en redes con
conexin hacia delante de dos capas cuyas neuronas de salida presentan una funcin de activacin estocstica. En este caso existe una nica seal de error, que representa un ndice global del