Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 70): Mejoramos las políticas usando operadores de forma cerrada (CFPI)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 70): Mejoramos las políticas usando operadores de forma cerrada (CFPI):

En este trabajo, proponemos introducir un algoritmo que use operadores de mejora de políticas de forma cerrada para optimizar las acciones offline del Agente.

El enfoque de optimizar la política del Agente sujeto a restricciones sobre su comportamiento ha demostrado ser prometedor en tareas de aprendizaje por refuerzo offline. Usando transiciones históricas, la política de comportamiento del Agente se entrena para maximizar el valor de la función de valor. 

Las restricciones de comportamiento ayudan a evitar cambios significativos en la distribución de las acciones del Agente, lo cual proporciona una seguridad razonable de que la estimación del valor de las acciones es correcta. En el artículo anterior, nos familiarizamos con el método SPOT, que explota este enfoque. Como continuación de este tema, me gustaría presentarles el algoritmo Closed-Form Policy Improvement (CFPI), que fue presentado en el artículo "Offline Reinforcement Learning with Closed-Form Policy Improvement Operators".

Autor: Dmitriy Gizlyk