Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 69): Restricción de la política de comportamiento basada en la densidad de datos offline (SPOT)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 69): Restricción de la política de comportamiento basada en la densidad de datos offline (SPOT):

En el aprendizaje offline, utilizamos un conjunto de datos fijo, lo que limita la cobertura de la diversidad del entorno. Durante el proceso de aprendizaje, nuestro Agente puede generar acciones fuera de dicho conjunto. Si no hay retroalimentación del entorno, la corrección de las evaluaciones de tales acciones será cuestionable. Mantener la política del Agente dentro de la muestra de entrenamiento se convierte así en un aspecto importante para garantizar la solidez del entrenamiento. De eso hablaremos en este artículo.

Varios métodos de aprendizaje por refuerzo offline para resolver este problema usan la parametrización o regularización, que restringe la política del Agente para realizar acciones dentro del conjunto de soporte de la muestra de entrenamiento. Los diseños detallados suelen interferir con los modelos de Agente, que pueden generar costes operativos adicionales y no aprovechan al cien por cien los métodos establecidos de aprendizaje por refuerzo online. Los métodos de regularización reducen la discrepancia entre la política entrenada y la muestra de entrenamiento, que puede no cumplir la definición de soporte basada en la densidad y, por tanto, evitar de forma ineficiente actuar fuera de la distribución.

En este contexto, destaca positivamente el método Supported Policy OpTimisation (SPOT), presentado en el artículo "Supported Policy Optimization for Offline Reinforcement Learning". Sus planteamientos se derivan directamente de una formalización teórica de la restricción política basada en la distribución de la densidad de la muestra de entrenamiento. SPOT utiliza un estimador de densidad basado en un autocodificador variacional(VAE). Se trata de un elemento de regularización sencillo pero eficaz, que puede integrarse en algoritmos de aprendizaje por refuerzo ya existentes. SPOT consigue el mejor rendimiento de su categoría en las pruebas de referencia estándar para RL offline, y gracias a su diseño flexible, los modelos preentrenados offline con SPOT también pueden afinarse online.


Autor: Dmitriy Gizlyk