Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 61): El problema del optimismo en el aprendizaje por refuerzo offline"
Redes neuronales - Es sencillo (Parte 61)
Parte 61, ¿puede ver el resultado en términos monetarios?
Debo decir un gran agradecimiento al autor, que toma un artículo puramente teórico y explica en lenguaje popular cómo puede:
a) aplicarlo en el trading,
b) programarlo y probarlo en un probador de estrategias.
Echa un vistazo al artículo original y ver por ti mismo qué tipo de trabajo Dmitry ha hecho - https://arxiv.org/abs/2207.10295.
Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning
- arxiv.org
Impressive results in natural language processing (NLP) based on the Transformer neural network architecture have inspired researchers to explore viewing offline reinforcement learning (RL) as a generic sequence modeling problem. Recent works based on this paradigm have achieved state-of-the-art results in several of the mostly deterministic offline Atari and D4RL benchmarks. However, because these methods jointly model the states and actions as a single sequencing problem, they struggle to disentangle the effects of the policy and world dynamics on the return. Thus, in adversarial or stochastic environments, these methods lead to overly optimistic behavior that can be dangerous in safety-critical systems like autonomous driving. In this work, we propose a method that addresses this optimism bias by explicitly disentangling the policy and world models, which allows us at test time to search for policies that are robust to multiple possible futures in the environment. We...
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Redes neuronales: así de sencillo (Parte 61): El problema del optimismo en el aprendizaje por refuerzo offline:
Durante el aprendizaje offline, optimizamos la política del Agente usando los datos de la muestra de entrenamiento. La estrategia resultante proporciona al Agente confianza en sus acciones. No obstante, dicho optimismo no siempre está justificado y puede acarrear mayores riesgos durante el funcionamiento del modelo. Hoy veremos un método para reducir estos riesgos.
Recientemente se han generalizado los métodos de aprendizaje por refuerzo offline, que prometen muchas perspectivas en la resolución de problemas de diversa complejidad. No obstante, uno de los principales retos a los que se enfrentan los investigadores es el optimismo que puede surgir en el proceso de aprendizaje. El Agente optimiza su estrategia basándose en los datos de la muestra de entrenamiento y gana confianza en sus acciones, pero la muestra de entrenamiento no suele cubrir toda la variedad de estados y transiciones posibles del entorno. Dada la estocasticidad del entorno, dicha confianza resulta no ser del todo razonable. En tales casos, la estrategia optimista de un agente puede provocar mayores riesgos y consecuencias indeseables.
En busca de una solución a este problema, merece la pena analizar la investigación sobre conducción autónoma. Obviamente, los algoritmos de esta área de investigación tienen como meta la reducción de riesgos (aumentar la seguridad del usuario) y un aprendizaje en línea mínimo. Uno de estos métodos es el SeParated Latent Trajectory Transformer (SPLT-Transformer), presentado en el artículo «Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning» (julio de 2022).
Autor: Dmitriy Gizlyk