Обсуждение статьи "Нейросети — это просто (Часть 61): Проблема оптимизма в офлайн обучении с подкреплением"
Нейросети — это просто (Часть 61)
61 часть, результат можно увидеть в денежном эквиваленте?
Нужно сказать большое спасибо автору, который берет сугубо теоретическую статью и популярным языком объясняет, как это можно:
а) применить в трейдинге,
б) запрограммировать и проверить в тестере стратегий.
Посмотрите на оригинал статьи и оцените сами, какой труд проделал Дмитрий - https://arxiv.org/abs/2207.10295

Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning
- arxiv.org
Impressive results in natural language processing (NLP) based on the Transformer neural network architecture have inspired researchers to explore viewing offline reinforcement learning (RL) as a generic sequence modeling problem. Recent works based on this paradigm have achieved state-of-the-art results in several of the mostly deterministic offline Atari and D4RL benchmarks. However, because these methods jointly model the states and actions as a single sequencing problem, they struggle to disentangle the effects of the policy and world dynamics on the return. Thus, in adversarial or stochastic environments, these methods lead to overly optimistic behavior that can be dangerous in safety-critical systems like autonomous driving. In this work, we propose a method that addresses this optimism bias by explicitly disentangling the policy and world models, which allows us at test time to search for policies that are robust to multiple possible futures in the environment. We...

Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 61): Проблема оптимизма в офлайн обучении с подкреплением:
В процессе офлайн обучения мы оптимизируем политику Агента по данным обучающей выборки. Полученная стратегия придает Агенту уверенность в его действиях. Однако такой оптимизм не всегда оправдан и может привести к увеличению рисков в процессе эксплуатации модели. Сегодня мы рассмотрим один из методов снижения этих рисков.
В последнее время широкое распространение получили методы офлайн обучения с подкреплением, что обещает множество перспектив в решении задач различной сложности. Однако одной из основных проблем, с которой сталкиваются исследователи, является оптимизм, который может возникнуть в процессе обучения. Агент оптимизирует свою стратегию, основываясь на данных обучающей выборки, и приобретает уверенность в своих действиях. Но обучающая выборка довольно часто не способна покрыть все разнообразие возможных состояний и переходов окружающей среды. В условиях стохастичности окружающей среды подобная уверенность оказывается не совсем обоснованной. В таких случаях оптимистически настроенная стратегия агента может привести к повышению рисков и нежелательным последствиям.
В поисках решения данной проблемы стоит обратить внимание на исследования в области автономного вождения. Очевидно, что алгоритмы данной области исследований направлены на снижение рисков (повышение безопасности пользователей) и минимальное онлайн обучение. Одним из таких методов является SeParated Latent Trajectory Transformer (SPLT-Transformer), представленный в статье «Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning» (Июль 2022г.)
Автор: Dmitriy Gizlyk