Обсуждение статьи "Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT)"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT):
Мы продолжаем рассмотрение методов обучения с подкреплением. И в данной статье я предлагаю вам познакомиться с несколько иным алгоритмом, который рассматривает политику Агента в парадигме построения последовательности действий.
В рамках данного цикла статей мы уже рассмотрели довольно широкий спектр различных алгоритмов обучения с подкреплением. И все они эксплуатируют базовый подход:
Данная последовательность основана на принципах марковского процесса. И предполагает, что отправной точкой является текущее состояние окружающей среды. Оптимальный выход из данного состояния один и он не зависит от предшествующего пути.
Я же хочу вас познакомить с альтернативным подходом, который был представлен командой Google в статье "Decision Transformer: Reinforcement Learning via Sequence Modeling" (2.06.2021г.) Основной "изюминкой" данной работы является проецирование задачи обучения с подкреплением в моделирование условной последовательности действий, обусловленную авторегрессионной моделью желаемого вознаграждения.
Автор: Dmitriy Gizlyk