Обсуждение статьи "Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT)"

 

Опубликована статья Нейросети — это просто (Часть 58): Трансформер решений (Decision Transformer—DT):

Мы продолжаем рассмотрение методов обучения с подкреплением. И в данной статье я предлагаю вам познакомиться с несколько иным алгоритмом, который рассматривает политику Агента в парадигме построения последовательности действий.

В рамках данного цикла статей мы уже рассмотрели довольно широкий спектр различных алгоритмов обучения с подкреплением. И все они эксплуатируют базовый подход:

  1. Агент анализирует текущее состояние окружающей среды.
  2. Совершает оптимальное действие (в рамках выученной Политики — стратегии поведения).
  3. Переходит в новое состояние окружающей среды.
  4. Получает вознаграждение от окружающей среды за совершенный переход в новое состояние.

Данная последовательность основана на принципах марковского процесса. И предполагает, что отправной точкой является текущее состояние окружающей среды. Оптимальный выход из данного состояния один и он не зависит от предшествующего пути.


Я же хочу вас познакомить с альтернативным подходом, который был представлен командой Google в статье "Decision Transformer: Reinforcement Learning via Sequence Modeling" (2.06.2021г.) Основной "изюминкой" данной работы является проецирование задачи обучения с подкреплением в моделирование условной последовательности действий, обусловленную авторегрессионной моделью желаемого вознаграждения.

Автор: Dmitriy Gizlyk