Обсуждение статьи "Нейросети — это просто (Часть 71): Прогнозирование будущих состояний с учетом поставленных целей (GCPC)"

MetaQuotes 2024.01.06 09:58

Опубликована статья Нейросети — это просто (Часть 71): Прогнозирование будущих состояний с учетом поставленных целей (GCPC):

В предыдущих работах мы познакомились с методом Decision Transformer и несколькими производными от него алгоритмами. Мы экспериментировали с различными методами постановки цели. В процессе экспериментов мы работали с различными способами постановки целей, однако изучение моделью уже пройденной траектории всегда оставалось вне нашего внимания. В данной статье я хочу познакомить Вас с методом, который заполняет этот пробел.

Имитационное обучение (Behavior Cloning — BC), направленное на достижение цели, является многообещающим подходом для решения различных задач обучения с подкреплением в офлайн режиме. Вместо оценки ценности состояния и действий, BC напрямую обучает политику поведения Агента, выстраивая зависимости между поставленной целью, анализируемым состоянием окружающей среды и действием Агента. Это достигается с помощью методов обучения с учителем на предварительно собранных офлайн траекториях. Знакомый нам метод Decision Transformer и производные от него алгоритмы продемонстрировали эффективность моделирования последовательностей для обучения с подкреплением в офлайн режиме.

Ранее, при использовании вышеуказанных алгоритмов, мы экспериментировали с различными вариантами постановки целей для стимулирования необходимых нам действий Агента. Изучение моделью уже пройденной траектории всегда оставалось вне нашего внимания. И здесь можно задаться вопросом о целесообразности изучения траектории в целом. Подобным вопросом задались и авторы статьи «Goal-Conditioned Predictive Coding for Offline Reinforcement Learning». В своей работе они исследуют несколько ключевых вопросов:

Полезны ли офлайн траектории для моделирования последовательности или просто предоставляют больше данных для обучения политики с учителем?
Какие будут наиболее эффективные цели обучения представлению траектории для поддержки обучения политики? Следует ли моделям последовательностей учить кодировать опыт истории, будущую динамику или и то, и другое?
Поскольку одна и та же модель последовательности может быть использована как для обучения представлению траектории, так и для обучения политики, следует ли иметь одни и те же цели обучения или нет?

Автор: Dmitriy Gizlyk

Новый комментарий