Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 55): SAC с приоритетным воспроизведением опыта"

 

Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 55): SAC с приоритетным воспроизведением опыта:

Буферы воспроизведения в обучении с подкреплением особенно важны при использовании алгоритмов вне политики (off-policy), таких как DQN или SAC. Это выводит на первый план процесс выборки буфера памяти. В то время как параметры по умолчанию с SAC, например, используют случайный выбор из буфера, буферы с приоритетным воспроизведением опыта (Prioritized Experience Replay buffers) обеспечивают точную настройку путем выборки из буфера на основе оценки TD. Мы рассмотрим важность обучения с подкреплением и, как всегда, изучим только одну гипотезу (без перекрестной проверки) в созданном Мастером советнике.

Буферы приоритетного воспроизведения опыта (PER) и типичные буферы воспроизведения (для случайной выборки) используются в RL с алгоритмами, не соответствующими политике, такими как DQN и SAC, поскольку они позволяют хранить и осуществлять выборку прошлого опыта. PER отличается от типичного буфера воспроизведения тем, как ранжируются и выбираются прошлые события. 

При использовании типичного буфера воспроизведения выборка событий осуществляется равномерно и случайным образом, что означает, что любой прошлый опыт имеет равную вероятность быть выбранным независимо от его важности или значимости для процесса обучения. При использовании PER прошлый опыт отбирается на основе его "приоритета". Это свойство часто количественно оценивается величиной ошибки временной разницы (Temporal Difference Error). Эта ошибка служит показателем потенциала обучения. Каждому опыту присваивается значение этой ошибки, и опыт с высокими значениями выбирается чаще. Такая приоритизация может быть реализована с использованием пропорционального или рангового подхода.

Типичные буферы воспроизведения также не вносят и не используют никаких смещений. PER использует, и это может несправедливо исказить процесс обучения, поэтому, чтобы это исправить, PER использует веса выборки важности для корректировки воздействия каждого выбранного опыта. Таким образом, типичные буферы воспроизведения более эффективны с точки зрения выборки, поскольку они выполняют гораздо меньше действий в фоновом режиме по сравнению с PER. С другой стороны, PER обеспечивает более целенаправленное и конструктивное обучение, чего не могут дать обычные буферы.

Само собой разумеется, что реализация PER будет более сложной, чем реализация типичного буфера воспроизведения. PER требует дополнительного класса для поддержания очереди приоритетов, часто называемой "деревом сумм" (sum-tree). Такая структура данных позволяет более эффективно осуществлять выборку впечатлений на основе их приоритета. PER, как правило, приводит к более быстрой конвергенции и лучшей производительности, поскольку фокусируется на событиях, которые являются более информативными или сложными для агента.


Автор: Stephen Njuki