Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 49): Обучение с подкреплением и проксимальной оптимизацией политики"

 

Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 49): Обучение с подкреплением и проксимальной оптимизацией политики:

Проксимальная оптимизация политики (Proximal Policy Optimization) — еще один алгоритм обучения с подкреплением, который обновляет политику, часто в сетевой форме, очень маленькими шагами, чтобы обеспечить стабильность модели. Как обычно, мы рассмотрим, как этот алгоритм можно применить в советнике, собранном с помощью Мастера.

Мы продолжаем нашу серию статей о Мастере MQL5, в которой в последнее время мы чередуем простые паттерны из распространенных индикаторов и алгоритмы обучения с подкреплением. Рассмотрев индикаторные модели (Аллигатор Билла Вильямса) в предыдущей статье, теперь мы возвращаемся к обучению с подкреплением. На этот раз мы рассматриваем проксимальную оптимизацию политики (Proximal Policy Optimization, PPO). Сообщается, что этот алгоритм, впервые опубликованный 7 лет назад, является предпочтительным алгоритмом обучения с подкреплением для ChatGPT. В последнее время этот подход к обучению с подкреплением пользуется особой популярностью. Алгоритм PPO нацелен на оптимизацию политики (функции, определяющей действия субъекта) таким образом, чтобы повысить общую производительность за счет предотвращения резких изменений, которые могли бы сделать процесс обучения нестабильным.

Он не делает этого самостоятельно, а работает в тандеме с другими алгоритмами обучения с подкреплением, некоторые из которых мы рассмотрели в этой серии и которые в общем случае можно разделить на две категории. Алгоритмы, основанные на политике, и алгоритмы, основанные на значениях. Мы уже рассмотрели примеры каждого из них в этой серии статей. Алгоритмами на основе политики были Q-обучение иSARSA. Алгоритм временных различий является алгоритмом на основе значений. Так что же такое PPO?

Как упоминалось выше, "проблема", которую решает PPO, заключается в предотвращении слишком больших изменений политики во время обновлений. Основная идея заключается в том, что если не вмешиваться в управление частотой и масштабом обновлений, агент может: забыть то, чему он научился, принять ошибочное решение или работать хуже в окружающей среде. Таким образом, PPO гарантирует, что обновления будут небольшими, но значимыми. PPO работает, начиная с политики, которая заранее определена с ее параметрами. Здесь политика — это просто функции, которые определяют действия субъекта на основе вознаграждений и состояний среды.


Автор: Stephen Njuki