Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 45): Обучение с подкреплением с помощью метода Монте-Карло"

 

Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 45): Обучение с подкреплением с помощью метода Монте-Карло:

Монте-Карло — четвертый алгоритм обучения с подкреплением, который мы рассматриваем в контексте его реализации в советниках, собранных с помощью Мастера. Хотя алгоритм основан на случайной выборке, он предоставляет обширные возможности моделирования.

При использовании алгоритма Монте-Карло Q-значения обновляются только после завершения эпизода. Эпизод — это серия циклов. В этой статье мы присвоили этому количеству циклов входной параметр m_episodes_size. Его можно оптимизировать или настраивать. Метод Монте-Карло считается достаточно устойчивым к изменчивости рынка, поскольку он может лучше моделировать широкий спектр возможных рыночных сценариев, позволяя трейдерам определять, как работают различные стратегии в различных условиях. Эта изменчивость помогает трейдерам понимать потенциальные компромиссы, риски и доходность, что позволяет им принимать более обоснованные решения.

Утверждается, что это преимущество обусловлено "долгосрочным пониманием эффективности", что контрастирует с традиционными методами, которые, как правило, фокусируются на краткосрочных результатах. Под этим подразумевается, что нечастые (один раз за эптзод) обновления, выполняемые моделированием Монте-Карло, позволяют избежать рыночного шума, с которым неизбежно сталкиваются Q-обучение и SARSA, поскольку в их случае обновления происходят чаще. Таким образом, метод Монте-Карло стремится достичь оценки долгосрочной эффективности торговых стратегий путем оценки накопленных с течением времени выгод. Анализируя многочисленные эпизоды, трейдеры могут получить представление об общей прибыльности и устойчивости своих стратегий.

Алгоритм Монте-Карло вычисляет оценки действия-ценности (action-value) на основе средней доходности пар состояние-действие (state-action) в течение нескольких циклов в пределах одного эпизода. Это позволяет трейдерам лучше оценить, какие действия (например, покупка или продажа) с наибольшей вероятностью принесут благоприятные результаты на основе исторических данных. Это обновление Q-значений обусловлено тем, что компонент вознаграждения этих Q-значений определяется следующим образом:

где:

  • R t+1 , R t+2 ,…,R T — вознаграждения, полученные на каждом шаге после времени t.
  • γ /гамма - это коэффициент дисконтирования (discount factor) (0 ≤ γ ≤ 1), который устанавливает, насколько будущие вознаграждения "дисконтируются" (оцениваются ниже, чем немедленные вознаграждения).
  • T - временной шаг, на котором заканчивается эпизод (конечное состояние или размер эпизода в циклах).


    Автор: Stephen Njuki

     
    Здравствуйте, мистер Нюки,

    Надеюсь, у вас все хорошо.

    Я просто интересуюсь оптимизацией, которая была проведена в 2022 году для советника. Не могли бы вы уточнить, какая модель ценообразования была использована.

    С уважением,