Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 45): Обучение с подкреплением с помощью метода Монте-Карло"
Здравствуйте, мистер Нюки,
Надеюсь, у вас все хорошо.
Я просто интересуюсь оптимизацией, которая была проведена в 2022 году для советника. Не могли бы вы уточнить, какая модель ценообразования была использована.
С уважением,
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 45): Обучение с подкреплением с помощью метода Монте-Карло:
Монте-Карло — четвертый алгоритм обучения с подкреплением, который мы рассматриваем в контексте его реализации в советниках, собранных с помощью Мастера. Хотя алгоритм основан на случайной выборке, он предоставляет обширные возможности моделирования.
При использовании алгоритма Монте-Карло Q-значения обновляются только после завершения эпизода. Эпизод — это серия циклов. В этой статье мы присвоили этому количеству циклов входной параметр m_episodes_size. Его можно оптимизировать или настраивать. Метод Монте-Карло считается достаточно устойчивым к изменчивости рынка, поскольку он может лучше моделировать широкий спектр возможных рыночных сценариев, позволяя трейдерам определять, как работают различные стратегии в различных условиях. Эта изменчивость помогает трейдерам понимать потенциальные компромиссы, риски и доходность, что позволяет им принимать более обоснованные решения.
Утверждается, что это преимущество обусловлено "долгосрочным пониманием эффективности", что контрастирует с традиционными методами, которые, как правило, фокусируются на краткосрочных результатах. Под этим подразумевается, что нечастые (один раз за эптзод) обновления, выполняемые моделированием Монте-Карло, позволяют избежать рыночного шума, с которым неизбежно сталкиваются Q-обучение и SARSA, поскольку в их случае обновления происходят чаще. Таким образом, метод Монте-Карло стремится достичь оценки долгосрочной эффективности торговых стратегий путем оценки накопленных с течением времени выгод. Анализируя многочисленные эпизоды, трейдеры могут получить представление об общей прибыльности и устойчивости своих стратегий.
Алгоритм Монте-Карло вычисляет оценки действия-ценности (action-value) на основе средней доходности пар состояние-действие (state-action) в течение нескольких циклов в пределах одного эпизода. Это позволяет трейдерам лучше оценить, какие действия (например, покупка или продажа) с наибольшей вероятностью принесут благоприятные результаты на основе исторических данных. Это обновление Q-значений обусловлено тем, что компонент вознаграждения этих Q-значений определяется следующим образом:
где:
Автор: Stephen Njuki