文章 "您应当知道的 MQL5 向导技术(第 45 部分):蒙特卡洛强化学习"

 

新文章 您应当知道的 MQL5 向导技术(第 45 部分):蒙特卡洛强化学习已发布:

蒙特卡洛是我们正在研究的第四种不同的强化学习算法,目的是探索它在向导汇编智能交易系统中的实现。尽管它锚定在随机抽样,但它提供了我们可以利用的多种模拟方法。

使用蒙特卡洛算法,Q-值仅在局次完成后才会更新。一个局次是一次批量循环。至于本文,我们把输入参数 “m_episodes_size” 赋值给到循环次数,并且它是可优化或可调整的。蒙特卡洛之所以对市场波动非常稳健,因为它能更好地模拟广泛的可能市场场景,令交易者能判定不同策略在各种条件下的表现。这种可变性有助于交易者理解潜在的权衡、风险、和回报,令他们能够制定更明智的决策。

有一种论调,这种优势源于其“长期绩效洞察力”,这与倾向于专注短期成果的传统方法形成鲜明对比。这意味着蒙特卡洛模拟要执行的更新不会太频繁,因为它们在一局中只发生一次,这就避免了市场噪音,而 Q-学习 和 SARSA 必然会遇到市场噪音,在于它们执行更新更频繁。评估一段时间内的累积回报,来评估交易策略的长期表现,这便是蒙特卡洛努力达成的目标。通过分析其中的多个轮次,交易者能够深入洞察其策略的整体盈利能力和可持续性。

蒙特卡洛算法基于单个轮次中多个周期的“状态-动作”对的平均回报来计算“动作-估值”。这令交易者更好地基于历史表现评估哪些动作(例如,买入或卖出)最有可能产生有利的成果。Q-值的更新源自这些 Q-值具有的奖励分量,判定如下:

其中:

  • R t+1 , R t+2 ,…,R T 是时间 t 之后每一步获得的奖励。
  • γ /gamma 是折扣系数 (0 ≤ γ ≤ 1),它按照未来奖励的“折扣”程度(即价值低于即时奖励)来设置。
  • T 代表轮次结束时的时间步长(终结状态或以周期为单位的轮次大小)。


作者:Stephen Njuki

 
嗨,恩朱基先生、

希望您一切都好。

我只是想问一下 2022 年对专家顾问进行优化的情况。请详细说明使用的是哪种定价模型。

谨致问候、