文章 "您应当知道的 MQL5 向导技术(第 45 部分):蒙特卡洛强化学习" 新评论 MetaQuotes 2025.08.06 08:34 新文章 您应当知道的 MQL5 向导技术(第 45 部分):蒙特卡洛强化学习已发布: 蒙特卡洛是我们正在研究的第四种不同的强化学习算法,目的是探索它在向导汇编智能交易系统中的实现。尽管它锚定在随机抽样,但它提供了我们可以利用的多种模拟方法。 使用蒙特卡洛算法,Q-值仅在局次完成后才会更新。一个局次是一次批量循环。至于本文,我们把输入参数 “m_episodes_size” 赋值给到循环次数,并且它是可优化或可调整的。蒙特卡洛之所以对市场波动非常稳健,因为它能更好地模拟广泛的可能市场场景,令交易者能判定不同策略在各种条件下的表现。这种可变性有助于交易者理解潜在的权衡、风险、和回报,令他们能够制定更明智的决策。 有一种论调,这种优势源于其“长期绩效洞察力”,这与倾向于专注短期成果的传统方法形成鲜明对比。这意味着蒙特卡洛模拟要执行的更新不会太频繁,因为它们在一局中只发生一次,这就避免了市场噪音,而 Q-学习 和 SARSA 必然会遇到市场噪音,在于它们执行更新更频繁。评估一段时间内的累积回报,来评估交易策略的长期表现,这便是蒙特卡洛努力达成的目标。通过分析其中的多个轮次,交易者能够深入洞察其策略的整体盈利能力和可持续性。 蒙特卡洛算法基于单个轮次中多个周期的“状态-动作”对的平均回报来计算“动作-估值”。这令交易者更好地基于历史表现评估哪些动作(例如,买入或卖出)最有可能产生有利的成果。Q-值的更新源自这些 Q-值具有的奖励分量,判定如下: 其中: R t+1 , R t+2 ,…,R T 是时间 t 之后每一步获得的奖励。 γ /gamma 是折扣系数 (0 ≤ γ ≤ 1),它按照未来奖励的“折扣”程度(即价值低于即时奖励)来设置。 T 代表轮次结束时的时间步长(终结状态或以周期为单位的轮次大小)。 作者:Stephen Njuki Thabiso Nkosi 2024.11.14 09:09 #1 嗨,恩朱基先生、希望您一切都好。我只是想问一下 2022 年对专家顾问进行优化的情况。请详细说明使用的是哪种定价模型。谨致问候、 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 您应当知道的 MQL5 向导技术(第 45 部分):蒙特卡洛强化学习已发布:
使用蒙特卡洛算法,Q-值仅在局次完成后才会更新。一个局次是一次批量循环。至于本文,我们把输入参数 “m_episodes_size” 赋值给到循环次数,并且它是可优化或可调整的。蒙特卡洛之所以对市场波动非常稳健,因为它能更好地模拟广泛的可能市场场景,令交易者能判定不同策略在各种条件下的表现。这种可变性有助于交易者理解潜在的权衡、风险、和回报,令他们能够制定更明智的决策。
有一种论调,这种优势源于其“长期绩效洞察力”,这与倾向于专注短期成果的传统方法形成鲜明对比。这意味着蒙特卡洛模拟要执行的更新不会太频繁,因为它们在一局中只发生一次,这就避免了市场噪音,而 Q-学习 和 SARSA 必然会遇到市场噪音,在于它们执行更新更频繁。评估一段时间内的累积回报,来评估交易策略的长期表现,这便是蒙特卡洛努力达成的目标。通过分析其中的多个轮次,交易者能够深入洞察其策略的整体盈利能力和可持续性。
蒙特卡洛算法基于单个轮次中多个周期的“状态-动作”对的平均回报来计算“动作-估值”。这令交易者更好地基于历史表现评估哪些动作(例如,买入或卖出)最有可能产生有利的成果。Q-值的更新源自这些 Q-值具有的奖励分量,判定如下:
其中:
作者:Stephen Njuki