文章 "您应当知道的 MQL5 向导技术(第 49 部分):搭配近端政策优化的强化学习" 新评论 MetaQuotes 2025.09.05 08:09 新文章 您应当知道的 MQL5 向导技术(第 49 部分):搭配近端政策优化的强化学习已发布: 近端政策优化是强化学习中的另一种算法,通常以网络形式以非常小的增量步幅更新政策,以便确保模型的稳定性。我们以向导汇编的智能系统来试验其作用,如同我们之前的文章一样。 我们继续我们的 MQL5 向导系列,最近我们在常见指标和强化学习算法的简单形态之间交替。在上一篇文章中考察了指标形态(比尔·威廉姆斯的短吻鳄)之后,我们现在回到强化学习,这次我们要研究的算法是近端政策优化(PPO)。据报道,该算法于 7 年前首次发布,是 ChatGPT 首选的强化学习算法。故此,围绕这种强化学习方式显然有一些炒作。PPO 算法旨在优化政策(定义参与者操作的函数),通过防止可能令学习过程不稳定的剧烈变化,来提高整体性能。 它并非独立地做到这一点,而是与其它强化学习算法协同工作,其中一些算法我们在本系列中曾研究过,从大义上讲,有两个种类。基于政策的算法、和基于数值的算法。我们已在本系列中考察过每个示例,也许回顾一下,我们看到的基于政策的算法是 Q-学习和 SARSA。我们仅研究了一种基于数值的方法,那就是时态差异。那么,PPO 到底是怎么回事呢? 如上所述,PPO 解决的“问题”是防止政策在更新期间发生太大变化。这背后的论调是,如果不干预管理更新频率和幅度,智服或许会:忘记它的所学,做出不可靠的决策,或者在环境中表现更差。因此,PPO 确保更新虽小、但意义重大。PPO 的工作是从其政策的预定义参数开始。其中政策只是基于奖励和环境状态定义参与者动作的函数。 作者:Stephen Njuki 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 您应当知道的 MQL5 向导技术(第 49 部分):搭配近端政策优化的强化学习已发布:
我们继续我们的 MQL5 向导系列,最近我们在常见指标和强化学习算法的简单形态之间交替。在上一篇文章中考察了指标形态(比尔·威廉姆斯的短吻鳄)之后,我们现在回到强化学习,这次我们要研究的算法是近端政策优化(PPO)。据报道,该算法于 7 年前首次发布,是 ChatGPT 首选的强化学习算法。故此,围绕这种强化学习方式显然有一些炒作。PPO 算法旨在优化政策(定义参与者操作的函数),通过防止可能令学习过程不稳定的剧烈变化,来提高整体性能。
它并非独立地做到这一点,而是与其它强化学习算法协同工作,其中一些算法我们在本系列中曾研究过,从大义上讲,有两个种类。基于政策的算法、和基于数值的算法。我们已在本系列中考察过每个示例,也许回顾一下,我们看到的基于政策的算法是 Q-学习和 SARSA。我们仅研究了一种基于数值的方法,那就是时态差异。那么,PPO 到底是怎么回事呢?
如上所述,PPO 解决的“问题”是防止政策在更新期间发生太大变化。这背后的论调是,如果不干预管理更新频率和幅度,智服或许会:忘记它的所学,做出不可靠的决策,或者在环境中表现更差。因此,PPO 确保更新虽小、但意义重大。PPO 的工作是从其政策的预定义参数开始。其中政策只是基于奖励和环境状态定义参与者动作的函数。
作者:Stephen Njuki