文章 "您应当知道的 MQL5 向导技术(第 54 部分):搭配混合 SAC 和张量的强化学习" 新评论 MetaQuotes 2025.12.01 09:23 新文章 您应当知道的 MQL5 向导技术(第 54 部分):搭配混合 SAC 和张量的强化学习已发布: 软性参与者-评论者是一种强化学习算法,我们曾在之前的系列文章中考察过 Python 和 ONNX,作为高效的网络训练方式。我们重新审视该算法,意在利用张量,即 Python 中常用的计算图形。 软性参与者-评论者(SAC)是训练神经网络时常用的强化学习算法之一。回想一下,强化学习是机器学习中一种新兴的训练方法,与监督式学习和无监督式学习并列。 回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分,它维持过去的状态、动作、奖励、以及下一个状态和完成标志(记录是否完成、或正在进行的事件)的经验到小批量样本中用于训练。其主要目的是去相关化各种经验,令智代能够从更多样化的经验中学习,其倾向有助于提升学习稳定性、和样本效率。 在实现 SAC 时,我们能够使用 MQL5 语言,但所创建的网络训练效率不如用 Python 开源库创建的网络,像是 TensorFlow 或 PyTorch。因此,正如我们在上一篇强化学习文章中看到的,其中 Python 用来为一个基础的 SAC 网络建模,我们继续使用 Python,但这次考察如何探索和利用其张量图形。理论上,在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。 作者:Stephen Njuki 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 您应当知道的 MQL5 向导技术(第 54 部分):搭配混合 SAC 和张量的强化学习已发布:
软性参与者-评论者(SAC)是训练神经网络时常用的强化学习算法之一。回想一下,强化学习是机器学习中一种新兴的训练方法,与监督式学习和无监督式学习并列。
回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分,它维持过去的状态、动作、奖励、以及下一个状态和完成标志(记录是否完成、或正在进行的事件)的经验到小批量样本中用于训练。其主要目的是去相关化各种经验,令智代能够从更多样化的经验中学习,其倾向有助于提升学习稳定性、和样本效率。
在实现 SAC 时,我们能够使用 MQL5 语言,但所创建的网络训练效率不如用 Python 开源库创建的网络,像是 TensorFlow 或 PyTorch。因此,正如我们在上一篇强化学习文章中看到的,其中 Python 用来为一个基础的 SAC 网络建模,我们继续使用 Python,但这次考察如何探索和利用其张量图形。理论上,在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。
作者:Stephen Njuki