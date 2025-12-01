文章 "您应当知道的 MQL5 向导技术（第 54 部分）：搭配混合 SAC 和张量的强化学习" 新评论 MetaQuotes 2025.12.01 09:23 新文章 您应当知道的 MQL5 向导技术（第 54 部分）：搭配混合 SAC 和张量的强化学习已发布： 软性参与者-评论者是一种强化学习算法，我们曾在之前的系列文章中考察过 Python 和 ONNX，作为高效的网络训练方式。我们重新审视该算法，意在利用张量，即 Python 中常用的计算图形。 软性参与者-评论者（SAC）是训练神经网络时常用的强化学习算法之一。回想一下，强化学习是机器学习中一种新兴的训练方法，与监督式学习和无监督式学习并列。 回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分，它维持过去的状态、动作、奖励、以及下一个状态和完成标志（记录是否完成、或正在进行的事件）的经验到小批量样本中用于训练。其主要目的是去相关化各种经验，令智代能够从更多样化的经验中学习，其倾向有助于提升学习稳定性、和样本效率。 在实现 SAC 时，我们能够使用 MQL5 语言，但所创建的网络训练效率不如用 Python 开源库创建的网络，像是 TensorFlow 或 PyTorch。因此，正如我们在上一篇强化学习文章中看到的，其中 Python 用来为一个基础的 SAC 网络建模，我们继续使用 Python，但这次考察如何探索和利用其张量图形。理论上，在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。 作者：Stephen Njuki 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
新文章 您应当知道的 MQL5 向导技术（第 54 部分）：搭配混合 SAC 和张量的强化学习已发布：
软性参与者-评论者（SAC）是训练神经网络时常用的强化学习算法之一。回想一下，强化学习是机器学习中一种新兴的训练方法，与监督式学习和无监督式学习并列。
回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分，它维持过去的状态、动作、奖励、以及下一个状态和完成标志（记录是否完成、或正在进行的事件）的经验到小批量样本中用于训练。其主要目的是去相关化各种经验，令智代能够从更多样化的经验中学习，其倾向有助于提升学习稳定性、和样本效率。
在实现 SAC 时，我们能够使用 MQL5 语言，但所创建的网络训练效率不如用 Python 开源库创建的网络，像是 TensorFlow 或 PyTorch。因此，正如我们在上一篇强化学习文章中看到的，其中 Python 用来为一个基础的 SAC 网络建模，我们继续使用 Python，但这次考察如何探索和利用其张量图形。理论上，在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。
作者：Stephen Njuki