文章 "您应当知道的 MQL5 向导技术（第 54 部分）：搭配混合 SAC 和张量的强化学习"

MetaQuotes 2025.12.01 09:23

新文章您应当知道的 MQL5 向导技术（第 54 部分）：搭配混合 SAC 和张量的强化学习已发布：

软性参与者-评论者是一种强化学习算法，我们曾在之前的系列文章中考察过 Python 和 ONNX，作为高效的网络训练方式。我们重新审视该算法，意在利用张量，即 Python 中常用的计算图形。

软性参与者-评论者（SAC）是训练神经网络时常用的强化学习算法之一。回想一下，强化学习是机器学习中一种新兴的训练方法，与监督式学习和无监督式学习并列。

回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分，它维持过去的状态、动作、奖励、以及下一个状态和完成标志（记录是否完成、或正在进行的事件）的经验到小批量样本中用于训练。其主要目的是去相关化各种经验，令智代能够从更多样化的经验中学习，其倾向有助于提升学习稳定性、和样本效率。

在实现 SAC 时，我们能够使用 MQL5 语言，但所创建的网络训练效率不如用 Python 开源库创建的网络，像是 TensorFlow 或 PyTorch。因此，正如我们在上一篇强化学习文章中看到的，其中 Python 用来为一个基础的 SAC 网络建模，我们继续使用 Python，但这次考察如何探索和利用其张量图形。理论上，在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。

作者：Stephen Njuki

新评论