文章 "您应当知道的 MQL5 向导技术(第 54 部分):搭配混合 SAC 和张量的强化学习"

 

新文章 您应当知道的 MQL5 向导技术(第 54 部分):搭配混合 SAC 和张量的强化学习已发布:

软性参与者-评论者是一种强化学习算法,我们曾在之前的系列文章中考察过 Python 和 ONNX,作为高效的网络训练方式。我们重新审视该算法,意在利用张量,即 Python 中常用的计算图形。

软性参与者-评论者(SAC)是训练神经网络时常用的强化学习算法之一。回想一下,强化学习是机器学习中一种新兴的训练方法,与监督式学习和无监督式学习并列。

回放缓冲区是强化学习中 SAC 非政策算法中很重要的组成部分,它维持过去的状态、动作、奖励、以及下一个状态和完成标志(记录是否完成、或正在进行的事件)的经验到小批量样本中用于训练。其主要目的是去相关化各种经验,令智代能够从更多样化的经验中学习,其倾向有助于提升学习稳定性、和样本效率。

在实现 SAC 时,我们能够使用 MQL5 语言,但所创建的网络训练效率不如用 Python 开源库创建的网络,像是 TensorFlow 或 PyTorch。因此,正如我们在上一篇强化学习文章中看到的,其中 Python 用来为一个基础的 SAC 网络建模,我们继续使用 Python,但这次考察如何探索和利用其张量图形。理论上,在 Python 中实现回放缓冲区有两条途径。手工或基于张量的方式。 


作者:Stephen Njuki