文章 "您应当知道的 MQL5 向导技术(第 51 部分):配以 SAC 的强化学习"

 

新文章 您应当知道的 MQL5 向导技术(第 51 部分):配以 SAC 的强化学习已发布:

柔性参与者评论者是一种利用 3 个神经网络的强化学习算法。一名参与者网络和 2 个评论者网络。这些机器学习模型按主从伙伴关系配对,其中所建模评论者能提升参与者网络的预测准确性。在这些序列中引入 ONNX 的同时,我们探讨了如何将这些思路作为由向导汇编的智能系统的自定义信号,推进测试。

柔性参与者评论者是我们正在研究的另一种强化学习算法,它已考察了一些算法,包括近端政策优化深度-Q-网络SARSA、等等。不过,该算法就像我们曾考察过的一些算法,使用神经网络,但伴随一些重要警告。用到的网络总数为三个,分别是:两个评论者网络,和一个参与者网络。当输入动作和环境状态时,两个评论者网络会做出奖励预测(Q-值),且这两个网络的输出中的最小值被用作调制训练参与者网络的损失函数。

参与者网络的输入是环境状态坐标,输出为两叠。平均向量、和对数标准差向量。通过使用高斯过程,这两个向量用于推导参与者可能采取动作的概率分布。故此,虽然两个评论者网络能够按照传统进行训练,但参与者网络显然是另一码事。此处有很多东西要讨论,故我们先重申一下基础知识,然后再深入。两个评论者网络从输入取得环境的当前状态和一个动作。它们的输出是考虑该状态下所采取动作的预期回报(Q-值)的估测。使用两个评论者有助于降低高估偏差,这是 Q-学习的常见问题。

迄今为止,我们一如既往坚持使用相同模型,即 9 种环境状态、和 3 种可能的动作。为了处理动作的概率分布,我们需要对数概率函数,其代码已在本文开头分享。使用向导进行编译,并对数据窗口的剩余 4 个月执行测试运行,会向我们呈现以下报告:

r1

c1


作者:Stephen Njuki

 
你好,斯蒂芬,感谢你的教育性文章,我建议你在经济日历中加入NFP、CPI和利率的历史数据,因为这些数据会严重影响市场。