文章 "神经网络变得轻松（第三十八部分）：凭借分歧进行自我监督探索"

MetaQuotes 2023.10.23 08:47

强化学习中的一个关键问题是环境探索。之前，我们已经见识到基于内在好奇心的研究方法。今天我提议看看另一种算法：凭借分歧进行探索。

基于分歧的探索是一种强化学习方法，允许代理者在不依赖外部奖励的情况下探索环境，但更倾向于使用模型融汇寻找新的、未探索的区域。

在“凭借分歧进行自我监督探索”一文中，作者讲述了这种方式，并提出了一个简单的方法：训练前向动态模型的融汇，并鼓励代理者探索动作空间，其在融汇当中模型预测之间存在最大不一致或方差。

因此，代理者并非选择产生最大预期奖励的动作，代理者选择的是融汇当中模型之间分歧最大的动作。这令代理者探索状态空间的区域，其中融汇当中的模型有分歧，以及可能存在新的和未探索的环境区域。

在这种情况下，融汇当中的所有模型都收敛到均值，最终减少融汇的差距，并为代理者提供有关环境状态和动作可能后果的更准确预测。

此外，凭借分歧进行探索的算法允许代理者成功应对与环境交互的随机性。本文作者进行的实验结果表明，所提出的方式真实改进了随机环境中的探索，并且优于先前存在的内在动机和不确定性建模方法。此外，他们观察到这些方式可以扩展到监督学习，其中样本的值不是基于真实标签，而是基于模型融汇的状态来判定的。

故此，凭借分歧进行探索的算法是解决随机环境探索问题的一种有前途的方法。它允许代理者更有效地探索环境，而不必依赖外部奖励，这在外部奖励可能有限或成本不菲的实际应用程序中尤其实用。

star-ik 2023.04.20 22:29 #1

您好，这已经变成了一场机会游戏--尝试运行您的另一个作品。我不是编程专家，但至少我能够体会到这一主题的深度和广度。我在策略测试器中运行了它，批量优化从 100 到 110。托盘中的指标运行了 12 个小时，其他什么也没发生。我做错了什么？

Seyedsoroush Abtahiforooshani 2023.04.21 06:17 #2

我要研究一下这次与上次相比文件的变化。我也遇到了同样的问题。

当我尝试从 MT5 中删除指标时，或者在元编辑器中进行调试时，MetaTrader5 会立即崩溃。

即使过了好几个小时也无法运行。

star-ik 2023.04.21 12:22 #3

还有一个令人费解的问题。Expert Advisor 没有创建任何文件，但却安装在图表上。但是，它并不执行任何操作。

star-ik 2023.04.21 12:35 #4

您的链接中没有所述的 EA！！！只有上一篇文章中的旧版本。起初我以为你只是在复制时忘了改名字，但对比后我发现代码!!!! 完全吻合CARAUL!!.！

Dmitriy Gizlyk 2023.04.22 14:21 #5

star-ik #:
您的链接中没有所述的 EA！！！只有上一篇文章中的旧版本。起初我以为你只是在复制时忘了改名字，但对比后我发现代码!!!! 完全吻合CARAUL！！！

在文章底部的存档中，附有一套完整的文件。其中有以前文章中的智能交易系统。但也有文章中提到的 Expert Advisor。

star-ik 2023.04.22 14:29 #6

谢谢，我找到了。只是之前新的 EA 总是排在列表的最下面。

star-ik 2023.04.24 09:21 #7

对不起，还有一个外行问题。在测试仪中，智能交易系统没有进行过一次交易。它只是挂在图表上，没有任何活动迹象。为什么会这样？

还有一个问题。在进行交易时，指标数据是否只用作额外的过滤器？

star-ik 2023.04.24 12:14 #8

用你在第 37 部分给我的建议替换了 NeuroNet 库。在测试仪中加载了历史记录，但仍然没有交易。

Eugen Funk 2023.10.16 14:57 #9

非常感谢你的这篇文章！
我看到你还提供了一个压缩文件，里面有许多 RL 实验。是否有一个特定的 mq5 文件，我可以对其进行编译、运行和更详细的评估？

非常感谢！

Dmitriy Gizlyk 2023.10.16 17:56 #10

Eugen Funk #:

非常感谢！

您好，可以。附件中有以前文章中的所有文件。