文章 "神经网络变得轻松（第五十部分）：软性扮演者-评价者（模型优化）"

MetaQuotes 2024.03.26 13:00

在上一篇文章中，我们实现了软性扮演者-评论者算法，但未能训练出一个可盈利的模型。在此，我们将优化先前创建的模型，以期获得所需的结果。

我们继续研究软性扮演者-评论者算法。在上一篇文章中，我们实现了该算法，但未能训练出一个可盈利的模型。今天，我们将研究可能的解决方案。在“模型拖延症，原因和解决方案”一文中已经提过类似的问题。我建议扩展我们在这一领域的知识，并以我们的软性扮演者-评论者模型为例研究新方式。

在我们转到直接优化我们构建的模型之前，我要提醒您，软性扮演者-评论者是一种在连续动作空间中随机模型的强化学习算法。这种方法的主要特点是在奖励函数中引入了熵分量。

使用随机扮演者策略可令模型更加灵活，并且能够解决复杂环境中的问题，在这些环境中，某些操作可能不确定或无法定义明确的规则。在处理包含大量噪声的数据时，该策略往往更健壮，因为它考虑到概率分量，并且不受明确规则的约束