文章 "神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)"

 

新文章 神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)已发布:

在此,我将研究相当新颖的随机边际扮演者-评论者(SMAC)算法,该算法允许在熵值最大化的框架内构建潜在变量政策。

在构建自动交易系统时,我们开发了制定后续决策的算法。强化学习方法正是为了解决这些问题。强化学习的关键问题之一是如同智能体学习与环境交互那般的探索过程。在这种前后呼应情况下,经常运用最大熵原理,这促使智能体按最大随机度执行动作。然而,在实践中,这种算法只能训练简单的智能体学习单个动作周围的局部变化。这是因为需要计算智能体政策的熵值,并将其用作训练目标的一部分。

同时,提高扮演者政策表现力的一种相对简单的方式是使用潜在变量,其为智能体提供了自己的模型随机性推理过程,手段则是观察、环境和未知奖励。


将潜在变量引入智能体的政策,令其能够涵盖更多样化的场景,且与历史观测兼容。这里应该注意的是,具有潜在变量的政策不允许使用简单的表达式来判定它们的熵。朴素的熵估值可能会导致灾难性的政策优化失败。此外,熵最大化的高方差随机更新无法轻易区分局部随机效应和多模态探索。

《潜在状态边际化作为改进探索的低成本方法》一文中提出了解决这些潜在可变政策缺陷的方案之一。作者提出了一种《简单而有效的政策优化算法,能够在完全可观察和部分可观察的环境中提供更高效和更强大的探索。

作者:Dmitriy Gizlyk

 
看着很高大上呢
原因: