文章 "神经网络变得简单(第 60 部分):在线决策转换器(ODT)"

 

新文章 神经网络变得简单(第 60 部分):在线决策转换器(ODT)已发布:

最近两篇文章专门介绍了决策转换器方法,其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中,我们将研究该方法的另一种优化算法。

在线决策转换器算法对决策转换器进行了关键修改,从而确保高效的在线训练。第一步是泛化概率训练目标。在这种境况下,目标是训练一个随机政策,取最大化重复轨迹的概率。

在线 RL 算法的主要属性是它能够平衡探索和开发。即使采用随机政策,传统的 DT 公式也并未考虑探索。为了解决这个问题,ODT 方法的作者定义通过政策的熵来研究,这取决于轨迹中数据的分布。在离线预训练期间这种分布是静态的,但在在线设置期间则是动态的,因为它依赖于环境交互期间获得的新数据。

与许多现有的最大熵 RL 算法类似,例如软性扮演者-评论者,ODT 方法的作者明确定义了政策熵的下限,来鼓励探索。

作者:Dmitriy Gizlyk