文章 "神经网络变得简单(第 69 部分):基于密度的行为政策支持约束(SPOT)"

 

新文章 神经网络变得简单(第 69 部分):基于密度的行为政策支持约束(SPOT)已发布:

在离线学习中,我们使用固定的数据集,这限制了环境多样性的覆盖范围。在学习过程中,我们的 Agent 能生成超出该数据集之外的动作。如果没有来自环境的反馈,我们如何判定针对该动作的估测是正确的?在训练数据集中维护 Agent 的政策成为确保训练可靠性的一个重要方面。这就是我们将在本文中讨论的内容。

用于解决此问题的各种离线强化学习方法都会采取参数化或正则化,其限制 Agent 的政策于训练数据集的支持集之内执行动作。详细的结构通常会干扰 Agent 模型,这会导致额外的运营成本,并阻止充分利用已建立的在线强化学习方法。正则化方法减少了学习政策和训练数据集之间的差异,其也许不符合基于密度的支持定义,因此无法有效地避免在分布之外起作用。

在这种情况下,我建议研究“支持政策优化(SPOT)”方法的适用性,该方法曾在《离线强化学习的支持政策优化》一文中讲述。其方式直接来自基于训练数据集密度分布的政策约束的理论形式化。SPOT 使用基于变分自动编码器(VAE)的密度估算器,其是一种简单而有效的正则化元素。它可以内置到现成的强化学习算法当中。SPOT 在标准离线 RL 基准测试中达成了一流的性能。多谢其灵活的设计,经 SPOT 离线预训练的模型也可在线优调。


作者:Dmitriy Gizlyk