文章 "神经网络变得简单(第 58 部分):决策转换器(DT)"

 

新文章 神经网络变得简单(第 58 部分):决策转换器(DT)已发布:

我们继续探索强化学习方法。在本文中,我将专注于一种略有不同的算法,其参考智能体政策构造一连串动作的范式。

在本系列中,我们已验证了相当广泛的不同强化学习算法。它们都使用基础方式:

  1. 智能体分析环境的当前状态。
  2. 采取最优动作(在学习的政策 — 行为策略的框架内)。
  3. 转入环境的新状态。
  4. 从环境中获得完全过渡到新状态的奖励。

该序列基于马尔可夫(Markov)过程的原理。假设起点是环境的当前状态。摆脱这种状态只有一种最优方法,它不依赖以前的路径。


我想讲述另一种替代方式,它是由谷歌团队在文章《决策转换器:通过序列建模进行强化学习》(2021 年 6 月 2 日)中提出。这项工作的主要亮点是将强化学习问题投影到条件化动作序列的建模,条件化则依据所需奖励的自回归模型。

作者:Dmitriy Gizlyk