文章 "神经网络变得简单(第 60 部分):在线决策转换器(ODT)" 新评论 MetaQuotes 2024.05.28 15:02 新文章 神经网络变得简单(第 60 部分):在线决策转换器(ODT)已发布: 最近两篇文章专门介绍了决策转换器方法,其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中,我们将研究该方法的另一种优化算法。 在线决策转换器算法对决策转换器进行了关键修改,从而确保高效的在线训练。第一步是泛化概率训练目标。在这种境况下,目标是训练一个随机政策,取最大化重复轨迹的概率。 在线 RL 算法的主要属性是它能够平衡探索和开发。即使采用随机政策,传统的 DT 公式也并未考虑探索。为了解决这个问题,ODT 方法的作者定义通过政策的熵来研究,这取决于轨迹中数据的分布。在离线预训练期间这种分布是静态的,但在在线设置期间则是动态的,因为它依赖于环境交互期间获得的新数据。 与许多现有的最大熵 RL 算法类似,例如软性扮演者-评论者,ODT 方法的作者明确定义了政策熵的下限,来鼓励探索。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 60 部分):在线决策转换器(ODT)已发布:
最近两篇文章专门介绍了决策转换器方法,其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中,我们将研究该方法的另一种优化算法。
在线决策转换器算法对决策转换器进行了关键修改,从而确保高效的在线训练。第一步是泛化概率训练目标。在这种境况下,目标是训练一个随机政策,取最大化重复轨迹的概率。
在线 RL 算法的主要属性是它能够平衡探索和开发。即使采用随机政策,传统的 DT 公式也并未考虑探索。为了解决这个问题,ODT 方法的作者定义通过政策的熵来研究,这取决于轨迹中数据的分布。在离线预训练期间这种分布是静态的,但在在线设置期间则是动态的,因为它依赖于环境交互期间获得的新数据。
与许多现有的最大熵 RL 算法类似,例如软性扮演者-评论者,ODT 方法的作者明确定义了政策熵的下限,来鼓励探索。
作者:Dmitriy Gizlyk