文章 "神经网络变得简单(第 58 部分):决策转换器(DT)" 新评论 MetaQuotes 2024.05.21 09:36 新文章 神经网络变得简单(第 58 部分):决策转换器(DT)已发布: 我们继续探索强化学习方法。在本文中,我将专注于一种略有不同的算法,其参考智能体政策构造一连串动作的范式。 在本系列中,我们已验证了相当广泛的不同强化学习算法。它们都使用基础方式: 智能体分析环境的当前状态。 采取最优动作(在学习的政策 — 行为策略的框架内)。 转入环境的新状态。 从环境中获得完全过渡到新状态的奖励。 该序列基于马尔可夫(Markov)过程的原理。假设起点是环境的当前状态。摆脱这种状态只有一种最优方法,它不依赖以前的路径。 我想讲述另一种替代方式,它是由谷歌团队在文章《决策转换器:通过序列建模进行强化学习》(2021 年 6 月 2 日)中提出。这项工作的主要亮点是将强化学习问题投影到条件化动作序列的建模,条件化则依据所需奖励的自回归模型。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 58 部分):决策转换器(DT)已发布:
我们继续探索强化学习方法。在本文中,我将专注于一种略有不同的算法,其参考智能体政策构造一连串动作的范式。
在本系列中,我们已验证了相当广泛的不同强化学习算法。它们都使用基础方式:
该序列基于马尔可夫(Markov)过程的原理。假设起点是环境的当前状态。摆脱这种状态只有一种最优方法,它不依赖以前的路径。
我想讲述另一种替代方式,它是由谷歌团队在文章《决策转换器:通过序列建模进行强化学习》(2021 年 6 月 2 日)中提出。这项工作的主要亮点是将强化学习问题投影到条件化动作序列的建模,条件化则依据所需奖励的自回归模型。
作者:Dmitriy Gizlyk