文章 "神经网络变得简单(第 67 部分):按照过去的经验解决新任务" 新评论 MetaQuotes 2024.06.26 10:37 新文章 神经网络变得简单(第 67 部分):按照过去的经验解决新任务已发布: 在本文中,我们将继续讨论收集数据至训练集之中的方法。显然,学习过程需要与环境不断互动。不过,状况可能会有所不同。 强化学习建立在与环境互动过程时从环境中获得的最大奖励之上。显然,学习过程需要与环境不断互动。不过,状况有所不同。在解决某些任务时,我们与环境交互时可能会遇到各种限制。对于这种状况,一个可能的解决方案是使用离线强化学习算法。它们允许您依据与环境初步交互期间收集的有限轨迹存档(当它可用时)上训练模型。 当然,离线强化学习也有一些瑕疵。特别是,当我们与有限的训练样本打交道时,研究环境的问题变得更加尖锐,它无法适应环境的所有多变性。在复杂的随机环境中尤其如此。在上一篇文章中,我们讨论过解决该任务的选项之一(ExORL 方法)。 不过,有时与环境的交互限制可能至关重要。环境探索的过程可以伴随着积极和消极的回报。负面奖励可能是高度不受待见,且可能伴随着经济损失、或其它一些您无法接受的不必要损失。但任务很少是“凭空诞生的”。大多数情况下,我们会优化现有流程。在我们这个信息技术时代,我们几乎总能从以往解决类似上述任务的过程中,找到正在探索环境的互动经验。可以使用来自实际的与环境交互的数据,这些数据可在某种程度上覆盖所需的动作和状态空间。在《依据真实数据源的真实世界离线强化学习》一文中讲述了使用此类经验解决真实机器人应对新任务的实验。该论文的作者提出了一个训练模型的新框架:真实-ORL。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 67 部分):按照过去的经验解决新任务已发布:
在本文中,我们将继续讨论收集数据至训练集之中的方法。显然,学习过程需要与环境不断互动。不过,状况可能会有所不同。
强化学习建立在与环境互动过程时从环境中获得的最大奖励之上。显然,学习过程需要与环境不断互动。不过,状况有所不同。在解决某些任务时,我们与环境交互时可能会遇到各种限制。对于这种状况,一个可能的解决方案是使用离线强化学习算法。它们允许您依据与环境初步交互期间收集的有限轨迹存档(当它可用时)上训练模型。
当然,离线强化学习也有一些瑕疵。特别是,当我们与有限的训练样本打交道时,研究环境的问题变得更加尖锐,它无法适应环境的所有多变性。在复杂的随机环境中尤其如此。在上一篇文章中,我们讨论过解决该任务的选项之一(ExORL 方法)。
不过,有时与环境的交互限制可能至关重要。环境探索的过程可以伴随着积极和消极的回报。负面奖励可能是高度不受待见,且可能伴随着经济损失、或其它一些您无法接受的不必要损失。但任务很少是“凭空诞生的”。大多数情况下,我们会优化现有流程。在我们这个信息技术时代,我们几乎总能从以往解决类似上述任务的过程中,找到正在探索环境的互动经验。可以使用来自实际的与环境交互的数据,这些数据可在某种程度上覆盖所需的动作和状态空间。在《依据真实数据源的真实世界离线强化学习》一文中讲述了使用此类经验解决真实机器人应对新任务的实验。该论文的作者提出了一个训练模型的新框架:真实-ORL。
作者:Dmitriy Gizlyk