文章 "神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)" 新评论 MetaQuotes 2024.06.19 13:45 新文章 神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)已发布: 在本文中,我们将领略一个有趣的算法,它是在监督和强化学习方法的交叉点上构建的。 行为克隆方法,大部分基于监督学习的原理,展现出相当良好的结果。但它们的主要问题仍然是寻找偶像般的模型,而这些有时很难收集。反之,强化学习方法能够依据非最优原数据工作。同时,它们可以找到次优政策来达成目标。然而,在寻找最优政策时,我们时常会到一个优化问题,其与高维和随机环境更多关联。 为了弥合这两种方式之间的间隙,一群科学家提出了距离加权监督学习(DWSL)方法,并在文章《离线交互数据的距离加权监督学习》中进行了阐述。它是一种针对目标条件政的离线监督学习算法。理论上,DWSL 据来自训练集的轨迹水平上具有最小回报边界,收敛到最优政策。本文的实际算例展示出所提议方法的优于模仿学习和强化学习算法。我建议就这个 DWSL 算法深入谈谈。我们将评估它在解决实际问题方面的优势和劣势。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)已发布:
在本文中,我们将领略一个有趣的算法,它是在监督和强化学习方法的交叉点上构建的。
行为克隆方法,大部分基于监督学习的原理,展现出相当良好的结果。但它们的主要问题仍然是寻找偶像般的模型,而这些有时很难收集。反之,强化学习方法能够依据非最优原数据工作。同时,它们可以找到次优政策来达成目标。然而,在寻找最优政策时,我们时常会到一个优化问题,其与高维和随机环境更多关联。
为了弥合这两种方式之间的间隙,一群科学家提出了距离加权监督学习(DWSL)方法,并在文章《离线交互数据的距离加权监督学习》中进行了阐述。它是一种针对目标条件政的离线监督学习算法。理论上,DWSL 据来自训练集的轨迹水平上具有最小回报边界,收敛到最优政策。本文的实际算例展示出所提议方法的优于模仿学习和强化学习算法。我建议就这个 DWSL 算法深入谈谈。我们将评估它在解决实际问题方面的优势和劣势。
作者:Dmitriy Gizlyk