文章 "神经网络变得简单(第 56 部分):利用核范数推动研究" 新评论 MetaQuotes 2024.05.09 09:25 新文章 神经网络变得简单(第 56 部分):利用核范数推动研究已发布: 强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。 强化学习基于由智能体对环境进行独立探索的范式。智能体会影响环境,从而致其变化。作为回报,智能体会获得某种奖励。 强化学习的两个主要问题就此得以突出:环境探索和奖励函数。正确结构的奖励函数鼓励智能体探索环境,并寻找最优行为策略。 然而,在解决大多数实际问题时,我们面临着稀疏的外部奖励。为了克服这一障碍,提出了使用所谓的内部奖励。它们允许智能体掌握新技能,这样也许有助于将来获得外部奖励。然而,由于环境随机性,内部奖励可能会很嘈杂。将嘈杂的预测值直接应用于观测值,可能会对智能体政策训练的效率产生负面影响。甚至,许多方法使用 L2 范数,或方差来衡量研究的新颖性,这会由于平方操作而增加产生的噪声。 为了解决这个问题,《基于核范数最大化的好奇心驱动学习》一文章中提出了一种基于核范数最大化(NNM)激发智能体好奇心的新算法。这样的内部奖励能够更准确地评估环境探索的新颖性。同时,它对于噪音和尖峰具有很高的抗扰度。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得简单(第 56 部分):利用核范数推动研究已发布:
强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。
强化学习基于由智能体对环境进行独立探索的范式。智能体会影响环境,从而致其变化。作为回报,智能体会获得某种奖励。
强化学习的两个主要问题就此得以突出:环境探索和奖励函数。正确结构的奖励函数鼓励智能体探索环境,并寻找最优行为策略。
然而,在解决大多数实际问题时,我们面临着稀疏的外部奖励。为了克服这一障碍,提出了使用所谓的内部奖励。它们允许智能体掌握新技能,这样也许有助于将来获得外部奖励。然而,由于环境随机性,内部奖励可能会很嘈杂。将嘈杂的预测值直接应用于观测值,可能会对智能体政策训练的效率产生负面影响。甚至,许多方法使用 L2 范数,或方差来衡量研究的新颖性,这会由于平方操作而增加产生的噪声。
为了解决这个问题,《基于核范数最大化的好奇心驱动学习》一文章中提出了一种基于核范数最大化(NNM)激发智能体好奇心的新算法。这样的内部奖励能够更准确地评估环境探索的新颖性。同时,它对于噪音和尖峰具有很高的抗扰度。
作者:Dmitriy Gizlyk