文章 "神经网络变得轻松(第五十三部分):奖励分解" 新评论 MetaQuotes 2024.04.15 14:10 新文章 神经网络变得轻松(第五十三部分):奖励分解已发布: 我们已经不止一次地讨论过正确选择奖励函数的重要性,我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中,我们将探讨将单独信号传输至已训练代理者时的奖励分解。 我们继续探索强化学习方法。如您所知,机器学习领域中用于训练模型的所有算法都基于最大化环境奖励的范式。奖励函数在模型训练过程中起着关键作用。其信号往往非常模棱两可。 为了激励代理者表现出所需的行为,我们在奖励函数中引入了额外的红利和惩罚。例如,我们常常把奖励函数搞得更加复杂,试图鼓励代理者去探索环境,并引入对不作为的惩罚。同时,模型的架构和奖励函数仍然是模型架构师主观考虑的结果。 在训练期间,即使采取精心设计的方式,模型也可能会遇到各种困难。出于众多不同的原因,代理者也许无法达成预期的结果。但是,我们如何理解代理者在奖励函数中正确地解释我们的信号呢?为尝试搞明白这个问题,人们希望将奖励分解成不同的分量。使用分解的奖励并分析各个分量的影响,对于找到优化模型训练的方法非常实用。这令我们能够更好地了解不同层面如何影响代理者行为,辨别导致问题的原因,并有效地调整模型架构、训练过程、或奖励函数。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得轻松(第五十三部分):奖励分解已发布:
我们已经不止一次地讨论过正确选择奖励函数的重要性,我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中,我们将探讨将单独信号传输至已训练代理者时的奖励分解。
我们继续探索强化学习方法。如您所知,机器学习领域中用于训练模型的所有算法都基于最大化环境奖励的范式。奖励函数在模型训练过程中起着关键作用。其信号往往非常模棱两可。
为了激励代理者表现出所需的行为,我们在奖励函数中引入了额外的红利和惩罚。例如,我们常常把奖励函数搞得更加复杂,试图鼓励代理者去探索环境,并引入对不作为的惩罚。同时,模型的架构和奖励函数仍然是模型架构师主观考虑的结果。
在训练期间,即使采取精心设计的方式,模型也可能会遇到各种困难。出于众多不同的原因,代理者也许无法达成预期的结果。但是,我们如何理解代理者在奖励函数中正确地解释我们的信号呢?为尝试搞明白这个问题,人们希望将奖励分解成不同的分量。使用分解的奖励并分析各个分量的影响,对于找到优化模型训练的方法非常实用。这令我们能够更好地了解不同层面如何影响代理者行为,辨别导致问题的原因,并有效地调整模型架构、训练过程、或奖励函数。
作者:Dmitriy Gizlyk