文章 "神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)" 新评论 MetaQuotes 2024.04.04 09:47 新文章 神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)已发布: 最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。 首先,我们谈谈研究环境的必要性。我想每个人都同意这个过程是必要的。但究竟是为了什么,在什么阶段? 我们从一个简单的例子开始。假设我们发现自己身处一间有三扇相同房门的屋内,我们需要走到街上。我们该怎么办?我们逐扇打开房门,直至找到我们需要的那扇。当我们再次进入同一间屋时,我们外出就不再需要打开所有房门,取而代之的是立即前往已知的出口。如果我们有不同的任务,那么可能有一些选项。我们可以再次打开除已知出口外的所有门,并寻找合适的。或者我们可以先记住早前我们在寻找出路时打开了哪些门,以及我们需要的那扇门是否在其中。如果我们记得正确的门,我们就会走向它。否则,我们会检查以前没有尝试过的门。 结论:我们需要在不熟悉的情况下研究环境,据此选择正确的动作。找到所需的路线后,对环境的额外探索只会成为阻碍。 不过,当任务在已知状态下发生变化时,我们也许需要额外研究环境。这可能包括寻找更优化的路线。在上面的例子中,如果我们需要穿过更多的房间,或者我们发现自己在建筑物的错误一侧,也许就会发生这种情况。 因此,我们需要一种算法,允许我们能够在未探索的状态下强化环境探索,并在先前探索的状态中将其最小化。 作者:Dmitriy Gizlyk 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)已发布:
最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。
首先,我们谈谈研究环境的必要性。我想每个人都同意这个过程是必要的。但究竟是为了什么,在什么阶段?
我们从一个简单的例子开始。假设我们发现自己身处一间有三扇相同房门的屋内,我们需要走到街上。我们该怎么办?我们逐扇打开房门,直至找到我们需要的那扇。当我们再次进入同一间屋时,我们外出就不再需要打开所有房门,取而代之的是立即前往已知的出口。如果我们有不同的任务,那么可能有一些选项。我们可以再次打开除已知出口外的所有门,并寻找合适的。或者我们可以先记住早前我们在寻找出路时打开了哪些门,以及我们需要的那扇门是否在其中。如果我们记得正确的门,我们就会走向它。否则,我们会检查以前没有尝试过的门。
结论:我们需要在不熟悉的情况下研究环境,据此选择正确的动作。找到所需的路线后,对环境的额外探索只会成为阻碍。
不过,当任务在已知状态下发生变化时,我们也许需要额外研究环境。这可能包括寻找更优化的路线。在上面的例子中,如果我们需要穿过更多的房间,或者我们发现自己在建筑物的错误一侧,也许就会发生这种情况。
因此,我们需要一种算法,允许我们能够在未探索的状态下强化环境探索,并在先前探索的状态中将其最小化。
作者:Dmitriy Gizlyk