文章 "神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式" 新评论 MetaQuotes 2023.11.17 16:32 新文章 神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式已发布: 我们继续在强化学习模型中研究环境。 在本文中,我们将见识到另一种算法 — Go-Explore,它允许您在模型训练阶段有效地探索环境。 Go-Explore 的主要思想是记忆并回归至更有前途的状态。 这是奖励数量有限时有效操作的基础。 这个思路是如此灵活和广泛,以至于可以经由多种途径实现。 与大多数强化学习算法不同,Go-Explore 并不专注于直接解决目标问题,而是专注于在状态空间中寻找可以导致达成目标状态的相关状态和动作。 为了达成这一点,该算法有两个主要阶段:搜索和重用。 第一阶段是遍历状态空间中的所有状态,并将访问的每个状态记录在状态“映射”当中。 此后,该算法开始研究每个所访问状态的细节,并收集有关可能导致其它有趣状态的操作信息。 第二阶段是重用以前学习的状态和操作,寻找新的解。 该算法存储最成功的轨迹,并用它们来生成新的状态,从而产生更成功的解。 作者:Dmitriy Gizlyk koboyu 2023.11.23 07:23 #1 not found "..\Unsupervised\AE\VAE.mqh" 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式已发布:
我们继续在强化学习模型中研究环境。 在本文中,我们将见识到另一种算法 — Go-Explore,它允许您在模型训练阶段有效地探索环境。
Go-Explore 的主要思想是记忆并回归至更有前途的状态。 这是奖励数量有限时有效操作的基础。 这个思路是如此灵活和广泛,以至于可以经由多种途径实现。
与大多数强化学习算法不同,Go-Explore 并不专注于直接解决目标问题,而是专注于在状态空间中寻找可以导致达成目标状态的相关状态和动作。 为了达成这一点,该算法有两个主要阶段:搜索和重用。
第一阶段是遍历状态空间中的所有状态,并将访问的每个状态记录在状态“映射”当中。 此后,该算法开始研究每个所访问状态的细节,并收集有关可能导致其它有趣状态的操作信息。
第二阶段是重用以前学习的状态和操作,寻找新的解。 该算法存储最成功的轨迹,并用它们来生成新的状态,从而产生更成功的解。
作者:Dmitriy Gizlyk