文章 "神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式"

 

新文章 神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式已发布:

我们继续在强化学习模型中研究环境。 在本文中,我们将见识到另一种算法 — Go-Explore,它允许您在模型训练阶段有效地探索环境。

Go-Explore 的主要思想是记忆并回归至更有前途的状态。 这是奖励数量有限时有效操作的基础。 这个思路是如此灵活和广泛,以至于可以经由多种途径实现。 

与大多数强化学习算法不同,Go-Explore 并不专注于直接解决目标问题,而是专注于在状态空间中寻找可以导致达成目标状态的相关状态和动作。 为了达成这一点,该算法有两个主要阶段:搜索和重用。


第一阶段是遍历状态空间中的所有状态,并将访问的每个状态记录在状态“映射”当中。 此后,该算法开始研究每个所访问状态的细节,并收集有关可能导致其它有趣状态的操作信息。

第二阶段是重用以前学习的状态和操作,寻找新的解。 该算法存储最成功的轨迹,并用它们来生成新的状态,从而产生更成功的解。

作者:Dmitriy Gizlyk

 
not found "..\Unsupervised\AE\VAE.mqh"
原因: