文章 "神经网络变得轻松(第四十四部分):动态学习技能"

 

新文章 神经网络变得轻松(第四十四部分):动态学习技能已发布:

在上一篇文章中,我们讲解了 DIAYN 方法,它提供了学习各种技能的算法。 获得的技能可用在各种任务。 但这些技能可能非常难以预测,而这可能令它们难以运用。 在本文中,我们要研究一种针对学习可预测技能的算法。

研究多个独立行为和相应的环境变化,能够令模型预测控制用于规划行为空间,胜于动作空间。 有关于此,主要问题是我们如何获得这种行为,因为它们可能是随机且不可预测的。 动态感知技能探索(DADS)方法提出了一种用于学习低级技能的无监督强化学习系统,其明确目标是促进基于模型的控制。

利用 DADS 学到的技能直接优化了可预测性,而来自所学习的预测模型能提供更好的见解。 技能的一个关键特征是它们完全经由自主探索获得的。 这意味着在设计任务和奖励函数之前,要先学习技能工具箱及其预测模型。 如此,有了足够的数量,您就可以充分研究环境,并开发与其搭配的技能。

与 DIAYN 方法一样,DADS 算法用到 2 个模型:技能模型(代理者),和鉴别器(技能动态模型)。


模型按顺序迭代训练。 首先,训练鉴别器能基于当前状态和所用技来预测未来状态。 为此,将当前状态和独热技能识别向量馈送到代理者模型的输入之中。 代理者生成一个在环境中执行的动作。 该动作的结果就是,代理者将转进到环境的新状态。

作者:Dmitriy Gizlyk

原因: