文章 "神经网络变得轻松（第四十四部分）：动态学习技能"

MetaQuotes 2023.12.12 07:28

在上一篇文章中，我们讲解了 DIAYN 方法，它提供了学习各种技能的算法。获得的技能可用在各种任务。但这些技能可能非常难以预测，而这可能令它们难以运用。在本文中，我们要研究一种针对学习可预测技能的算法。

研究多个独立行为和相应的环境变化，能够令模型预测控制用于规划行为空间，胜于动作空间。有关于此，主要问题是我们如何获得这种行为，因为它们可能是随机且不可预测的。动态感知技能探索（DADS）方法提出了一种用于学习低级技能的无监督强化学习系统，其明确目标是促进基于模型的控制。

利用 DADS 学到的技能直接优化了可预测性，而来自所学习的预测模型能提供更好的见解。技能的一个关键特征是它们完全经由自主探索获得的。这意味着在设计任务和奖励函数之前，要先学习技能工具箱及其预测模型。如此，有了足够的数量，您就可以充分研究环境，并开发与其搭配的技能。

与 DIAYN 方法一样，DADS 算法用到 2 个模型：技能模型（代理者），和鉴别器（技能动态模型）。

模型按顺序迭代训练。首先，训练鉴别器能基于当前状态和所用技来预测未来状态。为此，将当前状态和独热技能识别向量馈送到代理者模型的输入之中。代理者生成一个在环境中执行的动作。该动作的结果就是，代理者将转进到环境的新状态。