文章 "您应当知道的 MQL5 向导技术(第 55 部分):配备优先经验回放的 SAC"

 

新文章 您应当知道的 MQL5 向导技术(第 55 部分):配备优先经验回放的 SAC已发布:

强化学习中的回放缓冲区对于像 DQN 或 SAC 这样的无政策算法尤为重要。这样就会聚光在该记忆缓冲区的抽样过程。举例,SAC 默认选项从该缓冲区随机选择,而优先经验回放缓冲区则基于 TD 分数从缓冲区中抽样对其优调。我们回顾强化学习的重要性,并一如既往,在由向导汇编的智能系统中验证这一假设(而‘非交叉验证)。

优先经验回放(PER)缓冲区和典型的回放缓冲区(针对随机抽样)两者都在强化学习中用到,并配合非政策算法如 DQN 和 SAC,因为它们允许存储和抽样以往的经验。PER 不同于典型的回放缓冲区,体现在以往经验的优先和抽样。 

在典型的回放缓冲区内,会均匀且随机地抽样经验,这意味着任何以往经历都会被等概率选中,无关其对学习过程的重要性或相关性。遵照 PER,以往的经验会基于其“优先级”抽样,这一属性往往按时态差值误差的量级来量化。这个误差可作为学习潜力的代表。每个经验都会被赋予一个误差值,经验值越高就会被更频繁地抽样。这种优先级能够利用比例或基于排位的方式实现。

典型的回放缓冲区也不会引入或使用任何乖离。PER 会这样做,这可能会不公平地扭曲学习过程,这就是为何要纠正这一点,PER 采用重要性抽样权重来调整每个所抽经验的影响。因此典型的回放缓冲区抽样效率更高,因为它们在后台完成的事情远少于 PER。另一折面,PER 提供了更专注、更具建设性的学习,而典型的缓冲区则无法做到。

因此,无需多言,实现 PER 比典型的回放缓冲区更复杂;不过此处强调这一点的原因在于,PER 需要额外的类来维护常称为“总和树”的优先级队列。这种数据结构允许基于优先级更高效地进行经验抽样。PER 倾向导致更快的收敛、及更佳性能,在于它专注于对智代更具信息量、或更具挑战性的经验。


作者:Stephen Njuki