文章 "您应当知道的 MQL5 向导技术（第 55 部分）：配备优先经验回放的 SAC"

MetaQuotes 2026.01.14 09:20

新文章您应当知道的 MQL5 向导技术（第 55 部分）：配备优先经验回放的 SAC已发布：

强化学习中的回放缓冲区对于像 DQN 或 SAC 这样的无政策算法尤为重要。这样就会聚光在该记忆缓冲区的抽样过程。举例，SAC 默认选项从该缓冲区随机选择，而优先经验回放缓冲区则基于 TD 分数从缓冲区中抽样对其优调。我们回顾强化学习的重要性，并一如既往，在由向导汇编的智能系统中验证这一假设（而‘非交叉验证）。

优先经验回放（PER）缓冲区和典型的回放缓冲区（针对随机抽样）两者都在强化学习中用到，并配合非政策算法如 DQN 和 SAC，因为它们允许存储和抽样以往的经验。PER 不同于典型的回放缓冲区，体现在以往经验的优先和抽样。

在典型的回放缓冲区内，会均匀且随机地抽样经验，这意味着任何以往经历都会被等概率选中，无关其对学习过程的重要性或相关性。遵照 PER，以往的经验会基于其“优先级”抽样，这一属性往往按时态差值误差的量级来量化。这个误差可作为学习潜力的代表。每个经验都会被赋予一个误差值，经验值越高就会被更频繁地抽样。这种优先级能够利用比例或基于排位的方式实现。

典型的回放缓冲区也不会引入或使用任何乖离。PER 会这样做，这可能会不公平地扭曲学习过程，这就是为何要纠正这一点，PER 采用重要性抽样权重来调整每个所抽经验的影响。因此典型的回放缓冲区抽样效率更高，因为它们在后台完成的事情远少于 PER。另一折面，PER 提供了更专注、更具建设性的学习，而典型的缓冲区则无法做到。

因此，无需多言，实现 PER 比典型的回放缓冲区更复杂；不过此处强调这一点的原因在于，PER 需要额外的类来维护常称为“总和树”的优先级队列。这种数据结构允许基于优先级更高效地进行经验抽样。PER 倾向导致更快的收敛、及更佳性能，在于它专注于对智代更具信息量、或更具挑战性的经验。

作者：Stephen Njuki

新评论