文章 "您应当知道的 MQL5 向导技术（第 60 部分）：推理学习（Wasserstein-VAE），配合移动平均线和随机振荡器形态"

MetaQuotes 2026.02.24 07:10

我们将目光转向 MA 与随机振荡器的互补配对，实证推理学习在后监督学习与强化学习状况中扮演的角色。显然，推理学习有多种途径可供选择，不过我们的方式是使用变分自编码器。我们先以 Python 探索这些，然后将训练好的模型以 ONNX 格式导出，可在 MetaTrader 中供向导汇编智能系统所用。

用“状态”一词来预测价格变化是偶然的，概因我们从监督学习转向强化学习。正如强化学习内建立的，状态是训练过程的关键起点，这与下图非常相似。

强化学习根据所用算法有多个变体，但原则上它们大多数都用到两个网络。第一个是政策，在上图所示两个网络中的上方，另一个是价值网络，表示为下方。

强化可能是模型或系统的专有训练方法，但我们在上一篇文章中的论证了，它在实际部署的模型上所用更多。当这完成后，探索与利用的平衡将更有助于确保已训练好的模型适配不断变化的市场环境。但是更甚于此，我们见识了做多或做空决策如何进一步处理，即选择预测状态所需的动作类型。