文章 "您应当知道的 MQL5 向导技术(第 58 部分):配以移动平均和随机振荡器形态的强化学习(DDPG)"

 

新文章 您应当知道的 MQL5 向导技术(第 58 部分):配以移动平均和随机振荡器形态的强化学习(DDPG)已发布:

移动平均线和随机振荡器是十分常用的指标,我们在前一篇文章中探讨了它们的共通形态,并通过监督学习网络,见识了哪些“形态能粘附”。我们自该文加以分析,进一步研究当使用该已训练网络时,强化学习的效能。读者应当注意,我们的测试时间窗口非常有限。无论如何,我们在展示这一点时,会继续追求由 MQL5 向导提供最低编码需求。

自我们上一篇文章,我们测试了来自两个指标(移动平均线和随机振荡器)的 10 种信号形态。其中七个能基于一年的测试窗口通过前向漫游测试。然而,在这些当中,仅有两个做到了做多和做空。这主要是因为我们的测试窗口很短,这就是为何建议读者在将来采用它之前,在更长历史数据上进行测试。 

我们在此遵循的是一个论点,其中三种主要机器学习模式能一并采用,每个都有其自己的“阶段”。回忆一下,这些模式分别是监督学习(SL)、强化学习(RL)、和推理学习(IL)。我们在上一篇文章中详讨了监督学习,其中移动平均线和随机振荡器的组合形态被归一化为特征的二元向量。随后,这些数据被投喂到一个简单的神经网络,我们依据 EURUSD 货币对的2023 年数据进行了训练,随后在 2024年数据上执行了前向测试。 

由于我们的方式基于“强化学习可边学习边训练模型”的论点,我们打算在本文中通过来自早期监督学习的结果、以及网络来演示这一点。我们假设,强化学习是当部署时的反向传播形式,它能精细优调买卖决策,如此它们就不再仅仅基于价格变化预测,而是如同监督学习模型中的情况。 

正如我们在过去的强化学习文章中所见,这种“优调”嫁接了探索和利用。故此,这般行事,我们的政策网络就能在实时市场环境中训练,并据其判定哪些状态应得出买入或卖出动作。有些情况下,看涨状态不一定意味着买入机会,反之亦然。这意味着我们的强化学习模型充当监督学习模型决策制定的额外过滤器。来自我们的监督学习模型中状态,使用了单维度连续值,这与我们将要用到的动作空间非常相似。


作者:Stephen Njuki