文章 "您应当知道的 MQL5 向导技术(第 43 部分):依据 SARSA 进行强化学习"

 

新文章 您应当知道的 MQL5 向导技术(第 43 部分):依据 SARSA 进行强化学习已发布:

SARSA 是 “State-Action-Reward-State-Action” 的缩写,是另一种能在实现强化学习时运用的算法。故此,正如我们在 Q-学习 和 DQN 中看到的那样,我们考察了如何在向导汇编的智能系统中探索和实现它,将其作为独立模型,而不仅仅是一种训练机制。

强化学习(RL)允许交易系统从其环境或市场数据中学习,从而随时间推移提升其交易能力。强化学习能够适应不断变化的市场条件,令其适用于某些动态的金融市场和证券。金融市场是不可预测的,在于它们往往具有高度的不确定性。强化学习擅长在不确定性下制定决策,基于收到的反馈(奖励)不断调整其动作,因而在处理动荡的市场条件时对交易者非常有帮助。

能与其并肩比较的是附加到图表的智能系统,且还会定期依据最近的价格历史记录进行自我优化,从而优调其参数。强化学习的目标是做同样的事情,但不那么大张旗鼓。作为这些系列的一个段落,迄今已考察了强化学习,我们按严格定义意义在训练机器学习中将其当作第三种方式(除了监督学习和无监督学习)。我们尚未考察其能否作为独立模型用于预测。

在本文中这有所变化。我们不仅引入了不同的强化学习算法 SARSA,而且我们寻求在向导汇编的智能系统内实现另一个自定义信号类,作为一个独立的信号模型。当用作信号模型时,强化学习可自动化决策过程,降低了持续人工干预的需求,这反过来(至少在理论上)能允许高频交易、以及实时响应市场波动。此外,通过从其奖励机制获得持续反馈,强化学习模型偏向学习更好地管理风险。这是通过惩罚低回报的高风险行为来实现的,强化学习的净效应最大限度地减少了波动或亏损交易的风险。

依据 EURJPY,2022 年日线时间帧测试运行,严格来说是为了证明智能系统的可用性,为我们给出以下结果:

r1

c1


作者:Stephen Njuki