記事「知っておくべきMQL5ウィザードのテクニック(第43回):SARSAによる強化学習」についてのディスカッション

 

新しい記事「知っておくべきMQL5ウィザードのテクニック(第43回):SARSAによる強化学習」はパブリッシュされました:

SARSAは、State-Action-Reward-State-Actionの略で、強化学習を実装する際に使用できる別のアルゴリズムです。Q学習とDQNで見たように、ウィザードで組み立てられたエキスパートアドバイザー(EA)の中で、これを単なる訓練メカニズムとしてではなく、独立したモデルとしてどのように実装できるかを検討します。

強化学習(RL)を利用することで、取引システムは環境や市場データから学習し、時間の経過とともに取引能力を向上させることがRLは変化する市場環境に適応できるため、特定のダイナミックな金融市場や証券に適しています。金融市場は予測不可能であり、しばしば不確実性が高いです。RLは、受け取ったフィードバック(報酬)に基づいて行動を継続的に調整することで、不確実性の下で意思決定をおこなうことに優れているため、不安定な市場環境に対処する際にトレーダーに非常に役立ちます。

これに類似する例として、チャートに接続され、直近の価格履歴をもとに定期的に自己最適化をおこない、パラメータを微調整するEAが挙げられます。RLの目的は、同じことを、派手さなしにおこなうことです。RLをここまで見てきた本連載では、厳密な定義の意味で、(教師あり学習、教師なし学習に加えて)機械学習における学習の第三のアプローチとしてRLを使用してきました。予測に使える独立したモデルとしてはまだ見ていません。

この記事ではそれが変わります。単に異なるRLアルゴリズムであるSARSA法を導入するだけでなく、これを独立したシグナルモデルとして、ウィザードで組み立てられたEAの別のカスタムシグナルクラス内に実装することを目指します。シグナルモデルとして使用される場合、RLは意思決定のプロセスを自動化し、常に人間が介入する必要性を減らすことができるため、(少なくとも理論上は)高頻度取引や市場の動きへのリアルタイム対応が可能になります。らに、報酬メカニズムを通じた継続的なフィードバックによって、RLモデルはリスク管理の能力を向上させる傾向があります。これは、リスクの高い行動には低い報酬でペナルティを与えることで実現され、この正味の効果は、RLがボラティリティの高い取引や損失を出す取引へのエクスポージャーを最小限に抑えることです。

EAの使いやすさを実証するために、2022年のユーロ円の日足でテストをおこなったところ、以下のような結果が得られました。

c1

作者: Stephen Njuki