記事「知っておくべきMQL5ウィザードのテクニック(第59回):移動平均とストキャスティクスのパターンを用いた強化学習(DDPG)」についてのディスカッション

 

新しい記事「知っておくべきMQL5ウィザードのテクニック(第59回):移動平均とストキャスティクスのパターンを用いた強化学習(DDPG)」はパブリッシュされました:

MAとストキャスティクスを使用したDDPGに関する前回の記事に引き続き、今回は、DDPGの実装に欠かせない他の重要な強化学習クラスを検証していきます。主にPythonでコーディングしていますが、最終的には訓練済みネットワークをONNX形式でエクスポートし、MQL5に組み込んでウィザードで構築したエキスパートアドバイザー(EA)のリソースとして統合します。

教師あり学習で「次に価格がどう動くか?」という問いを立てていたのに対して、ここでは「この価格変動に対して、トレーダーはどのようなアクションを取るべきか?」という視点で問題に取り組みます。こうした前提のもと、2023年をシミュレートした訓練をおこない、続く2024年でフォワードウォークテストをおこないます。なお、このときのエントリー条件はわずかに変更されています。

つまり、私たちは単に「価格がどう動くか」に基づいてロングまたはショートのポジションを取るのではなく、「価格がどう動くかに照らして、自分たちはどのような行動を取るべきか?」という点を重視します。加えて、そのアクションによって得られる報酬が利益をもたらすかどうかも考慮に入れます。第57回でフォワードウォークを成功させた7つのパターンのうち、強化学習を用いた場合に意味のある成果を上げたのは、3つだけでした。10個のパターンは0から9までのインデックスで管理されていますが、このうち成功したのは1、2、5番のパターンです。これらのレポートは以下に掲載されています。

パターン1

r1

c1


作者: Stephen Njuki