記事「知っておくべきMQL5ウィザードのテクニック(第45回):モンテカルロ法による強化学習」についてのディスカッション

 

新しい記事「知っておくべきMQL5ウィザードのテクニック(第45回):モンテカルロ法による強化学習」はパブリッシュされました:

モンテカルロは、ウィザードで組み立てられたエキスパートアドバイザー(EA)における実装を検討するために取り上げる、強化学習の4つ目の異なるアルゴリズムです。ランダムサンプリングに基づいていますが、多様なシミュレーション手法を活用できる点が特徴です。

本記事では、強化学習のさらなる考察として、モンテカルロ法を取り上げます。このアルゴリズムは、Q学習やSARSAと非常に類似しており、実際には オンポリシーおよびオフポリシーの両方で使用できるため、これらを包含する手法であるとも考えられます。しかし、モンテカルロの最大の特徴はエピソードを重視する点にあります。これは、以前の記事で紹介した強化学習サイクルの更新をバッチ処理する方法であり、QマップのQ値の更新頻度を抑える役割を果たします。

モンテカルロアルゴリズムでは、Q値の更新はエピソードが完了した後にのみ実行されます。エピソードとは、一連の学習サイクルをまとめたものです。本記事では、このエピソード内のサイクル数をm_episodes_sizeという入力パラメータとして定義しており、最適化や調整が可能になっています。モンテカルロ法は、市場の変動に対して非常に堅牢であるとされ、幅広い市場シナリオをシミュレートできる特性を持ちます。これにより、トレーダーは異なる市場環境における戦略のパフォーマンスを評価し、リスクとリターンのトレードオフをより深く理解することができます。

この優位性は、「長期的なパフォーマンス評価」に重点を置く点にあります。従来の手法は短期的な結果に着目することが多いですが、モンテカルロ法では、エピソードごとにしか更新がおこなわれないため、市場ノイズの影響を回避しやすくなります。 一方で、Q学習やSARSAはより頻繁に更新をおこなうため、市場ノイズの影響を受けやすい傾向があります。そのため、モンテカルロ法は 累積報酬を評価しながらトレード戦略の長期的なパフォーマンスを分析することを目的としています。複数のエピソードを分析することで、トレーダーは戦略の全体的な収益性や持続可能性について貴重な洞察を得ることができます。

モンテカルロアルゴリズムでは、単一のエピソード内の複数のサイクルを通じて、状態と行動のペアごとの平均リターンを算出し、行動価値(Q値)を推定します。これにより、トレーダーは過去のパフォーマンスを基に、どの行動(例:買い注文や売り注文)が最も好ましい結果をもたらす可能性が高いかを評価できるようになります。Q値の更新は、各Q値の報酬コンポーネントが次のように決定されることに基づいておこなわれます。

ここで

  • R t+1 、R t+2 、…、RTは、時刻t以降の各ステップで受け取る報酬です。
  • γ(ガンマ)は割引係数(0 ≤ γ ≤ 1)であり、将来の報酬をどれだけ「割引」する(つまり、即時の報酬よりも低い価値として評価する割合を決める)かを設定します。
  • Tは、エピソードが終了する時間ステップ(エピソードサイズ、もしくは終了状態)を表します。


作者: Stephen Njuki