記事「知っておくべきMQL5ウィザードのテクニック(第82回):DQN強化学習でTRIXとWPRのパターンを使用する」についてのディスカッション

 

新しい記事「知っておくべきMQL5ウィザードのテクニック(第82回):DQN強化学習でTRIXとWPRのパターンを使用する」はパブリッシュされました:

前回の記事では、推論学習の枠組みにおける一目均衡表とADXの組み合わせを検証しました。本記事では、第68回で最後に取り上げたインジケーターの組み合わせ、すなわちTRIXとWilliams Percent Range (WPR)を対象に、強化学習を再度取り上げます。今回使用するアルゴリズムは、QR-DQN (Quantile Regression DQN)です。これまでと同様に、MQL5ウィザードでの実装を前提としたカスタムシグナルクラスとして提示します。

従来、これらのインジケーターを用いた戦略は、固定ルールに依存する傾向がありました。たとえば、「TRIXがゼロラインを上抜け、かつWPRが-80以下のときに買い」や、「TRIXがピークを形成し、WPRが-20以上のときに売り」といった具合です。これらのルールは決定論的でバックテストもしやすい一方、市場が極めて動的であるにもかかわらず、関係性が静的であることを前提としているという共通の弱点があります。その結果、市場環境が変化すると有効性が低下し、こうした「絶対的な閾値」は頻繁な調整を必要とします。 

この課題に対するアプローチとして、強化学習が有力な選択肢となります。強化学習は、環境との相互作用や経験を通じて適切な行動を学習する機械学習手法です。あらかじめ決め打ちしたインジケーターの閾値に依存するのではなく、RLエージェントはさまざまな閾値や条件を探索し、長期的な報酬を最大化するよう取引判断を適応させていきます。トレーダーの視点では、単なるルールベースではなく、状況に応じて適応するシステムを構築できる可能性があります。

取引への応用において有望なRL手法の一つが、DQN (Deep Q Network)です。教師あり学習が入力と出力の直接的なマッピングを目的とするのに対し、DQNは特定の状態において、ある行動を取る価値を評価します。取引の文脈では、状態はインジケーターから得られる特徴量(変換済みデータ、バイナリ形式、あるいは生値)で表現できます。本記事では、その状態としてTRIXとWPRを用います。一方、行動は買い、売り、様子見といった選択肢になります。DQNフレームワークでは、これらの行動価値を固定ルールではなく、経験に基づいて評価し、調整していくことが可能です。


作者: Stephen Njuki