記事「知っておくべきMQL5ウィザードのテクニック(第58回):移動平均と確率的オシレーターパターンを用いた強化学習(DDPG)」についてのディスカッション 新しいコメント MetaQuotes 2025.07.02 10:56 新しい記事「知っておくべきMQL5ウィザードのテクニック(第58回):移動平均と確率的オシレーターパターンを用いた強化学習(DDPG)」はパブリッシュされました: 移動平均とストキャスティクスはよく使われるインジケーターで、前回の記事ではこの2つの組み合わせパターンを教師あり学習ネットワークで分析して、どのパターンが使えそうかを確認しました。今回はそこから一歩進めて、訓練済みネットワークに強化学習を組み合わせたらパフォーマンスにどんな影響があるかを見ていきます。テスト期間はかなり短いので、その点は踏まえておいてください。とはいえ、今回もMQL5ウィザードのおかげで、コード量はかなり少なくて済んでいます。 前回の記事では、2つのインジケーター(移動平均とストキャスティクス)から抽出した10個のシグナルパターンをテストしました。 そのうち7つは1年分のテスト期間でフォワードウォークに成功しましたが、ロング・ショート両方のポジションを取れたのはその中の2つだけでした。これはテスト期間が短かったことが原因だと考えられるため、実運用を検討する前に、より長い過去データで再テストすることをおすすめします。 今回のテーマは、機械学習の3つの主要なモードを「フェーズ」ごとに使い分けるという仮説に基づいています。その3つとは、教師あり学習(SL, Supervised Learning)、強化学習(RL, Reinforcement Learning)、推論学習(IL, Inference Learning)です。前回はこのうちの教師あり学習(SL)にフォーカスしました。移動平均とストキャスティクスの組み合わせパターンを二値特徴量ベクトルに変換し、それを使って、通貨ペアEUR/USDの2023年のデータを元にシンプルなニューラルネットワークを学習させました。そして、そのモデルを使って2024年のフォワードテストをおこないました。 今回の記事では、「RLは運用中にモデルを調整するための手法として機能する」という前提のもと、前回のSLの結果とネットワークを活用しながら、強化学習を組み合わせた運用例を見ていきます。ここでいうRLは、単純な価格変動予測だけに依存していたSLモデルに対して、買い・売り判断を微調整する、展開時のバックプロパゲーション的な役割を果たすと考えています。 この「微調整」は、過去のRL関連記事でも扱ってきたように、探索と活用のバランスを取るプロセスです。これにより、方策ネットワークは実際の市場環境の中で、どの状態が買いまたは売りにつながるのかを学習していきます。たとえば、見かけ上強気な状態であっても、必ずしも買いエントリーが正解とは限らない場合もあります。逆もまた然りです。つまり、RLはSLが出した判断に対して、もう一段階フィルタをかける役割を担うということです。SLモデルでは、状態は1次元の連続値として扱っていましたが、今回のRLでもほぼ同様の行動空間を使います。 作者: Stephen Njuki 新しいコメント 取引の機会を逃しています。 無料取引アプリ 8千を超えるシグナルをコピー 金融ニュースで金融マーケットを探索 新規登録 ログイン スペースを含まないラテン文字 このメールにパスワードが送信されます エラーが発生しました Googleでログイン WebサイトポリシーおよびMQL5.COM利用規約に同意します。 新規登録 MQL5.com WebサイトへのログインにCookieの使用を許可します。 ログインするには、ブラウザで必要な設定を有効にしてください。 ログイン/パスワードをお忘れですか? Googleでログイン
新しい記事「知っておくべきMQL5ウィザードのテクニック(第58回):移動平均と確率的オシレーターパターンを用いた強化学習(DDPG)」はパブリッシュされました:
前回の記事では、2つのインジケーター(移動平均とストキャスティクス)から抽出した10個のシグナルパターンをテストしました。 そのうち7つは1年分のテスト期間でフォワードウォークに成功しましたが、ロング・ショート両方のポジションを取れたのはその中の2つだけでした。これはテスト期間が短かったことが原因だと考えられるため、実運用を検討する前に、より長い過去データで再テストすることをおすすめします。
今回のテーマは、機械学習の3つの主要なモードを「フェーズ」ごとに使い分けるという仮説に基づいています。その3つとは、教師あり学習(SL, Supervised Learning)、強化学習(RL, Reinforcement Learning)、推論学習(IL, Inference Learning)です。前回はこのうちの教師あり学習(SL)にフォーカスしました。移動平均とストキャスティクスの組み合わせパターンを二値特徴量ベクトルに変換し、それを使って、通貨ペアEUR/USDの2023年のデータを元にシンプルなニューラルネットワークを学習させました。そして、そのモデルを使って2024年のフォワードテストをおこないました。
今回の記事では、「RLは運用中にモデルを調整するための手法として機能する」という前提のもと、前回のSLの結果とネットワークを活用しながら、強化学習を組み合わせた運用例を見ていきます。ここでいうRLは、単純な価格変動予測だけに依存していたSLモデルに対して、買い・売り判断を微調整する、展開時のバックプロパゲーション的な役割を果たすと考えています。
この「微調整」は、過去のRL関連記事でも扱ってきたように、探索と活用のバランスを取るプロセスです。これにより、方策ネットワークは実際の市場環境の中で、どの状態が買いまたは売りにつながるのかを学習していきます。たとえば、見かけ上強気な状態であっても、必ずしも買いエントリーが正解とは限らない場合もあります。逆もまた然りです。つまり、RLはSLが出した判断に対して、もう一段階フィルタをかける役割を担うということです。SLモデルでは、状態は1次元の連続値として扱っていましたが、今回のRLでもほぼ同様の行動空間を使います。
作者: Stephen Njuki