記事「知っておくべきMQL5ウィザードのテクニック（第49回）：近接方策最適化による強化学習」についてのディスカッション

MetaQuotes 2025.04.07 08:16

新しい記事「知っておくべきMQL5ウィザードのテクニック（第49回）：近接方策最適化による強化学習」はパブリッシュされました:

近接方策最適化は、強化学習におけるアルゴリズムの一つで、モデルの安定性を確保するために、しばしばネットワーク形式で非常に小さな増分で方策を更新します。前回の記事と同様に、ウィザードで作成したエキスパートアドバイザー(EA)において、これがどのように役立つかを探ります。

MQL5ウィザードに関する連載を続けます。最近では、一般的なインジケーターの単純なパターンと強化学習アルゴリズムを交互に取り上げています。前回の記事ではインジケーターパターン（ビル・ウィリアムズの「アリゲーター」）について検討しましたが、今度は強化学習に戻ります。ここで取り上げるアルゴリズムは、近接方策最適化(PPO)です。このアルゴリズムは7年前に初めて発表され、ChatGPTが採用している強化学習アルゴリズムとしても知られているため、このアプローチには明らかに注目が集まっていることがわかります。PPOの目的は、学習プロセスが不安定になるような急激な方策の変化を防ぎつつ、全体的なパフォーマンスを向上させることです。具体的には、PPOは方策（Actorが行動を決定する関数）の最適化をおこないますが、その際、急激な変化がないように細心の注意を払います。

これは独立しておこなわれるわけではなく、他の強化学習アルゴリズムと連携して動作します。これらのアルゴリズムのいくつかは本連載で取り上げてきましたが、大まかに言えば方策ベースのアルゴリズムと値ベースのアルゴリズムの2つに分類されます。これまでの連載では、方策ベースのアルゴリズムとしてはQ学習とSARSAを、値ベースのアルゴリズムとしては時間差学習のみを取り上げ、それぞれの例を見てきました。では、PPOは一体何を解決するのでしょうか。

上記で述べたように、PPOが解決しようとする「問題」は、更新時に方策が過度に変更されるのを防ぐことです。この問題の背後にある論理は、更新の頻度や規模を管理しないと、エージェントは学習した内容を忘れたり、行動が不安定になったり、環境内でのパフォーマンスが低下したりする可能性があるということです。したがって、PPOは、更新を小さく、しかし意味のあるものに保つことを保証します。PPOは、あらかじめ定義されたパラメータを持つ方策から始まります。方策とは単に、報酬と環境の状態に基づいてActorがどのような行動を取るかを定義する関数です。

作者: Stephen Njuki

新しいコメント