記事「ニューラルネットワークが簡単に（第38回）：不一致による自己監視型探索」についてのディスカッション

MetaQuotes 2023.11.16 12:55

新しい記事「ニューラルネットワークが簡単に（第38回）：不一致による自己監視型探索」はパブリッシュされました:

強化学習における重要な問題のひとつは、環境探索です。前回までに、「内因性好奇心」に基づく研究方法について見てきました。今日は別のアルゴリズムを見てみましょう。不一致による探求です。

不一致に基づく探索は、エージェントが外部報酬に依存することなく、むしろモデルのアンサンブルを使用して新しい未探索の領域を見つけることによって、環境を探索することを可能にする強化学習手法です。

論文「不一致による自己監視型探索」の中で、著者らはこのアプローチについて説明し、単純な方法を提案しています。すなわち、フォワードダイナミクスモデルのアンサンブルを訓練し、アンサンブル内のモデルの予測間の矛盾や分散が最大となる行動空間を探索するようエージェントに促すというものです。

このように、エージェントは最大の期待報酬を生む行動を選択するのではなく、アンサンブル内のモデル間の不一致を最大化する行動を選択します。これによってエージェントは、アンサンブル内のモデルが不一致である状態空間の領域を探索することができ、環境に新しい未探索の領域が存在する可能性が高くなります。

この場合、アンサンブル内のすべてのモデルは平均に収束し、最終的にアンサンブルの広がりが小さくなり、エージェントは環境の状態と行動の可能な結果について、より正確な予測を得ることができます。

さらに、不一致を介した探索アルゴリズムにより、エージェントは環境との相互作用の確率性にうまく対処することができます。論文の著者がおこなった実験の結果、提案されたアプローチは確率的環境における探索を実際に改善し、内因性動機づけや不確実性モデリングの既存の手法を凌駕することが示されました。さらに、彼らのアプローチは、サンプルの値は真実のラベルではなく、モデルのアンサンブルの状態に基づいて決定される教師あり学習にも拡張可能です。

このように、不一致による探索アルゴリズムは、確率的環境における探索問題を解決する有望なアプローチです。これにより、エージェントは外部からの報酬に頼ることなく、より効率的に環境を探索することができます。これは、外部からの報酬が限られていたり、コストが高かったりする実世界への応用において特に有用です。

作者: Dmitriy Gizlyk

star-ik 2023.04.20 22:29 #1

こんにちは。すでにチャンスゲームと化していますね。私はプログラミングの専門家ではありませんが、少なくともこのトピックの奥深さとその広大さを理解することができました。ストラテジーテスターで 100から110までバッチ最適化で動かしてみた。トレイに表示されるインジケーターは作動し、それ以外は12時間何も起こりません。私は何を間違えているのでしょうか？

Seyedsoroush Abtahiforooshani 2023.04.21 06:17 #2

前回と今回のファイルの変更点を調べてみるつもりだ。私も同じ問題を見ました。

MT5からインジケータを削除しようとしたり、メタエディタでデバッグをしていると、MetaTrader5がすぐにクラッシュします。

何時間経っても実行されません。

star-ik 2023.04.21 12:22 #3

もう一つ理解しがたいことがある。Expert Advisorはファイルを作成していないのに、チャートにインストールされている。しかし、何の操作も行わない。

star-ik 2023.04.21 12:35 #4

あなたのリンクには当該EAがない!前回の記事の古いものしかありません。最初は、コピーするときに名前を変更するのを忘れただけかと思ったのですが、比較してみると、コードが完全に一致していました!!!!CARAUL!!!！

Dmitriy Gizlyk 2023.04.22 14:21 #5

star-ik #:
あなたのリンクには当該EAがない!前回の記事の古いものしかありません。最初は、コピーするときに名前を変更するのを忘れただけかと思ったのですが、比較してみると、コードが完全に一致していました!!!!CARAUL!!!！

記事下のアーカイブにファイル一式が添付されています。以前の記事のExpert Advisorもある。しかし、記事で紹介したExpert Advisorもある。

star-ik 2023.04.22 14:29 #6

ありがとう。ただ、以前は新しいEAが常にリストの一番下にあったんです。

star-ik 2023.04.24 09:21 #7

すみません、また素人の質問です。Expert Advisorがテスターで一度も取引をしていません。チャートにぶら下がっているだけで、動く気配がありません。なぜでしょうか？

それともう一つ。インジケーターのデータは、トレードを行う際の追加フィルターとしてのみ使用されるのでしょうか？

star-ik 2023.04.24 12:14 #8

NeuroNet ライブラリを、第37回でアドバイスいただいたものと入れ替えました。履歴はテスターで読み込まれましたが、以前はそうではありませんでした。

Eugen Funk 2023.10.16 14:57 #9

この記事をどうもありがとうございました！
多くのRL実験が入ったzipファイルも提供されているようですね。特定のmq5ファイルがあれば、それをコンパイルして実行し、さらに詳しく評価することができますか？

ありがとうございました！

Dmitriy Gizlyk 2023.10.16 17:56 #10

Eugen Funk #:

ありがとうございました！

はい、あります。添付ファイルには、以前の記事のすべてのファイルがあります。

新しいコメント