記事「ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ」はパブリッシュされました:

強化学習モデルにおける環境の研究を続けます。この記事では、モデルの訓練段階で効果的に環境を探索することができる、もうひとつのアルゴリズム「Go-Explore」を見ていきます。

Go-Exploreの主なアイデアは、有望な状態を記憶して戻ることです。これは、報酬の数が限られている場合に効果的な操作をおこなうための基本です。このアイデアは非常に柔軟で幅広いため、さまざまな方法で実施することができます。 

多くの強化学習アルゴリズムとは異なり、Go-Exploreは目標問題を直接解くことに重点を置くのではなく、目標状態の達成につながる状態空間の関連する状態と行動を見つけることに重点を置きます。これを実現するために、このアルゴリズムには検索と再利用という2つの主要なフェーズがあります。


最初の段階は、状態空間のすべての状態を通過し、訪れた各状態を状態「マップ」に記録することです。この後、アルゴリズムは訪問した各状態をより詳細に調査し、他の興味深い状態につながる可能性のある行動に関する情報を収集し始めます。

2番目の段階は、以前に学習した状態や行動を再利用して、新しい解を見つけることです。このアルゴリズムは、最も成功した軌跡を保存し、それを使用して、より良い解につながる新しい状態を生成します。

作者: Dmitriy Gizlyk

 
Faza 1はテスターで動作し、共有フォルダGoExploerに空のファイルを1つ作成しました。bd.Faza 2はチャートに添付されません。
 
回目の挑戦で、プロセスは始まった。開始日が遠く設定されていた。
 
star-ik #:
回目の挑戦で、プロセスは始まった。開始日が遠かったので、1ヶ月と設定した。
結果は?
 
多かれ少なかれね。しかし、ドローダウンは大きい。彼は取引を開始し、それを閉じるために好都合な瞬間を長い間待つ。しばしば補充する。ほとんど売らず、常に買いのみ。矢印はすべてのバーにある。マーケットが動き始めたら、すぐにデモで試してみるつもりだ。
 
デモでは特にマイナスだ。新しいバーを開くたびに満タンになる。テスターでプラスになったのが理解できない。
 
star-ik #:
デモでは特にマイナスだ。新しいバーを開くたびに満タンになる。テスターではなぜプラスになったのか理解できない。

サンクス

 
star-ik #:
デモでは特にマイナスだ。新しいバーが開くたびに満タンになる。テスターでプラスにしていたのが理解できない。

Ahahahah)))

Groundhog Day.


共感します。

戦略テスターで「スタート」ボタンを何度か押してみてください。びっくりするよ。

 

こんにちは、ディミトリ。素晴らしい記事をありがとうございます。Expert Advisorをすべて試してみましたが、最新のExpert Advisorで問題が発生しました。

記事36のExpert Advisor(最大のニューラルネットワークを持つもの)はテスターでのテストに合格しましたが、テスト中にビデオカードがロードされず、Expert Advisorが取引しようとしません。残高グラフは変化しない。CommonFiles フォルダに 1 kb のファイルがあります。

記事 37、38 の Expert Advisor は全くテストされません。テストは開始されますが、進展はありません。同時に、ビデオカードは100%でロードされます。そして、マネージャーでMT5のプロセスが強制終了されるまで続きます。CommonFiles にファイルは作成されない。テスターにエラーはありません。

この記事の Expert Advisor Faza1 はログにエラーもなく正しくテストにパスしていますが、GoExploer.bd というファイルも 1kb のサイズで作成されています。

どこを掘ればいいのか教えてください。本連載の他のExpert Advisor(チャート上で投げているもの)は正常に動作しており、ビデオカードと考えられます。ビデオカード RTX 3060 c 12Gb.

 
Viktor Kudriavtsev #:

この記事のExpert Advisor Faza1もログにエラーはなく正しくテストにパスしていますが、GoExploer.bdファイルも1kbのサイズで作成されています。


Faza1 Expert Advisorはテスト結果によると、利益がプラスになった場合のみデータベースにデータを追加します。すべてのパスが不採算だった場合、何も保存されません。最適化モードで数回実行してみてください。
 
star-ik #:
デモでは特にマイナスだ。新しいバーを開くたびに満タンになる。テスターでプラスになったのが理解できない。

トレーニング期間とは何ですか?短いトレーニング期間は、モデルが学ぶことができるかどうかを確認することができます。しかし、そのような経験は、システムの将来の状態にそれを補間するのに十分ではありません。