記事「ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)」はパブリッシュされました:

対照訓練は、教師なしで表現を訓練する方法です。その目標は、データセットの類似点と相違点を強調するためにモデルを訓練することです。この記事では、対照訓練アプローチを使用してさまざまなActorスキルを探究する方法について説明します。

対照的内発制御アルゴリズムは、フィードバックを使用して環境内でエージェントを訓練し、状態と行動の軌跡を取得することから始まります。次に対照予測コーディング(Contrastive Predictive Coding、CPC)を使用して表現訓練が実行され、エージェントが状態と行動から主要な特徴を取得するように動機付けられます。連続する状態間の依存関係を考慮した表現が形成されます。

内発的報酬は、どの行動戦略を最大化するかを決定する上で重要な役割を果たします。CICは状態間の遷移のエントロピーを最大化し、エージェントの動作の多様性を促進します。これにより、エージェントはさまざまな行動戦略を探索し、作成することができます。

さまざまなスキルと戦略を生成した後、CICアルゴリズムは識別子を使用してスキル表現をインスタンス化します。識別子は、状態が予測可能で安定していることを保証することを目的としています。このようにして、エージェントは予測可能な状況でスキルを「使用する」ことを学びます。

内発的報酬によって動機付けられた探索と、予測可能な行動のためのスキルの使用を組み合わせることで、多様で効果的な戦略を作成するためのバランスの取れたアプローチが生まれます。

その結果、対照予測コーディングアルゴリズムは、安定した学習を確保しながら、エージェントが幅広い行動戦略を検出して学習することを促進します。以下はカスタムアルゴリズムの視覚化です。

カスタムアルゴリズムの視覚化

作者: Dmitriy Gizlyk

 
こんにちは。リサーチでポジティブな結果が得られません。直線が引かれます。コードに結果の制限があるようです。
ファイル:
 
star-ik #:
こんにちは。リサーチでポジティブな結果が得られません。直線が引かれます。コード内の結果に制限があるようです。

どの段階で?ランダムなパラメータで最初に実行しますか?Pretrainを実行した後?それともFinetune?

 
どの段階でも、私はプラス側にはならない。
 
star-ik #:
どの段階でも、私はプラス側には出てこない。

最初の段階では、環境を探索し、アクターのスキルを学ぶという事前トレーニングがある。ここでは外部からの報酬は一切使わない。アクターが複数のスキルを身につけるようトレーニングする。したがって、ポジティブな通過は期待しない。外部報酬が使われるのは、Finetuneの最終段階で、プランナーがアクターのスキルを目の前のタスクのために管理できるように訓練するときだけです。そしてその結果は、最初の2つの反復の完成度に直接依存する。

 
Finetuneが許容できるエラー率はどのくらいですか?また、ファイルはいつTesterフォルダに書き込まれますか?
 
僕はリサーチがあるから、プラス側だよ。
 
再びこんにちは。一点わからないことがあります。利食いを設定する意味があるのでしょうか?そのようなやり方では決してうまくいきません。
 
star-ik #:
再びこんにちは。一点わからないことがあります。利食いを設定する意味があるのでしょうか?そのようなことは決してありません。

それはまず第一にリスク管理ツールです。大きな動きに対する防御です。それに、私たちはモデルを訓練するのです。理論的には、損切りと利食いはローソク足のサイズより大きくする必要はありません。トレーニングの過程で、最も収益性の高い戦略を探します。

 
もうひとつ質問です。リサーチがプラスになった後、このデータで残りを繰り返し実行することはできますか?またマイナスに戻ってしまい、統計が台無しになってしまうことです。
 
ディミトリ、あなたはすでに新しい記事を発表し、ここには戻ってこないかもしれない。しかし、私はあなたに質問してみようと思います。あなたのExpert Advisorは両建てを実行しましたか?私はなぜか買いしか持っていません。これ以上悩む価値はありますか?