どの段階でも、私はプラス側にはならない。
Finetuneが許容できるエラー率はどのくらいですか?また、ファイルはいつTesterフォルダに書き込まれますか?
僕はリサーチがあるから、プラス側だよ。
再びこんにちは。一点わからないことがあります。利食いを設定する意味があるのでしょうか?そのようなやり方では決してうまくいきません。
もうひとつ質問です。リサーチがプラスになった後、このデータで残りを繰り返し実行することはできますか?またマイナスに戻ってしまい、統計が台無しになってしまうことです。
ディミトリ、あなたはすでに新しい記事を発表し、ここには戻ってこないかもしれない。しかし、私はあなたに質問してみようと思います。あなたのExpert Advisorは両建てを実行しましたか?私はなぜか買いしか持っていません。これ以上悩む価値はありますか?
取引の機会を逃しています。
- 無料取引アプリ
- 8千を超えるシグナルをコピー
- 金融ニュースで金融マーケットを探索
新しい記事「ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)」はパブリッシュされました:
対照訓練は、教師なしで表現を訓練する方法です。その目標は、データセットの類似点と相違点を強調するためにモデルを訓練することです。この記事では、対照訓練アプローチを使用してさまざまなActorスキルを探究する方法について説明します。
対照的内発制御アルゴリズムは、フィードバックを使用して環境内でエージェントを訓練し、状態と行動の軌跡を取得することから始まります。次に対照予測コーディング(Contrastive Predictive Coding、CPC)を使用して表現訓練が実行され、エージェントが状態と行動から主要な特徴を取得するように動機付けられます。連続する状態間の依存関係を考慮した表現が形成されます。
内発的報酬は、どの行動戦略を最大化するかを決定する上で重要な役割を果たします。CICは状態間の遷移のエントロピーを最大化し、エージェントの動作の多様性を促進します。これにより、エージェントはさまざまな行動戦略を探索し、作成することができます。
さまざまなスキルと戦略を生成した後、CICアルゴリズムは識別子を使用してスキル表現をインスタンス化します。識別子は、状態が予測可能で安定していることを保証することを目的としています。このようにして、エージェントは予測可能な状況でスキルを「使用する」ことを学びます。
内発的報酬によって動機付けられた探索と、予測可能な行動のためのスキルの使用を組み合わせることで、多様で効果的な戦略を作成するためのバランスの取れたアプローチが生まれます。
その結果、対照予測コーディングアルゴリズムは、安定した学習を確保しながら、エージェントが幅広い行動戦略を検出して学習することを促進します。以下はカスタムアルゴリズムの視覚化です。
作者: Dmitriy Gizlyk