記事「ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得」はパブリッシュされました:

前回は、様々なスキルを学習するアルゴリズムを提供するDIAYN法を紹介しました。習得したスキルはさまざまな仕事に活用できます。しかし、そのようなスキルは予測不可能なこともあり、使いこなすのは難しくなります。この記事では、予測可能なスキルを学習するアルゴリズムについて見ていきます。

複数の個別の振る舞いとそれに対応する環境の変化を研究することで、モデル予測制御を行動空間ではなく行動空間でのプランニングに用いることができます。この点で、主な問題は、ランダムで予測不可能であることを考慮した上で、どのようにしてそのような振る舞いを得ることができるかということです。DADS (Dynamics-Aware Discovery of Skills)法は、モデルベース制御を容易にするという明確な目標を持った、低レベルのスキルを学習するための教師なし強化学習システムを提案します。

DADSを使用して学習したスキルは、予測可能性のために直接最適化され、予測モデルを学習するためのより良い洞察を提供します。スキルの主な特徴は、自律的な探求を通じて完全に習得されることです。つまり、スキルツールキットとその予測モデルは、タスクと報酬関数が設計される前に学習されます。このように、十分な数があれば、環境を十分に研究し、その中で行動するスキルを身につけることができます。

DIAYN法と同様に、DADSアルゴリズムは2つのモデルを使用します。スキルモデル(エージェント)と識別器(スキルダイナミクスモデル)です。


モデルは順次反復的に学習されます。まず、識別器は現在の状態と使用されているスキルに基づいて将来の状態を予測するように訓練されます。そのために、現在の状態とワンホットスキル識別ベクトルがエージェントモデルの入力に供給されます。エージェントは、環境で起こされる行動を生成します。行動の結果、エージェントは環境の新しい状態に移動します。

作者: Dmitriy Gizlyk

 
これまでのすべての試合で、私は次のようなエラーに見舞われた。

2024.01.13 00:07:45.142 OnInitがゼロ以外のコード1を返したため、テスターが停止しました。



いろいろ検索したのですが、自分でファイルを作成する必要があるのでしょうか?
 
Dirar Alzoubi #:
これまでのすべての試合で、私は次のようなエラーに見舞われた。

2024.01.13 00:07:45.142 OnInitがゼロ以外のコード1を返したため、テスターが停止しました。



いろいろ検索したのですが、自分でファイルを作成する必要があるのでしょうか?


まずstrategy testerでResearch.mq5を実行してください。次にStudy.mq5をリアルモードで実行してください。