記事「ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)」はパブリッシュされました:

強化学習アルゴリズムの研究を続けます。これまで検討してきたすべてのアルゴリズムでは、あるシステム状態から別の状態への遷移ごとに、エージェントがそれぞれの行動を評価できるようにするための報酬方策を作成する必要がありました。しかし、この方法はかなり人工的なものです。実際には、行動と報酬の間には、ある程度の時間差があります。今回は、行動から報酬までの様々な時間の遅れを扱うことができるモデル訓練アルゴリズムに触れてみましょう。

EAを訓練するために、すべてのモデルは NetCreatorツールを使用して作成されました。なお、ストラテジーテスターでEAを動作させるためには、モデルファイルをターミナル共通ディレクトリ「TerminalCommonFiles」に配置する必要があります。各エージェントが独自のサンドボックスで動作するため、ターミナル共通フォルダを介してのみデータのやり取りができるためです。

ストラテジーテスターでの訓練には、これまでの仮想訓練アプローチに比べて、少し時間がかかります。そのため、モデルの訓練期間を10か月に短縮しました。それ以外のテストパラメータの変更はありません。今回もH1時間枠でEURUSDを使用しました。指標はデフォルトのパラメータで使用しました。

正直なところ、預金の紛失から学習が始まるのではと予想していましたが、最初のパスでは、モデルは0に近い結果を示しました。2回目のパスでは利益を得たこともありました。このモデルは330回の取引をおこない、98%以上で利益を上げています。

モデルテスト結果 モデルテスト結果

作者: Dmitriy Gizlyk