記事"強化学習におけるランダム決定フォレスト"についてのディスカッション

Oleg Mironov 2018.08.06 16:27 #61

FxTrader562:

ファジー・ロジックを使わないインジケーターのコード例と、現在のコード実装のどこにインジケーターを置くかを教えてください。

今夜試してみます。

FxTrader562 2018.08.06 16:36 #62

mov :

今はできない。

わかりました。待ちます。

基本的には、MACD,SAR,MAなどの他のインジケータをポリシーマトリックスにフィードして、ポリシーを更新し、利益と損失ごとに報酬を更新する方法を知りたいだけです。ファジーロジックは必要ありません。

Oleg Mironov 2018.08.06 20:35 #63

FxTrader562:

基本的には、MACD,SAR,MAなどの他のインジケータをポリシーマトリックスにフィードして、ポリシーを更新し、利益と損失のたびに報酬を更新する方法を知りたいだけです。ファジーロジックは必要ありません。

私のコードを見てみると、さまざまなアルゴリズムがチェックされており、ひどい寄せ集めになっています。シンプルにするために、ファジーロジックなしで動作するために必要なポイントを記事のソースコードに追加した。作者が気を悪くしないことを願う。確認したところ、動作しているようだし、重要なことを忘れているわけでもない。指標の数はnIndicatで設定する。

ファイル:

RDF_in_reinforcement_learning_classification1.mq5 15 kb

FxTrader562 2018.08.06 23:17 #64

mov :

私は自分のコードを見た。検証可能なさまざまなアルゴリズムのひどい混乱である。わかりやすくするために、記事のソースコードを曖昧にすることなく、仕事に必要な要素を紹介した。著者が気を悪くしないことを願っている。確認したところ、うまくいったようだ。指標の数はnIndicatを指定しています。

コードをありがとう。調べてみます。

ところで、もう一つ。反復学習の最適化プロセスを自動化しようとしたことがあれば、ぜひ教えてください。つまり、EAが損失が発生するたびに自動的にオプティマイザーを呼び出すように、自動的にオプティマイザーを実行するソリューションをお持ちでしたら、ぜひ教えてください。

作者は、将来の記事で自動最適化機能を追加すると言っています。しかし、誰かがすでにコードを持っているなら、それは素晴らしいことです。EAは自動的に最適な方針をテキストファイルに保持するので、定期的にオプティマイザを自動的に実行するだけでよいのです。

Oleg Mironov 2018.08.06 23:27 #65

FxTrader562: 反復学習の最適化プロセスを自動化しようとしたことがあれば、ぜひ教えてほしい。

試してみましたが、私の効率はずっと低いです。さすがは著者の新しい記事だ。

FxTrader562 2018.08.07 00:13 #66

mov:

試してみたが、私の効率はずっと低い。さすがは著者の新しい記事だ。

とにかく、ありがとう。私も試していますし、著者からの更新を待っています。

あなたが提供してくれたコードはうまく機能しているようです。いろいろな組み合わせで試してみますので、またお知らせするかもしれません。

ありがとうございました。

Igor Vilela 2018.08.08 15:23 #67

こんにちは、

まずは、マキシム・ドミトリエフスキーの記事を祝福したい。

第二に、この話題は非常に興味深いので、注目しています。

第三に、私は分類のEAにおける報酬の執行が今日どのように行われているのか理解できないので、疑問を持ちたいと思います。

私が理解したのは、EAが負の値でポジションをクローズするとき、ベクトルの2つのインデックス（3と4）に変更を加えるということです。

この報酬の良し悪しはどのように判断すればよいのでしょうか？ポジションがプラスになったときに報酬を増やし、一定のポイントを取りたいのですが。

//+------------------------------------------------------------------+
//||
//+------------------------------------------------------------------+
void updateReward()
  {
   if(MQLInfoInteger(MQL_OPTIMIZATION)==true)
     {
      int unierr;
      if(getLAstProfit()<0)
        {
         double likelyhood=MathRandomUniform(0,1,unierr);
         RDFpolicyMatrix[numberOfsamples-1].Set(3,likelyhood); // HERE 
         RDFpolicyMatrix[numberOfsamples-1].Set(4,1-likelyhood); // AND HERE 
        }
     }
  }

ありがとうございました。

Ps.Google翻訳を使いましたが、分かりにくかったらすみません。

Oleg Mironov 2018.08.08 16:01 #68

rogivilela:

私が理解したのは、EAが負の値でポジションをクローズするとき、ベクトルの2つのインデックス（3と4）に変更を加えるということです。

この報酬の良し悪しはどのように判断すればよいのでしょうか？ポジションがプラスの時に報酬を増やし、一定のポイントを取りたいのですが。

記事からテキストを取り出し、上の投稿を見ると、最良の報酬について絶え間ない議論があり、より効果的な報酬の提案がある。

Oleg Mironov 2018.08.08 16:14 #69

rogivilela:

この報酬が良いものであることをどうやって知ることができますか？

損失がある場合、アルゴリズムは取引しないようにするか、反対方向に取引する必要があります。これらの行に他の意味はありません

Igor Makanu 2018.08.08 16:55 #70

mov:

損失が発生した場合、アルゴリズムは取引しないようにするか、反対方向に取引する必要があります。上記の行に他の意味はありません

記事自体と与えられたアルゴリズムは、入門的な文字を持って、結果を得るために、テスターだけでなく、入力データを準備する必要があり、私は最近、このトピックに関するYouTubeのビデオをたくさん見ている、ここでは非常に有益な例であり、全体としてチャンネルです。

を開始するには、私は時間、すなわち24の訓練されたニューラルネットワークを訓練すると思う、一日の異なる時間帯に異なるボラティリティので、その後、我々は見てみましょう。

記事"強化学習におけるランダム決定フォレスト"についてのディスカッション - ページ 7