記事"強化学習におけるランダム決定フォレスト"についてのディスカッション

Vasily Belozerov 2018.06.03 16:27 #11

すまん、マキシム、気を取られていて、君の名前のスペルを間違えてしまった。

Vasily Belozerov 2018.06.03 16:40 #12

付け加えるのを忘れた。戦略ゲームにおける解決策は、組み合わせ論（繰り返される組み合わせの探索）、確率論的分析、対戦相手の心理タイプの決定、行動モデルの作成である。

削除済み 2018.06.05 02:21 #13

Vasily Belozerov:
付け加えるのを忘れた。戦略ゲームにおける解決策は、組み合わせ論（繰り返される組み合わせの探索）、確率論的分析、相手の心理タイプの決定、行動モデルの作成である。

サイコタイプについては、確かに市場には当てはまらない。そうでなければ、RLはゲーム理論の遺産である。例えば、複数のRLエージェントを、それぞれが他のエージェントを打ち負かそうとする、競合するプレーヤーと考えることができる。あるいは、相互に補強し合うようにすることもできる。

基本的には、市場とエージェントの間に支払いマトリックスが作成される。そして、市場の戦略が変わらなければ、エージェントは可能な限り市場を打ち負かすようになる。

Vasily Belozerov 2018.06.06 11:09 #14

私はただ、正しいマシンには、人間の行動と同じように、正しくない何かを加えるべきだと提案しただけだ。例えば、1手目e2 - e4、2手目e4 - e2、3手目またe2 - e4。基本的にはそんな感じだ。

削除済み 2018.06.06 11:24 #15

Vasily Belozerov:
私はただ、正しいマシンには、人間の行動と同じように、正しくない何かを加えるべきだと提案しただけだ。例えば、1手目e2 - e4、2手目e4 - e2、3手目またe2 - e4。基本的にはそんな感じだ。

ボットはチューリング・テストに合格しなければなりません。）また、人間がExpert Advisorよりも優れたトレードができると考える根拠は何でしょうか。目標は、機械自身がいくつかのパターンを探し、それを取引することです。

Ivan Gurov 2018.06.29 22:23 #16

Vasily Belozerov:
私はただ、正しいマシンには、人間の行動と同じように、正しくない何かを加えるべきだと提案しただけだ。例えば、1手目e2 - e4、2手目e4 - e2、3手目またe2 - e4。そんな感じだ。

これがランダムフォレストであり、その最大のポイントである。

Ivan Gurov 2018.06.29 22:36 #17

マキシム、新しいランダムツリーを生成しようとする効果はありますか？例えば、1回目は1つの木を生成し、2回目はより効率的に訓練できる別の木を生成する。それとも、最終的なトレーニング結果にはまったく影響しないのでしょうか？

削除済み 2018.06.30 04:46 #18

Ivan Gurov:
マキシム、新しいランダムツリーを生成しようとする効果はありますか？例えば、1回目は1つの木を生成し、2回目はより効率的に訓練できる別の木を生成する。それとも、最終的なトレーニング結果にはまったく影響しないのでしょうか？

ツリーではなく、同じデータに対して複数のフォレストをトレーニングするのです。なぜなら、構築プロセスがランダム化されており、結果が異なる可能性があるからです。フォレストのアンサンブルで顕著な改善が得られることに驚きました。つまり、同じデータで複数のフォレストを訓練し、結果を平均化します。(5-15個) 異なる設定も可能です。さらに良い結果が得られるのはブスティングの場合ですが、私はまだそこまで到達していません。

forexman77 2018.07.06 19:43 #19

この記事は気に入った。誰かがalglibの森を再設計して、木の深さを調整できるようにしてくれたらいいのに。

FxTrader562 2018.07.19 01:43 #20

とても有用な記事をシェアしていただきありがとうございます。

コードにインジケータを追加しようとしましたが、私は専門家プログラマーではなく、メンバシップ関数の使用方法についてもあまり経験がないため、OnInit()関数内でルールと一緒に使用するインジケータを追加する方法がわかりませんでした。このコードにはRSIインジケーターしか含まれておらず、そこから買いと売りのルールを作成しています。コード内で使用する移動平均やMACD、ストキャスティクス、SARなどのインジケータのコード例をもう少し教えてください。

特に、現在の価格と比較しながらルールを作成し、エントリー条件に追加する方法を知りたいです。現在のコードの主な問題点は、利益が出ているトレードをすぐに決済する一方で、負けのトレードを長い間保持することがあることです。終了ロジックについて、より多くのフィルタリングを行う必要があると思います。

また、1つ質問があります：

OPTファイルは、ポリシー自体を微調整することによって、長い時間をかけてエントリーやエグジットを改善するために継続的に更新されるのでしょうか？

それとも、EAはストラテジーテスターを使って EAの値を最適化し、通常の最適化されたEAのように、最近利益が出たのと同じエントリー値とエグジット値を使うだけなのでしょうか？

つまり、他のニューラルネットワークEAと同じように、取引中にエントリーやエグジットの全体的な方針を微調整するのでしょうか？

記事"強化学習におけるランダム決定フォレスト"についてのディスカッション - ページ 2