トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1144

Aleksey Nikolayev 2018.11.06 11:01 #11431

グレイル

削除済み 2018.11.06 12:10 #11432

アレクセイ・ニコラエフ

Aleksey Nikolayev 2018.11.06 12:59 #11433

マキシム・ドミトリエフスキー

Aleksey Nikolayev 2018.11.06 13:13 #11434

マキシム・ドミトリエフスキー

削除済み 2018.11.06 13:23 #11435

アレクセイ・ニコラエフ

Aleksey Nikolayev 2018.11.06 13:47 #11436

マキシム・ドミトリエフスキー

削除済み 2018.11.06 13:53 #11437

アレクセイ・ニコラエフ

Aleksey Nikolayev 2018.11.06 17:02 #11438

マキシム・ドミトリエフスキー

削除済み 2018.11.06 17:32 #11439

アレクセイ・ニコラエフ

Грааль 2018.11.06 17:52 #11440

マキシム・ドミトリエフスキー
まさにその通り」とまでは言いませんが、計算式自体は正しいのですが、トレードによるリターンではなく、日次（1時間ごとなど）のリターンで計算する必要があります。計算式自体は正しいのですが、ストラテジーの比較をトレードのリターンではなく、日次（時間足など）のリターンで、同じステップで、すべてのストラテジーについて行う必要があり、そうすれば、この係数値によってパフォーマンスで比較できます。さもなければ、この数値がトレードとその著しく異なる数値で計算されていれば、それは重要ではなく、例えばある戦略のシャープが 0.01 、別の戦略は 5、どちらが良いとか悪いとかは明らかではなく、符号（ゼロシャープ以上か以下）だけが重要なのです。
つまり、パントラは古典的なシャープレシオについてあまり語らなかったが、それでも彼はそれについて重要な問題を提起したのである。個人的にはシャープレシオを使うのは好きではありませんが、戦略のパフォーマンスを測る指標としては、最大ドローダウンに対する利益の比率を好んで使っています。
EAによるとしか言いようがないですね。もしそれが明確な取引の順序を生成する場合、すなわち、ポジションが開かれたり閉じられたりし、そのボリュームが開閉間で変化しない場合、取引でカウントする方がよいでしょう。もし、ポジション量が 時間とともに滑らかに変化するのであれば、取引の瞬間を特定することはあまり意味がなく、独自の方法で計算することができます。
パントラ方式は、TCの販売や 投資家を探すのに適している）だから、時間が経てば、そちらに切り替わっていくのだろう)
いずれにせよ、panturalはすでに異議を唱える術を持たない :))今更何をウダウダ言ってるんだ？ MOの分野で普通に議論する気はないのか？:) 数式に詳しい人が必要なんです。話題が空回りして、議論する相手もいない。
原則的に、どんなことでも意見を言う用意があります。ただし、私の発言に意味があるかどうかは保証できませんが......。）
山賊情報を投げたか？ 非常に興味深いテーマだが、数式が多い。
上のリンクで、非定常過程に対する敵対的バンディット、組合せ的アルゴリズム（どうやらmguaのようなもの）に興味を持ちました。
それはまた後日
その本の中で、私はすぐにこんなことを思いつきました。
学習者が知っているのは、真の環境は環境クラスと呼ばれる集合Eにあるということだけである。
このEセットでの取引をどのように見ていますか？
まあバンディットのための任意の設定環境、例えばインジケータのセットです。例：1つのrsiインジケータ、簡単のため、複数の価格増分のセット
しかし、彼らのモデルがトレーディングとどのように関係しているのか、私には理解できない。彼らの戦略（ポリシー）の定義からすると、行動とその結果しか見ていないことになる。環境（あなたの意見では、一連の指標）については、彼らはそれを見ないか、見ることさえできません。
Atは履歴Ht-1 = (A1 , X1 , ... , At-1 , Xt-1 )にのみ依存するはずである。ポリシーとは、歴史から行動へのマッピングである。
さらに、彼らの環境は私たちの行動を追跡することさえできるようで、それゆえ報酬は行動そのものだけでなく、その前史全体にも依存することになるのです。
環境とは、行動で終わる履歴の系列から報酬へのマッピングである。
もし政策が何らかのモデル(例えば線形)で近似されているなら、新しいデータで解を求め、それをモデルに代入すればよいだけである
あなたの言っていることは、最高の報酬を見つけるためのプロセスです。
非定常性の主な問題は、新しいデータで機能しなくなったときです。Unsteady banditsはそこに記述されていますが、私はまだ手をつけていません。確かに、私がまだ知らないことは何もないですね。）しかし、適切な報酬の与え方について、いくつかのアイデア（解決策）が必要です。
ちなみに、昨日、まさにリニアバンディットを実装してみたところ、結果はこんな感じです。
実は、この例は私の記事にも書かれているのですが、線形ではなくランダムフォレストを使用しているのです。リニアはオーバートレインが少ないこと
未来で教え、過去でテストするのは、このフォーラムでしか見られないことです)))