トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Forester 2019.05.26 06:54 #14861

Aleksey Vyazmikin：

そのため、予測因子とその値を並べ替える際に推定を行う必要があり、値（範囲）が非常に混み合っている予測因子は取らず、サンプル全体に分布しているものを優先するのです。

バックテストではいつもすべてが非常によく見える）
一様なフォワードが必要だと思いますが？The forest does not know anything about the forward in training weeks.

Aleksey Vyazmikin 2019.05.26 06:58 #14862

エリブラリウス
まあ、バックテストではいつもすべてが非常によく見えるのですが......)
制服フォワードが必要なのでは？The forest knows nothing about the forward in training.

評価は、トレーニングに参加した2つのサンプルについて行う必要があります。

Forester 2019.05.26 07:00 #14863

アレクセイ・ヴャジミキン

評価は、トレーニングに参加した2つのサンプルについて行う必要があります。

2枚目はバリデーション？

Forester 2019.05.26 07:05 #14864

そして、検証プロットとのフィッティングが行われることになります。検証の規模がトレーニングより大きい場合はうまくいくかもしれませんが。Ivan Butko氏のNSでは、学習は小さなプロットで行われ、検証は数倍大きなプロットで行われます。通常、全データの15〜25％の検証を考えていましたが、彼のビデオでは約80％の検証を行っています。

Aleksey Vyazmikin 2019.05.26 07:08 #14865

エリブラリウス
2枚目はバリデーション？

はい、該当する場合。

一般的には、サンプルが大きければ大きいほど良いと思います。これは、学習だけでなく、予測器の頑健性の問題でもあります。

データを前処理して、まれな値ではないが、サンプル全体で非常に混雑している予測値の範囲だけをクラスタリングすることが可能かもしれません。

従来は-1で置き換え、少なくとも2-3の深さまでイニシャルスプリットを行うことを禁止していた。

Aleksey Vyazmikin 2019.05.26 07:10 #14866

elibrarius:

そして、検証プロットとのフィッティングが行われることになります。検証の規模がトレーニングより大きい場合はうまくいくかもしれませんが。Ivan Butko氏のNSでは、学習は小さなプロットで行われ、検証は数倍大きなプロットで行われます。ここでは通常、全データの15〜25％の検証でバリアントを考えますが、彼のビデオでは約80％の検証でバリアントを考えています。

本来は検証のためのトレーニングをするのではなく、そこから市場構造に関する追加情報も取るだけなので、あまりフィット感はないでしょう。

Forester 2019.05.26 07:18 #14867

アレクセイ・ヴャジミキン

はい、該当する場合。

一般的には、サンプルが大きければ大きいほど良いと思います。これは、学習だけでなく、予測器の頑健性の問題でもあります。

データを前処理して、稀ではないがサンプルによって大きく偏っている予測値の範囲だけをクラスタリングすることが可能かもしれません。

従来は-1で置き換え、少なくとも2-3の深さまで初期分割を行うことを禁止していた。

複雑すぎる...。標準的なツリー構築のアルゴリズムはシンプルで高速である。

アレクセイ・ヴャジミキン

検証で学んでいるわけではなく、そこから市場構造に関する情報を追加で取っているだけなので、特別な調整はないでしょう。

唯一許容されるバリエーションは、バリデーションがトレーニングに見合うかそれ以上である場合である。
そして、トレーニングプロットにバリデーションを入れればいいというところに行き着きます。

Maxim Dmitrievsky 2019.05.26 07:20 #14868

グレイル

いや，この「Parzen window」，カーネルスムージング，そしてほぼ完璧という意味で「準最適」な svmとはどのようなものか（Mitchellはどこかに書いてあった），ただ非常に遅い，各反復 - データセット全体を新しい点にソートしてカーネルで畳み込む- 。

非定常性にどのような効果があるのかわからない...遅いとmontecarrelateすることすら難しい

主な問題は、データのスケーリングや変換、ループの抽出です。非線形回帰やSVMでも、パターンが繰り返されれば良い結果が得られるからです（人工VR上）。

すなわち、パターン選択における問題は、遠大なものである

Alexander_K 2019.05.26 07:23 #14869

マキシム・ドミトリエフスキー

主な問題は、データのスケーリングと変換、ループの強調です。

はい、その通りです。

Aleksey Vyazmikin 2019.05.26 08:16 #14870

エリブラリウス
複雑すぎる...。唯一許容されるバリエーションは、バリデーションがトレーニングに見合うかそれ以上である場合である。
そして、トレーニングプロットにバリデーションを入れればいいというところに行き着くのです。

標準的なアルゴリズムは、定常的な現象、閉じた系を扱うように設計されているので、そこではどんな情報も先験的に有用とみなされ、ランダム性の観点からの評価はなく、タスク（ターゲットによる分類）に使えるかどうかだけが評価されます。一方、私たちは多くのノイズを抱えているので、それに対抗する論理的方法を提案したのです。

そうそう、ハーバリウムを採取する際も、時間的なプロットでの効率も含めて葉の評価基準を残して、そのようなバリデーションからは遠ざかっているんです。現在では、すべての木の変種から5万枚以上の葉がありますが、そのうち約200枚だけをシグナルとして、600枚（シグナルの葉につき3枚）をフィルターとして選択し、（ほとんどの周期で）結果を大幅に改善することができました。

未来はわからないし、利用可能な予測値に基づいても様々なバリエーションがあるので、私たちにできることは、データに最もフィットするアルゴリズムを開発することだけだと考えなければならないのです。そして、運が良ければ、しばらく続くパターンを何とか見つけることができます。そのようなパターンを探すには、一定の基準をもって探すことが重要で、論理的には、少なくともサンプル全体に発生するパターンであることが望ましいと言えます。だから、そういうパターンをたくさん作って、そこから木を作るというアルゴリズムを作るのが課題なんです。

簡単な例として、サンプルの値幅が確定している部分を検出し、その部分でロングフラットが確定していることを検出することができます。また、私が提案したアプローチでは、同じ機能で、より多くのストライクレベルがイベント生成のために有意義であると判断されるでしょう。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1487