トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Aleksey Vyazmikin 2021.04.02 08:56 #23801

マキシム・ドミトリエフスキー：

catbust はかなり強い正則化を持っており，特に符号がカテゴリカルな場合は，boost でそのように宣言する必要があります．

L2正則化を減らしても改善されなかった。だから、Lassoの方がうまくいくんです。

Aleksey Vyazmikin 2021.04.02 09:00 #23802

elibrarius:

試験のサンプリングにちょうどいい作品かもしれませんね。そして、それに最適なパラメータを持つモデルを選んで、フィットを行うのです。

今は必ずクロスバリデーション（前方検証）で確認します。小さな部分にフィッティングするのではなく、一度にすべてのデータにフィッティングする、それが一番の学習方法だと思っています。
ドクもフォーラムから姿を消す前にアドバイスしていました。

まず、Lassoの調整ができないので、調整が全くできず、パラメータがそのままになっているんです。

次に、CatBoostomと同じプロットで、800ものモデルから選ぶことができ、実質的にベストな選択肢を選びました。

ファイルを添付しましたので、ご自身でいろいろなモデルを試してみてください。Lassoはバイナリサンプルにのみお勧めします。

Forester 2021.04.02 09:32 #23803

Aleksey Vyazmikin：

まず、私はLassoのチューニング方法を知らないので、微調整は一切なく、パラメータのありのままの状態です。

次に、CatBoostomと同じサイトであること。そして、800ものモデルがあり、実質的にベストな選択肢を取ったということです。

ファイルを添付します - 自分で別のモデルを試してみてください、Lassoはバイナリサンプリングのためだけに推奨されています - これはトリックです。

クロスバリデーションはそのままお試しください。全データの1/10を異なる未知プロットで10回サイクルする。パラメータを指定したcatbustとデフォルトのパラメータを指定したlassoを選択した場合の最適な推定値になります。

Aleksey Vyazmikin 2021.04.02 09:53 #23804

マキシム・ドミトリエフスキー：

同じように試してみてください。カスタムテスターでは問題なく動きましたが、モデルのエクスポート時に問題があります。

MAがトレーニングに関わるのであれば、モデルを適用する際にもあるはずではないか？

MAShkaの真髄はパーティションタイプ-上は1クラスだけ、下はもう1クラスだけ？

Aleksey Vyazmikin 2021.04.02 10:01 #23805

elibrarius:

クロスバリデーションのためにそのまま試してみてください。全データの1/10を異なる未知プロットで10回サイクルする。これは、いくつかのパラメータを持つcatbustまたはデフォルトのパラメータを持つlassoを選択するための最適な推定値になります。

二値化は何らかのサンプリング推定によるものなので、クロスバリデーションはメインサンプルのプロットでより良い結果を示すでしょう。

クロスバリデーションは時間に縛られたサンプルにはあまり関係ありませんが、トレーディングの場合はそうです。市場は徐々に変化し、モデルは時間内に安定したパターンを見つけなければなりません。クロスバリデーションの場合、学習とチェックの時間間隔は学習済みサンプルと近いか、または分断されていることがあります。

現在、CatBoostは全データの60%で学習させています。20%は停止制御に、残りの20%はモデルの評価に使っています。

トレーニングで10％ということであれば、サンプル数が少なすぎますね。

Forester 2021.04.02 11:13 #23806

Aleksey Vyazmikin：

クロスバリデーションは時間に縛られたサンプルにはあまり適していませんが、トレーディングの場合はそうです。市場は徐々に変化するので、モデルは時間と共に安定したパターンを見つけなければなりません。クロスバリデーションの場合、学習と検証の時間間隔を学習するサンプルに近づけたり差し引いたりすることが可能です。

何か標準的な・古くからあるクロスバリデーションの話でしょう。
まず、ラインを混ぜる必要はなく、0-90トレーニング90-100テスト、次に10-100トレーニング、0-10テスト、次に20-100-10トレーニング10-20テスト、などがあるようにブロックを取ります。
次に、プラドのアドバイスに従って、トレーとテストの間に剪定スペースを空けて、トレーとテストのサンプルを分離する必要があります。テストの10〜100の例題に隣接する電車の例題が、そのヒント/シーカーとなる。詳しくはこちら https://dou.ua/lenta/articles/ml-vs-financial-math/
もしくはこちらが画像です。

Aleksey Vyazmikin：

今、私のCatBoostは全データの60%で学習していますが、そのうち20%は停止制御で、最後の20%はモデル評価です。

トレーニングに10％というのは、サンプリングとしては少なすぎる。

20％でもいいし、いくらでもいいんです。

そして最後に、クロスバリデーションの代わりに、ローリングフォワードを使用することができます。どちらが試験区を丸く取らず、前だけ取るのか。

Машинное обучение против финансовой математики: проблемы и решения

dou.ua

Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...

Evgeni Gavrilovi 2021.04.02 11:20 #23807

マキシム・ドミトリエフスキー

shuffleパラメータは何をするのですか？通常、Falseの場合、Trueの場合よりもはるかに悪い結果になります。

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)

Forester 2021.04.02 11:24 #23808

バレードフォワードを説明する写真。

Maxim Dmitrievsky 2021.04.02 11:31 #23809

Evgeni Gavrilovi：

shuffleパラメータは何のためにあるのですか？通常、Falseの場合、Trueの場合よりもはるかに悪い結果になります。

テスト用と訓練用の例をシャッフルし、連続しないようにする。

Evgeni Gavrilovi 2021.04.02 11:46 #23810

マキシム・ドミトリエフスキー：

は、3連符の例とテストの例を混ぜて、順を追わないようにしたのですか？

ランダム？ここに書いてあるように？

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2381