catbust はかなり強い正則化を持っており，特に符号がカテゴリカルな場合は，boost でそのように宣言する必要があります．
L2正則化を減らしても 改善されなかった。だから、Lassoの方がうまくいくんです。
試験のサンプリングにちょうどいい作品かもしれませんね。そして、それに最適なパラメータを持つモデルを選んで、フィットを行うのです。
今は必ずクロスバリデーション（前方検証）で確認します。小さな部分にフィッティングするのではなく、一度にすべてのデータにフィッティングする、それが一番の学習方法だと思っています。
ドクもフォーラムから姿を消す前にアドバイスしていました。
まず、Lassoの調整ができないので、調整が全くできず、パラメータがそのままになっているんです。
次に、CatBoostomと同じプロットで、800ものモデルから選ぶことができ、実質的にベストな選択肢を選びました。
ファイルを添付しましたので、ご自身でいろいろなモデルを試してみてください。Lassoはバイナリサンプルにのみお勧めします。
クロスバリデーションはそのままお試しください。全データの1/10を異なる未知プロットで10回サイクルする。パラメータを指定したcatbustとデフォルトのパラメータを指定したlassoを選択した場合の最適な推定値になります。
同じように試してみてください。カスタムテスターでは問題なく動きましたが、モデルのエクスポート時に問題があります。
MAが トレーニングに関わるのであれば、モデルを適用する際にもあるはずではないか？
MAShkaの真髄はパーティションタイプ-上は1クラスだけ、下はもう1クラスだけ？
クロスバリデーションは時間に縛られたサンプルにはあまり関係ありませんが、トレーディングの場合はそうです。市場は徐々に変化し、モデルは時間内に安定したパターンを見つけなければなりません。クロスバリデーションの場合、学習とチェックの時間間隔は学習済みサンプルと近いか、または分断されていることがあります。
現在、CatBoostは 全データの60%で学習させています。20%は停止制御に、残りの20%はモデルの評価に使っています。トレーニングで10％ということであれば、サンプル数が少なすぎますね。
何か標準的な・古くからあるクロスバリデーションの話でしょう。
まず、ラインを混ぜる必要はなく、0-90トレーニング90-100テスト、次に10-100トレーニング、0-10テスト、次に20-100-10トレーニング10-20テスト、などがあるようにブロックを取ります。
次に、プラドのアドバイスに従って、トレーとテストの間に剪定スペースを空けて、トレーとテストのサンプルを分離する必要があります。テストの10〜100の例題に隣接する電車の例題が、そのヒント/シーカーとなる。詳しくはこちら https://dou.ua/lenta/articles/ml-vs-financial-math/
もしくはこちらが画像です。
そして最後に、クロスバリデーションの代わりに、ローリングフォワードを使用することができます。どちらが試験区を丸く取らず、前だけ取るのか。
shuffleパラメータは何をするのですか？通常、Falseの場合、Trueの場合よりもはるかに悪い結果に なります。
バレードフォワードを説明する写真。
テスト用と訓練用の例をシャッフルし、連続しないようにする。
