トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2387

 
Aleksey Vyazmikin:

説明文を読んでもわからない場合は、不明な点を質問してください-よりよく説明するよう努めます。

私も数年前に同じことをしましたが、無意味なことではなく、手間がかかるということで断念しました。

以下は、昔の実験結果の表ですが、作業はこのようになります。

1.予測変数の数は9個に切り分けられる。

2.チャンク間の組み合わせが作成される - 512

3.そして、各チャンクの有無によって、サンプルが平均的にどのような挙動を示すかを推定する。

4.チャンクの有意性(正/負)についての仮定がなされる。

5.重要なチャンクはより小さなチャンクに分解され、重要度の低いチャンクは1つのチャンクにまとめられる(必ずしも順番に進む必要はない)。

6.新しい512の組み合わせが形成される

7.もし、サンプルに悪影響を与える小片が見つかったら、結果の改善が止まるまで、それ以降の列挙から除外し、その後、除外した小片を同様に追加して結果を解析してみることができる。一方、ポジティブな影響は1つのグループに集約されます。

このような32回の繰り返しによる指標の変化の一例を紹介する。



もちろん、この方法は改良の余地がありますが、そのためには実験とその結果の検証が必要です。

確かに改善は回数ではありませんが、結果的にどの予測因子が良いのか悪いのか、その理由も考えることができるようになります。

また、CatBoost 統計に特化して、予測因子(とそのグループ)の削除・追加を行うことで、以前使っていた検索よりも高速になるかもしれないという理由から、正確な作業を試してみたいと思っています。

もう一つの利点は、予測変数が多すぎると稀な分岐が発生し、葉の活性化がトレーニング以外のサンプルでは非常に稀であること(先ほどのスクリーンショットで示した)、これはトレーニングやその評価の質を意図的に低下させることです。

ちょっと厄介なんです。

まず、1つの特徴について1000回学習し(テストする特徴は1000個)、最適なものを見つけます。そして、一番いいチップに999回、それ以外のチップに999回、2番目にいいチップを選びます。その後、上位2名と残り998名の3番目に、など。
合計2回のネストサイクル。
特徴の数が少ないモデルは、非常に早く学習します。それなりに20~30個は手に入ります。また、10~20個の特徴を選択した後は、通常、モデルの改良が止まり、その後に新しい特徴を追加しても結果が悪化するだけです。
 
マキシム・ドミトリエフスキー

無意味な時間の浪費

明らかに建設的な議論が行われない--真相を究明しようという姿勢がない。

 
Aleksey Vyazmikin:

明らかに、建設的な議論が行われない - 要点を理解しようとする姿勢がない。

デタラメに苦しむ欲求はない、要点ははっきりしている(苦しみデタラメ)

 
elibrarius:
なんかややこしいな。

まず、1つの特徴について1000回学習し(1000個の特徴でテスト)、最適なものを見つけます。そして、一番いいチップに999回、それ以外のチップに999回、2番目にいいものを選びます。その後、上位2位と残り998の3位などに。
合計2回のネストサイクル。
特徴の数が少ないモデルは、非常に早く学習します。それなりに20~30個は手に入ります。また、10~20個の特徴を選択した後は、通常、モデルの改良が止まり、その後に新しい特徴を追加しても結果が悪化するだけです。

ベストなものを探すのではなく、機能の組み合わせで選ぶ、これが問題なのです。なぜ問題かというと、すべての組み合わせを試すことは不可能だからです。だからこそ、ユーレステック方式が必要なのです。もう一つの問題は、分割後の異なる予測因子の強い類似性の可能性で、アンサンブルでは、本質的に相関のある多くの葉が存在するため、確率の過大評価につながる可能性があります。

 

ブーストでブーストを再発明することを決めた男、彼を止めよう。

常識にとらわれてはいけない

 
マキシム・ドミトリエフスキー

苦心惨憺

なぜデタラメなのか?

違いはあるのでしょうか?

理論的な正当性がある - そうです。

もちろん、一桁の改善ではありません。

そして、はい、それはあなたの予測にほとんど効果がないかもしれません - ここでは、私は拒否の根拠を認めることができます。

 
neuro is on fire ))
トレーディングのことは忘れて、ニューラルネットワークを指標にする。

 
Aleksey Vyazmikin:

なぜデタラメなのか?

違いはあるのでしょうか?

理論的な正当性がある - そうです。

もちろん、一桁の改善ではありません。

そして、そう、あなたの予測因子にはわずかに有効かもしれない-ここで私は拒絶の根拠を許容することができます。

もう全部言ったから、やりすぎに口出しはしない。

 
Aleksey Vyazmikin:

一番いいものを探すのではなく、その組み合わせが問題なのです。なぜ問題かというと、すべての組み合わせを試すことは不可能だからで、だからこそユーレステック方式が必要なのです。もう一つの問題は、分割後の異なる予測因子の強い類似性の可能性で、アンサンブルでは本質的に相関のある葉が多数存在するため、確率の過大評価につながることになる。

最初に最適なチップが選ばれると、2番目は最初のチップと最も良い相互作用をするものが選ばれ、10個になると、次のチップは前に選ばれた10個のうちのどれかと最も良い相互作用をするものが選ばれますが、ほとんどの場合、すべてのチップと一緒に選ばれます。
 
elibrarius:
最初の最適な機能を選択した後、2番目の機能は最初の機能との相互作用が最も良いものを選択し、10個に達するとそのようになります。次に選ばれるのは、前に選ばれたどれかと最も相互作用が強いものですが、ほとんどの場合、それらすべてと相互作用します。

そうは問屋が卸さない

モデルから重要度の低い 機能を取り出しては壊し、ケツと親指を比べては壊し、などなど

理由: