Machine Learning techniques are widely used today for many different tasks. Different types of data require different methods. Yandex relies on Gradient Boosting to power many of our market-leading products and services including search, music streaming, ride-hailing, self-driving cars, weather prediction, machine translation, and our...
開発者に聞いた方がいい
というのも、特定の質問に対する答えを得るためには、多くの無意味な話を聞かなければならず、実際に答えが見つかるかどうかは定かではないからだ。もちろん、私は開発者のテキスト入門ドキュメントを読んだが、ヒストグラムに基づくブレークダウンの選択に関するこの非常に微妙なニュアンスは、彼らはエレガントに「ジャンプ」したが、他のすべては非常に徹底している。
ツリーは互いに独立に構築され、そして勾配誤差が減少するように、リーフでカウントが行われる(デトレンド予測変数の列挙)。
木の構築と木の分割のために予測変数を選択するとき,ランダムな係数が使用され,理論的には,完全性(Recall)を増加させ,オーバートレーニングを防止することが可能である.
これは、理論的には、完全性(Recall)を高め、オーバートレーニングを防止することが可能である。
例えば、https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus というページがある。
そこにはこう書かれている:
最良の分割の探索は、図6に示すヒストグラムの計算だけです。
ここで疑問が生じる。ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか?一般的な言葉でも、擬似コードでも、数式でもよい。
どれも質問の答えにはなっていない。
例えば、https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus というページがある。
そこにはこう書いてある:
ここで疑問が生じる:ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか?一般的な言葉、擬似コード、計算式で。
列ごとにデータを分割することで、左右のブロックが別のクラスの不純物によってどれだけきれいになったかを計算する。
すべての列の分割の中で、最も純度が高いものが選ばれる。(不純物削減と呼ばれることもある。)
清浄度/不純度の計算式にはさまざまなものがあり、両方のブロックの清浄度を一度に向上させるものや、1つのブロックができるだけ清浄になるように探すものなどがある。
最もきれいに分割されるのは、左側に一方のクラスの例だけが残り、右側にもう一方のクラスの例だけが残る場合である。
ランダムサンプリングは定数よりも優れているのですか?
時間経過とともに異なるトレード回数、異なるトレードの組み合わせを得ることができる。
私はもともとブルートフォースのためにそれをやった。
おかしいな、こんなに期待値が低いなら、テスター用のグレイルだと思ったんだけど。セイバーのカスタムシンボルでやって みたけど、ほぼ同じ結果だった。
17を確認、同じような上昇傾向、排出されてる。
そんなラッキーな歴史があるのか、それとも過去数年間もそんな絵が描けるのか。テストでは負けてるけど、あそこは全く違う相場だったからね。
ここで疑問が生じる。ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか?一般的な言葉、擬似コード、計算式など、どのような方法でも構いません。
私は、各スプリットについて計算があり、次に範囲の合計があり、そこから最大の値が選択されるマトリックス、つまりスプリット精度が得られると仮定している。
一般的に、彼らのコードはオープンであり、C++をよく理解していれば、興味を持つすべての人に詳細を伝えることができる!
マキシム、記事をありがとう!
クロスバリデーションは効果がありますか?
100の異なる期間のマッシュから異なるリターンを取ってみましたか?