記事についてのディスカッション

Stanislav Korotky 2020.11.05 13:52 #11

Maxim Dmitrievsky:

開発者に聞いた方がいい

というのも、特定の質問に対する答えを得るためには、多くの無意味な話を聞かなければならず、実際に答えが見つかるかどうかは定かではないからだ。もちろん、私は開発者のテキスト入門ドキュメントを読んだが、ヒストグラムに基づくブレークダウンの選択に関するこの非常に微妙なニュアンスは、彼らはエレガントに「ジャンプ」したが、他のすべては非常に徹底している。

Boris Egorov 2020.11.05 13:54 #12

良い記事だ．確かに

Stanislav Korotky 2020.11.05 13:57 #13

Aleksey Vyazmikin:

ツリーは互いに独立に構築され、そして勾配誤差が減少するように、リーフでカウントが行われる（デトレンド予測変数の列挙）。

木の構築と木の分割のために予測変数を選択するとき，ランダムな係数が使用され，理論的には，完全性（Recall）を増加させ，オーバートレーニングを防止することが可能である．

これは、理論的には、完全性（Recall）を高め、オーバートレーニングを防止することが可能である。

例えば、https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus というページがある。

そこにはこう書かれている：

最良の分割の探索は、図6に示すヒストグラムの計算だけです。

ここで疑問が生じる。ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか？一般的な言葉でも、擬似コードでも、数式でもよい。

CatBoost Enables Fast Gradient Boosting on Decision Trees Using GPUs

catboost.ai

Machine Learning techniques are widely used today for many different tasks. Different types of data require different methods. Yandex relies on Gradient Boosting to power many of our market-leading products and services including search, music streaming, ride-hailing, self-driving cars, weather prediction, machine translation, and our...

Denis Kirichenko 2020.11.05 14:06 #14

私はMoDに関する他の記事の著者に何の恨みもないが、この記事の著者は良い教科書のように資料を提示している。敬意と尊敬を。

Aleksei Kuznetsov 2020.11.05 14:35 #15

Stanislav Korotky:

どれも質問の答えにはなっていない。

例えば、https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus というページがある。

そこにはこう書いてある：

ここで疑問が生じる：ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか？一般的な言葉、擬似コード、計算式で。

列ごとにデータを分割することで、左右のブロックが別のクラスの不純物によってどれだけきれいになったかを計算する。

すべての列の分割の中で、最も純度が高いものが選ばれる。(不純物削減と呼ばれることもある。)

清浄度/不純度の計算式にはさまざまなものがあり、両方のブロックの清浄度を一度に向上させるものや、1つのブロックができるだけ清浄になるように探すものなどがある。

最もきれいに分割されるのは、左側に一方のクラスの例だけが残り、右側にもう一方のクラスの例だけが残る場合である。

Rorschach 2020.11.05 15:07 #16

ランダムサンプリングは定数よりも優れているのか？

削除済み 2020.11.05 18:04 #17

Rorschach:
ランダムサンプリングは定数よりも優れているのですか？

時間経過とともに異なるトレード回数、異なるトレードの組み合わせを得ることができる。

私はもともとブルートフォースのためにそれをやった。

Rorschach 2020.11.05 19:18 #18

おかしいな、こんなに期待値が低いなら、テスター用のグレイルだと思ったんだけど。セイバーのカスタムシンボルでやってみたけど、ほぼ同じ結果だった。

17を確認、同じような上昇傾向、排出されてる。

そんなラッキーな歴史があるのか、それとも過去数年間もそんな絵が描けるのか。テストでは負けてるけど、あそこは全く違う相場だったからね。

Aleksey Vyazmikin 2020.11.06 00:00 #19

Stanislav Korotky:

ここで疑問が生じる。ヒストグラムの計算は明確だが、その後にどうやって「最良の分割」にたどり着くのか？一般的な言葉、擬似コード、計算式など、どのような方法でも構いません。

私は、各スプリットについて計算があり、次に範囲の合計があり、そこから最大の値が選択されるマトリックス、つまりスプリット精度が得られると仮定している。

一般的に、彼らのコードはオープンであり、C++をよく理解していれば、興味を持つすべての人に詳細を伝えることができる！

Aleksey Vyazmikin 2020.11.06 00:03 #20

マキシム、記事をありがとう！

クロスバリデーションは効果がありますか？

100の異なる期間のマッシュから異なるリターンを取ってみましたか？

記事についてのディスカッション - ページ 2