記事についてのディスカッション

Forester 2020.11.24 19:01 #71

Valeriy Yastremskiy:

どうやら私たちはランダムブーストについて異なる考えを持っているようだ。決定的な木、それはランダムな集合から選択された特徴のことだ。ポイントは、集合はランダムだが、悪いもの良いものへの選択／クラスタリングは元々あったということだ。針を投げて角度を測り、πの数を計算するようなものだ)

ウィキより

与えられたサブサンプルのサンプルを分類する決定木を構築し、木の次のノードを作成する間に、パーティショニングが実行されるベースとなる特徴のセットを選択します（すべてのM個の 特徴からではなく、ランダムに選択されたm個の 特徴からのみ）。このm個の 特徴から最適なものを選ぶには、さまざまな方法がある。オリジナルのBreimanコードは、CART 決定木アルゴリズムでも使用されるジニ基準を使用します。このアルゴリズムのいくつかの実装は、代わりに情報利得基準を使用する。^[3]

理解できない。

私はランダムフォレストについて話していました。

Forester 2020.11.24 19:05 #72

Maxim Dmitrievsky:

そう、たくさんの木があるけれど、それぞれの木は異なる特性について最適な訓練をしようとしている。これは、複数の森（悪い森も含む）をひとくくりにすることとは違います

ランダムフォレストでは、木は平均化される。
しかし、同じ属性に基づくケースフォレストを組み合わせることは、ツリー数＝組み合わせるすべてのフォレストのツリー数を持つ1つのフォレストと等価である。唯一の違いは、HCSの初期化が異なることである。

Maxim Dmitrievsky 2020.11.24 19:08 #73

elibrarius:
ケースフォレスト内の木は平均化される。しかし、同じ特徴に基づくケースフォレストのマージは、ツリー数＝マージされたすべてのフォレストのツリー数で、1つのフォレストと等しい。唯一の違いはHCSの初期化の違いである。

違いは、枝刈りをしない各樹木はデータセットを完全に記憶することができ、それが再学習を引き起こすことである。木のアンサンブルは、ある程度の平均化が行われるため、オーバートレーニングにはならない。しかし、それぞれの木は単独で優れている。

分類器を群生させると、話は違ってくる。悪い分類器による平均化は、全体の結果を悪化させる。

Forester 2020.11.24 19:17 #74

Maxim Dmitrievsky:

違いは、刈り込みを行わないすべての木がデータセットを完全に記憶することができ、それが再学習を引き起こすことである。木のアンサンブルは、ある程度の平均化が起こるため、過学習に対抗できる。しかし、それぞれの木は単独で優れている。

分類器を群生させると、話は違ってくる。悪い分類器による平均化は、全体の結果を悪化させる。

枝刈りの他に、深さと葉の中の例の数に制限がある。

単一のツリーも分類器です。

試験サンプルの平均と最高の結果を比較する時間を見つけてほしい。理論的な議論をするためではなく、実践によって一つの変種を確認するためです。

Valeriy Yastremskiy 2020.11.24 19:29 #75

elibrarius:
理解できない。ランダムフォレストのことです。

失礼しました。もちろんフォレストです。ちなみに、これは1986年にfortran 77（op付き）で初めて実装されたもので、ここの人たちがまだfortran 4（opなし）を学んでいた頃です。

しかし、ポイントは変わらない。最良の特徴、樹木をアンサンブルでサンプリングすることで、結果は改善される。しかし同時に、良い悪いセットへのクラスタリングは、特徴量のフルセットではなく、ランダムなセットから実行されるため、必要なリソースが削減され、同時に、練習が示すように、結果が大幅に悪化することはありません。

Maxim Dmitrievsky 2020.11.24 19:29 #76

elibrarius:

剪定に加え、深さの制限と1シートあたりの例数の制限がある。

1つの木は分類器でもある。

時間を見つけて、試験サンプルの平均と最高の結果を比較してほしい。理論的に議論するためではなく、実践によって変種の一つを確認するためである。

学習済み20モデル

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

ベスト

20個すべて

Maxim Dmitrievsky 2020.11.24 19:35 #77

50モデル

Maxim Dmitrievsky 2020.11.24 19:37 #78

100モデル

ベスト

すべて

Maxim Dmitrievsky 2020.11.24 19:40 #79

もう一度、50モデルで：

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

ベスト

平均

Maxim Dmitrievsky 2020.11.24 19:42 #80

もう一度言う。

記事についてのディスカッション - ページ 8