文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

Aleksei Kuznetsov 2020.11.24 19:01 #71

Valeriy Yastremskiy:

显然，我们对随机比对有不同的理解。果断树，它是从随机集合中选出的特征。关键在于，集合是随机的，但选择/聚类成好的坏的集合原本就存在。这就好比扔针、量角和计算圆周率）。

来自维基

让我们建立一棵决策树，对给定子样本中的样本进行分类，在创建决策树的下一个节点时，我们将选择一组特征，在此基础上进行分区（不是从所有M 个 特征中，而是只从随机选择的m 个特征中）。从这m 个 特征中选择最佳特征的方法各不相同。最初的布雷曼代码使用基尼标准，该标准也用于CART 决定树算法。该算法的一些实现方法则使用信息增益准则。^[3]

我不明白你的意思。
我也是第一次听说随机提升。
，我说的是随机森林。

Aleksei Kuznetsov 2020.11.24 19:05 #72

Maxim Dmitrievsky:

是的，有很多棵树，但每棵树都在努力根据不同的特性进行最佳训练。这与把多个森林（包括不好的森林）混为一谈是不一样的

在随机森林中，树是平均的。
但是，将基于相同属性的案例森林组合在一起，就相当于一个森林，其树的数量=所有要组合的森林中树的数量。唯一的区别是 HCS 的初始化不同。

[删除] 2020.11.24 19:08 #73

elibrarius:
案例林中的树是平均值。但是，基于相同特征的案例森林合并后等于一个森林，其树木数量=所有合并森林中的树木数量。唯一的区别是 HCS 的初始化不同。

不同之处在于，每棵树在没有修剪的情况下都能完全记住数据集，这就导致了它的再训练。树的集合可以防止过度训练，因为会出现一些平均值。但每棵树都有自己的优势。

如果把分类器放在一起，情况就不同了。用不好的分类器平均会降低整体结果

Aleksei Kuznetsov 2020.11.24 19:17 #74

Maxim Dmitrievsky:

不同之处在于，每一棵树在没有修剪的情况下都能完美地记住数据集，这就导致了它的再训练。由于会出现一些平均值，因此树的集合会避免过度学习。但每棵树本身都是优秀的。

如果把分类器放在一起，情况就不同了。用不好的分类器进行平均会降低整体效果

除了剪枝，树叶的深度和实例数量也有限制。

一棵树也是一个分类器。

我希望您能抽时间比较一下考试样本的平均结果和最佳结果。这不是为了理论上的争论，而是为了通过实践来证实其中一种变体。

Valeriy Yastremskiy 2020.11.24 19:29 #75

elibrarius:
我不明白你的意思。我也是第一次听说随机提升。，我说的是随机森林。

对不起，打错了。当然是森林，forest。顺便说一句，它最早是在1986年用fortran 77（带OOP）实现的，当时这里的人还在学习fortran 4（不带OOP）。

但这并不能改变重点。在集合中采样最佳特征和树可以改善结果。但与此同时，好坏集的聚类是从随机特征集而非全部特征集中进行的，这就减少了所需的资源，同时，正如实践所证明的那样，也不会明显恶化结果。

[删除] 2020.11.24 19:29 #76

elibrarius:

除修剪外，还有深度限制和每页示例数量限制。

一棵树也是一个分类器。

希望大家能抽时间比较一下考试样本的平均结果和最佳结果。不是为了理论上的争论，而是为了通过实践来证实其中一种变体。

训练过的 20 个模型

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

最佳：

全部 20 个：

[删除] 2020.11.24 19:35 #77

50 个模型

[删除] 2020.11.24 19:37 #78

100 款

最佳

全部

[删除] 2020.11.24 19:40 #79

再一次，在 50 个模型上：

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

最佳

平均值

[删除] 2020.11.24 19:42 #80

再来一次

文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 8