文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 8

 
Valeriy Yastremskiy:

显然,我们对随机比对有不同的理解。果断树,它是从随机集合中选出的特征。关键在于,集合是随机的,但选择/聚类成好的坏的集合原本就存在。这就好比扔针、量角和计算圆周率)。

来自维基

  1. 让我们建立一棵决策树,对给定子样本中的样本进行分类,在创建决策树 的下一个节点时,我们将选择一组特征,在此基础上进行分区(不是从所有M 个 特征 中,而是只从 随机 选择的m 特征 中)。从这m 个 特征 中选择最佳 特征 的方法各不相同。最初的布雷曼代码使用基尼标准,该标准也用于CART 决定树算法。该算法的一些实现方法则使用信息增益准则[3]
我不明白你的意思。
我也是第一次听说随机提升。
,我说的是随机森林。
 
Maxim Dmitrievsky:

是的,有很多棵树,但每棵树都在努力根据不同的特性进行最佳训练。这与把多个森林(包括不好的森林)混为一谈是不一样的

在随机森林中,树是平均的。
但是,将基于相同属性的案例森林组合在一起,就相当于一个森林,其树的数量=所有要组合的森林中树的数量。唯一的区别是 HCS 的初始化不同。
 
elibrarius:
案例林中的树是平均值。但是,基于相同特征的案例森林合并后等于一个森林,其树木数量=所有合并森林中的树木数量。唯一的区别是 HCS 的初始化不同。

不同之处在于,每棵树在没有修剪的情况下都能完全记住数据集,这就导致了它的再训练。树的集合可以防止过度训练,因为会出现一些平均值。但每棵树都有自己的优势。

如果把分类器放在一起,情况就不同了。用不好的分类器平均会降低整体结果

 
Maxim Dmitrievsky:

不同之处在于,每一棵树在没有修剪的情况下都能完美地记住数据集,这就导致了它的再训练。由于会出现一些平均值,因此树的集合会避免过度学习。但每棵树本身都是优秀的。

如果把分类器放在一起,情况就不同了。用不好的分类器进行平均会降低整体效果

除了剪枝,树叶的深度和实例数量也有限制。

一棵树也是一个分类器。

我希望您能抽时间比较一下考试样本的平均结果和最佳结果。这不是为了理论上的争论,而是为了通过实践来证实其中一种变体。

 
elibrarius:
我不明白你的意思。我也是第一次听说随机提升。 ,我说的是随机森林。

对不起,打错了。当然是森林,forest。顺便说一句,它最早是在1986年用fortran 77(带OOP)实现的,当时这里的人还在学习fortran 4(不带OOP)。

但这并不能改变重点。在集合中采样最佳特征和树可以改善结果。但与此同时,好坏集的聚类是从随机特征集而非全部特征集中进行的,这就减少了所需的资源,同时,正如实践所证明的那样,也不会明显恶化结果。

 
elibrarius:

除修剪外,还有深度限制和每页示例数量限制。

一棵树也是一个分类器。

希望大家能抽时间比较一下考试样本的平均结果和最佳结果。不是为了理论上的争论,而是为了通过实践来证实其中一种变体。

训练过的 20 个模型

Iteration:  0 R^2:  0.8235250920362135
Iteration:  1 R^2:  0.6105081195352418
Iteration:  2 R^2:  0.5999893279334669
Iteration:  3 R^2:  0.7034867465493326
Iteration:  4 R^2:  0.49771677587528107
Iteration:  5 R^2:  0.8190243407873834
Iteration:  6 R^2:  0.9160173823652586
Iteration:  7 R^2:  0.809572709204347
Iteration:  8 R^2:  0.8537940261267768
Iteration:  9 R^2:  0.7244418893207643
Iteration:  10 R^2:  0.8809333905804972
Iteration:  11 R^2:  0.7920488879746739
Iteration:  12 R^2:  0.8377299883565552
Iteration:  13 R^2:  0.8667892348319326
Iteration:  14 R^2:  0.6321639879122785
Iteration:  15 R^2:  0.7561855032577106
Iteration:  16 R^2:  0.4121119648365902
Iteration:  17 R^2:  0.7421029264382919
Iteration:  18 R^2:  0.836331050771787
Iteration:  19 R^2:  0.7477743928781102

最佳:

全部 20 个:


 

50 个模型


 

100 款

最佳

全部


 

再一次,在 50 个模型上:

Iteration:  0 R^2:  0.797041035933919
Iteration:  1 R^2:  0.6824496839528826
Iteration:  2 R^2:  -0.10034902026957526
Iteration:  3 R^2:  0.328548941268331
Iteration:  4 R^2:  0.057993335625261544
Iteration:  5 R^2:  0.43595119223755463
Iteration:  6 R^2:  -0.1461644857089356
Iteration:  7 R^2:  -0.9017316279265075
Iteration:  8 R^2:  0.0031339532771327283
Iteration:  9 R^2:  -0.6090350854501592
Iteration:  10 R^2:  -0.7554715262958651
Iteration:  11 R^2:  0.8889548573023011
Iteration:  12 R^2:  -0.6851507097155135
Iteration:  13 R^2:  -0.042098743896817226
Iteration:  14 R^2:  0.22006019984338276
Iteration:  15 R^2:  -0.4950383969975669
Iteration:  16 R^2:  0.2773014537990013
Iteration:  17 R^2:  0.4472756948107278
Iteration:  18 R^2:  0.3842534295398661
Iteration:  19 R^2:  -0.06660146376162235
Iteration:  20 R^2:  -0.13214701476491186
Iteration:  21 R^2:  -0.014549407007194204
Iteration:  22 R^2:  0.11446106552499291
Iteration:  23 R^2:  0.28201359760085487
Iteration:  24 R^2:  -0.32881820516653015
Iteration:  25 R^2:  -0.11531960758010862
Iteration:  26 R^2:  -0.22343090109420405
Iteration:  27 R^2:  -0.2359542081469308
Iteration:  28 R^2:  -0.2601186685105703
Iteration:  29 R^2:  0.7814611177095688
Iteration:  30 R^2:  -0.25351714267240644
Iteration:  31 R^2:  0.23253274050003103
Iteration:  32 R^2:  -0.06336213642832789
Iteration:  33 R^2:  0.8253438383511618
Iteration:  34 R^2:  0.2634214576140671
Iteration:  35 R^2:  0.1234251060806747
Iteration:  36 R^2:  0.5421316161448162
Iteration:  37 R^2:  0.2050233417898205
Iteration:  38 R^2:  0.4735349758266585
Iteration:  39 R^2:  -0.3067801197806268
Iteration:  40 R^2:  0.578989248941286
Iteration:  41 R^2:  0.2660816711693378
Iteration:  42 R^2:  0.19419203781618766
Iteration:  43 R^2:  -0.5900063179871913
Iteration:  44 R^2:  -0.4341693524447342
Iteration:  45 R^2:  0.593129434935225
Iteration:  46 R^2:  -0.6595885008415516
Iteration:  47 R^2:  -0.41482641919393526
Iteration:  48 R^2:  0.27611537596461266
Iteration:  49 R^2:  0.2459498592107655

最佳

平均值


 

再来一次