文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 6

 
Maxim Dmitrievsky:
我在教科书上没看到过。我知道你可以通过组合好的模型来提高质量。但反过来就不行了)

这就是森林的作用。好的坏的都有。森林是由非常酷的数学家和统计学家创造的。

他们可能只想把最好的模型结合起来(如果你我都这么想的话)。
 
elibrarius:

这正是森林的作用。有好有坏而森林是由非常酷的数学家和统计学家创建的。

他们可能只想把最好的模型组合在一起(如果你我都这么想的话)。

即使森林的合理上限是 50-100 棵树,也是由某些人根据经验推导出来的,但这已经没有意义了

汇集最佳模型是常见的做法。在 Kaggle 上,每个人都喜欢堆叠提升。至少以前有这样的说法

 
Maxim Dmitrievsky:
即使一片森林的合理限度是 50-100 棵树,这也是有人根据经验推断出来的,现在已经说不通了。
是的,已经没有意义了。

你只有 50 个聚类变体。取平均值就可以了。
 
elibrarius:
是的,没有意义。 你只有 50 个聚类变体。把它们平均出来就可以了。

我认为只对最好的进行聚类是有意义的。

 
Maxim Dmitrievsky:

把最好的东西集中起来是常见的做法。在 Kaggle 上,每个人都喜欢叠加加成。至少以前的流行语是

我猜坐在 kaggle)))))) 上的不是布雷曼家族的人。所以他们在做实验......

 
Maxim Dmitrievsky:

我明白只把最好的放在一起的意义。

两种都试一试,比较一下考试样本的结果。
 
elibrarius:

可能不是布雷曼坐在 kaggle))))) 上所以他们在做实验...

这些都是在比赛中获胜的 )

 
elibrarius:
尝试两种方法,并比较考试样本的结果。

不,增加坏模型没有意义。根据定义

在训练中,平均化是一回事,但训练后的平均化又是另一回事。在这里,你加入坏模型是故意自取灭亡。它们会带来误差,仅此而已。而且没有这种做法,我在任何地方都没看到过。

再想想从 50 个模型中获取一个信号的成本,以及测试的刹车。
 
Maxim Dmitrievsky:

不,增加糟糕的模型毫无意义。根据定义

在训练中,平均化是一回事,但训练后的平均化又是另一回事。在这里,你加入坏模型是故意自取灭亡。它们会带来误差,仅此而已。

试试看。不会花很长时间的。在实验中测试一下不是很有趣吗?布雷曼在他的随机森林里 没这么做
 
Maxim Dmitrievsky:

不,增加糟糕的模型毫无意义。根据定义

在训练中,平均化是一回事,但训练后的平均化又是另一回事。在这里,你加入坏模型是故意自取灭亡。它们会带来误差,仅此而已。而且没有这种做法,我在任何地方都没看到过。

另外,想象一下从 50 个模型中获取一个信号的成本,以及测试的刹车。

任何随机森林 都会出现这种情况