文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 5

 
elibrarius:
那么就有必要精确地求取平均值。否则,新数据就会 "不一样"。

不需要精确平均。采样器已经内置了平均化功能。

GMM 取样器可能会产生不好的样本,如偏斜类等,取样是随机的。考虑到这一点有意义吗?

 
Maxim Dmitrievsky:

绝对不需要平均

GMM 采样器可能会产生不好的样本,如偏斜类等,采样是随机的。考虑到这一点有意义吗?

随机森林同样会产生一组成功和不成功的树。在新数据上,平均所有模型会比单一最佳树显示出更好的结果。

 
elibrarius:

随机森林同样会产生一组好树和一组不太好的树。在新数据上,平均所有模型的结果要比单一最佳树的结果好。

如果您组成多个森林,那么交易量大约为零,信号会重叠。

 
Maxim Dmitrievsky:

如果您组成多个脚手架,交易量将约为零,信号将重叠。

几个(例如 10 个)100 棵树的森林与一个 1000 棵树的森林是一样的。它能提供大量信号。

 
elibrarius:

几个(例如 10 个)100 棵树的森林与一个 1000 棵树的森林是一样的。这样会发出很多信号。

有实践经验吗?我实践过。信号变得稀少。
 
如果分类通过 0.5。将触发 0.51 和 0.49,而不是 0.6 和 0.4
 
Maxim Dmitrievsky:
有练习过吗?我以前练过信号变得很少。
如果您将缩进设置为 0.5,那么只需将其缩小即可。如果树木多 10 倍,那么缩进就会少 10 倍。
 
elibrarius:
如果您设置了 0.5 的缩进,只需将其缩小即可。
我同意这一点,它还是变小了。而且我不太明白为什么要随意添加糟糕的模型。组成很酷的模型,相互促进--另当别论
 
Maxim Dmitrievsky:
我同意这一点,反正也不够。我不太明白你为什么要随意添加糟糕的模型。把好的模型组合起来,相互促进--另当别论
大约两年前,我用森林模型做了这个工作,训练了 1000 个模型,取其中最好的 10 到 50 个。显然,在新数据上的结果并不是很好。
这是需要的所有东西的平均值。脚手架原理的基本描述就是这么说的。就像群众比专家更了解群众一样。
 
elibrarius:
大约 2 年前,我曾用木材做过这个实验,训练了 1000 人,取其中最好的 10 至 50 人。 需要的是对一行中的所有数据进行平均。脚手架原理的基本描述就是这么说的。好像群众比专家更了解情况。
我在教科书上没看到过这种说法。我知道你可以通过组合好的模型来提高质量。但不能反过来)