文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 8 123456789101112131415 新评论 Aleksei Kuznetsov 2020.11.24 19:01 #71 Valeriy Yastremskiy:显然,我们对随机比对有不同的理解。果断树,它是从随机集合中选出的特征。关键在于,集合是随机的,但选择/聚类成好的坏的集合原本就存在。这就好比扔针、量角和计算圆周率)。来自维基 让我们建立一棵决策树,对给定子样本中的样本进行分类,在创建决策树 的下一个节点时,我们将选择一组特征,在此基础上进行分区(不是从所有M 个 特征 中,而是只从 随机 选择的m 个 特征 中)。从这m 个 特征 中选择最佳 特征 的方法各不相同。最初的布雷曼代码使用基尼标准,该标准也用于CART 决定树算法。该算法的一些实现方法则使用信息增益准则。[3] 我不明白你的意思。 我也是第一次听说随机提升。,我说的是随机森林。 Aleksei Kuznetsov 2020.11.24 19:05 #72 Maxim Dmitrievsky:是的,有很多棵树,但每棵树都在努力根据不同的特性进行最佳训练。这与把多个森林(包括不好的森林)混为一谈是不一样的 在随机森林中,树是平均的。 但是,将基于相同属性的案例森林组合在一起,就相当于一个森林,其树的数量=所有要组合的森林中树的数量。唯一的区别是 HCS 的初始化不同。 Maxim Dmitrievsky 2020.11.24 19:08 #73 elibrarius: 案例林中的树是平均值。但是,基于相同特征的案例森林合并后等于一个森林,其树木数量=所有合并森林中的树木数量。唯一的区别是 HCS 的初始化不同。 不同之处在于,每棵树在没有修剪的情况下都能完全记住数据集,这就导致了它的再训练。树的集合可以防止过度训练,因为会出现一些平均值。但每棵树都有自己的优势。 如果把分类器放在一起,情况就不同了。用不好的分类器平均会降低整体结果 Aleksei Kuznetsov 2020.11.24 19:17 #74 Maxim Dmitrievsky:不同之处在于,每一棵树在没有修剪的情况下都能完美地记住数据集,这就导致了它的再训练。由于会出现一些平均值,因此树的集合会避免过度学习。但每棵树本身都是优秀的。如果把分类器放在一起,情况就不同了。用不好的分类器进行平均会降低整体效果 除了剪枝,树叶的深度和实例数量也有限制。 一棵树也是一个分类器。 我希望您能抽时间比较一下考试样本的平均结果和最佳结果。这不是为了理论上的争论,而是为了通过实践来证实其中一种变体。 Valeriy Yastremskiy 2020.11.24 19:29 #75 elibrarius: 我不明白你的意思。我也是第一次听说随机提升。 ,我说的是随机森林。 对不起,打错了。当然是森林,forest。顺便说一句,它最早是在1986年用fortran 77(带OOP)实现的,当时这里的人还在学习fortran 4(不带OOP)。 但这并不能改变重点。在集合中采样最佳特征和树可以改善结果。但与此同时,好坏集的聚类是从随机特征集而非全部特征集中进行的,这就减少了所需的资源,同时,正如实践所证明的那样,也不会明显恶化结果。 Maxim Dmitrievsky 2020.11.24 19:29 #76 elibrarius:除修剪外,还有深度限制和每页示例数量限制。一棵树也是一个分类器。希望大家能抽时间比较一下考试样本的平均结果和最佳结果。不是为了理论上的争论,而是为了通过实践来证实其中一种变体。 训练过的 20 个模型 Iteration: 0 R^2: 0.8235250920362135 Iteration: 1 R^2: 0.6105081195352418 Iteration: 2 R^2: 0.5999893279334669 Iteration: 3 R^2: 0.7034867465493326 Iteration: 4 R^2: 0.49771677587528107 Iteration: 5 R^2: 0.8190243407873834 Iteration: 6 R^2: 0.9160173823652586 Iteration: 7 R^2: 0.809572709204347 Iteration: 8 R^2: 0.8537940261267768 Iteration: 9 R^2: 0.7244418893207643 Iteration: 10 R^2: 0.8809333905804972 Iteration: 11 R^2: 0.7920488879746739 Iteration: 12 R^2: 0.8377299883565552 Iteration: 13 R^2: 0.8667892348319326 Iteration: 14 R^2: 0.6321639879122785 Iteration: 15 R^2: 0.7561855032577106 Iteration: 16 R^2: 0.4121119648365902 Iteration: 17 R^2: 0.7421029264382919 Iteration: 18 R^2: 0.836331050771787 Iteration: 19 R^2: 0.7477743928781102 最佳: 全部 20 个: Maxim Dmitrievsky 2020.11.24 19:35 #77 50 个模型 Maxim Dmitrievsky 2020.11.24 19:37 #78 100 款 最佳 全部 Maxim Dmitrievsky 2020.11.24 19:40 #79 再一次,在 50 个模型上: Iteration: 0 R^2: 0.797041035933919 Iteration: 1 R^2: 0.6824496839528826 Iteration: 2 R^2: -0.10034902026957526 Iteration: 3 R^2: 0.328548941268331 Iteration: 4 R^2: 0.057993335625261544 Iteration: 5 R^2: 0.43595119223755463 Iteration: 6 R^2: -0.1461644857089356 Iteration: 7 R^2: -0.9017316279265075 Iteration: 8 R^2: 0.0031339532771327283 Iteration: 9 R^2: -0.6090350854501592 Iteration: 10 R^2: -0.7554715262958651 Iteration: 11 R^2: 0.8889548573023011 Iteration: 12 R^2: -0.6851507097155135 Iteration: 13 R^2: -0.042098743896817226 Iteration: 14 R^2: 0.22006019984338276 Iteration: 15 R^2: -0.4950383969975669 Iteration: 16 R^2: 0.2773014537990013 Iteration: 17 R^2: 0.4472756948107278 Iteration: 18 R^2: 0.3842534295398661 Iteration: 19 R^2: -0.06660146376162235 Iteration: 20 R^2: -0.13214701476491186 Iteration: 21 R^2: -0.014549407007194204 Iteration: 22 R^2: 0.11446106552499291 Iteration: 23 R^2: 0.28201359760085487 Iteration: 24 R^2: -0.32881820516653015 Iteration: 25 R^2: -0.11531960758010862 Iteration: 26 R^2: -0.22343090109420405 Iteration: 27 R^2: -0.2359542081469308 Iteration: 28 R^2: -0.2601186685105703 Iteration: 29 R^2: 0.7814611177095688 Iteration: 30 R^2: -0.25351714267240644 Iteration: 31 R^2: 0.23253274050003103 Iteration: 32 R^2: -0.06336213642832789 Iteration: 33 R^2: 0.8253438383511618 Iteration: 34 R^2: 0.2634214576140671 Iteration: 35 R^2: 0.1234251060806747 Iteration: 36 R^2: 0.5421316161448162 Iteration: 37 R^2: 0.2050233417898205 Iteration: 38 R^2: 0.4735349758266585 Iteration: 39 R^2: -0.3067801197806268 Iteration: 40 R^2: 0.578989248941286 Iteration: 41 R^2: 0.2660816711693378 Iteration: 42 R^2: 0.19419203781618766 Iteration: 43 R^2: -0.5900063179871913 Iteration: 44 R^2: -0.4341693524447342 Iteration: 45 R^2: 0.593129434935225 Iteration: 46 R^2: -0.6595885008415516 Iteration: 47 R^2: -0.41482641919393526 Iteration: 48 R^2: 0.27611537596461266 Iteration: 49 R^2: 0.2459498592107655 最佳 平均值 Maxim Dmitrievsky 2020.11.24 19:42 #80 再来一次 123456789101112131415 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
显然,我们对随机比对有不同的理解。果断树,它是从随机集合中选出的特征。关键在于,集合是随机的,但选择/聚类成好的坏的集合原本就存在。这就好比扔针、量角和计算圆周率)。
来自维基
我也是第一次听说随机提升。
,我说的是随机森林。
是的,有很多棵树,但每棵树都在努力根据不同的特性进行最佳训练。这与把多个森林(包括不好的森林)混为一谈是不一样的
但是,将基于相同属性的案例森林组合在一起,就相当于一个森林,其树的数量=所有要组合的森林中树的数量。唯一的区别是 HCS 的初始化不同。
案例林中的树是平均值。但是,基于相同特征的案例森林合并后等于一个森林,其树木数量=所有合并森林中的树木数量。唯一的区别是 HCS 的初始化不同。
不同之处在于,每棵树在没有修剪的情况下都能完全记住数据集,这就导致了它的再训练。树的集合可以防止过度训练,因为会出现一些平均值。但每棵树都有自己的优势。
如果把分类器放在一起,情况就不同了。用不好的分类器平均会降低整体结果
不同之处在于,每一棵树在没有修剪的情况下都能完美地记住数据集,这就导致了它的再训练。由于会出现一些平均值,因此树的集合会避免过度学习。但每棵树本身都是优秀的。
如果把分类器放在一起,情况就不同了。用不好的分类器进行平均会降低整体效果
除了剪枝,树叶的深度和实例数量也有限制。
一棵树也是一个分类器。
我希望您能抽时间比较一下考试样本的平均结果和最佳结果。这不是为了理论上的争论,而是为了通过实践来证实其中一种变体。
我不明白你的意思。我也是第一次听说随机提升。 ,我说的是随机森林。
对不起,打错了。当然是森林,forest。顺便说一句,它最早是在1986年用fortran 77(带OOP)实现的,当时这里的人还在学习fortran 4(不带OOP)。
但这并不能改变重点。在集合中采样最佳特征和树可以改善结果。但与此同时,好坏集的聚类是从随机特征集而非全部特征集中进行的,这就减少了所需的资源,同时,正如实践所证明的那样,也不会明显恶化结果。
除修剪外,还有深度限制和每页示例数量限制。
一棵树也是一个分类器。
希望大家能抽时间比较一下考试样本的平均结果和最佳结果。不是为了理论上的争论,而是为了通过实践来证实其中一种变体。
训练过的 20 个模型
最佳:
全部 20 个:
50 个模型
100 款
最佳
全部
再一次,在 50 个模型上:
最佳
平均值
再来一次