Хотя большинство победителей соревнований на Kaggle используют композицию разных моделей, одна из них заслуживает особого внимания, так как является почти обязательной частью. Речь, конечно, про Градиентный бустинг (GBM) и его вариации. Возьмем, например. победителя Safe Driver Prediction, Michael Jahrer. Его решение — это комбинация шести...
文艺复兴初期,拜占庭已经不存在了,君士坦丁堡是奥斯曼帝国的首都,十字军东 征在这之前200年就已经结束。
不要开玩笑...
复兴 分为四个阶段。
1202-1204年的第四次十字军东征(这是 13世纪 的开始)。
在洗劫了欧洲最富有和最大的城市之后,...他们(十字军)建立了一个以君士坦丁堡为首都的国家,即拉丁帝国。反对征服者的斗争持续了50多年。1261年,拉丁帝国灭亡。拜占庭得到了恢复,但它再也无法实现其以前的权力。
在拜占庭50多年的掠夺和生活中,新富起来的欧洲人(主要是威尼斯,它做了所有的航运和它的地区)对美好的生活产生了兴趣,他们开始给有创造力的人高薪。有创造力的人雇用/培训学徒,然后他们作为教师而表现出色,等等。就这样,它一直在继续。
在拜占庭50多年的掠夺和生活中,新富起来的欧洲人(主要是威尼斯,它做了所有的航运和它的县)对美丽的生活产生了兴趣,并开始向有创造力的人支付高额报酬。有创造力的人雇用/培训学徒,然后他们作为教师而表现出色,等等。事情就是这样--一点一点地发展。
但当然这只是IMHO。一位欧洲的电视节目主持人说,君士坦丁堡的陷落是一种幸运,尽管有数十万的受害者和破坏,但受过教育的人涌入欧洲,并心甘情愿地被雇用,这使他们从罗马帝国那里找回了一些失去的知识,这有助于从中世纪出现。
也就是说,即使是像战争这样的亵渎性行为,即使是现在,也被说成是全人类的善举......。历史是由胜利者书写的。
,但这样就有一个风险,在揭示训练样本上的这种周期性之前,模型会做出太多描述其他东西的树,然后才在测试样本上建立描述趋势的树。
无论是树还是NS,都没有按时间来分离字符串,它们甚至是在洗牌。因此,没有树木是 "然后 "建成的。它们都是建立在均匀 洗牌的数据上。2014年和2016年的排位可以并排而立。
如果NS不洗行,它就会在第一个例子上重新训练,并达到一个死锁,最后一个数据将不会完成学习它。洗完行后,NS均匀地学习。如果r=1(学习一棵树的行数份额),你不需要洗行,但通常设置为<1,以避免过度训练,所以你也需要洗行,所以在r=0.5时,你不要只取2014和2015年的数据。
我想不出如何做一个实验,以帮助确定三个样本中每个样本应该有多长。你对这个问题有什么想法吗?
我认为我们也需要优化这一点。但我认为行数不应少于1000-10000,这样的样本才有代表性,才能把所有的随机偏差平均化。否则,你可以把随机偏差装进一个小样本。
一个欧洲节目说,君士坦丁堡的陷落是一种幸运,尽管有几十万人伤亡和破坏,但受过教育的人涌入欧洲,他们心甘情愿地被雇用,从而设法从罗马帝国恢复了一些失去的知识,这有助于从中世纪出现。
也就是说,即使是像战争这样的亵渎性行为,即使是现在,也被说成是全人类的善举......。历史是由胜利者书写的。
当然,每个人都为自己感知到了好处。当然,对欧洲人来说,这是一种掠夺财政和大脑的善举。对拜占庭人来说,这不是一种福气,对许多人来说,这就是死亡。
我不太记得了,但在其黄金时代,拜占庭每年的税收约为2-4千吨黄金。但我的数字可能是错误的--几年前我看了一部电影,里面提到了这个问题。如果你有兴趣,请看一看。我在影片开始时偶然遇到了它--只有硬币拿出了几百吨。
无论是树还是NS,都没有按时间来分离字符串,它们甚至会洗牌。因此,没有树木是 "事后 "建造的。它们都是建立在均匀洗牌的数据上。2014年和2016年的排位可以并排而立。
我不太可能已经表达了我的观点。
看,我们在训练样本上建立了一棵树,它覆盖了10%的样本(召回率),因此,假设有20棵树,每棵树都会增加3%-7%的召回率,但这是在训练样本上,而在测试样本上,也许只有5和6棵树会在完整性和准确性上给出任何回应,而前后的树将是噪音,但如果这些 "后 "被算法削减,那么这些 "前 "将保留。因此,我们得到一个模型,其中有帮助分类的树,也有阻碍分类的树,或者只是被动的行为。这就是为什么测试样本的大小和它的填充物是问题所在。
我总共有大约14根弦,我需要把它们分成3个样本。
也许对于这些类型的模型来说,切割不同的样本块,然后在整个样本上测试所产生的模型的稳定性是有效的......在沉思中。
当然,这对每个人来说都是一件好事。当然,对欧洲人来说,这是以抢夺财政和大脑的形式带来的福音。对拜占庭人来说,这不是一种恩惠,对许多人来说,这就是死亡。
我不太记得了,但在拜占庭的全盛时期,每年的税收大约是2-4千吨黄金。即使在我们的时代,这对许多国家来说也是一个非常好的数额。 但我的数字可能是错的--我几年前看了一部电影,它是这么说的。如果你有兴趣,请看一看。我在影片开始时偶然遇到了它--只有硬币花了几百吨。
我会看一下视频,谢谢,但我更希望看到来自日本人或独立的人......
也许只有树5和树6会在完整性和准确性方面给出任何回应,而前后的树将是噪音,但如果那些 "后 "将被算法修剪,那些 "前 "将被保留。
什么算法会从已经建成的森林中砍伐树木?当森林达到一定数量时,或者通过其他方法,当它认为自己已经学得很好时,它就会结束生长。如果你在学习时有修剪,它将对训练时的错误产生积极的影响(如果你有它的有效性)。
当然,一般来说,一部分树木会投赞成票,一部分会投反对票。而要摆脱它是不可能的,因为这就是让森林能够很好地学习的原因,而不像个别的树木,由于投票的平均化。在提升时,只有第一棵树从数据中学习,其他都是从错误中学习。
什么算法会从已经建成的森林中砍伐树木?当森林达到一定数量时,或者通过其他方法,当它认为自己已经学得很好时,它就会结束生长。如果在训练过程中会有修剪,它将对森林中的误差产生积极影响(如果有一个有效的误差)。
什么算法会修剪--CatBoost 在训练中就会这样做,你可以设置一个参数,如果10棵(你指定的数量)新树没有改善结果,那么它就会采用没有这最后10棵树的模型,并且分别是现有的最佳模型。
在提升时,只有第一棵树从数据中学习,其他都是从错误中学习。
有趣的说法。然而,后续的树是为了减少现有树组成的误差而建立的,但我不明白为什么他们不使用抽样的话,请详细告诉我,也许我没有深入了解一些情况......
有趣的说法。然而,后续树的建立是为了减少现有树组成的误差,但我不明白为什么他们不使用抽样的话,请详细告诉我,也许我错过了一些深度的东西......
是的,为了减少误差,他们把确切的误差作为一个目标,然后减去它。
以下是提升的算法,我自己也在研究https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/
1.在数据上 设置线性回归或决策树(这里在代码中选择决策树)[调用x 作为输入,y 作为输出](在数据上训练1棵树)。
我明白这是典型的助长行为。也许catbust已经想出了自己的东西......