交易中的机器学习:理论、模型、实践和算法交易 - 页 1296

 
迪米特里

文艺复兴初期,拜占庭已经不存在了,君士坦丁堡是奥斯曼帝国的首都,十字军东 征在这之前200年就已经结束。

不要开玩笑...

复兴 分为四个阶段。

  1. 原文艺复兴(13世纪 下半叶至14世纪)
  2. 文艺复兴早期(15世纪初至15世纪末)
  3. 高度文艺复兴(十五世纪末至十六世纪前20年)。
  4. 文艺复兴晚期(16世纪中期至1590年代)

1202-1204年的第四次十字军东征(这是 13世纪 的开始)。

在洗劫了欧洲最富有和最大的城市之后,...他们(十字军)建立了一个以君士坦丁堡为首都的国家,即拉丁帝国。反对征服者的斗争持续了50多年。1261年,拉丁帝国灭亡。拜占庭得到了恢复,但它再也无法实现其以前的权力。

在拜占庭50多年的掠夺和生活中,新富起来的欧洲人(主要是威尼斯,它做了所有的航运和它的地区)对美好的生活产生了兴趣,他们开始给有创造力的人高薪。有创造力的人雇用/培训学徒,然后他们作为教师而表现出色,等等。就这样,它一直在继续。

 
CatBoost 采样意见是需要的,那里的训练需要两个样本。第一个是优化函数,第二个是模型选择,即这个函数什么时候应该停止工作,以避免过度训练,为此,训练的结果被应用于第二个样本。我在想,其实原来我们是在2014-2016年的训练样本上寻找一个模式,然后在2016-2017年测试这个模式,在2018-2019年的第三个样本上已经独立测试这个模式。我对如此大的时间差感到困惑,或者说,我甚至怀疑我们需要大量的样本来进行测试,因为我们想在很长一段时间内抓住一个稳定的模式,但这个模式的持续时间我们并不清楚......我在想,在测试样本中放入2-3个月就足够了,这将揭示出一个周期性的趋势,并且会在前后重复,但这样就有一个风险,在训练样本中揭示这个周期性之前,模型会聚集太多描述其他东西的树,然后才会在测试样本中建立描述一个趋势的树。总之有疑问,想不出如何做一个实验,以帮助确定三个样本中每个样本应该有多长。有人对此有什么想法吗?
 
埃利布留斯

在拜占庭50多年的掠夺和生活中,新富起来的欧洲人(主要是威尼斯,它做了所有的航运和它的县)对美丽的生活产生了兴趣,并开始向有创造力的人支付高额报酬。有创造力的人雇用/培训学徒,然后他们作为教师而表现出色,等等。事情就是这样--一点一点地发展。

但当然这只是IMHO。

一位欧洲的电视节目主持人说,君士坦丁堡的陷落是一种幸运,尽管有数十万的受害者和破坏,但受过教育的人涌入欧洲,并心甘情愿地被雇用,这使他们从罗马帝国那里找回了一些失去的知识,这有助于从中世纪出现。

也就是说,即使是像战争这样的亵渎性行为,即使是现在,也被说成是全人类的善举......。历史是由胜利者书写的。

 
Aleksey Vyazmikin:
,但这样就有一个风险,在揭示训练样本上的这种周期性之前,模型会做出太多描述其他东西的树,然后才在测试样本上建立描述趋势的树。

无论是树还是NS,都没有按时间来分离字符串,它们甚至是在洗牌。因此,没有树木是 "然后 "建成的。它们都是建立在均匀 洗牌的数据上。2014年和2016年的排位可以并排而立。

如果NS不洗行,它就会在第一个例子上重新训练,并达到一个死锁,最后一个数据将不会完成学习它。洗完行后,NS均匀地学习。如果r=1(学习一棵树的行数份额),你不需要洗行,但通常设置为<1,以避免过度训练,所以你也需要洗行,所以在r=0.5时,你不要只取2014和2015年的数据。

Aleksey Vyazmikin:
我想不出如何做一个实验,以帮助确定三个样本中每个样本应该有多长。你对这个问题有什么想法吗?

我认为我们也需要优化这一点。但我认为行数不应少于1000-10000,这样的样本才有代表性,才能把所有的随机偏差平均化。否则,你可以把随机偏差装进一个小样本。

 
阿列克谢-维亚兹米 金。

一个欧洲节目说,君士坦丁堡的陷落是一种幸运,尽管有几十万人伤亡和破坏,但受过教育的人涌入欧洲,他们心甘情愿地被雇用,从而设法从罗马帝国恢复了一些失去的知识,这有助于从中世纪出现。

也就是说,即使是像战争这样的亵渎性行为,即使是现在,也被说成是全人类的善举......。历史是由胜利者书写的。

当然,每个人都为自己感知到了好处。当然,对欧洲人来说,这是一种掠夺财政和大脑的善举。对拜占庭人来说,这不是一种福气,对许多人来说,这就是死亡。

我不太记得了,但在其黄金时代,拜占庭每年的税收约为2-4千吨黄金。但我的数字可能是错误的--几年前我看了一部电影,里面提到了这个问题。如果你有兴趣,请看一看。我在影片开始时偶然遇到了它--只有硬币拿出了几百吨。


 
elibrarius

无论是树还是NS,都没有按时间来分离字符串,它们甚至会洗牌。因此,没有树木是 "事后 "建造的。它们都是建立在均匀洗牌的数据上。2014年和2016年的排位可以并排而立。

我不太可能已经表达了我的观点。

看,我们在训练样本上建立了一棵树,它覆盖了10%的样本(召回率),因此,假设有20棵树,每棵树都会增加3%-7%的召回率,但这是在训练样本上,而在测试样本上,也许只有5和6棵树会在完整性和准确性上给出任何回应,而前后的树将是噪音,但如果这些 "后 "被算法削减,那么这些 "前 "将保留。因此,我们得到一个模型,其中有帮助分类的树,也有阻碍分类的树,或者只是被动的行为。这就是为什么测试样本的大小和它的填充物是问题所在。

我总共有大约14根弦,我需要把它们分成3个样本。

也许对于这些类型的模型来说,切割不同的样本块,然后在整个样本上测试所产生的模型的稳定性是有效的......在沉思中。

 
埃利布留斯

当然,这对每个人来说都是一件好事。当然,对欧洲人来说,这是以抢夺财政和大脑的形式带来的福音。对拜占庭人来说,这不是一种恩惠,对许多人来说,这就是死亡。

我不太记得了,但在拜占庭的全盛时期,每年的税收大约是2-4千吨黄金。即使在我们的时代,这对许多国家来说也是一个非常好的数额。 但我的数字可能是错的--我几年前看了一部电影,它是这么说的。如果你有兴趣,请看一看。我在影片开始时偶然遇到了它--只有硬币花了几百吨。


我会看一下视频,谢谢,但我更希望看到来自日本人或独立的人......

 
阿列克谢-维亚兹米 金。
也许只有树5和树6会在完整性和准确性方面给出任何回应,而前后的树将是噪音,但如果那些 "后 "将被算法修剪,那些 "前 "将被保留。

什么算法会从已经建成的森林中砍伐树木?当森林达到一定数量时,或者通过其他方法,当它认为自己已经学得很好时,它就会结束生长。如果你在学习时有修剪,它将对训练时的错误产生积极的影响(如果你有它的有效性)。

当然,一般来说,一部分树木会投赞成票,一部分会投反对票。而要摆脱它是不可能的,因为这就是让森林能够很好地学习的原因,而不像个别的树木,由于投票的平均化。在提升时,只有第一棵树从数据中学习,其他都是从错误中学习。

 
elibrarius:

什么算法会从已经建成的森林中砍伐树木?当森林达到一定数量时,或者通过其他方法,当它认为自己已经学得很好时,它就会结束生长。如果在训练过程中会有修剪,它将对森林中的误差产生积极影响(如果有一个有效的误差)。

什么算法会修剪--CatBoost 在训练中就会这样做,你可以设置一个参数,如果10棵(你指定的数量)新树没有改善结果,那么它就会采用没有这最后10棵树的模型,并且分别是现有的最佳模型。

elibrarius:

在提升时,只有第一棵树从数据中学习,其他都是从错误中学习。

有趣的说法。然而,后续的树是为了减少现有树组成的误差而建立的,但我不明白为什么他们不使用抽样的话,请详细告诉我,也许我没有深入了解一些情况......

 
阿列克谢-维亚兹米 金。

有趣的说法。然而,后续树的建立是为了减少现有树组成的误差,但我不明白为什么他们不使用抽样的话,请详细告诉我,也许我错过了一些深度的东西......

是的,为了减少误差,他们把确切的误差作为一个目标,然后减去它。

以下是提升的算法,我自己也在研究https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/


1.在数据上 设置线性回归或决策树(这里在代码中选择决策树)[调用x 作为输入,y 作为输出](在数据上训练1棵树)

2.计算错误的误差。实际目标值,减去预测的目标值[e1 = y - y_predicted1]

3.设置新的异常值 模型作为目标变量,具有相同的输入变量[命名为e1_predicted] (2和其余的树是根据错误训练的)。

4.将预测的离群值加入到之前的预测中
[y_predicted2 = y_predicted1 + e1_predicted]

5.为剩余的误差设置另一个模型。即[e2 = y - y_predicted2],并重复第2至5步,直到它们过拟合,或总和成为常数。可以通过不断检查验证数据的准确性来控制过拟合控制。


我明白这是典型的助长行为。也许catbust已经想出了自己的东西......

Градиентый бустинг — просто о сложном
Градиентый бустинг — просто о сложном
  • 2018.11.27
  • neurohive.io
Хотя большинство победителей соревнований на Kaggle используют композицию разных моделей, одна из них заслуживает особого внимания, так как является почти обязательной частью. Речь, конечно, про Градиентный бустинг (GBM) и его вариации. Возьмем, например. победителя Safe Driver Prediction, Michael Jahrer. Его решение — это комбинация шести...