混乱中有规律可循吗?让我们试着找出它!以特定样本为例进行机器学习。 - 页 22

 
Aleksey Vyazmikin #:
但我得到了这个模型

没有必要寄希望于考试中最好的模型将来会盈利。平均值或大多数都应该是有利可图的。

这就像测试优化器一样--最好的模型在 99% 的时间里都会在前程中梅开二度。

 
elibrarius #:

拆分只到量子为止。量子内部的所有内容都被视为相同的值,不会进一步拆分。

你还不明白--问题的关键在于,每次拆分都会减少下一次拆分的样本,而下一次拆分是根据量子表进行的,但每次的度量都会发生变化。

有一些算法在训练模型时,每次分割后都会制作一个新的量子表。

elibrarius#:

我不明白你为什么要在量子表中寻找一些东西,它的主要目的是加快计算速度(次要目的是加载/概括模型,以便不再进行拆分,但你也可以限制浮动数据的深度),我没有使用它,我只是在浮动数据上做模型。我对 65000 个部件进行了量化 - 结果与未量化的模型完全相同。

显然,我看到了效率,这就是我使用它的原因。65000 个零件太多了,我认为量化的意义在于概括数据,创建分类特征,因此整个样本的 2%-5% 应该被量化。可能并非所有预测因子都是如此--实验尚未完成。

elibrarius#:

会有一个分割,将数据分为两个部分--一个部分全部为 0,另一个部分全部为 1。我不知道什么叫量子,我认为量子是量化后得到的扇区数。也许就像你说的,是分割的数量。

是的,这很清楚,你说的分裂是对的,我反而笑了。一般来说,CatBoost 有一个量子表的概念,那里有确切的分割,而我自己使用的是分段--两个坐标,也许它们可以被称为量子或量子分段。我不知道真正的术语,但我自己是这么称呼它们的。

 
elibrarius #:

不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。

这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。

现在的目标是了解我们可以向往的潜力。我不会在这些模型上做交易。

我预计,由于拆分选择的可变性降低,被选中的模型数量会增加--我们今天晚些时候就会看到。

 
Aleksey Vyazmikin #:

我预计,由于拆分选择的可变性降低,经过筛选的模型数量将会增加--我们今天晚些时候就会看到。

结果证明我错了--模型数量只有 79 个,考试平均利润为 -1379

 
elibrarius #:

不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。

这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。

顺便说一下,我决定看看另一个样本,它也不在训练中--就是之前被砍掉的那个。

下面是同一个模型在这些数据(2014-2018 年)上的表现。

平衡

我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗?

 
Aleksey Vyazmikin #:

顺便说一下,我决定在这里看看另一个同样没有参加训练的样本,也就是之前被裁掉的那个。

在这个数据(2014-2018 年)上,同一个模型看起来是这样的。

我觉得还不错,至少不是 45 度的暴跌。也就是说,我们还能指望一个好的模型继续好下去吗?

也许)。

 
elibrarius #:

也许)

唉,我检查了所有模型--那些在火车和考试样本中收入超过 3000 的模型--有 39 件,而在新旧样本中只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。

这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。

 
Aleksey Vyazmikin #:

唉,我检查了所有的模型--在火车和考试样本上收入超过 3000 的模型--有 39 件,而在新旧样本上只有 18 件(46%)显示出盈利结果。这当然超过了 1/3,但仍然不够。

这就是所选模型在常规考试样本和废弃样本(2014-2018 年)之间的余额差异。

总的来说,这还不是五五开(就利润而言)。如果要想出与目标相关的新功能已经很困难,或许应该改变目标?
 
elibrarius #:
一般来说,即使是 50/50 的比例也无法实现(就利润而言)。如果很难想出与目标相关的新特征,也许应该改变目标?

新的预测因子是可以发明的,现在还有一些想法,但我不确定在考虑到 greed.... 原则的情况下,训练是否会以这些预测因子为基础。也许我们需要改变模型训练的方法,对已知算法进行自己的改造。

目标可以改变,但改变成什么样,有什么想法吗?

 

我从这里 描述的第六步中提取了样本,并将考试和测试对调。

事实上,训练是按照同样的规则、用同样的种子进行的,但另一个样本--在时间顺序中排在后面--负责停止创建新树。

因此,测试(原考试)样本的平均利润值为 -730.5--让我提醒一下,在按时间顺序训练期间,测试样本的平均值为982.5,考试(原考试)样本的平均平衡值为 922.49 点,而在初始变量中为 -1114.27 点

图 1 原始测试样本作为考试样本时的天平分布直方图。

图 2 测试样本作为考试样本时的天平分布直方图。

当样本按时间顺序排列时,模型中树的平均值为 11.47,当两个样本的顺序改变时,模型中树的平均值为 9.11,即可以说样本交换后模式变得不那么明显,因此需要更少的树来描述。

同时,由于通过实际取样来控制停止,其模式变得更加定性,如上所述,平均收益也更高。

一方面,实验证实了样本中包含了持续多年的类似模式,但同时其中一些模式变得不那么明显,甚至将其概率转移到了事件结果的负区域。之前的研究表明,不仅是预测因子本身,它们在模型中的使用也会影响训练结果。

因此,我们有

1.样本不具代表性。

2.在建立模型时,随机模式可能会 "掩盖 "稳定模式,或者建立模型的方法本身不够可靠。

3.模型结果对样本区域的依赖性(以前的样本列车在考试中表现出良好的效果)。