混乱中有规律可循吗？让我们试着找出它！以特定样本为例进行机器学习。

Aleksei Kuznetsov 2023.02.08 06:27 #211

Aleksey Vyazmikin #:
但我得到了这个模型

。

没有必要寄希望于考试中最好的模型将来会盈利。平均值或大多数都应该是有利可图的。

这就像测试优化器一样--最好的模型在 99% 的时间里都会在前程中梅开二度。

Aleksey Vyazmikin 2023.02.08 06:54 #212

elibrarius #:

拆分只到量子为止。量子内部的所有内容都被视为相同的值，不会进一步拆分。

你还不明白--问题的关键在于，每次拆分都会减少下一次拆分的样本，而下一次拆分是根据量子表进行的，但每次的度量都会发生变化。

有一些算法在训练模型时，每次分割后都会制作一个新的量子表。

elibrarius#:

我不明白你为什么要在量子表中寻找一些东西，它的主要目的是加快计算速度（次要目的是加载/概括模型，以便不再进行拆分，但你也可以限制浮动数据的深度），我没有使用它，我只是在浮动数据上做模型。我对 65000 个部件进行了量化 - 结果与未量化的模型完全相同。

显然，我看到了效率，这就是我使用它的原因。65000 个零件太多了，我认为量化的意义在于概括数据，创建分类特征，因此整个样本的 2%-5% 应该被量化。可能并非所有预测因子都是如此--实验尚未完成。

elibrarius#:

会有一个分割，将数据分为两个部分--一个部分全部为 0，另一个部分全部为 1。我不知道什么叫量子，我认为量子是量化后得到的扇区数。也许就像你说的，是分割的数量。

是的，这很清楚，你说的分裂是对的，我反而笑了。一般来说，CatBoost 有一个量子表的概念，那里有确切的分割，而我自己使用的是分段--两个坐标，也许它们可以被称为量子或量子分段。我不知道真正的术语，但我自己是这么称呼它们的。

Aleksey Vyazmikin 2023.02.08 06:57 #213

elibrarius #:

不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。

这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。

现在的目标是了解我们可以向往的潜力。我不会在这些模型上做交易。

我预计，由于拆分选择的可变性降低，被选中的模型数量会增加--我们今天晚些时候就会看到。

Aleksey Vyazmikin 2023.02.08 17:43 #214

Aleksey Vyazmikin #:

我预计，由于拆分选择的可变性降低，经过筛选的模型数量将会增加--我们今天晚些时候就会看到。

结果证明我错了--模型数量只有 79 个，考试平均利润为 -1379

Aleksey Vyazmikin 2023.02.08 18:01 #215

elibrarius #:

不必寄希望于考试中最好的模型将来会盈利。平均水平或大多数都应能盈利。

这就像在测试优化器中一样--最好的模型在 99% 的时间里都会在前进中梅开二度。

顺便说一下，我决定看看另一个样本，它也不在训练中--就是之前被砍掉的那个。

下面是同一个模型在这些数据（2014-2018 年）上的表现。

我觉得还不错，至少不是 45 度的暴跌。也就是说，我们还能指望一个好的模型继续好下去吗？

Aleksei Kuznetsov 2023.02.08 21:24 #216

Aleksey Vyazmikin #:

顺便说一下，我决定在这里看看另一个同样没有参加训练的样本，也就是之前被裁掉的那个。

在这个数据（2014-2018 年）上，同一个模型看起来是这样的。

我觉得还不错，至少不是 45 度的暴跌。也就是说，我们还能指望一个好的模型继续好下去吗？

也许）。

Aleksey Vyazmikin 2023.02.08 22:14 #217

elibrarius #:

也许）

唉，我检查了所有模型--那些在火车和考试样本中收入超过 3000 的模型--有 39 件，而在新旧样本中只有 18 件（46%）显示出盈利结果。这当然超过了 1/3，但仍然不够。

这就是所选模型在常规考试样本和废弃样本（2014-2018 年）之间的余额差异。

Aleksei Kuznetsov 2023.02.09 09:39 #218

Aleksey Vyazmikin #:

唉，我检查了所有的模型--在火车和考试样本上收入超过 3000 的模型--有 39 件，而在新旧样本上只有 18 件（46%）显示出盈利结果。这当然超过了 1/3，但仍然不够。

这就是所选模型在常规考试样本和废弃样本（2014-2018 年）之间的余额差异。

总的来说，这还不是五五开（就利润而言）。如果要想出与目标相关的新功能已经很困难，或许应该改变目标？

Aleksey Vyazmikin 2023.02.13 16:15 #219

elibrarius #:
一般来说，即使是 50/50 的比例也无法实现（就利润而言）。如果很难想出与目标相关的新特征，也许应该改变目标？

新的预测因子是可以发明的，现在还有一些想法，但我不确定在考虑到 greed.... 原则的情况下，训练是否会以这些预测因子为基础。也许我们需要改变模型训练的方法，对已知算法进行自己的改造。

目标可以改变，但改变成什么样，有什么想法吗？

Aleksey Vyazmikin 2023.02.13 16:50 #220

我从这里描述的第六步中提取了样本，并将考试和测试对调。

事实上，训练是按照同样的规则、用同样的种子进行的，但另一个样本--在时间顺序中排在后面--负责停止创建新树。

因此，测试（原考试）样本的平均利润值为 -730.5--让我提醒一下，在按时间顺序训练期间，测试样本的平均值为982.5，考试（原考试）样本的平均平衡值为 922.49 点，而在初始变量中为 -1114.27 点。

图 1 原始测试样本作为考试样本时的天平分布直方图。

图 2 测试样本作为考试样本时的天平分布直方图。

当样本按时间顺序排列时，模型中树的平均值为 11.47，当两个样本的顺序改变时，模型中树的平均值为 9.11，即可以说样本交换后模式变得不那么明显，因此需要更少的树来描述。

同时，由于通过实际取样来控制停止，其模式变得更加定性，如上所述，平均收益也更高。

一方面，实验证实了样本中包含了持续多年的类似模式，但同时其中一些模式变得不那么明显，甚至将其概率转移到了事件结果的负区域。之前的研究表明，不仅是预测因子本身，它们在模型中的使用也会影响训练结果。

因此，我们有

1.样本不具代表性。

2.在建立模型时，随机模式可能会 "掩盖 "稳定模式，或者建立模型的方法本身不够可靠。

3.模型结果对样本区域的依赖性（以前的样本列车在考试中表现出良好的效果）。

混乱中有规律可循吗？让我们试着找出它！以特定样本为例进行机器学习。 - 页 22