交易中的机器学习：理论、模型、实践和算法交易

Forester 2021.04.09 14:14 #23861

Aleksey Vyazmikin:

如果你不理解描述，请对不清楚的地方提出问题--我会努力解释得更好。

几年前我也做过同样的事情，但因为涉及到劳动，而不是毫无意义而放弃了。

下面是一个旧实验的结果表，工作是这样的。

1.预测器的数量被切成9块。

2.块之间的组合被创建 - 512

3.然后对样本在每个块的存在/不存在的情况下的平均表现做出估计。

4.对大块的重要性进行了假设（正/负）。

5.重要的块被分解成更小的块，而不太重要的块被合并成一个块（不一定要按顺序进行）。

6.形成新的512组合

7.如果发现了对样本有负面影响的小块，就把它从进一步的列举中排除，直到结果的改善停止，然后可以尝试把排除的小块加入，用同样的方法分析结果。另一方面，积极的影响则被汇总到一个组。

下面是一个有32次这样迭代的指标变化的例子。

该方法当然可以改进，但这需要实验和结果的证明。

是的，改进不是按次数进行的，但结果也让你思考哪些预测因素对结果更好或更坏，以及为什么。

而且，我想尝试专门使用CatBoost 统计，并删除/添加预测因子（以及它们的组），原因正是因为它可能比我之前使用的枚举法更快。

另一个好处是，太多的预测因子会导致罕见的分裂，在训练之外的样本中，叶子的激活可能非常罕见（在前面的截图中显示），这故意降低了训练的质量和评估。

这是一个有点棘手的问题。

首先在1个特征上训练1000次（有1000个特征需要测试），找到最好的一个。然后在最好的筹码上做999次，在其余的筹码上做999次，挑选第二好的。然后在前2名和剩余的998名中的第三名，等等。
一共有2个嵌套循环。
具有少量特征的模型学习起来非常快。在合理的时间内，你会得到20-30个。而在选择了10-20个特征后，模型通常会停止改进，在它们之后添加新的特征只会使结果恶化。

Aleksey Vyazmikin 2021.04.09 14:58 #23862

Maxim Dmitrievsky:

毫无意义的时间浪费

显然，不会有任何建设性的讨论--没有人愿意去探究它的真相。

Maxim Dmitrievsky 2021.04.09 15:02 #23863

Aleksey Vyazmikin:

显然，不会有建设性的讨论--没有人愿意理解这一点。

没有想吃苦的废话，观点很明确（吃苦的废话）。

Aleksey Vyazmikin 2021.04.09 15:03 #23864

elibrarius:
复杂的东西。

首先在1个特征上训练1000次（有1000个特征需要测试），找到最好的一个。然后在最好的筹码上做999次，在其余的筹码上做999次，挑选第二好的。然后在前2名和剩余的998名中的第三名，等等。
一共有2个嵌套循环。
具有少量特征的模型学习起来非常快。在合理的时间内，你会得到20-30个。而在选择了10-20个特征后，模型通常会停止改进，在它们之后添加新的特征只会使结果恶化。

我们不是在寻找最好的，而是寻找各种功能的组合，这就是问题所在。为什么会有这样的问题，因为不可能尝试所有的组合，这就是为什么需要采用优胜法。另一个问题是不同的预测器在拆分后可能有很强的相似性，这在集合体中会导致概率的高估，因为会有很多固有的相关叶。

Maxim Dmitrievsky 2021.04.09 15:04 #23865

这个人决定用助推器重新发明助推器，我们不要阻止他。

常识性的呼吁无济于事

Aleksey Vyazmikin 2021.04.09 15:05 #23866

Maxim Dmitrievsky:

无欲则刚的废话，观点很明确（痛苦的废话）。

为什么是胡说八道？

这是否有区别 - 是的，有区别。

有一个理论上的理由--是的，有。

当然，这并不是一个数量级的改进。

是的，这对你的预测者来说可能没什么效果--在这里我可以承认拒绝的理由。

Evgeny Dyuka 2021.04.09 15:07 #23867

神经系统着火了 ))
忘记交易，把神经网络变成一个指标。

Maxim Dmitrievsky 2021.04.09 15:22 #23868

Aleksey Vyazmikin:

为什么是胡说八道？

这是否有区别 - 是的，有区别。

有一个理论上的理由--是的，有。

当然，这并不是一个数量级的改进。

是的，对于你的预测者来说，它可能是微不足道的有效的--在这里我可以允许有拒绝的理由。

已经说了一切，我不会干涉你尝试太多不能选择的东西。

Forester 2021.04.09 15:27 #23869

Aleksey Vyazmikin:

你不必寻找最好的，而是两者的结合--这就是问题所在。为什么它是一个问题，因为不可能尝试所有的组合，这就是为什么我们需要urestic方法。另一个问题是拆分后不同预测器的潜在强相似性，这在集合体中会导致概率的高估，因为会有许多本质上相关的叶子。

一旦选择了第一个最佳筹码，第二个筹码将与第一个筹码一起被选择，以此类推。一旦你达到10个，下一个筹码将与之前选择的10个中的任何一个的最佳互动被选择，但最有可能是与所有的筹码。

Maxim Dmitrievsky 2021.04.09 15:28 #23870

elibrarius:
在选择了第一个最佳特征后，第二个特征将是与第一个特征有最佳互动的特征，以此类推，当你达到10个时。下一个将是与之前被选中的任何一个有最佳互动的人，但很可能是与所有的人。

不是这样的

把低重要性的特征从模型中拿出来，并把它打碎，然后把你的屁股和你的拇指进行比较，等等。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2387