交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2022.01.25 19:32 #25511

Vladimir Perervenko#:

使用预测器还有一个问题--它们的漂移。

按照我的理解，漂移与非平稳性是一样的吗？

如果我们训练一个模型，将价格作为输入，并输出一系列与价格相关的统计数据，会怎么样？你试过这样的东西吗？

Aleksey Nikolayev 2022.01.25 20:03 #25512

Vladimir Perervenko#:

使用预测器还有一个问题--它们的漂移。而这个问题在测试和运行中都需要被识别和考虑到。在附录中有一篇文章的翻译（在网上寻找其他文章），还有一个漂移者包。它不是唯一的。但问题是，在选择预测器时，你不仅需要考虑它们的重要性，还需要考虑它们的漂移。对于高漂移者，我们抛弃或改造它们，对于低漂移者，我们应该在测试和操作中考虑（纠正）它们。

我同意，非平稳性（漂移）使事情变得非常复杂。不幸的是，这比垃圾邮件的例子要复杂得多。但有必要将其考虑在内。

Aleksey Vyazmikin 2022.01.26 02:51 #25513

elibrarius#:
蜡烛的颜色，即使有30%的误差，也会成为一个失败者。我们不知道我们可能从中获得多少利润......在价格的缓慢移动中（隔夜），颜色通常是很好猜测的，1支未猜测的强势日间蜡烛可能抵得上10支小的夜间蜡烛。我认为猜测烛台的颜色又是一种随机输出（由于随机尺寸）。
这就是为什么我用TP、SL做了分类。如果它们是相等的，那么52%的成功交易已经获利。如果TP=2*SL。那么>33%的成功交易将是盈利的。我最好的成绩是在2年多的时间里，TP=SL的交易成功率为52-53%。但总的来说，我在考虑使用固定TP/SL的回归。更准确地说，以某种方式对回归进行分类。

是的，这提醒了我，我认为这样的目标似乎不太有效，因为它没有考虑到波动性。

我认为几乎每个柱子都要开仓以准备样本，这样的假设是否正确？

Aleksey Vyazmikin 2022.01.26 02:59 #25514

SanSanych Fomenko#:

原则上，没有也不可能有数学方法能将垃圾变成糖果。要么有一组预测因素可以预测教师，要么没有。

而模型实际上并没有发挥任何作用，交叉验证和其他计算密集型的变态行为也是如此。

PS。

顺便说一下，模型中预测因子的 "重要性 "与预测教师的能力无关。

你大错特错了--没有完美的模型建立方法能够自行选择 "正确的 "预测因素。或者这样的我不知道。

也许你不能完美地描述市场，但通过应用抽样和预测器分析，你可以大大改善模型的结果，尽管要对训练的数据进行窥视。

问题是在应用模型时如何有效地选择预测因子并控制其异常变化。

Aleksey Vyazmikin 2022.01.26 03:15 #25515

Vladimir Perervenko#:

处理噪声样本有三个选项：删除、重新分区（纠正标记）和将噪声样本分离出来，成为一个单独的类。根据我的经验，大约25%的样本是 "噪音"。质量改进约为5%，它取决于模型和数据准备。我偶尔会应用它。

使用预测器时还有一个问题--它们的漂移。而这个问题在测试和运行中都必须被识别和考虑到。所附的文章翻译（在网上找其他的），还有一个漂流瓶的包装。它不是唯一的。但问题是，在选择预测器时，你不仅需要考虑它们的重要性，还需要考虑它们的漂移。对于高漂移者，要抛弃或改造，对于低漂移者，在测试和工作时要考虑到它们（进行修正）。

祝好运

根据我的理解，文章的作者建议精确分析预测值在窗口上的分布，如果它有很大的不同，那么就发出异常的信号。如果我理解正确的话，这个例子采取了一个1000个指标的窗口--这是一个很大的窗口，但显然在统计学上是可以辩护的。问题，用什么指标来比较两个分布，以检测它的显著变化？

进一步思考，变化本身可能被其他一些预测因素所预测，比方说我们有一个由利率变化引起的全球周数趋势变化--在所有的样本中，这样的变化很少--让3和模型可能根本没有捡到这些预测因素，但如果我们把这两个预测因素结合起来，"异常 "变化就可以解释。因此，我得出的观点是，漂移本身并不是丢弃一个预测器的理由，而是寻找解释它的因素的理由--即试图找到一个相关的预测器，并将它们结合起来，创造一个新的预测器。

反过来，我将简单说说我的方法--我把预测者分成 "量子"（片段），并通过其预测能力估计量子的二元反应。通过对历史上这种估计的横断面，我设法挑选出好的量子集，可以作为个人预测器，也可以用来选择基线预测器。这种方法也改善了结果。相应地，在控制样本上对量子行为的稳定性估计，以及它们的选择，基本上可以改善CatBoost中模型训练的结果，在这里我想知道是否允许使用它，或者它已经是自取灭亡。

Aleksei Kuznetsov 2022.01.26 06:22 #25516

Aleksey Vyazmikin#:

是的，这提醒了我，我不认为目标定位是非常有效的，因为它没有考虑到波动性。

我同意。在晚上，一笔交易会悬挂几个小时，而在白天，它可能在5分钟内结束。所以我在想如何在分类中附加一个回归模型。我不能 "用棍子 "预测数字0、1、2。我们需要更聪明的东西。

我是否正确地理解为几乎每一个柱子都要开仓，以准备一个样本？

是的，如果有一个预测的买/卖类。还有一个类--等待。

Dmytro Nazarchuk 2022.01.26 06:36 #25517

elibrarius#:

我同意。一笔交易在晚上会挂几个小时，但在白天，可能5分钟就结束了。这就是为什么我想知道如何在分类中附加一个回归模型。我不能 "用棍子 "预测数字0、1、2。我们需要更聪明的东西。

逻辑回归

Aleksey Nikolayev 2022.01.26 06:48 #25518

SanSanych Fomenko#:

我有几年没上论坛了，它还在那里，就像歌里唱的那样："你曾经是什么，你一直是什么，草原雄鹰，潇洒哥萨克......"。

统计学以一个公理开始，作为一个公理，它没有被讨论。

"垃圾进，垃圾出"。

原则上，没有也不可能有能从垃圾中获得甜头的数学方法。要么有一组预测因素可以阻止教师，要么没有。

而模型实际上并没有发挥任何作用，交叉验证和其他计算密集型的变态行为也是如此。

PS。

顺便说一下，模型中预测因子的 "重要性 "与预测教师的能力没有任何关系。

总有一些人像苏霍夫同志一样，认为："当然，最好是酷刑")

我同意，找到正确的预测因素比具体的模型更重要。而且，最好是主要基于对主题领域的研究来构建它们，而不是仅仅依靠MO算法的力量（并以一种无法解释的方式从条条框框中构建预测器）。

与预测器同样重要的是损失函数，它必须与主题领域和要解决的问题完全匹配。

mytarmailS 2022.01.26 08:21 #25519

我甚至不知道用AMO工作是否可以称为寻找模式，相反，它是对目标函数的简单近似/拟合。

AMO能否想出一些巧妙的办法？

Aleksei Kuznetsov 2022.01.26 11:03 #25520

mytarmailS#:
AMO能想出一些巧妙的办法吗？

不，它是一个记忆历史的数据库。什么是树上的叶子？10-20-100-1000个过去的例子/字符串，以某种方式被选为类似。片面回答：对于分类--最常出现的类别的百分比或只是最常出现的类别，对于回归--所有数值的算术平均值。

此外，如果是森林，它是森林中所有树木价值的平均数。如果是提升，它对所有树的值进行加总（每一棵连续的树都会修正之前所有树的总和以得到最准确的答案）。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2552