交易中的机器学习:理论、模型、实践和算法交易 - 页 2552

 
Vladimir Perervenko#:

使用预测器还有一个问题--它们的漂移。

按照我的理解,漂移与非平稳性是一样的吗?

如果我们训练一个模型,将价格作为输入,并输出一系列与价格相关的统计数据,会怎么样?你试过这样的东西吗?

 
Vladimir Perervenko#:

使用预测器还有一个问题--它们的漂移。而这个问题在测试和运行中都需要被识别和考虑到。在附录中有一篇文章的翻译(在网上寻找其他文章),还有一个漂移者 包。它不是唯一的。但问题是,在选择预测器时,你不仅需要考虑它们的重要性,还需要考虑它们的漂移。对于高漂移者,我们抛弃或改造它们,对于低漂移者,我们应该在测试和操作中考虑(纠正)它们。

我同意,非平稳性(漂移)使事情变得非常复杂。不幸的是,这比垃圾邮件的例子要复杂得多。但有必要将其考虑在内。

 
elibrarius#:
蜡烛的颜色,即使有30%的误差,也会成为一个失败者。我们不知道我们可能从中获得多少利润......在价格的缓慢移动中(隔夜),颜色通常是很好猜测的,1支未猜测的强势日间蜡烛可能抵得上10支小的夜间蜡烛。我认为猜测烛台的颜色又是一种随机输出(由于随机尺寸)。
这就是为什么我用TP、SL做了分类。如果它们是相等的,那么52%的成功交易已经获利。如果TP=2*SL。那么>33%的成功交易将是盈利的。我最好的成绩是在2年多的时间里,TP=SL的交易成功率为52-53%。但总的来说,我在考虑使用固定TP/SL的回归。更准确地说,以某种方式对回归进行分类。

是的,这提醒了我,我认为这样的目标似乎不太有效,因为它没有考虑到波动性。

我认为几乎每个柱子都要开仓以准备样本,这样的假设是否正确?

 
SanSanych Fomenko#:

原则上,没有也不可能有数学方法能将垃圾变成糖果。要么 一组预测因素可以预测教师,要么 没有

而模型实际上并没有发挥任何作用,交叉验证和其他计算密集型的变态行为也是如此。


PS。

顺便说一下,模型中预测因子的 "重要性 "与预测教师的能力无关。

你大错特错了--没有完美的模型建立方法能够自行选择 "正确的 "预测因素。或者这样的我不知道。

也许你不能完美地描述市场,但通过应用抽样和预测器分析,你可以大大改善模型的结果,尽管要对训练的数据进行窥视。

问题是在应用模型时如何有效地选择预测因子并控制其异常变化。

 
Vladimir Perervenko#:

处理噪声样本有三个选项:删除、重新分区(纠正标记)和将噪声样本分离出来,成为一个单独的类。根据我的经验,大约25%的样本是 "噪音"。质量改进约为5%,它取决于模型和数据准备。我偶尔会应用它。

使用预测器时还有一个问题--它们的漂移。而这个问题在测试和运行中都必须被识别和考虑到。所附的文章翻译(在网上找其他的),还有一个漂流瓶 的包装。它不是唯一的。但问题是,在选择预测器时,你不仅需要考虑它们的重要性,还需要考虑它们的漂移。对于高漂移者,要抛弃或改造,对于低漂移者,在测试和工作时要考虑到它们(进行修正)。

祝好运

根据我的理解,文章的作者建议精确分析预测值在窗口上的分布,如果它有很大的不同,那么就发出异常的信号。如果我理解正确的话,这个例子采取了一个1000个指标的窗口--这是一个很大的窗口,但显然在统计学上是可以辩护的。问题,用什么指标来比较两个分布,以检测它的显著变化?

进一步思考,变化本身可能被其他一些预测因素所预测,比方说我们有一个由利率变化引起的全球周数趋势变化--在所有的样本中,这样的变化很少--让3和模型可能根本没有捡到这些预测因素,但如果我们把这两个预测因素结合起来,"异常 "变化就可以解释。因此,我得出的观点是,漂移本身并不是丢弃一个预测器的理由,而是寻找解释它的因素的理由--即试图找到一个相关的预测器,并将它们结合起来,创造一个新的预测器。

反过来,我将简单说说我的方法--我把预测者分成 "量子"(片段),并通过其预测能力估计量子的二元反应。通过对历史上这种估计的横断面,我设法挑选出好的量子集,可以作为个人预测器,也可以用来选择基线预测器。这种方法也改善了结果。相应地,在控制样本上对量子行为的稳定性估计,以及它们的选择,基本上可以改善CatBoost中模型训练的结果,在这里我想知道是否允许使用它,或者它已经是自取灭亡。

 
Aleksey Vyazmikin#:

是的,这提醒了我,我不认为目标定位是非常有效的,因为它没有考虑到波动性

我同意。在晚上,一笔交易会悬挂几个小时,而在白天,它可能在5分钟内结束。所以我在想如何在分类中附加一个回归模型。我不能 "用棍子 "预测数字0、1、2。我们需要更聪明的东西。

我是否正确地理解为几乎每一个柱子都要开仓,以准备一个样本?

是的,如果有一个预测的买/卖类。还有一个类--等待。

 
elibrarius#:

我同意。一笔交易在晚上会挂几个小时,但在白天,可能5分钟就结束了。这就是为什么我想知道如何在分类中附加一个回归模型。我不能 "用棍子 "预测数字0、1、2。我们需要更聪明的东西。

逻辑回归
 
SanSanych Fomenko#:

我有几年没上论坛了,它还在那里,就像歌里唱的那样:"你曾经是什么,你一直是什么,草原雄鹰,潇洒哥萨克......"。

统计学以一个公理开始,作为一个公理,它没有被讨论。


"垃圾进,垃圾出"。


原则上,没有也不可能有能从垃圾中获得甜头的数学方法。要么 一组预测因素可以阻止教师,要么 没有

而模型实际上并没有发挥任何作用,交叉验证和其他计算密集型的变态行为也是如此。


PS。

顺便说一下,模型中预测因子的 "重要性 "与预测教师的能力没有任何关系。

总有一些人像苏霍夫同志一样,认为:"当然,最好是酷刑")

我同意,找到正确的预测因素比具体的模型更重要。而且,最好是主要基于对主题领域的研究来构建它们,而不是仅仅依靠MO算法的力量(并以一种无法解释的方式从条条框框中构建预测器)。

与预测器同样重要的是损失函数,它必须与主题领域和要解决的问题完全匹配。

 
我甚至不知道用AMO工作是否可以称为寻找模式,相反,它是对目标函数的简单近似/拟合。
AMO能否想出一些巧妙的办法?
 
mytarmailS#:
AMO能想出一些巧妙的办法吗?

不,它是一个记忆历史的数据库。什么是树上的叶子?10-20-100-1000个过去的例子/字符串,以某种方式被选为类似。片面回答:对于分类--最常出现的类别的百分比或只是最常出现的类别,对于回归--所有数值的算术平均值。

此外,如果是森林,它是森林中所有树木价值的平均数。如果是提升,它对所有树的值进行加总(每一棵连续的树都会修正之前所有树的总和以得到最准确的答案)。