交易中的机器学习:理论、模型、实践和算法交易 - 页 185

 
尤里-雷舍托夫
不要胡说八道。在jPrediction中,我们使用了一种输入降维的算法,以避免在输出中得到一个在嘈杂或不重要的预测因子上训练的模型。也就是说,从各种具有不同预测因素组合的模型中做出选择,其中只保留具有最佳概括性的模型。

假设情况....

我们有100个潜在的预测因素,为了简单起见,让它成为指标。

假设我们最初知道所有这些预测器只有一种有利可图的情况,那就是当RCI越过90,而随机性刚刚低于零(从上限来看是自然情况) 这种情况下,价格下跌的概率为90%所有其他预测器 都是完全的噪音,RSI和随机指标预测器中所有其他情况 也是完全的噪音,有成百上千种不同的情况。...

也就是说,我们有大约0.01%的有用信号和99.9%的噪音。

假设,通过某种奇迹,你的MO拒绝了所有98个预测因子,只留下两个--RSI和随机指数。

有数百种RSI>0、RSI>13、RSI<85、RSI=0、RSI<145的情况,............由于你训练MO识别所有的价格走势,MO将建立模型 考虑到RSI和随机指标中所有可能的 情况,在这些情况下,它们发挥作用的概率几乎为零,但 MO必须考虑到它们,并用它们建立一些模型,尽管这是真正的噪音,一个工作情况将在数百个其他解决方案中丢失,这就是重新培训....。

你最终是如何得到它的?

 

你把这一切都搞混了。

有不同的、独立的问题。但它们就像房子的砖头:只有全部放在一起才能形成一个交易系统。

1.预测器的准备。这个阶段有相当多的目标和相应的工具。我故意把这个阶段的整个问题偏向于摆脱噪音,即寻找这种对这个特定目标变量有预测能力的预测器。我将描述理想。摘自一篇关于遗传学的文章。但用我自己的例子来说。

让我们把目标变量 "穆斯林"(为清晰起见)。预测器 "服装",有两个值 "长裤 "和 "裙子"。预测值 "服装 "的一部分与 "裤子 "的值明确地预测了 "男性 "类,另一部分则预测了女性。我们也有预测因素,如目标变量 "买入/卖出 "的RSI。我们都知道,指标经常说谎,但它的一部分预测了一个阶层,另一部分预测了另一个阶层。因此,我们应该寻找预测器,其中一些预测一个类别,另一些预测另一个类别。重叠(假阳性)越少,预测器的质量就越高。最理想的是 "裤子/裙子",当一个预测器可以被分成两部分而没有交集时。但这只对穆斯林有效,而对欧洲人....。

有一些算法方法(例如PCA,但不是经典的,而是有细化的),但你必须从预测器的内容开始。基于内容的考虑,人们最初应该丢弃土星环、咖啡渣和其他....。重要的不是这些预测因素的关联性。例如,我们从kotir中提取一些衍生品--它们都来自kotir,但我们提取未平仓合约、交易量......。然后由于某些原因,其他货币对、宏观经济都没有条件...

2.模型装配。这 是一个单独的问题,而第一个问题无法用所使用的模型来解决。造成混乱的原因是,很多模型算法都有一个内置的预测器选择 算法。我个人不知道有什么内置算法可以解决第一个问题。

雷舍托夫声称有这样一种内置算法。但他从未举出任何证据说明使用他的算法缺乏再培训。

第一步是强制性的。但它并不排除,甚至可能建议使用内置的预测器选择算法。但这些算法需要在第一步就免去 "咖啡渣"。

3、二元替代分类器。雷 舍托夫像往常一样,用他对三元分类器的理解混淆了这个问题。三元是指目标变量有三个值,一般来说,任何数量的定性(名义、类别)值。雷舍托夫有两个二进制,他从中得到一个工作信号,这在外汇上是非常理想的--有一个三元的买入/卖出信号。我使用一个二进制目标变量进行分类,从两个二进制分类的结果中进行交易,我得到三个信号--与雷舍托夫完全一样。

4.将几个模型的结果合并为一个交易信号 是一个单独的问题。雷舍托夫提出了一个解决方案。但在这个主题中,上面还提出了其他解决方案。Dik在上面建议,要考虑到类的衍生值。你也会遇到这个问题,特别是如果你记得分类算法给出了EVERY类的价值,而该类是由该类派生出来的。当我们把几个模型的结果凑成一个结果时,考虑到这些概率是不可避免的。有一些算法不是将这些概率除以一半,而是除以其他,这就减少了分类误差。

5.最后的模型评估。这 是我未能与伯纳科夫达成共识的地方。我们将模型 "脱离样本 "运行,"脱离 "可以理解为脱离训练、测试和交叉验证的时间区间...。这一步不是建设性的,因为它没有告诉我们该怎么做。这一步是一个判决:保留或丢弃。弃权 "的原因不是错误太多,而是其与前几步相比的变化。丢弃是因为该模型训练过度,它是无望和危险的。如果这一步被克服了,那么就继续进行测试者,从它那里得到同样的 "保留-丢弃 "结果。

 
mytarmailS:

假设情况....

...

然后,MO将建立模型,考虑到所有可能的 情况......。

当你训练MO来识别所有的价格变动时,MO...

...

MO必须将它们考虑在内,并在此基础上建立一些模型,尽管这是真正的噪音,而且一个工作情况将在数百个其他解决方案中消失,这就是过度训练的意义....。

jPrediction不一定要考虑到每一种可能的情况。它的工作原理比你编造的要简单得多。

顺序选择预测因子的原则(不是你想编造的完全列举的组合)可在我的帖子 中找到。109

如果你有健忘症,让我提醒你,你已经阐明了P上 预测因子的选择顺序。110

 

桑桑尼茨-弗门科

雷舍托夫像往常一样, 用他对三元分类器的理解混淆了这个问题

...

我使用一个二进制目标变量进行分类,要从两个二进制分类的结果中进行交易,我得到三个信号--与雷舍托夫完全一样


雷舍托夫不是一个无赖吗?

他把问题搞得很混乱,现在连福明科也不得不像雷谢托夫那样做。

舒里克-舒里科维奇,从架子上拿个派。毕竟,在批评萝卜和坏人的领域,你已经诚实地赢得了它 - Reshetov。

 
尤里-雷舍托夫

j预测不一定要考虑每一种可能的情况。它的工作原理比你编造的要简单得多。

顺序选择预测因子的原则(而不是像你试图编造的那样完全列举组合)在我的帖子 中,第1页。109

如果你有健忘症,让我提醒你,你已经明确了在P上 选择预测因子的顺序。110

我在谈论为什么IO(任何)不能正确选择功能,而你在谈论绿色...

 
mytarmailS:

我说的是为什么MO(任何)不能正确采样的特点,而你说的是绿色...

jPrediction在剔除预测因子方面表现良好。可能不是最理想的方法,但对于应用任务来说是可以的。很可能还没有达到完美的极限,还有进一步研究的潜力?最重要的是,有一个积极的结果,你可以开始跳舞。

重点是,不要把你自己的偏见投射到任何 机器学习方法上(不仅仅是在MO领域)。

如果某件事对你不起作用,而同样的事情对其他人起作用,这并不意味着没有正常的方法。这只意味着你没有使用这些正常的方法,或者由于一些个人偏见,你不正确地使用这些方法。

 
尤里-雷舍托夫

这个雷谢托夫不是个无赖吗?

他把问题搞得很混乱,以至于现在连福明科都不得不完全按照雷舍托夫的做法来做。

舒立克-舒立克维奇,从架子上拿个馅饼。你在批评一个萝卜头和坏人的领域里老老实实地活该--雷舍托夫。

冷静下来。

我从来没有想过要侮辱你个人,因为我们是同一血统。

但你的 "围观 "对我来说是不可否认的兴趣。

事情是这样的。关于二进制的例子。

假设一个等级的概率是0.49,第二个等级的概率是0.51。是两个等级还是 "在围栏上"?

 
尤里-雷舍托夫

最笨的和最没有前途的三元自行车,尽管在实现上是最原始的:这是一个有三个输出的ANN。如果每个这样的输出都有自己的分类阈值,那么它们就有不是三个而是八个潜在的可能状态,其中只有三个是明确的(在三个输出中只有一个值高于阈值),五个不清楚如何解释(在一个以上的输出中高于阈值,或在所有三个输出中低于阈值)。

要对所有东西进行分类就简单多了,通常是取值最高的输出。如果三个输出的结果是(0.1;0.3;0.2),那么最大的值=0.4,2号输出是激活的。
交易模型可以有这样的逻辑。
第一次出场时的最高值 -> 多头头寸。
第二个退出的最高值 -> 退出所有交易,不做交易。
在第三个出口的最高值 -- -- 空头头寸。
就是这样,没有门槛,没有州,等等。

这根本不是自行车,而是在神经元学中,当需要两个以上的类时,经常使用的一种分类方法,所以在对图像进行分类时,例如,至少可以有几十个类。
一个输出,中间有一个阈值,对两个类来说就足够了。
 

Dr.Trader:

交易模式可以有这样的逻辑。


  • 第一次出场时的最高值 -> 多头头寸。
  • 第二个出场的最高值 -> 退出所有交易,不做交易。
  • 第三次出场的最高值----------空头。


就是这样,没有门槛,没有州,等等。

也是一种选择。虽然不确定这样一个琐碎的方法是否能给人以正常的可推广性。有时简单比偷窃更可怕。也就是说,有必要根据经验进行检查--尸检会显示。
 
桑桑尼茨-弗门科

假设一类的概率是0.49,二类的概率是0.51,那是两类还是 "围观"?

因为冰激凌。

对不起,但问题如此,答案也如此。

也就是说,我不理解这种幽默,因为要做出决定,你必须将分类器的输出值与某种东西进行比较,例如与一个阈值进行比较。由于在你对问题的表述中,由于某种原因,可比值是未知的,而只有那些对分类没有必要的值是已知的,所以最好是进行澄清。

原因: