交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2016.10.29 11:22 #1841

尤里-雷舍托夫。
不要胡说八道。在jPrediction中，我们使用了一种输入降维的算法，以避免在输出中得到一个在嘈杂或不重要的预测因子上训练的模型。也就是说，从各种具有不同预测因素组合的模型中做出选择，其中只保留具有最佳概括性的模型。

假设情况....

我们有100个潜在的预测因素，为了简单起见，让它成为指标。

假设我们最初知道所有这些预测器只有一种有利可图的情况，那就是当RCI越过90，而随机性刚刚低于零（从上限来看是自然情况）。 这种情况下，价格下跌的概率为90%，所有其他预测器都是完全的噪音，RSI和随机指标预测器中所有其他情况也是完全的噪音，有成百上千种不同的情况。...

也就是说，我们有大约0.01%的有用信号和99.9%的噪音。

假设，通过某种奇迹，你的MO拒绝了所有98个预测因子，只留下两个--RSI和随机指数。

有数百种RSI>0、RSI>13、RSI<85、RSI=0、RSI<145的情况，............由于你训练MO识别所有的价格走势，MO将建立模型，考虑到RSI和随机指标中所有可能的 情况，在这些情况下，它们发挥作用的概率几乎为零，但 MO必须考虑到它们，并用它们建立一些模型，尽管这是真正的噪音，一个工作情况将在数百个其他解决方案中丢失，这就是重新培训....。

你最终是如何得到它的？

СанСаныч Фоменко 2016.10.29 11:57 #1842

你把这一切都搞混了。

有不同的、独立的问题。但它们就像房子的砖头：只有全部放在一起才能形成一个交易系统。

1.预测器的准备。这个阶段有相当多的目标和相应的工具。我故意把这个阶段的整个问题偏向于摆脱噪音，即寻找这种对这个特定目标变量有预测能力的预测器。我将描述理想。摘自一篇关于遗传学的文章。但用我自己的例子来说。

让我们把目标变量 "穆斯林"（为清晰起见）。预测器 "服装"，有两个值 "长裤 "和 "裙子"。预测值 "服装 "的一部分与 "裤子 "的值明确地预测了 "男性 "类，另一部分则预测了女性。我们也有预测因素，如目标变量 "买入/卖出 "的RSI。我们都知道，指标经常说谎，但它的一部分预测了一个阶层，另一部分预测了另一个阶层。因此，我们应该寻找预测器，其中一些预测一个类别，另一些预测另一个类别。重叠（假阳性）越少，预测器的质量就越高。最理想的是 "裤子/裙子"，当一个预测器可以被分成两部分而没有交集时。但这只对穆斯林有效，而对欧洲人....。

有一些算法方法（例如PCA，但不是经典的，而是有细化的），但你必须从预测器的内容开始。基于内容的考虑，人们最初应该丢弃土星环、咖啡渣和其他....。重要的不是这些预测因素的关联性。例如，我们从kotir中提取一些衍生品--它们都来自kotir，但我们提取未平仓合约、交易量......。然后由于某些原因，其他货币对、宏观经济都没有条件...

2.模型装配。这 是一个单独的问题，而第一个问题无法用所使用的模型来解决。造成混乱的原因是，很多模型算法都有一个内置的预测器选择算法。我个人不知道有什么内置算法可以解决第一个问题。

雷舍托夫声称有这样一种内置算法。但他从未举出任何证据说明使用他的算法缺乏再培训。

第一步是强制性的。但它并不排除，甚至可能建议使用内置的预测器选择算法。但这些算法需要在第一步就免去 "咖啡渣"。

3、二元替代分类器。雷 舍托夫像往常一样，用他对三元分类器的理解混淆了这个问题。三元是指目标变量有三个值，一般来说，任何数量的定性（名义、类别）值。雷舍托夫有两个二进制，他从中得到一个工作信号，这在外汇上是非常理想的--有一个三元的买入/卖出信号。我使用一个二进制目标变量进行分类，从两个二进制分类的结果中进行交易，我得到三个信号--与雷舍托夫完全一样。

4.将几个模型的结果合并为一个交易信号 是一个单独的问题。雷舍托夫提出了一个解决方案。但在这个主题中，上面还提出了其他解决方案。Dik在上面建议，要考虑到类的衍生值。你也会遇到这个问题，特别是如果你记得分类算法给出了EVERY类的价值，而该类是由该类派生出来的。当我们把几个模型的结果凑成一个结果时，考虑到这些概率是不可避免的。有一些算法不是将这些概率除以一半，而是除以其他，这就减少了分类误差。

5.最后的模型评估。这 是我未能与伯纳科夫达成共识的地方。我们将模型 "脱离样本 "运行，"脱离 "可以理解为脱离训练、测试和交叉验证的时间区间...。这一步不是建设性的，因为它没有告诉我们该怎么做。这一步是一个判决：保留或丢弃。弃权 "的原因不是错误太多，而是其与前几步相比的变化。丢弃是因为该模型训练过度，它是无望和危险的。如果这一步被克服了，那么就继续进行测试者，从它那里得到同样的 "保留-丢弃 "结果。

Yury Reshetov 2016.10.29 12:06 #1843

mytarmailS:

假设情况....

...

然后，MO将建立模型，考虑到所有可能的 情况......。

当你训练MO来识别所有的价格变动时，MO...

...

但 MO必须将它们考虑在内，并在此基础上建立一些模型，尽管这是真正的噪音，而且一个工作情况将在数百个其他解决方案中消失，这就是过度训练的意义....。

jPrediction不一定要考虑到每一种可能的情况。它的工作原理比你编造的要简单得多。

顺序选择预测因子的原则（不是你想编造的完全列举的组合）可在我的帖子中找到。109

如果你有健忘症，让我提醒你，你已经阐明了P上预测因子的选择顺序。110

Yury Reshetov 2016.10.29 12:13 #1844

桑桑尼茨-弗门科。

雷舍托夫像往常一样， 用他对三元分类器的理解混淆了这个问题。

...

我使用一个二进制目标变量进行分类，要从两个二进制分类的结果中进行交易，我得到三个信号--与雷舍托夫完全一样。

雷舍托夫不是一个无赖吗？

他把问题搞得很混乱，现在连福明科也不得不像雷谢托夫那样做。

舒里克-舒里科维奇，从架子上拿个派。毕竟，在批评萝卜和坏人的领域，你已经诚实地赢得了它 - Reshetov。

mytarmailS 2016.10.29 12:21 #1845

尤里-雷舍托夫。

j预测不一定要考虑每一种可能的情况。它的工作原理比你编造的要简单得多。

顺序选择预测因子的原则（而不是像你试图编造的那样完全列举组合）在我的帖子中，第1页。109

如果你有健忘症，让我提醒你，你已经明确了在P上选择预测因子的顺序。110

我在谈论为什么IO（任何）不能正确选择功能，而你在谈论绿色...

Yury Reshetov 2016.10.29 12:28 #1846

mytarmailS:

我说的是为什么MO（任何）不能正确采样的特点，而你说的是绿色...

jPrediction在剔除预测因子方面表现良好。可能不是最理想的方法，但对于应用任务来说是可以的。很可能还没有达到完美的极限，还有进一步研究的潜力？最重要的是，有一个积极的结果，你可以开始跳舞。

重点是，不要把你自己的偏见投射到任何机器学习方法上（不仅仅是在MO领域）。

如果某件事对你不起作用，而同样的事情对其他人起作用，这并不意味着没有正常的方法。这只意味着你没有使用这些正常的方法，或者由于一些个人偏见，你不正确地使用这些方法。

СанСаныч Фоменко 2016.10.29 12:41 #1847

尤里-雷舍托夫。

这个雷谢托夫不是个无赖吗？

他把问题搞得很混乱，以至于现在连福明科都不得不完全按照雷舍托夫的做法来做。

舒立克-舒立克维奇，从架子上拿个馅饼。你在批评一个萝卜头和坏人的领域里老老实实地活该--雷舍托夫。

冷静下来。

我从来没有想过要侮辱你个人，因为我们是同一血统。

但你的 "围观 "对我来说是不可否认的兴趣。

事情是这样的。关于二进制的例子。

假设一个等级的概率是0.49，第二个等级的概率是0.51。是两个等级还是 "在围栏上"？

Dr. Trader 2016.10.29 12:59 #1848

尤里-雷舍托夫。

最笨的和最没有前途的三元自行车，尽管在实现上是最原始的：这是一个有三个输出的ANN。如果每个这样的输出都有自己的分类阈值，那么它们就有不是三个而是八个潜在的可能状态，其中只有三个是明确的（在三个输出中只有一个值高于阈值），五个不清楚如何解释（在一个以上的输出中高于阈值，或在所有三个输出中低于阈值）。

要对所有东西进行分类就简单多了，通常是取值最高的输出。如果三个输出的结果是（0.1;0.3;0.2），那么最大的值=0.4，2号输出是激活的。
交易模型可以有这样的逻辑。
第一次出场时的最高值 -> 多头头寸。
第二个退出的最高值 -> 退出所有交易，不做交易。
在第三个出口的最高值 -- -- 空头头寸。
就是这样，没有门槛，没有州，等等。

这根本不是自行车，而是在神经元学中，当需要两个以上的类时，经常使用的一种分类方法，所以在对图像进行分类时，例如，至少可以有几十个类。
一个输出，中间有一个阈值，对两个类来说就足够了。

Yury Reshetov 2016.10.29 13:14 #1849

Dr.Trader:

交易模式可以有这样的逻辑。

第一次出场时的最高值 -> 多头头寸。
第二个出场的最高值 -> 退出所有交易，不做交易。
第三次出场的最高值----------空头。

就是这样，没有门槛，没有州，等等。

也是一种选择。虽然不确定这样一个琐碎的方法是否能给人以正常的可推广性。有时简单比偷窃更可怕。也就是说，有必要根据经验进行检查--尸检会显示。

Yury Reshetov 2016.10.29 13:34 #1850

桑桑尼茨-弗门科。

假设一类的概率是0.49，二类的概率是0.51，那是两类还是 "围观"？

因为冰激凌。

对不起，但问题如此，答案也如此。

也就是说，我不理解这种幽默，因为要做出决定，你必须将分类器的输出值与某种东西进行比较，例如与一个阈值进行比较。由于在你对问题的表述中，由于某种原因，可比值是未知的，而只有那些对分类没有必要的值是已知的，所以最好是进行澄清。

交易中的机器学习：理论、模型、实践和算法交易 - 页 185