交易中的机器学习：理论、模型、实践和算法交易

Andrey Dik 2016.10.21 11:33 #1711

桑桑尼茨-弗门科。

PS。

对于MCL的热心支持者，我注意到，如果没有这个话题中讨论的所有这些行动和工具，测试者根本没有理由去猜测交易系统的未来行为。测试者说："这些是这个时间段的结果"。这就是全部。测试者正好给出一个数字，例如，与某一历史时期有关的利润系数。而你只能在R中获得统计数据。而测试员是模型设计的最后部分，但不能代替整个开发过程。

胡说八道，一派胡言!

测试人员会准确地给出那么多，以及要求的内容。你问了利润因素吗？- 这里是利润因素。如果我们要求别的东西或几个，也会有一个答案。而统计数据可以通过在OnTester() 中调用TesterStatistics() 获得，所有这些都已经有很长一段时间了。如果需要，可以添加任何其他的统计资料。

如果你什么都没有或者不知道该问什么，你的R也将无法回答。

Alexey Burnakov 2016.10.21 12:03 #1712

Dr.Trader:

例如，你对一个延迟的样本进行了验证。假设递延数据上的模型已经合并了。在这种情况下，你会怎么做？如果你开始再次调整参数，以通过对待定样本的验证，你基本上是把待定样本的数据包括在你的交叉验证中，交叉验证也会变成调整的。这可以通过增加一个新的递延样本来加以纠正。如果模型在这方面也失败了怎么办？我们是否也应该调整参数以通过新的延迟采样？这是一场无休止的比赛。

在交叉验证中包括一个递延样本，并创建一个新的递延样本并不是答案，而是一个无休止的循环，直到你运气好，模型刚好通过递延验证。然后你可以停下来，但这不是一个外汇解决方案，这只是运气向你微笑，然而从统计学上看，这将是一种消耗。

所以问题是--假设待定数据上的模型已经暴跌了。在这种情况下，你会怎么做？

Dr.Trader，我将尝试用图片来解释。别担心，这是一个复杂的问题，但它可以解决。你不应该按照你的建议去做，否则会出现恶性循环。

还有一件事，我将逐步总结这个主题的活动。我已经厌倦了论坛。最好是在私下里和有实例的情况下。

所以。

噪声时间序列预测和交易的模型选择

一步一步来。

学习模型--模型显示出颗粒状的特征

对一个模型的测试--模型的性能已经明显变差。但也有一些模型工作良好。

这是你需要选择模型的时候了。你和我选择在测试中表现更好的模型（它们可能是交叉验证中的验证块）。而且马上就会发现，如果我们按期选择一个模型，在其特征已经知道的情况下，我们是在做一个乐观的选择。

如果我们有交叉验证（不同模型的数据是混合的），我们不能让他们成为测试的委员会（测试是混合的）。相反，你在测试中采取选定的 "最佳 "模型，并在一个延迟的样本上进行测试。我们期望看到的是什么？由于在实际应用中，我们将依赖于模型在交叉验证区块（或单一测试，如果我们不想麻烦交叉验证）上的表现，我们需要知道所选的最佳模型是否会在未来（在递延样本1上）显示类似的表现。如果有关系，就已经非常好了。实质上，我们可以在这一点上停止研究，并在未来通过交叉验证选择最佳模型。

但是，如果我们仍然想成立一个委员会，我们必须弄清楚为委员会选择哪些模式。我们在延迟的样本1上这样做，但不是随机的。我们再次提醒，在现实生活中，我们将只依靠测试数据（我们可以得到的最新数据）。因此，我们将把在测试中显示出最佳结果的模型逐一纳入委员会。我们最大限度地提高委员会在延迟样本上的表现。

在这一点上，你会受到多重模型选择偏差的影响，因为我们是在已经知道其特征的数据上评估委员会的选择。

需要最后的样本来验证委员会。

如果在对延迟样本验证所选模型（测试上）的步骤中，我们看到模型的特征是浮动的--这已经是致命的，因为我们没有机会在测试上选择模型。在这一步，我们需要改变一些方法。

如果集合的委员会在最后一个推迟的样本上暴跌（这是一个一次性的测试），那么委员会对前一个样本的拟合已经发生。

用不同的参数重复整个过程，在最后的递延样本上实现charact.的最大化是不可能的，因为这也是一种乐观的模型选择。

如果在推迟的样本中甚至一切都运作良好（即我们最大限度地减少了模型选择偏差），一般来说，用相同的参数循环重复整个过程，并在最后一个样本中得到委员会的工作分布是很好的。很明显，每次我们都需要不同的（至少是部分）数据。而这已经非常昂贵了...

请记住这个计划。它将你对实时交易的估计引向一个可能的绝对值。

Mihail Marchukajtes 2016.10.21 14:43 #1713

在过去，当Neurochel还很年轻和容易获得时，使用的是纸质交易。我希望每个人都知道这是什么，但在实时工作时，TS开始泄漏，然后决定不使用一块纸质交易，并训练网络，同时留下一块真实来评估网络的正确性。我目前正在做以下工作：我删除了一天，就成交量和未平仓合约而言，这是最后的一天。对于什么????，你经常看到这样的图表，在优化后的初期，TS暴跌了一点，然后开始给出相当好的信号。因此，这就是为什么我删除了一个已经知道的日子，而TS就像从第二天开始交易一样....。我变得相当好，当然不是没有错误，但对利润来说还是可以接受的......

J.B 2016.10.21 14:58 #1714

Mihail Marchukajtes:

都是真的，但这种模式是很有胡子的，大家都知道了很久了，所以......。

而现在最简单的分类器也会发现，对于一个系列来说，这种对价格、成交量和OI的解释是不够的，你至少需要一个订单簿和一个带有交易方向的条子，而对于外汇来说，因为这些信息是不存在的，必须从西方的流动性期货市场中获取。

Mihail Marchukajtes 2016.10.21 15:06 #1715

你有没有想过，如果网络正在喂养未来的模式呢？问题是如何找到它们，你应该选择哪一天来训练网络，以便知道在这一天这些模式会出现。这里是答案。我们分别选择有当前成交量和OM的日子，希望这一天的背景与训练样本中的那些日子相似。我不把成交量和OI的值发送到网络的输入端，我只选择这些天，输入端是AD、Zscore、Kelli等。换句话说，我们的想法是在历史上选择这样一套模式，以及市场对它们的反应，就像在今天。如果有关于使用其他技术进行这种选择的理论，我很想听听....。

J.B 2016.10.21 17:01 #1716

BlackTomcat:
聪明的人，他们开发和训练神经网络，但看不到简单的东西。我读了你的帖子，感到相当惊讶。如果我理解正确的话，大致上，你已经找到了在某个高点之后所有0.2%的价格跌幅，然后在那个高点附近取了三个蜡烛图，对它们的价格进行了一些操作，最后用神经网络将它们降低到一定的概率。但请原谅，你不觉得这样的方法太原始了吗？:)你在所有错误的地方进行挖掘。这就是为什么其结果与现实相反。我想这样描述你的方法：你试图从一张全高清图片中抽取3个像素，根据这3个像素，你可以对整个图片做出一个概念。好吧，不是整个画面，但正确预测至少10%的图像区域的概率是多少？我希望我的例子是清楚的。你不需要看像素就能看到画面。换句话说，你不需要看个别条形图来理解图表，你需要看整个图表 。而问题的解决更多在于几何学领域，而不是代数、物理学或生物学，例如。虽然，当我读到这里的人们所做的一些研究时，我有一种强烈的感觉，他们正试图用地理学来理解人类结构。:)

+1

我甚至不会说 "图"，但图除了不只是价格，还有...

关于3像素和高清的比喻，在我看来与大多数人在这里做的事情非常相关。

J.B 2016.10.21 17:14 #1717

安德烈-迪克

甚至有人会说，"你就是不知道怎么做饭的MO！"- 可能是的，我不能。但谁知道怎么做呢？谁已经能够在市场上使用MO？

而且你不是一个人在战斗，这是正常的，不正常的是当它工作和这样做不出售 "成功交易 "的课程，不从事伙伴关系和其他废话，并敲打像https://www.rentec.com/Jobs.action?data=true，如果没有欲望，麻烦筹集资本的算法交易的地方）)

Renaissance Institutional

www.rentec.com

RENAISSANCE TECHNOLOGIES, a quantitatively based financial management firm, has openings for programming positions at its Long Island, NY research center. Programming Opportunity We are looking for bright, outstanding programmers who are interested in working in a stimulating and academic environment to implement and support software used in...

Mihail Marchukajtes 2016.10.21 17:27 #1718

同样，我坚信，为了使NS发挥作用，需要对交易期间（一天、一周）会出现的模式进行训练，最重要的是，市场对这些模式的反应必须与训练期间相同。然后，任何perseptron都能完成工作。问题是如何选择将在下一个交易日或周的过程中的确切模式集?????。下面是它的做法，如果网络是在未来的模式上训练的，你就不需要发明一个超级复杂的NS或其他东西....。

J.B 2016.10.21 17:36 #1719

Mihail Marchukajtes:
你有没有想过，如果我们用未来的模式来喂养这张网会怎么样？问题是如何找到他们。我应该选择哪些日子来教网络知道他们会在这一天出现？这里是答案。我们分别选择有当前成交量和OM的日子，希望这一天的背景与训练样本中的那些日子相似。我不把成交量和OI的值发送到网络的输入端，我只选择这些天，输入端是AD、Zscore、Kelli等。换句话说，这个想法是在历史和市场对它们的反应上选择这样一套模式，就像在今天一样。如果有关于使用其他技术进行这种选择的理论，我很想听听....。

这正是它的做法，否则怎么能做到呢？在琐碎的情况下，训练数据集是量价和OI的归一化增量的向量序列，我们称向量集[][]为神经网络或其他分类器输入=向量集 [t][]，教输出=向量集 [t+1][]

如果我对这个问题的理解是正确的...

J.B 2016.10.21 17:42 #1720

Mihail Marchukajtes:
问题是如何准确地选择那一组模式，在下一个交易日或周?????。

不幸的是，我没有这个权利，坦率地说，我不想再深入下去了，因为我们在互相偷钱))))。但是2年前，当我在使用SAM时，我在神经网络的输入处处理了500多个芯片，并有大约30个输出，但时间流逝......;)

交易中的机器学习：理论、模型、实践和算法交易 - 页 172