交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2018.07.08 19:11 #10111

阿列克谢-潘菲洛夫。

非常有趣，你能详细介绍一下测量预测能力 吗？

而最重要的是，该如何衡量？

我写过东西，给过图表，贴过代码--杂工把所有东西都埋在这1000页里......

懒得重复。这里用得最多的是vtreat，我没有用它。最主要的是思考这个话题，抛弃其他一切。

Vladimir Perervenko 2018.07.09 10:34 #10112

阿列克谢-维亚兹米 金。

所以你没有提出ZZ的设置应该是什么的问题？

ZZ参数对每个工具和时间框架都是不同的。例如，对于欧元兑美元M15，一个好的初始值是15点（4位数）。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此，拥有非参数预测器是可取的，它使你的生活更容易。因此，数字滤波器显示出良好的效果。使用集合和级联组合，我得到的平均准确度=0.83。这是一个非常好的结果。明天我将发送一篇文章供核实，其中描述了这个过程。

祝好运

СанСаныч Фоменко 2018.07.09 10:59 #10113

弗拉基米尔-佩雷文科。

ZZ参数对每个工具和时间框架都是不同的。例如，对于欧元兑美元M15，一个好的初始值是15点（4位数）。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此，拥有非参数预测器是可取的，它使你的生活更容易。在这种能力下，数字滤波器显示出良好的效果。使用集合和级联组合，我得到的平均准确度=0.83。这是一个非常好的结果。明天我将给你发一篇文章供你核实，其中描述了这个过程。

祝好运

极其有趣。期待着它。

Женя 2018.07.09 14:25 #10114

圣杯。

如果你能按当前日期分享你2004年的买入和卖出行，我会尝试，我通常学习1-3年，测试20-30%。

数据集、Lern和测试以及来自Ducas的原始系列。

漂亮的曲线 :)但这不太可能让人感兴趣，不清楚是什么样的软件，你是如何计算出这个曲线的。在你的数据集上，我得到的准确率不超过52%，顺便说一下，你在芯片前结束了标记，我在我的数据中切断了它们。我需要添加更多的削减价格，你从其中得到lern和测试，然后在bulltester上运行分类器的结果。

PS：事实上，任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间，在一个封闭的algotrading小组中，有一个有趣的想法，即商定一个接口，用于交换C++ dll中的现成模型（反正所有algotraders和machineliners都在使用），将json中的一堆行作为输入，然后用新数据（烛台、刻度、tickans等）进行补充，并显示预测结果。简而言之，这个想法是交换某种标准化的 "黑匣子"，然后当未来到达时，在测试器上，当数据可用时，可以进行检查。这是了解模型是否工作的唯一方法，好吧，你也可以使用web-api，但为此保留一个VPN很麻烦，尤其是在有很多模型的情况下。但所有这些准确率数字、夏普比率等并不意味着什么，有100500种不自觉符合的方式和同样多的自觉符合的方式，没有人会理解它，你需要更多的既成证据。

forexman77 2018.07.09 14:25 #10115

马克西姆-德米特里耶夫斯基。

如果你有分类，你可以用相对分类误差或logloss（交叉熵）来估计，如果回归，rmse就可以了。你也可以测量跟踪和测试的误差差，并达到最小的差异。

只是设置的选择是为了使traine、validation和test在预测类中有大致相同的分离。

只是这一切，一个森林即使是浅层的树木也很容易被过度训练，当然，如果树木被创造成纯粹的树叶，就会有更大的概率出现过度训练。

那么，如何才能避免这种情况呢？好吧，我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。

我们的想法是采取ROC_AUC，如果预测器中有好的东西，横轴上的数值应该停止增长。但在翻阅了所有的资料后，我没有找到任何资料。

严格意义上的平线是往上画的。

但这些指标都不会按历史推动市场上涨，当然不会）。

我曾多次尝试，但印象不深。

[删除] 2018.07.09 14:28 #10116

forexman77:

只需选择设置，使受训者、验证和测试的预测类的分割大致相同。

只是这一切有什么意义呢？一个森林即使是浅层的树木也很容易被过度训练，当然，如果树木被创造到纯叶子，会有更高概率的过度训练。

那么，如何才能避免这种情况呢？好吧，我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。

我们的想法是采取ROC_AUC，如果预测器中有好的东西，横轴上的数值应该停止增长。但在翻阅了所有的资料后，我没有找到任何资料。

严格意义上的平线是往上画的。

但没有任何指标会按历史规律推动市场上涨）。

如果验证图上的错误与跟踪图上的错误相同，那么一切都应该正常。很明显，它并不

forexman77 2018.07.09 14:40 #10117

马克西姆-德米特里耶夫斯基。

如果valid.部分的错误与受训者的错误相同，那么一切都应该正常。很明显，你不知道。

嗯，不完全相同，接近。如果完全相同，那就是一棵深度为三的树，图片是给的。

选择了深度15，这或多或少显示了测试的结果。

大约20分钟后，我将公布各班级的情况。

forexman77 2018.07.09 15:15 #10118

深度三。

[[8010 7122]
 [7312 8410]]
трайн наоборот

[[8026 7105]
 [7209 8512]]
трайн 

[[5538 5034]
 [5117 5395]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).

深度15。

[[7667 7464]
 [7227 8494]]
трайн наоборот

[[14430   702]
 [  661 15061]]
трайн 

[[5405 5167]
 [4958 5554]]
тест

同时，虽然深度15明显导致了过度训练，但有了它，前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。

前锋。

15

3

事实证明，要预测你要找的类的标签，比负数多4-6%。

Ivan Negreshniy 2018.07.09 15:19 #10119

吉安尼。

漂亮的曲线 :)但这不太可能让人感兴趣，不清楚是什么样的软件，你是如何计算出这个曲线的。在你的数据集上，我得到的准确率不超过52%，顺便说一下，你的标记在芯片之前就结束了，我在我的数据中修剪了它们。我需要添加更多的削减价格，你从其中得到lern和测试，然后在bulltester上运行分类器的结果。

PS：事实上，任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间，在一个封闭的algotrading小组中，有一个有趣的想法，即商定一个接口，用于交换C++ dll中的现成模型（反正所有algotraders和machineliners都在使用），将json中的一堆行作为输入，然后用新数据（烛台、刻度线、tickans等）补充，并显示预测结果。简而言之，这个想法是要交换某种标准化的 "黑匣子"，然后在未来到来时，在测试者身上，当数据可用时，可以进行测试。这是了解模型是否工作的唯一方法，好吧，你也可以使用web-api，但为此保留一个VPN很麻烦，尤其是在有很多模型的情况下。而所有这些数字，准确度，夏普比率等并不意味着什么，有100500种不自觉调整的方法，也有同样多的自觉调整的方法，没有人会理解它，你需要更好的证据。

在训练和测试数据样本的开始，有一些空的特征单元，可能是没有足够的历史来计算它们，而算法没有控制这一点，所以为了正确的工作，它们也应该被删除。

如果不是一个秘密，这个小组在哪里，是否可以在那里寻找？

[删除] 2018.07.09 15:23 #10120

forexman77:

深度三。

深度15。

同时，虽然深度15明显导致了过度训练，但有了它，前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。

前锋。

15

3

我认为你需要减少交易的数量，似乎在每一个柱子上...

交易中的机器学习：理论、模型、实践和算法交易 - 页 1012