交易中的机器学习:理论、模型、实践和算法交易 - 页 1012

 
阿列克谢-潘菲洛夫

非常有趣,你能详细介绍一下测量预测能力 吗?

而最重要的是,该如何衡量?

我写过东西,给过图表,贴过代码--杂工把所有东西都埋在这1000页里......

懒得重复。这里用得最多的是vtreat,我没有用它。最主要的是思考这个话题,抛弃其他一切。

 
阿列克谢-维亚兹米 金。

所以你没有提出ZZ的设置应该是什么的问题?

ZZ参数对每个工具和时间框架都是不同的。例如,对于欧元兑美元M15,一个好的初始值是15点(4位数)。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此,拥有非参数预测器是可取的,它使你的生活更容易。因此,数字滤波器 显示出良好的效果。使用集合和级联组合,我得到的平均准确度=0.83。这是一个非常好的结果。明天我将发送一篇文章供核实,其中描述了这个过程。

祝好运

 
弗拉基米尔-佩雷文科

ZZ参数对每个工具和时间框架都是不同的。例如,对于欧元兑美元M15,一个好的初始值是15点(4位数)。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此,拥有非参数预测器是可取的,它使你的生活更容易。在这种能力下,数字滤波器 显示出良好的效果。使用集合和级联组合,我得到的平均准确度=0.83。这是一个非常好的结果。明天我将给你发一篇文章供你核实,其中描述了这个过程。

祝好运

极其有趣。期待着它。

 
圣杯

如果你能按当前日期分享你2004年的买入和卖出行,我会尝试,我通常学习1-3年,测试20-30%。

数据集、Lern和测试以及来自Ducas的原始系列。

漂亮的曲线 :)但这不太可能让人感兴趣,不清楚是什么样的软件,你是如何计算出这个曲线的。在你的数据集上,我得到的准确率不超过52%,顺便说一下,你在芯片前结束了标记,我在我的数据中切断了它们。我需要添加更多的削减价格,你从其中得到lern和测试,然后在bulltester上运行分类器的结果。

PS:事实上,任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间,在一个封闭的algotrading小组中,有一个有趣的想法,即商定一个接口,用于交换C++ dll中的现成模型(反正所有algotraders和machineliners都在使用),将json中的一堆行作为输入,然后用新数据(烛台、刻度、tickans等)进行补充,并显示预测结果。简而言之,这个想法是交换某种标准化的 "黑匣子",然后当未来到达时,在测试器上,当数据可用时,可以进行检查。这是了解模型是否工作的唯一方法,好吧,你也可以使用web-api,但为此保留一个VPN很麻烦,尤其是在有很多模型的情况下。但所有这些准确率数字、夏普比率等并不意味着什么,有100500种不自觉符合的方式和同样多的自觉符合的方式,没有人会理解它,你需要更多的既成证据。

 
马克西姆-德米特里耶夫斯基

如果你有分类,你可以用相对分类误差或logloss(交叉熵)来估计,如果回归,rmse就可以了。你也可以测量跟踪和测试的误差差,并达到最小的差异。

只是设置的选择是为了使traine、validation和test在预测类中有大致相同的分离。

只是这一切,一个森林即使是浅层的树木也很容易被过度训练,当然,如果树木被创造成纯粹的树叶,就会有更大的概率出现过度训练。

那么,如何才能避免这种情况呢?好吧,我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。

我们的想法是采取ROC_AUC,如果预测器中有好的东西,横轴上的数值应该停止增长。但在翻阅了所有的资料后,我没有找到任何资料。

严格意义上的平线是往上画的。

但这些指标都不会按历史推动市场上涨,当然不会)。

我曾多次尝试,但印象不深。

 
forexman77:

只需选择设置,使受训者、验证和测试的预测类的分割大致相同。

只是这一切有什么意义呢?一个森林即使是浅层的树木也很容易被过度训练,当然,如果树木被创造到纯叶子,会有更高概率的过度训练。

那么,如何才能避免这种情况呢?好吧,我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。

我们的想法是采取ROC_AUC,如果预测器中有好的东西,横轴上的数值应该停止增长。但在翻阅了所有的资料后,我没有找到任何资料。

严格意义上的平线是往上画的。

但没有任何指标会按历史规律推动市场上涨)。

如果验证图上的错误与跟踪图上的错误相同,那么一切都应该正常。很明显,它并不

 
马克西姆-德米特里耶夫斯基

如果valid.部分的错误与受训者的错误相同,那么一切都应该正常。很明显,你不知道。

嗯,不完全相同,接近。如果完全相同,那就是一棵深度为三的树,图片是给的。

选择了深度15,这或多或少显示了测试的结果。

大约20分钟后,我将公布各班级的情况。

 

深度三。

[[8010 7122]
 [7312 8410]]
трайн наоборот

[[8026 7105]
 [7209 8512]]
трайн 

[[5538 5034]
 [5117 5395]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).

深度15。

[[7667 7464]
 [7227 8494]]
трайн наоборот

[[14430   702]
 [  661 15061]]
трайн 

[[5405 5167]
 [4958 5554]]
тест

同时,虽然深度15明显导致了过度训练,但有了它,前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。

前锋。

15

3

事实证明,要预测你要找的类的标签,比负数多4-6%。

 
吉安尼

漂亮的曲线 :)但这不太可能让人感兴趣,不清楚是什么样的软件,你是如何计算出这个曲线的。在你的数据集上,我得到的准确率不超过52%,顺便说一下,你的标记在芯片之前就结束了,我在我的数据中修剪了它们。我需要添加更多的削减价格,你从其中得到lern和测试,然后在bulltester上运行分类器的结果。

PS:事实上,任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间,在一个封闭的algotrading小组中,有一个有趣的想法,即商定一个接口,用于交换C++ dll中的现成模型(反正所有algotraders和machineliners都在使用),将json中的一堆行作为输入,然后用新数据(烛台、刻度线、tickans等)补充,并显示预测结果。简而言之,这个想法是要交换某种标准化的 "黑匣子",然后在未来到来时,在测试者身上,当数据可用时,可以进行测试。这是了解模型是否工作的唯一方法,好吧,你也可以使用web-api,但为此保留一个VPN很麻烦,尤其是在有很多模型的情况下。而所有这些数字,准确度,夏普比率等并不意味着什么,有100500种不自觉调整的方法,也有同样多的自觉调整的方法,没有人会理解它,你需要更好的证据。

在训练和测试数据样本的开始,有一些空的特征单元,可能是没有足够的历史来计算它们,而算法没有控制这一点,所以为了正确的工作,它们也应该被删除。

如果不是一个秘密,这个小组在哪里,是否可以在那里寻找?

 
forexman77:

深度三。

深度15。

同时,虽然深度15明显导致了过度训练,但有了它,前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。

前锋。

15

3


我认为你需要减少交易的数量,似乎在每一个柱子上...