[[80107122]
[73128410]]
трайн наоборот
[[80267105]
[72098512]]
трайн
[[55385034]
[51175395]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).
非常有趣,你能详细介绍一下测量预测能力 吗?
而最重要的是,该如何衡量?
我写过东西,给过图表,贴过代码--杂工把所有东西都埋在这1000页里......
懒得重复。这里用得最多的是vtreat,我没有用它。最主要的是思考这个话题,抛弃其他一切。
所以你没有提出ZZ的设置应该是什么的问题?
ZZ参数对每个工具和时间框架都是不同的。例如,对于欧元兑美元M15,一个好的初始值是15点(4位数)。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此,拥有非参数预测器是可取的,它使你的生活更容易。因此,数字滤波器 显示出良好的效果。使用集合和级联组合,我得到的平均准确度=0.83。这是一个非常好的结果。明天我将发送一篇文章供核实,其中描述了这个过程。
祝好运
ZZ参数对每个工具和时间框架都是不同的。例如,对于欧元兑美元M15,一个好的初始值是15点(4位数)。这也取决于你使用的预测器。对预测器和ZZ的所有参数进行优化是一个好主意。因此,拥有非参数预测器是可取的,它使你的生活更容易。在这种能力下,数字滤波器 显示出良好的效果。使用集合和级联组合,我得到的平均准确度=0.83。这是一个非常好的结果。明天我将给你发一篇文章供你核实,其中描述了这个过程。
祝好运
极其有趣。期待着它。
如果你能按当前日期分享你2004年的买入和卖出行,我会尝试,我通常学习1-3年,测试20-30%。
数据集、Lern和测试以及来自Ducas的原始系列。
漂亮的曲线 :)但这不太可能让人感兴趣,不清楚是什么样的软件,你是如何计算出这个曲线的。在你的数据集上,我得到的准确率不超过52%,顺便说一下,你在芯片前结束了标记,我在我的数据中切断了它们。我需要添加更多的削减价格,你从其中得到lern和测试,然后在bulltester上运行分类器的结果。
PS:事实上,任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间,在一个封闭的algotrading小组中,有一个有趣的想法,即商定一个接口,用于交换C++ dll中的现成模型(反正所有algotraders和machineliners都在使用),将json中的一堆行作为输入,然后用新数据(烛台、刻度、tickans等)进行补充,并显示预测结果。简而言之,这个想法是交换某种标准化的 "黑匣子",然后当未来到达时,在测试器上,当数据可用时,可以进行检查。这是了解模型是否工作的唯一方法,好吧,你也可以使用web-api,但为此保留一个VPN很麻烦,尤其是在有很多模型的情况下。但所有这些准确率数字、夏普比率等并不意味着什么,有100500种不自觉符合的方式和同样多的自觉符合的方式,没有人会理解它,你需要更多的既成证据。
如果你有分类,你可以用相对分类误差或logloss(交叉熵)来估计,如果回归,rmse就可以了。你也可以测量跟踪和测试的误差差,并达到最小的差异。
只是设置的选择是为了使traine、validation和test在预测类中有大致相同的分离。
只是这一切,一个森林即使是浅层的树木也很容易被过度训练,当然,如果树木被创造成纯粹的树叶,就会有更大的概率出现过度训练。
那么,如何才能避免这种情况呢?好吧,我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。
我们的想法是采取ROC_AUC,如果预测器中有好的东西,横轴上的数值应该停止增长。但在翻阅了所有的资料后,我没有找到任何资料。
严格意义上的平线是往上画的。
但这些指标都不会按历史推动市场上涨,当然不会)。
我曾多次尝试,但印象不深。
只需选择设置,使受训者、验证和测试的预测类的分割大致相同。
只是这一切有什么意义呢?一个森林即使是浅层的树木也很容易被过度训练,当然,如果树木被创造到纯叶子,会有更高概率的过度训练。
那么,如何才能避免这种情况呢?好吧,我们又开始了 "垃圾进垃圾出"。自然界中是否有任何非 "垃圾 "的预测因素。
我们的想法是采取ROC_AUC,如果预测器中有好的东西,横轴上的数值应该停止增长。但在翻阅了所有的资料后,我没有找到任何资料。
严格意义上的平线是往上画的。
但没有任何指标会按历史规律推动市场上涨)。
如果验证图上的错误与跟踪图上的错误相同,那么一切都应该正常。很明显,它并不
如果valid.部分的错误与受训者的错误相同,那么一切都应该正常。很明显,你不知道。
嗯,不完全相同,接近。如果完全相同,那就是一棵深度为三的树,图片是给的。
选择了深度15,这或多或少显示了测试的结果。
大约20分钟后,我将公布各班级的情况。
深度三。
深度15。
同时,虽然深度15明显导致了过度训练,但有了它,前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。
前锋。
15
3
事实证明,要预测你要找的类的标签,比负数多4-6%。
漂亮的曲线 :)但这不太可能让人感兴趣,不清楚是什么样的软件,你是如何计算出这个曲线的。在你的数据集上,我得到的准确率不超过52%,顺便说一下,你的标记在芯片之前就结束了,我在我的数据中修剪了它们。我需要添加更多的削减价格,你从其中得到lern和测试,然后在bulltester上运行分类器的结果。
PS:事实上,任何测试者的产量曲线和结果分类质量报告/regression都不能向公众证明什么。前段时间,在一个封闭的algotrading小组中,有一个有趣的想法,即商定一个接口,用于交换C++ dll中的现成模型(反正所有algotraders和machineliners都在使用),将json中的一堆行作为输入,然后用新数据(烛台、刻度线、tickans等)补充,并显示预测结果。简而言之,这个想法是要交换某种标准化的 "黑匣子",然后在未来到来时,在测试者身上,当数据可用时,可以进行测试。这是了解模型是否工作的唯一方法,好吧,你也可以使用web-api,但为此保留一个VPN很麻烦,尤其是在有很多模型的情况下。而所有这些数字,准确度,夏普比率等并不意味着什么,有100500种不自觉调整的方法,也有同样多的自觉调整的方法,没有人会理解它,你需要更好的证据。
在训练和测试数据样本的开始,有一些空的特征单元,可能是没有足够的历史来计算它们,而算法没有控制这一点,所以为了正确的工作,它们也应该被删除。
如果不是一个秘密,这个小组在哪里,是否可以在那里寻找?
深度三。
深度15。
同时,虽然深度15明显导致了过度训练,但有了它,前锋就更好了。在我拥有的其他模型上也是如此。在不严重过拟合的情况下。
前锋。
15
3
我认为你需要减少交易的数量,似乎在每一个柱子上...