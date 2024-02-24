交易中的机器学习：理论、模型、实践和算法交易 - 页 1783 1...177617771778177917801781178217831784178517861787178817891790...3399 新评论 Valeriy Yastremskiy 2020.05.14 21:48 #17821 马克西姆-德米特里耶夫斯基。 目前的状态是什么？ 如果是关于集群的，你只需要对新的数据进行扫荡统计。如果它们是相同的，你可以建立TC。 栏上的参数。增量、速度、历史平均数。我不明白为什么每个人都认为参数在最后一整条上，但这基本上是不正确的。平均数晚了一半或比平均数范围小一点，而且增量也不够大。而且没有人把这个系列的参数作为一个整体来计算。平坦和趋势这两个梯度根本不好玩。 Valeriy Yastremskiy 2020.05.15 09:18 #17822 马克西姆-德米特里耶夫斯基。 如果集群是相同的，那么你就可以建立TC。如果它们是相同的，我们可以建立TC。 需要清楚地了解集群和统计的主题领域。如果从70年到20年的所有仪器上都相同，那么就有可能)) Aleksey Vyazmikin 2020.05.16 17:51 #17823 mytarmailS: 斤斤计较是没有用的，问题是数据的大小，我甚至无法创建特征，你甚至无法进行训练...... 做一个5万的样本，让它小，让它不严重，让它更有可能过度训练，......., ...目的是创造一个用于生产的机器人，但只是利用共同努力来减少错误，然后获得的知识可以应用于任何工具和市场，50K将是相当足够的，可以看到什么标志意味着什么。 好的，我将做一个小样本。 mytarmailS: 如果你不知道OHLK，你就不用写了，为什么要把整个OHLK置换掉呢？ 没有人这样做，你只需要把ZZ置换掉一步，就像把未来看成1步的学习，就这样。你至少读过Vladimir Perervenko关于deerelearning的一篇文章吗？ 请读一读。 当对数据的最佳操作已经定型，每个人都已经习惯了，而有人试图以不同的方式做同样的事情，这是非常不舒服的，这有点毫无意义，令人讨厌，并导致人们在尝试使用这种作者的数据时出现许多错误。 我读过他的文章，但我不懂R代码，所以我不能真正理解那里的一切。 所以我想问你，既然你了解这个问题。分类发生在零条上，当时只有开盘价 是已知的，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又要做大量的返工--这很累人。 我只是有一个拿数据和应用模型的现成方案，而不是一个计算模型。 mytarmailS: 如果在这一切之后，你仍然想做一些事情，我有以下要求 1）数据50-60k不等，最好是一个文件，只要同意最后一个蜡烛的n就可以了。 2）数据，最好没有胶水，这样不仅可以考虑最新的价格，还可以考虑支持和阻力，这在胶水中是不可能的。 3）目标应该已经包含在数据中了 4）数据格式为日期、时间、o、h、l、c、目标。 或者我应该做一个数据集？ 你可以向那些做出承诺的人要求--即不是向我要求:)我们做个交易吧。 1.让我们做50个用于训练，另外50个用于测试（训练之外的抽样）。 2.好的。 3.好的。 4.确定。 补充：意识到Si-3.20期货没有足够的正常棒(22793)，你不想要胶水。 添加了一个sber的样本--我得到了67分的准确度。 附加的文件： Setup.zip 891 kb mytarmailS 2020.05.17 06:56 #17824 阿列克谢-维亚兹米 金。 所以我想问你，既然你已经想通了这一点。分类发生在零条上，当时只 知道开盘价，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又得做一堆返工--令人厌烦。 分类是在已知条款（即一个成熟的OHLS蜡烛） 的最后一栏进行的，我们预测未来蜡烛的ZZ标志。为什么要考虑到我无法理解的唯一已知选项的蜡烛，除了复杂之外还有什么优势？ 阿列克谢-维亚兹米 金。 你可以向那些已经做出承诺的人要求--也就是不向我要求 :)让我们达成一个协议。 我不要求你个人做任何事情）。对样本的要求，样本必须对所有的人都是一样的，这样才有可能进行比较，对吗？ 我想这是很明显的。 并感谢您的收听 ) 1）数据50-60k，不多，最好是一个文件......... 让我们有50个用于培训，另外50个用于测试（培训之外的样本）。 我想5-6万也许是出于好奇，为什么不翻倍？))) ))) 1）数据50-60k，不多，最好是一个文件，同意即可 谢谢你填写了一个文件而不是两个文件!)) mytarmailS 2020.05.17 11:30 #17825 先试了一下，可以说是开箱即用，... 只有最后的n个值参与预测，像你一样，因为误差是一样的。 我有217个指标，我肯定有一些冗余的指标，但我懒得去清理。 我使用OHLC_Train.csv 文件训练和验证了总共54147个数据。 在前10万个观测值上测试模型（确切地说，是8万个，前2万个没有考虑，因为指标是根据它们计算的）。 在剩下的44k数据上测试了模型，所以我认为没有重新训练。 5.5次训练44/8=5.5 在我试过的模型中，助推和福瑞特，助推没有留下印象，我已经停止了福瑞特。 在训练中设置了一个强大的不平衡班，但我太懒了，不愿意去做萨满。 table(d$Target[tr]) 0 1 3335 4666 关于当前特征的最终模型--200棵树的森林 在托盘上... Type of random forest: classification Number of trees: 200 No. of variables tried at each split: 14 OOB estimate of error rate: 14.75% Confusion matrix: 0 1 class.error 0 2557 778 0.23328336 1 402 4264 0.08615517

在测试中

Confusion Matrix and Statistics Reference Prediction 0 1 0 12449 5303 1 9260 17135 Accuracy : 0.6701 95% CI : (0.6657, 0.6745) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3381 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5734 Specificity : 0.7637 Pos Pred Value : 0.7013 Neg Pred Value : 0.6492 Prevalence : 0.4917 Detection Rate : 0.2820 Detection Prevalence : 0.4021 Balanced Accuracy : 0.6686 'Positive' Class : 0

正如你所看到的，结果与你相同，而且不需要数以百万计的数据，如果有的话，5万个数据就足以找到一个模式。

所以我们得到了同样的结果，这是我们的起点，现在这个错误必须得到改善

mytarmailS 2020.05.17 11:47 #17826

))Hohma ))

删除了所有所谓的技术分析指标

有86个 指标，而不是上面例子中的217个

而且模型的质量也只有所提高 )

Confusion Matrix and Statistics Reference Prediction 0 1 0 12769 5597 1 8940 16841 Accuracy : 0.6707 95% CI : (0.6663, 0.6751) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3396 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5882 Specificity : 0.7506 Pos Pred Value : 0.6953 Neg Pred Value : 0.6532 Prevalence : 0.4917 Detection Rate : 0.2892 Detection Prevalence : 0.4160 Balanced Accuracy : 0.6694 'Positive' Class : 0

Aleksey Vyazmikin 2020.05.17 12:59 #17827

mytarmailS:

你不能理解，因为你在R中的数据，终端不知道OHLC何时在当前条上形成，所以你只能在第一个条的零条上得到OHLC。那么在零条上打开的是新的时间数据--特别是与大型TFs有关，因为我的样本中有一类相同的预测因子，但应用在不同的TFs上。

mytarmailS:

我把样本分成了两个文件，第一个文件用于任何淫秽的训练尝试，第二个文件用于检查训练结果。

你难道没有办法保存模型并在新的数据上测试它吗？如果是这样，请检查一下，我给出了OHLC_Exam.csv样本的结果。

你能以同样的方式发回这两个文件，但要加上你的预测器和分类结果的那一栏吗？

关于过度训练或缺乏训练的问题。

在我看来，这显然是一种过度训练。

mytarmailS 2020.05.17 15:05 #17828

阿列克谢-维亚兹米 金。

是的...在新的数据上，一切都更加悲伤（（）。

Confusion Matrix and Statistics Reference Prediction 0 1 0 9215 5517 1 3654 7787 Accuracy : 0.6496 95% CI : (0.6438, 0.6554) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3007 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.7161 Specificity : 0.5853 Pos Pred Value : 0.6255 Neg Pred Value : 0.6806 Prevalence : 0.4917 Detection Rate : 0.3521 Detection Prevalence : 0.5629 Balanced Accuracy : 0.6507 'Positive' Class : 0

这里是文件，不要 使用托盘中的前2k个字符串。

在测试的前100行

UPD====

文件不合适，请在你的收件箱中给我发一封邮件

Aleksey Vyazmikin 2020.05.17 15:20 #17829

mytarmailS:

应用程序中没有任何文件。

我改变了训练和验证的抽样分类，对于验证，我每5行抽一次，得到了一个有趣的图表

在样本OHLC_Exam.csv上 准确率0.63

通过X，每棵新的树都会减少结果，表明由于样本中的例子不足而导致过度训练。

用zip压缩文件。

mytarmailS 2020.05.17 15:53 #17830

阿列克谢-维亚兹米 金。

是的，是的，我们的模型被过度训练了...

这里有一个下载文件的链接，即使是压缩文件也不适合放在论坛上。

https://dropmefiles.com.ua/56CDZB

试试我的标志上的模型，我想知道准确度会是多少
目前的状态是什么？ 如果是关于集群的，你只需要对新的数据进行扫荡统计。如果它们是相同的，你可以建立TC。
如果集群是相同的，那么你就可以建立TC。如果它们是相同的，我们可以建立TC。
需要清楚地了解集群和统计的主题领域。如果从70年到20年的所有仪器上都相同，那么就有可能))
斤斤计较是没有用的，问题是数据的大小，我甚至无法创建特征，你甚至无法进行训练......
做一个5万的样本，让它小，让它不严重，让它更有可能过度训练，......., ...目的是创造一个用于生产的机器人，但只是利用共同努力来减少错误，然后获得的知识可以应用于任何工具和市场，50K将是相当足够的，可以看到什么标志意味着什么。
好的，我将做一个小样本。
如果你不知道OHLK，你就不用写了，为什么要把整个OHLK置换掉呢？ 没有人这样做，你只需要把ZZ置换掉一步，就像把未来看成1步的学习，就这样。你至少读过Vladimir Perervenko关于deerelearning的一篇文章吗？ 请读一读。 当对数据的最佳操作已经定型，每个人都已经习惯了，而有人试图以不同的方式做同样的事情，这是非常不舒服的，这有点毫无意义，令人讨厌，并导致人们在尝试使用这种作者的数据时出现许多错误。
我读过他的文章，但我不懂R代码，所以我不能真正理解那里的一切。
所以我想问你，既然你了解这个问题。分类发生在零条上，当时只有开盘价 是已知的，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又要做大量的返工--这很累人。
我只是有一个拿数据和应用模型的现成方案，而不是一个计算模型。
如果在这一切之后，你仍然想做一些事情，我有以下要求
1）数据50-60k不等，最好是一个文件，只要同意最后一个蜡烛的n就可以了。
2）数据，最好没有胶水，这样不仅可以考虑最新的价格，还可以考虑支持和阻力，这在胶水中是不可能的。
3）目标应该已经包含在数据中了
4）数据格式为日期、时间、o、h、l、c、目标。
或者我应该做一个数据集？
你可以向那些做出承诺的人要求--即不是向我要求:)我们做个交易吧。
1.让我们做50个用于训练，另外50个用于测试（训练之外的抽样）。
2.好的。
3.好的。
4.确定。
补充：意识到Si-3.20期货没有足够的正常棒(22793)，你不想要胶水。
添加了一个sber的样本--我得到了67分的准确度。
所以我想问你，既然你已经想通了这一点。分类发生在零条上，当时只 知道开盘价，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又得做一堆返工--令人厌烦。
分类是在已知条款（即一个成熟的OHLS蜡烛） 的最后一栏进行的，我们预测未来蜡烛的ZZ标志。为什么要考虑到我无法理解的唯一已知选项的蜡烛，除了复杂之外还有什么优势？
你可以向那些已经做出承诺的人要求--也就是不向我要求 :)让我们达成一个协议。
我不要求你个人做任何事情）。对样本的要求，样本必须对所有的人都是一样的，这样才有可能进行比较，对吗？ 我想这是很明显的。
并感谢您的收听 )
1）数据50-60k，不多，最好是一个文件.........
让我们有50个用于培训，另外50个用于测试（培训之外的样本）。
我想5-6万也许是出于好奇，为什么不翻倍？)))
)))
1）数据50-60k，不多，最好是一个文件，同意即可谢谢你填写了一个文件而不是两个文件!))
先试了一下，可以说是开箱即用，...
只有最后的n个值参与预测，像你一样，因为误差是一样的。
我有217个指标，我肯定有一些冗余的指标，但我懒得去清理。
我使用OHLC_Train.csv 文件训练和验证了总共54147个数据。
在前10万个观测值上测试模型（确切地说，是8万个，前2万个没有考虑，因为指标是根据它们计算的）。
在剩下的44k数据上测试了模型，所以我认为没有重新训练。 5.5次训练44/8=5.5
在我试过的模型中，助推和福瑞特，助推没有留下印象，我已经停止了福瑞特。
在训练中设置了一个强大的不平衡班，但我太懒了，不愿意去做萨满。
关于当前特征的最终模型--200棵树的森林
在托盘上...
在测试中
Confusion Matrix and Statistics Reference Prediction 0 1 0 12449 5303 1 9260 17135 Accuracy : 0.6701 95% CI : (0.6657, 0.6745) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3381 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5734 Specificity : 0.7637 Pos Pred Value : 0.7013 Neg Pred Value : 0.6492 Prevalence : 0.4917 Detection Rate : 0.2820 Detection Prevalence : 0.4021 Balanced Accuracy : 0.6686 'Positive' Class : 0
正如你所看到的，结果与你相同，而且不需要数以百万计的数据，如果有的话，5万个数据就足以找到一个模式。
所以我们得到了同样的结果，这是我们的起点，现在这个错误必须得到改善
))Hohma ))
删除了所有所谓的技术分析指标
有86个 指标，而不是上面例子中的217个
而且模型的质量也只有所提高 )
Confusion Matrix and Statistics Reference Prediction 0 1 0 12769 5597 1 8940 16841 Accuracy : 0.6707 95% CI : (0.6663, 0.6751) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3396 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5882 Specificity : 0.7506 Pos Pred Value : 0.6953 Neg Pred Value : 0.6532 Prevalence : 0.4917 Detection Rate : 0.2892 Detection Prevalence : 0.4160 Balanced Accuracy : 0.6694 'Positive' Class : 0
分类发生在最后一栏的已知条款（那些成熟的OHLS蜡烛），预测标志ZZ未来的蜡烛。为什么要考虑到我无法理解的唯一已知选项的蜡烛，除了复杂之外还有什么好处？
你不能理解，因为你在R中的数据，终端不知道OHLC何时在当前条上形成，所以你只能在第一个条的零条上得到OHLC。那么在零条上打开的是新的时间数据--特别是与大型TFs有关，因为我的样本中有一类相同的预测因子，但应用在不同的TFs上。
1）数据50-60k，不多，最好是一个文件.........
让我们给50人做培训，另外50人做测试（培训之外的样本）。
我可能刚刚命名了5-6万，为什么不翻倍呢？)))
)))
1）数据50-60k不多，一个文件比较好，同意即可谢谢你填写了一个文件而不是两个文件!))
在文件OHLC_Train.csv 上进行了训练和验证，共有54147个。
在前10k个观测值上测试了模型（确切地说，是8k个，前2k个没有被考虑，因为它们被用来计算指标）。
在剩下的44K数据上测试了模型，所以我认为没有重新训练。测试是训练的5.5倍，44/8=5.5。
正如你所看到的，结果与你的相同，我不需要数以百万计的数据，如果有的话，5万个数据就足以找到模式。
所以我们得到了同样的结果，这是我们的起点，现在这个错误需要改进
我把样本分成了两个文件，第一个文件用于任何淫秽的训练尝试，第二个文件用于检查训练结果。
你难道没有办法保存模型并在新的数据上测试它吗？如果是这样，请检查一下，我给出了OHLC_Exam.csv样本的结果。
你能以同样的方式发回这两个文件，但要加上你的预测器和分类结果的那一栏吗？
关于过度训练或缺乏训练的问题。
在我看来，这显然是一种过度训练。
是的...在新的数据上，一切都更加悲伤（（）。
Confusion Matrix and Statistics Reference Prediction 0 1 0 9215 5517 1 3654 7787 Accuracy : 0.6496 95% CI : (0.6438, 0.6554) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3007 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.7161 Specificity : 0.5853 Pos Pred Value : 0.6255 Neg Pred Value : 0.6806 Prevalence : 0.4917 Detection Rate : 0.3521 Detection Prevalence : 0.5629 Balanced Accuracy : 0.6507 'Positive' Class : 0
这里是文件，不要 使用托盘中的前2k个字符串。
在测试的前100行
UPD====
文件不合适，请在你的收件箱中给我发一封邮件
是的...在新的数据上，一切都更加悲哀（（））。
以下是文件，请不要 使用前2千行的线索
在测试中，前100行。
应用程序中没有任何文件。
我改变了训练和验证的抽样分类，对于验证，我每5行抽一次，得到了一个有趣的图表
在样本OHLC_Exam.csv上 准确率0.63
通过X，每棵新的树都会减少结果，表明由于样本中的例子不足而导致过度训练。用zip压缩文件。
应用程序中没有任何文件。
我改变了训练和验证的抽样分类，对于验证，我每5行抽一次，得到了一个有趣的图表。
在样本OHLC_Exam.csv上 准确率0.63
通过X，每棵新的树都会减少结果，表明由于样本中的例子不足而导致过度训练。用zip压缩文件。
是的，是的，我们的模型被过度训练了...
这里有一个下载文件的链接，即使是压缩文件也不适合放在论坛上。
https://dropmefiles.com.ua/56CDZB
试试我的标志上的模型，我想知道准确度会是多少