文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

[删除] 2020.11.24 12:12 #11

Aleksey Vyazmikin:

有趣的文章

我感觉，通过随机分配和伪样本生成这种棘手的方法，我们会发现训练期的类似依赖关系在测试中非常重要。

测试失败的模型比例是多少？

增加第三个样本会很有趣--让我们从第一个样本中学习，在测试中选择拟合度良好的结果，并在考试中检查选择结果。

但是，如果市场是随机的，我们如何找到类似的相关性呢？答案是没有，只有在训练中加入过去的数据。而这里什么都没有。您甚至可以添加第 10 个样本，或在 MT5 中对新数据进行测试。

[删除] 2020.11.24 12:13 #12

Stanislav Korotky:
主要的疑问点在于从最新数据中学习，并对旧数据进行测试。这有点类似于展望未来：当前的最新模型吸收了早期模型的一些东西（毕竟市场参与者是有记忆力的），但反过来说，预测未来就更难了。我认为，如果以典型的方式重启算法（在旧数据上训练，在新数据上测试--这更像现实），结果并不会那么好。

没有区别，你可以检查一下。我只是更喜欢这种方式。

Aleksey Vyazmikin 2020.11.24 12:19 #13

Valeriy Yastremskiy:

这取决于什么被认为是规律性，如果是与时间相关的增量的连续顺序，那么它就是增量行为的季节性规律，如果不相关，那么就是在精确度上有一定自由度的相同增量顺序。

这取决于什么被认为是合适的。如果明知是相同的序列，那么它就是拟合，但测试的目的（无论从哪一方面）都是为了检查非相同区域的结果。

在近代进行训练的逻辑是合乎逻辑的，但同样，如果我们在历史深处进行测试，结果也应该是一样的，如果我们在历史深处进行训练，在近代进行测试，结果也应该是一样的。

我们只是证实了测试图和训练图中存在规律性的假设。

拟合--如果预测因子（片状或类似物）只对少数情况进行了分类，少于观测值的 1%--这是我对拟合的解释。

Aleksey Vyazmikin 2020.11.24 12:22 #14

Maxim Dmitrievsky:
但是，如果市场是随机的，我们如何才能找到类似的关系呢？答案是，我们无法找到，只能将过去的数据输入到训练中。在这里，什么都没有混入。您甚至可以添加 10 个样本，或者在 MT5 中对新数据进行测试。

我知道不会有欺骗行为。我不懂 Python，但在我看来，模型是从 2015 年到 2020 年的估计值，对吗？

我更关心的是估算标准的有效性，它能在多大程度上帮助选择一个在用于选择模型的测试样本之外的模型。

[删除] 2020.11.24 12:40 #15

Aleksey Vyazmikin:

我的理解是，它不是横扫。我不知道 Python，但在我看来，模型评估是从 2015 年到 2020 年，对吗？

我更关心的是评估标准的有效性，它能在多大程度上帮助选择一个在用于选择的测试样本之外的模型。

每个人都可以按照自己的意愿进行评估。我认为文章中的方法很正常。正常。如果还有其他超级星系测试技术，请告诉我。

不幸的是，没有 python，机器学习几乎不存在......我迟早要学的，这很简单 )

Aleksey Vyazmikin 2020.11.24 12:45 #16

Maxim Dmitrievsky:

每个人都可以按照自己的意愿进行评价。我认为文章中的做法很正常。正常。如果还有其他超星系测试技术，请告诉我。

文章中的方法很有趣，无需争论。

我们将发明超星系技术:)

我认为，我们可以用数字来衡量预测因子的显著性，比如 1%，然后在不同的模型中比较这一指标，数字越小，模型起作用的概率就越高，因为它归纳了更多的信息--我们应该这样思考。

Valeriy Yastremskiy 2020.11.24 12:46 #17

Aleksey Vyazmikin:

我的理解是，它不是横扫。我不知道 Python，但在我看来，模型评估是从 2015 年到 2020 年，对吗？

我更关心的是评估标准的有效性，它能在多大程度上帮助选择一个在用于选择的测试样本之外的模型。

在序列相似的情况下。测试样本之外的数列的行为可能会有很大差异，以至于发现的规律性会消失。但这种概率是有限的，而且在小时间尺度上很小。

这也无济于事。

Aleksey Vyazmikin 2020.11.24 12:49 #18

Valeriy Yastremskiy:

只要序列相似。在测试样本之外，序列的行为很可能会大相径庭，以至于发现的规律性消失。但这种概率是有限的，而且在较小的时间间隔内很小。

这也是没有用的。

这就是我缺乏统计信息的原因，比方说，我们研究了 1000 个模型，其中 5%的模型自 2015 年以来显示了良好的盈利，与此同时，我们需要评估模型之间的相似性，这更加困难，但信息量更大。

[删除] 2020.11.24 13:15 #19

Aleksey Vyazmikin:

这就是我缺乏统计信息的原因，比方说，我们研究了 1000 个模型，其中 5%的模型自 2015 年以来表现出良好的盈利，但我们还需要评估模型之间的相似性，这更加困难，但信息量更大。

你不能什么都写。如果是关于这个，是的。如果条件选得好，在一个引导力循环中，你会得到很多好模型和很少的坏模型。这只是挑选最佳模型的问题。因此，这不仅仅是一个随机模型。

文章引用了 20 或 50 个模型（我记不清了）中通过测试的学习循环中的 2 个模型。而且实际上还有更多的盈利模式。

Evgeni Gavrilovi 2020.11.24 13:19 #20

Maxim Dmitrievsky

能否在 Colab 中提供包含源代码的 Jupyter Notebook 的链接？

文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 2