文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 4

 
Maxim Dmitrievsky:

不是寻找未来的模式,而是寻找一系列的依赖关系。顺序并不重要。您可以在中间搜索,在前后测试,这不会改变任何事情

这很容易理解,不需要进一步解释。

这样做的好处是,找到的模式可能会随着时间的推移而消失。在这种情况下,最好从最近的数据中学习

这并不容易。似乎总是越接近越真实。替换概念。其实寻找模式的任务也一样)。

 
Stanislav Korotky:

这不是一个抽象的系列。从左到右(从过去到未来)有明显的 "依赖性"(同一个词,但理解起来意义不同),反之则没有。几乎没有任何关于报价预测的科学出版物会对过去进行测试。

如果符号具有线性趋势或任何其他时间依赖性,那就是正确的。文章中的模型丝毫没有考虑时间因素,一致性并不重要。

如果你看一下最近的计量经济学方法,如 bootstrap 或神经网络,序列就会混在一起。也就是说,不存在时间依赖性。

 

В первую очередь необходимо провести кластеризацию исходных данных, включая метки классов

我认为这会导致偷看。
在有信号的模拟账户 上运行一个月进行测试。

 
Stanislav Korotky:

这不是一个抽象的系列。从左到右(从过去到未来)有明显的 "依赖性"(虽然是同一个词,但理解起来意义不同),反之亦然。几乎没有任何关于报价预测的科学出版物会对过去进行测试。

在预测方面,我没有遇到过,但在研究方面,13 年来,我遇到了 400 万点。CaP 指数。从 84 年到 96 年。经济物理学的开端。他们证明了该指数的非平稳性、SB 的存在及其与物理过程的相似性。

 
elibrarius:

我认为这会导致偷看。
在有信号的模拟账户 上运行一个月进行测试。

机器人源代码附后,您可以进行测试。

没有偷看。

 
Maxim Dmitrievsky:

机器人源代码附后,您可以进行测试。

没有偷看。

我考虑过了。我同意。

还有一点。
你从 50 个随机训练中选择一个测试结果最好的。这可以称为拟合测试。在新数据上可能效果不佳。
您应该对所有 50 个模型进行平均。
 
elibrarius:
我又想了想。我同意。 还有一点。 你从 50 次随机训练中选择了一次测试结果最好的训练。这可以称为拟合测试。在新数据上可能效果不佳。您应该对所有 50 个模型进行平均。



我在早期数据上运行另一个测试,即独立测试。如果结果不好,我就把它扔掉

例如,训练在 2 个月内完成,模型在一年内选定。然后进行独立测试 - 5-10 年。

我在文章中概述了这种方法,但仍有改进的余地。

我不认为平均值有什么意义
 
Maxim Dmitrievsky:

我对先前的数据进行另一次独立测试。如果结果不好,我就把它扔掉

我在文章中概述了这种方法,但仍有改进的余地。

最差的模型会失败吗?中间模型呢?

 
elibrarius:

最差的型号会耗水吗?中间那个呢?

不同

 
Maxim Dmitrievsky:

分别

那就一定要取平均值。否则,新数据就会 "不一样"。