文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

 

新文章 基于暴力算法的 CatBoost 模型高级重采样与选择已发布:

本文描述了一种可能的数据转换方法,旨在提高模型的通用性,并讨论了 CatBoost 模型的采样和选择。

上一篇文章中使用的标签的简单随机抽样有一些缺点:

  • 分类是不平衡的。假设市场在训练期间主要是增长的,而整体数据(整个报价历史)是上涨和下跌都有的。在这种情况下,简单的抽样将创建更多的买入标签和更少的卖出标签。因此,一个类别的标签将优先于另一个类别的标签,因此该模型将学习预测买入交易的频率高于卖出交易的频率,然而,这对于新数据可能是无效的。

  • 特征和标签的自相关。如果使用随机抽样,则同一类的标签彼此跟随,而特征本身(例如,增量)变化不大。这个过程可以用回归模型训练的例子来说明——在这种情况下,模型残差中会观察到自相关,这将导致可能的模型高估和过度训练。这种情况如下:


模型1具有残差的自相关,可以将其与某些市场属性的模型过度拟合(例如,与训练数据的波动性相关)进行比较,而其他模式则不考虑在内。模型2具有具有相同方差的残差(平均值),这表明模型覆盖了更多信息或发现了其他依赖性(除了相邻样本的相关性)。

作者:Maxim Dmitrievsky

 
不是有人想用 EM(期望最大化)代替 GMM 吗?
 
Stanislav Korotky:
不是有人想用 EM(期望最大化)代替 GMM 吗?

据我所知,EM 算法已经可以使用了。

也有使用深度神经网络 的想法,但仍在研究中。

 
Maxim Dmitrievsky:

就我所见,它已经在运行 EM 算法了。

也有使用深度神经网络的想法,但仍在研究中。

好的。此外,还在研究一种翻转原始序列的方法--这样就能自动平衡类别。

 
Stanislav Korotky:

好的。我们还在研究一种翻转原始系列的方法--这种方法可以自动平衡等级。

作为一种选择,您还可以使用超采样-反采样及其组合。但这并不能带来明显的改进,而 GMM 却可以。此外,聚类越多越好。纯属经验之谈。

这里有一篇关于重采样的好文章,附有示例 https://imbalanced-learn.readthedocs.io/en/stable/index.html。

密度估计也比 GMM 差。理论上,深度神经网络应该比 GMM 更好。因为 GMM 不能很好地处理大型特征空间。

Welcome to imbalanced-learn documentation! — imbalanced-learn 0.5.0 documentation
  • imbalanced-learn.readthedocs.io
The exact API of all functions and classes, as given in the doctring. The API documents expected types and allowed features for all functions, and all parameters available for the algorithms.
 

这篇文章很有意思。

我的感觉是,通过随机分配和伪样本生成这种棘手的方法,我们只会发现训练期的类似依赖关系在测试中很重要。

测试失败的模型比例是多少?

增加第三个样本会很有趣--让我们从第一个样本中学习,在测试中选择好的结果,并在考试中检查选择结果。

 
主要的疑问点在于从最新数据中学习,并对旧数据进行测试。这有点类似于展望未来:当前的最新模型吸收了早期模型的一些东西(毕竟市场参与者是有记忆力的),但反过来说,预测未来就更难了。我认为,如果以典型的方式重启算法(在旧数据上训练,在新数据上测试--这更像现实),结果不会那么好。
 
Stanislav Korotky:
主要的疑问点在于从最新数据中学习,并对旧数据进行测试。这有点类似于展望未来:当前的最新模型吸收了早期模型的一些东西(毕竟市场参与者是有记忆力的),但反过来说,预测未来就更难了。我认为,如果以典型的方式重启算法(在旧数据上训练,在新数据上测试--这更像现实),结果就不会那么好了。

据我所知,对于这种方法来说,这只是一个蛮力时间的问题。

 
Aleksey Vyazmikin:

据我所知,对于这种方法来说,这只是一个蛮力时间的问题。

我没有意识到这一点。我可能弄错了,但在设置中,从 2015 年开始,铁定要在最后一年进行训练,在前几年进行测试。

 
Stanislav Korotky:

我没意识到这一点。我可能弄错了,但在设置中,从 2015 年开始,铁定要在最后一年进行培训,并在前几年进行测试。

因此,有一种 "蛮力"--其目的是在 2020 年找到那些自 2015 年以来整个时期都有效的模式。从理论上讲,可能还需要更多的蛮力,但目标一定会实现。另外,目前还不清楚这到底是一种模式还是一种拟合,如果连这个问题的假设性答案都没有,就很难决定在 real.... 上安装 TC 的可行性。

 
Aleksey Vyazmikin:

因此,有一个超采样--其目的是在 2020 年找到那些在整个时期--自 2015 年以来一直有效的模式。从理论上讲,可能需要更多的蛮力,但目标会实现,另一个问题是,目前还不清楚这是一种模式还是一种拟合,如果连这个问题的假设性答案都没有,就很难决定在 real.... 上安装 TC 的可行性。

这取决于将什么视为规律性,如果是与时间相关的增量顺序,则是增量行为的季节规律性,如果没有约束力,则是具有一定精度自由度的相同增量顺序。

这取决于什么被认为是合适的。如果明知是相同的序列,那么它就是一种拟合,但测试的目的(无论从哪方面看)是检查非相同区域的结果。

在近阶段进行训练的逻辑是合乎逻辑的,但如果我们在历史深处进行测试,结果也是一样的,如果我们在历史深处进行训练,在近阶段进行测试,结果也应该是一样的。

我们只是证实了测试图和训练图中存在规律性的假设。