就我所见,它已经在运行 EM 算法了。
也有使用深度神经网络的想法,但仍在研究中。
好的。此外,还在研究一种翻转原始序列的方法--这样就能自动平衡类别。
好的。我们还在研究一种翻转原始系列的方法--这种方法可以自动平衡等级。
作为一种选择,您还可以使用超采样-反采样及其组合。但这并不能带来明显的改进,而 GMM 却可以。此外,聚类越多越好。纯属经验之谈。
这里有一篇关于重采样的好文章,附有示例 https://imbalanced-learn.readthedocs.io/en/stable/index.html。
核 密度估计也比 GMM 差。理论上,深度神经网络应该比 GMM 更好。因为 GMM 不能很好地处理大型特征空间。
- imbalanced-learn.readthedocs.io
这篇文章很有意思。
我的感觉是,通过随机分配和伪样本生成这种棘手的方法,我们只会发现训练期的类似依赖关系在测试中很重要。
测试失败的模型比例是多少?
增加第三个样本会很有趣--让我们从第一个样本中学习,在测试中选择好的结果,并在考试中检查选择结果。
主要的疑问点在于从最新数据中学习,并对旧数据进行测试。这有点类似于展望未来:当前的最新模型吸收了早期模型的一些东西(毕竟市场参与者是有记忆力的),但反过来说,预测未来就更难了。我认为,如果以典型的方式重启算法(在旧数据上训练,在新数据上测试--这更像现实),结果就不会那么好了。
据我所知,对于这种方法来说,这只是一个蛮力时间的问题。
据我所知,对于这种方法来说,这只是一个蛮力时间的问题。
我没有意识到这一点。我可能弄错了,但在设置中,从 2015 年开始,铁定要在最后一年进行训练,在前几年进行测试。
我没意识到这一点。我可能弄错了,但在设置中,从 2015 年开始,铁定要在最后一年进行培训,并在前几年进行测试。
因此,有一种 "蛮力"--其目的是在 2020 年找到那些自 2015 年以来整个时期都有效的模式。从理论上讲,可能还需要更多的蛮力,但目标一定会实现。另外,目前还不清楚这到底是一种模式还是一种拟合,如果连这个问题的假设性答案都没有,就很难决定在 real.... 上安装 TC 的可行性。
因此,有一个超采样--其目的是在 2020 年找到那些在整个时期--自 2015 年以来一直有效的模式。从理论上讲,可能需要更多的蛮力,但目标会实现,另一个问题是,目前还不清楚这是一种模式还是一种拟合,如果连这个问题的假设性答案都没有,就很难决定在 real.... 上安装 TC 的可行性。
这取决于将什么视为规律性,如果是与时间相关的增量顺序,则是增量行为的季节规律性,如果没有约束力,则是具有一定精度自由度的相同增量顺序。
这取决于什么被认为是合适的。如果明知是相同的序列,那么它就是一种拟合,但测试的目的(无论从哪方面看)是检查非相同区域的结果。
在近阶段进行训练的逻辑是合乎逻辑的,但如果我们在历史深处进行测试,结果也是一样的,如果我们在历史深处进行训练,在近阶段进行测试,结果也应该是一样的。
我们只是证实了测试图和训练图中存在规律性的假设。
新文章 基于暴力算法的 CatBoost 模型高级重采样与选择已发布:
本文描述了一种可能的数据转换方法,旨在提高模型的通用性,并讨论了 CatBoost 模型的采样和选择。
上一篇文章中使用的标签的简单随机抽样有一些缺点:
模型1具有残差的自相关,可以将其与某些市场属性的模型过度拟合(例如,与训练数据的波动性相关)进行比较,而其他模式则不考虑在内。模型2具有具有相同方差的残差(平均值),这表明模型覆盖了更多信息或发现了其他依赖性(除了相邻样本的相关性)。
作者:Maxim Dmitrievsky