交易中的机器学习:理论、模型、实践和算法交易 - 页 3145

 
Aleksey Nikolayev 点 搜索算法与时间序列变化点检测的相似性。在这两种情况下,通常都要将一个样本分割成两个差异最大的子样本。

添加。空白,时间实际上是一个空特征

 
Maxim Dmitrievsky #:
我明白,你也可以研究一下因果森林。顺便说一句,我还没有研究过它,如果有人能搞清楚它,读一读用它进行的实验会很有意思。
我不明白 Sanych 的方法:)他在研究均方根误差。或滑动窗口中的均方根误差。

不,我的研究是 "预测能力 "偏差。与模型本身的估计无关

 
СанСаныч Фоменко #:

不,我的问题是关于 "预测能力 "的偏差。这与模型本身的评估无关。

这不仅是你的问题,也是任何 MOSH 人员的问题:)
交叉验证很常见。
出于某种原因,你只是认为自己在做不同的事情。

如果通过 MO 进行估算,就会得到可比的估算结果。因为它运行良好,不会比自制估算差。

我的结论是基于您的描述。
 

在选择信息特征的类似实验中,我尝试了所有的方法。这并不难。从相关性、互信息和 knn 开始,到 OLS 和 SVM,再到森林、声学和神经网络(我没有接触深度网络)。结果表明,bousting 的效果最好。OLS 位居第二。

道理很简单:如果将 bousting 缩减为一棵树,并进行一次分割,那么就可以评估互信息、样本或排列熵以及部分 OLS。
 
СанСаныч Фоменко #:

不,我的质疑是关于 "预测能力 "的偏差。与模型本身的评估无关

是否有可能模型的参数在每一步之间跳跃很大?也就是说,尽管每一步都有很好的 "预测能力",但所期望的依赖关系却安排得很不一样,而且在不断变化。如果是这样,这很可能是一种过度训练。

 
Maxim Dmitrievsky #:
我明白,你也可以研究一下因果森林。顺便说一句,我没有研究过它,但如果有人了解它,读一读用它做的实验会很有趣

这似乎是同样的随机森林,但有因果关系的解释。因此,作为森林和因果森林的普及者,你手中有牌)。

不过,我还不了解因果关系在交易中的应用。我在谷歌上搜索了一下,没有找到直接应用,只有间接应用--比如研究股票对外汇交易的影响。

 
Aleksey Nikolayev #:

这似乎是同一种随机森林,但有因果解释。因此,作为森林和因果关系解释的普及者,你手中有牌)。

不过,我还不了解因果关系在交易中的应用。我在网上搜索了一下,并没有找到直接的应用,只有间接的应用--比如研究股票对外汇的影响。

在处理未知问题时,需要花费大量的脑力:)谷歌上没有这种东西,直到最近也没有任何明确的通用手册。
 
Aleksey Nikolayev #:

会不会每一步的模型参数跳跃性都很大?也就是说,尽管每一步都有很好的 "可预测性",但所需的依赖关系却安排得很不一样,而且在不断变化。如果是这样,这很可能是一种过度训练。

在我的案例中,无法回答你的问题:模型在每一步都在重新训练,自然不同步骤的特征集也可能不同。

分类误差从 20% 到 10% 不等。从未出现过 25% 的误差。

 
Maxim Dmitrievsky #:

在选择信息特征的类似实验中,我尝试了所有的方法。这并不难。从相关性、互信息和 knn 开始,到 OLS 和 SVM,再到森林、声学和神经网络(我没有接触深度网络)。结果表明,bousting 的效果最好。OLS 位居第二。

道理很简单:如果将 bousting 缩减为一棵树,并进行一次分割,那么就可以评估互信息、样本或排列熵以及部分 OLS。

上述算法都无法提供预测能力,而数百种计算重要性(显示算法使用特征的频率 )的 MO 算法也无法提供预测能力:如果给 MO 算法输入垃圾信息,任何 MO 算法都会计算垃圾信息的重要性。

 
СанСаныч Фоменко #:

上述算法都不具备预测能力,数以百计的 MO 算法也不具备预测能力,因为这些算法会愚蠢地计算重要性,即某个特征被算法使用的频率 :如果把垃圾输入 MO 算法,任何 MO 算法都会计算这些垃圾的重要性。

分类/回归误差就会产生。我觉得这些奇怪的游戏玩得够多了,你会兜圈子的:)有这样一扇门可以出去。