交易中的机器学习:理论、模型、实践和算法交易 - 页 1203

[删除]  
阿列克谢-维亚兹米 金。

谢谢你。用与样本中的预测因子相同的值进行随机化,对吗?

总的来说,方法很明确,谢谢你,我需要考虑如何实施和尝试。

唉,我无法掌握它,所以我想听听你在这个场合下的复述。

不,要完全随机化,即完全清除预测值,把白噪声塞进去

然后当你去检查下一个时,再把原始值塞回去。

大致说来,把白噪声塞进每个预测器的位置,一次一个。这可能更容易理解。

一个重要的条件是:预测因子不应该有关联,否则你会得到胡言乱语的错误。为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂
 
马克西姆-德米特里耶夫斯基

不,完全按左旋随机化,即完全清除预测值,把白噪声塞进去

然后,当你去检查下一次时,再把原来的值推回去。

如果只是噪音,那么我们将完全打破分裂,例如,有一个带有 "超过100 "规则的分裂,但我们将添加从0到99的随机数,那么进一步的分裂将不再活跃。 这可能是重要的,看看如果列表中的一个规则退出,进一步的分裂将如何运作...

 
马克西姆-德米特里耶夫斯基


一个重要的条件:预测器不应该有关联,否则你会得到胡言乱语的错误......为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂

什么样的关联性是可以接受的?毕竟,好的预测器应该与目标相关,这意味着它们在某种程度上会相互关联......

[删除]  
Aleksey Vyazmikin:

如果它只是噪音,那么我们就会完全打破分裂,例如有一个分裂的规则是 "超过100",我们会放一个从0到99的随机,那么进一步的分裂就不会再活跃了,当其中一个表的规则落空时,进一步的分裂可能很重要...

因此,错误会下降很多,一切都会好起来,重要性很 低。不要搞什么模型,你怎么知道树是怎么分的,每个人都是不同的,有不同数量的特征。他们总是看起来像医院的平均水平。

[删除]  
阿列克谢-维亚兹米 金。

什么样的关联性是可以接受的?毕竟,好的预测器必须与目标相关,这意味着它们在某种程度上会相互关联......。

这对于只有一个预测因子的线性回归 来说是异端,在非线性模型中,没有任何东西必须与目标相关,特别是如果它是一个分类。

我不知道哪一个是可以接受的,这很难......或者是实验性的。当然,在这个意义上,使用PCA更容易。
 
马克西姆-德米特里耶夫斯基

因此,错误将急剧下降,一切都会好起来,进口量很低。不要搞什么模型,你怎么知道树是怎么分的,而且每个人的特征数量都不一样。你总是看医院的平均水平。

然后你可以直接将该值置空或用任何其他值替换它--同样的随机性,但对我来说似乎并不符合逻辑......总之,如果我能实现它,我将尝试两种变体。

马克西姆-德米特里耶夫斯基

这是线性回归 的异端,在非线性模型中,没有什么东西应该与目标相关。

如果与目标有关联,那么预测者就不好,这是什么说法?

[删除]  
Aleksey Vyazmikin:

那么你可以直接将该值置空或用任何其他值替换它--同样的随机性,但在我看来这并不符合逻辑......总之,如果我可以实施,我将尝试两种方案。

那么,有什么理由说如果与目标有关联,那么预测者就不好呢?

我不在乎你怎么做,主要是重新排列组合,在我看来,这更像是一件小事。

我说的不是一个,而是当有很多个,而且进口产品 大致相同的时候,因为它们之间的关联性很强。事实证明,在重排过程中去掉一个强势 特征,模型误差不会下降,因为会有类似的特征具有相同的重要性,而强势特征都不会被识别。这就是为什么你应该一次性随机化所有相关的特征(这更难实现),或者注意不要强相关的东西

 
马克西姆-德米特里耶夫斯基

随你怎么做,主要是重新安排芯片的原则,我认为更可能是小事一桩

我说的不是一个,而是当有很多,而且重要性大致相同的时候,因为相关性很强。所以,在重排中去掉一个强势 特征并不会使模型误差减少,因为会有重要性相同的类似特征,而强势特征都不会被识别。

模型应该这样建立预测器来建立对称树--在我看来,不重新训练是不可能的,所以在创建模型时没有意义。

那么,什么样的关联性是可以接受的?
[删除]  
Aleksey Vyazmikin:

还是要靠模型来让预测器建立对称树--因为如果不重新学习,在我看来是不太可能的,因为在创建模型的时候是没有意义的。

在森林的情况下,它工作得很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身有一个好的进口,因为模型本身的结构

我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。

或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。

这些都是很重要的事情,特别是如果你有很多特征,需要从模型中剔除噪音,但也不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。

我以后会自己做一个这样的变体,并检查一下。

 
马克西姆-德米特里耶夫斯基

在森林的情况下效果很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身具有良好的进口,因为模型本身的结构

我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。

或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。

这些都是很重要的事情,特别是如果你有很多特征,需要减少杂乱无章的东西,但不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。

我以后会自己做一个这样的变体,看一看。

我明白了,我得试试。我只是想看看相关模型的叶子,也许还有catbust模型。 我知道模型配对是可能的--简单的搜索已经表明了这一点,但我应该合理地做每一件事,检测到相关将允许减少模型配对的迭代次数。