交易中的机器学习：理论、模型、实践和算法交易

[删除] 2018.12.12 18:27 #12021

阿列克谢-维亚兹米 金。

谢谢你。用与样本中的预测因子相同的值进行随机化，对吗？

总的来说，方法很明确，谢谢你，我需要考虑如何实施和尝试。

唉，我无法掌握它，所以我想听听你在这个场合下的复述。

不，要完全随机化，即完全清除预测值，把白噪声塞进去

然后当你去检查下一个时，再把原始值塞回去。

大致说来，把白噪声塞进每个预测器的位置，一次一个。这可能更容易理解。

一个重要的条件是：预测因子不应该有关联，否则你会得到胡言乱语的错误。为此，我首先通过PCA进行转换，但也可以做一个相关矩阵，并删除所有强相关的。还有另一种机制，但它很复杂

Aleksey Vyazmikin 2018.12.12 18:30 #12022

马克西姆-德米特里耶夫斯基。

不，完全按左旋随机化，即完全清除预测值，把白噪声塞进去

然后，当你去检查下一次时，再把原来的值推回去。

如果只是噪音，那么我们将完全打破分裂，例如，有一个带有 "超过100 "规则的分裂，但我们将添加从0到99的随机数，那么进一步的分裂将不再活跃。这可能是重要的，看看如果列表中的一个规则退出，进一步的分裂将如何运作...

Aleksey Vyazmikin 2018.12.12 18:33 #12023

马克西姆-德米特里耶夫斯基。

一个重要的条件：预测器不应该有关联，否则你会得到胡言乱语的错误......为此，我首先通过PCA进行转换，但也可以做一个相关矩阵，并删除所有强相关的。还有另一种机制，但它很复杂

什么样的关联性是可以接受的？毕竟，好的预测器应该与目标相关，这意味着它们在某种程度上会相互关联......

[删除] 2018.12.12 18:34 #12024

Aleksey Vyazmikin:

如果它只是噪音，那么我们就会完全打破分裂，例如有一个分裂的规则是 "超过100"，我们会放一个从0到99的随机，那么进一步的分裂就不会再活跃了，当其中一个表的规则落空时，进一步的分裂可能很重要...

因此，错误会下降很多，一切都会好起来，重要性很低。不要搞什么模型，你怎么知道树是怎么分的，每个人都是不同的，有不同数量的特征。他们总是看起来像医院的平均水平。

[删除] 2018.12.12 18:35 #12025

阿列克谢-维亚兹米 金。

什么样的关联性是可以接受的？毕竟，好的预测器必须与目标相关，这意味着它们在某种程度上会相互关联......。

这对于只有一个预测因子的线性回归来说是异端，在非线性模型中，没有任何东西必须与目标相关，特别是如果它是一个分类。

我不知道哪一个是可以接受的，这很难......或者是实验性的。当然，在这个意义上，使用PCA更容易。

Aleksey Vyazmikin 2018.12.12 18:43 #12026

马克西姆-德米特里耶夫斯基。

因此，错误将急剧下降，一切都会好起来，进口量很低。不要搞什么模型，你怎么知道树是怎么分的，而且每个人的特征数量都不一样。你总是看医院的平均水平。

然后你可以直接将该值置空或用任何其他值替换它--同样的随机性，但对我来说似乎并不符合逻辑......总之，如果我能实现它，我将尝试两种变体。

马克西姆-德米特里耶夫斯基。

这是线性回归的异端，在非线性模型中，没有什么东西应该与目标相关。

如果与目标有关联，那么预测者就不好，这是什么说法？

[删除] 2018.12.12 18:48 #12027

Aleksey Vyazmikin:

那么你可以直接将该值置空或用任何其他值替换它--同样的随机性，但在我看来这并不符合逻辑......总之，如果我可以实施，我将尝试两种方案。

那么，有什么理由说如果与目标有关联，那么预测者就不好呢？

我不在乎你怎么做，主要是重新排列组合，在我看来，这更像是一件小事。

我说的不是一个，而是当有很多个，而且进口产品大致相同的时候，因为它们之间的关联性很强。事实证明，在重排过程中去掉一个强势特征，模型误差不会下降，因为会有类似的特征具有相同的重要性，而强势特征都不会被识别。这就是为什么你应该一次性随机化所有相关的特征（这更难实现），或者注意不要强相关的东西

Aleksey Vyazmikin 2018.12.12 18:53 #12028

马克西姆-德米特里耶夫斯基。

随你怎么做，主要是重新安排芯片的原则，我认为更可能是小事一桩

我说的不是一个，而是当有很多，而且重要性大致相同的时候，因为相关性很强。所以，在重排中去掉一个强势特征并不会使模型误差减少，因为会有重要性相同的类似特征，而强势特征都不会被识别。

模型应该这样建立预测器来建立对称树--在我看来，不重新训练是不可能的，所以在创建模型时没有意义。

那么，什么样的关联性是可以接受的？

[删除] 2018.12.12 18:56 #12029

Aleksey Vyazmikin:

还是要靠模型来让预测器建立对称树--因为如果不重新学习，在我看来是不太可能的，因为在创建模型的时候是没有意义的。

在森林的情况下，它工作得很好，在catbust的情况下，你必须阅读，我不记得它是如何工作的。也许它本身有一个好的进口，因为模型本身的结构

我不知道什么是可以接受的，设置一个门槛，看看。+-模型中几乎没有变化。提升的方式与射频不一样，也许从一开始就有明确的重要性。

或者如果你确定这些特征是异质的，不相关的，那么就不要尝试这个步骤。

这些都是很重要的事情，特别是如果你有很多特征，需要从模型中剔除噪音，但也不至于让你担心每一个百分比的相关性，我认为。在-0.5；0.5的范围内可能是正常的。

我以后会自己做一个这样的变体，并检查一下。

Aleksey Vyazmikin 2018.12.12 19:32 #12030

马克西姆-德米特里耶夫斯基。

在森林的情况下效果很好，在catbust的情况下，你必须阅读，我不记得它是如何工作的。也许它本身具有良好的进口，因为模型本身的结构

我不知道什么是可以接受的，设置一个门槛，看看。+-模型中几乎没有变化。提升的方式与射频不一样，也许从一开始就有明确的重要性。

或者如果你确定这些特征是异质的，不相关的，那么就不要尝试这个步骤。

这些都是很重要的事情，特别是如果你有很多特征，需要减少杂乱无章的东西，但不至于让你担心每一个百分比的相关性，我认为。在-0.5；0.5的范围内可能是正常的。

我以后会自己做一个这样的变体，看一看。

我明白了，我得试试。我只是想看看相关模型的叶子，也许还有catbust模型。我知道模型配对是可能的--简单的搜索已经表明了这一点，但我应该合理地做每一件事，检测到相关将允许减少模型配对的迭代次数。

交易中的机器学习：理论、模型、实践和算法交易 - 页 1203