交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2017.05.19 10:40 #3631

弗拉基米尔-佩雷文科。

看这里。

在评估预测因子的重要性时，必须记住它是一个复杂的量，不能仅由信息标准决定。

在我看来，通过整合到基本算法中的手段和单独的手段来确定预测器的重要性，并不能解决问题，因为这种重要性实际上是使用预测器进行分类的频率。如果预测因子包括土星环、咖啡渣，算法也会使用这些预测因子。

我在本主题和其他主题中多次写到，预测因素必须与目标变量 "相关"。

我再给你举个例子。

目标变量是男性/女性

预测因素：服装。

对于有严格道德规范的国家，如果预测器由长裤和短裙组成，它就会分成两个不重叠的子集，每个子集都能唯一地识别目标变量，即分类误差为零。

如果我们开始在预测器中包括中性的，或者苏格兰风格的服装，那么就会出现重叠，这就是决定分类误差的原因。原则上没有办法摆脱这个错误。

这些并不只是我的想法，在这个主题中，我提到了有类似想法的出版物。

Vladimir Perervenko 2017.05.19 13:03 #3632

桑桑尼茨-弗门科。

在我看来，预测器的重要性，通过基本算法中内置的手段或单独的手段来确定，并不能解决问题，因为这种重要性实际上是在分类中使用预测器的频率。如果预测因素包括土星环、咖啡渣，算法也会使用这些预测因素。

我在本主题和其他主题中多次写到，预测因素必须与目标变量 "相关"。

我再给你举个例子。

目标变量是男性/女性

预测因素：服装。

对于有严格道德规范的国家，如果预测器由长裤和短裙组成，它就会分成两个不重叠的子集，每个子集都能唯一地识别目标变量，即分类误差为零。

如果我们开始在预测器中包括中性的，或苏格兰风格的服装，就会出现重叠，这将决定分类误差。原则上没有办法摆脱这个错误。

这些不仅仅是我的想法，在这个主题中，我已经提供了有类似想法的出版物的链接。

真理是一个，通向真理的道路有无数条。

每个人都有权选择自己的方式。最主要的是，它不应该导致一个死胡同。

祝好运

Алёша 2017.05.19 13:57 #3633

马克西姆-德米特里耶夫斯基。

但我相信，有可能做出一个好的自我优化设备，它不会永远完美地工作，但偶尔也会给出

但它显然不会是在标准指标和人字形输出上 :)对我来说，这甚至听起来像是某种儿童游戏，只是作为一个例子，如果只是。

我也希望如此，但我对三年前的幻想还很遥远，即通过配置一打参数和流行的库分类器就可以做到。结果发现这非常不简单，而且很慢，尤其是在晚上下班后(((())

ZZ 是一个糟糕的目标定位，我完全同意。

Алёша 2017.05.19 14:17 #3634

弗拉基米尔-佩雷文科。

在评估预测因素的重要性时，重要的是要记住...

...预测器的重要性可以通过它们在第一层的权重来确定。

elibrarius。

该函数中计算重要性的算法

我分两步走，首先我处理线性相关的PCA特征，例如，然后我建立一个丰富的非线性模型，例如森林或XGB，通过特征（压缩的PCA）和崩溃那些没有仪表下降最小的特征。

[删除] 2017.05.20 15:55 #3635

安装了Open R，安装了所有软件包，VS 2017在创建R项目时仍然挂起。

Python项目工作良好

撤销了R Studio和R 3.4，只留下Open R，它可以工作 )显然，它们是相互矛盾的。

而且在R Studio中也没有什么意义，都是一样的

Aleksei Kuznetsov 2017.05.20 22:44 #3636

在训练前构建输入变量与目标的相关性是否有意义？并删除最不相关的，以加快计算速度，提高学习程度？

[删除] 2017.05.20 23:17 #3637

elibrarius。
在训练前建立输入变量与目标的相关性是否有意义？并删除最不相关的，以加快计算速度，提高学习程度？

实际上，你应该删除相关的输入 :)如果你有与目标相关的输入，那么它就是一个圣杯，你不需要NS）））。

Uladzimir Izerski 2017.05.21 09:08 #3638

互联网上有一个有趣的软件。你在头脑中拼出一个流行的人物或个性，计算机通过问你具体问题，可以高概率地预测你的想法。这就是神经网络应该工作的方式。正确的问话。这就是神秘之处。

Дмитрий 2017.05.21 09:15 #3639

elibrarius。
在训练前建立输入变量与目标的相关性是否有意义？并删除最不相关的，以加快计算速度，提高学习程度？

应该检查的不是变量与目标的相关性（应该是），而是变量之间缺乏相关性--不应该有任何相关性（多重共线性）。

Aleksei Kuznetsov 2017.05.21 09:24 #3640

德米特里。

我们不应该检查变量与目标的相关性（应该有），但我们应该检查变量之间是否有相关性--应该没有（多线性）。

我已经做了删除相关输入的工作，我只是想知道还能如何改进输入。

所以，我同意你的观点，应该与目标有相关性，这就是为什么我想另外删除与目标最不相关的输入，例如Kcorr<0.5或0.3。这应该会加快学习过程，而不会太影响质量。但有一个假设，我将不得不删除所有的输入）））。

在所使用的输入上（从技术指标中随机抽取），到目前为止，我还没有发现与目标有任何关联，学习误差=0.44，即几乎是一枚硬币。那么，余额正在下降。

交易中的机器学习：理论、模型、实践和算法交易 - 页 364