交易中的机器学习:理论、模型、实践和算法交易 - 页 364

 
弗拉基米尔-佩雷文科

这里

在评估预测因子的重要性时,必须记住它是一个复杂的量,不能仅由信息标准决定。


在我看来,通过整合到基本算法中的手段和单独的手段来确定预测器的重要性,并不能解决问题,因为这种重要性实际上是使用预测器进行分类的频率。如果预测因子包括土星环、咖啡渣 ,算法也会使用这些预测因子。


我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。

我再给你举个例子。

目标变量是男性/女性

预测因素:服装。

对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。

如果我们开始在预测器中包括中性的,或者苏格兰风格的服装,那么就会出现重叠,这就是决定分类误差的原因。原则上没有办法摆脱这个错误。


这些并不只是我的想法,在这个主题中,我提到了有类似想法的出版物。

 
桑桑尼茨-弗门科


在我看来,预测器的重要性,通过基本算法中内置的手段或单独的手段来确定,并不能解决问题,因为这种重要性实际上是在分类中使用预测器的频率。如果预测因素包括土星环、咖啡渣 ,算法也会使用这些预测因素。


我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。

我再给你举个例子。

目标变量是男性/女性

预测因素:服装。

对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。

如果我们开始在预测器中包括中性的,或苏格兰风格的服装,就会出现重叠,这将决定分类误差。原则上没有办法摆脱这个错误。


这些不仅仅是我的想法,在这个主题中,我已经提供了有类似想法的出版物的链接。

真理是一个,通向真理的道路有无数条。

每个人都有权选择自己的方式。最主要的是,它不应该导致一个死胡同。

祝好运

 
马克西姆-德米特里耶夫斯基


但我相信,有可能做出一个好的自我优化设备,它不会永远完美地工作,但偶尔也会给出

但它显然不会是在标准指标和人字形输出上 :)对我来说,这甚至听起来像是某种儿童游戏,只是作为一个例子,如果只是。

我也希望如此,但我对三年前的幻想还很遥远,即通过配置一打参数和流行的库分类器就可以做到。结果发现这非常不简单,而且很慢,尤其是在晚上下班后(((())

ZZ 是一个糟糕的目标定位,我完全同意。

 
弗拉基米尔-佩雷文科

在评估预测因素的重要性时,重要的是要记住...

...预测器的重要性可以通过它们在第一层的权重来确定。

elibrarius

该函数中计算重要性的算法

我分两步走,首先我处理线性相关的PCA特征,例如,然后我建立一个丰富的非线性模型,例如森林或XGB,通过特征(压缩的PCA)和崩溃那些没有仪表下降最小的特征。
 

安装了Open R,安装了所有软件包,VS 2017在创建R项目时仍然挂起。

Python项目工作良好

撤销了R Studio和R 3.4,只留下Open R,它可以工作 )显然,它们是相互矛盾的。

而且在R Studio中也没有什么意义,都是一样的


 
在训练前构建输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度?
 
elibrarius
在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度?
实际上,你应该删除相关的输入 :)如果你有与目标相关的输入,那么它就是一个圣杯,你不需要NS)))。
 
互联网上有一个有趣的软件。你在头脑中拼出一个流行的人物或个性,计算机通过问你具体问题,可以高概率地预测你的想法。这就是神经网络应该工作的方式。正确的问话。这就是神秘之处。
 
elibrarius
在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度?

应该检查的不是变量与目标的相关性(应该是),而是变量之间缺乏相关性--不应该有任何相关性(多重共线性)。
 
德米特里

我们不应该检查变量与目标的相关性(应该有),但我们应该检查变量之间是否有相关性--应该没有(多线性)。

我已经做了删除相关输入的工作,我只是想知道还能如何改进输入。

所以,我同意你的观点,应该与目标有相关性,这就是为什么我想另外删除与目标最不相关的输入,例如Kcorr<0.5或0.3。这应该会加快学习过程,而不会太影响质量。但有一个假设,我将不得不删除所有的输入)))。

在所使用的输入上(从技术指标中随机抽取),到目前为止,我还没有发现与目标有任何关联,学习误差=0.44,即几乎是一枚硬币。那么,余额正在下降。

原因: