交易中的机器学习:理论、模型、实践和算法交易 - 页 364 1...357358359360361362363364365366367368369370371...3399 新评论 СанСаныч Фоменко 2017.05.19 10:40 #3631 弗拉基米尔-佩雷文科。看这里。在评估预测因子的重要性时,必须记住它是一个复杂的量,不能仅由信息标准决定。 在我看来,通过整合到基本算法中的手段和单独的手段来确定预测器的重要性,并不能解决问题,因为这种重要性实际上是使用预测器进行分类的频率。如果预测因子包括土星环、咖啡渣 ,算法也会使用这些预测因子。我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。我再给你举个例子。目标变量是男性/女性预测因素:服装。对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。如果我们开始在预测器中包括中性的,或者苏格兰风格的服装,那么就会出现重叠,这就是决定分类误差的原因。原则上没有办法摆脱这个错误。这些并不只是我的想法,在这个主题中,我提到了有类似想法的出版物。 Vladimir Perervenko 2017.05.19 13:03 #3632 桑桑尼茨-弗门科。 在我看来,预测器的重要性,通过基本算法中内置的手段或单独的手段来确定,并不能解决问题,因为这种重要性实际上是在分类中使用预测器的频率。如果预测因素包括土星环、咖啡渣 ,算法也会使用这些预测因素。我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。我再给你举个例子。目标变量是男性/女性预测因素:服装。对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。如果我们开始在预测器中包括中性的,或苏格兰风格的服装,就会出现重叠,这将决定分类误差。原则上没有办法摆脱这个错误。这些不仅仅是我的想法,在这个主题中,我已经提供了有类似想法的出版物的链接。真理是一个,通向真理的道路有无数条。每个人都有权选择自己的方式。最主要的是,它不应该导致一个死胡同。祝好运 Алёша 2017.05.19 13:57 #3633 马克西姆-德米特里耶夫斯基。 但我相信,有可能做出一个好的自我优化设备,它不会永远完美地工作,但偶尔也会给出但它显然不会是在标准指标和人字形输出上 :)对我来说,这甚至听起来像是某种儿童游戏,只是作为一个例子,如果只是。 我也希望如此,但我对三年前的幻想还很遥远,即通过配置一打参数和流行的库分类器就可以做到。结果发现这非常不简单,而且很慢,尤其是在晚上下班后(((()) ZZ 是一个糟糕的目标定位,我完全同意。 Алёша 2017.05.19 14:17 #3634 弗拉基米尔-佩雷文科。在评估预测因素的重要性时,重要的是要记住... ...预测器的重要性可以通过它们在第一层的权重来确定。elibrarius。该函数中计算重要性的算法 我分两步走,首先我处理线性相关的PCA特征,例如,然后我建立一个丰富的非线性模型,例如森林或XGB,通过特征(压缩的PCA)和崩溃那些没有仪表下降最小的特征。 Maxim Dmitrievsky 2017.05.20 15:55 #3635 安装了Open R,安装了所有软件包,VS 2017在创建R项目时仍然挂起。Python项目工作良好撤销了R Studio和R 3.4,只留下Open R,它可以工作 )显然,它们是相互矛盾的。而且在R Studio中也没有什么意义,都是一样的 Forester 2017.05.20 22:44 #3636 在训练前构建输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度? Maxim Dmitrievsky 2017.05.20 23:17 #3637 elibrarius。 在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度? 实际上,你应该删除相关的输入 :)如果你有与目标相关的输入,那么它就是一个圣杯,你不需要NS)))。 Uladzimir Izerski 2017.05.21 09:08 #3638 互联网上有一个有趣的软件。你在头脑中拼出一个流行的人物或个性,计算机通过问你具体问题,可以高概率地预测你的想法。这就是神经网络应该工作的方式。正确的问话。这就是神秘之处。 Дмитрий 2017.05.21 09:15 #3639 elibrarius。 在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度? 应该检查的不是变量与目标的相关性(应该是),而是变量之间缺乏相关性--不应该有任何相关性(多重共线性)。 Forester 2017.05.21 09:24 #3640 德米特里。 我们不应该检查变量与目标的相关性(应该有),但我们应该检查变量之间是否有相关性--应该没有(多线性)。我已经做了删除相关输入的工作,我只是想知道还能如何改进输入。 所以,我同意你的观点,应该与目标有相关性,这就是为什么我想另外删除与目标最不相关的输入,例如Kcorr<0.5或0.3。这应该会加快学习过程,而不会太影响质量。但有一个假设,我将不得不删除所有的输入)))。在所使用的输入上(从技术指标中随机抽取),到目前为止,我还没有发现与目标有任何关联,学习误差=0.44,即几乎是一枚硬币。那么,余额正在下降。 1...357358359360361362363364365366367368369370371...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
看这里。
在评估预测因子的重要性时,必须记住它是一个复杂的量,不能仅由信息标准决定。
在我看来,通过整合到基本算法中的手段和单独的手段来确定预测器的重要性,并不能解决问题,因为这种重要性实际上是使用预测器进行分类的频率。如果预测因子包括土星环、咖啡渣 ,算法也会使用这些预测因子。
我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。
我再给你举个例子。
目标变量是男性/女性
预测因素:服装。
对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。
如果我们开始在预测器中包括中性的,或者苏格兰风格的服装,那么就会出现重叠,这就是决定分类误差的原因。原则上没有办法摆脱这个错误。
这些并不只是我的想法,在这个主题中,我提到了有类似想法的出版物。
在我看来,预测器的重要性,通过基本算法中内置的手段或单独的手段来确定,并不能解决问题,因为这种重要性实际上是在分类中使用预测器的频率。如果预测因素包括土星环、咖啡渣 ,算法也会使用这些预测因素。
我在本主题和其他主题中多次写到,预测因素必须与目标变量 "相关"。
我再给你举个例子。
目标变量是男性/女性
预测因素:服装。
对于有严格道德规范的国家,如果预测器由长裤和短裙组成,它就会分成两个不重叠的子集,每个子集都能唯一地识别目标变量,即分类误差为零。
如果我们开始在预测器中包括中性的,或苏格兰风格的服装,就会出现重叠,这将决定分类误差。原则上没有办法摆脱这个错误。
这些不仅仅是我的想法,在这个主题中,我已经提供了有类似想法的出版物的链接。
真理是一个,通向真理的道路有无数条。
每个人都有权选择自己的方式。最主要的是,它不应该导致一个死胡同。
祝好运
但我相信,有可能做出一个好的自我优化设备,它不会永远完美地工作,但偶尔也会给出
但它显然不会是在标准指标和人字形输出上 :)对我来说,这甚至听起来像是某种儿童游戏,只是作为一个例子,如果只是。
我也希望如此,但我对三年前的幻想还很遥远,即通过配置一打参数和流行的库分类器就可以做到。结果发现这非常不简单,而且很慢,尤其是在晚上下班后(((())
ZZ 是一个糟糕的目标定位,我完全同意。
在评估预测因素的重要性时,重要的是要记住...
...预测器的重要性可以通过它们在第一层的权重来确定。
该函数中计算重要性的算法
安装了Open R,安装了所有软件包,VS 2017在创建R项目时仍然挂起。
Python项目工作良好
撤销了R Studio和R 3.4,只留下Open R,它可以工作 )显然,它们是相互矛盾的。
而且在R Studio中也没有什么意义,都是一样的
在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度?
在训练前建立输入变量与目标的相关性是否有意义?并删除最不相关的,以加快计算速度,提高学习程度?
应该检查的不是变量与目标的相关性(应该是),而是变量之间缺乏相关性--不应该有任何相关性(多重共线性)。
我们不应该检查变量与目标的相关性(应该有),但我们应该检查变量之间是否有相关性--应该没有(多线性)。
我已经做了删除相关输入的工作,我只是想知道还能如何改进输入。
所以,我同意你的观点,应该与目标有相关性,这就是为什么我想另外删除与目标最不相关的输入,例如Kcorr<0.5或0.3。这应该会加快学习过程,而不会太影响质量。但有一个假设,我将不得不删除所有的输入)))。
在所使用的输入上(从技术指标中随机抽取),到目前为止,我还没有发现与目标有任何关联,学习误差=0.44,即几乎是一枚硬币。那么,余额正在下降。