交易中的机器学习:理论、模型、实践和算法交易 - 页 560

 
桑桑尼茨-弗门科

我有类似的森林和阿达的数字。

现在,回到我们的 "公羊"--我如何从一个任意的预测器列表中抛弃噪音?我有一些经验性的算法,从170个预测器中选出27个预测器。我也曾用它来分析其他人的预测器组,也很成功。基于这一经验,我认为所有来自R的、在其算法中使用 "重要性 "变量的方法都不能清除预测器集的噪音。

我向该主题的所有读者呼吁:如果原始数据以RData或不需要处理的Excel文件形式呈现,我愿意做相应的分析。

除此以外。

我附上了一些文章,据说这些文章解决了清除原始预测器集的噪音问题,而且质量要好得多。可惜我现在没有时间去尝试。也许有人会试一试并公布结果?


决定先读 一下这个题目(原来我没有)。然后出现了一些问题,如:。

1.脚手架是在随机的特征子集上训练的,这是否意味着没有随机选择训练的特征将被标记为 "不重要"?

2.当有分类的特征,而脚手架对它们的重视程度不如有更多类别的特征时,该怎么做/or理解?

3.PCA在每个新样本上都不会分配 "新 "的成分,这与训练样本中的成分会有很大不同,如何处理?

还有最后一件事:一个稍微不同的递归特征消除方法:http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

这篇文章也有以前描述脚手架的文章的链接。

Selecting good features – Part IV: stability selection, RFE and everything side by side
  • 2014.12.20
  • blog.datadive.net
In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
 
马克西姆-德米特里耶夫斯基

决定先读 一下这个题目(事实证明我没有)。然后出现了一些问题,如:。

1.森林是在一个随机的特征子集上训练的,这是否意味着随机不在训练中的特征将被标记为 "不重要"?

2.当有分类的特征,而脚手架对它们的重视程度不如有更多类别的特征时,该怎么做/怎么理解?

3.PCA在每个新样本上都不会分配 "新 "的成分,这与训练样本中的成分会有很大不同,如何处理?

还有最后一件事:一个稍微不同的递归特征消除方法:http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

这篇文章也有链接到之前描述脚手架的部分。


不幸的是,我的个人答案不会对这里 或其他文献中关于该主题的内容有任何补充。

有相当多的算法用于确定特征的 "重要性"(回归或类别并不重要)--所有这些都在R中。

我花了很多时间来掌握它们,最后我发现要做的首要事情是摆脱嘈杂的、与目标变量无关的属性,然后从R中使用,这将使误差减少5-7%。无法实现小于20%的误差。

我再次注意到,我在每个条上做了一个重要组件的选择,并在所得的集合上重新训练森林。


这些数字如下。

  • 在几百个预测因子中,我按噪音标准选择了27个预测因子,即与目标变量 "相关"。
  • 我从每个条形图上的27个中按重要性标准进行选择(RFE)。
  • 在获得5-15属性后,我学习了森林。这个名单在所使用的27个内一直在变化。


这种方法的质量标准:我取两个文件,在第一个文件上进行教学,训练,验证=大约相同的错误。我在第二个文件上检查得到的模型=大约与第一个文件上的错误相同。我就此得出的结论是,该模型没有被过度训练,在未来,至少有一个酒吧,会表现出与训练中相同的方式。

任何其他的方法对我来说都不起作用,用一个模型类型替换另一个模型,在再训练方面没有任何改善。



关于PCA。我得到了一个否定的结果,即与原始集合相比,使用主成分并没有减少误差。我不明白为什么会这样,尽管理论上它应该减少错误。

 
桑桑尼茨-弗门科

在我看来,当把模型用于异质性状时,PCA通常是无用的,例如外汇...。我认为使用一个具有异质属性的模型是没有用的,比如说外汇。

如果我们回到脚手架上。

我必须去看源代码,似乎要了解那些没有进入训练样本的特征是如何被评估的,那里没有提到(很可能被评估为不好)。

+脚手架的学习过程是随机的,连续几次训练,我们可能会得到不同的结果,有时会有明显的不同......也不太清楚如何利用这个技巧。好吧,如果我们对模型进行了微调,保存了它并在以后使用它......但如果模型是自我训练的......我们需要连续训练几次,选择最小的误差,类似这样......否则在测试器中多次运行会产生不同的结果,根据我的观察,最多5次或更多,然后他们重复/重复地进行后续运行

 
马克西姆-德米特里耶夫斯基

在我看来,当把模型用于异质性状时,PCA通常是无用的,例如外汇...。因为我们在一些成分上进行了训练,而在测试中出现了另一种成分组合,模型没有以任何方式考虑到。

如果我们再回到脚手架上。

我得去看一下源代码,似乎要了解那些没有进入训练样本的特征是如何被评估的,那里没有提到(很可能被评估为不好)。

+脚手架的学习过程是随机的,连续几次训练,我们可能会得到不同的结果,有时会有明显的不同......也不太清楚如何利用这个技巧工作。好吧,如果我们对模型进行了微调,保存起来以后使用......但如果模型是自我训练的......我们需要连续训练几次,选择最小误差,等等......否则,当在测试器中多次运行时,我们得到不同的结果,根据我的观察,最多5次以上,然后他们重复/再重复进行后续运行


我不记得你描述的那些激情。用同样的种子,结果是一致的。

 
桑桑尼茨-弗门科

我不记得你描述的那些激情。用同样的种子,结果是一致的。


种子是做什么的? 我不记得了......功能的数量,对吗? 我使用alglib森林

 
逆转45
不知道乘法表的老师和不强求的NS的开发者,随机的、正确的解决方案--没有更多的倾诉!。

我支持这个观点。

这只是一个空闲的摇晃。贴出一个例子,上限数据,以便你检查。

有三种主要的学习方式:没有老师(目标没有呈现),有老师(目标被完全标记)和半监督(我不知道如何正确翻译)。这时,模型会遇到一个没有完全(部分)标记的目标。其余的都是属于恶者。

祝好运

 
马克西姆-德米特里耶夫斯基

种子是做什么的? 我不记得了......功能的数量? 我使用alglib森林

来吧...

set.seed将随机数发生器 设置为某一状态,在重复计算时有一个可重复的结果。

学习你的数学。

 
弗拉基米尔-佩雷文科

来吧...

set.seed将随机数发生器 设置为某个状态,在重复计算时有一个可重复的结果。

学习数学。


我没有这样的设置,这就是我问的原因。

我在MT5中也能做到,谢谢你。

 
弗拉基米尔-佩雷文科

我支持这个观点。

这只是一个空闲的摇晃。贴出一个例子,上限数据,以便你检查。

训练的方式主要有三种:没有老师(目标没有呈现),有老师(目标被完全标记)和半监督(我不知道如何正确翻译)。这时,模型会遇到一个没有完全(部分)标记的目标。其余的都是属于恶者。

祝好运

好吧,好吧。))如果你完全了解算法并能找到目标,那么你为什么需要NS?没有它,你可以做任何事情)。

恰恰在你不知道的时候需要NS和其他DM。

至于学习算法,它们是为每项具体任务开发和修改的。主要是基于基础知识。

而你所说的只是在摇晃空气。阅读介绍以外的内容。)

好运。

 
尤里-阿索连科

好吧,好吧。))如果你完全了解算法并能找到目标,为什么还需要NS呢?没有它,你可以做任何事情)。

你明白你写的是什么吗?目标没有找到,它被预先定义为模型必须学习的东西。你说的是什么算法?

恰恰在你不知道的时候需要NS和其他DM。

我们不知道什么?

至于学习算法,它们是为每项具体任务开发和修改的。它们大多是基于基本的。

我们在这里谈论的是要解决的两个任务:回归和分类(省略聚类和排名)。你还有什么 "具体任务"?

而你所说的是在摇晃空气。阅读介绍以外的内容。)

???

好运。

原因: