文章 "机器学习模型的变量评估和选择"

 

新文章 机器学习模型的变量评估和选择已发布:

本文重点介绍机器学习模型中输入变量(预测因子)的选择,预处理以及评估的相关细节。多种规范化的方法以及它们的特点都将在此被讨论。在处理过程中 将极大影响模型训练最终结果的环节也将在此探讨。我们将仔细看看,并评估新的及鲜为人知的用于确定输入数据信息量和可视化的方法。

我们将使用“RandomUniformForests”包,计算并分析变量不同值和各种组合的重要概念,预测因子和目标的对应关系,预测因子之间的相互作用,以及将所有重要的方面都考虑在内后预测因子集的最优选取。

我们将使用“RoughSets”包,换一个角度和基于其他概念来探讨预测因子的选择问题。我们将揭示不仅是预测因子集可以被优化,用于训练的样本集也可以被优化。

所有的计算和实验将用R语言来实现,准确的说是用 — Revolution R Open 3.2.1

OOB error

图 2. 训练误差取决于树的数量

作者:Vladimir Perervenko

 

祝贺您!

实际上,这是一本以该领域最新可用工具为基础的相关参考书。每个人都可以复制,一切都是免费的,维护、开发、记录....

尊重与敬意!

 
СанСаныч Фоменко:

祝贺您!

实际上,这是一本以该领域最新可用工具为基础的相关参考书。每个人都可以复制,一切都是免费的,维护、开发、记录....

尊重与敬意

问候 SanSanych。

在之前尝试过的所有预测器选择 方案中,这个方案是最清晰、最详细的。

祝您好运

 
是的!是的!我加入桑桑尼奇。非常感谢!深度学习的主题以及所有相关的细微差别都是实际而有前景的。作为一个数学知识并不深厚的人,我需要以系统的、最易获取的形式获得此类信息,并有可能深入研究某些问题。再次感谢!
 
我不想显得无知,也不贬低作者的功劳,他显然做得很好,但这一切有助于赚钱吗?
 
Alexey Oreshkin:
我不想显得无知,也不想贬低作者的功劳,他当然做得很好,但这一切有助于赚钱吗?

这要看情况。

用几个星期的时间就能赚到几百万?不,没用。

那些以交易为生并意识到一个像样的 EA 需要几年时间的人呢?是的。在这里,走正确的道路而不是在森林中徘徊是非常重要的,....。

PS.

证券市场的专业参与者借助什么工具赚钱?不是借助助教吗?毕竟,大学里所有的助教都是在两周内讲完的,都有学分。而证券市场的专业参与者都是拥有 "统计学"、"计量经济学"、"人工智能 "文凭的毕业生 ......。对他们来说,讨论的这篇文章很容易理解,尽管在很多方面都是新的。

PSPS.

我写这篇文章不是为了打击大家的积极性。我们不要看美林证券公司(Merrill Lynch)有 10 万名员工,在所有市场上用所有工具进行交易。

我们谈论的是非常有限的 TS:几个模型,十几种工具。并真正实现每月超过 20% 的回报率。

计划是这样的。

我们把 R.接下来,我们使用 RAttle。任何写过最简单的智能交易系统的人都可以使用。一个小时的工作。我们使用 Excel 准备一个源文件。之后,Rattle 会提供 6 个非常不错的模型,其中三个(ada、随机森林、SVM)非常有前途,其能力远远超过任何指标变体,尤其是神经网络(Rattle 中也有,可以进行比较)。

然后就开始了繁琐的工作,在许多方面都是挖掘输入数据列表的实质性工作。这是 Excel 的整体框架,也是 Rattle 的结果评估。一旦掌握了这些,您就进入了正确的轨道。

在 TA.....您写了一个 Expert Advisor,它似乎带来了利润.....。然后,如果交易者不信任它,想在他的下一个 "圣杯 "泄露之前把它扔掉,那么它肯定会腐烂,这是一种巨大的幸福....。就这样持续一生。经验是无法积累的--理论上是不可能的。

 
<br/ translate="no">

计划是这样的。

我们先放一个 R。接下来,我们使用 RAttle。任何写过最简单的智能交易系统的人都可以使用。一个小时的工作。使用 Excel,我们准备一个源文件。之后,Rattle 会提供 6 个非常不错的模型,其中三个(ada、随机森林、SVM)非常有前途,其能力远远超过任何指标变体,特别是神经网络(Rattle 中也有,可以进行比较)。

它能赚钱吗?那么最富有、最成功的交易者 就是数学家了。在非稳态序列中寻找神话般的规律性就好比掷硬币。

 

"在非稳态序列中寻找神话般的模式就好比掷硬币"。

这应该被记录为最愚蠢的言论中最傲慢的言论。

而这个问题:"它能赚钱吗?"说的是训练水平。

的确:"人的思想是有限的,愚蠢是无限的"。

 
Alexey Oreshkin:

在非稳态数列中寻找神话般的规律性就好比掷硬币。

没错。掷硬币的结果是静止的,但掷硬币的人却不知道这一点。当然,除非它是用塑化剂制成的,也就是说,它的形状在很长一段时间内都不会改变。然而,在这种静止过程中赚钱的傻瓜还是有的。
 
一般来说,每个人都应该学习统计分析,无论如何,这都不是多余的:)但问题依然存在--输入什么数据,输出什么数据:)
 
Maxim Dmitrievsky:
一般来说,每个人都应该学习统计分析,无论如何,这都不是多余的:)但问题依然存在--输入什么数据,输出什么数据:)

这永远不会是多余的。但是,即使在这个主题的讨论中,他们建议使用 6 个非常合适的模型,输入和输出又有什么关系呢?它们有什么用?预测热流量的消耗--为此目的,它们可以是体面的。这与市场有什么关系?

我不是在评判,当然也不是在争论这种赚钱方法。对我来说,这只是一种兴趣和讨论,仅此而已。至于那些早就创建了超级智能神经网络......却仍在那里..... 的蹩脚虫们跟他们说话根本没意思。