文章: 机器学习模型的变量评估和选择

MetaQuotes 2016.02.23 11:56

本文重点介绍机器学习模型中输入变量（预测因子）的选择，预处理以及评估的相关细节。多种规范化的方法以及它们的特点都将在此被讨论。在处理过程中将极大影响模型训练最终结果的环节也将在此探讨。我们将仔细看看，并评估新的及鲜为人知的用于确定输入数据信息量和可视化的方法。

我们将使用“RandomUniformForests”包，计算并分析变量不同值和各种组合的重要概念，预测因子和目标的对应关系，预测因子之间的相互作用，以及将所有重要的方面都考虑在内后预测因子集的最优选取。

我们将使用“RoughSets”包，换一个角度和基于其他概念来探讨预测因子的选择问题。我们将揭示不仅是预测因子集可以被优化，用于训练的样本集也可以被优化。

所有的计算和实验将用R语言来实现，准确的说是用 — Revolution R Open 3.2.1。

OOB error

图 2. 训练误差取决于树的数量