文章 "用随机森林预测趋势"

TheXpert 2014.12.18 09:58 #81

Reshetov:

现在你把一切都毁了。你的高级人工智能怎么会没有立即识别出一个微不足道的数字呢？

СанСаныч Фоменко 2014.12.18 10:08 #82

gpwr:

faa1947，请在下面的示例中说明您的模型是如何工作的。第一列是建模序列，第二和第三列是预测因子。这些预测因子的预测能力是多少？

-0.35742	0.461646	-0.81907
0.431277	0.004545	0.426731
-0.00018	-0.4037	0.403528
-0.08575	0.90851	-0.99426
0.773826	0.008975	0.764852
0.426905	-0.96485	1.391757
0.253233	0.487955	-0.23472
0.20994	0.880554	-0.67061
-0.09929	0.160276	-0.25956
0.332911	-0.08736	0.420268
0.032258	0.360106	-0.32785
0.253027	-0.06859	0.321621
-0.66668	-0.54985	-0.11683
-0.5476	-0.13231	-0.41529
-0.75652	0.536488	-1.29301
-0.66109	-0.87314	0.212052
-0.09993	-0.86293	0.763
0.014625	0.715032	-0.70041
-0.48345	-0.62666	0.143206
-0.03596	0.935653	-0.97161
-0.17023	0.678024	-0.84826
0.293376	0.079529	0.213847
0.002922	0.754594	-0.75167
0.329194	-0.05535	0.384546
0.639423	-0.41358	1.053007
0.431631	-0.60334	1.034973
0.59125	0.497989	0.093262
0.266098	-0.79645	1.062549
-0.02624	0.643164	-0.6694
0.055014	-0.46214	0.517154
0.436132	-0.89992	1.336052
-0.30143	0.628619	-0.93005
-0.12168	0.886467	-1.00814
-0.10851	-0.0507	-0.0578
-0.74573	-0.50921	-0.23653
-0.574	0.244825	-0.81883
-0.87313	0.336188	-1.20932
-0.00344	0.117363	-0.1208
-0.20265	0.424326	-0.62697
0.177873	-0.17967	0.357541

我不是一个通才数学家。我尝试非常具体地推理，而从交易的角度来看，获得 10000 条线的样本并不困难。我不知道如何就 40 条线得出结论，也不认为有学习的必要，尽管我所说的一切都适用于这样的样本。对于药品来说，40 条线是正常的。

1.一般来说，我写的是模型的过度训练，"预测能力 "就是在这种训练中产生的。

2.2. 我关注的是名义值的预测--"多空"。这些是分类模型。你的例子，回归模型我不做......"。

我准备继续。

我需要一个可以运行 ZZ 并有多个突破的报价。从这里开始，我需要一个相当大的文件。

除了 cotir 本身，还需要几个预测因子，甚至一个。我要回答的问题是：这个预测器对多空是否有预测能力。

当然，还需要一个文件--或者您建议用手写输入所有内容？

Yury Reshetov 2014.12.18 10:25 #83

TheXpert:

雷舍托夫

你的样本具有 "高度普遍性 "的秘密已经揭晓：第一列的值是其他两列的值之和。

现在你把一切都毁了）。你的高级人工智能怎么会一下子就识别不出一个微不足道的和呢？

因为它建立的是二元分类模型，而这个任务来自多元回归部分。

虽然模型是用于二元分类的，但表达式

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

简化为：y ~ v0 + v1。

然后，剩下的就是在电子表格中测试假设了。

Vladimir Perervenko 2014.12.18 11:26 #84

下午好，SanSanych。

关于训练不足、训练过度的问题，你可以在这里查看本书的草稿 http://www.iro.umontreal.ca/~bengioy/dlbook/。

第 5.3.3 节对一切都做了很好的描述。总的来说，整本书都非常有用，尤其是由科里菲特撰写的。

祝您好运

СанСаныч Фоменко 2014.12.18 12:01 #85

vlad1949:

下午好，SanSanych。

关于训练不足、训练过度的问题，你可以在这里查看本书的草稿http://www.iro.umontreal.ca/~bengioy/dlbook/。

第 5.3.3 节对一切都做了很好的描述。总的来说，整本书都非常有用，尤其是由科里菲特撰写的。

祝您好运

下午好！

谢谢你的链接。

我有一套完整的工具和一些相关文献。但这并不便于实际应用。

如果您愿意，我可以与您分享，希望能将这一整套工具汇集到一起，实现自动化。

Vladimir Perervenko 2014.12.18 12:06 #86

faa1947:

下午好！

感谢您提供的链接。

我有一套完整的工具和一些相关文献。但这并不能让实际应用变得更容易。

如果您愿意，我可以与您分享，希望能将所有这些工具包与自动化结合起来。

我通过编程来解决这个问题。结果很好。

祝您好运

Vladimir 2014.12.18 15:34 #87

faa1947:

我不是万能的数学专家。我尝试非常具体地推理，在交易的基础上获得 10000 条线的样本并不困难。我不知道如何就 40 条线得出结论，也不认为有必要学习，尽管我所说的一切都适用于这样的样本。对于药品来说，40 条线是正常的。

1.一般来说，我写的是模型的过度训练，"预测能力 "就是在这种训练中产生的。

2.2. 我关注的是名义值的预测--"多空"。这些是分类模型。你的例子，回归模型我不做......"。

我准备继续。

我需要一个可以运行 ZZ 并有多个突破的报价。从这里开始，我需要一个相当大的文件。

除了 cotir 本身，还需要几个预测因子，甚至一个。我要回答的问题是：这个预测器对多空是否有预测能力。

当然，还需要一个文件--或者你建议全部用手打？

我明白了。通过比较模型在训练样本和训练样本之外的行为，很容易检查模型是否训练过度。但如何使模型不过度训练，取决于我们是否有能力确定哪些预测输入与建模序列相关，哪些与建模序列无关，这比确定过度训练要困难得多。模型的泛化能力取决于其过拟合程度。我举的例子非常简单。被建模的序列 y 是一个有噪声的正弦波。第一个预测因子 x1 是随机数。第二个预测因子 x2 是差值 x2 = y-x1。您拒绝将您的方法应用于这个简单的例子，只能让人怀疑您的方法无法确定数据的相关性，而确定相关性正是识别过度训练并消除它的主要目标。真实的建模问题要比我的例子复杂得多--它们既包括相关数据，也包括更多无关数据。将二者区分开来是非常困难的。具有所有输入的神经网络会被训练成与相关和非相关输入都有连接，因此会被重新训练。既然你显然不知道如何确定数据的相关性，我对你的文章和书籍也就没有兴趣了。祝你好运

СанСаныч Фоменко 2014.12.18 18:47 #88

gpwr:

通过比较模型在训练样本和训练样本之外的行为，很容易检查模型是否训练过度。

这是一个很大的假象，而且据我所知，你们还没有为此付出代价。文章中给出的模型在训练之外的三个样本上取得了同样好的结果--但这个模型被过度训练了。

如何使模型不过度训练，取决于我们能否确定哪些预测输入与建模序列相关，哪些不相关，这比确定过度训练要困难得多。

首先，仔细阅读论文--表 3 给出了预测因子在预测目标变量时的重要性

然后学习矩阵，例如研究选择预测因子的专业软件包 varSerf、Boruta、FSelector。CORElearn 软件包有 35 种（！）不同的算法，用于选择对目标变量重要的预测因子。

根据我的经验，在选择对目标变量重要的预测因子时，我们要注意以下几点

1. 我们要组成一个相当大的预测因子集，比如 50 个，条数为 15000。

2.2. 在上述算法的帮助下，我们在这 15000 个条形图上选择预测因子--我们通常会得到 15 到 20 个，这些预测因子在模型构建中的使用率超过 20%。

3.3. 然后，我们选择一个更小的窗口，例如 2000 条，开始逐条移动，从之前选出的 50 条中的 20 条中选择重要的预测因子。

4.4. 重要预测因子的具体列表一直在变化。

既然你显然不知道如何确定数据的相关性，我对你的文章和书籍也就没有兴趣了。

如果您花点小钱买我的书，其中解释了为什么需要它、如何理解它以及真实数据上的真实例子，您手中这些软件包的使用效率就会大大提高。

如果你和我一起尝试创建一个未经训练的预测模型，效果会更好。虽然不能保证成功，但可以保证的是，在与我交流之后，你不会再写这种肤浅的文章了。此外，您在使用真实账户时会更加小心谨慎。

Дмитрий 2014.12.18 19:16 #89

faa1947:

1. 我们形成一组相当大的预测因子，例如，50 件，条数为 15000。

好了，现在清楚为什么你卖书赚钱，而不是交易赚钱了吧。

TheXpert 2014.12.18 20:08 #90

faa1947:

这些都是巨大的幻想，而且我知道你们还没有为此付出代价。文章中给出的模型在三个样本的训练中取得了同样好的结果--但这个模型训练过度了。

过度训练是一个成熟且相当具体的术语。你不仅偷换概念，而且没有解释你对它的理解。

你说话的方式很像 Sulton ）。

文章 "用随机森林预测趋势" - 页 9