文章 "用随机森林预测趋势" - 页 9

 
Reshetov:
现在你把一切都毁了。你的高级人工智能怎么会没有立即识别出一个微不足道的数字呢?
 
gpwr:

faa1947,请在下面的示例中说明您的模型是如何工作的。第一列是建模序列,第二和第三列是预测因子。这些预测因子的预测能力是多少?

-0.35742 0.461646 -0.81907
0.431277 0.004545 0.426731
-0.00018 -0.4037 0.403528
-0.08575 0.90851 -0.99426
0.773826 0.008975 0.764852
0.426905 -0.96485 1.391757
0.253233 0.487955 -0.23472
0.20994 0.880554 -0.67061
-0.09929 0.160276 -0.25956
0.332911 -0.08736 0.420268
0.032258 0.360106 -0.32785
0.253027 -0.06859 0.321621
-0.66668 -0.54985 -0.11683
-0.5476 -0.13231 -0.41529
-0.75652 0.536488 -1.29301
-0.66109 -0.87314 0.212052
-0.09993 -0.86293 0.763
0.014625 0.715032 -0.70041
-0.48345 -0.62666 0.143206
-0.03596 0.935653 -0.97161
-0.17023 0.678024 -0.84826
0.293376 0.079529 0.213847
0.002922 0.754594 -0.75167
0.329194 -0.05535 0.384546
0.639423 -0.41358 1.053007
0.431631 -0.60334 1.034973
0.59125 0.497989 0.093262
0.266098 -0.79645 1.062549
-0.02624 0.643164 -0.6694
0.055014 -0.46214 0.517154
0.436132 -0.89992 1.336052
-0.30143 0.628619 -0.93005
-0.12168 0.886467 -1.00814
-0.10851 -0.0507 -0.0578
-0.74573 -0.50921 -0.23653
-0.574 0.244825 -0.81883
-0.87313 0.336188 -1.20932
-0.00344 0.117363 -0.1208
-0.20265 0.424326 -0.62697
0.177873 -0.17967 0.357541

我不是一个通才数学家。我尝试非常具体地推理,而从交易的角度来看,获得 10000 条线的样本并不困难。我不知道如何就 40 条线得出结论,也不认为有学习的必要,尽管我所说的一切都适用于这样的样本。对于药品来说,40 条线是正常的。

1.一般来说,我写的是模型的过度训练,"预测能力 "就是在这种训练中产生的。

2.2. 我关注的是名义值的预测--"多空"。这些是分类模型。你的例子,回归模型 我不做......"。

我准备继续。

我需要一个可以运行 ZZ 并有多个突破的报价。从这里开始,我需要一个相当大的文件。

除了 cotir 本身,还需要几个预测因子,甚至一个。我要回答的问题是:这个预测器对多空是否有预测能力。

当然,还需要一个文件--或者您建议用手写输入所有内容?

 

TheXpert:

雷舍托夫

你的样本具有 "高度普遍性 "的秘密已经揭晓:第一列的值是其他两列的值之和。


现在你把一切都毁了)。你的高级人工智能怎么会一下子就识别不出一个微不足道的和呢?

因为它建立的是二元分类模型,而这个任务来自多元回归 部分。

虽然模型是用于二元分类的,但表达式

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

简化为:y ~ v0 + v1。

然后,剩下的就是在电子表格中测试假设了。

 

下午好,SanSanych。

关于训练不足、训练过度的问题,你可以在这里查看本书的草稿 http://www.iro.umontreal.ca/~bengioy/dlbook/。

第 5.3.3 节对一切都做了很好的描述。总的来说,整本书都非常有用,尤其是由科里菲特撰写的。

祝您好运

 
vlad1949:

下午好,SanSanych。

关于训练不足、训练过度的问题,你可以在这里查看本书的草稿http://www.iro.umontreal.ca/~bengioy/dlbook/。

第 5.3.3 节对一切都做了很好的描述。总的来说,整本书都非常有用,尤其是由科里菲特撰写的。

祝您好运

下午好!

谢谢你的链接。

我有一套完整的工具和一些相关文献。但这并不便于实际应用。

如果您愿意,我可以与您分享,希望能将这一整套工具汇集到一起,实现自动化。

 
faa1947:

下午好!

感谢您提供的链接。

我有一套完整的工具和一些相关文献。但这并不能让实际应用变得更容易。

如果您愿意,我可以与您分享,希望能将所有这些工具包与自动化结合起来。

我通过编程来解决这个问题。结果很好。

祝您好运

 
faa1947:

我不是万能的数学专家。我尝试非常具体地推理,在交易的基础上获得 10000 条线的样本并不困难。我不知道如何就 40 条线得出结论,也不认为有必要学习,尽管我所说的一切都适用于这样的样本。对于药品来说,40 条线是正常的。

1.一般来说,我写的是模型的过度训练,"预测能力 "就是在这种训练中产生的。

2.2. 我关注的是名义值的预测--"多空"。这些是分类模型。你的例子,回归模型我不做......"。

我准备继续。

我需要一个可以运行 ZZ 并有多个突破的报价。从这里开始,我需要一个相当大的文件。

除了 cotir 本身,还需要几个预测因子,甚至一个。我要回答的问题是:这个预测器对多空是否有预测能力。

当然,还需要一个文件--或者你建议全部用手打?

我明白了。通过比较模型在训练样本和训练样本之外的行为,很容易检查模型是否训练过度。但如何使模型不过度训练,取决于我们是否有能力确定哪些预测输入与建模序列相关,哪些与建模序列无关,这比确定过度训练要困难得多。模型的泛化能力取决于其过拟合程度。 我举的例子非常简单。被建模的序列 y 是一个有噪声的正弦波。第一个预测因子 x1 是随机数。第二个预测因子 x2 是差值 x2 = y-x1。您拒绝将您的方法应用于这个简单的例子,只能让人怀疑您的方法无法确定数据的相关性,而确定相关性正是识别过度训练并消除它的主要目标。真实的建模问题要比我的例子复杂得多--它们既包括相关数据,也包括更多无关数据。将二者区分开来是非常困难的。具有所有输入的神经网络 会被训练成与相关和非相关输入都有连接,因此会被重新训练。既然你显然不知道如何确定数据的相关性,我对你的文章和书籍也就没有兴趣了。祝你好运
 
gpwr:

通过比较模型在训练样本和训练样本之外的行为,很容易检查模型是否训练过度。

这是一个很大的假象,而且据我所知,你们还没有为此付出代价。文章中给出的模型在训练之外的三个样本上取得了同样好的结果--但这个模型被过度训练了。

如何使模型不过度训练,取决于我们能否确定哪些预测输入与建模序列相关,哪些不相关,这比确定过度训练要困难得多。

首先,仔细阅读论文--表 3 给出了预测因子在预测目标变量时的重要性

然后学习矩阵,例如研究选择预测因子的专业软件包 varSerf、Boruta、FSelector。CORElearn 软件包有 35 种(!)不同的算法,用于选择对目标变量重要的预测因子。

根据我的经验,在选择对目标变量重要的预测因子时,我们要注意以下几点

1. 我们要组成一个相当大的预测因子集,比如 50 个,条数 为 15000。

2.2. 在上述算法的帮助下,我们在这 15000 个条形图上选择预测因子--我们通常会得到 15 到 20 个,这些预测因子在模型构建中的使用率超过 20%。

3.3. 然后,我们选择一个更小的窗口,例如 2000 条,开始逐条移动,从之前选出的 50 条中的 20 条中选择重要的预测因子。

4.4. 重要预测因子的具体列表一直在变化。

既然你显然不知道如何确定数据的相关性,我对你的文章和书籍也就没有兴趣了。

如果您花点小钱买我的书,其中解释了为什么需要它、如何理解它以及真实数据上的真实例子,您手中这些软件包的使用效率就会大大提高。

如果你和我一起尝试创建一个未经训练的预测模型,效果会更好。虽然不能保证成功,但可以保证的是,在与我交流之后,你不会再写这种肤浅的文章了。此外,您在使用真实账户时会更加小心谨慎。

 
faa1947:

1. 我们形成一组相当大的预测因子,例如,50 件,条数 为 15000。

好了,现在清楚为什么你卖书赚钱,而不是交易赚钱了吧。

 
faa1947:

这些都是巨大的幻想,而且我知道你们还没有为此付出代价。文章中给出的模型在三个样本的训练中取得了同样好的结果--但这个模型训练过度了。

过度训练是一个成熟且相当具体的术语。你不仅偷换概念,而且没有解释你对它的理解。

你说话的方式很像 Sulton )。