文章 "用随机森林预测趋势"

freewalk 2017.10.19 10:24 #121

MetaQuotes Software Corp.:

这个模型预测上非常容易，但是实际操作中存在很多问题，

1.因为选择的是zigzag信号作为目标，一个最简单的变量就可以把他预测出来，比如price过去20个周期的排序，显然从目标设计来看，moverank_price_20 =1 时，zigzag的信号是向上的，moverank_price_20 >1 时，zigzag的信号是向下的可能性90%以上；可以构造出很多这样的变量出来，所以模型预测上很容易成功；但是这里有一个先验条件就是你必须知道这个点是zigzag的点。如果是其他时点，而不是zigzag的点时，上面的变量不存在预测能力。

2.所以应用的时候会存在很大的问题，因为你不知道什么是zigzag的起点，所以你必须对所有的数据进行计算，这个时候moverank_price_20 =1 时，并不以为着是zigzag的起点，所以也无法预测改点后面的走势是向上的。

3.所以zigzag的目标设定方法很难行得通。

Aleksey Vyazmikin 2018.04.10 04:16 #122

您能告诉我在 Windows 系统下该怎么做吗？如果可以的话，请用俄语，因为这里有些东西被弄乱了 https://rattle.togaware.com/rattle-install-mswindows.html。

Aleksey Vyazmikin 2018.05.14 12:28 #123

文章中有一个表格

	0	1	平均减少准确度	平均减幅基尼系数
MA_eur.5.dif1	42.97	41.85	54.86	321.86
EUR.dif3	37.21	46.38	51.80	177.34
RSI_eur.14	37.70	40.11	50.75	254.61
EUR.dif2	24.66	31.64	38.24	110.83
MA_eur.10.dif1	22.94	25.39	31.48	193.08
CHF.dif3	22.91	23.42	30.15	73.36
MA_chf.5.dif1	21.81	23.24	29.56	135.34

但是没有提到这些数字本身的含义，它们与其他数字的关系是可以理解的--更好--更好，但是数值本身，它们应该是什么，它们取决于什么？在这篇文章中，MeanDecreaseGini 的最大值是 321.86，而我有 1876--它取决于预测因子的数量还是什么？我的平均下降准确率为 140.22，我该如何解释？也许我应该将所有值转换为最大值的百分比？

Discussion of article "Random 离题的MQL问题 Off-topic MT4/mql4 questions.

СанСаныч Фоменко 2018.05.14 13:22 #124

Aleksey Vyazmikin:

文章中有一张表格

	0	1	平均下降准确率	平均减幅基尼系数
MA_eur.5.dif1	42.97	41.85	54.86	321.86
EUR.dif3	37.21	46.38	51.80	177.34
RSI_eur.14	37.70	40.11	50.75	254.61
EUR.dif2	24.66	31.64	38.24	110.83
MA_eur.10.dif1	22.94	25.39	31.48	193.08
CHF.dif3	22.91	23.42	30.15	73.36
MA_chf.5.dif1	21.81	23.24	29.56	135.34

但是没有说明这些数字本身意味着什么，它们与其他数字的关系是可以理解的--更好就是更好，但是这些值本身应该是什么，它们取决于什么？在这篇文章中，MeanDecreaseGini 的最大值是 321.86，而我有 1876--它取决于预测因子的数量还是什么？我的平均下降准确率为 140.22，我该如何解释？也许我应该将所有值转换为最高值的百分比？

这是在使用预测因子时的内部统计结果，同时还构建了一堆树，这些树都被称为 randoForest。比较不同的模型毫无意义。即使在同一模型中，我也无法进行比较。如果你想选择预测因子，就需要使用其他工具。我在机器学习主题上写过很多次，我不是唯一的一个。

Aleksey Vyazmikin 2018.05.14 13:26 #125

СанСаныч Фоменко:

这是在构建一堆树时使用预测因子的内部统计，所有这些树都被称为 randoForest。比较不同的模型完全没有意义。即使在同一模型中，我也无法进行比较。如果你想选择预测因子，就需要使用其他工具。我在机器学习主题上写过很多次，我不是唯一的一个。

我明白了，即它是一个模型内的估计器，但不是绝对....。

也许吧，当然，我也在论坛上写过，但那是为了应付....。- 我通过阅读器读了半个论坛。如果您能为我指点迷津，我将不胜感激。

СанСаныч Фоменко 2018.05.14 16:23 #126

Aleksey Vyazmikin:

我明白了，也就是说，它是模型中的一个估计值，但不是绝对值....

也许吧，当然，我也在论坛上写过，但那是为了应付......- 我通过阅读器读了半个论坛。如果您能捅破这层窗户纸，我将不胜感激。

1.我没有简短的答案，因为这是一个完整的行业，叫做数据挖掘，相当于建模

2.数据挖掘分类模型的标准方案如下：

定义一个目标变量
寻找目标变量的预测因子。
确定预测因子的预测能力，即预测因子的一部分应预测一类，另一部分应预测另一类，重叠越小，预测因子越好。
我们使用软件包来确定预测因子的重要性。这些软件包有很多，我在文件链中提供了一个概述

3.在文件的前半部分拟合模型，最好进行交叉验证

4.检查文件的后半部分。结果应一致

为此，您需要大量的 DONE 工具。最好的是 Caret。它拥有你所需要的一切。但还不够。

PS.

这是 R。除此以外，你只能听到婴儿语无伦次的胡言乱语。

附加的文件：

h49wu_f1ikga_mk1wp57y1k9.zip 44 kb

Aleksey Vyazmikin 2018.05.15 00:57 #127

СанСаныч Фоменко:

1.我没有简短的答案，因为这是一个名为 "数据挖掘 "的产业，相当于建模。

2.数据挖掘分类模型的标准方案如下：

定义一个目标变量
找到目标变量的预测因子
确定预测因子的预测能力，即预测因子的一部分应预测一类，另一部分应预测另一类，重叠越小，预测因子越好。
我们使用软件包来确定预测因子的重要性。这些软件包有很多，我在附件中提供了一个概述文件

3.对文件的前半部分进行模型拟合，最好进行交叉验证

4.检查文件的后半部分。结果应符合

为此，您需要大量的 DONE 工具。最好的是 Caret。它拥有所需的一切。但还不够。

PS.

这是 R。除此以外，你就只能听到语无伦次的婴儿咿呀学语了。

谢谢，我会继续找的！

Aleksey Vyazmikin 2018.05.15 12:04 #128

我安装了 RStudio，下载了Boruta 软件包，但如何激活它，如何使用它？

СанСаныч Фоменко 2018.05.15 13:04 #129

Aleksey Vyazmikin:
我安装了 RStudio，下载了Boruta 软件包，但如何激活它，如何使用它？

阅读所有软件包的文档。在 RStudio 中，打开 "软件包 "选项卡，在搜索中输入软件包名称，然后点击弹出的软件包名称，帮助就会打开。或者在这里按软件包名称搜索，可能会有相关资料的链接。

如果您对意识形态感兴趣，可以在软件包所含函数中找到理论文章的链接。

CRAN Packages By Name

cran.r-project.org

The package will formally test two curves represented by discrete data sets to be statistically equal or not when the errors of the two curves were assumed either equal or not using the tube formula to calculate the tail probabilities

Aleksey Vyazmikin 2018.05.15 13:25 #130

СанСаныч Фоменко:

阅读所有软件包的文档。在 RStudio 中，打开 "软件包 "选项卡，在搜索中输入软件包名称，然后点击弹出的软件包名称，帮助就会打开。或者点击软件包名称，可能会有相关资料的链接。

如果对意识形态感兴趣，软件包中包含的功能中会有理论文章的链接。

谢谢！

于是我打开了 pdf 的说明，这里的设置让我目瞪口呆--要求的东西太多了，我不知道其中一半是什么意思。

有没有更简单的方法，即使不那么可靠，最好还有图形用户界面？

总之，如果您能就这一主题撰写文章，并详细说明在哪里以及如何操作，那将会非常有用！

文章 "用随机森林预测趋势" - 页 13