文章 "基于暴力算法的 CatBoost 模型高级重采样与选择"

[删除] 2020.12.01 23:50 #121

Evgeni Gavrilovi:

是的，他是。

它说

#include <MT4Orders.mqh>

#include <Trade\AccountInfo.mqh> （包括 <Trade\AccountInfo.mqh

#include <cat_model.mqh>

最重要的是，当直接从 jupyter 笔记本加载 mqh 时，一切正常，这让我很惊讶。

我明白了......嗯，转移到 colab 时出了点问题......还没看，我在忙另一篇文章 )

Evgeni Gavrilovi 2020.12.02 00:02 #122

Maxim Dmitrievsky:
我明白了......嗯，转到 colab 的过程中出了点问题......我还没看，我在忙另一篇文章 )

我录制了我的屏幕，所以我在 colab 中加载 cat_model.mqh

[删除] 2020.12.02 00:26 #123

Evgeni Gavrilovi:

录制了我的屏幕，所以我在 colab 中加载了 cat_model.mqh。

在电脑上保存文件和在 colab 中保存文件时，look_back 和带掩码列表的设置是否一致？应该是一致的，否则保存到模型中的特征数量就会出错，就会出现像您这样的数组超限错误。

Evgeni Gavrilovi 2020.12.02 09:15 #124

Maxim Dmitrievsky:
在电脑上保存文件和在 colab 中保存文件时，look_back 和 MA 列表的设置是否一致？应该是一致的，否则保存到模型中的特征数量就会出错，就会出现您所遇到的超出数组的错误。

是的，完全吻合。

问题是，如果没有 get_prices 函数，记录就会出错，也许问题出在测试文件中？

天数是测试文件的 2 倍，测试文件有过去 6 个月的记录，而托盘文件只有过去 3 个月的记录。

[删除] 2020.12.02 11:39 #125

Evgeni Gavrilovi:

是啊，真是绝配。

问题是，如果没有 get_prices 函数，记录就会失败，也许问题出在测试文件中？

天数是测试文件的 2 倍，测试文件有过去 6 个月的数据，而托盘文件只有过去 3 个月的数据。

不，我认为是解析器的问题。在保存模型时，某个地方的特征数量设置不正确。也就是说，它学习了一个数字，但解析器却保存了另一个数字。我们稍后会弄清楚的。我只是没时间研究。

Evgeni Gavrilovi 2020.12.02 12:16 #126

Maxim Dmitrievsky:
不，我认为是解析器的问题。在保存模型时，某个地方的特征数量设置不正确。也就是说，它学习的是一个数字，但解析器保存的却是另一个数字。我们稍后会弄清楚的。我现在还没时间处理。

好的）

Evgeni Gavrilovi 2020.12.03 11:49 #127

我通过搜索所有变量解决了将数据加载到 colab 中的问题。

有必要在 get_prices 函数中直接写入 pr = pd.read_csv('file.csv', sep=';')，然后返回这个值 return pr.dropna()

iwelimorn 2020.12.03 20:56 #128

拧入随机森林。在 10000 个样本和 100 棵树的情况下开始稳定工作。

[删除] 2020.12.04 18:39 #129

welimorn:

拧入随机森林。在 10000 个样本和 100 棵树的情况下开始稳定工作。

这是一种奇特的方法。用于平衡等级。可以为我们的目的服务。只是引起了我的注意。

https://towardsdatascience.com/augmenting-categorical-datasets-with-synthetic-data-for-machine-learning-a25095d6d7c8

Augmenting categorical datasets with synthetic data for machine learning.

Egor Korneev
towardsdatascience.com

Consider a hypothetical but common scenario. You need to build a classifier to assign a sample to a opulation group. You have a sizable training dataset of one million samples. It has been cleaned, prepared and labeled. The few continuous variables are already normalized, and categorical variables, representing the majority of features, are...

mytarmailS 2020.12.05 08:38 #130

Maxim Dmitrievsky:

Karoch 我不知道，也许我的枪法不对 )))但我看不出有它和没有它有什么区别，在我看来，一切都是由目标决定的，没有别的....。

我总共有 60K 数据。

我从中随机抽取 500 个点。

我要么立即对它们进行模型训练，要么先训练 gmm，然后再训练模型。

然后在剩余的 50k 个点上进行测试

即使按照通常的方法，你也能找到与 gmm 一样的模型，而且它们被基因化的频率相同。

例如

不使用 gmm 的模型在 500 个点上训练，在 50k 个点上测试。

=================================================================================================

我看到了一个值得思考的有趣现象....

有一种观点认为，应该将市场划分为不同的状态，并在每种状态下按照自己的策略进行交易，但我所知道的所有尝试都是不成功的，要么看不到状态，要么即使在 "一种 "状态下模型的交易也很差。

但通过这种方法，你可以很清楚地看到模型 "喜欢 "哪个市场，不喜欢哪个市场。哪个不喜欢。

可能是由于 mashka 的收益作为标志，模型在平盘时效果更好。

文章 "基于暴力算法的 CatBoost 模型高级重采样与选择" - 页 13