交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2021.04.02 10:56 #23801

Maxim Dmitrievsky:

鲶鱼有一个相当强的规则化，特别是如果标志是分类的，它们应该在提升中被如此声明。

减少L2正则化，没有任何改善。所以拉索的效果更好。

Aleksey Vyazmikin 2021.04.02 11:00 #23802

elibrarius:

也许这只是一块好的考试样本。然后你对它进行拟合，选择具有最佳参数的模型。

我现在总是用交叉验证法（或估值法）进行检查，没有对一小部分进行拟合，而是一次性对所有数据进行拟合，我认为这是最好的学习方法。
博士在从论坛上消失之前也建议过。

首先，我不能调整Lasso，所以根本没有调整，只是参数的方式而已。

其次，这与CatBoostom的情节相同--有800个模型可供选择，我实际上已经采取了最好的选择。

我已经附上了文件--自己尝试不同的模型，建议Lasso只用于二进制样本--这是个技巧。

Aleksei Kuznetsov 2021.04.02 11:32 #23803

Aleksey Vyazmikin:

首先，我不知道如何调整Lasso，所以根本没有调整--这只是参数的方式。

其次，它与CatBoostom是同一个网站--而且有800个模型可供选择，我实际上已经采取了最好的选择。

我已经附上了文件--自己尝试不同的模型，建议Lasso只是为了二进制采样--这就是诀窍。

试着按原样进行交叉验证。循环10次，用总数据的1/10绘制不同的未知图。这将是选择带有一些参数的catbust或带有默认参数的lasso的最佳估计。

Aleksey Vyazmikin 2021.04.02 11:53 #23804

Maxim Dmitrievsky:

用同样的方法试试。在自定义测试器中工作正常，在导出模型时有一个问题，我稍后会寻找一个错误。

如果MA 参与了训练，那么在应用模型时不应该出现吗？

MAShka的本质是分区类型--上面只有一个类，下面只有另一个类？

Aleksey Vyazmikin 2021.04.02 12:01 #23805

elibrarius:

试试它，因为它是交叉验证的。循环10次，用总数据的1/10绘制不同的未知图。这将是选择带有某些参数的catbust或带有默认参数的lasso的最佳估计。

二进制化是通过一些抽样估计的方法，所以交叉验证会在主要样本图上显示更好的结果。

交叉验证对于受时间约束的样本不大相关，但在交易的情况下，交叉验证是相关的--市场逐渐变化，模型必须在时间上找到稳定的模式，在交叉验证的情况下，训练和检查的时间间隔可以接近或从训练样本中分化出来。

现在，我实际上在所有数据的60%上训练了CatBoost--20%用于停止控制，最后20%用于评估模型。

如果我们谈论的是10%的培训，那么这个样本就太小了。

Aleksei Kuznetsov 2021.04.02 13:13 #23806

Aleksey Vyazmikin:

交叉验证不太适合于受时间约束的样本，但在交易的情况下却是如此--市场逐渐变化，模型必须在一段时间内找到稳定的模式，而在交叉验证的情况下，训练和验证的时间间隔可以接近或减去被训练的样本。

你说的是某种标准/古老的交叉验证。
首先，你不需要混线，拿块，因为有0-90训练90-100测试，然后10-100训练，0-10测试，然后20-100-10训练10-20测试，等等。
其次，按照普拉多的建议，你必须在训练和测试之间留出一个修剪空间，以保持托盘和测试样本的分离。与测试中的10-100个例子相邻的火车上的例子将成为他们的提示/寻求者。在这里阅读更多信息 https://dou.ua/lenta/articles/ml-vs-financial-math/
或者这里有一张图片。

Aleksey Vyazmikin:

现在我的CatBoost 实际上是在所有数据的60%上训练的--其中20%是停止控制，最后20%是模型评估。

如果我们谈到10%的培训，那对抽样来说就太少了。

你可以做20%，也可以做你想做的很多。

最后，代替交叉验证，你可以使用滚动前进。这并不是把测试部分围成一圈，而是只在前面。

Машинное обучение против финансовой математики: проблемы и решения

dou.ua

Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...

Evgeni Gavrilovi 2021.04.02 13:20 #23807

Maxim Dmitrievsky

shuffle的作用是什么？通常如果它是假的，结果比它是真的要差得多。

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)

Aleksei Kuznetsov 2021.04.02 13:24 #23808

一张解释告别式转发的图片。

[删除] 2021.04.02 13:31 #23809

Evgeni Gavrilovi:

shuffle参数的作用是什么？通常，如果它是假的，结果要比它是真的差很多。

对测试和训练的例子进行洗牌，使它们不具有顺序性。

Evgeni Gavrilovi 2021.04.02 13:46 #23810

Maxim Dmitrievsky:

把三联体和测试的例子混在一起，所以它们不按顺序进行？

这里说的是随机吗？对50%的随机样本进行的测试

交易中的机器学习：理论、模型、实践和算法交易 - 页 2381