Maxim Dmitrievsky:

鲶鱼有一个相当强的规则化，特别是如果标志是分类的，它们应该在提升中被如此声明。

减少L2正则化，没有任何改善。所以拉索的效果更好。

 
elibrarius:

也许这只是一块好的考试样本。然后你对它进行拟合，选择具有最佳参数的模型。

我现在总是用交叉验证法（或估值法）进行检查，没有对一小部分进行拟合，而是一次性对所有数据进行拟合，我认为这是最好的学习方法。
博士在从论坛上消失之前也建议过。

首先，我不能调整Lasso，所以根本没有调整，只是参数的方式而已。

其次，这与CatBoostom的情节相同--有800个模型可供选择，我实际上已经采取了最好的选择。

我已经附上了文件--自己尝试不同的模型，建议Lasso只用于二进制样本--这是个技巧。

 
Aleksey Vyazmikin:

试着按原样进行交叉验证。循环10次，用总数据的1/10绘制不同的未知图。这将是选择带有一些参数的catbust或带有默认参数的lasso的最佳估计。

 
Maxim Dmitrievsky:


用同样的方法试试。在自定义测试器中工作正常，在导出模型时有一个问题，我稍后会寻找一个错误。

如果MA 参与了训练，那么在应用模型时不应该出现吗？

MAShka的本质是分区类型--上面只有一个类，下面只有另一个类？

 
elibrarius:

试试它，因为它是交叉验证的。循环10次，用总数据的1/10绘制不同的未知图。这将是选择带有某些参数的catbust或带有默认参数的lasso的最佳估计。

二进制化是通过一些抽样估计的方法，所以交叉验证会在主要样本图上显示更好的结果。

交叉验证对于受时间约束的样本不大相关，但在交易的情况下，交叉验证是相关的--市场逐渐变化，模型必须在时间上找到稳定的模式，在交叉验证的情况下，训练和检查的时间间隔可以接近或从训练样本中分化出来。

现在，我实际上在所有数据的60%上训练了CatBoost--20%用于停止控制，最后20%用于评估模型。

如果我们谈论的是10%的培训，那么这个样本就太小了。
 
Aleksey Vyazmikin:

交叉验证不太适合于受时间约束的样本，但在交易的情况下却是如此--市场逐渐变化，模型必须在一段时间内找到稳定的模式，而在交叉验证的情况下，训练和验证的时间间隔可以接近或减去被训练的样本。

你说的是某种标准/古老的交叉验证。
首先，你不需要混线，拿块，因为有0-90训练90-100测试，然后10-100训练，0-10测试，然后20-100-10训练10-20测试，等等。
其次，按照普拉多的建议，你必须在训练和测试之间留出一个修剪空间，以保持托盘和测试样本的分离。与测试中的10-100个例子相邻的火车上的例子将成为他们的提示/寻求者。在这里阅读更多信息 https://dou.ua/lenta/articles/ml-vs-financial-math/
或者这里有一张图片。

Aleksey Vyazmikin:

现在我的CatBoost 实际上是在所有数据的60%上训练的--其中20%是停止控制，最后20%是模型评估。

如果我们谈到10%的培训，那对抽样来说就太少了。
你可以做20%，也可以做你想做的很多。

最后，代替交叉验证，你可以使用滚动前进。这并不是把测试部分围成一圈，而是只在前面。
Maxim Dmitrievsky

shuffle的作用是什么？ 通常如果它是假的，结果比它是真的要差得多

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

一张解释告别式转发的图片。

Evgeni Gavrilovi:

shuffle参数的作用是什么？ 通常，如果它是假的，结果要比它是真的差很多

对测试和训练的例子进行洗牌，使它们不具有顺序性。

 
Maxim Dmitrievsky:

把三联体和测试的例子混在一起，所以它们不按顺序进行？

这里说的是随机吗？ 对50%的随机样本进行的测试

