交易中的机器学习:理论、模型、实践和算法交易 - 页 2381

 
Maxim Dmitrievsky:

鲶鱼有一个相当强的规则化,特别是如果标志是分类的,它们应该在提升中被如此声明。

减少L2正则化,没有任何改善。所以拉索的效果更好。

 
elibrarius:

也许这只是一块好的考试样本。然后你对它进行拟合,选择具有最佳参数的模型。

我现在总是用交叉验证法(或估值法)进行检查,没有对一小部分进行拟合,而是一次性对所有数据进行拟合,我认为这是最好的学习方法。
博士在从论坛上消失之前也建议过。

首先,我不能调整Lasso,所以根本没有调整,只是参数的方式而已。

其次,这与CatBoostom的情节相同--有800个模型可供选择,我实际上已经采取了最好的选择。

我已经附上了文件--自己尝试不同的模型,建议Lasso只用于二进制样本--这是个技巧。

 
Aleksey Vyazmikin:

首先,我不知道如何调整Lasso,所以根本没有调整--这 只是参数的方式

其次,它与CatBoostom是同一个网站--而且有800个模型可供选择,我实际上已经采取了最好的选择。

我已经附上了文件--自己尝试不同的模型,建议Lasso只是为了二进制采样--这就是诀窍。

试着按原样进行交叉验证。循环10次,用总数据的1/10绘制不同的未知图。这将是选择带有一些参数的catbust或带有默认参数的lasso的最佳估计。

 
Maxim Dmitrievsky:


用同样的方法试试。在自定义测试器中工作正常,在导出模型时有一个问题,我稍后会寻找一个错误。

如果MA 参与了训练,那么在应用模型时不应该出现吗?

MAShka的本质是分区类型--上面只有一个类,下面只有另一个类?

 
elibrarius:

试试它,因为它是交叉验证的。循环10次,用总数据的1/10绘制不同的未知图。这将是选择带有某些参数的catbust或带有默认参数的lasso的最佳估计。

二进制化是通过一些抽样估计的方法,所以交叉验证会在主要样本图上显示更好的结果。

交叉验证对于受时间约束的样本不大相关,但在交易的情况下,交叉验证是相关的--市场逐渐变化,模型必须在时间上找到稳定的模式,在交叉验证的情况下,训练和检查的时间间隔可以接近或从训练样本中分化出来。

现在,我实际上在所有数据的60%上训练了CatBoost--20%用于停止控制,最后20%用于评估模型。

如果我们谈论的是10%的培训,那么这个样本就太小了。
 
Aleksey Vyazmikin:

交叉验证不太适合于受时间约束的样本,但在交易的情况下却是如此--市场逐渐变化,模型必须在一段时间内找到稳定的模式,而在交叉验证的情况下,训练和验证的时间间隔可以接近或减去被训练的样本。

你说的是某种标准/古老的交叉验证。
首先,你不需要混线,拿块,因为有0-90训练90-100测试,然后10-100训练,0-10测试,然后20-100-10训练10-20测试,等等。
其次,按照普拉多的建议,你必须在训练和测试之间留出一个修剪空间,以保持托盘和测试样本的分离。与测试中的10-100个例子相邻的火车上的例子将成为他们的提示/寻求者。在这里阅读更多信息 https://dou.ua/lenta/articles/ml-vs-financial-math/
或者这里有一张图片。

Aleksey Vyazmikin:

现在我的CatBoost 实际上是在所有数据的60%上训练的--其中20%是停止控制,最后20%是模型评估。

如果我们谈到10%的培训,那对抽样来说就太少了。
你可以做20%,也可以做你想做的很多。

最后,代替交叉验证,你可以使用滚动前进。这并不是把测试部分围成一圈,而是只在前面。
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maxim Dmitrievsky

shuffle的作用是什么? 通常如果它是假的,结果比它是真的要差得多

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

一张解释告别式转发的图片。

[删除]  
Evgeni Gavrilovi:

shuffle参数的作用是什么? 通常,如果它是假的,结果要比它是真的差很多

对测试和训练的例子进行洗牌,使它们不具有顺序性。

 
Maxim Dmitrievsky:

把三联体和测试的例子混在一起,所以它们不按顺序进行?

这里说的是随机吗? 对50%的随机样本进行的测试