Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
鲶鱼有一个相当强的规则化,特别是如果标志是分类的,它们应该在提升中被如此声明。
减少L2正则化,没有任何改善。所以拉索的效果更好。
也许这只是一块好的考试样本。然后你对它进行拟合,选择具有最佳参数的模型。
我现在总是用交叉验证法(或估值法)进行检查,没有对一小部分进行拟合,而是一次性对所有数据进行拟合,我认为这是最好的学习方法。
博士在从论坛上消失之前也建议过。
首先,我不能调整Lasso,所以根本没有调整,只是参数的方式而已。
其次,这与CatBoostom的情节相同--有800个模型可供选择,我实际上已经采取了最好的选择。
我已经附上了文件--自己尝试不同的模型,建议Lasso只用于二进制样本--这是个技巧。
首先,我不知道如何调整Lasso,所以根本没有调整--这 只是参数的方式。
其次,它与CatBoostom是同一个网站--而且有800个模型可供选择,我实际上已经采取了最好的选择。
我已经附上了文件--自己尝试不同的模型,建议Lasso只是为了二进制采样--这就是诀窍。
试着按原样进行交叉验证。循环10次,用总数据的1/10绘制不同的未知图。这将是选择带有一些参数的catbust或带有默认参数的lasso的最佳估计。
用同样的方法试试。在自定义测试器中工作正常,在导出模型时有一个问题,我稍后会寻找一个错误。
如果MA 参与了训练,那么在应用模型时不应该出现吗?
MAShka的本质是分区类型--上面只有一个类,下面只有另一个类?
试试它,因为它是交叉验证的。循环10次,用总数据的1/10绘制不同的未知图。这将是选择带有某些参数的catbust或带有默认参数的lasso的最佳估计。
二进制化是通过一些抽样估计的方法,所以交叉验证会在主要样本图上显示更好的结果。
交叉验证对于受时间约束的样本不大相关,但在交易的情况下,交叉验证是相关的--市场逐渐变化,模型必须在时间上找到稳定的模式,在交叉验证的情况下,训练和检查的时间间隔可以接近或从训练样本中分化出来。
现在,我实际上在所有数据的60%上训练了CatBoost--20%用于停止控制,最后20%用于评估模型。
如果我们谈论的是10%的培训,那么这个样本就太小了。交叉验证不太适合于受时间约束的样本,但在交易的情况下却是如此--市场逐渐变化,模型必须在一段时间内找到稳定的模式,而在交叉验证的情况下,训练和验证的时间间隔可以接近或减去被训练的样本。
你说的是某种标准/古老的交叉验证。
首先,你不需要混线,拿块,因为有0-90训练90-100测试,然后10-100训练,0-10测试,然后20-100-10训练10-20测试,等等。
其次,按照普拉多的建议,你必须在训练和测试之间留出一个修剪空间,以保持托盘和测试样本的分离。与测试中的10-100个例子相邻的火车上的例子将成为他们的提示/寻求者。在这里阅读更多信息 https://dou.ua/lenta/articles/ml-vs-financial-math/
或者这里有一张图片。
现在我的CatBoost 实际上是在所有数据的60%上训练的--其中20%是停止控制,最后20%是模型评估。
如果我们谈到10%的培训,那对抽样来说就太少了。最后,代替交叉验证,你可以使用滚动前进。这并不是把测试部分围成一圈,而是只在前面。
shuffle的作用是什么? 通常如果它是假的,结果比它是真的要差得多。
一张解释告别式转发的图片。
shuffle参数的作用是什么? 通常,如果它是假的,结果要比它是真的差很多。
对测试和训练的例子进行洗牌,使它们不具有顺序性。
把三联体和测试的例子混在一起,所以它们不按顺序进行?
这里说的是随机吗? 对50%的随机样本进行的测试