交易中的机器学习:理论、模型、实践和算法交易 - 页 2114

 
Aleksey Vyazmikin:

马克西姆,你是如何设置这个东西的?

什么是id_tl?

我不知道,我需要一个链接。

也许转化后的例子的id_tl只是

 
Aleksey Vyazmikin:

谢谢你!这一切都成功了。

我认为这是对的--只有训练转换,因为在测试中只是去控制--所以我做了,但结果非常奇怪--在测试样本上错误的logloss超过了1,而且还在增加--这怎么可能--我很震惊。

你可以尝试不同的东西,只是为了看看

这里有一个好的笔记本https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

你可以复制和测试

Resampling strategies for imbalanced datasets
Resampling strategies for imbalanced datasets
  • www.kaggle.com
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction
 
Maxim Dmitrievsky:

我不知道,我需要一个链接。

可能是改造后的例子的特异性只是

这是同一篇文章--那里没有什么是清楚的。

 
Aleksey Vyazmikin:

这仍然是同一篇文章--那里没有什么是清楚的。

它是复制的,我给了你一个原文的链接。

 
Maxim Dmitrievsky:

你可以尝试不同的东西,只是为了看看

这里有一个好的笔记本https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

你可以复制和检查。

所以这是我所看的文章的俄文原文。

 
Maxim Dmitrievsky:

它是复制的,我给了你一个链接到原来的。

但是有什么用呢--反正也没有什么信息--代码被撕掉了。

 
Aleksey Vyazmikin:

有什么用呢--还是没有信息--代码被撕掉了。

那里的一切都写得很完美。我没有不平衡类,但我在人为地制造它们,只是为了看一下

 
Maxim Dmitrievsky:

一切都写得很完美。我没有不平衡类,但我人为地制造了它们,只是为了看看


事实证明,"Tomek链接 "方法只是没有均衡样本--它将空行的数量从4005条减少到3402条,所以我以为它没有作用。
 
Aleksey Vyazmikin:


事实证明,"Tomek链接 "方法只是没有均衡样本--它将空行的数量从4005条减少到3402条,这就是为什么我认为它不起作用。
你必须先进行过度取样,然后再进行抽样。
 
Maxim Dmitrievsky:
嗯哼。首先,你应该过度取样,然后是体积

到目前为止,过度取样什么也没有得到,但 "tome "使结果有了一些改善--这意味着数据中存在一些东西,主要的是要适当地挖掘。

对样本进行不同量化设置的模型直方图。


原因: