交易中的机器学习：理论、模型、实践和算法交易 - 页 2114

[删除] 2020.11.13 16:27 #21131

Aleksey Vyazmikin:

马克西姆，你是如何设置这个东西的？什么是id_tl？

我不知道，我需要一个链接。

也许转化后的例子的id_tl只是

[删除] 2020.11.13 16:27 #21132

Aleksey Vyazmikin:

谢谢你!这一切都成功了。我认为这是对的--只有训练转换，因为在测试中只是去控制--所以我做了，但结果非常奇怪--在测试样本上错误的logloss超过了1，而且还在增加--这怎么可能--我很震惊。

你可以尝试不同的东西，只是为了看看

这里有一个好的笔记本https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

你可以复制和测试

Resampling strategies for imbalanced datasets
www.kaggle.com
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro's Safe Driver Prediction

Aleksey Vyazmikin 2020.11.13 16:39 #21133

Maxim Dmitrievsky:

我不知道，我需要一个链接。可能是改造后的例子的特异性只是

这是同一篇文章--那里没有什么是清楚的。

[删除] 2020.11.13 16:40 #21134

Aleksey Vyazmikin:

这仍然是同一篇文章--那里没有什么是清楚的。

它是复制的，我给了你一个原文的链接。

Aleksey Vyazmikin 2020.11.13 16:41 #21135

Maxim Dmitrievsky:

你可以尝试不同的东西，只是为了看看这里有一个好的笔记本https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets你可以复制和检查。

所以这是我所看的文章的俄文原文。

Aleksey Vyazmikin 2020.11.13 16:42 #21136

Maxim Dmitrievsky:

它是复制的，我给了你一个链接到原来的。

但是有什么用呢--反正也没有什么信息--代码被撕掉了。

[删除] 2020.11.13 16:47 #21137

Aleksey Vyazmikin:

有什么用呢--还是没有信息--代码被撕掉了。

那里的一切都写得很完美。我没有不平衡类，但我在人为地制造它们，只是为了看一下

Aleksey Vyazmikin 2020.11.13 17:04 #21138

Maxim Dmitrievsky:

一切都写得很完美。我没有不平衡类，但我人为地制造了它们，只是为了看看

事实证明，"Tomek链接 "方法只是没有均衡样本--它将空行的数量从4005条减少到3402条，所以我以为它没有作用。

[删除] 2020.11.13 17:31 #21139

Aleksey Vyazmikin:

事实证明，"Tomek链接 "方法只是没有均衡样本--它将空行的数量从4005条减少到3402条，这就是为什么我认为它不起作用。

你必须先进行过度取样，然后再进行抽样。

Aleksey Vyazmikin 2020.11.13 19:29 #21140

Maxim Dmitrievsky:

嗯哼。首先，你应该过度取样，然后是体积

到目前为止，过度取样什么也没有得到，但 "tome "使结果有了一些改善--这意味着数据中存在一些东西，主要的是要适当地挖掘。

对样本进行不同量化设置的模型直方图。
马克西姆，你是如何设置这个东西的？
什么是id_tl？
我不知道，我需要一个链接。
也许转化后的例子的id_tl只是
谢谢你!这一切都成功了。
我认为这是对的--只有训练转换，因为在测试中只是去控制--所以我做了，但结果非常奇怪--在测试样本上错误的logloss超过了1，而且还在增加--这怎么可能--我很震惊。
你可以尝试不同的东西，只是为了看看
这里有一个好的笔记本https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets
你可以复制和测试
可能是改造后的例子的特异性只是
这是同一篇文章--那里没有什么是清楚的。
它是复制的，我给了你一个原文的链接。
你可以复制和检查。
所以这是我所看的文章的俄文原文。
但是有什么用呢--反正也没有什么信息--代码被撕掉了。
那里的一切都写得很完美。我没有不平衡类，但我在人为地制造它们，只是为了看一下
事实证明，"Tomek链接 "方法只是没有均衡样本--它将空行的数量从4005条减少到3402条，所以我以为它没有作用。
嗯哼。首先，你应该过度取样，然后是体积
到目前为止，过度取样什么也没有得到，但 "tome "使结果有了一些改善--这意味着数据中存在一些东西，主要的是要适当地挖掘。
对样本进行不同量化设置的模型直方图。