混乱中有规律可循吗？让我们试着找出它！以特定样本为例进行机器学习。

Aleksei Kuznetsov 2022.10.28 19:38 #21

Aleksey Vyazmikin #:

您能在 exam.csv 文件中准确检查模型吗？

您尝试过任何取样操作吗？

下面是剔除部分预测因子后考试样本的平衡情况。

当然，从模型响应分布图中可以看出，我们只做了一点点训练--召回率很低，但这已经是一定的结果了。

train.csv

exam.csv

考试中有 9046 行。我有 9000 行。

你的曲线要好得多。我再试着调整一下参数。

Aleksey Vyazmikin 2022.10.28 19:44 #22

elibrarius #:

你的最佳平衡是什么？

现在，我在不同的变体中进行了搜索，结果是这样的--在这一轮的委托中，也有 3 点是在想法上采取的。

Aleksey Vyazmikin 2022.10.28 19:45 #23

elibrarius #:
有 9046 行。我有 9000 行。你的曲线更好。我再试着调整一下参数。

好吧，如果是考试文件数据，那么是的 - 没有太大区别，我只是觉得可能是火车文件。你最初是把三个文件合并在一起的吗？

试试看。

Aleksei Kuznetsov 2022.10.28 19:50 #24

Aleksey Vyazmikin #:

如果是考试文件数据，那就对了--区别不大，我只是觉得可能是火车文件。你最初是把三个文件合并在一起的吗？

试试看。

是的，我合并了所有 3 个文件，然后指定了各部分的长度。

Aleksey Vyazmikin 2022.10.28 19:54 #25

elibrarius #:
是的，我把三个部分合并在一起，然后输入各部分的长度。

我明白了，这样就好。

我认为有可能通过减少样本来改进训练，比方说训练 1/10 - 这将允许训练市场的某个阶段/结构 - 我还没有要求这样做。

Aleksey Vyazmikin 2022.10.28 20:31 #26

只有通过改变学习率，才能从 100 个模型中获得两个符合标准的模型。

一个。

第二个。

事实证明，CatBoost 的能力确实很强，但有必要更积极地调整设置。

Aleksei Kuznetsov 2022.10.28 20:41 #27

Aleksey Vyazmikin #:

好吧，那就这样吧。

我认为有可能通过减少样本来改进培训，比方说培训 1/10 的样本--这样就可以培训市场的某个阶段/结构--目前还不需要。

我试过用 valking forward 在 1000 和 20000 时进行训练，但都失败了。

Aleksei Kuznetsov 2022.10.28 20:44 #28

还是分开买卖？

Aleksey Vyazmikin 2022.10.28 21:03 #29

elibrarius #:

还是将买卖分开？

结果显示的是没有目标转换的样本，即是--交易和不交易。

但实际上，将买卖样本分开会更容易训练。

elibrarius#:
尝试在 1000 和 20000 时向前估值学习 - 全部失败。

嗯，奇怪。你用什么方法训练--随机森林？

Aleksei Kuznetsov 2022.10.28 21:11 #30

Aleksey Vyazmikin #:

嗯，真奇怪。你用什么方法进行训练--随机森林？

从 Alglibow 重新设计的。
我正在运行更多的树。到明天早上，我想它会计算出一个新版本。

如果结果比你的差很多，也许我做错了什么。

混乱中有规律可循吗？让我们试着找出它！以特定样本为例进行机器学习。 - 页 3