交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2020.12.21 08:32 #22541

elibrarius:
考试中罕见的激活，反而意味着市场已经发生了变化，经常在火车上发生的事情已经不再发生。而且这也不一定意味着那里没有很多激活的床单。

是的，我同意也有一个市场变化效应。

让我们来看看火车。

情况稍好，但也有激活次数少的叶子。

注意到学习是如何发生的--一棵具有大权重的树被建立起来--有条件的成功，然后是一组具有小权重的树，然后又是大权重的树--这样一个派别，如果你把具有小权重的脉络去掉，那么你会得到一个概率的转变。

mytarmailS 2020.12.21 09:24 #22542

Aleksey Vyazmikin:

是的，我同意还有一种改变市场的效应。

让我们来看看火车。

情况稍好，但激活数量稀少的叶片也是如此。

注意到学习是如何发生的--一棵具有大权重的树被建立起来--有条件的成功，然后是一组具有小权重的树，然后又是大权重的树--这样一个派别，如果你把具有小权重的脉络去掉，就会得到一个概率的转变。

我想知道如果你在这个图上训练一个新的模型会发生什么？

一般来说，我们的想法是在第一个模型的 "内部 "训练第二个模型。

Aleksey Vyazmikin 2020.12.21 14:52 #22543

Maxim Dmitrievsky:

你为什么要摆弄化油器？你没有用它来改善什么。

如果你明白问题是什么，你就可以寻找解决方案。很明显，这种树有缺点。

但我同意，我无法弄清CatBoost的代码，无法对其进行编辑，唉。

然而，有一个影响模型的机会，也许将叶子中的罕见例子归零会产生积极的效果，但最好是重新计算叶子的系数--这样做比较困难，但在全球范围内可以解决。

MaximDmitrievsky:

以一个没有叶子的简单神经网络为例。它对新数据的作用不亚于提升。这告诉你什么？

我同意那里也会有过度训练的影响，但性质不同--问题是这些影响中哪一个可以被更准确地检测和评估，哪一个更容易处理。

马克西姆-德米特里耶夫斯基。

有一个很好的SHAP 工具用于特征选择和解释，但它是在python中。这一切都已经为你做了很久了）。

事实上，这些方法中的绝大多数只谈及在模型中使用预测因子，但没有对预测因子本身做任何评估。你需要独立于模型的预测因素的估计 - 我正在努力，有适度的积极成果。

当然，我想玩玩python或R中现成的解决方案，但我怀疑自己能否处理新的语法。

Aleksey Vyazmikin 2020.12.21 14:57 #22544

mytarmailS:

我想知道如果你在这个图上训练一个新的模型会怎样？

实际上，这个想法是在第一个模型的 "内脏 "上训练第二个模型。

例子中的这个模型是来自古代的沉积物，现在我的模型中有6万片叶子，当然这对形成一个样本来说是很大的。也许可以尝试大幅减少树木的数量。然而，我注意到，我评估了来自CatBoost 的树叶，与来自遗传树的树叶相比，它们的特征单独来看非常弱。

在我训练的遗传树的叶子（成千上万的叶子）上--指标性能可以提高。

[删除] 2020.12.21 14:58 #22545

Aleksey Vyazmikin:

如果你明白问题是什么，你就可以寻找解决方案。显然，这种树有缺点。

但我同意，我无法弄清CatBoost的代码，无法对其进行编辑，唉。

然而，有机会影响模型，也许将叶子中的罕见例子归零会产生积极的影响，但最好是对叶子系数重新加权--这比较困难，但在全局上可以解决。

我同意，那里也会有过度训练的影响，但性质不同--问题是这些影响中哪一个可以被更准确地识别和评估，哪一个更容易处理。

事实上，这些方法绝大多数只谈及在模型中使用预测器，但对预测器本身不做任何评估。我们需要独立于模型的预测因素的估计--我正在这方面努力，有适度的积极成果。

当然，我想在python或R中旋转现成的解决方案，但我是否能处理好新的语法是有疑问的。

那里评估的是特征对特定模型的行为的影响

Aleksei Kuznetsov 2020.12.21 15:01 #22546

Aleksey Vyazmikin:

如果你明白问题是什么，你就可以寻找解决方案。显然，这种树有缺点。

但我同意，我无法弄清CatBoost的代码，无法对其进行编辑，唉。

然而，有机会影响模型，也许将叶子中的罕见例子归零会产生积极的影响，但最好是对叶子系数重新加权--这比较困难，但在全局上可以解决。

我同意，那里也会有过度训练的影响，但性质不同--问题是这些影响中哪一个可以被更准确地识别和评估，哪一个更容易处理。

事实上，这些方法绝大多数只谈及在模型中使用预测器，但对预测器本身不做任何评估。我们需要独立于模型的预测因素的估计--我正在这方面努力，有适度的积极成果。

当然，我想在Python或R中旋转现成的解决方案，但我能否处理好新的语法是有疑问的。

得出的结论是每次增加1个（或每次删除1个）是最好的。这是我的研究。我猜你已经看过了。

Сравнение разных методов оценки важности предикторов.

www.mql5.com

Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За

Aleksey Vyazmikin 2020.12.21 15:05 #22547

Maxim Dmitrievsky:

评估的是这些特征对特定模型行为的影响。

这就是我所说的，评价要通过所产生的模型。

Aleksey Vyazmikin 2020.12.21 15:13 #22548

elibrarius:

结论是，每次增加1个（或每次删除1个）是最好的。这是我的研究。你可能已经看过了。

以前没有见过--查了一下--总的来说，我同意通过切除可以达到真正的效果。CatBoost有一种方法可以去除预测器，并在没有预测器的情况下对模型进行重新加权，但我没有处理过这个问题。到目前为止，我只限于添加和删除预测因子，但不是只有一个，而是成组的。

[删除] 2020.12.21 15:14 #22549

Aleksey Vyazmikin:

这就是我所说的，评价要通过所产生的模型。

而这是很好的

你可以看到哪些特征在新数据中是有缺陷的

mytarmailS 2020.12.21 15:23 #22550

我不知道......也许这是我的经验，也许是我的酒量......)

...但我认为你患的是...)

交易中的机器学习：理论、模型、实践和算法交易 - 页 2255