文章 "梯度提升（CatBoost）在交易系统开发中的应用. 初级的方法"

Aleksey Vyazmikin 2020.11.06 06:15 #31

Valeriy Yastremskiy:

即使有重叠，这仍然是一个相当复杂的话题，因此对该话题的不同解释将是正确的。))))

很少有人提问--即使是在这里，马克西姆展示了部分失忆的诀窍:)

[删除] 2020.11.06 08:11 #32

Rorschach:

真有趣，我还以为如果期望值这么低，那它就是测试者的圣杯。我在 Saber 上用自定义符号运行了一下，结果几乎一样。

检查了 17 年的情况，也有类似的上升趋势，它正在流失。

是它的历史太幸运了，还是过去几年的情况也是如此？我知道它在测试中输了，但那是一个完全不同的市场。

我查了 4 家公司，结果很明显。有趣的是，我从未见过夏普指数超过 3，有这样的事情吗？

我不太明白这个问题。他们中的任何一个都是这样的。

这没有问题，问题在于对新数据的归纳。

关于 Saber 数据 - 据我所知，并不是每种货币对都适合，而且他还会进行优化，也就是对模型进行复查。

纯粹从理论上讲......如果您随机抽样并进行长时间的再训练，您就可以找到一个好的模型。在实践中，我得到了 X2 oos +-，即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。

最好是在云中的某个地方进行，笔记本电脑不允许这样做

Valeriy Yastremskiy 2020.11.06 08:49 #33

Maxim Dmitrievsky:

我不太明白这个问题。这是一项很好的培训吗？

这没有问题，问题在于对新数据的归纳。

关于 Saber 数据 - 据我所知，并不是每种货币对都适合，他进行了优化，即通过模型

纯粹从理论上讲......如果您随机抽样并长时间重新训练，您就可以找到一个好模型。在实践中，我得到了 X2 oos +-，即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。

最好是在云中的某个地方进行，笔记本电脑不允许这样做

我不太明白这些术语的意思，它是随机化 TC参数，进行运行并试图找到 TC 结果的最佳参数集区域。这就是优化。那里没有模型。在 NS 中有模型，在 MO 中也有模型。

[删除] 2020.11.06 08:54 #34

Valeriy Yastremskiy:

我不明白的是，在术语上，它随机化 TC参数，进行运行，并试图找到 TC 结果的最佳参数集区域。这就是优化。没有模型。NS与MO中有模型。

带有一组参数的 TS 就是一个模型

Aleksei Kuznetsov 2020.11.06 21:42 #35

Aleksey Vyazmikin:

很少有人问问题--即使是在这里，马克西姆展示了一个部分失忆的把戏：)

什么样的失忆？

Aleksey Vyazmikin 2020.11.06 22:00 #36

elibrarius:

失忆是怎么回事？

在这里，我们通过标签绑定来创建对过去运动的记忆：

最后一步是通过回溯深度创建具有偏移行的附加列，这意味着在模型中添加附加（滞后、滞后）特征。

进一步混合：

Разобьём данные на два датасета равной длины, предварительно случайно перемешав обучающие примеры.

假定混合是均匀的，这意味着在训练过程中，我们已经获得了一半样本中关于过去和现在回归者的列信息。在一个相对较小的时期内，如果可以用这种方法来拟合波动率，那么由于对市场的了解，这种方法是可行的，但是一旦市场发生重大变化--模型就无法工作了。在我看来，这只是一种记忆效应，而不是对一般模式的识别。马克西姆，如果你有不同看法，请指正我。

[删除] 2020.11.07 02:16 #37

Aleksey Vyazmikin:

在这里，我们通过绑定标签来创建对过去动作的记忆：

进一步混合：

假定混合是均匀的，这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内，如果可以用这种方法来拟合波动率，那么由于对市场的了解，这种方法是有效的，但是一旦市场发生重大变化，模型就无法工作了。在我看来，这只是一种记忆效应，而不是对一般模式的识别。马克西姆，如果你有不同看法，请指正我。

如果从符号本身来看，它们具有序列相关性（自相关性），如果从标签来看，也是一样。序列相关会导致错误的模型估计和错误的训练。一个粗略的例子（也许不是）就是对波动性的过度训练。洗牌是打破序列性的一种原始方法，而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更严肃地对待，而不是以如此原始的方式，这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。

Aleksey Vyazmikin 2020.11.07 03:09 #38

Maxim Dmitrievsky:
如果从特征本身来看--它们具有序列相关性（自相关性），如果从标签来看--也是一样。序列相关性会导致错误的模型估计和错误的训练。一个粗略的例子（也许不是）就是对波动性的过度训练。洗牌是打破序列性的一种原始方法，而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理，而不是以如此原始的方式，这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。

如果能解决是否有可能根据样本的相似性来混合样本的问题，那将是一篇有趣的文章。

据我所知，如果样本相似，那是可能的，但如果差异很大，那就不可能了。就我们而言，我们面对的是不断变化的市场，那么混合的可能性问题就取决于时间间隔....。我希望能有一个具体的数字标准来评估两个样本的相似性，并对其混合的可接受性理论进行检验。供思考的信息。

Aleksei Kuznetsov 2020.11.07 07:39 #39

Aleksey Vyazmikin:

在这里，我们通过绑定标签来创建对过去动作的记忆：

进一步混合：

假定混合是均匀的，这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内，如果可以用这种方法来拟合波动率，那么由于对市场的了解，这种方法是有效的，但是一旦市场发生重大变化，模型就无法工作了。在我看来，这只是一种记忆效应，而不是对一般模式的识别。马克西姆，如果你有不同看法，请指正我。

这只是滑动窗口内的 N 个增量。

马克西姆-德米特里耶夫斯基（Maxim Dmitrievsky）:
如果从符号本身来看，它们具有序列相关性（自相关性），如果从标签来看，情况也是如此。序列相关性会导致对模型的错误估计和错误训练。一个粗略的例子（也许不是）就是对波动率的过度训练。洗牌是打破序列性的一种原始方法，而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理，而不是以如此原始的方式，这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。

混合列车集不会以任何方式改变树模型。树会对每一列进行排序。排序混合数据和未混合数据的结果是一样的。
在我看来，将训练集与测试集混合是没有必要的，正如我在上面所写的那样。

[删除] 2020.11.07 09:50 #40

elibrarius:
它只是在一个滑动窗口内的 N 个增量。洗牌并不会以任何方式改变这棵树。

我知道

文章 "梯度提升（CatBoost）在交易系统开发中的应用. 初级的方法" - 页 4