文章 "梯度提升(CatBoost)在交易系统开发中的应用. 初级的方法" - 页 4

 
Valeriy Yastremskiy:

即使有重叠,这仍然是一个相当复杂的话题,因此对该话题的不同解释将是正确的。))))

很少有人提问--即使是在这里,马克西姆展示了部分失忆的诀窍:)

 
Rorschach:

真有趣,我还以为如果期望值这么低,那它就是测试者的圣杯。我在 Saber 上用自定义符号运行了一下,结果几乎一样。

检查了 17 年的情况,也有类似的上升趋势,它正在流失。

是它的历史太幸运了,还是过去几年的情况也是如此?我知道它在测试中输了,但那是一个完全不同的市场。

我查了 4 家公司,结果很明显。有趣的是,我从未见过夏普指数超过 3,有这样的事情吗?

我不太明白这个问题。他们中的任何一个都是这样的。

这没有问题,问题在于对新数据的归纳。

关于 Saber 数据 - 据我所知,并不是每种货币对都适合,而且他还会进行优化,也就是对模型进行复查。

纯粹从理论上讲......如果您随机抽样并进行长时间的再训练,您就可以找到一个好的模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。

最好是在云中的某个地方进行,笔记本电脑不允许这样做

 
Maxim Dmitrievsky:

我不太明白这个问题。这是一项很好的培训吗?

这没有问题,问题在于对新数据的归纳。

关于 Saber 数据 - 据我所知,并不是每种货币对都适合,他进行了优化,即通过模型

纯粹从理论上讲......如果您随机抽样并长时间重新训练,您就可以找到一个好模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。

最好是在云中的某个地方进行,笔记本电脑不允许这样做

我不太明白这些术语的意思,它是随机化 TC参数,进行运行并试图找到 TC 结果的最佳参数集区域。这就是优化。那里没有模型。在 NS 中有模型,在 MO 中也有模型。

 
Valeriy Yastremskiy:

我不明白的是,在术语上,它随机化 TC参数,进行运行,并试图找到 TC 结果的最佳参数集区域。这就是优化。没有模型。NS与MO中有模型。

带有一组参数的 TS 就是一个模型

 
Aleksey Vyazmikin:

很少有人问问题--即使是在这里,马克西姆展示了一个部分失忆的把戏:)

什么样的失忆?

 
elibrarius:

失忆是怎么回事?

在这里,我们通过标签绑定来创建对过去运动的记忆:

最后一步是通过回溯深度创建具有偏移行的附加列,这意味着在模型中添加附加(滞后、滞后)特征。

进一步混合:

Разобьём данные на два датасета равной длины, предварительно случайно перемешав обучающие примеры.

假定混合是均匀的,这意味着在训练过程中,我们已经获得了一半样本中关于过去和现在回归者的列信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是可行的,但是一旦市场发生重大变化--模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。

 
Aleksey Vyazmikin:

在这里,我们通过绑定标签来创建对过去动作的记忆:

进一步混合:

假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。

如果从符号本身来看,它们具有序列相关性(自相关性),如果从标签来看,也是一样。序列相关会导致错误的模型估计和错误的训练。一个粗略的例子(也许不是)就是对波动性的过度训练。洗牌是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更严肃地对待,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。
 
Maxim Dmitrievsky:
如果从特征本身来看--它们具有序列相关性(自相关性),如果从标签来看--也是一样。序列相关性会导致错误的模型估计和错误的训练。一个粗略的例子(也许不是)就是对波动性的过度训练。洗牌是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。

如果能解决是否有可能根据样本的相似性来混合样本的问题,那将是一篇有趣的文章。

据我所知,如果样本相似,那是可能的,但如果差异很大,那就不可能了。就我们而言,我们面对的是不断变化的市场,那么混合的可能性问题就取决于时间间隔....。我希望能有一个具体的数字标准来评估两个样本的相似性,并对其混合的可接受性理论进行检验。供思考的信息

 
Aleksey Vyazmikin:

在这里,我们通过绑定标签来创建对过去动作的记忆:

进一步混合:

假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。

这只是滑动窗口内的 N 个增量。
马克西姆-德米特里耶夫斯基(Maxim Dmitrievsky:
如果从符号本身来看,它们具有序列相关性(自相关性),如果从标签来看,情况也是如此。序列相关性会导致对模型的错误估计和错误训练。一个粗略的例子(也许不是)就是对波动率的过度训练。洗牌 是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。
混合列车集不会以任何方式改变树模型。树会对每一列进行排序。排序混合数据和未混合数据的结果是一样的。
在我看来,将训练集与测试集混合是没有必要的,正如我在上面所写的那样。
 
elibrarius:
它只是在一个滑动窗口内的 N 个增量。洗牌并不会以任何方式改变这棵树。
我知道