文章 "梯度提升(CatBoost)在交易系统开发中的应用. 初级的方法" - 页 4 12345678910 新评论 Aleksey Vyazmikin 2020.11.06 06:15 #31 Valeriy Yastremskiy:即使有重叠,这仍然是一个相当复杂的话题,因此对该话题的不同解释将是正确的。)))) 很少有人提问--即使是在这里,马克西姆展示了部分失忆的诀窍:) Maxim Dmitrievsky 2020.11.06 08:11 #32 Rorschach:真有趣,我还以为如果期望值这么低,那它就是测试者的圣杯。我在 Saber 上用自定义符号运行了一下,结果几乎一样。检查了 17 年的情况,也有类似的上升趋势,它正在流失。是它的历史太幸运了,还是过去几年的情况也是如此?我知道它在测试中输了,但那是一个完全不同的市场。 我查了 4 家公司,结果很明显。有趣的是,我从未见过夏普指数超过 3,有这样的事情吗? 我不太明白这个问题。他们中的任何一个都是这样的。 这没有问题,问题在于对新数据的归纳。 关于 Saber 数据 - 据我所知,并不是每种货币对都适合,而且他还会进行优化,也就是对模型进行复查。 纯粹从理论上讲......如果您随机抽样并进行长时间的再训练,您就可以找到一个好的模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。 最好是在云中的某个地方进行,笔记本电脑不允许这样做 Valeriy Yastremskiy 2020.11.06 08:49 #33 Maxim Dmitrievsky:我不太明白这个问题。这是一项很好的培训吗?这没有问题,问题在于对新数据的归纳。关于 Saber 数据 - 据我所知,并不是每种货币对都适合,他进行了优化,即通过模型纯粹从理论上讲......如果您随机抽样并长时间重新训练,您就可以找到一个好模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。最好是在云中的某个地方进行,笔记本电脑不允许这样做 我不太明白这些术语的意思,它是随机化 TC参数,进行运行并试图找到 TC 结果的最佳参数集区域。这就是优化。那里没有模型。在 NS 中有模型,在 MO 中也有模型。 Maxim Dmitrievsky 2020.11.06 08:54 #34 Valeriy Yastremskiy:我不明白的是,在术语上,它随机化 TC参数,进行运行,并试图找到 TC 结果的最佳参数集区域。这就是优化。没有模型。NS与MO中有模型。 带有一组参数的 TS 就是一个模型 Aleksei Kuznetsov 2020.11.06 21:42 #35 Aleksey Vyazmikin:很少有人问问题--即使是在这里,马克西姆展示了一个部分失忆的把戏:) 什么样的失忆? Aleksey Vyazmikin 2020.11.06 22:00 #36 elibrarius:失忆是怎么回事? 在这里,我们通过标签绑定来创建对过去运动的记忆: 最后一步是通过回溯深度创建具有偏移行的附加列,这意味着在模型中添加附加(滞后、滞后)特征。 进一步混合: Разобьём данные на два датасета равной длины, предварительно случайно перемешав обучающие примеры. 假定混合是均匀的,这意味着在训练过程中,我们已经获得了一半样本中关于过去和现在回归者的列信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是可行的,但是一旦市场发生重大变化--模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。 Maxim Dmitrievsky 2020.11.07 02:16 #37 Aleksey Vyazmikin:在这里,我们通过绑定标签来创建对过去动作的记忆:进一步混合:假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。 如果从符号本身来看,它们具有序列相关性(自相关性),如果从标签来看,也是一样。序列相关会导致错误的模型估计和错误的训练。一个粗略的例子(也许不是)就是对波动性的过度训练。洗牌是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更严肃地对待,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。 Aleksey Vyazmikin 2020.11.07 03:09 #38 Maxim Dmitrievsky: 如果从特征本身来看--它们具有序列相关性(自相关性),如果从标签来看--也是一样。序列相关性会导致错误的模型估计和错误的训练。一个粗略的例子(也许不是)就是对波动性的过度训练。洗牌是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。 如果能解决是否有可能根据样本的相似性来混合样本的问题,那将是一篇有趣的文章。 据我所知,如果样本相似,那是可能的,但如果差异很大,那就不可能了。就我们而言,我们面对的是不断变化的市场,那么混合的可能性问题就取决于时间间隔....。我希望能有一个具体的数字标准来评估两个样本的相似性,并对其混合的可接受性理论进行检验。供思考的信息。 Aleksei Kuznetsov 2020.11.07 07:39 #39 Aleksey Vyazmikin:在这里,我们通过绑定标签来创建对过去动作的记忆:进一步混合:假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。 这只是滑动窗口内的 N 个增量。 马克西姆-德米特里耶夫斯基(Maxim Dmitrievsky): 如果从符号本身来看,它们具有序列相关性(自相关性),如果从标签来看,情况也是如此。序列相关性会导致对模型的错误估计和错误训练。一个粗略的例子(也许不是)就是对波动率的过度训练。洗牌 是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。 混合列车集不会以任何方式改变树模型。树会对每一列进行排序。排序混合数据和未混合数据的结果是一样的。 在我看来,将训练集与测试集混合是没有必要的,正如我在上面所写的那样。 Maxim Dmitrievsky 2020.11.07 09:50 #40 elibrarius: 它只是在一个滑动窗口内的 N 个增量。洗牌并不会以任何方式改变这棵树。 我知道 12345678910 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
即使有重叠,这仍然是一个相当复杂的话题,因此对该话题的不同解释将是正确的。))))
很少有人提问--即使是在这里,马克西姆展示了部分失忆的诀窍:)
真有趣,我还以为如果期望值这么低,那它就是测试者的圣杯。我在 Saber 上用自定义符号运行了一下,结果几乎一样。
检查了 17 年的情况,也有类似的上升趋势,它正在流失。
是它的历史太幸运了,还是过去几年的情况也是如此?我知道它在测试中输了,但那是一个完全不同的市场。
我查了 4 家公司,结果很明显。有趣的是,我从未见过夏普指数超过 3,有这样的事情吗?我不太明白这个问题。他们中的任何一个都是这样的。
这没有问题,问题在于对新数据的归纳。
关于 Saber 数据 - 据我所知,并不是每种货币对都适合,而且他还会进行优化,也就是对模型进行复查。
纯粹从理论上讲......如果您随机抽样并进行长时间的再训练,您就可以找到一个好的模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。
最好是在云中的某个地方进行,笔记本电脑不允许这样做
我不太明白这个问题。这是一项很好的培训吗?
这没有问题,问题在于对新数据的归纳。
关于 Saber 数据 - 据我所知,并不是每种货币对都适合,他进行了优化,即通过模型
纯粹从理论上讲......如果您随机抽样并长时间重新训练,您就可以找到一个好模型。在实践中,我得到了 X2 oos +-,即在新数据上工作的时间与 traine\valid 一样长。有时还要多一点。
最好是在云中的某个地方进行,笔记本电脑不允许这样做
我不太明白这些术语的意思,它是随机化 TC参数,进行运行并试图找到 TC 结果的最佳参数集区域。这就是优化。那里没有模型。在 NS 中有模型,在 MO 中也有模型。
我不明白的是,在术语上,它随机化 TC参数,进行运行,并试图找到 TC 结果的最佳参数集区域。这就是优化。没有模型。NS与MO中有模型。
带有一组参数的 TS 就是一个模型
很少有人问问题--即使是在这里,马克西姆展示了一个部分失忆的把戏:)
什么样的失忆?
失忆是怎么回事?
在这里,我们通过标签绑定来创建对过去运动的记忆:
最后一步是通过回溯深度创建具有偏移行的附加列,这意味着在模型中添加附加(滞后、滞后)特征。
进一步混合:
假定混合是均匀的,这意味着在训练过程中,我们已经获得了一半样本中关于过去和现在回归者的列信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是可行的,但是一旦市场发生重大变化--模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。
在这里,我们通过绑定标签来创建对过去动作的记忆:
进一步混合:
假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。
如果从特征本身来看--它们具有序列相关性(自相关性),如果从标签来看--也是一样。序列相关性会导致错误的模型估计和错误的训练。一个粗略的例子(也许不是)就是对波动性的过度训练。洗牌是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。
如果能解决是否有可能根据样本的相似性来混合样本的问题,那将是一篇有趣的文章。
据我所知,如果样本相似,那是可能的,但如果差异很大,那就不可能了。就我们而言,我们面对的是不断变化的市场,那么混合的可能性问题就取决于时间间隔....。我希望能有一个具体的数字标准来评估两个样本的相似性,并对其混合的可接受性理论进行检验。供思考的信息。
在这里,我们通过绑定标签来创建对过去动作的记忆:
进一步混合:
假定混合是均匀的,这就意味着在训练中我们获得了一半样本的过去和现在的收益信息。在一个相对较小的时期内,如果可以用这种方法来拟合波动率,那么由于对市场的了 解,这种方法是有效的,但是一旦市场发生重大变化,模型就无法工作了。在我看来,这只是一种记忆效应,而不是对一般模式的识别。马克西姆,如果你有不同看法,请指正我。
如果从符号本身来看,它们具有序列相关性(自相关性),如果从标签来看,情况也是如此。序列相关性会导致对模型的错误估计和错误训练。一个粗略的例子(也许不是)就是对波动率的过度训练。洗牌 是打破序列性的一种原始方法,而洗牌训练和测试是对两组数据的一种平衡。这个问题需要更认真地处理,而不是以如此原始的方式,这也是我想在下一篇文章中专门讨论的。因为这是一个独立的、相当大的话题。
在我看来,将训练集与测试集混合是没有必要的,正如我在上面所写的那样。
它只是在一个滑动窗口内的 N 个增量。洗牌并不会以任何方式改变这棵树。