混乱中有规律可循吗?让我们试着找出它!以特定样本为例进行机器学习。 - 页 19

 

利润等于从某个时间点开始的价格波动的 Delta 值。

没有什么能让我感到惊讶。

我们已经通过了长尾 ....

 
Renat Akhtyamov #:

利润等于从某个时间点开始的价格波动的 Delta 值。

没有什么能让我感到惊讶。

我们已经通过了长尾 ....

你刚才为什么这么写?对了,你不能用任何主题来标记你在 margins.... 中的想法。

 
Aleksey Vyazmikin #:

图 13 显示,除了一个预测因子外,几乎所有可用的预测因子都被使用了,但我怀疑这就是问题的根源。所以问题不在于使用,而在于建立模型时的使用顺序?

是的,没错。如果用相同的预测因子训练两个模型,但其中一个模型的第一次分裂是在一个预测因子上,而另一个模型的第一次分裂是在另一个预测因子上,那么每个变体的整个底层树就会大不相同。

另一个问题是,为什么在同一个数据集上进行分析会使第一次分割不同?列数系数 !=1 是否和森林一样?在森林分析中,它是随机的。但我认为应该是 ==1。
那么还有一个选择:不同的模型种子?用相同的种子试试看,如果结果相同,那么我认为种子会让有利可图的模型变得无利可图,这是非常糟糕的。

 
顺便问一句,《卡布斯种子》中的随机化是什么意思?
 
Aleksey Vyazmikin #:

你为什么这么写?嗯,对了,你不能用任何主题来标记你在 margins.... 中的想法。

关于您的图表

 
elibrarius #:

是的,就是这样。如果您用相同的预测因子训练两个模型,但其中一个模型的第一次分裂是根据一个预测因子进行的,而另一个模型的第一次分裂是根据另一个预测因子进行的,那么每个变体的整个底层树都会大不相同。

这再次证明了贪婪法在选择分裂时存在缺陷。我自己在选择树叶时也进行了实验,得出了相同的结论。

elibrarius#:

问题是不同的--为什么用相同的数据集进行bousting会使第一次拆分不同?列数系数 !=1 是否和森林一样?在森林分析中,它是随机的。但我认为应该是 ==1。

据我所知,这里有一个选择部分列进行评估的类似方法,但我将其设置为强制所有列。

elibrarius#:

那么还有一个选择:为模型设置不同的 Seed?用相同的种子试试,如果结果相同,我认为种子会使盈利的模型变得不盈利,这是非常糟糕的。

种子会固定结果,也就是说,一切都会一样。

elibrarius#:
顺便问一下,在 Cutbust 中,种子随机化了什么?

我的理解是,它将随机数生成器计数器设置为某个值,而这个生成器的使用至少就像他们写的 那样:"选择最佳树的指标是随机化的。"它有点像使用随机数生成器加上一个系数,我的理解是,这个系数取自--随机强度参数(对我来说是 1)。

公式如下

得分 += 随机强度 * Rand (0, lenofgrad * q)

q 是一个乘数,随着迭代次数的增加而减小。因此,随机值会在接近终点时减小。

"

但他们也写道,可以使用子样本来构建树,但我使用的是"--boosting-type Plain "模式来全面应用样本。


还有这样一种效果,如果我在训练后删除不使用模型的列,那么我就无法得到具有相同种子的模型--这一点并不清楚。

 
Renat Akhtyamov #:

您的图表写道

利润等于从某个时间点开始的价格波动的 Delta 值 "如何适用于这些图表?" ?

那么 "长尾我们已经通过 .... "这句话,我是否应该认为我为您提供了某种形式的培训?但我并没有这样做,在论坛上,尾部通常用于模拟价格变化的分布密度--这与我在柱状图上看到的完全不同。在这里,我们不应该谈论风险,而应该谈论这样一个事实,即偶然建立一个模型比了解预测因素的重要性结构及其依赖性要困难得多。

 
Aleksey Vyazmikin #:

利润等于某个时间点价格变动的 Delta 值 "与这些图表有何关系?" ?

那么 "长尾我们已经通过 .... "这句话,我是否应该认为我是在为您提供某种形式的培训?但我并没有这么做,而且在论坛上,尾部通常用于模拟价格变化的分布密度--与我在柱状图上看到的完全不同。在这里,我们不应该谈论风险,而应该谈论这样一个事实,即偶然建立一个模型比了解预测因素的重要性结构及其依赖性要困难得多。

我是在回应 "混沌中存在一种模式 "这一事实。

就是这种直方图,不管你用什么逻辑/方法/公式/理论等。你应用了它,也不会发现其他模式

 
Aleksey Vyazmikin #:

这再次证明,贪婪的劈柴选择方法是有缺陷的。我自己在选择树叶时也进行了实验,得出了同样的结论。

如果没有贪心呢?您可以为每一个分割点再计算一次,然后一次性选择一对,但在您的情况下,计算时间将增加 5000 多倍。取一百个模型的平均值更简单。

据我所知,有一种选择部分列进行评估的类似方法,但我不得不使用所有列。

但他们也说可以使用一个子样本来构建树,但我使用的是"--boosting-type Plain "模式来全面应用样本。

为了减少随机性的影响,这样做是对的。否则,你就需要像在森林中那样对 20-100 个模型进行平均。

Aleksey Vyazmikin#:

我的理解是,它将随机发生器计数器设置为某个值,但这个发生器的使用至少像他们写的 那样:"有一个随机化的度量,通过它来选择最好的树。"它有点像使用一个随机发生器加上一个系数,我的理解是,这个系数取自--随机强度参数(我的参数是 1)。

公式如下

Score += random_strength * Rand (0, lenofgrad * q)

q 是一个乘数,随着迭代次数的增加而减小。因此,随机强度会在接近终点时减小。

也就是说,精炼树可能不是最好的,但随机性会更差。
因此,从梅花树到盈利树,模型之间存在差异。
从分布图来看,消耗模型较多,也就是说,如果我们取平均值,平均结果将是无利可图的。



我是否应该尝试随机强度 = 0?也许可以用更好的细化树来创建模型,而不是用随机的坏树。如果最好的模型是梅花,那么在这个数据上从 10000 个随机模型中随机搜索出最好的一个就是真正的梅花。

或者还是像森林那样,平均随机选择几个模型。因为最好的模型可以重新训练。

 
Renat Akhtyamov #:

我是在回应一个事实:混乱是有规律可循的。

无论你运用什么逻辑/方法/公式/理论等,都只是这种直方图。你应用了,也不会发现任何其他模式

那你的意思是有规律,但你找不到?还是说随机性中蕴含着规律性?