交易中的机器学习:理论、模型、实践和算法交易 - 页 1278

 
elibrarius:

与马克西姆发现的排列组合类似。但是,用一个变化率为0.1至0.2的预测器代替一个变化率为800至300000的预测器,而不是一个变化率为0.1至0.2的预测器,这样做有意义吗?不!

但洗刷其行数确实如此。数字的范围和概率分布将保持不变,但每个例子中的数值将变得随机。

是的,确实有类似的东西,这可能就是这个想法的来源。我不明白改变预测器有什么问题,因为每个预测器都有自己的值,此外,我们应该以某种方式保存这些值的网格细分(可以是统一 步长0.1 0.2 0.3或任何其他--不同的建模者的变体都有),这样,如果可能的话,就像树形算法工作时那样。

而同样重要的是,有必要不是对所有的样本进行检查,而恰恰是对前一片叶子被激活的那些行进行检查,这样数据的准确性才有可比性,也就是说,有必要对样本进行预过滤(对不同的叶子进行评估,分别进行不同的过滤)。

 
Aleksey Vyazmikin:

是的,它看起来确实很相似,这可能是这个想法的时候产生的。我不明白改变预测器有什么问题,因为每个预测器都有自己的值,此外,如果可能的话,有必要保持这些值的网格细分(可以是统一步长0.1 0.2 0.3或其他--有不同的建模者开发者的选项),就像树形算法工作时那样。

那么,用其他预测器的值代替最大值为0.2的预测器,其值从800到300000?而事实将证明,它总是会去到右侧的分支。而且我们需要同时检查左右两个分支。
归一化将有助于适应范围,但概率分布 可能不同,结果是右边的分支将比左边的分支更经常被触发,或者反过来。
还是我误解了你的想法,我们在谈论不同的事情。

Aleksey Vyazmikin:

另一个重要的事情是,我们不应该检查整个样本,而应该准确地检查那些前一个叶子被激活的行,这样数据的准确性才有可比性,也就是说,我们应该预先过滤样本(对于不同叶子的评估,分别进行不同的过滤)。

通过丢弃预测器,我们放弃了分离其数据的节点(为什么要有一个单独的叶子?)通过丢弃每个节点,我们必须检查2个分支。如果我们舍弃10个节点,我们得到11个选项(子树),有11个叶子作为答案。这需要取平均值,用洗过的柱子运行整个样本,会在最终的树/森林误差的变化中大致显示这一点。
阅读关于pemutation的文章--那里详细地描述了一切。

 
elibrarius

只需用最大值为0.2的预测器的值代替另一个预测器的值,其值在800到300000之间。而事实将证明,它总是会去到右侧的分支。而且我们需要同时检查左右两个分支。
归一化将有助于适应范围,但概率分布可能不同,结果是右边的分支将比左边的分支更经常被触发,或者反过来。
或者我不理解你的想法,我们谈论的是不同的事情。

通过丢弃预测器,我们就丢弃了在它上面共享数据的节点(这和单独的工作表有什么关系?)通过丢弃每个节点,我们必须检查2个分支。如果我们舍弃10个节点,我们得到11个选择,有11片叶子作为答案。这必须是平均的,用洗过的柱子运行整个样本,会在最终的树/森林误差的变化中大致显示出这一点。
阅读关于pemutation的文章--那里详细描述了一切。

我的方法不是pemutation,所以我不能重现它。

我从另一个角度出发,叶子是一个已经完成的规则--某个观察的特征,它很可能已经存在,没有树状结构。树是一种从观察中生成规则的工具。

当然,我同意有些预测器会使修改后的叶子规则在样本的同一部分上完全不起作用,但这不是一个问题,因为目标是找到一个更好的类似物,并只与它进行比较--有些预测器通过分割样本会丢失,这很正常,但通常这只涉及个别预测器的值序列。例如,我们有一张有三个预测因子A>3 && B<1 && C>的表。=20,有预测因子D和E没有包括在规则列表中,我们需要逐一删除每个预测因子,首先是A,然后用D和E代替,预测因子的值格的步骤和不等式的符号不同,在这种情况下,在原来激活的样本的相同部分检查每个新规则,得到每个规则的分类准确性统计。而且,相应地,最好的选择是将其与原作进行比较,并给这种比较打分。要对所有的叶子做这个程序。不包括那些重复的叶子。重要的是,不要把树的结果作为一组规则来评价,而要把叶子中所述的每条规则与其他规则分开。

我不是要确定预测器对贪婪树的重要性,而是要确定预测器对模型提出的规则(叶)的稳定性的重要性。
 
阿列克谢-维亚兹米 金。

我的方法不是pemutation,所以我不能重现它。

我从另一个角度出发,叶子是一个已经完成的规则--某个观察的特征,它很可能已经存在,没有树状结构。树是一种从观察中生成规则的工具。

当然,我同意有些预测器会使修改后的叶子规则在样本的同一部分上完全不起作用,但这不是一个问题,因为目标是找到最好的类似物,并只与它进行比较--有些预测器通过分割样本会丢失,这很正常,但通常这只涉及单个预测器的价值系列。例如,我们有一张有三个预测因子A>3 && B<1 && C>的表。=20,有预测因子D和E没有包括在列表规则中,我们需要逐一删除每个预测因子,首先是A,然后用D和E代替,预测因子的值分区网格的步骤和不等式的符号不同,在这种情况下,在激活原始规则的样本的相同部分检查每个新规则,并获得每个规则的分类准确性统计。而且,相应地,最好的选择是将其与原作进行比较,并给这种比较打分。要对所有的叶子做这个程序。不包括那些重复的叶子。重要的是,不要把树的结果作为一组规则来评估,而是要把叶子中所述的每条规则与其他规则分开。

我不是要确定预测器对贪婪树的重要性,而是要确定预测器对模型所提出的规则(叶子)的稳定性的重要性。
到目前为止,我一直在做脚手架。所以在你的MO方向 - 你知道该怎么做)
 
elibrarius
我现在正在搭建脚手架。所以在你的MO方向 - 你知道该怎么做)

因此,事实证明,每个人都在谈论他自己的事情 :)

告诉我,在同一个Alglib上实现只用唯一的预测值来构建森林,或者至少用唯一的分叉来构建森林,这是否现实?树当然会少一些,但它们不会重复它们的错误/正确答案,这应该会让样本外的训练有更多的合理性。

 
阿列克谢-维亚兹米 金。

告诉我,在同一个Alglib上实现只用预测因子的唯一值来构建森林,或者至少用唯一的分割来构建森林,这是否现实?当然,这将是较少的树木,但他们不会重复他们的错误/正确答案,这应该在训练样本之外给予更多的可信性。

当然了。MQL允许你像其他语言一样,对任何东西进行编程。而Alglib可能会根据你的想法被改写得面目全非。

 
埃利布留斯

当然了。MQL允许你对任何东西进行编程,就像任何其他语言一样。而Alglib可以被改写得面目全非,以适应你的想法。

在 "现实地 "这个词中,我把 "就这么简单"...

但从回答中我得到的态度是,谢谢你,我不会打扰。

 
阿列克谢-维亚兹米 金。

在 "现实地 "这个词中,我把 "就这么简单"...

但从回答中我理解了这种态度,谢谢你,我不打扰了。

当然,很复杂。
但有一个以树形函数为形式的基础。这就是你可以随心所欲地修改。
 
elibrarius
当然很困难。
但在树形函数的形式上有一个基础。这就是你可以按你认为合适的方式进行修改。

谢谢你的答复。你对代码有很好的理解,你是否计划公开发布对建树算法的改进?甚至像树的深度或内置的修剪到一个可定义的规则观察数大小的东西在那里会非常有用。我自己还没有开始使用Alglib,但有的人可能会发现它非常有用。

 
阿列克谢-维亚兹米 金。

谢谢你的答复。你对代码有很好的理解,你是否计划公开发布对建树算法的改进?甚至像树的深度或内置的修剪到一个可定义的规则观察数大小的东西在那里会非常有用。我自己没有使用Alglib,但有的人可能会发现它非常有用。

搞清楚和发布是不同的事情。我现在正在做实验。我现在正在混合预测器。也许我将放弃它,就像我因无法应对噪音而放弃NS一样。

弄清楚这一点是很容易的。你只要看几个小时的代码,一切都会变得清晰。