交易中的机器学习:理论、模型、实践和算法交易 - 页 2110

 
elibrarius:
如果是独特的,那就是歪的。例如,有100个字符串,其中10个是唯一的,其中2个是45个字符串,8个是1个。除以5个量子,有可能只选择5乘1,而最有代表性的2个(各45个)将被跳过。

不同的方法对不同的预测器有不同的有效作用,这就是为什么我想有不同的算法来了解如何更好地挑选它们。如果你能将代码翻译成MT5,我将分享我的研究。

 
Aleksey Vyazmikin:

用均匀分布我看--我首先会创建一个唯一值的数组,用它来切割。

但也有其他方法来分割网格。

均匀 - 简单地划分数值范围,例如一列中的数值从0到100,阶梯量子=100/255=0.39只是不在行中,而是在数值中。即0,0.39,0.78 ....99.61

然后你可以使用这些值来找到那些实际存在于列中的值,并删除重复的值。


UniformAndQuantiles - 只需通过方法1寻找一半的255/2=127量子,通过方法2寻找128量子,然后合并成一个数组。

剩下的3种方法很复杂--我没有看。

 
Aleksey Vyazmikin:

这些是CatBoost的采样量化方法--这些是列举/学习然后进行的边界。

我的实验表明,应该为每个预测器分别选择网格,然后观察质量增益,但CatBoost不能做到这一点, 我不能建立网格,我必须建立网格并上传到csv,然后迭代它们来评估其中的目标行为。我认为这是一个非常有前途的芯片,但需要将代码翻译成MQL。

1)它是这样工作的。它采取单独的列 排序,并将其分割成量子。

2)这正是它的作用

 

均匀 - 简单地划分数值范围,例如一列中的数值从0到100,步长量级=100/255=0.39只是不以行为单位,而以数值为单位。即0,0.39,0.78 ....99.61

然后你可以找到列中实际存在的值,并删除重复的值。


UniformAndQuantiles - 只需通过方法1寻找一半的255/2=127量子,通过方法2寻找128量子,然后合并成一个数组。

其他3种方法很复杂--我没有研究过它们。

这些都是我们感兴趣的复杂问题 :)

关于UniformAndQuantiles,我知道理论,但在现实生活中如何做我不明白--如何定义如此量子和如此量子的区域这里我不明白--或用一种方法上到中间,而后用另一种方法--但这很疯狂。

 
Aleksey Vyazmikin:

选择正确的故障对结果有重大影响。

这里有一个关于召回的例子--高达50%的价差--对我来说这很重要。

将界限从8增加到512,以512为增量--虽然在直方图上不是按顺序排列--我的名字有点碍事。


我还在试验网格的选择,但已经很明显,有不同的预测器,我需要不同的网格来遵循逻辑,而不仅仅是适合。

以65535量子为例,不需要麻烦。计算结果将尽可能地准确。

 
Aleksey Vyazmikin:

这些是我感兴趣的复杂的东西 :)

而关于UniformAndQuantiles,我知道这个理论,但我不明白在现实生活中如何做--如何定义我们量化的区域和量化 的地方。在这里,我不明白--或通过一种方法上到中间,又经过另一种方法--但这很疯狂。


 
elibrarius:

1)它是这样工作的。它把一个单独的柱子 进行分类,并把它分割成量子。

2)这正是它的作用--你为什么这样认为?

它不知道如何估计量化后的目标和数值集之间的关系。如果可能的话,它把网格分成给定数量的段,对于所有的预测者来说,这并不总是必要的。但是CatBoost 知道如何与喂养的(单独准备的)量化网格一起工作,我用的就是这个。

 
elibrarius:

以65535量子为例,不要出汗。计算结果将尽可能地准确。

不,它将是一个合适的,而不是一个有意义的模型!。

 
elibrarius:


这是很奇怪的。

 
Aleksey Vyazmikin:

它不知道在定量时如何估计目标和数值集之间的关系。如 果可能的话,对所有的预测者来说,网格被划分为一定数量的段,这并不总是必要的。但是CatBoost知道如何与提交的(单独准备的)量化网格一起工作,我用的就是这个。

而你知道怎么做吗?

原因: