交易中的机器学习:理论、模型、实践和算法交易 - 页 1533

 
马克西姆-德米特里耶夫斯基

我在上面写道。一半的作品为基本模型,另一半为第二种矫正模型

那么5-10次犯规就足够了,甚至更多。

上面所写的内容很清楚。

我只是不明白 "5-10次犯规 "是什么意思。

 
阿列克谢-维亚兹米 金。

上面所写的内容很清楚。

我只是不明白 "5-10次犯规 "是什么意思。

将数据集分成相等的部分,比如说5个部分

合并1,3,4,并在其上教授主要模型

结合2,5。对它们进行第1个模型的训练并得到结果。

使用第一个模型的结果在这2.5上训练第二个模型,并纠正无利可图的交易。

在整个数据集和新数据上运行两个模型,看看结果。

 
阿列克谢-维亚兹米 金。

究竟要重新计算什么?

像往常一样在投资组合中--权重(资产、系统)。在你的案例中,它可以是,例如,0--虚拟表信号交易,1--真实,你可以添加-1--信号反转。每个组合都对应一个长度为0、1或-1的向量。例如,对每个上个月的利润进行优化,并对缩减和投资组合量进行惩罚。

 
Maxim Dmitrievsky:

将数据集分成相等的部分,比如说5块

结合1,3,4,并对它们进行主模型训练

结合2,5。在他们身上运行第一个模型,得到结果。

使用第一个模型的结果在这2.5上训练第二个模型,并纠正无利可图的交易。

在整个数据集和新数据上运行这两个模型,并查看结果

啊,现在我明白了,我只是想把样本混在一起,在第一个模型没有训练的地方训练第二个模型。我需要考虑如何实现,但可能不会在这个项目 中实现,除非在2019年教授第二个模型,但那样的话,在培训之外就没有地方可以检查结果了。

 
阿列克谢-尼古拉耶夫

像往常一样在投资组合中--权重(资产、系统)。在你的案例中,它可以是,例如,0--虚拟表信号交易,1--真实,你可以添加-1--信号反转。每个组合都对应一个长度为0、1或-1的向量。 例如,对每个上个月的利润进行优化,并对缩减和投资组合量进行惩罚。

这里的问题是系数变化的频率--如果它们很少,我们就会落后于趋势,如果它们很频繁,我们就会有可怕的调整,因为策略本身允许缩减,而表在一个季度内可能永远不会给出信号,这使这种方法变得复杂。

 
马克西姆-德米特里耶夫斯基

似乎已经修复了测试器,没有偷看的地方,结果。

欧元兑美元训练+有效,10千条


欧元兑美元测试50千条

同样的模型在欧元兑美元上训练,但在英镑兑美元上测试,5万条。

同样的模型也对美元兑瑞郎进行了训练

这似乎是有道理的。可以说,有一个增长的趋势)。

也许我漏掉了什么,但是,在飞行中,它显然比alglib的森林要好(尽管我确实添加了很多其他东西来改进它)。

它运行速度快,有很多信号,我们可以尝试创建一个投资组合。样本的时间框架是什么?

 
阿列克谢-维亚兹米 金。

跑得快,信号多,你可以试着做一个组合。那么样本的时间范围是什么?

在15分钟左右的时间里,有一年半的时间。

我必须清理缩减和其他一切,这是我要做的。

 
马克西姆-德米特里耶夫斯基

在15分钟左右的时间里,有一年半的时间。

好吧,这是一个试运行,我需要清理缩减和其他一切,这就是我打算做的。

似乎有很多交易,仿佛价差没有吞噬一切......。无论如何,潜力是存在的--祝你好运!

 

我决定看一下模型在分裂过程中的指标动态,采取了1、20和48步(最后处理的),我得到了以下的汇总表。

用于培训的样本中的指标。

结果对我来说似乎很有趣;首先我应该注意,我们正在使用的树只给出了52%-53%的准确率,这对整个模型来说是非常低的。然而,我们对整个模型并不感兴趣,因为对于交易来说,在正确的方向上进场比错过一次进场更重要,因此我们首先应该对分类的准确性感兴趣,我们可以看到,"-1 "和 "1 "类的准确性在某些时候比初始版本高出4%和3%,而 "0 "类的准确性只下降了1-2%,但同时"-1 "和 "1 "类的完整度下降,"0 "类的完整度也随之增长。

在这个阶段,大约10%的根预测因子已经从样本中被移除--每一步都有一个--但模型并没有崩溃,甚至对我们来说很重要的个别指标也得到了改善。

当然,通过处理所有48个分割点可以获得更多的动态信息,也许指标中存在缺口,或者相反,所有指标都在选定的矢量中运动。但我认为最主要的是,交易需要有自己的模型创建方法,其原则不是试图描述整个结构,而是比其他部分更好地理解部分结构,现在一个好的模型,在我知道的所有方法中,模型是由熵或对数损失来估计的,即用于学习整个模型--对零和一的知识,如果你喜欢,而我们只需要知道更多关于一。

好吧,正如我前面所展示的,按叶子划分的树,以及我的按叶子划分的选择方法,与传统模型相比,在训练样本上提高了20%-25%的分类精度。

问题是我们如何能够加快这个过程,我正在寻找感兴趣的人,我们可以和他们一起工作,重新思考R脚本的操作,现在生成的树,并考虑改进和加快这个方法。

 
阿列克谢-维亚兹米 金。

我决定看一下模型在分裂过程中的指标动态,采取了1、20和48步(最后处理的),结果出现了以下的汇总表。

用于培训的样本中的指标。

结果对我来说似乎很有趣;首先我应该注意,我们正在使用的树只给出了52%-53%的准确率,这对整个模型来说是非常低的。然而,我们对整个模型并不感兴趣,因为对于交易来说,在正确的方向上进场比错过一次进场更重要,因此我们首先应该对分类的准确性感兴趣,我们可以看到,"-1 "和 "1 "类的准确性在某一时刻比初始版本的准确性大4%和3%,而 "0 "的准确性只减少1-2%,但同时"-1 "和 "1 "的完整性下降了,但 "0 "的完整性也一起增加。

在这个阶段,大约10%的根预测因子已经从样本中被移除--每一步都有一个--但模型并没有崩溃,甚至对我们来说很重要的个别指标也得到了改善。

当然,通过处理所有48个分割点可以获得更多的动态信息,也许指标中存在缺口,或者相反,所有指标都在选定的矢量中运动。但我认为最主要的是,交易需要有自己的模型创建方法,其原则不是试图描述整个结构,而是比其他部分更好地理解部分结构,现在一个好的模型,在我知道的所有方法中,模型是由熵或对数损失来估计的,即用于学习整个模型--对零和一的知识,如果你喜欢,而我们只需要知道更多关于一。

好吧,正如我前面所展示的,按叶子划分的树,以及我的按叶子划分的选择方法,与传统模型相比,在训练样本上提高了20%-25%的分类准确性。

问题是我如何能加快这个过程,我正在寻找感兴趣的人一起工作,重新思考目前生成树木的R脚本的操作,并思考改进和加快方法。

所以你有一个~1的对数损失,所以模型处于变化状态。

你想为单个输入找到一个单独的logloss吗?即工作表值和目标值之间的信息量?

"什么都不做 "类与其他类相比显然是不平衡的,正如我在上面写的那样,这可能是一个问题,因为有3类模式。 其他指标也很令人沮丧。

原因: