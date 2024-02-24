交易中的机器学习：理论、模型、实践和算法交易 - 页 1533

马克西姆-德米特里耶夫斯基

我在上面写道。一半的作品为基本模型，另一半为第二种矫正模型

那么5-10次犯规就足够了，甚至更多。

上面所写的内容很清楚。

我只是不明白 "5-10次犯规 "是什么意思。

阿列克谢-维亚兹米 金。

上面所写的内容很清楚。

我只是不明白 "5-10次犯规 "是什么意思。

将数据集分成相等的部分，比如说5个部分

合并1,3,4，并在其上教授主要模型

结合2,5。对它们进行第1个模型的训练并得到结果。

使用第一个模型的结果在这2.5上训练第二个模型，并纠正无利可图的交易。

在整个数据集和新数据上运行两个模型，看看结果。

 
阿列克谢-维亚兹米 金。

究竟要重新计算什么？

像往常一样在投资组合中--权重（资产、系统）。在你的案例中，它可以是，例如，0--虚拟表信号交易，1--真实，你可以添加-1--信号反转。每个组合都对应一个长度为0、1或-1的向量。例如，对每个上个月的利润进行优化，并对缩减和投资组合量进行惩罚。

 
Maxim Dmitrievsky:

将数据集分成相等的部分，比如说5块

结合1,3,4，并对它们进行主模型训练

结合2,5。在他们身上运行第一个模型，得到结果。

使用第一个模型的结果在这2.5上训练第二个模型，并纠正无利可图的交易。

在整个数据集和新数据上运行这两个模型，并查看结果

啊，现在我明白了，我只是想把样本混在一起，在第一个模型没有训练的地方训练第二个模型。我需要考虑如何实现，但可能不会在这个项目 中实现，除非在2019年教授第二个模型，但那样的话，在培训之外就没有地方可以检查结果了。

 
阿列克谢-尼古拉耶夫

像往常一样在投资组合中--权重（资产、系统）。在你的案例中，它可以是，例如，0--虚拟表信号交易，1--真实，你可以添加-1--信号反转。每个组合都对应一个长度为0、1或-1的向量。 例如，对每个上个月的利润进行优化，并对缩减和投资组合量进行惩罚。

这里的问题是系数变化的频率--如果它们很少，我们就会落后于趋势，如果它们很频繁，我们就会有可怕的调整，因为策略本身允许缩减，而表在一个季度内可能永远不会给出信号，这使这种方法变得复杂。

 
马克西姆-德米特里耶夫斯基

似乎已经修复了测试器，没有偷看的地方，结果。

欧元兑美元训练+有效，10千条


欧元兑美元测试50千条

同样的模型在欧元兑美元上训练，但在英镑兑美元上测试，5万条。

同样的模型也对美元兑瑞郎进行了训练

这似乎是有道理的。可以说，有一个增长的趋势）。

也许我漏掉了什么，但是，在飞行中，它显然比alglib的森林要好（尽管我确实添加了很多其他东西来改进它）。

它运行速度快，有很多信号，我们可以尝试创建一个投资组合。样本的时间框架是什么？

阿列克谢-维亚兹米 金。

跑得快，信号多，你可以试着做一个组合。那么样本的时间范围是什么？

在15分钟左右的时间里，有一年半的时间。

我必须清理缩减和其他一切，这是我要做的。

 
马克西姆-德米特里耶夫斯基

在15分钟左右的时间里，有一年半的时间。

好吧，这是一个试运行，我需要清理缩减和其他一切，这就是我打算做的。

似乎有很多交易，仿佛价差没有吞噬一切......。无论如何，潜力是存在的--祝你好运!

 

我决定看一下模型在分裂过程中的指标动态，采取了1、20和48步（最后处理的），我得到了以下的汇总表。

用于培训的样本中的指标。

结果对我来说似乎很有趣；首先我应该注意，我们正在使用的树只给出了52%-53%的准确率，这对整个模型来说是非常低的。然而，我们对整个模型并不感兴趣，因为对于交易来说，在正确的方向上进场比错过一次进场更重要，因此我们首先应该对分类的准确性感兴趣，我们可以看到，"-1 "和 "1 "类的准确性在某些时候比初始版本高出4%和3%，而 "0 "类的准确性只下降了1-2%，但同时"-1 "和 "1 "类的完整度下降，"0 "类的完整度也随之增长。

在这个阶段，大约10%的根预测因子已经从样本中被移除--每一步都有一个--但模型并没有崩溃，甚至对我们来说很重要的个别指标也得到了改善。

当然，通过处理所有48个分割点可以获得更多的动态信息，也许指标中存在缺口，或者相反，所有指标都在选定的矢量中运动。但我认为最主要的是，交易需要有自己的模型创建方法，其原则不是试图描述整个结构，而是比其他部分更好地理解部分结构，现在一个好的模型，在我知道的所有方法中，模型是由熵或对数损失来估计的，即用于学习整个模型--对零和一的知识，如果你喜欢，而我们只需要知道更多关于一。

好吧，正如我前面所展示的，按叶子划分的树，以及我的按叶子划分的选择方法，与传统模型相比，在训练样本上提高了20%-25%的分类精度。

问题是我们如何能够加快这个过程，我正在寻找感兴趣的人，我们可以和他们一起工作，重新思考R脚本的操作，现在生成的树，并考虑改进和加快这个方法。

阿列克谢-维亚兹米 金。

所以你有一个~1的对数损失，所以模型处于变化状态。

你想为单个输入找到一个单独的logloss吗？即工作表值和目标值之间的信息量？

"什么都不做 "类与其他类相比显然是不平衡的，正如我在上面写的那样，这可能是一个问题，因为有3类模式。 其他指标也很令人沮丧。

