交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2016.08.26 14:26 #1251

安德烈-迪克
你似乎误解了我的意思。我不告诉网络在哪里进入，既不使用ZZ，也不使用任何其他指标。训练有素的网会自己选择进入的地方。

哦，伙计...我不明白，那么...

Alexey Burnakov 2016.08.26 14:31 #1252

mytarmailS:

什么应该与什么相关联？你怎么做？我也不明白。

我想除了你之外，这里没有人做过这种事 )

让我再次解释一下，并鼓励你阅读关于嵌套交叉验证的内容。

这是我工作中的一个例子。我正在建立一个回归模型，对一个非常复杂的系统中的一些工程参数进行预测。

我通过模型的训练参数，在交叉验证的测试褶皱上选择最佳模型，然后验证它。我在测试中共选择了100个模型（图上的点）。这些是测试样本中最好的模型。它们的不同之处在于，它们使用了不同的预测器。

你可以看到，在测试中训练不足的模型，在验证中也变成了训练不足。在测试和验证上充分训练的模型被训练出来。过度训练的状态，当测试高而验证低时，根本不存在。

我们在所选模型在测试中的表现与验证中的表现之间存在着关联。

通过改变预测因子的数量，模型从欠拟合发展到完全拟合。而这种增长对选择最佳模型的数据和验证所选最佳模型的数据都是共同的。有一致性!

也就是说，我不是只挑选一个在验证上最好的模型（样本外），而是做了多个模型训练，通过测试来选择，并比较验证上的质量指标。这就是嵌套交叉验证法。这个模型没有被重新训练。我可以在交叉验证中采取最好的模型，并得到最好的样本外指标之一。

而如果我在外汇上的模型性能变化不能解释验证上的模型性能变化，那么有了我们选择最佳模型的样本（在这种情况下，交叉验证测试犯规的平均质量），我们就不能预测样本外的质量性能。

因此，通过做模型选择但不测试样本外选择程序本身，我们是在拟合一个模型。

像我这样的照片是在固定的、一致的数据上出现的--它们包含稳定的依赖关系。作为一个例子，传感器过热在所有情况下都会降低模拟值，这一点在物理上得到了解释。

在对金融时间序列进行建模时，我已经用2000个选定的模型表明，它们在测试样本上的质量指标与验证样本没有关联。

嵌套交叉验证包括在独特的训练样本上多次训练不同的模型--或具有不同输入或参数的模型，然后进行测试。对于每个独特的样本，都会选择最好的模型。然后在一个独特的验证样本上再次测试。这个过程要重复多次。需要一个外部的测试层来证明模型本身及其选择程序给出了样本内和样本外结果的一致性。

我已经向桑桑尼茨、博士和其他人指出了这一点。博士理解我。SanSanSanych没有得到它。

因此，如果我们对外汇或任何其他金融市场实现了这一图景，我们就可以在生产中运行测试截止日期方面的最佳模型。

СанСаныч Фоменко 2016.08.26 14:51 #1253

阿列克谢-伯纳科夫。

让我再次解释，并鼓励你阅读关于嵌套交叉验证的内容。

这是我工作中的一个例子。我正在建立一个回归模型，对一个非常复杂的系统中的一些工程参数进行预测。

我通过模型的训练参数，在交叉验证的测试褶皱上选择最佳模型，然后验证它。我在测试中共选择了100个模型（图上的点）。这些是测试样本中最好的模型。它们的不同之处在于，它们使用了不同的预测器。

你可以看到，在测试中训练不足的模型，在验证中也变成了训练不足。在测试和验证上充分训练的模型被训练出来。过度训练的状态，当测试高而验证低时，根本不存在。

我们在所选模型在测试中的表现与验证中的表现之间存在着关联。

通过改变预测因子的数量，模型从欠拟合发展到完全拟合。而这种增长对选择最佳模型的数据和验证所选最佳模型的数据都是共同的。有一致性!

也就是说，我不是只挑选一个在验证上最好的模型（样本外），而是做了多个模型训练，通过测试来选择，并比较验证上的质量指标。这就是嵌套交叉验证法。这个模型没有被重新训练。我可以在交叉验证中采取最好的模型，并得到最好的样本外指标之一。

而如果我在外汇上的模型性能变化不能解释验证上的模型性能变化，那么有了我们选择最佳模型的样本（在这种情况下，交叉验证测试犯规的平均质量），我们就不能预测样本外的质量性能。

因此，通过做模型选择但不测试样本外选择程序本身，我们是在拟合一个模型。

像我这样的照片是在固定的、一致的数据上出现的--它们包含稳定的依赖关系。作为一个例子，传感器过热在所有情况下都会降低模拟值，这一点在物理上得到了解释。

在对金融时间序列进行建模时，我已经用2000个选定的模型表明，它们在测试样本上的质量指标与验证样本没有关联。

嵌套交叉验证包括在独特的训练样本上多次训练不同的模型--或具有不同输入或参数的模型，然后进行测试。对于每个独特的样本，都会选择最好的模型。然后在一个独特的验证样本上再次测试。这个过程要重复多次。需要一个外部的测试层来证明模型本身及其选择程序给出了样本内和样本外结果的一致性。

我已经向桑桑尼茨、博士和其他人指出了这一点。博士理解我。SanSanSanych没有得到它。

因此，如果我们为外汇或任何其他金融市场实现了这一图景，我们就可以在生产中运行测试部分的最佳模型。

还是不明白，对不起。

验证犯规：它们与测试犯规在同一个文件中，还是完全在一个新文件中验证？

PS。

我所说的交叉验证是指以下算法：文件被分成，例如，10个犯规。在前9个方面进行教学，在10个方面进行验证。然后他们在2-10上授课，在1折上验证。于是他们就把验证犯规搬了出来。对吗？

Alexey Burnakov 2016.08.26 14:59 #1254

SanSanych Fomenko:

还是不明白，对不起。

验证犯规：它们与测试犯规在同一个文件中，还是完全在一个新文件中验证？

PS。

我所说的交叉验证是指以下算法：例如，将文件分为10次犯规。在前9个方面进行教学，在10个方面进行验证。然后在2-10上进行教学，并在1折上进行验证。于是他们就把验证犯规搬了出来。对吗？

是的。

用M1交叉验证对10次犯规进行一个周期的学习，你的理解是正确的。对于每个学习参数的组合：在9次犯规时学习，在延迟检查时。因此，10次。我们得到了10个折的质量指标的平均值。让我们把它称为M1。

让我们把这个程序重复N次（一直在为训练和测试添加新的数据）。

嵌套交叉验证。

我们重复M-N次。每个周期M是一个独特的训练样本。我们得到m1, m2, .在训练和选择最佳模型的过程中获得的mn个质量指标，都在不同的数据上。

外层。每个选定的模型M都在独特的验证样本上进行测试。我们得到k1，k2，...。在样本外进行结测试。

让我们画一个点阵图M对。K.我们得到了一个关于交叉验证中模型质量的变化如何预先决定样本外质量的估计。

关于选择预测器。如果你没有能力获得如此大量的数据，只需给模型的每个周期N一个独特的预测器组。你将测试模型性能是否存在一致性，这取决于测试和验证时选择的预测因子。粗略地说，一个在测试中训练不足的模型在验证中也应该得到更差的结果。一个在测试中被过度训练的模型在验证中的结果会差很多。

СанСаныч Фоменко 2016.08.26 15:22 #1255

阿列克谢-伯纳科夫。

我在这一幻觉中杀死了15年的一半时间。模型验证应该只在与训练、测试和验证程序无关的数据上进行。我懒得去查相关的计算结果了。但由于拨浪鼓的原因，它就像你写的那样，我浪费了半年的时间。

Alexey Burnakov 2016.08.26 15:23 #1256

桑桑尼茨-弗门科。

模型验证应该只在与训练、测试和验证程序无关的数据上进行。

呲呲呲。

这就是它应该做的事!验证是在延迟抽样（或者说样本，如果我们谈论的是嵌套方法）上进行的。

什么幻觉？在任何情况下，这种方法都比一个样本的模型拟合更加客观。

СанСаныч Фоменко 2016.08.26 15:32 #1257

阿列克谢-伯纳科夫。

呲呲呲。

这就是它应该有的样子!验证是在一个延迟的样本（或者说是样本，如果我们谈论的是嵌套方法）上进行的。

什么幻觉？这种方法在任何情况下都比一个样本的模型拟合更客观。

你最清楚。

这对我来说很有效。如果我去掉噪声预测器，在6月数据上训练的模型在7月数据上也会起作用，当我在7月数据上训练一个模型时，在7月数据上训练的误差将与我在7月使用的预测相同，在6月训练的模型上。这就是我所说的缺乏再培训。

Alexey Burnakov 2016.08.26 15:40 #1258

桑桑尼茨-弗门科。

你最清楚。

这一切对我来说都是有效的。如果我去掉噪声预测器，在6月数据上训练的模型将在7月数据上起作用，当我在7月数据上训练模型时，在7月数据上训练的误差将与我在6月训练的模型上7月使用的预测结果相同。这就是我所说的缺乏再培训。

假设你一直有这样的工作，而不仅仅是在2个月的例子上，这可能是一个案例。

你在教什么，属于人字形的膝盖？我不排除这个特定的目标学得始终如一，但属于膝下的人并不能给予准确的输入。这就是问题所在。我可以提前一天相当准确地预测波动率，但在交易中不会给我带来什么。

СанСаныч Фоменко 2016.08.26 15:47 #1259

阿列克谢-伯纳科夫。

假设你一直有这样的工作，而不仅仅是2个月的例子，这可能是一个案例。

你在教什么，属于人字形的膝盖？我不排除这个特定的目标学得始终如一，但属于膝下的人并不能给予准确的输入。这就是问题所在。我可以准确预测提前一天的波动率，但在交易中不会给我带来任何好处。

目标的缺点与确定过度训练模型的方法没有关系。我已经执行了几笔目标和预测器未知的订单。如果你去掉噪声预测器，结果在任何地方都是一样的。

Alexey Burnakov 2016.08.26 15:54 #1260

桑桑尼茨-弗门科。
有缺陷的目标与确定模型过拟合的方法没有关系。

我认为你搞错了。嘈杂的标签（zelevka）使你在测试中看到的东西和你在未来看到的东西之间产生不协调。正是在这样的情况下，才引入了像嵌套验证这样的各种构思。甚至有办法证明，在测试的几个备选模型中，你应该选择更差的那个。

如果你去掉噪声预测器，结果在任何地方都是一样的。

你是如何确定这一点的？你是否跟踪了你的预测器在当时未知的未来的表现？

交易中的机器学习：理论、模型、实践和算法交易 - 页 126