文章 "Python中的虚假回归（伪回归）"

MetaQuotes 2024.11.19 14:43

虚假回归通常发生在两个时间序列之间仅因偶然因素而展现出高度相关性时，这会导致回归分析产生误导性的结果。在这种情况下，尽管变量之间可能看似存在关联，但这种关联仅仅是巧合，模型可能并不可靠。

在深入机器学习算法交易领域之前，确认模型输入与我们想要预测的变量之间是否存在有意义的关系至关重要。本文阐述了在单位根测试中对模型残差的应用，以验证我们的数据集中是否存在这种关系的实用性。

遗憾的是，使用没有真正关系的数据集构建模型是有可能的。这些模型可能会产生令人印象深刻的低误差指标，从而营造出一种虚假的控制感和过于乐观的前景。这些有缺陷的模型通常被称为“虚假回归”。

本文将首先培养对虚假回归的直观理解。之后，我们将生成合成时间序列数据来模拟虚假回归，并观察其特征效应。接着，我们将深入探讨识别虚假回归的方法，并依靠我们的见解来验证一个在Python中构建的机器学习模型。最后，如果我们的模型得到验证，将其导出为ONNX格式，并在MQL5中实现一个交易策略。

作者：Gamuchirai Zororo Ndawana

Carl Schreiber 2024.06.21 11:31 #1

非常有趣的文章！不过，如果能简要解释残差（与预测值的差异）、静态性（变量和均值是否恒定）等基本术语，会对没有深入统计知识的交易者有所帮助。

Gamuchirai Zororo Ndawana 2024.06.21 12:31 #2

Carl Schreiber #:
非常有趣的文章！不过，如果能简要解释残差（与预测值的差异）、静态性（变量和均值是否恒定）等基本术语，会对没有深入统计知识的交易者有所帮助。

谢谢你，卡尔，你说得没错，我下次会记得长话短说，以实现效用最大化。

Aleksey Vyazmikin 2024.09.23 20:47 #3

可能是翻译上的困难，我想澄清一下。文章中的静止性是针对残差定义的，即实际条形图收盘价与预测值之间的差值？我可能没读懂，但为什么我们要在训练过的相同数据上得出结论，难道在滞后样本上应用模型不是合乎逻辑的吗？

文章让人觉得报价的时间序列是静态的，但所有资料都告诉我们并非如此。我认为这是对材料理解的错误。

另外，模型的准确性问题也没有涉及，按照我的理解，它根本就不准确，如果是这样，那么在模型答案误差变化如此之大的情况下，我们是否可以采用不同的检验方法？

理想情况下，最好能看到通过某种技术排除预测因子后对回归模型结果的影响。

我认为需要更多关于这一主题的文章，这些文章可以实际应用到引文中。

Gamuchirai Zororo Ndawana 2024.09.24 09:37 #4

Aleksey Vyazmikin 回归模型结果的影响。
我认为需要更多关于这一主题的文章，这些文章可以实际应用到引文中。

嘿，阿列克谢，你可能已经知道，我们有很多不同的方法来解决任何问题。我更倾向于在未见过的测试数据上测量模型的残差。不过，我当时阅读的学术文献告诉我，即使是模型以前见过的训练数据也没有问题。

我并没有意识到我的写作方式可能暗示市场报价的时间序列是静态的，我们都知道它们不是静态的，我并不想这么说，我可能可以用更好的措辞来表达。

模型准确性的问题超出了我的范围，因为虚假模型仍然可以获得很高的准确性指标。

你知道的，这是我为社区写的第一批文章之一。从那以后我学到了很多东西，我会继续补充这一系列文章。这一次，我将保持清晰的文笔，并特别展示我们在金融市场交易时如何将其应用到我们的优势中。

新评论