文章 "希尔伯特-施密特独立性判据（HSIC）"

Evgeniy Chernish 2025.05.13 07:34 #31

fxsaber #:

HSIC 的计算复杂度（含显著性检验）比皮尔逊的要高出好几个数量级，因此我原本预计结果会有所不同。

如果增量是独立的，而它们的和却“相关”，那么对于这样一个资源消耗巨大的检验标准来说，即使在理论上，这也是一个奇怪的结果。

作为独立同分布（iid）变量之和得到的序列并不会变得相关，而是会失去平稳性，这使得无法使用统计检验标准。也就是说，虽然从形式上讲可以对这类序列进行计算，但结果将毫无意义。因此，为了获得有意义的结果，必须遵守此类检验所设定的条件。例如，对于相关性检验，需要方差恒定。对于高斯随机序列，方差随时间呈线性增长，即并非常数，由此导致ACF = 0.99的“相关性”，也由此导致HSIC的“相关性”等。

Evgeniy Chernish 2025.05.13 07:37 #32

fxsaber #:

有一个老牌的、可靠的斯皮尔曼秩用于处理非线性问题。不过，这篇文章的内容更为深入。

斯皮尔曼相关系数的检测能力较弱。它无法发现许多非线性关联。此外，它仅适用于比较两个标量。

Evgeniy Chernish 2025.05.13 07:47 #33

Dmitry Fedoseev iClose(符号1) 和 iClose(符号2) 的数据填到哪里去才能进行比较？
我想用皮尔逊相关系数进行比较。在那段代码中，皮尔逊相关系数是分别根据 (X1, Y) 和 (X2, Y) 计算的——彼此独立。
然后，在计算 hsic_Gamma_test() 时，X1 和 X2 被合并到同一张矩阵中……并执行
，对由两列组成的 X 矩阵与由一列组成的 Y 矩阵进行某种“神秘的配对”操作。

难道就不能这样直接计算 hsic_Gamma_test() 吗——基于两组一维数组？或者，
虽然不是hsic_Gamma_test()，但至少应该包含本文所讨论的内容。

当然，我试过将 X 设为一列……似乎计算出来了……
确实给出了某种结果……但这到底是什么？如果我们知道这是什么就好了，但我们并不知道……

相关系数是针对每个变量独立计算的，因为它比较的是两个标量随机变量，而HSIC处理的是成对变量：

标量 vs 标量
标量 vs 向量
向量 vs 向量

因此，无论是单维数据还是多维数据都可以进行比较，这正是其主要优势所在。

如果你只是简单地计算相关系数，可能会得出数据相互独立的结论，但HSIC却能够发现其中的非线性关联。这难道还不够吗？

只是人们经常声称股市数据中存在某些非线性关联，但这些关联却非常难以发现。而HSIC正是用于定量发现这些关联的工具。

fxsaber 2025.05.13 07:48 #34

Evgeniy Chernish #:

作为独立同分布（iid）变量之和而得到的序列不会变得相关，但它会失去平稳性，因此无法使用统计检验标准。

我怀疑对于计算量极其庞大的检验标准，是否应该采纳这一观点。

在不存在信息丢失的情况下，变换不应影响相关性评估的结果。

关于交易、自动交易系统及交易策略测试的论坛

关于文章《希尔伯特-施密特独立性检验（HSIC）》的讨论

fxsaber， 2025年5月13日 05:46

命题。

如果对序列进行变换后（不丢失信息——可以恢复到初始状态）得到独立性，则原始序列是独立的。

Evgeniy Chernish 2025.05.13 07:57 #35

fxsaber #:

我怀疑这是否适用于计算量极其巨大的标准。

在不丢失信息的情况下，转换操作不应影响依赖性评估的结果。

遗憾的是，这适用于大多数统计方法，无论复杂还是简单。更不用说，95%的计量经济学方法都是建立在iid假设之上的（例外包括ARIMA、动态神经网络、隐马尔可夫模型等）。必须牢记这一点，否则得出的结果将毫无意义。

fxsaber 2025.05.13 08:00 #36

Evgeniy Chernish #:

95%的机器学习方法基于iid假设

想必有人曾尝试通过机器学习构建依赖性准则——采用的是同样的方法，只是该准则本身位于ONNX文件中。

Evgeniy Chernish 2025.05.13 08:08 #37

fxsaber #:

可能有人试图通过MO来建立依赖关系标准——这是一种类似的方法，只是该标准本身位于ONNX文件中。

机器学习模型会学习进行预测，如果该预测优于“朴素”预测，那么我们就推断数据中存在关联。也就是说，这是对关联的间接检测，并未验证其统计显著性。而独立性检验标准则不进行任何预测，但能为发现的关联性提供统计学上的验证。这可以说是一枚硬币的两面。 R包中实现了更通用的dHSIC检验。它包含我之前提到的成对独立性实现，并进一步将检验范围扩展到了联合独立性。

[删除] 2025.05.13 08:16 #38

可以通过cv来计算其重要性。不过，ONNX在这里并不适用，因为它是用于迁移已训练好的模型，而非其训练算法本身。

文章 "希尔伯特-施密特独立性判据（HSIC）" - 页 4

命题。