文章 "希尔伯特-施密特独立性判据(HSIC)" - 页 4

 
fxsaber #:

HSIC 的计算复杂度(含显著性检验)比皮尔逊的要高出好几个数量级,因此我原本预计结果会有所不同。

如果增量是独立的,而它们的和却“相关”,那么对于这样一个资源消耗巨大的检验标准来说,即使在理论上,这也是一个奇怪的结果。

作为独立同分布(iid)变量之和得到的序列并不会变得相关,而是会失去平稳性,这使得无法使用统计检验标准。 也就是说,虽然从形式上讲可以对这类序列进行计算,但结果将毫无意义。因此,为了获得有意义的结果,必须遵守此类检验所设定的条件。例如,对于相关性检验,需要方差恒定。 对于高斯随机序列,方差随时间呈线性增长,即并非常数,由此导致ACF = 0.99的“相关性”,也由此导致HSIC的“相关性”等。

 
fxsaber #:

有一个老牌的、可靠的斯皮尔曼秩用于处理非线性问题。不过,这篇文章的内容更为深入。

斯皮尔曼相关系数的检测能力较弱。它无法发现许多非线性关联。此外,它仅适用于比较两个标量。

 
Dmitry Fedoseev iClose(符号1) 和 iClose(符号2) 的数据填到哪里去才能进行比较?

我想用皮尔逊相关系数进行比较。在那段代码中,皮尔逊相关系数是分别根据 (X1, Y) 和 (X2, Y) 计算的——彼此独立。
然后,在计算 hsic_Gamma_test() 时,X1 和 X2 被合并到同一张矩阵中……并执行
,对由两列组成的 X 矩阵与由一列组成的 Y 矩阵进行某种“神秘的配对”操作。

难道就不能 这样 直接计算 hsic_Gamma_test() 吗——基于两组一维数组?或者,
虽然不是hsic_Gamma_test(),但至少应该包含本文所讨论的内容。

当然,我试过将 X 设为一列……似乎计算出来了……
确实给出了某种结果……但这到底是什么?如果我们知道这是什么就好了,但我们并不知道……

相关系数是针对每个变量独立计算的,因为它比较的是两个标量随机变量,而HSIC处理的是成对变量:

  • 标量 vs 标量
  • 标量 vs 向量
  • 向量 vs 向量
因此,无论是单维数据还是多维数据都可以进行比较,这正是其主要优势所在。

如果你只是简单地计算相关系数,可能会得出数据相互独立的结论,但HSIC却能够发现其中的非线性关联。 这难道还不够吗?

只是人们经常声称股市数据中存在某些非线性关联,但这些关联却非常难以发现。而HSIC正是用于定量发现这些关联的工具。
 
Evgeniy Chernish #:

作为独立同分布(iid)变量之和而得到的序列不会变得相关,但它会失去平稳性,因此无法使用统计检验标准。

我怀疑对于计算量极其庞大的检验标准,是否应该采纳这一观点。


在不存在信息丢失的情况下,变换不应影响相关性评估的结果。

关于交易、自动交易系统及交易策略测试的论坛

关于文章《希尔伯特-施密特独立性检验(HSIC)》的讨论

fxsaber, 2025年5月13日 05:46

命题。

如果对序列进行变换后(不丢失信息——可以恢复到初始状态)得到独立性,则原始序列是独立的。

 
fxsaber #:

我怀疑这是否适用于计算量极其巨大的标准。


在不丢失信息的情况下,转换操作不应影响依赖性评估的结果。

遗憾的是,这适用于大多数统计方法,无论复杂还是简单。 更不用说,95%的计量经济学方法都是建立在iid假设之上的(例外包括ARIMA、动态神经网络、隐马尔可夫模型等)。必须牢记这一点,否则得出的结果将毫无意义。

 
Evgeniy Chernish #:

95%的机器学习方法基于iid假设

想必有人曾尝试通过机器学习构建依赖性准则——采用的是同样的方法,只是该准则本身位于ONNX文件中。

 
fxsaber #:

可能有人试图通过MO来建立依赖关系标准——这是一种类似的方法,只是该标准本身位于ONNX文件中。

机器学习模型会学习进行预测,如果该预测优于“朴素”预测,那么我们就推断数据中存在关联。也就是说,这是对关联的间接检测,并未验证其统计显著性。 而独立性检验标准则不进行任何预测,但能为发现的关联性提供统计学上的验证。这可以说是一枚硬币的两面。 R包中实现了更通用的dHSIC检验。它包含我之前提到的成对独立性实现,并进一步将检验范围扩展到了联合独立性。

[删除]  
可以通过cv来计算其重要性。不过,ONNX在这里并不适用,因为它是用于迁移已训练好的模型,而非其训练算法本身。