引文中的依赖性统计(信息论、相关和其他特征选择方法)。 - 页 20

 

谢谢你!下载了它,看了一下。

因此,我将使用逐级除法方案进行离散,这样一来,概率密度函数 将是均匀的。我将测量500个滞后期的相互信息,发布一个图表。

 

而对于初学者来说。

你的原始数据的概率密度函数的类型。

对应于正态分布。

接下来,在你的值的原始系列上做一个自相关图,直到滞后50。

你可以看到,一般来说,相关关系并不显著,尽管在某些滞后期有一些相关关系滑过。

最后,我把你的系列值的平方绘制成自相关图,只看 "波动性 "的密度。

我注意到,波动率取决于其接近的过去值。这一切都与股指的每日报价相似,与欧元兑美元的每日报价略有相似(我稍后将公布它们的计算结果)。

我们等待I(X,Y)的计算结果。

 
alexeymosc: 等待I(X,Y)的计算结果。

很好,我们正在等待,阿列克谢

在你的I(X,Y)的结果之后,我可以将数据载入我的卡方计算脚本。我不相信会有有用的东西出来(这是我的先验假设)。

 

我对延误表示歉意。互联网瘫痪了。

我先说说方法论部分。我把这个系列离散成5个值(量值)。为什么?当你计算目标变量和因变量的交叉频率时,你会得到25个选择,如果你用10,000除以25,你会得到400。这是一个具有统计学意义的样本。你可以做3到7;在我看来,我采取了中间路线。

这就是平均接收器信息(目标变量)的计算方法。


我注意到,对于任何滞后,计算平均信息都会得到一个类似的值(当然,除非我们在不同长度的字母表中对自变量进行离散处理)。

这是对目标变量和因变量的交叉熵的计算。

原始时间序列上的相互信息值直方图。

我只能注意到从整体上突出的第一个滞后。其他的就不好说了。

我还做了以下工作。由于数据是正常的,我在Echel中生成了10,000个具有相同平均值和标准偏差的随机数。我计算了500个滞后期的相互信息。这就是出来的东西。


你可以通过眼睛看到,第一个滞后期的信息量已经不大。

对所产生的互信息值样本的其余指标应予以删除和比较。所以。

原始系列的500个变量的相互信息之和:0.62。对于随机系列:0.62。这意味着样本的平均数也将是相等的。在原始序列与随机序列差别不大的假设上打上第一个复选标记(即使考虑到波动率的依赖性)。

让我们进行非参数检验来证实两个实验样本之间的差异不显著的假设。

Kolmogorov-Smirnov检验(对于不考虑变量顺序和先验未知概率密度函数的样本):在0.05的显著性水平上,P>0.1。我们拒绝假设,即样本之间的差异是显著的。打上第二个勾。

其结果是:初始序列与随机序列的差异不大,这一点已通过相互信息的统计显示出来。

在这种情况下,波动率的依赖性对柱状图的外观没有很大的影响。然而,必须记住,我是以不同的方式对大疆进行采样的。

 
Mathemat:

很好,我们等待,阿列克谢

在你的I(X,Y)的结果之后,我可以将数据载入我的卡方计算脚本。我不相信会有有用的东西出来(这是我的先验假设)。

我也是先验地压制贝叶斯的合理性...

请看前述内容。

:)

噪音--就像最初看到的那样。

而你的阿列克谢的研究则更有智慧。

但泊松是我的朋友。

 
Mann-Whitney检验给出的P值为0.46。我们也拒绝了样本之间的差异是显著的假设。
 
伙计们,我现在将以类似的思路来分析欧元兑美元的日记。让我们来看看!
 

谢谢你,多尔蒂!

你是正确的!

很高兴见到你。

 
alexeymosc:
伙计们,我现在将以类似的思路来分析欧元兑美元的日记。让我们来看看!

试着用手表书代替。日线图中的相互信息很少。

P.S. 初步总结如下:GARCH(1,1)显示了某种波动率的聚类,类似于Eh...异方差性,但正如预期的那样,它没有提供任何信息。也许我们应该增加数量级,即模型的论据?

 

数据来自A-ri服务器,欧元兑美元D1。在相邻的收盘价上取了系列增量。按5个量级进行微调。

让我们看看相互信息的计算结果是什么。

我们可以看到,最近的100-200个滞后期比其他滞后期携带更多的信息。

现在让我们随机地混合增量,得到一个随机系列。让我们计算一下VI。

哇。已经看不到最近的滞后信息了。

让我们直观地比较一下结果。

较近的滞后期明显显示出原始(蓝色)系列的优势。

我对原始和随机系列的I值进行了窗口22(月)的移动平均。

显然,原始(蓝色)系列在近滞后期到200次左右的时候,确实有与随机系列不同的信息记忆(关于这种信息的性质,我们留待甜点讨论)。

非参数检验说的是什么?

Kolmogorov-Smirnov检验。

p < 0,001

Mann-Whitney检验。

p = 0,0000.

我们拒绝样本间差异不明显的假设。或者说,欧元兑美元的D1回报系列与具有相似特征的随机数据在均值和价差方面有很大不同。

呃。我去抽根烟休息一下。