文章 "非广延统计分布结构化分析的本征坐标法应用" - 页 2

 
alsu:

我的意思是假设我们有一个模型,并在此基础上得到了一个理论函数。但是,由于我们的无知,我们没有考虑到一些非常微不足道的系统性因素。在这种情况下,特征坐标法由于其非凡的灵敏度会给我们一记耳光,说实际数据与模型不符。但事实并非如此!- 模型是正确的,但它只考虑了一个因素,而从实际角度来看,这个缺陷可能根本微不足道(就像希尔霍斯特-谢尔的例子一样,即使用眼睛看也很难发现其中的差别)。因此,我把 "仅从基本观点来看 "理解为 "而是从基本观点来看",即从应用观点(解决实际问题)来看,最大限度地精确对应的价值可能并不那么重要,但从基本观点(透彻理解所发生的所有过程)来看,它可能是至关重要的。

从应用的角度来看,如果事先知道模型的局限性,那么最大拟合精度值就不是那么重要了。例如,有一些实验数据,有一种理论在某些方面可以很好地描述这些数据(任何模型都有局限性)。如果突然发现这种方法有缺陷,它就会在模型之外产生缺陷(例如,我们的模型在高温/低温条件下不起作用),我们就会发现这一点。另一方面,我们通常掌握了有关模型特性的信息,例如模型是在某些假设条件下推导出来的,在这些温度下会出现模型中没有考虑到的其他效应。这并没有错,模型有其适用范围。

原教旨主义总是更强,因为它的适用范围更广。要想有广泛的适用范围,就需要有特殊的属性。

此外,该方法只给出了模型与实验数据不符的结论,但对差异的原因却只字未提(如我的例子--我们无法确定该模型是 "总体 "正确但存在小缺陷,还是应该彻底修改),这也是一个缺陷。

在这种情况下,有一种更酷的魔法--那就是对称性考虑。

在我看来,统计力学的结构缺陷很难在指示性分布的帮助下得到纠正。

 

Quantum:

在我看来,通过指示性分布不可能纠正统计力学的结构性错误。

其实并没有什么错误,试着把 mu=0, nu=1, a=gamma 代入你的计算(文章第 2.3-2.4 段)。以下是文章摘录


在这种情况下,计算几乎是微不足道的--在替换 3 个坐标后只剩下 2 个坐标,但您可以注意到 X1 和 X2 是线性相关的,也就是说,事实上我们必须再去掉一个坐标。接下来,以欧元兑美元 为例,替换真实数据。您会对结果感到惊喜(在图表线性方面)。最有趣的是,在我的记忆中,仅在 "高温 "区域(在大模量回报区域的意义上)存在偏离线性的情况,而且完全不是你所期望的方向--事实上,如果你仔细绘制所有的图,你会发现分布的 "粗尾 "在末端急剧变细(这很难估计,因为没有足够的点,但类似于 exp(-x^3) 或 exp(-x^4)。这就涉及到以下问题:a) 是否有可能建立一个适用于所有区域的单一模型(可能不可能,因为 "饱和模式 "中的非线性效应起着主导作用);b) 这样的尾部与 q-Gaussian 相对应,就像手风琴与山羊相对应一样。

您也可以反过来做--将包含偏差模块真实分布的 csv 文件输入第 2.4 段中的脚本,看看会发生什么。由于问题高度超定(C3 系数之一非常接近零,另外两个 C1 和 C2 非常线性相关),我甚至无法预测结果(MNC 可能会溢出)。如果你懒,等到晚上,我可以自己做。一旦我们看到图片,就会知道谁是对的,接下来该怎么谈了)。

顺便说一句,我并没有说指数是万能的,相反,就非广延性而言,我支持你,并建议你计算一下哪种分布能使 [0;+inf) 上的 Q-熵最大(你知道微积分变分法吗? 我不是很懂,但原则上我能做到,不是很复杂)。这里面有理论上的考虑(我在上面写了关于信息的内容),虽然还不太正式,但如果你愿意,还可以加上一些直觉。

 
啊,对了,我应该赶紧上网查一查,原来好心人已经计算出 了 q 指数。谁来对报价进行调整?
 

尤其令人高兴的是

q 指数分布被用来描述财富(资产)在个人之间的分布情况
 
alsu:

而且没有接头,请尝试在计算中代入(文章第 2.3-2.4 段)mu=0,nu=1,a=gamma。以下是论文摘录


在这种情况下,计算几乎是微不足道的--在替换 3 个坐标后只剩下 2 个坐标,但您可以注意到 X1 和 X2 是线性相关的,也就是说,事实上我们必须再去掉一个坐标。接下来,以欧元兑美元为例,替换真实数据。您会对结果感到惊喜(在图表线性方面)。最有趣的是,在我的记忆中,仅在 "高温 "区域(在大模量回报区域的意义上)存在偏离线性的情况,而且完全不是你所期望的方向--事实上,如果你仔细绘制所有的图,你会发现分布的 "粗尾 "在末端急剧变细(这很难估计,因为没有足够的点,但类似于 exp(-x^3) 或 exp(-x^4)。这就涉及到以下问题:a) 是否有可能建立一个适用于所有区域的单一模型(可能不可能,因为 "饱和模式 "中的非线性效应起着主导作用);b) 这样的尾部与 q-Gaussian 相对应,就像手风琴与山羊相对应一样。

您也可以反过来做--将包含偏差模块真实分布的 csv 文件输入第 2.4 段中的脚本,看看会发生什么。由于问题高度超定(C3 系数之一非常接近零,另外两个 C1 和 C2 非常线性相关),我甚至无法预测结果(MNC 可能会溢出)。如果你懒,等到晚上,我可以自己做。一旦我们看到图片,就会知道谁是对的,接下来该怎么谈了)。

顺便说一句,我并没有说指数是万能的,相反,就非广延性而言,我支持你,并建议你计算一下哪种分布能使 [0;+inf) 上的 Q-熵最大(你知道微积分变分法吗? 我不是很懂,但原则上我能做到,不是很复杂)。这里面有理论上的考虑(我在上面写了关于信息的内容),虽然还不是很正式,但如果你喜欢的话,还可以加上一些直觉。

使用模块是个好主意,看看会发生什么会很有趣。

P1(x)比 P2(x) 弱--根据差分方程,后者具有更丰富的动态,此外,P2(x) 包含一个高斯,这使得它具有通用性(您可以纠正出现高斯的所有问题)。

我认为我们应该深入研究 P(U)--它几乎是高斯,但通过erf-1(x) 对参数进行了棘手的非线性变换--这就是舍尔函数如何切断尾部的。

对 P(U)进行微分和积分时,有一些构造的参数变换形式为 erf(a*erf-1(x))- 这一点不太清楚。

也就是说,我们的想法是通过比较微分方程的一般形式,从已知的精确解中恢复(舍尔有第二个例子,幻灯片 25),其解在特定情况下将采用已知函数的形式(与超几何函数类比)。

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
啊,对了,我得赶紧上网查查,结果发现 q 指数已经被好心人计算出来了

好心人还证明 了存在一个全局分叉(公式 32),在 "特定选择 "h(x)=tanh(x) 和 lamda=1 后,我们得到 g->q。

我想知道在 "高斯 "选项下是否还有其他 "特定选择 "选项。我认为肯定有--新质点的诞生不能建立在 "不发挥任何特殊作用 "的基础上--这里只需要基本性。

更新:"不发挥任何特殊作用 "可能是根据几个特例作出的错误陈述。

 
Quantum:

从应用的角度来看,如果事先知道模型的局限性,那么最大限度地提高拟合精度的价值就不大了。

在实际建模中,"油盐不进 "的原则很值得商榷。

如果只专注于经济时间序列,那么在需要解决其他问题的同时,总是要解决模型 "冗余/不足 "的两面问题。在这种情况下,如果模型相同,就会选择更简单的模型。为了解决这个问题,统计学中有一套测试方法可以尝试以某种方式解决这个问题。

整个建模机制应该是平衡的。当然,在某些地方取得突破是很有趣的,但如果能把模型的其他元素提升到突破的水平,那才是真正有趣的。

目前,在建模中无法考虑到的商数中存在的问题(断点)仍然是一个问题。在这个问题得到解决之前,任何模型的改进都是毫无意义的。

 

是的,也许最好先看看实验数据。

让我们来看一个用 q-高斯(函数 P2(x))解释 SP500 分布的经典例子(文章图 4)。

SP500 收盘价的每日数据取自以下链接:http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/。


SP 500 收盘价

SP500 对数收益率

SP 500 对数收益分布


要检查 SP500-data.csv 文件,请将其复制到 \Files\ 文件夹,然后运行 CalcDistr_SP500.mq5(分布计算)和 q-高斯-SP500.mq5(特征坐标 分析)。

计算结果:

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

通过特征坐标法(q=1+1/theta)得到的参数 q 的估计值:q~1.55

在示例中(文章图 4),q~1.4。

SP 500 特征坐标 X1 Y1

SP 500 特征坐标 X2 Y2

SP 500 特征坐标 X3 Y3

SP 500 特征坐标 X4 Y4

结论:总体而言,这些数据相当符合 q 高斯,数据按原样提取,但平均化仍然存在,因为 SP500 指数工具+日线图。

X1 和 X2 在本质上比较敏感,X3 和 X4 的尾部略有扭曲,但还不至于让 q 高斯函数失效--需要找到一个问题更明显的例子。

您可以用 JX1 和 JX2 代替 X1 和 X2,它们应该会变直。X3 和 X4 的尾部可以通过扩大特征坐标集来修正,方法是将二次函数的依赖性一般化,即放弃 x0 周围的对称性(+ 新参数)。我们可以研究 (1+a(x-x0)^3)^theta 的三次方情况及其扩展(+新参数)。

需要研究仪器、时间间隔和时间框架的相关性。

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
附加的文件:
 
faa1947:

目前,"科蒂尔 "中仍然存在断点问题,在建模时无法将其考虑在内。在这个问题得到解决之前,任何模型的改进都是毫无意义的。

关于断点(如果我理解正确的话)。

让我们来看看 #AA,M5 的对数收益分布(2011.12.01 21:15:00 -2012.06.29 18:10:00)。

计算使用脚本 CalcDistr.mq5,符号 #AA,M5 的 10000 个数据。

#AA

在这种情况下(标度 M5),对数收益率的分布具有复杂的结构:

#AA 分配

如果我们考虑对数收益率的分布~向某个方向运动的概率,那么这里显然存在一个分布总和--小尺度上的分布结构表明是非稳态的。

当前的动态是由局部分布决定的,在断点处分布会重新排列:

也就是说,分布在本质上是不对称的(|x| 不会通过),它由两部分/分布(正分布和负分布)组成,局部动态由烧杯中最大的体积决定。

附加的文件:
CalcDistr.mq5  4 kb
 

有趣的材料,谢谢。我不想扰乱这里的数学礼仪,但我还是忍不住想问两个简单的问题:

1.这些分布的实用价值问题。我们应该得出什么结果?为了描述而描述是可以的,但(当然,我很抱歉)这有植物学的味道。

2.试图用单一的分布来描述市场上不同 "层次 "发生的完全不同的自然过程是否合理。这里已经提到了 "扭结 "问题,但这只是存在问题的一部分。此外,在不同的历史时间区间,过程的构成会发生很大的变化,你想用一个分布来描述它--我不明白。