기고글 토론 "일반화된 통계 분포의 구조 분석에 고유값 좌표계 적용하기" - 페이지 2

 
alsu:

이 모든 것이 무엇을 의미하는지. 특정 모델이 있고 이를 기반으로 이론적 함수를 얻었다고 가정해 보겠습니다. 그리고 우리의 무지로 인해 우리는 매우 사소하지만 체계적인 요소를 고려하지 못했다고 가정 해 보겠습니다. 이 경우 고유 좌표 방법은 감도가 매우 높기 때문에 실제 데이터가 모델과 일치하지 않는다고 말하면서 손목을 때릴 것입니다. 그러나 그것은 사실이 아닙니다! - 모델은 정확하지만 한 가지 요소 만 고려하지 않으며 실용적인 관점에서 볼 때이 결함은 전혀 중요하지 않은 것으로 판명 될 수 있습니다 (눈으로도 차이를 알아 차리기 어려운 Hilhorst-Schell의 동일한 예에서와 같이). 따라서 저는 대응의 최대 정확도라는 가치가 (실제 문제 해결을 위한) 응용적인 관점에서는 그다지 중요하지 않을 수 있지만 (일어나는 모든 과정에 대한 철저한 이해라는) 근본적인 관점에서는 중요할 수 있다는 의미에서 "근본적인 관점에서만"을 "오히려 근본적인 관점에서"로 읽겠습니다.

적용 관점에서 모델의 한계를 미리 알고 있다면 최대 적합도 정확도 값은 그다지 중요하지 않습니다. 예를 들어, 실험 데이터가 있고, 어떤 영역에서 이를 잘 설명하는 이론이 있습니다(모든 모델에는 한계가 있습니다). 그런데 갑자기 그 이론이 모델 밖에서 작동하는 경우(예: 우리 모델은 고온/저온에서 작동하지 않음)가 발생하면 이를 확인할 수 있습니다. 반면에 일반적으로 모델의 속성에 대한 정보(예: 특정 가정을 통해 도출된 모델)가 있는 경우 이러한 온도에서는 모델에서 고려하지 않은 다른 효과가 나타납니다. 이것은 잘못된 것이 아니며 모델에는 적용 가능한 영역이 있습니다.

근본주의는 적용 가능한 영역이 더 넓기 때문에 항상 더 강력합니다. 적용 가능한 영역이 넓으려면 특별한 속성이 필요합니다.

또한 이 방법은 모델이 실험 데이터에 맞지 않는다는 판결만 내릴 뿐 불일치의 이유에 대해서는 아무 말도 하지 않습니다(제 예에서처럼 모델이 사소한 결함으로 "일반적으로" 올바른지 아니면 완전히 수정해야 하는지 판단할 수 없습니다).

이러한 경우에는 대칭을 고려하는 것이 더 멋진 마법이 있습니다.

통계 역학의 구조적 결함은 지표 분포의 도움으로 거의 수정할 수 없는 것 같습니다.

 

Quantum:

지표 분포를 통해 통계 역학의 구조적 결함을 수정하는 것은 불가능할 것 같습니다.

그리고 결함이 없으면 mu=0, nu=1, a=감마를 계산에 대입 해보십시오 (기사의 2.3-2.4 단락). 다음은 문서에서 발췌한 내용입니다.


이 경우 계산은 거의 사소합니다. 3개의 좌표를 대입한 후 2개만 남지만 X1과 X2가 선형 의존적이라는 것을 알 수 있습니다. 즉, 실제로 좌표를 하나 더 제거해야 한다는 것을 알 수 있습니다. 다음으로 실제 데이터를 예를 들어 EURUSD로 대체합니다. 결과에 놀라실 것입니다(차트 선형성 측면에서). 가장 흥미로운 점은 제가 기억하는 한 "고온" 영역(큰 모듈라 수익률 영역의 의미에서)에서만 선형성 편차가 있고 예상하는 방향이 전혀 없다는 것입니다. 실제로 모든 것을주의 깊게 플로팅하면 분포의 "두꺼운 꼬리"가 끝에서 급격히 얇아지는 것을 볼 수 있습니다 (추정하기 어렵고 포인트가 충분하지 않지만 exp(-x^3) 또는 exp(-x^4) 같은 것임). 이는 a) 모든 영역에서 작동하는 단일 모델을 구축할 수 있는지("포화 모드"의 비선형 효과가 주된 역할을 하므로 아마도 아닐 것입니다), b) 그러한 꼬리가 아코디언과 염소처럼 q-Gaussian에 해당하는지에 대한 질문입니다(
).

다른 방법으로도 할 수 있습니다. 편차 모듈의 실제 분포가 포함된 csv 파일을 2.4절의 스크립트에 입력하고 어떤 일이 발생하는지 확인할 수 있습니다. 문제가 매우 과도하게 결정되어 있기 때문에(C3 계수 중 하나는 0에 매우 가깝고 다른 두 개의 C1 및 C2는 매우 선형적으로 의존함) 결과를 예측할 수도 없습니다(MNC가 오버플로될 수 있음). 게으르다면 저녁까지 기다리면 제가 직접 할 수 있습니다. 사진을 보면 누가 옳고 다음에 무엇을 이야기해야하는지 분명해질 것입니다).

그건 그렇고, 나는 지수가 만병 통치약이라고 주장하지 않습니다. 반대로 비 광범위한 측면에서 나는 당신을지지하고 [0;+inf)에서 Q- 엔트로피를 최대화하는 분포를 계산할 것을 제안합니다 (변동 미적분을 아십니까? 잘 모르겠지만 원칙적으로 할 수 있으며 그리 복잡하지 않습니다). 공식화되지는 않았지만 이론적 고려 사항(위에서 정보에 대해 썼던 내용)이 있으며, 원한다면 직관도 도움이 될 수 있습니다.

 
아, 그래요, 제가 엉덩이를 들고 인터넷을 찾아보니 이미 친절한 사람들이 지수식을 계산해 놓은 것 같더군요. 견적 조정은 누가 하나요?
 

특히 반가운 점은

개인 간의 부(자산) 분포를 설명하기 위해 지수 분포가 사용되었습니다.
 
alsu:

그리고 관절이 없으므로 계산(기사의 2.3-2.4항)에서 뮤=0, 누=1, 에이=감마로 대체해 보세요. 다음은 논문에서 발췌한 내용입니다.


이 경우 계산은 거의 사소합니다. 3개의 좌표를 대체한 후에는 2개의 좌표만 남지만 X1과 X2가 선형 의존적이라는 것을 알 수 있습니다. 즉, 실제로 좌표를 하나 더 제거해야 합니다. 다음으로 실제 데이터를 예를 들어 EURUSD로 대체합니다. 결과에 놀라실 것입니다(차트 선형성 측면에서). 가장 흥미로운 점은 제가 기억하는 한 "고온" 영역(큰 모듈라 수익률 영역의 의미에서)에서만 선형성 편차가 있고 예상하는 방향이 전혀 없다는 것입니다. 실제로 모든 것을주의 깊게 플로팅하면 분포의 "두꺼운 꼬리"가 끝에서 급격히 얇아지는 것을 볼 수 있습니다 (추정하기 어렵고 포인트가 충분하지 않지만 exp(-x^3) 또는 exp(-x^4) 같은 것임). 이는 a) 모든 영역에서 작동하는 단일 모델을 구축할 수 있는지("포화 모드"의 비선형 효과가 주된 역할을 하므로 아마도 아닐 것입니다), b) 그러한 꼬리가 아코디언과 염소처럼 q-Gaussian에 해당하는지에 대한 질문입니다(
).

다른 방법으로도 할 수 있습니다. 편차 모듈의 실제 분포가 포함된 csv 파일을 2.4절의 스크립트에 입력하고 어떤 일이 발생하는지 확인할 수 있습니다. 문제가 매우 과도하게 결정되어 있기 때문에(C3 계수 중 하나는 0에 매우 가깝고 다른 두 개의 C1 및 C2는 매우 선형적으로 의존함) 결과를 예측할 수도 없습니다(MNC가 오버플로될 수 있음). 게으르다면 저녁까지 기다리면 제가 직접 할 수 있습니다. 사진을 보면 누가 옳고 다음에 무엇을 이야기해야하는지 분명해질 것입니다).

그건 그렇고, 나는 지수가 만병 통치약이라고 주장하지 않습니다. 반대로 비 광범위한 측면에서 나는 당신을지지하고 [0;+inf)에서 Q- 엔트로피를 최대화하는 분포를 계산할 것을 제안합니다 (변동 미적분을 아십니까? 잘 모르겠지만 원칙적으로 할 수 있으며 그리 복잡하지 않습니다). 공식화되지는 않았지만 이론적인 고려 사항(위에서 정보에 대해 썼습니다)이 있으며, 원한다면 약간의 직관도 필요합니다.

모듈로 작업하는 것은 매우 좋은 생각이며, 어떤 일이 일어나는지 보는 것은 흥미로울 것입니다.

P1(x)는 P2(x)보다 약합니다. 후자는 미분 방정식에 따라 더 풍부한 역학을 가지고 있으며, P2(x)에는 가우시안도 포함되어 있어 보편적입니다(나타나는 모든 문제를 수정할 수 있습니다).

저는 P(U)를 향해 파고들어야 한다고 생각합니다 - 거의 가우스에 가깝지만 에르프-1(x)를 통한 인수의 까다로운 비선형 변환으로 Scher에서 꼬리가 잘린 방식이 바로 이것입니다.

P(U)를 미분하고 적분할 때, 인수가 erf(a*erf-1(x)) 형식으로 변환되는 구조가 있습니다. - 형태의 인자 변환이 있는 구조가 있는데, 이것이 무엇인지 명확하지 않습니다.

즉, 아이디어는 미분 방정식의 일반적인 형태인 방정식을 비교하여 알려진 정확한 해(Scher의 두 번째 예제 슬라이드 25)에서 복구하는 것이며, 그 해는 특정 경우에 알려진 함수의 형태를 취합니다 (초기하학적 함수와 유추하여).

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
아, 네, 엉덩이에서 내려 인터넷을 살펴 봐야했고, 친절한 사람들이 이미 q 지수를 계산 한 것으로 밝혀졌습니다.

덜 친절한 사람들은 "특정 선택"h (x)=탄 (x) 및 lamda = 1 이후에 g-> q를 얻는 글로벌 포크 (방정식 32)가 있음을 보여주었습니다.

"가우시안" 옵션과 함께 다른 "특정 선택" 옵션이 있는지 궁금합니다. 새로운 품질의 탄생은 "특별한 역할을하지 마십시오"를 기반으로 할 수 없습니다. 여기에는 근본적인 것이 필요하다고 생각합니다.

UPD: "특별한 역할을 하지 않는다"는 표현은 몇 가지 특수한 경우를 근거로 한 잘못된 표현일 수 있습니다.

 
Quantum:

애플리케이션 관점에서 볼 때, 모델의 한계를 미리 알고 있다면 적합도의 정확도를 극대화하는 것은 그다지 중요하지 않습니다.

"기름으로 죽을 망칠 수 없다"는 원칙은 실제 모델링에서는 매우 의문입니다.

경제 시계열에만 집중한다면 다른 문제를 해결해야 할 필요성과 함께 항상 모델의 '중복성/불충분성'이라는 양면 문제를 해결해야 합니다. 이 경우 두 모델이 동일할 때 더 간단한 모델이 선택됩니다. 통계에서 이 문제를 해결하기 위해 어떻게든 이 문제를 해결할 수 있는 일련의 테스트가 있습니다.

전체 모델링 메커니즘이 균형을 이루어야 합니다. 물론 어떤 부분에서 돌파구를 갖는 것은 흥미롭지만, 모델의 다른 요소를 그 돌파구 수준까지 끌어 올릴 때 실질적으로 흥미 롭습니다.

현재로서는 모델링에서 설명할 수 없는 꼬임(한계점)이 존재하는 것이 여전히 문제입니다. 이 문제가 해결되기 전까지는 어떤 모델 개선도 의미가 없습니다.

 

예, 실험 데이터를 먼저 살펴보는 것이 더 나을 수도 있습니다.

q- 가우스(함수 P2(x))를 사용하여 SP500 분포를 설명하는 전형적인 예(기사 그림 4)를 살펴 보겠습니다.

SP500 종가에 대한 일일 데이터는 링크(http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/)에서 가져왔습니다.


SP 500 종가

SP500 로그 반환

SP 500 로그 수익률 분포


SP500-data.csv 파일을 확인하려면 \Files\ 폴더에 복사한 다음 CalcDistr_SP500.mq5(분포 계산)와 q-gaussian-SP500.mq5 (고유 좌표 분석)를 실행합니다.

계산 결과:

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

고유 좌표법으로 얻은 파라미터 q의 추정치(q=1+1/세타): q~1.55

예제(문서의 그림 4)에서는 q~1.4.

SP 500 고유좌표 X1 Y1

SP 500 고유좌표 X2 Y2

SP 500 고유좌표 X3 Y3

SP 500 고유좌표 X4 Y4

결론: 일반적으로 이러한 데이터는 q- 가우스에 상당히 잘 투영되며, 데이터는 그대로 가져왔지만 SP500 지수 도구 + 일봉 차트이므로 평균이 여전히 존재합니다.

X1과 X2는 본질적으로 민감하고, X3과 X4에서는 꼬리가 약간 왜곡되어 있지만 q- 가우시안 함수가 적합하지 않을 정도는 아니므로 더 뚜렷한 문제가 있는 예를 찾아야 합니다.

X1과 X2를 JX1과 JX2로 바꾸면 곧게 펴질 것입니다. X3과 X4의 꼬리는 이차 의존성을 일반화하여 고유 좌표 집합을 확장함으로써, 즉 x0(+새 매개변수) 주변의 대칭을 포기함으로써 수정할 수 있습니다. (1+a(x-x0)^3)^세타 및 그 확장(+새 매개변수)의 3차 사례를 살펴볼 수 있습니다.

계측기, 시간 간격 및 기간 의존성에 대한 연구가 필요합니다.

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
 
faa1947:

현재로서는 모델링에서 고려할 수 없는 코티르의 중단점 문제가 여전히 존재합니다. 이 문제가 해결되기 전까지는 어떤 모델 개선도 의미가 없습니다.

중단점에 관해서는 (내가 올바르게 이해했다면).

M5(2011.12.01 21:15:00~2012.06.29 18:10:00)의 #AA, M5에 대한 로그 수익률 분포를 고려해 봅시다.

심볼 #AA, M5에 대한 10000개의 데이터, CalcDistr.mq5 스크립트를 사용하여 계산했습니다.

#AA

이 경우 로그 수익률의 분포(스케일 M5)는 복잡한 구조를 가지고 있습니다:

#AA 배포

로그 수익률의 분포~ 특정 방향으로의 이동 확률을 고려하면 여기에는 분명히 분포의 합이 있으며, 작은 스케일의 분포 구조는 비정형성을 나타냅니다.

현재 역학은 국부 분포에 의해 결정되며, 중단점에서는 다시 정렬됩니다:

즉, 분포는 본질적으로 비대칭이며(|x|는 통과하지 않음), 두 부분/분포(양수 및 음수)로 구성되며, 국소 역학은 비커에서 가장 큰 부피에 의해 결정됩니다.

파일:
CalcDistr.mq5  4 kb
 

흥미로운 자료입니다, 감사합니다. 여기서 지배적인 수학적 미학을 방해하고 싶지는 않지만 여전히 두 가지 간단한 질문을 할 수밖에 없습니다:

1. 이러한 분포의 실질적인 가치에 대한 질문입니다. 결과적으로 우리는 어떤 결론에 도달해야 할까요? 설명 자체는 괜찮지만 (물론 죄송하지만) 식물학 냄새가 납니다.

2. 시장에서 서로 다른 '수준'에서 발생하는 완전히 다른 본질적인 프로세스를 단일 배포로 설명하는 것이 합리적일까요? "꼬임"의 문제는 이미 여기에서 언급되었지만 이것은 존재하는 문제의 일부일뿐입니다. 또한 역사적 시간 간격에 따라 프로세스의 구성 자체가 크게 달라지는데, 이를 하나의 분포로 어떻게 설명하려는 것인지 이해가 되지 않습니다.