Обсуждение статьи "Применение метода собственных координат к анализу структуры неэкстенсивных статистических распределений" - страница 2

 
alsu:

Я в каком смысле все это. Вот пускай мы имеем некоторую модель, и на основе нее получили теоретическую функцию. И пускай при этом мы в силу своего незнания не смогли учесть некий очень незначительный, но систематический фактор. В этом случае метод собственных координат по причине своей необычайной чувствительности даст нам по шапке, сказав, что реальные данные не соответствуют модели. Однако же ведь это неправда! - модель верная, но не учитывает всего одного фактора, причем с практической точки зрения этот недочет может оказаться вообще несущественным (как в том же примере Хилхорста-Шелла, где отличие даже на глаз-то заметить сложно). Так что "только с фундаментальной" я бы читал как "скорее с фундаментальной" в том смысле, что ценность максимальной точности соответствия может быть не столь существенная с прикладной точки зрения (для решения практической задачи), сколько с фундаментальной (досконального понимания всех происходящих процессов).

С прикладной точки зрения ценность максимальной точности соответствия не столь существенна, если Вы заранее знаете ограничения модели. Например, есть экспериментальные данные, есть теория, которая их хорошо описывает в какой-то области (любая модель имеет ограничения). Вдруг оказалось так, что метод дал на по шапке, это он сделает за рамками модели (например, наша модель не работает при высоких/низких температурах) мы увидим это. С другой стороны, обычно у нас есть информация о свойствах модели, например что она получена с учетом каких-то допущений, при этих температурах проявляются другие эффекты, которые не учтены в модели. Ничего страшного в этом нет, у модели есть область применимости.

Фундаментальность всегда сильнее, поскольку область ее применимости шире. Чтобы иметь широкую область применимости нужно обладать особыми свойствами.

Кроме того, метод дает нам лишь вердикт о том, что модель не подходит под экспериментальные данные, но ничего не говорит о причинах несоответствия (как в моем примере - мы не можем определить, верна ли модель "в целом" с небольшими недочетами либо следует ее полностью пересматривать), и это есть недостаток.

Для таких случаев есть более крутая магия - это симметрийные соображения.

Мне кажется, при помощи показательного распределения вряд-ли получится исправить тот архитектурный косяк стат. механики.

 

Quantum:

Мне кажется, при помощи показательного распределения вряд-ли получится исправить тот архитектурный косяк стат. механики.

А никакого косяка нет, попробуйте подставить в ваши же вычисления (параграфы 2.3-2.4 статьи) mu=0, nu=1, a=gamma. Вот даю выписку из статьи


В этом случае вычисления сводятся практически к тривиальным - после подстановки из 3 координат остается только 2, но при этом можно заметить что X1 и X2 получаются линейно зависимы, т.е. фактически еще одну координату мы вынуждены ликвидировать. Далее подставьте реальные данные, например, с EURUSD. Результаты (в плане линейности графика) вас приятно удивят. Самое интересное, что отклонения от линейности, насколько я помню, есть как раз в области "высоких температур" (в смысле в области больших модулей returns), причем совсем не в ту сторону, как можно было бы ожидать - на самом деле, если все аккуратно построить, будет видно, что "толстый хвост" распределения на конце резко истончается (там сложно оценить, точек маловато, но вроде что-то типа exp(-x^3) или exp(-x^4). Это к вопросу о том, а) можно ли тут построить одну единственную модель, которая работала бы во всех областях (скорее всего, нет, т.к. нелинейные эффекты в "режиме насыщения" играют превалирующую роль) и б) такой хвост соответствует q-гауссовскому, как баян козе, если уж на то пошло.

Можно и по-другому - загоните в скрипт из параграфа 2.4 csv-файл с реальным распределением модулей отклонений и поглядите, что будет. Поскольку задача сильно переопределена (один из коэффициентов С3 сильно близок к нулю, а два других С1 и С2 шибко линейно зависимы), результат предсказать даже не берусь (может и МНК в переполнение вылезть). Если лень, погодите до вечера, могу и сам сделать. Как посмотрим картинки, будет ясно, кто правее и о чем говорить дальше)

Кстати, я вовсе и не утверждаю, что показательное это панацея, наоборот, в плане неэкстенсивных вас поддерживаю и предлагаю посчитать, какое распределение максимизирует Q-энтропию на [0;+inf) (вариационным исчислением владеете? я так не то чтобы очень, но в принципе могу, ниче там шибко сложного нет). О том, что надо пытаться работать с модулями отклонений, есть теоретические соображения (выше писал про информацию), хоть и не совсем оформленные, плюс некое чутье, если хотите.

 
Ах, ну да, стоило поднять зад и заглянуть в интернет, как оказалось, что q-exponential уже посчитано добрыми людьми. Кто возьмется за подгон к котировкам?
 

Особо радует, что

The q-exponential distribution has been used to describe the distribution of wealth (assets) between individuals

 
alsu:

А никакого косяка нет, попробуйте подставить в ваши же вычисления (параграфы 2.3-2.4 статьи) mu=0, nu=1, a=gamma. Вот даю выписку из статьи


В этом случае вычисления сводятся практически к тривиальным - после подстановки из 3 координат остается только 2, но при этом можно заметить что X1 и X2 получаются линейно зависимы, т.е. фактически еще одну координату мы вынуждены ликвидировать. Далее подставьте реальные данные, например, с EURUSD. Результаты (в плане линейности графика) вас приятно удивят. Самое интересное, что отклонения от линейности, насколько я помню, есть как раз в области "высоких температур" (в смысле в области больших модулей returns), причем совсем не в ту сторону, как можно было бы ожидать - на самом деле, если все аккуратно построить, будет видно, что "толстый хвост" распределения на конце резко истончается (там сложно оценить, точек маловато, но вроде что-то типа exp(-x^3) или exp(-x^4). Это к вопросу о том, а) можно ли тут построить одну единственную модель, которая работала бы во всех областях (скорее всего, нет, т.к. нелинейные эффекты в "режиме насыщения" играют превалирующую роль) и б) такой хвост соответствует q-гауссовскому, как баян козе, если уж на то пошло.

Можно и по-другому - загоните в скрипт из параграфа 2.4 csv-файл с реальным распределением модулей отклонений и поглядите, что будет. Поскольку задача сильно переопределена (один из коэффициентов С3 сильно близок к нулю, а два других С1 и С2 шибко линейно зависимы), результат предсказать даже не берусь (может и МНК в переполнение вылезть). Если лень, погодите до вечера, могу и сам сделать. Как посмотрим картинки, будет ясно, кто правее и о чем говорить дальше)

Кстати, я вовсе и не утверждаю, что показательное это панацея, наоборот, в плане неэкстенсивных вас поддерживаю и предлагаю посчитать, какое распределение максимизирует Q-энтропию на [0;+inf) (вариационным исчислением владеете? я так не то чтобы очень, но в принципе могу, ниче там шибко сложного нет). О том, что надо пытаться работать с модулями отклонений, есть теоретические соображения (выше писал про информацию), хоть и не совсем оформленные, плюс некое чутье, если хотите.

Работать с модулями очень хорошая идея, интересно было бы посмотреть что там получается.

P1(x) слабее P2(x) - по диф. уравнению у последнего богаче динамика, кроме того, P2(x) содержит в себе гауссиан, это делает его универсальным (можно править все задачи где он фигурирует).

Думаю, нужно копать в сторону P(U) - это почти гауссиан, но с хитрым нелинейным преобразованием аргумента через erf-1(x) - так у Шера обрезались хвосты.

при дифференцировании и интегрировании P(U) возникают конструкции с преобразованием аргумента в виде erf(a*erf-1(x)) - что это такое не совсем понятно.

Т.е. идея в том, чтобы из известных точных решений (у Шера есть второй пример слайд 25) путем сравнения уравнений восстановить общий вид дифференциального уравнения, решения которого в частных случаях примут вид известных функций (по аналогии с гипергеометрической функцией).

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
Ах, ну да, стоило поднять зад и заглянуть в интернет, как оказалось, что q-exponential уже посчитано добрыми людьми

Не менее добрые люди показали что есть глобальная развилка (ур-е 32), на которой после "specific choice" h(x)=tanh(x) и lamda=1 получается g->q.

Интересно, есть ли другие варианты "specific choice" с опцией "гауссиан"? Думаю, они должны быть - рождение нового качества не может быть на базе того, что "do not play any special role" - тут фундаментальность просто необходима.

UPD. Возможно, что "do not play any special role" - неверное утверждение, сделанное на базе нескольких частных случаев.

 
Quantum:

С прикладной точки зрения ценность максимальной точности соответствия не столь существенна, если Вы заранее знаете ограничения модели. 

Принцип "кашу маслом не испортишь" весьма сомнителен в практическом моделировании.

Если сосредоточиться только на экономических временных рядах, то, наряду с необходимостью решения других проблем, всегда приходится решать двуликую проблему "избыточности/недостаточности" модели. При этом, при равенстве моделей выбирается та, что проще. Для решения этой проблемы в статистике существуют набор тестов, позволяющих хоть как-то пытаться решить эту проблему.   

Весь механизм моделирования должен быть сбалансирован. Конечно, интересны прорывы в некоторых местах, но практически интересно это при подтягивании других элементов моделей к уровню этого прорыва.

На данный момент все еще остается проблемой наличие изломов (breakpoints) в котире, которые не удается учесть при моделировании. Пока не удастся решить эту проблему любые уточнения моделей бессмысленны.

 

Да, пожалуй лучше сначала посмотреть на экспериментальные данные.

Рассмотрим классический пример (рис. 4 статьи) по объяснению распределения SP500 при помощи q-Gaussian (функция P2(x)).

Дневные данные по ценам закрытия SP500 брались по ссылке: http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/


SP 500 close prices

SP500 logarithmic returns

SP 500 logarithmic returns distribution


Для проверки файл SP500-data.csv нужно скопировать в папку \Files\, далее запустить CalcDistr_SP500.mq5 (расчет распределения) и затем q-gaussian-SP500.mq5 (анализ методом собственных координат)

Результаты расчета:

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

Оценки параметра q, полученные методом собственных координат (q=1+1/theta): q~1,55

В примере (рис. 4 статьи) q~1.4.

SP 500 eigencoordinates X1 Y1

SP 500 eigencoordinates X2 Y2

SP 500 eigencoordinates X3 Y3

SP 500 eigencoordinates X4 Y4

Выводы: в целом эти данные неплохо проецируются на q-gaussian, данные брались как есть, но усреднение все-же присутствует, поскольку SP500-индексный инструмент+дневные графики.

X1 и X2 чувствительные по своей природе, На X3 и X4 хвосты слегка деформированы, но не настолько, чтобы считать q-gaussian неверной функцией - нужно найти пример с более ярко выраженной проблемой.

Можно улучшить X1 и X2, заменив их на JX1 и JX2, они должны выпрямиться. Хвостовые части на X3 и X4 можно исправить, расширив набор собственных координат обобщением квадратичной зависимости, т.е. отказом от симметрии вокруг x0 (+новые параметры). Можно посмотреть кубический случай (1+a(x-x0)^3)^theta и его расширения (+новые параметры).

Требуется изучение зависимости от инструмента, временного интервала и таймфрейма.

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
Файлы:
 
faa1947:

На данный момент все еще остается проблемой наличие изломов (breakpoints) в котире, которые не удается учесть при моделировании. Пока не удастся решить эту проблему любые уточнения моделей бессмысленны.

По поводу изломов (если я их правильно понял).

Рассмотрим распределение logarithmic returns для #AA, M5 (2011.12.01 21:15:00 -2012.06.29 18:10:00)

Расчет производился при помощи скрипта CalcDistr.mq5, 10000 данных по символу #AA, M5

#AA

Распределение logarithmic returns в данном случае (масштаб M5) имеет сложную структуру:

#AA distribution

Если считать, что распределение logarithmic returns~ вероятности движения в каком-то направлении, то тут явно имеет место сумма распределений - структура распределений на мелких масштабах свидетельствует о нестационарности.

Текущая динамика определяется локальным распределением, а в точках излома происходит ее перестройка:

Т.е. распределение несимметрично по своей природе (|x| не пройдет), оно состоит из 2-х частей/распределений (положительной и отрицательной), локальная динамика определяется наибольшим объемом в стакане.

Файлы:
CalcDistr.mq5  4 kb
 

Интересный материал, спасибо. Мне не хотелось бы нарушать царящее тут математическое благообразие, но не задать два простых вопроса все же не могу:

1. Вопрос практической ценности этих распределений. К чему в результате мы должны придти? Описание ради самого описания - это прекрасно, но (извиняюсь конечно) попахивает ботаникой.

2. Разумно ли пытаться описать совершенно различные по своей природе процессы, происходящие на различных "уровнях" на рынке, одним распределением. Тут уже упоминалась проблема "изломов", но это всего лишь часть тех проблем которые существуют. Более того, в различные исторические промежутки времени сам состав процессов значительно меняется, как вы это хотите описывать одим распределением - непонимаю.

Причина обращения: