Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 19

 
Candid:

Не надо комментировать, надо попытаться ответить на мои вопросы. Открою секрет - они рассчитаны на то что пытаясь на них ответить вы кое-что поймёте ).

Дискуссию я читал, кстати, вы что, всерьёз хотите обсуждать 17-страничную смесь мух с котлетами?

Я хоть верно догадался что вы называете двумя процессами?

Не знаю где Вы на 17странице смесь котлет с мухами увидели. Оно раньше появилось...

Что касается понимания - рекомендую глянуть на таблычку Алексея, и ответить - в предположении какого теоретического распределения она построена?

;)

 

а два процесса - это теоретический ( нулевая гипотеза) и реальный.

Вы бы должны знать.

 
joo:

Я половину слов в этой ветке вообще не понимаю, но даже я понял, что распределения тут вообще не причем.

Распределение процесса, в котором есть зависимости между отдельными отсчетами, не обязано быть ни равномерным, ни нормальным. Это же очевидно.

Пример: стихи Пушкина. Если в тексте упоминаются слова "дуб" и "цепь", то по любому где то рядом есть "кот". Эта зависимость между словами никак не связана с распределением слова "том", или любого другого, в абзацах.

знаете как примитивно проверяют аутентичность авторства?

Именно так по частоте сочетаний "Дуб- цепь- кот"с "эталонных" текстов и проверяемого - делают вывод.

Потому, что всегда есть база для сравнения.

А тут мне непонятно, что с чем сравнивают?

Где теоретическая частота. Вернее - чья она?

Может Candid прав и нужно просто эмигрировать в Грецию, и всё станет на свои места?

;)

 
avatara:

Не знаю где Вы на 17странице смесь котлет с мухами увидели. Оно раньше появилось...

Вот опять с окончаниями проблема, 17 страниц превратились в 17-ю страницу. Не хотите перечитать эти 17 страниц на предмет других "опечаток" восприятия?
а два процесса - это теоретический ( нулевая гипотеза) и реальный
Вообще-то мой первый пост цитировал топикстартера, логичнее было бы предположить что я имею в виду в первую очередь его вариант. Тем более что он, в отличие от Алексея, достаточно подробно его описал. Но я не уверен что отождествление гипотез с процессами способствует ясности изложения.
Что касается понимания - рекомендую глянуть на таблычку Алексея, и ответить - в предположении какого теоретического распределения она построена?

Честно скажу - не знаю. Я бы строил исходя из эмпирического распределения.
 
avatara:

а два процесса - это теоретический ( нулевая гипотеза) и реальный.

Вы бы должны знать.

Нет, неверно. Я толкую об этом критерии. Статистика у него та же, кстати. Просто она применяется к другим величинам.

Теперь - о тех двух величинах, независимость которых проверяется. В блоке таблицы, выложенном мной, это возвраты двух баров, разнесенных на 310 баров (между ними 309 баров). Статистика проверяется на всей совокупности таких пар баров в истории. Если в истории 60000 баров, то таких пар баров - 59690=60000-310.

Бар, который дальше в прошлом, - это источник S. Парный ему бар ближе к настоящему - это приемник R. Возвраты S и R - это и есть величины, независимость которых проверяется. Точнее, не сами возвраты, а номера квантилей, в которые они попадают. Почему делил на квантили - объяснял ранее: чтобы хи-квадрат работал (частоты не менее 10).

Насчет волы как основного источника феномена - еще подумаю. Что-то тут не так все просто... Но предложение Candid'a вполне логично, чтобы его проверить (убрать волу).

 

Бегло ознакомился со статьей топикстартера. Сложилось подозрение, что автор нашел не зависимость между переменными текущий бар <-> прошлый бар, а лишь факт кластеризации валатильности. Конечно, даже исходя из этого, график представляет интерес, так как уверенная взаимосвязь волатильности до 50-60 лагов, это что-то новое. Естественно, при перемешивании данных методом Монте Карло, кластеризация нарушается, что и было видно на диаграммах.

Для того что бы понять, что же все-таки было найдено, необходимо протестировать предложенную формулу на ненормальных и заведомо независимых распределениях, в частности на классическом GARCH(1,1) а лучше даже на GARCH(3,3); Если зависимость будет найдена и на нем, - то дело ясное, формула ни чего нового не дает, а просто определяет частный случай мартингала еще одним способом.

Если у автора есть желание, могу предоставить ему синтетические ретурнсы GARCH.

 

Спасибо. Давайте искусственные данные, протестирую на выходных.

А по поводу формулы, да в ней нет ничего особенно чудесного, это стохастический анализ под другим углом.

По поводу волатильности, здесь уже многое сказали и я согласен с мнениями. А вот количество лагов, на которых независимые переменные несут информацию о волатильности для нулевого бара действительно наглядно обозначились. И для разных фин.инструментов глубина лагового погружения при сохранении информационной значимости разная.

 
Я вообще думаю, что если не получится прогнозировать returns на основании прошлых returns, то всегда есть, лично для меня, возможность вернуться к проблеме выбора независимых переменных (различных индикаторов) для прогнозирования. Тема и называется feature selection, и я бы с удовольствием обсудил другие методы, типа анализа главных компонент, использование НС с автоассоциативной памятью, анализ обученной сети (весов), кластерный анализ, хи-квадрат, еще есть экспонента (поправлюсь - константа) Липшица. В общем, народ, тема то большая...
 
C-4: Конечно, даже исходя из этого, график представляет интерес, так как уверенная взаимосвязь волатильности до 50-60 лагов, это что-то новое.

Спасибо, что заметили. Вот это и настораживает. Вероятно, да, вола объясняет значительную часть явления, но, похоже, таки не всю. А на часовках эта взаимосвязь еще намного дальше, на сотни баров вглубь.

Кстати, на днёвках зависимостей существенно меньше, чем на Н4, на которых их, в свою очередь, намного меньше, чем на Н1.

 
Mathemat:

Спасибо, что заметили. Вот это и настораживает. Вероятно, да, вола объясняет значительную часть явления, но, похоже, таки не всю. А на часовках эта взаимосвязь еще намного дальше, на сотни баров вглубь.

Кстати, на днёвках зависимостей существенно меньше, чем на Н4, на которых их, в свою очередь, намного меньше, чем на Н1.


Если опять-таки дело в волатильности, то это очень хорошо объясняется четкой цикличностью зависящей от времени суток:

Тут не нужно быть Эйнштейном что бы даже невооруженным глазом заметить кластеризацию волы в районе 16:30. Поэтому на внутридневных масштабах естественно подобные "взаимосвязи" проявляются гораздо определенней. И конечно это все равно ничего не дает. Мы просто знаем что в 16:30 происходят сильные движения (что прекрасно видно на графике), вызванные притоком волатильности, но нам по прежнему не известны ни направление движения, ни его цели.

Как и обещал выкладываю синтетику - GARCH(1,1) со стандартными параметрами, предложенными MathLab: garchset('P',1,'Q',1,'C', 0.0001, 'K', 0.00005, 'GARCH', 0.8, 'ARCH', 0.1); Пока сделать GARCH(3,3) или даже больше не получилось, - программу знаю плохо и тупо поменять 'P',1,'Q',1 на 'P',3,'Q',3 не прокатило. Ряд содержит 10 000 испытаний, чего думаю будет вполне достаточно. Вот его ценовой график:

Так же было бы интересно сгенерировать СБ на основе данных часовой волатильности того же EURUSD. Там будет тот же самый характер волатильности что и в EURUSD, но сам график будет на 100% состоять из шума. Если и на нем будет обнаружена зависимость, значит метод не пригоден в прогнозе цены, а вот если зависимостей не будет обнаружено, значит мы станем свидетелями рождения нового индикатора способного на раз определять имеем ли мы дело с бессмысленной заумной синтетикой или с настоящим рынком.

Файлы:
garch.zip  91 kb
Причина обращения: