Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 2

 
alexeymosc:

Во-первых, цикличность не на дневном графике, а на часовом! Я там написал, кстати.

А для дневок результат не будет цикличным, Вы правы.

Пардон, повторяем для часовиков.

Исходный график за 120 часов

По графику я цикличности не вижу, тренд имеется. Проверим на нормальность:

По Жарку-Беру - совсем не нормальный. Проверим по АКФ:

Тренд есть, а цикличности нет - другой результат.

При наличии тренда пустое дело заниматься статистикой. Детрендируем тем же Ходриком:

Внешне остаток - белый шум. Посмотри в нем циклы:


Крнечно, волна имеется, но какая-то не солидная и совсем не красивая по сравнению с Вашей. Думая вся разница в детрендировании. Без удаления деерминированных составляющих нельзя делать статистики.

 
Вы что-то свое делаете. Вообще никакой связи с тем что я делаю ))) Начнем с того, что я работаю с рядом приращений. Потом, если Вы возьмете значения этого ряда по модулю (то есть плюсов и минусов) и построите автокоррелограму, бьюсь об заклад - вылезет красивая цикличность с периодом 24. Это уже по логике ближе к моим делам.
 
Вчера я добавил в статью на Хабре выжимку по теории информации. Может помочь в понимании процесса нахождения важных переменных.
 
alexeymosc:
Вы что-то свое делаете. Вообще никакой связи с тем что я делаю ))) Начнем с того, что я работаю с рядом приращений. Потом, если Вы возьмете значения этого ряда по модулю (то есть плюсов и минусов) и построите автокоррелограму, бьюсь об заклад - вылезет красивая цикличность с периодом 24. Это уже по логике ближе к моим делам.

Как скажите. Вычисляю приращение как разность каждого последующего с предыдущим. Получаю график:

Для этих приращений вычисляю АКФ

Прошу обратить внимание на последний столбец - это вероятность отсутутствия корреляций между барами

Беру квадрат приращений. Вот график:

Это пики изменения волантильности, а причем здесь цикличность приращений? Может быть цикличность волантильности? Это тоже интересно. Проверим цикличность приращений:

Ну, нет здесь цикличности, и обращаем внимание на последний столбец - крайне высокая вероятность отсутствия корреляции.

Интересны еще два рисунка. Проверим на нормальность приращений:

Заметим, что по Жарку-Беру вероятность нормальности равна нулю!

Это что за распределение? Хотелось бы иметь нормальное. Мне всегда представлялась сомнительной идея работы с приращениями, получаемыми как разница последующей с предыдущей.

Окончательно. Почему-то мне не удается получить Ваш результат.

 

faa1947, эти Ваши выкладки не имеют никакого отношения к среднему потоку информации, о котором завел речь топикстартер. Вы обрабатываете данные на последних 5 сутках, а график Алексея - это результат обработки данных на часовках за десяток лет. У Алексея это статистика, а у Вас - частный, единичный случай, который ничего не доказывает в контексте обсуждения.

Показанная топикстартером периодичность никак напрямую не связана с волатильностью или возвратами (returns). Это вообще не ценовая периодичность, а ин-фор-ма-ци-он-на-я. По оси абсцисс - лаг, по оси ординат - средняя взаимная информация в битах. А автокоррелограмма была затронута Алексеем для того, чтобы запутать всех напрочь :) Это не автокорреляция возвратов! О ней мы вообще не говорим, т.к. эти информационные зависимости по большей части явно нелинейные, и они вообще не выявляются с помощью АКФ возвратов.

Вы статью на хабре внимательно читали? Никакого отношения ни к Вашей любимой стационарности, ни к нормальности потока возвратов, ни даже к условной периодичности волатильности это не имеет. Конечно, и здесь было бы неплохо проверить стационарность, но она будет совсем иного толка, информационного (если будет).

2 Avals: боюсь, не смогу найти глубокую тиковую историю, чтобы проверить Вашу гипотезу о воле напрямую. Да и вычисления тут будут совершенно невменяемыми по объему (они уже сейчас весьма объемные). Будем судить о том, что найдено, по попыткам прямого прогнозирования (если получится, конечно; там много-много подводных камней).

 
Mathemat:

У Алексея это статистика, а у Вас - частный, единичный случай, который ничего не доказывает в контексте обсуждения.

Просто хотелось бы заметить, что при количестве наблюдений свыше 30 t-статистика сходится к z-статитстике. Для меня большая новость, что 10000 наблюдений - это обязательно лучше, чем 1000. Чтобы выявит недельную периодичность для часовых данных - нужно несколько недель в часах. Но это к слову.


Показанная топикстартером периодичность никак напрямую не связана с волатильностью или возвратами (returns). Это вообще не ценовая периодичность, а ин-фор-ма-ци-он-на-я.

Гораздо важнее методологическая ценность подхода. Для меня аксиомой является то, что любые математические вычисления должны иметь качественную экономическую интерпретацию. Информационная периодичность - это некоторая формула, выявляющая периодичность в данных, которые по своей сути отношения приращений. Идя обратно мы должны иметь возможность вернуться на исходный временной ряд, найти эти места и найти экономическое объяснение, т.е. возврат к ценам обязателен, иначе просто еще одно математическое умствование. Именно поэтому я связывал этот топик с обычными циклами.
 
Mathemat: Это не автокорреляция возвратов! О ней мы вообще не говорим, т.к. эти информационные зависимости по большей части явно нелинейные, и они вообще не выявляются с помощью АКФ возвратов.

Вообще-то в конце статьи были применены обычные методы мат.статистики.

Восполняю свое недопонимание и беру отношения соседних цен.

График отношения цен:

Проверим на нормальность

Как не удивительно, нормальность строго отклонена.

Строим АКФ - это зависимости между лагами + частная АКФ, которая очищена от зависимостей в АКФ

Обращаем внимание на последний столбец - очень высокая вероятность отсутствия зависимостей.

Этим картинкам у меня имеется внятное экономическое объяснение, хорошо подтверждаемое графиком котировок, А что такое информационная зависимость? Как она подтверждается на исходных котировках, какое имеется экономическое обоснование? Не имея ответы на эти вопросы, я не могу понять смысла "информационной зависимости".

 
Самый простой Вам ответ. Вы используете автокорреляцию, то есть, ищете исключительно линейные зависимости. Взаимная информация индицирует наличие зависимостей произвольного вида, от сюда и идет вся разница. И еще, я экспериментировал со статистически избыточными выборками в тысячи и десятки тысяч приращений, а Вы взяли одну неделю. Да на этой неделе вообще что угодно может быть, это же частный случай. В ваших результатах нет никакой значимости.
 
faa1947: Информационная периодичность - это некоторая формула, выявляющая периодичность в данных, которые по своей сути отношения приращений.

Неверно в корне. Ни о какой периодичности в данных типа отношения приращений речи не идет.

Выявлена информационная зависимость, которая совсем не обязана приводить к периодичности отношения приращений. В том-то и фишка Data Mining, что появляется возможность выявить некие структуры, не лежащие на поверхности.

Идя обратно мы должны иметь возможность вернуться на исходный временной ряд, найти эти места и найти экономическое объяснение, т.е. возврат к ценам обязателен, иначе просто еще одно математическое умствование. Именно поэтому я связывал этот топик с обычными циклами.

Да, должны, я и не спорю. Экономическое объяснение совсем не обязательно. Достаточно вернуться к ценам. Но вот Ваше связывание этого феномена с обычными циклами ошибочно. Я не настолько слеп, чтобы не замечать отсутствие выраженных периодичностей на чарте.

Об отличии линейных зависимостей от нелинейных Вам уже сказал Алексей.

 
alexeymosc:
Самый простой Вам ответ. Вы используете автокорреляцию, то есть, ищете исключительно линейные зависимости. Взаимная информация индицирует наличие зависимостей произвольного вида, от сюда и идет вся разница. И еще, я экспериментировал со статистически избыточными выборками в тысячи и десятки тысяч приращений, а Вы взяли одну неделю. Да на этой неделе вообще что угодно может быть, это же частный случай. В ваших результатах нет никакой значимости.

И еще, я экспериментировал со статистически избыточными выборками в тысячи и десятки тысяч приращений, а Вы взяли одну неделю. Да на этой неделе вообще что угодно может быть, это же частный случай. В ваших результатах нет никакой значимости.

Как мне кажется, увеличение объема выборки представляет интерес только в рамках предельной теоремы о сходимости по вероятности к нормальному закону. Хочу Вас разочаровать, что если мы не ставим перед собой такой задачи, то простое увеличение выборки ничего не дает. Ниже привожу увеличение выборки в 10 раз.

График приращений как отношения последующей цены к предыдущей:

Квадрат этого графика:

График чем-то похож на Ваш. У меня был вопрос об экономической интерпретации этого графика, но Вы не дали ответа


Далее:


Если Вы сравните с выборкой в 10 раз меньше, то ничего не изменилось!



Здесь что-то новое: вероятность отсутствия связей - нулевая.


Взаимная информация индицирует наличие зависимостей произвольного вида, от сюда и идет вся разница.

На счет "линейности" и "нелинейности" я бы то же поостерегся, так как этот вопрос можно и нужно ставить в рамках модели, которой вы аппроксимируете временной ряд. Анализируя коэффициенты этой модели можно прийти к выводу, что эти коэффициенты: константы (или почти константы), детерминированные функции или стохастические функции. Это совершенно конкретный и конструктивный процесс анализа вида зависимостей. А что конструктивного при обнаружении этой информационной зависимости? И еще раз, как это увидеть на исходном временном ряду?

Причина обращения: