Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 2
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Во-первых, цикличность не на дневном графике, а на часовом! Я там написал, кстати.
А для дневок результат не будет цикличным, Вы правы.
Пардон, повторяем для часовиков.
Исходный график за 120 часов
По графику я цикличности не вижу, тренд имеется. Проверим на нормальность:
По Жарку-Беру - совсем не нормальный. Проверим по АКФ:
Тренд есть, а цикличности нет - другой результат.
При наличии тренда пустое дело заниматься статистикой. Детрендируем тем же Ходриком:
Внешне остаток - белый шум. Посмотри в нем циклы:
Крнечно, волна имеется, но какая-то не солидная и совсем не красивая по сравнению с Вашей. Думая вся разница в детрендировании. Без удаления деерминированных составляющих нельзя делать статистики.
Вы что-то свое делаете. Вообще никакой связи с тем что я делаю ))) Начнем с того, что я работаю с рядом приращений. Потом, если Вы возьмете значения этого ряда по модулю (то есть плюсов и минусов) и построите автокоррелограму, бьюсь об заклад - вылезет красивая цикличность с периодом 24. Это уже по логике ближе к моим делам.
Как скажите. Вычисляю приращение как разность каждого последующего с предыдущим. Получаю график:
Для этих приращений вычисляю АКФ
Прошу обратить внимание на последний столбец - это вероятность отсутутствия корреляций между барами
Беру квадрат приращений. Вот график:
Это пики изменения волантильности, а причем здесь цикличность приращений? Может быть цикличность волантильности? Это тоже интересно. Проверим цикличность приращений:
Ну, нет здесь цикличности, и обращаем внимание на последний столбец - крайне высокая вероятность отсутствия корреляции.
Интересны еще два рисунка. Проверим на нормальность приращений:
Заметим, что по Жарку-Беру вероятность нормальности равна нулю!
Это что за распределение? Хотелось бы иметь нормальное. Мне всегда представлялась сомнительной идея работы с приращениями, получаемыми как разница последующей с предыдущей.
Окончательно. Почему-то мне не удается получить Ваш результат.
faa1947, эти Ваши выкладки не имеют никакого отношения к среднему потоку информации, о котором завел речь топикстартер. Вы обрабатываете данные на последних 5 сутках, а график Алексея - это результат обработки данных на часовках за десяток лет. У Алексея это статистика, а у Вас - частный, единичный случай, который ничего не доказывает в контексте обсуждения.
Показанная топикстартером периодичность никак напрямую не связана с волатильностью или возвратами (returns). Это вообще не ценовая периодичность, а ин-фор-ма-ци-он-на-я. По оси абсцисс - лаг, по оси ординат - средняя взаимная информация в битах. А автокоррелограмма была затронута Алексеем для того, чтобы запутать всех напрочь :) Это не автокорреляция возвратов! О ней мы вообще не говорим, т.к. эти информационные зависимости по большей части явно нелинейные, и они вообще не выявляются с помощью АКФ возвратов.
Вы статью на хабре внимательно читали? Никакого отношения ни к Вашей любимой стационарности, ни к нормальности потока возвратов, ни даже к условной периодичности волатильности это не имеет. Конечно, и здесь было бы неплохо проверить стационарность, но она будет совсем иного толка, информационного (если будет).
2 Avals: боюсь, не смогу найти глубокую тиковую историю, чтобы проверить Вашу гипотезу о воле напрямую. Да и вычисления тут будут совершенно невменяемыми по объему (они уже сейчас весьма объемные). Будем судить о том, что найдено, по попыткам прямого прогнозирования (если получится, конечно; там много-много подводных камней).
У Алексея это статистика, а у Вас - частный, единичный случай, который ничего не доказывает в контексте обсуждения.
Просто хотелось бы заметить, что при количестве наблюдений свыше 30 t-статистика сходится к z-статитстике. Для меня большая новость, что 10000 наблюдений - это обязательно лучше, чем 1000. Чтобы выявит недельную периодичность для часовых данных - нужно несколько недель в часах. Но это к слову.
Показанная топикстартером периодичность никак напрямую не связана с волатильностью или возвратами (returns). Это вообще не ценовая периодичность, а ин-фор-ма-ци-он-на-я.
Гораздо важнее методологическая ценность подхода. Для меня аксиомой является то, что любые математические вычисления должны иметь качественную экономическую интерпретацию. Информационная периодичность - это некоторая формула, выявляющая периодичность в данных, которые по своей сути отношения приращений. Идя обратно мы должны иметь возможность вернуться на исходный временной ряд, найти эти места и найти экономическое объяснение, т.е. возврат к ценам обязателен, иначе просто еще одно математическое умствование. Именно поэтому я связывал этот топик с обычными циклами.Вообще-то в конце статьи были применены обычные методы мат.статистики.
Восполняю свое недопонимание и беру отношения соседних цен.
График отношения цен:
Проверим на нормальность
Как не удивительно, нормальность строго отклонена.
Строим АКФ - это зависимости между лагами + частная АКФ, которая очищена от зависимостей в АКФ
Обращаем внимание на последний столбец - очень высокая вероятность отсутствия зависимостей.
Этим картинкам у меня имеется внятное экономическое объяснение, хорошо подтверждаемое графиком котировок, А что такое информационная зависимость? Как она подтверждается на исходных котировках, какое имеется экономическое обоснование? Не имея ответы на эти вопросы, я не могу понять смысла "информационной зависимости".
Неверно в корне. Ни о какой периодичности в данных типа отношения приращений речи не идет.
Выявлена информационная зависимость, которая совсем не обязана приводить к периодичности отношения приращений. В том-то и фишка Data Mining, что появляется возможность выявить некие структуры, не лежащие на поверхности.
Да, должны, я и не спорю. Экономическое объяснение совсем не обязательно. Достаточно вернуться к ценам. Но вот Ваше связывание этого феномена с обычными циклами ошибочно. Я не настолько слеп, чтобы не замечать отсутствие выраженных периодичностей на чарте.
Об отличии линейных зависимостей от нелинейных Вам уже сказал Алексей.
Самый простой Вам ответ. Вы используете автокорреляцию, то есть, ищете исключительно линейные зависимости. Взаимная информация индицирует наличие зависимостей произвольного вида, от сюда и идет вся разница. И еще, я экспериментировал со статистически избыточными выборками в тысячи и десятки тысяч приращений, а Вы взяли одну неделю. Да на этой неделе вообще что угодно может быть, это же частный случай. В ваших результатах нет никакой значимости.
И еще, я экспериментировал со статистически избыточными выборками в тысячи и десятки тысяч приращений, а Вы взяли одну неделю. Да на этой неделе вообще что угодно может быть, это же частный случай. В ваших результатах нет никакой значимости.
Как мне кажется, увеличение объема выборки представляет интерес только в рамках предельной теоремы о сходимости по вероятности к нормальному закону. Хочу Вас разочаровать, что если мы не ставим перед собой такой задачи, то простое увеличение выборки ничего не дает. Ниже привожу увеличение выборки в 10 раз.
График приращений как отношения последующей цены к предыдущей:
Квадрат этого графика:
График чем-то похож на Ваш. У меня был вопрос об экономической интерпретации этого графика, но Вы не дали ответа
Далее:
Если Вы сравните с выборкой в 10 раз меньше, то ничего не изменилось!
Здесь что-то новое: вероятность отсутствия связей - нулевая.
Взаимная информация индицирует наличие зависимостей произвольного вида, от сюда и идет вся разница.
На счет "линейности" и "нелинейности" я бы то же поостерегся, так как этот вопрос можно и нужно ставить в рамках модели, которой вы аппроксимируете временной ряд. Анализируя коэффициенты этой модели можно прийти к выводу, что эти коэффициенты: константы (или почти константы), детерминированные функции или стохастические функции. Это совершенно конкретный и конструктивный процесс анализа вида зависимостей. А что конструктивного при обнаружении этой информационной зависимости? И еще раз, как это увидеть на исходном временном ряду?