Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 3

 
alexeymosc:

Попробовал поискать зависимости в котировках одного финансового инструмента статистическими методами. Для начала взял индекс Dow Jones Industrial, дневные данные, ряд преобразовал в ряд процентных приращений.

Приращения гетероскедастичны. Если вы хотите прогнозировать направление движения цены - нужно обязательно это учитывать.

Для прогнозирования волатильности вместо НС лучше использовать более специфические модели.

 

Ответ faa1947:

"На счет "линейности" и "нелинейности" я бы то же поостерегся, так как этот вопрос можно и нужно ставить в рамках модели, которой вы аппроксимируете временной ряд. Анализируя коэффициенты этой модели можно прийти к выводу, что эти коэффициенты: константы (или почти константы), детерминированные функции или стохастические функции. Это совершенно конкретный и конструктивный процесс анализа вида зависимостей. А что конструктивного при обнаружении этой информационной зависимости? И еще раз, как это увидеть на исходном временном ряду?"


Я могу сделать привязку и к экономической составляющей, но, извините, просто почитайте ответы на мое первое сообщение в теме, там как раз про это: волатильность внутри дня циклична. И взаимная информация это показала. Для дневных и более старших тайм-фреймов ситуация вообще иная, там очевидных циклов нет.

Как это увидеть в исходном ряду? Нет ничего проще, просмотрите историю хотя бы за полгода на часовых барах и отметьте есть ли различия в волатильности (в размере свечей) по времени. А вот когда речь идет про дневные бары, тут уж я лично не нашел ни естественных циклов, ни какой то иной повседневной или экономической логики. Это просто внутренняя структура зависимости в ценах.

И я пока временной ряд не аппроксимирую, я извлекаю из цен данные, которые позволяют мне взглянуть на привычные цены под несколько другим углом. Вот вы видите отсутствие зависимостей в приращениях, а я вижу, что Вы пользуетесь автокорреляцией. Мне это о многом говорит. Линейной зависимости там нет и никогда не было, и не зачем постоянно показывать автокоррелограммы, я их сам уже давно порядком насмотрелся, причем они были такие же как у Вас. )

 
anonymous:

Приращения гетероскедастичны. Если вы хотите прогнозировать направление движения цены - нужно обязательно это учитывать.

Для прогнозирования волатильности вместо НС лучше использовать более специфические модели.


А какие модели, которые являются более специфическими для Форекса в отличие, скажем, от НС? Просто интересно ваше мнение. Моделей то много в мире есть.
 
alexeymosc:

А какие модели, которые являются более специфическими для Форекса в отличие, скажем, от НС? Просто интересно ваше мнение. Моделей то много в мире есть.

Я говорил не о моделях специфических для форекса (их много, особенно для производных инструментов: https://en.wikipedia.org/wiki/Vanna_Volga), а о моделях, специфических для волатильности (их тоже много, помимо ARCH).

НС - не специфический для форекса подход, т.к. применяется где только не лень (или даже наоборот - где лень строить нормальные модели и имеется много вычислительных ресурсов, там и применяется).

Подходы к прогнозированию волатильности и направления движения цены должны быть различны. Для первого не нужно использовать НС (неоправданное усложнение), для второго - можно попробовать.

 

faa1947, прошу Вас аккуратнее оформлять свои посты. Иногда не сразу удается отделить цитируемое от Вашего ответа.

Теперь по делу:

faa1947: Как мне кажется, увеличение объема выборки представляет интерес только в рамках предельной теоремы о сходимости по вероятности к нормальному закону. Хочу Вас разочаровать, что если мы не ставим перед собой такой задачи, то простое увеличение выборки ничего не дает. Ниже привожу увеличение выборки в 10 раз.

Пальцем в небо, извините. Какая нормальность в пределе, о чем Вы говорите? Нормальность чего? Распределения возвратов? На данном этапе мне от этой гипотезы ни жарко, ни холодно. Не нужны пока никакие гипотезы о распределении возвратов и к какому закону они стремятся.

Лично у меня на часовках есть следующее требование: т.к. я намеревался использовать критерий хи-квадрат независимости случайных переменных (мне так захотелось), то размер выборки должен был быть таким, чтобы любая частота совместного события была гарантированно не менее 5. Это ограничение должно быть известно и Вам. Вот потому такая неслабая выборка на часовках и вышла.

Но это у меня. Почему alexeymosc использовал свою выборку именно такого объема, который был, - не знаю. Но догадываюсь: наверно, хотелось установить закономерность для всего ряда, а не для его части.

faa1947: На счет "линейности" и "нелинейности" я бы то же поостерегся, так как этот вопрос можно и нужно ставить в рамках модели, которой вы аппроксимируете временной ряд. Анализируя коэффициенты этой модели можно прийти к выводу, что эти коэффициенты: константы (или почти константы), детерминированные функции или стохастические функции. Это совершенно конкретный и конструктивный процесс анализа вида зависимостей.

Никаких моделей пока нет. Только Data Mining с непараметрическими методами статистики.

Я уверен в том, что это именно нелинейная связь: значимых линейных связей, обнаруживаемых с помощью корреляции по Пирсону, при лагах более 10 не существует. Вы это и сами знаете. Но связи обнаружены и на гораздо больших лагах. Значит, они нелинейны!

faa1947: А что конструктивного при обнаружении этой информационной зависимости? И еще раз, как это увидеть на исходном временном ряду?

Увидеть нелегко, здесь я с Вами солидарен. Известно только среднее количество информации, передаваемой на нулевой бар из довольно далекой истории, - при этом механизм этой "информационной атаки из прошлого" нам не известен. Нужно еще умудриться преобразовать эти голые биты в инструмент прогнозирования. А кто говорил, что будет легко?

anonymous: Приращения гетероскедастичны. Если вы хотите прогнозировать направление движения цены - нужно обязательно это учитывать.

Я крайне невежествен в современных эконометрических моделях, в том числе в ARCH и соответствующем семействе. Вы можете пояснить на пальцах, почему это надо учитывать на этапе, на котором никаких моделей поведения приращений не строится? Никаких моделей, только тупое применение теории информации. Спасибо.

 
anonymous:

Я говорил не о моделях специфических для форекса (их много, особенно для производных инструментов: https://en.wikipedia.org/wiki/Vanna_Volga), а о моделях, специфических для волатильности (их тоже много, помимо ARCH).

НС - не специфический для форекса подход, т.к. применяется где только не лень (или даже наоборот - где лень строить нормальные модели и имеется много вычислительных ресурсов, там и применяется).

Подходы к прогнозированию волатильности и направления движения цены должны быть различны. Для первого не нужно использовать НС (неоправданное усложнение), для второго - можно попробовать.


Про НС - согласен,в принципе, хотя этот метод сам по себе не является таким уж простым. Там тоже куча условностей, которые желательно а иногда обязательно соблюдать (начиная от предобработки данных и выбора релевантных переменных, заканчивая построением сетей). А вообще, есть же люди, которые любят применить известное им знание к изучаемым феноменам, а есть те, которые с чистого листа начинают изучать, и последние наверное НС предпочтут. ИМХО.

А я как раз не собираюсь прогнозировать волатильность, я всегда стремлюсь направление движения цены прогнозировать. В этой задаче я НС и использую.

 
alexeymosc:

Ответ faa1947:


.. волатильность внутри дня циклична. И взаимная информация это показала.

Мне ничего Ваша взаимная информация не показала. Прежде чем вести стат обработку ВР следует удостовериться, что в нем отсутствуют детерминированные составляющие. Если они имеются в ВР, то "забьют" статистику и всем изысканиям доверять нельзя. Вынужден Вас разочаровать, что определение волантильности по исходному ВР ошибочен. Мне удается строить модели, остаток от которых имеет следующие параметры: 44 пипса волантильность и ее колебания плюс минус два пипса, т.е. я могу считать ее постоянной. Та волантильность, которая остается для анализа сильно зависит от применяемой модели.

И я пока временной ряд не аппроксимирую, я извлекаю из цен данные, которые позволяют мне взглянуть на привычные цены под несколько другим углом. Вот вы видите отсутствие зависимостей в приращениях

Дым впереди паровоза. Вообще-то на уровне учебников определен порядок анализ ВР: стационарный/не стационарный - для нестационарного выбор метода преобразования стационарный. Наверняка на этом первом шаге будет удаление тренда. Далее посмотрим.

 

Мне не понятно, чем вы тут занимаетесь. Решил освежить представления о теории информации (ТИ), заглянул в словарь терминов:

ТИ рассматривает понятие "информации" только с количеств. стороны, безотносительно к её ценности и даже смыслу. При таком подходе страница машинописного текста максимально содержит всегда примерно одинаковое кол-во информации, определяемое только числом знаков и пробелов (т. е. символов) на странице и не зависящее от того, что именно на ней напечатано, включая случай бессмысленного, хаотического набора символов. Для моделирования систем связи такой подход правомерен, поскольку они предназначены для безошибочной передачи по каналу связи информации, представленной любым набором символов. В тех же случаях, когда существен учёт ценности и смысла информации, количеств. подход неприменим. Это обстоятельство налагает существенные ограничения на области возможных приложений ТИ. Неучёт его привёл на ранних этапах развития к переоценке прикладной значимости.

В связи с этим у меня есть три возможных варианта ответа:

1. Вы уверены, что словарик врет, и всё не так на самом деле.

2. Вы находитесь на "ранних этапах развития" и ещё не провели оценку "прикладной значимости".

3. Вы ещё что то.

 
Mathemat:

Я крайне невежествен в современных эконометрических моделях...

Это много проясняет. Вообще-то эконометрика - это наука (подчеркиваю, наука), изучающая экономические временные ряды как минимум 100 лет. Общество эконометристов в США было образовано 30-х годах. Судя по Вашим постам, эта наука Вам по плечу. Вы не одиноки на этом форуме и как прикол: по мнению разработчиков этого сайта в слове "эконометрика" и его производных имеется грамматическая ошибка.

 
faa1947: Мне ничего Ваша взаимная информация не показала. Прежде чем вести стат обработку ВР следует удостовериться, что в нем отсутствуют детерминированные составляющие.

Опять 25, пальцем в небо. Исследование производилось по отношению не к ряду цен, а их возвратов (returns). Это во-первых.

Во-вторых, предобработка данных, подобная указанной Вами, определяется прежде всего целями анализа, а не догматическими требованиями, навязываемыми исследованию без оглядки на цели.

Дым впереди паровоза. Вообще-то на уровне учебников определен порядок анализ ВР: стационарный/не стационарный - для нестационарного выбор метода преобразования стационарный. Наверняка на этом первом шаге будет удаление тренда. Далее посмотрим.

См. мое возражение выше. Соразмеряйте методы исследования с его целями! И прекратите наконец бубнить свои заклинания о стационарности, детрендировании и прочих вещах, которые не имеют отношения к теме исследования.

2 HideYourRichess: у меня сегодня небольшой праздник, и поэтому я временно имею полное право говорить всё, что думаю :) У нас намечаются религиозные разборки о том, что такое информация?

2 faa1947:

Вообще-то эконометрика - это наука (подчеркиваю, наука), изучающая экономические временные ряды как минимум 100 лет.

Хорошо, пусть наука. Насколько помню, эконометрика очень любит навязывать финансовым данным свои модели. Я их не навязываю. Значит, я занимаюсь не эконометрикой. Еще вопросы есть?

Причина обращения: