Матстат Эконометрика Матан

 
Вэлкам, всем гуру в области математической статистики, эконометрики и математического анализа.
Ветка для конструктивного диалога, на разные темы из перечисленных научных областей.
Приветствуется адекватность общения! 
 

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

От теории к практике. Часть 2

Aleksey Nikolayev, 2021.05.05 22:38

Грубо говоря, перемешанность ослабляет зависимость, но не убирает её полностью.
На самом деле, вероятностная зависимость - это самая важная часть в теорвере в смысле практических приложений.
Когда смотрел на ютубе курс теорвера в MIT для инженеров - там всё вокруг неё крутилось.


Вы имеете ввиду коэффициент детерминации r2 ?
Или что то другое под вероятностной зависимостью?

r2 я учитываю в реал тайм, для оценки "силы влияния" переменной x на y 
на удивление на некоторых валютных рядах, он держится довольно стабильно на высоких показателях

r2

 
А что, просто вероятности мало? Если это теория вероятности...
 
Dmitry Fedoseev:
А что, просто вероятности мало? Если это теория вероятности...

Хотел уточнить, какой критерий оценки имелся ввиду в данном контексте.
Если обычная корреляция, то с r2 у них есть разница в расчётах, соответственно разные оценки.
В статистике обычно рекомендуют использовать r2, как более достоверный.

r

и буквально через минут десять

rr

 
Roman:

Вы имеете ввиду коэффициент детерминации r2 ?
Или что то другое под вероятностной зависимостью?

Вероятностная (стохастическая) зависимость - одно из наиважнейших понятий в теорвере и матстате. Понятие определяется (через условную вероятность) сначала для случайных событий, а потом переносится на случайные величины, в виде условного распределения. Зависимость - это несовпадение условного распределения с безусловным, а независимость - их совпадение. Популярное объяснение зависимости с. в. - знание того какое значение получила одна с. в. несёт информацию о значении другой с. в.. Зависимость лежит между двумя своими крайними состояниями - независимость и жёсткая функциональная связь.

Общий смысл в том, что всегда начинаем с совместного распределения случайных величин, на основе которого строятся всякие конкретные метрики зависимости. Это могу быть копулы, взаимная энтропия, корреляция и тд.

Корреляция, R2 и тд являются обосновано применимыми только в случае, когда совместное распределение является многомерным нормальным. На практике, их применяют (из-за простоты) и тогда, когда нет уверенности в нормальности, но тогда их полезность определяется только на опыте.

 
Aleksey Nikolayev:

Вероятностная (стохастическая) зависимость - одно из наиважнейших понятий в теорвере и матстате. Понятие определяется (через условную вероятность) сначала для случайных событий, а потом переносится на случайные величины, в виде условного распределения. Зависимость - это несовпадение условного распределения с безусловным, а независимость - их совпадение. Популярное объяснение зависимости с. в. - знание того какое значение получила одна с. в. несёт информацию о значении другой с. в.. Зависимость лежит между двумя своими крайними состояниями - независимость и жёсткая функциональная связь.

Общий смысл в том, что всегда начинаем с совместного распределения случайных величин, на основе которого строятся всякие конкретные метрики зависимости. Это могу быть копулы, взаимная энтропия, корреляция и тд.

Корреляция, R2 и тд являются обосновано применимыми только в случае, когда совместное распределение является многомерным нормальным. На практике, их применяют (из-за простоты) и тогда, когда нет уверенности в нормальности, но тогда их полезность определяется только на опыте.

Ах это коварное распределение, всегда забываю о нем ))
Получается все стат. модели требуют этого критерия?
А так как на ценовых рядах нет нормальности, то и начинается мытарство в подготовке данных,
чтоб как то приблизить к нормальному распределению, без потери исходных свойств. 

Из этого вытекает проблема, как эти данные подготовить.
Стандартизация, кусум, производная и т.д. как я понял не приводят к качественным результатам.
По этому начинают прореживать или ещё что то. Какие способы существуют вообще?

В общем опять прихожу к выводу, что подготовка качественных данных под статистические модели, это обширная тема для изучения.
Искал обучалки на эту тему, но ничего не нашёл, везде бигдата, МО, нейронка, а как качественные данные готовить под них, почему то не раскрывается.

 

Я просто не могу понять следующую аномалию, почему так происходит.
Рассчитал я ортогональную модель, по идее более качественная чем МНК.
Получил стартовые коэффициенты.
Далее параметры модели(коэффициенты) подбираются по алгоритму медианы, то есть своего рода робастность от выбросов.
Модель качественно описывает исходный ряд.

Синим исходный ряд.
Серым модель.

p1

но на одном из участков истории, наблюдается вот такое расхождение, которое потом сходится к точному, как на скрине выше

p2


Вот не как и не могу узреть истину, почему так происходит? И что этому способствует?
Коэффициенты ведь пересчитываются на каждом шаге, и по идее должны подгонять (x)  к  (у) 
Неужели это и есть ошибка подгонки? Я понимаю что ошибка может быть, в одном двух, ну пусть в трёх шагах расчёта,
но чтоб так продолжительно держалась ошибка, мне кажется странно. Может это и не ошибка подгонки? А что то другое?

 
Roman:

Я просто не могу понять следующую аномалию, почему так происходит.
Рассчитал я ортогональную модель, по идее более качественная чем МНК.
Получил стартовые коэффициенты.
Далее параметры модели(коэффициенты) подбираются по алгоритму медианы, то есть своего рода робастность от выбросов.
Модель качественно описывает исходный ряд.

Синим исходный ряд.
Серым модель.



но на одном из участков истории, наблюдается вот такое расхождение, которое потом сходится к точному, как на скрине выше


Вот не как и не могу узреть истину, почему так происходит? И что этому способствует?
Коэффициенты ведь пересчитываются на каждом шаге, и по идее должны подгонять (x)  к  (у) 
Неужели это и есть ошибка подгонки? Я понимаю что ошибка может быть, в одном двух, ну пусть в трёх шагах расчёта,
но чтоб так продолжительно держалась ошибка, мне кажется странно. Может это и не ошибка подгонки? А что то другое?

Могу лишь посоветовать найти какой-нибудь статистический пакет, где реализована ваша модель (или похожая на неё) и посмотреть как она ведёт себя на ваших данных. Это может помочь понять в чём проблема - в неправильном выборе модели или в ошибке при её реализации.

 
Roman:

А так как на ценовых рядах нет нормальности, то и начинается мытарство в подготовке данных,
чтоб как то приблизить к нормальному распределению, без потери исходных свойств.

Логарифмировать приращения - не подойдет?
 
Aleksey Nikolayev:

Могу лишь посоветовать найти какой-нибудь статистический пакет, где реализована ваша модель (или похожая на неё) и посмотреть как она ведёт себя на ваших данных. Это может помочь понять в чём проблема - в неправильном выборе модели или в ошибке при её реализации.

Благодарю за идею, что то не сообразил.

 
secret:
Логарифмировать приращения - не подойдет?

Да, так в принципе и делаю как более менее годный вариант.
На другой похожей модели тоже иногда наблюдал небольшие расхождения, как дивергенция получается.
Но не такие затяжные как на скрине выше, а совсем кратковременные. Что заставило задуматься почему так происходит.
Попробовал эту модель, и увидел ещё более затяжной дивер.

Вот и не пойму откуда берётся эта дивергенция. Не правильная модель, или не качественные исходные данные.
Не соображу логику действий.
Или подгонять исходные данные приблизительно к нормальному,
Или лопатить разные модели.
Но попробуй сперва напиши эту модель, не так уж и легко это сделать, чтоб проверить и выкинуть ))

Причина обращения: