Обсуждение статьи "Эконометрический подход к анализу графиков" - страница 10

 
denkir:

Я понял, я использую для этого понятие "класс" или "интервал".

faa1947, на вашем рисунке  я вижу, что распределение не есть унимодальным. Это уже другая проблема.

Потом количество классов (стеллажей) тоже вычисляется по некоторой формуле, правилам... самые известные это:

Sturges' formula, Freedman–Diaconis rule, Scott's rule, Square-root choice, etc.

См. мой пост выше -Alexey. Все-таки надо начинать с длины выборка, которая определяется целью прогноза для ТС. Т.е.: достаточна ли длина выборки для ответа на вопрос: можно входить  в позу (выходить из позы) или нельзя? Скорее всего длина выборки будет не значительной (до сотни) и исчезнут фантастические распределения, подобные выше приведенному.
 
-Alexey-:

denkir :

Думаю можно. Они не должны никак затрагивать стат. параметры выборки (в частности, параметры распределения). На то они и выбросы.

На основании чего сказан вышеприведенный перл? (удаляют их, кстати, не из-за этого, хотя параметры они затрагивают)

На основании того, что выборка достаточно большого размера, чтобы не реагировать на выбросы. Это одна из причин, почему я ратую за большой размер выборки. Потом коллега faa1947 говорил, если не ошибаюсь, что выброс выбросу рознь. Ясно, что если у вас например курс eurusd колебался в выборке в пределах $1.20-1.50, а потом появилась какая-нибудь ошибка сервера, вернувшего значение $15.77, то такой выброс запоганит все стат. параметры выборки.


-Alexey-:

Истинное распределение характеризует свойства ряда, но нестационарный - по определеню такой, у которого они меняются.

А вот Вы мне скажите, что за связь между истинным распределением и стационарностью? Я, признаюсь, такого не встречал. Откуда Вы это взяли, если не секрет? ;-)


 
faa1947:
См. мой пост выше -Alexey. Все-таки надо начинать с длины выборка, которая определяется целью прогноза для ТС. Т.е.: достаточна ли длина выборки для ответа на вопрос: можно входить  в позу (выходить из позы) или нельзя? Скорее всего длина выборки будет не значительной (до сотни) и исчезнут фантастические распределения, подобные выше приведенному.

Понимаете ли в чём дело. Уменьшая размер выборки, мы можем упустить такое явление, как кластеризацию волатильности. Тогда отпадёт смысл в применении нелинейной модели. Т.е. можно будет пользоваться линейной. А это не отражает природу финансового ряда, его производной (не! путать с производной в мат.анализе).

А что это за данные, на основании которых Вы получили бимодальное распределение? Не могли бы выложить файл с данными?

 
denkir:

Понимаете ли в чём дело. Уменьшая размер выборки, мы можем упустить такое явление, как кластеризацию волатильности. Тогда отпадёт смысл в применении нелинейной модели. Т.е. можно будет пользоваться линейной. А это не отражает природу финансового ряда, его производной (не! путать с производной в мат.анализе).

Если исповедовать системный подход, то следует плясать от цели: вход/выход в позу. Каков будет котир в сухом остатке? Если взять ограниченную выборку, то Ведь не обязательно будет изменчивая волантильность, или вообще нестационарность? Модель надо выбрать. Широчайше применяется ARMA (даже не ARIMA).   У нас ведь нет цели применить определенную модель. Цель получить прогноз с обоснованным уровнем доверительных границ. Интересно просто посчитать прогноз  для , например, 100, 500, 1000 свечек. Может что увидим. 

А что это за данные, на основании которых Вы получили бимодальное распределение? Не могли бы выложить файл с данными?

EURUSD D1 c 1999/01/04 по  2011/01/13, 3063 свечи взяты из терминала.


 
denkir:

На основании того, что выборка достаточно большого размера, чтобы не реагировать на выбросы. Это одна из причин, почему я ратую за большой размер выборки. Потом коллега faa1947 говорил, если не ошибаюсь, что выброс выбросу рознь. Ясно, что если у вас например курс eurusd колебался в выборке в пределах $1.20-1.50, а потом появилась какая-нибудь ошибка сервера, вернувшего значение $15.77, то такой выброс запоганит все стат. параметры выборки.


А вот Вы мне скажите, что за связь между истинным распределением и стационарностью? Я, признаюсь, такого не встречал. Откуда Вы это взяли, если не секрет? ;-)


Ответил вам на прошлой странице цитатой из учебника. Если непонятно, то поясняю более подробно:

Понятие генеральной совокупности в определенном смысле аналогично понятию случайной величины (закону распределения вероятностей, вероятностному пространству), т.к. полностью обусловлено определенным комплексом условий.

Определенный комплекс условий порождает стационарный процесс. Если он неопределенный - нет генеральной совокупности, соответственно и истинного распределения. Логика примерно такая. Хотя, я, конечно, могу ошибаться.

По вашему ответу - ответ неверный. Я, кстати, надеялся увидеть ссылку на матчасть, на основании которой вы привели упомянутое высказывание. Если у вас ее нет (т.е. вы не знаете, зачем удаляют выбросы и как они влияют на распределение), то рекомендую вам, как и вы мне ранее - учить матчасть. С большими выбросами все понятно, и это вы верно заметили, что проверка на них дожна быть (такая проверка и разрыв в котировках может обнаружить), но речь(и вопрос) идет не о них, а о 3-4-5 сигма. Еще интересно, что даже не касаясь того вопроса, надо их удалять или нет, методика удаления (хотя бы по упомянутой выше книге, хотя там и не обо всем сказано) - очень большая и долгая работа, как мне представляется, и довольно сложная.

 
-Alexey-:

Определенный комплекс условий порождает стационарный процесс. Если он неопределенный - нет генеральной совокупности, соответственно и истинного распределения. Логика примерно такая. Хотя, я, конечно, могу ошибаться.

По Википедии: генеральная совокупность - это набор величин, которые исследователь отобрал для анализа. В генеральную совокупность исследователь может отобрать по любому правилу, включая столь сомнительное как "стационарность". Нормально, когда правило выбирается вне понятий статистики, например, "все сделки по покупке евро за рубли". Сделки порождаются некоторым экономическим процессом, который нам известен лишь примерно, количество сделок нам не известно. Эти два обстоятельства заставляют нас считать основной характеристикой котировок валюты - нестационарность, все остальное это ее признаки.

  С большими выбросами все понятно, и это вы верно заметили, что проверка на них должна быть (такая проверка и разрыв в котировках может обнаружить), но речь(и вопрос) идет не о них, а о 3-4-5 сигма.

Далее привожу гистограммы котировок D1 пары евро-доллар в количестве 100 свечек. 

Привожу описательную статистику выборки 

 

Далее одно из значений Close последовательно менял на 3 сигмы, 5 сигм и 5 средних. 

 

 

 

 

 Мы видим:

1. Левосторонний хвост везде.

2. Меняется число столбцов гистограммы, хоты везде указано 20 интервалов на 100 свечек

3. Меняется величина р-значения подгонки к нормальному закону и соответственно доверительный диапазон подгонки.

 

 
faa1947:
По Википедии: генеральная совокупность - это набор величин, которые исследователь отобрал для анализа. В генеральную совокупность исследователь может отобрать по любому правилу, включая столь сомнительное как "стационарность". Нормально, когда правило выбирается вне понятий статистики, например, "все сделки по покупке евро за рубли". Сделки порождаются некоторым экономическим процессом, который нам известен лишь примерно, количество сделок нам не известно. Эти два обстоятельства заставляют нас считать основной характеристикой котировок валюты - нестационарность, все остальное это ее признаки.

Половина неправильно, а другая половина недосказана, часть правильно. Поэтому Вики желательно проверять специализированной литературой, и чтобы было - рекомендовано мин. образования и все такое. Попозже напишу определение из энциклопедического словаря по статистике. Мне кажется, вы окончательно запутались.

генеральная совокупность - это набор величин, которые исследователь отобрал для анализа.

Это только тогда, когда отобраны все существующие данные, и известно, что других нет. В противном случае, если я возьму 10 свечек - это выборочная совокупность,  а не генеральная. Например когда вы меряете работу станка, известно, что завтра будут новые данные - нет всей совокупности никогда. По ней(выборочной) генеральная оценивается - почитайте про оценки, про выборочный метод. И при оценке не подгоняется под нормальный закон(если заведомо неизвестно, что он такой), а идентифицируется закон специальными методами, и пока он неизвестен-как можно что-то удалить(я же вам ссылку на книгу дал - там про это написано). И оценивается  далее не по одной выборке, а по нескольким, спец. тестами сравнивается и т.д.
 
-Alexey-:

Половина неправильно, а другая половина недосказана, часть правильно. Поэтому Вики желательно проверять специализированной литературой, и чтобы было - рекомендовано мин. образования и все такое. Попозже напишу определение из энциклопедического словаря по статистике. Мне кажется, вы окончательно запутались.

Это только тогда, когда отобраны все существующие данные, и известно, что других нет. В противном случае, если я возьму 10 свечек - это выборочная совокупность,  а не генеральная. Например когда вы меряете работу станка, известно, что завтра будут новые данные - нет всей совокупности никогда. По ней(выборочной) генеральная оценивается - почитайте про оценки. И при оценке не подгоняется под нормальный закон(если заведомо неизвестно, что он такой), а идентифицируется закон специальными методами, и пока он неизвестен-как можно что-то удалить(я же вам ссылку на книгу дал - там про это написано). И оценивается  далее не по одной выборке, а по нескольким, спец. тестами сравнивается и т.д.

К сожалению, Вы позволили себе вырвать из контекста отдельные фразы, не попытавшись понять смысл моего поста. Еще раз. На форексе правило отбора генеральной совокупности - все сделки. которые нам  не известны. Определение из энциклопедии мне не интересно как из Вики - меня интересует прогноз, а не стат.свойства генеральной совокупности. Под Вашим давлением я чуть было не влез в ботанический блуд и даже полез в пакет СТАТИСТИКА посмотреть определение "генеральную совокупность": всемирно известный пакет не рассматривает это понятие.

Чистка выбросов. Привел конкретику влияния выбросов на подгонку, посмотрите внимательно. Не удалив выброс, Вы получите неверную подгонку, в этом все дело, причем вполне возможно с очень хорошими характеристиками. Поменяется выброс - поменяются либо параметры закона, либо закон - все это из-за одного-двух значений в выборке. После подгонки чистить данные уже не нужно.

Все-таки очень желательно чтобы Вы почитали учебники, а лучше документацию мат пакетов по эконометрике, а не по матстатистике - это улучшит взаимопонимание. Любой пакет по эконометрике начинается с подготовки данных для анализа, а не наоборот, сначала подгонка, а потом подготовка данных.  

 
Ок, не буду вам мешать. Любой пакет - это просто инструмент - и не более. Мы, похоже, говорим на разных языках :) Просто, не хотелось, чтобы читающие вводились в заблуждения, но, надеюсь, кому надо - те разберутся.
 
-Alexey-:
. :) Просто, не хотелось, чтобы читающие вводились в заблуждения, но, надеюсь, кому надо - те разберутся.

Ок, не буду вам мешать.

Не думаю, что это правильное решение

Любой пакет - это просто инструмент - и не более. Мы, похоже, говорим на разных языках 

Прошу извинить меня, что я позволил дать Вам совет о пакетах. В теоретических спорах, например, диссертациях, Ваш поход вполне правомерен и предпочтителен перед моим. Но у нас практическая задача и пакет не просто инструмент, а система, в которой сведено много понятий, позволяющих получать практический результат. Мы получаем не просто однозначное толкование терминов, но и их однозначное  вычисление.  Автор статьи упомянул GARCH, а это очень растяжимое понятие, гораздо менее однозначное, чем "генеральная совокупность".

Надеюсь, что Вы продолжите участвовать в топике. 

Причина обращения: