Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 72

 
Mathemat:

Точно, именно так. От АКФ никакого толку нет.

А от взаимной информации - должен быть, т.к. нулем там и не пахнет даже на расстоянии в сотни баров.



скинь резалты - как считал, на каких данных и т.д
 
Avals:

скинь резалты - как считал, на каких данных и т.д

Я не считал вз. инфу. У меня другие вещи - статистика. Критерий хи-квадрат зависимости между рядами данных. Выложу, чуть позже. Надо еще это пояснить, чтобы понятно стало.

Фактически это очень близко к тому, что делает тезка. Там даже формулы очень похожи.

 
alexeymosc:

Максимум может быть 2,098 бит. Это средняя информация этого конкретного ряда данных. Если, например, бар на лаге 1 полностью детерминирует нулевой бар, то их взаимная информация станет равной 2,098 бит.

Что это за число? Это мера информации ) Вам нужно статьи почитать по ТИ. Если коротко, то биты отражают меру случайности значений источника данных по формуле собственной информации одного конкретного значения

I(X) = - log(P(x))*P(x).

Еще один пример. Бросаем монетку, считаем взаимную информацию между двумя последовательными событиями. По формулам, которые я транслировал в своей статье получаем, что взаимная информация I(X;Y) = 0. А если бы выпадение решки точно указывало на последующее выпадение решки (или орла), то I(X;Y) было бы равным 1 - это средняя информация источника данных "честная монетка".

Алексей! Я тоже с помощью взаимной информации подбираю значимые входы для нейросетки. Обычно получаются модели с предсказуемостью returns 52 - 54 %. Мне кажется, что стоящие результаты будут получаться, когда взаимная информация будет > 0,1 бита. Для волатильности получается найти такие по значимости входы.

 
VNG: Кто getch на пятере я не знаю. Однако вижу, что он при исследовании наткнулся на очень интересный результат и не увидел этого.

Я осознаю, что мои посты в этой ветке на грани фола, почти офтоп.

На пятере - hrenfx.

Посты нормальные, вполне в тему. К тому же как раз о применимости ТИ к предмету исследования, тут у некоторых сомнения есть.

- что есть любая инвариантность при изменении масштаба, прости, не понимаю. Инвариантность я понимаю как наличие коэффициента масштабирования (в общем случае он может представлять из себя любое число или функцию), при умножении на который исходного паттерна мы получим новый паттерн другого масштаба. То есть афинное преобразование, которое есть проявление структурированности в хаотическом потоке данных. Тогда задача сводится к поиску такого коэффициента. При обнаружении паттерна он просто умножается на этот коэффициент. Причем действует такое преобразование как "вверх" так и "вниз". И это все.

Ну ладно, пусть так, с фрактальностью я погорячился. Есть она, но не идеальная. Точнее, неидеальна фрактальная инвариантность.

- если исследовать взимные зависимости двух величин, то

- почему это так, чем вызвано такое утверждение

Какое утверждение - не понял.

- почему именно двух, а не трех-пяти-тридцати

- каких именно двух величин

Вот тут понятнее.

1. Двух потому, что мы берем условный источник и условный приемник и пытаемся выяснить, есть ли между ними хоть какая-то зависимость.

Составляем алфавит (я делю распределение возвратов на квантили, мне так удобнее; тезка делает немного иначе, но на результат это не особо влияет), применяем ТИ. Насчет канала связи есть сомнения. Наверно, время и есть канал связи.

Если зафиксировать разницу между барами (номера вычисляются в МТ4) равной, скажем, 238, - то источник - это ряд

return(Bars-1), return(Bars-2), ... return(238) (около 80 000 значений на 12 годах часовок)

Приемник - ряд

return(Bars-1 - 238), return(Bars-2 - 238), ... return(0).

Короче говоря, просто ряд возвратов и он же, сдвинутый относительно себя на 238.

Можно подсчитать АКФ. Почти наверняка она будет равной нулю или отличаться от него статистически незначимо. Ну да, значимых линейных зависимостей между этими рядами нет, все тривиально, рыбы нет.

Но мы, Алексеи, считаем не АКФ, а нелинейные зависимости - любые. Для этого и нужно совместное распределение двух этих величин. Оно у нас есть. (Кстати, оно же нужно и для вычисления АКФ, просто обычно на это не обращают внимание.)

Тезка сразу взял быка за рога и считает взаимную информацию этих двух рядов.

Я оценивал тест хи-квадрат зависимости между двумя случайными величинами.

Результаты очень похожи.

- совместное распределение двух величин представляет из себя поверхность. Что, переходим в другую раельность?

Да мы уже давно там, просто не все это понимают.

Все это и есть пока только проект удочки, это совсем не рыба.

 
IgorM:

хм, много лет не хотел региться на форуме альпари, но сегедня пришлось иначе топик по ссылке не прочитал, ну да ладно. Лучше чем уже сказано не сумею:

надеюсь, что я ошибаюсь, но Ваши "магические кляксы" больше в голове, ТС по каналам очень схожа на ТС по интуиции, вот не сбывшийся прогноз

который год "кручу" уровни по различным построениям, пока вижу их работу 50/50 в предложенной ТС очень схожие результаты, подозреваю, что даже если взять декадный диапазон хода цены, то на истории или в ближайшем будущем будут совпадения


Игорь, я не склонен кого-то или что-то идеализировать. Но я уже говорил

- это не ТСки, это модели рыночного движения. ТС на их основе надо строить самому.

- автор ВСЕГДА был против прогнозов. Суть работы выражал в одной фразе - отскочили, идем к предыдущему, пробили - идем к следующему.

- насколько я вижу- это не прогноз, а возможная цель, на которую я лично не ориентировался.

- ты ищешь изъяны не пытаясь вникнуть в суть предложенного. Скепсис твой мне понятен, но ты начал не с того. Попробуй вначале вникнуть в правила и суть построений. Чтобы тебе было проще - канал Вадима, это та же свеча, но безотносительно к ТФ.

ТАдв постулирует развитие движения по шести реперным точкам. Канал - это точки 1 и 2 по ТАдв. Свинг - точки 1,2,3 по ТАдв. Заметь, что ни Ян, являющийся одним из авторов ТАдв, ни Вадим как автор VКаналов и Vсвингов, никому ничего не доказывают и никого не в чем не убеждают, здесь появляются только в строго определенных случаях и ни у кого ничего не просят, ничего не рекламируют. Не флудят и ведут себя исключительно корректно. Это ли не показатель убежденности и внутренней силы. Просто бескорыстно помогают и выкладывабт свои разработки. ТАдв презентована более 10 лет назад, ВКаналы и Всвинги, боюсь соврать, что-то около 7-ми, прошли проверку временем и имеют массу последователей. Единственный способ проверить эффективность - вникнуть самому и проверить на работоспособность. Или все так и останется в плоскости "верю-не верю".

Удачи.

 
VNG:Игорь, я не склонен кого-то или что-то идеализировать. Но я уже говорил
хм, опыт удался, мой пост был в топике около 5 минут, но даже заквотить успели, причем не местные завсегдатаи
 
renegate:

Алексей! Я тоже с помощью взаимной информации подбираю значимые входы для нейросетки. Обычно получаются модели с предсказуемостью returns 52 - 54 %. Мне кажется, что стоящие результаты будут получаться, когда взаимная информация будет > 0,1 бита. Для волатильности получается найти такие по значимости входы.

О, рад видеть, что зашел человек, тоже научившийся применять ТИ к проблеме отбора значимых переменных.

Только ваш совет немного не полон, что-ли. Просто дело в том, что средняя информация источника данных может быть разная. От этого будет зависеть и пороговая значимая взаимная информация. Какой у вас средний информационный поток H(X)?

 
Mathemat:

На пятере - hrenfx.

Посты нормальные, вполне в тему. К тому же как раз о применимости ТИ к предмету исследования, тут у некоторых сомнения есть.

Ну ладно, пусть так, с фрактальностью я погорячился. Есть она, но не идеальная. Точнее, неидеальна фрактальная инвариантность.

Какое утверждение - не понял.

Вот тут понятнее.

1. Двух потому, что мы берем условный источник и условный приемник и пытаемся выяснить, есть ли между ними хоть какая-то зависимость.

Составляем алфавит (я делю распределение возвратов на квантили, мне так удобнее; тезка делает немного иначе, но на результат это не особо влияет), применяем ТИ. Насчет канала связи есть сомнения. Наверно, время и есть канал связи.

Если зафиксировать разницу между барами (номера вычисляются в МТ4) равной, скажем, 238, - то источник - это ряд

return(Bars-1), return(Bars-2), ... return(238) (около 80 000 значений на 12 годах часовок)

Приемник - ряд

return(Bars-1 - 238), return(Bars-2 - 238), ... return(0).

Короче говоря, просто ряд возвратов и он же, сдвинутый относительно себя на 238.

Можно подсчитать АКФ. Почти наверняка она будет равной нулю или отличаться от него статистически незначимо. Ну да, значимых линейных зависимостей между этими рядами нет, все тривиально, рыбы нет.

Но мы, Алексеи, считаем не АКФ, а нелинейные зависимости - любые. Для этого и нужно совместное распределение двух этих величин. Оно у нас есть. (Кстати, оно же нужно и для вычисления АКФ, просто не все это понимают!)

Тезка сразу взял быка за рога и считает взаимную информацию этих двух рядов.

Я оценивал тест хи-квадрат зависимости между двумя случайными величинами.

Результаты очень похожи.

Да мы уже давно там, просто не все это понимают.

Все это и есть пока только проект удочки, это совсем не рыба.


Спасибо Алексей, теперь все по полочкам.

В контексте данной задачи характеристики канала связи не имеют абсолютно никакого значения, они будут учтены автоматически через информационную энтропию.

 
IgorM:
хм, опыт удался, мой пост был в топике около 5 минут, но даже заквотить успели, причем не местные завсегдатаи

В чем опыт состоял?
 
Mathemat:


Но мы, Алексеи, считаем не АКФ, а нелинейные зависимости - любые. Для этого и нужно совместное распределение двух этих величин. Оно у нас есть. (Кстати, оно же нужно и для вычисления АКФ, просто обычно на это не обращают

Хорошо сказал! Мы, Алексеи, за неэффективность рынка. И мы уже имеем практические результаты, показывающие это, но невидимые через призму классического статистико-эконометрического подхода.

Причина обращения: