Коэффициенты корреляции - страница 2

 
Neutron:

Я несколько раз перечитывал, но ничего не понял,


"... Летят два напильника - один Зелёный, а другой Дальше Полетел..."

Так вот, тот который зелёный - хорошо прогнозируем, а тот что далеко впереди - представляет определённый интерес, но его манёвры нетривиальны. Вопрос, какой напильник представляет больший интерес: тот что безнадёжно отстал, зато с ним всё понятно, или тот, что впереди, но то, что он вытворяет одному богу известно?

Ответ: Пофиг. Не в напильниках дело!

Что же ты вот так сразу то, просто и доходчиво-то не объяснил. А то «корреляция», «интегрирование», «тривиально», «процессы» ... А надо то было то натурально, про напильники, все понятно и ясно. Только вот .... цвет второго напильника какой? :о)

 
Neutron:

Серёга, ты пойми одну нетривиальную вещь, связанную с тем, что далеко не всё то, что хорошо прогнозируется, имеет ценность в прогнозтических целях. Например, я могу на каждом сформированном баре искать его среднее по схеме (O+H+L+C)/4, понятно, что этот ряд ВЕЛИКОЛЕПНО прогнозируется, т.к. представляет собой сглаженный ВР. У него и коэффициент автокорреляции между соседними отсчётами в ряде первой разности положителен и к тому же очень велик. Да толку от этого нет, потому как существует такая вещь, как групповая задержка свойственная всем казуальным (не заглядывающим в будущее) схемам сглаживания.

Думаю, что все это не совсем так.


Ряд (H+L)/2 не является рядом, представляющим какой-либо фактический сигнал. Это скорее некоторый синтетический ряд и он не опирается на значения из прошлого (если дискретизировать время по барам). Относительно самого себя он,ессно, не является сглаженным. А попробуй сказать относительно какого ряда он сглажен и, соответственно, облядает ФЗ ? Таким образом, мы получаем сигнал который, с одной стороны, прогнозируется лучше, чем цена, а, с другой стороны, распределение значений цены вокруг значений этого ряда более или менее компактно.


Если ряд (H+L)/2 прогнозируется достаточно хорошо и, кроме этого, достаточно хорошо прогнозируется ряд (H-L), то это вполне можно использовать для извлечения прибыли. Ты, Сергей, наверное не считал АКФ для ряда (H-L), а было бы интересно. Судя по всему (по тому, что H и L, по твоему собственному признанию ведут себя лучше, чем О и С) результат должен быть положительный - в смысле прогнозирование возможно. Проверить это элементарно, проверив в тестере простейшую ТС, построенную на таком двойном прогнозировании и сравнив результаты с аналогичными для этой же ТС, построенной на О или С.

 

Привет, Юра!

Что касается построения ТС для проверки "двойного прогнозирования", то для меня это не представляется интересным (в виду ожидаемого отрицательного результата). А вот, что кажется достойным внимания, так это утверждение того, что гладкость синтетического ВР, полученного тем или иным способом, неразрывна связана с его неизбежным запаздыванием. И, что самое интересное, произведение этих двух величин, похоже, является неким инвариантом, который, в свою очередь, определяет прогностические способности метода (и принципиальную невозможность заглянуть в будущее для ВР типа Винеровского). Именно в этом смысле ценность ряда Open для прогноза исходного ценового ВР не хуже и не лучше, чем ряда (Open[i-2]+Open[i-1]+Open[i])/3. Хотя последний ЗАМЕТНО лучше прогнозируется, и обязан он этим свойством, высокому положительному коэффициенту корреляции между соседними отсчётами в его ряде первой разности (большей гладкостью).

Вообще, весь матаппарат, который используется для экстраполяции значений функции (или ВР) на отсчёт или несколько отсчётов вперёд, опирается на требование гладкости и наличия монотонности у исследуемой ф-ии или ВР. Мы со студенческой скамьи помним эти методы (ряд Тейлора, Фурье анализ и их производные). Наша основная проблема, как трейдеров, состоит в том, что те ВР которые мы используем в своей работе (ценовые ВР) не являются гладкими и монотонными. И к ним, по определению, нельзя применять вышеперечисленные методы анализа. Что же мы делаем в этой казалось бы безвыходной ситуации? Правильно! Решение на поверхности - мы предварительно сглаживаем наш ВР, и законно воздействуем на него имеющимся матаппаратом. Да только забываем при этом, что природу не обмануть (по крайней мере так просто) и платой за такое вытаскивание самого себя и своей лошади из болота за волосы, является топтание на месте - чем более гладкий ряд мы создаём для анализа и, как следствие, более точный прогноз мы можем себе позволить, тем на более далёкий горизонт нам приходится орентироваться, и ценность такого прогноза есть величина постоянная (следствие того самого инварианта) и как правило недостаточная!

Нам нужно качественно новое орудие для задач прогнозирования ВР. Этот инструмент должен быть непротиворечивым обобщением метода анализа гладких ф-ий на случай ВР со знакопеременной производной (не гладих и не монотонных) или, другими словами, имеющих отрицательный коэффициент корреляции между соседними отсчётами в их ряде первой разности.

 
Yurixx:
Neutron:

... Да толку от этого нет, потому как существует такая вещь, как групповая задержка свойственная всем казуальным (не заглядывающим в будущее) схемам сглаживания.

Думаю, что все это не совсем так.

Ряд (H+L)/2 не является рядом, представляющим какой-либо фактический сигнал. Это скорее некоторый синтетический ряд и он не опирается на значения из прошлого (если дискретизировать время по барам). Относительно самого себя он,ессно, не является сглаженным. А попробуй сказать относительно какого ряда он сглажен и, соответственно, облядает ФЗ ?

Вспомним о последовательности поступления данных (O,C,{H,L}). То есть ряд (H+L)/2 всё же сглаживает ценовый ряд и обладает ФЗ относительно него же.

 

lna01 писал (а):

Вспомним о последовательности поступления данных (O,C,{H,L}). То есть ряд (H+L)/2 всё же сглаживает ценовый ряд и обладает ФЗ относительно него же.

Согласен с этим замечанием. Это действительно так, достаточно обратить внимание на стандартное отклонение (волатильность) исходного ряда Open или Close и сравнить с аналогичной величиной для рядов High или Low.

Yurixx:

Если ряд (H+L)/2 прогнозируется достаточно хорошо и, кроме этого, достаточно хорошо прогнозируется ряд (H-L), то это вполне можно использовать для извлечения прибыли. Ты, Сергей, наверное не считал АКФ для ряда (H-L), а было бы интересно. Судя по всему (по тому, что H и L, по твоему собственному признанию ведут себя лучше, чем О и С) результат должен быть положительный - в смысле прогнозирование возможно.

Такой анализ сделать не трудно. Для Винеровского ВР коэффициент корреляции между соседними отсчётам ряда первой разности H+L есть величина равная 0.31, а для ряда H-L есть величина равная -0.5 и говорит о том, что этот разностный ряд представляет собой очень "рваную" последовательность, прогнозировать которую, в виду большой автокоррелированности, не сложно, что в свою очередь, никак не позволит "определиться" с поведением самого ценового ряда, т.е. подобные значения характеризуют случайный ВР, это его свойство.

Посмотрим чему равны эти коэффициенты для реального ВР, например EURUSD 1h за несколько лет:

H+L есть величина равная 0.29, а для ряда H-L есть величина равная -0.39

Для EURUSD 1m за несколько лет:

H+L есть величина равная 0.19, а для ряда H-L есть величина равная -0.4

Коментировать ситуацию я не вижу смысла, да и не смогу, поскольку нужно прозрачное понимание механизмов принимающих участие в формировании рядов H и L.

 
Neutron:

Такой анализ сделать не трудно. Для Винеровского ВР коэффициент корреляции между соседними отсчётам ряда первой разности H+L есть величина равная 0.31, а для ряда H-L есть величина равная -0.5 и говорит о том, что этот разностный ряд представляет собой очень "рваную" последовательность, прогнозировать которую, в виду большой автокоррелированности, не сложно, что в свою очередь, никак не позволит "определиться" с поведением самого ценового ряда, т.е. подобные значения характеризуют случайный ВР, это его свойство.

Посмотрим чему равны эти коэффициенты для реального ВР, например EURUSD 1h за несколько лет:

H+L есть величина равная 0.29, а для ряда H-L есть величина равная -0.39

Для EURUSD 1m за несколько лет:

H+L есть величина равная 0.19, а для ряда H-L есть величина равная -0.4

Коментировать ситуацию я не вижу смысла, да и не смогу, поскольку нужно прозрачное понимание механизмов принимающих участие в формировании рядов H и L.

Странно. Интуитивно мне казалось, что положительная автокорреляция H и L должна вести к положительной же автокорреляции для (H-L). А получается как раз наоборот. Впрочем, дело возможно в том, что для (H-L) нам не нужна автокорреляция ряда первых разностей, а нужно ее значение собственно для (H-L). Ведь, в отличие от всех остальных рядов, (H-L) изменяется на конечном, и весьма жестко ограниченном интервале. Для этой величины нас не интересуют тренды, которые для нее, очевидно, и не существуют. Повидимому, ряд (H-L), за вычетом среднего значения, вполне можно назвать стационарным, так что надо рассматривать автокорреляцию именно такого ряда, а не его первых разностей. А для построения прогноза совсем нетрудно определить величину интервала (H-L) для 90% вероятности попадания. И, думаю, этого вполне достаточно чтобы построить эту тестовую ТС.


Сама ТС интереса, конечно, не представляет. Однако, многочисленные утверждения о "лучшей прогнозируемости" так и подмывают задать вопрос "насколько лучшей ?". Если это "насколько" не позволит покрыть даже спред, то и говорить не о чем. Та же картина, только вид сбоку. Если же эта "лучшая прогнозируемость" действительно чего-то стоит, то это будет видно на тесте. Я ведь говорил не о его абсолютных результатах, а об относительных, по сравнению с аналогичным тестом для О или С.

 

to Yurixx

Привет Юрий. Рад читать. Как то пропустил Ваше появление, после перерыва. :о)

Сама ТС интереса, конечно, не представляет. Однако, многочисленные утверждения о "лучшей прогнозируемости" так и подмывают задать вопрос "насколько лучшей ?". Если это "насколько" не позволит покрыть даже спред, то и говорить не о чем. Та же картина, только вид сбоку. Если же эта "лучшая прогнозируемость" действительно чего-то стоит, то это будет видно на тесте. Я ведь говорил не о его абсолютных результатах, а об относительных, по сравнению с аналогичным тестом для О или С.


На такой вопрос всегда есть, что ответить. Например, ответ может быть таким: «достаточно лучше, чем то-то …». Причем, информационная значимость такого ответа будет ровно такая же, как и самого вопроса в обсуждаемом контексте. Не существует критериев определения «хорошей прогнозируемости». Доводы Сергея, (в частности, что (только) коэффициент корреляции первых разностей равен такому то значению), ровным счетом ничего не говорят о прогнозируемости. Взяв другую длину ряда, сместив локальную выборку, можно легко получить совершенно другие цифры.


Конечно, автокорреляционная функция (АКФ) используется для косвенной, весьма субъективной оценки «прогнозируемости» и существует несколько таких критериев. Например «скорость» спадания АКФ до нуля, чем медленнее спадает, тем временной ряд имеет лучшую прогнозируемость. Но этот, как и другие критерии используют для оценки все значения АКФ.


Если смотреть на ряды C, O, (H+L)/2 .. с расстояния «Луны», то ряды совершенно одинаковы и просто «сливаются в одно целое» в то время, как локально они могут себя вести совершенно различно: Close может «расти», а (H+L)/2 может «падать». Но прогнозируем мы, если так выразиться, не «вообще», а в «частности», т.е локально и берем не всю историю, а только ту ее часть, которая по нашему мнению влияет на будущее, другими словами, обладает «памятью».


Ряд (H+L)/2 я использую для быстрых тестов, и публикаций, а работаю то с совершенно другим рядом. Все тот же час, но одно значение для часа получается из статистической обработки шестидесяти значений O,C,H,L (итого, для получения одного H1 обрабатывается 240 значений). Эта статистическая обработка в том числе, существенно повышает, если так можно выразиться «плавность» ряда, причем без всяких «фильтров».

 
grasn:

to Yurixx

Привет Юрий. Рад читать. Как то пропустил Ваше появление, после перерыва. :о)

Привет, Сергей. Рад видеть взаимно.

Ничего не могу возразить на ваши возражения. :-)

В основном по той причине, что я придерживаюсь такой же, как и вы, точки зрения на (H+L)/2 и оппонировал не вам, а Neutron'у. С моей точки зрения тот факт, что dO, dH, dL, и dC по любой перекрестной паре имеют существенную корреляцию, является следствием того, что O, H, L, и C при любом тренде движутся в фазе, т.е. в одном (в основном) направлении. Но при этом автокорреляции dO и dC близки к нулю, а для dH и dL - существенно положительны. С чего бы это ? Как и было замечено здесь, с того, что О и С имеют вполне случайное положение в рамках свечи, а H и L - отнюдь нет. Они-то и определяют границы тренда. А потому их положительные автокорреляции имеют физический смысл и следующая из этого их лучшая прогнозируемость - это не случайное или вредное явление, с которым надо бороться, а как раз содержательный момент.

Если взять отдельно H и L, то они, действительно, имеют ФЗ. Мы ведь не знаем является ли данное значение H-м или L-м до тех пор, пока не закончится формирование свечи. Однако, их ФЗ меньше одного бара. То же самое можно сказать и о (H+L)/2. И вообще, можно перейти от пары координат (H,L) к паре ((H+L),(H-L)) ортогональным преобразованием, которое, как известно, сохраняет их линейную независимость. В этих переменных (H-L) имеет ненулевое, но весьма устойчивое мо, а значит наиболее близка к стационарному ряду. А (H+L)/2, как показал Neutron на прошлой странице, имеет еще большую автокорреляцию первой разности, чем H или L. Так это не отбрасывать надо, а воспользоваться этим !

 

Исправлено:


Если взять отдельно H и L, то они, действительно, имеют ФЗ. Мы ведь не знаем является ли данное значение H или L до тех пор, пока не закончится формирование свечи. Однако, их ФЗ меньше одного бара. То же самое можно сказать и о (H+L)/2. И вообще, можно перейти от пары координат (H,L) к паре ((H+L),(H-L)) ортогональным преобразованием, которое, как известно, сохраняет их линейную независимость. В этих переменных (H-L) имеет ненулевое, но весьма устойчивое мо, а значит наиболее близка к стационарному ряду. А (H+L)/2, как показал Neutron на прошлой странице, имеет еще большую автокорреляцию первой разности, чем H или L. Так это не отбрасывать надо, а воспользоваться этим !


Воспользоваться, толком не получиться. Совсем забыл сказать, важную мысль :о). Используя для оценки прогнозируемости автокорреляционную функцию надо четко понимать, что эта оценка корректна только для методов прогнозирования, которые используют эту самую функцию автокорреляции. А вообще (философски), это оценка никакого смысла не имеет.

Да и сама АКФ очень тонкая штука :о) Не просто с ней.

 
lna01:

Вспомним о последовательности поступления данных (O,C,{H,L}).

Все же, наверное, не в такой последовательности. По-моему так ближе: (O,{H,L},C).

Причина обращения: