Обсуждение статьи "Статистические рецепты для трейдера - Гипотезы"

 

Опубликована статья Статистические рецепты для трейдера - Гипотезы:

В данной статье рассматривается базовое понятие математической статистики "гипотеза". На примерах, с применением методов математической статистики, исследуются и проверяются различные гипотезы. Реальные данные обобщаются с помощью непараметрических методов. При обработке данных используются пакет Statistica и портированная библиотека численного анализа ALGLIB MQL5.

Любой трейдер, у которого есть желание создать свою торговую систему, рано или поздно превращается в аналитика. Он пытается найти закономерности на рынке и проверить ту или иную торговую идею. Тестирование идеи может основываться на разных подходах, начиная от обычного поиска лучших значений параметров в режиме оптимизации Тестера стратегий, заканчивая научными (а иногда и псевдонаучными) исследованиями рыночных данных.

В данной статье я предлагаю рассмотреть такой инструмент статистического анализа для исследования и проверки выводов, как статистическая гипотеза. Попробуем на примерах протестировать различные гипотезы с помощью пакета Statistica и портированной библиотеки численного анализа ALGLIB MQL5.


2. Проверка гипотез, теория

Гипотеза, которую нужно проверить, называется нулевой (Н0). Для нее подбирают альтернативу – конкурирующую гипотезу (Н1). Она является обратной стороной медали для Н0, т.е. логически отрицает нулевую гипотезу.

Представьте, что имеется совокупность данных по стоп-лоссам некоторой торговой системы. Сформируем пару гипотез, образующих базис для проверки.

Н0 – среднее значение стоп-лосса равно 30 пунктов;

Н1 – среднее значение стоп-лосса не равно 30 пунктов.

Варианты принятия-отвержения гипотез:

  1. верна Н0, и она принимается;
  2. не верна Н0, и она отвергается в пользу Н1;
  3. верна Н0, но она отвергается в пользу Н1;
  4. не верна Н0, но она принимается.

Последние 2 варианта связаны с ошибками.

Теперь нужно выбрать значение уровня значимости. Это вероятность того, что будет принята альтернативная гипотеза, тогда как верной окажется нулевая (третий вариант). Естественно, что эту вероятность желательно минимизировать.

В нашем примере такая ошибка случится, если сочтем, что стоп-лосс в среднем не равен 30 пп при условии, что он действительно равен этому числу пунктов.

Как правило, значение уровня значимости (α) равно 0,05. То есть, не более чем в 5 случаях из 100 допускается попадание значение критерия проверки нулевой гипотезы в критическую область.

В нашем примере оценивать критерий будем по хрестоматийному графику (рис.1).

Рис.1 Распределение критерия по нормальному закону

Рис.1. Распределение критерия по нормальному закону

Автор: Dennis Kirichenko

 
  1. Есть три вида лжи: невинная, наглая и статистика © Марк Твен
  2. "Парадокс" Блека: проводим несколько экспериментов и вычисляем для каждого вероятность нулевой гипотезы. Несмотря на то, что все статистические результаты отдельных экспериментов оказались "успешными", т.е. нулевая гипотеза для каждого из них была отвергнута с вероятностью p < n, после метаанализа получаем противоположный результат: p > n.
  3. Прежде, чем применять статистику в той или иной области, необходимо заведомо убедиться, что имеем дело с эргодичной средой. А иначе получиться игра в цифири с умной рожей на лице.
 
Reshetov:
  1. "Парадокс" Блека: проводим несколько экспериментов и вычисляем для каждого вероятность нулевой гипотезы. Несмотря на то, что все статистические результаты отдельных экспериментов оказались "успешными", т.е. нулевая гипотеза для каждого из них была отвергнута с вероятностью p < n, после метаанализа получаем противоположный результат: p > n.

Интересный парадокс. Где можно об этом узнать поподробнее?

2. Прежде, чем применять статистику в той или иной области, необходимо заведомо убедиться, что имеем дело с эргодичной средой. А иначе получиться игра в цифири с умной рожей на лице.
Уточните, что подразумеваете под эргодичной средой.
 
denkir:

Интересный парадокс. Где можно об этом узнать поподробнее?

Уточните, что подразумеваете под эргодичной средой.

От Вашей статьи двоякое впечатление.

Плюс. На данном форуме очень важной является сама по себе постановка вопроса о гипотетичной оценке результатов. На форуме полно людей, которые рисуют машку и считают, что это так и есть, а не машка в интервале.

Минус.

Полностью согласен с Решетовым. Все, что Вы рассказали - это относится к стационарным рядам или близким к ним - т.е. рядам, у которых с течением времени мало меняется мо и дисперсия. А таких рядов на финансовых рынках не бывает и все применение статитстики на финансовых рынках вертится вокруг стационарности временных рядов. Наиболее известные примеры: ARIMA, ARCH и все остальное.

Ваш случайный ряд, гистограмма которого приведена на рис.2, говорит о том, что ряд имеет слабое отношение к стационарному, он скошен и имеет существенно разные хвосты. Особенно это хорошо видно по отношению к нарисованной Вами идеально нормальной кривой. В силу этого все Ваши рассуждения ВООБЩЕ не применимы к Вашему примеру.  Этот как раз является иллюстрацией мыслей Решетова.

ПС. Самое опасно и подлое понятие в статистике - это корреляция. Лучше вообще ее не упоминать. 

 
faa1947:
...Все, что Вы рассказали - это относится к стационарным рядам или близким к ним - т.е. рядам, у которых с течением времени мало меняется мо и дисперсия. А таких рядов на финансовых рынках не бывает и все применение статитстики на финансовых рынках вертится вокруг стационарности временных рядов. Наиболее известные примеры: ARIMA, ARCH и все остальное.

Ваш случайный ряд, гистограмма которого приведена на рис.2, говорит о том, что ряд имеет слабое отношение к стационарному, он скошен и имеет существенно разные хвосты. Особенно это хорошо видно по отношению к нарисованной Вами идеально нормальной кривой. В силу этого все Ваши рассуждения ВООБЩЕ не применимы к Вашему примеру.  Этот как раз является иллюстрацией мыслей Решетова.

Спасибо за мнение!

Приведу свои контраргументы.

Стационарность - это характеристика временного ряда. На рис.2 вариационный ряд. О временных рядах речь в статье не идёт! Хотя согласен с тем, что время - это полезная характеристика... 

Насколько понимаю, под эргодичностью подразумевается некоторая стабильность изучаемой системы...

Так вот, хотелось бы заметить важный момент. Если система, пусть говорим о временном финансовом ряде, не является стационарной, всё равно с помощью эконометрики можем подобрать устойчивую модель (например GARCH), описывающую поведение модели. И в этом вижу постоянство системы - поведение согласно модели... но с условием, что есть какая-то вероятность, что система "поломает" модель...

 
denkir:

Спасибо за мнение!

Приведу свои контраргументы.

Стационарность - это характеристика временного ряда. На рис.2 вариационный ряд. О временных рядах речь в статье не идёт! Хотя согласен с тем, что время - это полезная характеристика... 

Насколько понимаю, под эргодичностью подразумевается некоторая стабильность изучаемой системы...

Так вот, хотелось бы заметить важный момент. Если система, пусть говорим о временном финансовом ряде, не является стационарной, всё равно с помощью эконометрики можем подобрать устойчивую модель (например GARCH), описывающую поведение модели. И в этом вижу постоянство системы - поведение согласно модели... но с условием, что есть какая-то вероятность, что система "поломает" модель...

Когда-то, несколько лет назад я опубликовал здесь на сайте статью, в которой обосновывал одну совершенно не приемлемую для большинства мысль. А именно.

Полно индикаторов. При этом все считают, что если индикатор нарисовать, то оно так и есть - ведь мы вот это самое и видим. При этом большинству не приходит в голову, что ТО, что мы видим в действительности может не существовать! Причина банальна. Если взять соответствующую индикатору регрессию, то запросто может оказаться, что несколько ее коэффициенты имеют столь широкие доверительные интервалы, что говорить о величине такого коэффициента вообще нельзя, а если выкинуть такой дефектный коэффициент, то рисунок индикатора будет совсем другой. Когда говорят: есть, правда, есть ложь, а есть статистика, то имеется ввиду именно это грустное и очень не привычное обстоятельство - ничему верить нельзя, включая доверительные интервалы.

Именно поэтому ушел из параметрических моделей и занялся моделями на базе машинного обучения. Там нет проблем со стационарностью, но проблемы с переобученностью во всей красе. 

 

А мне статья понравилась.

Да, замечания Сан Саныча и Решетова законны - если сравниваемые системы (или система) поменяет свои параметры, то результаты теста будут бесполезны.

Но сама демонстрация применения методов радует. Для Форекса это редкость!

Я бы сказал еще кое-что, как человек, применяющий похожие методы именно для цен котировок. Можно заранее проверить, является ли среда гомогенной (на двух независимых больших по объему выборках), а затем уже с известной долей спокойствия довериться результатам проверки гипотезы. Это тоже возможно сделать благодаря тем же самым тестам.

Причина обращения: