Обсуждение статьи "Быстрый тестер торговых стратегий на Python с использованием Numba" - страница 3

 
Maxim Dmitrievsky #:

Сильно переобучаем основную модель, как в статье. Два варианта до и после:

Оптимизируем теперь не sl/tp, а входы по meta_labels (торговать/не торговать):

Похоже на оптимизацию шумом
 
Ivan Butko #:
Похоже на оптимизацию шумом

Оптимизация по диапазонам волатильности. Где торговать, а где нет.

 
Maxim Dmitrievsky #:

Оптимизация по диапазонам волатильности.

Как вычисляется этот параметр?

Где торговать, а где нет.

Ищется один интервал значений волатильности или несколько интервалов?

 
fxsaber #:

Как вычисляется этот параметр?

Ищется один интервал значений волатильности или несколько интервалов?

Один интервал фиксированной ширины. То есть оптимизация границ интервала.

Потом сохраняется массив с лучшими вариантами, как в оптимизаторе МТ5, можно выбрать.

Даже фильтр на минимальное кол-во сделок есть.

 

Если есть хорошо знающие статистику, вопрос, что лучше:

  • Оптимизация ТС с n кол-вом параметров на графике
  • Построение базовой переобученной модели (некой обобщающей базы сделок), потом поиск интервалов, где она робастна
  • Оба варианта суть курвафитинг
 
Maxim Dmitrievsky #:

Если есть хорошо знающие статистику, вопрос, что лучше:

  • Оптимизация ТС с n кол-вом параметров на графике
  • Построение базовой переобученной модели (некой обобщающей базы сделок), потом поиск интервалов, где она робастна
  • Оба варианта суть курвафитинг

Ответ от Claude. Остальные модели отвечали откровенно слабо (кроме gpt-o1, у меня ее нет):

С точки зрения математической статистики, давайте проанализируем оба подхода:


1. Оптимизация с n параметрами:

- Плюсы:

  * Прямой поиск оптимальных параметров

  * Возможность задать конкретные ограничения

- Минусы:

  * Проблема "проклятия размерности" при большом n

  * Высокий риск переобучения

  * Сложность валидации результатов


2. Построение переобученной модели с последующим поиском робастных интервалов:

- Плюсы:

  * Лучшее понимание устойчивых паттернов

  * Возможность выявить действительно стабильные зависимости

  * Более надёжная валидация результатов

- Минусы:

  * Сложность определения критериев робастности

  * Риск пропуска важных нелинейных взаимодействий


С точки зрения матстата, второй подход предпочтительнее по следующим причинам:


1. Статистическая значимость:

- Позволяет лучше оценить статистическую значимость найденных паттернов

- Даёт возможность применить методы проверки гипотез


2. Устойчивость результатов:

- Робастные интервалы по определению более устойчивы к изменениям рыночных условий

- Снижается риск data snooping bias


3. Возможность обобщения:

- Лучше работает principle of parsimony ([бритва Оккама](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0))

- Выше вероятность обнаружения действительно работающих закономерностей


4. Контроль переобучения:

- Явное разделение на этап построения модели и этап выделения устойчивых участков

- Возможность применения [кросс-валидации](https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%BE%D1%81%D1%81-%D0%B2%D0%B0%D0%BB%D0%B8%D0%B4%D0%B0%D1%86%D0%B8%D1%8F)


В целом, второй подход более научно обоснован и лучше соответствует принципам статистического вывода, хотя и требует более тщательной проработки методологии.

        

 
Алексея Николаева бы в тему :)
 
Maxim Dmitrievsky #:

Построение переобученной модели с последующим поиском робастных интервалов

Представим, что котировки состоят из небольших интервалов с закономерностями и с большими интервалами шума. Обучать все вместе - это очень слабое выявление закономерностей. Поэтому даже если потом найти эти интервалы, там будет хреновая модель - далеко не оптимальная, как если бы модель строили на этих интервалах.


Поэтому лучше сначала искать интервалы, а потом на них обучаться. Это третий вариант.

 
fxsaber #:

Представим, что котировки состоят из небольших интервалов с закономерностями и с большими интервалами шума. Обучать все вместе - это очень слабое выявление закономерностей. Поэтому даже если потом найти эти интервалы, там будет хреновая модель.

Принимается, достаточно аргументированно :)
 
Maxim Dmitrievsky #:

Ответ от Claude.

С точки зрения матстата, второй подход предпочтительнее

Столько было обсуждений "разумности". Мне бы даже в голову не пришло спрашивать.