Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3285

 
Andrey Dik #:

Макс, вот никак не пойму, зачем потешаться?

если нет предположений - промолчи, если есть - выскажи, типа "результат будет херовый".

Выше написал про матстат. До этого писал про козул. Еще раньше писал про ошибки Оракула (ошибки разметки), когда данные размечаются не пойми как. Из этого абсолютно выходит понимание, что на разных кусках и длинах обучения, результаты будут разниться. Зависит от данных, которые не предоставлены и не описаны.
Ошибки разметки влияют на результаты и временные периоды. Какая курица какой лапой размечала, такой и будет куриный результат.

Тут любят заливать про основные столпы обучения: препроцессинг, квантование, отношение пердикторов к целевым... Но не пишут о том, какой лапой размечают, левой или правой. От этого зависит больше, чем все вышеприведенное.
 
Maxim Dmitrievsky #:
Выше написал про матстат. До этого писал про козул. Еще раньше писал про ошибки Оракула (ошибки разметки), когда данные размечаются не пойми как. Из этого абсолютно выходит понимание, что на разных кусках и длинах обучения, результаты будут разниться. Зависит от данных, которые не предоставлены и не описаны.
Ошибки разметки влияют на результаты и временные периоды. Какая курица какой лапой размечала, такой и будет куриный результат.

Тут любят заливать про основные столпы обучения, препроцессинг, отношение пердикторов к целевым... Но не пишут о том, какой лапой размечают, левой или правой. От этого зависит больше, чем все вышеприведенное.

ну вот, это уже похоже на мнение профи (верно оно или нет - другой вопрос).
а потешаться незачем.
 
Andrey Dik #:

ну вот, это уже похоже на мнение профи (верно оно или нет - другой вопрос).
а потешаться незачем.
Оно абсолютно верно, и это самая большая проблема. Из-за нехватки ресурсов на правильную разметку (обычно это самое дорогое), даже придумали активное обучение. Когда алгоритмы сами пытаются правдоподобно разметить датасет + помощь аннотаторов. В нашем случае на покупку или продажу.

А дальше уже возня со своими же ошибками разметки. Это просто очевидно.
 
Maxim Dmitrievsky #:
Выше написал про матстат. До этого писал про козул. Еще раньше писал про ошибки Оракула (ошибки разметки), когда данные размечаются не пойми как. Из этого абсолютно выходит понимание, что на разных кусках и длинах обучения, результаты будут разниться. Зависит от данных, которые не предоставлены и не описаны.

Об этом и эксперимент - что важней объём или хронология.

Как раз упор делается на данные котировок, а не просто выборку с какими то иными наблюдениями, независящими от хронологии. Если время имеет значения, то методы разбиения выборки, к примеру такие, как кросс-валидация следует применять с осторожностью.

Время имеет значение, если рынок существенно и бесповоротно меняет своё поведение, что приводить должно к невозможности получать приемлемую модель при контроле обучения по сильно отличающейся по хронологическому времени выборке.

Сам же вопрос разметки, конечно важен, но тут его вполне можно вынести за скобки.

Если очень интересна разметка - то она сделана по стратегии из советника, код которого в моей статье.

Я использовал следующие настройки:

А. Настройки тестера:

- Символ: EURUSD

- Тайм Фрейм: M1

- Интервал с 01.01.2010 по 01.09.2023

B. Настройки стратегии советника CB_Exp:

- Период: 104

- Тайм Фрейм: 2 Minutes

- Метод скользящих: Smoothed

- Ценовая база расчета: Close price


Ну и предикторы прям те, что в том советнике.

 
Andrey Dik #:

не знаю, но интересно узнать.

Очень рад, значит не зря я тут высказываю свои мысли вслух.

 
Aleksey Vyazmikin #:

Об этом и эксперимент - что важней объём или хронология.

Нет такой проблемы, что важнее. Есть проблема разметки. Пока вы выносите это за скобки, я буду выносить за скобки ваши потуги.

 
Aleksey Vyazmikin #:

Как раз упор делается на данные котировок, а не просто выборку с какими то иными наблюдениями, независящими от хронологии. Если время имеет значения, то методы разбиения выборки, к примеру такие, как кросс-валидация следует применять с осторожностью.

По таким же соображениям использую Валкинг-форвард.
И да - сильная зависимость от размера train участка. Например на 20000 строк что-то на форварде находится, а на 5000 или на 100000 - рандом.

 
Forester #:

По таким же соображениям использую Валкинг-форвард.
И да - сильная зависимость от размера train участка. Например на 20000 строк что-то на форварде находится, а на 5000 или на 100000 - рандом.

Ну а подумать почему так можно ведь? ) из-за некорректной разметки и случайного попадания в интервал, где она наиболее корректна :)

слово "случайного" уже намекает на матстат
 
Maxim Dmitrievsky #:

Нет такой проблемы, что важнее. Есть проблема разметки. Пока вы выносите это за скобки, я буду выносить за скобки ваши потуги.

Каждый видит проблемы по своему. И ищет свои решения. Я ищу стабильность в данных с любой разметкой и это иное направление, не противоречащее Вашему.

Для меня важней вопрос, как оценить стабильность с высокой долей вероятности или мониторинг её измерение с малым накоплением наблюдений. Это позволит работать с любой разметкой.

 
Aleksey Vyazmikin #:

Каждый видит проблемы по своему. И ищет свои решения. Я ищу стабильность в данных с любой разметкой и это иное направление, не противоречащее Вашему.

Для меня важней вопрос, как оценить стабильность с высокой долей вероятности или мониторинг её измерение с малым накоплением наблюдений. Это позволит работать с любой разметкой.

Крутое наверное направление, разметить кошек как верблюдов и искать в этом стабильность.

Я уже привык, что любой диалог с вами заходит в ментальный тупик.

Причина обращения: