Усреднение всех моделей показывает на новых данных лучший результат, чем одно лучшее дерево - Статьи и техническая библиотека по автоматическому трейдингу

Maxim Dmitrievsky 2020.11.24 14:11 #41

elibrarius:
Тогда нуджно точно усреднять. Иначе на новых данных будет это "по разному"

точно не нужно усреднять. В семплер уже заложено усреднение.

GMM семплер может создать плохую выборку, с перекошенными классами и т.п., семплинг случайный. Имеет ли смысл ее учитывать?

Forester 2020.11.24 14:14 #42

Maxim Dmitrievsky:

точно не нужно усреднять

GMM семплер может создать плохую выборку, с перекошенными классами и т.п., семплинг случайный. Имеет ли смысл ее учитывать?

Случ. лес точно так же создает набор удачных и не очень деревьев. Усреднение всех моделей показывает на новых данных лучший результат, чем одно лучшее дерево.

Maxim Dmitrievsky 2020.11.24 14:16 #43

elibrarius:

Случ. лес точно так же создает набор удачных и не очень деревьев. Усреднение всех моделей показывает на новых данных лучший результат, чем одно лучшее дерево.

а если состакать несколько лесов, то сделок будет примерно ноль, сигналы пересекутся.

Forester 2020.11.24 14:18 #44

Maxim Dmitrievsky:

а если состакать несколько лесов, то сделок будет примерно ноль, сигналы пересекутся

Несколько, (например 10) лесов по 100, это то же самое что и один лес на 1000 деревьев. Сигналов даёт много.

Maxim Dmitrievsky 2020.11.24 14:19 #45

elibrarius:

Несколько, (например 10) лесов по 100, это то же самое что и один лес на 1000 деревьев. Сигналов даёт много.

Есть практика? Я уже делал. Сигналов становится мало.

Forester 2020.11.24 14:20 #46

Если классификация через 0,5. Будет вместо 0,6 и 0,4 срабатывать от 0,51 и 0,49

Forester 2020.11.24 14:20 #47

Maxim Dmitrievsky:
Есть практика? Я уже делал. Сигналов становится мало.

Если у вас задан отступ от 0.5, то его надо просто уменьшить. Если в 10 раз больше деревьев, то и отступ в 10 раз меньше

Maxim Dmitrievsky 2020.11.24 14:24 #48

elibrarius:
Если у вас задан отступ от 0.5, то его надо просто уменьшить.

С этим согласен, все равно получалось мало. И не совсем понимаю зачем добавлять случайно плохие модели. Состакать классные, которые улучшают друг друга - другой разговор

Forester 2020.11.24 14:37 #49

Maxim Dmitrievsky:
С этим согласен, все равно получалось мало. И не совсем понимаю зачем добавлять случайно плохие модели. Состакать классные, которые улучшают друг друга - другой разговор

С лесом делал такое года 2 назад, обучал 1000, брал лучших 10-50. В работу не пошло, видимо результат на новых данных был не очень.
Именно усреднение всего подряд нужно. Об этом и в базовых описаниях принципа действия леса сказано. Типа толпа лучше знает, чем один эксперт.

Ошибки, баги, вопросы Машинное обучение в трейдинге: Как выбрать сигнал? Раздел

Maxim Dmitrievsky 2020.11.24 14:39 #50

elibrarius:
С лесом делал такое года 2 назад, обучал 1000, брал лучших 10-50. В работу не пошло, видимо результат на новых данных был не очень.
Именно усреднение всего подряд нужно. Об этом и в базовых описаниях принципа действия леса сказано. Типа толпа лучше знает, чем один эксперт.

Я не видел такого в учебниках. Знаю что можно повысить кач-во, объединив хорошие модели. Но не наоборот :)

Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 5