Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 5

 
elibrarius:
Тогда нуджно точно усреднять. Иначе на новых данных будет это "по разному"

точно не нужно усреднять. В семплер уже заложено усреднение.

GMM семплер может создать плохую выборку, с перекошенными классами и т.п., семплинг случайный. Имеет ли смысл ее учитывать?

 
Maxim Dmitrievsky:

точно не нужно усреднять

GMM семплер может создать плохую выборку, с перекошенными классами и т.п., семплинг случайный. Имеет ли смысл ее учитывать?

Случ. лес точно так же создает набор удачных и не очень деревьев. Усреднение всех моделей показывает на новых данных лучший результат, чем одно лучшее дерево.

 
elibrarius:

Случ. лес точно так же создает набор удачных и не очень деревьев. Усреднение всех моделей показывает на новых данных лучший результат, чем одно лучшее дерево.

а если состакать несколько лесов, то сделок будет примерно ноль, сигналы пересекутся.

 
Maxim Dmitrievsky:

а если состакать несколько лесов, то сделок будет примерно ноль, сигналы пересекутся

Несколько, (например 10) лесов по 100, это то же самое что и один лес на 1000 деревьев. Сигналов даёт много.

 
elibrarius:

Несколько, (например 10) лесов по 100, это то же самое что и один лес на 1000 деревьев. Сигналов даёт много.

Есть практика? Я уже делал. Сигналов становится мало.
 
Если классификация через 0,5. Будет вместо 0,6 и 0,4 срабатывать от 0,51 и 0,49
 
Maxim Dmitrievsky:
Есть практика? Я уже делал. Сигналов становится мало.
Если у вас задан отступ от 0.5, то его надо просто уменьшить. Если в 10 раз больше деревьев, то и отступ в 10 раз меньше
 
elibrarius:
Если у вас задан отступ от 0.5, то его надо просто уменьшить.
С этим согласен, все равно получалось мало. И не совсем понимаю зачем добавлять случайно плохие модели. Состакать классные, которые улучшают друг друга - другой разговор 
 
Maxim Dmitrievsky:
С этим согласен, все равно получалось мало. И не совсем понимаю зачем добавлять случайно плохие модели. Состакать классные, которые улучшают друг друга - другой разговор 
С лесом делал такое года 2 назад, обучал 1000, брал лучших 10-50. В работу не пошло, видимо результат на новых данных был не очень.
Именно усреднение всего подряд нужно. Об этом и в базовых описаниях принципа действия леса сказано. Типа толпа лучше знает, чем один эксперт.
 
elibrarius:
С лесом делал такое года 2 назад, обучал 1000, брал лучших 10-50. В работу не пошло, видимо результат на новых данных был не очень.
Именно усреднение всего подряд нужно. Об этом и в базовых описаниях принципа действия леса сказано. Типа толпа лучше знает, чем один эксперт.
Я не видел такого в учебниках. Знаю что можно повысить кач-во, объединив хорошие модели. Но не наоборот :)
Причина обращения: