Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 6

 
Maxim Dmitrievsky:
Я не видел такого в учебниках. Знаю что можно повысить кач-во, объединив хорошие модели. Но не наоборот :)

Ну лес то именно так и делает. Все подряд и плохие и хорошие. А лес делали очень крутые математики и статистики.

И наверняка пробовали объединять только лучшие модели (если и вы, и я про это подумали).
 
elibrarius:

Ну лес то именно так и делает. Все подряд и плохие и хорошие. А лес делали очень крутые математики и статистики.

И наверняка пробовали объединять только лучшие модели (если и вы, и я про это подумали).

даже у леса разумное ограничение 50-100 деревьев, выведенное кем-то эмпирически, больше уже нет смысла 

объединять лучшие - распространённая практика. На kaggle все любят стакать бусты. По крайней мере, раньше мем ходил

 
Maxim Dmitrievsky:
даже у леса разумное ограничение 50-100 деревьев, выведенное кем-то эмпирически, больше уже нет смысла 
Да. Больше нет смысла. Время тратится, а прироста качества очень мало.

У вас как раз 50 вариантов кластеризации. Их будет нормально усреднить.
 
elibrarius:
Да. Больше нет смысла. Время тратится, а прироста качества очень мало.

У вас как раз 50 вариантов кластеризации. Их будет нормально усреднить.

вижу смысл только лучшие объединять.

 
Maxim Dmitrievsky:

объединять лучшие - распространённая практика. На kaggle все любят стакать бусты. По крайней мере, раньше мем ходил

На kaggle видимо не  Брейманы сидят))) Вот и экспериментируют...

 
Maxim Dmitrievsky:

вижу смысл только лучшие объединять.

Попробуйте и то и другое и сравните результат на экзаменационной выборке.
 
elibrarius:

На kaggle видимо не  Брейманы сидят))) Вот и экспериментируют...

побеждали в конкурсах именно эти )

 
elibrarius:
Попробуйте и то и другое и сравните результат на экзаменационной выборке.

нет, нет смысла добавлять плохие модели. По определению.

при обучении усреднение это одно, а усреднение обученных это другое. Тут вы намеренно стреляете себе в ногу, добавляя плохие. Они вносят ошибку и всё. Да и нет такой практики, я нигде не видел.

плюс представьте издержки при получении сигнала от 50-и моделей, тормоза при тестировании
 
Maxim Dmitrievsky:

нет, нет смысла добавлять плохие модели. По определению.

при обучении усреднение это одно, а усреднение обученных это другое. Тут вы намеренно стреляете себе в ногу, добавляя плохие. Они вносят ошибку и всё.

Вы попробуйте. Недолго ведь. Неужели не интересно проверить в эксперименте? Брейман же не сделал этого в своем случайном лесе.
 
Maxim Dmitrievsky:

нет, нет смысла добавлять плохие модели. По определению.

при обучении усреднение это одно, а усреднение обученных это другое. Тут вы намеренно стреляете себе в ногу, добавляя плохие. Они вносят ошибку и всё. Да и нет такой практики, я нигде не видел.

плюс представьте издержки при получении сигнала от 50-и моделей, тормоза при тестировании

Это в любом случайном лесе происходит