Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 6

 
Maxim Dmitrievsky:
Não vi isso nos livros didáticos. Sei que você pode melhorar a qualidade combinando bons modelos. Mas não o contrário :)

Bem, é exatamente isso que a floresta faz. Tudo o que é bom e o que é ruim. E a floresta foi criada por matemáticos e estatísticos muito legais.

E eles provavelmente tentaram combinar apenas os melhores modelos (se é isso que você e eu pensamos).
 
elibrarius:

Bem, é exatamente isso que a floresta faz. Tudo o que é bom e o que é ruim. E a floresta foi criada por matemáticos e estatísticos muito legais.

E eles provavelmente tentaram combinar apenas os melhores modelos (se é isso que você e eu estamos pensando).

Mesmo que a floresta tenha um limite razoável de 50-100 árvores, derivado empiricamente por alguém, ela não faz mais sentido

Agrupar os melhores é uma prática comum. No kaggle, todo mundo gosta de empilhar boosts. Pelo menos o meme costumava ser

 
Maxim Dmitrievsky:
mesmo que uma floresta tenha um limite razoável de 50-100 árvores, deduzido empiricamente por alguém, ela não faz mais sentido.
Sim, não faz mais sentido. O tempo é desperdiçado e o ganho de qualidade é muito pequeno.

Você tem apenas 50 variantes de agrupamento. Não há problema em calcular a média delas.
 
elibrarius:
Sim, não vale a pena. O tempo é desperdiçado e o ganho de qualidade é muito pequeno.

Você tem apenas 50 variantes de clustering. Não haveria problema em calcular a média delas.

Entendo o objetivo de agrupar apenas as melhores.

 
Maxim Dmitrievsky:

A prática comum é juntar os melhores. No kaggle, todo mundo gosta de acumular reforços. Pelo menos o meme costumava ser

Acho que não são os Breiman que ficam no kaggle)))))) Então eles estão experimentando...

 
Maxim Dmitrievsky:

Entendo o motivo de reunir apenas os melhores.

Experimente os dois e compare o resultado na amostra do exame.
 
elibrarius:

Os Breiman provavelmente não estão sentados no kaggle))))) Então, eles estão experimentando...

esses são os que ganharam os concursos)

 
elibrarius:
Experimente ambos e compare o resultado com a amostra do exame.

Não, não faz sentido adicionar modelos ruins. Por definição.

No treinamento, calcular a média é uma coisa, mas calcular a média dos treinados é outra. Aqui você está deliberadamente dando um tiro no próprio pé ao adicionar modelos ruins. Eles introduzem erros e pronto. E essa prática não existe, não a vi em lugar algum.

Além disso, imagine o custo de obter um sinal de 50 modelos, os freios nos testes.
 
Maxim Dmitrievsky:

Não, não faz sentido adicionar modelos ruins. Por definição.

No treinamento, calcular a média é uma coisa, mas calcular a média dos treinados é outra. Aqui você está deliberadamente dando um tiro no próprio pé ao adicionar modelos ruins. Eles introduzem erros e é isso.

Experimente. Não vai demorar muito. Não seria interessante testá-lo em um experimento? Breiman não fez isso em sua floresta aleatória.
 
Maxim Dmitrievsky:

Não, não faz sentido adicionar modelos ruins. Por definição.

No treinamento, calcular a média é uma coisa, mas calcular a média dos treinados é outra. Aqui você está deliberadamente dando um tiro no próprio pé ao adicionar modelos ruins. Eles introduzem erros e pronto. E essa prática não existe, não a vi em lugar algum.

Além disso, imagine o custo de obter um sinal de 50 modelos, os freios nos testes.

Isso é o que acontece em qualquer floresta aleatória.