Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 5

[Excluído]  
elibrarius:
Então, é necessário fazer a média exata. Caso contrário, ela será "diferente" com os novos dados.

Você não precisa calcular a média com exatidão. O amostrador já tem a média incorporada.

O amostrador GMM pode criar uma amostra ruim, com classes distorcidas, etc., a amostragem é aleatória. Faz sentido levar isso em consideração?

 
Maxim Dmitrievsky:

definitivamente não precisa fazer média

O amostrador GMM pode criar uma amostra ruim, com classes distorcidas etc., a amostragem é aleatória. Faz sentido levar isso em consideração?

De forma semelhante, uma floresta aleatória cria um conjunto de árvores bem-sucedidas e não tão bem-sucedidas. A média de todos os modelos mostra um resultado melhor em novos dados do que uma única árvore melhor.

[Excluído]  
elibrarius:

De forma semelhante, uma floresta aleatória cria um conjunto de árvores boas e não tão boas. A média de todos os modelos mostra um resultado melhor em novos dados do que uma única árvore melhor.

E se você compor várias florestas, haverá aproximadamente zero transações, pois os sinais se sobreporão.

 
Maxim Dmitrievsky:

E se você compuser vários andaimes, as negociações serão aproximadamente zero, os sinais se sobreporão.

Várias (por exemplo, 10) florestas de 100 é o mesmo que uma floresta de 1000 árvores. Ela fornece muitos sinais.

[Excluído]  
elibrarius:

Algumas (por exemplo, 10) florestas de 100 é o mesmo que uma floresta de 1.000 árvores. Isso dá muitos sinais.

Há alguma prática? Eu já fiz isso. Os sinais se tornam escassos.
 
Se a classificação for de 0,5. Será acionado a partir de 0,51 e 0,49 em vez de 0,6 e 0,4
 
Maxim Dmitrievsky:
Alguma prática? Eu já fiz isso antes. Os sinais se tornam poucos.
Se você definiu o recuo de 0,5, basta reduzi-lo. Se houver 10 vezes mais árvores, a indentação será 10 vezes menor
[Excluído]  
elibrarius:
Se você tiver um conjunto de indentação de 0,5, basta reduzi-lo.
Concordo com isso, pois ainda estava ficando pequeno. E não entendo muito bem por que você deve adicionar modelos ruins aleatoriamente. Componha modelos legais que melhorem uns aos outros - outra conversa
 
Maxim Dmitrievsky:
Concordo com isso, pois não estava recebendo o suficiente. E não entendo muito bem por que você adicionaria modelos ruins aleatoriamente. Componha modelos legais que melhorem uns aos outros - outra conversa
Com a floresta, fiz isso há cerca de 2 anos, treinei 1.000, peguei os melhores 10-50. Não funcionou, aparentemente o resultado em novos dados não foi muito bom.
É a média de tudo o que é necessário. As descrições básicas do princípio do andaime dizem isso. Como se a multidão soubesse mais do que um especialista.
[Excluído]  
elibrarius:
Fiz isso com a madeira há cerca de 2 anos, treinei 1.000 e peguei os melhores 10-50. Não funcionou, aparentemente o resultado em novos dados não foi muito bom.
É a média de tudo em uma linha que é necessária. As descrições básicas do princípio da estrutura de andaimes dizem isso. Como se a multidão soubesse mais do que um especialista.
Não vi isso nos livros didáticos. Sei que você pode melhorar a qualidade combinando bons modelos. Mas não o contrário :)