Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 8
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Aparentemente, temos ideias diferentes sobre busting aleatório. Árvore decisiva, trata-se de recursos selecionados de um conjunto aleatório. A questão é que os conjuntos são aleatórios, mas a seleção/agrupamento em conjuntos bons e ruins estava originalmente lá. É como jogar uma agulha, medir os ângulos e calcular o número de pi)
do wiki
Também ouvi falar de Random boosting pela primeira vez.
Eu estava falando de random forest.
Sim, há muitas árvores, mas cada uma delas está tentando se treinar melhor em diferentes características. Isso não é o mesmo que agrupar várias florestas (inclusive as ruins)
Entretanto, a combinação de florestas de casos com base nos mesmos atributos é equivalente a uma floresta com o número de árvores = o número de árvores em todas as florestas a serem combinadas. A única diferença será a inicialização diferente do HCS.
As árvores em uma floresta de casos são calculadas pela média.
No entanto, a fusão de florestas de casos com base nos mesmos recursos é igual a uma floresta com o número de árvores = o número de árvores em todas as florestas mescladas. A única diferença será a inicialização diferente do HCS.
A diferença é que cada árvore sem poda é capaz de se lembrar perfeitamente do conjunto de dados, o que faz com que ela seja treinada novamente. Um conjunto de árvores é contra o treinamento excessivo, porque ocorre um cálculo da média. Mas cada árvore é boa por si só.
Se você agrupar classificadores, a história é diferente. O cálculo da média com um classificador ruim piora o resultado geral
A diferença é que cada árvore sem poda é capaz de se lembrar perfeitamente do conjunto de dados, o que faz com que ela seja treinada novamente. Um conjunto de árvores é contra o aprendizado excessivo, pois ocorre uma média. Mas cada árvore é boa por si só.
Se você agrupar classificadores, a história é diferente. O cálculo da média com um classificador ruim degrada o resultado geral
Além da poda, há um limite na profundidade e no número de exemplos na folha.
Uma única árvore também é um classificador.
Espero que você encontre tempo para comparar a média e os melhores resultados na amostra do exame. Não para discutir teoricamente, mas para confirmar uma das variantes na prática.
Não estou entendendo.
Também é a primeira vez que ouço falar de Random boosting.
Eu estava falando de random forest.
Peço desculpas, erro de digitação. Floresta, é claro, floresta. A propósito, ele foi implementado pela primeira vez em fortran 77 (com oop) em 1986, quando as pessoas aqui ainda estavam aprendendo fortran 4 (sem oop).
Mas isso não muda a questão. A amostragem dos melhores recursos, árvores em um conjunto, melhora o resultado. Mas, ao mesmo tempo, o agrupamento em conjuntos bons e ruins é realizado a partir de um conjunto aleatório de recursos, e não do conjunto completo, o que reduz os recursos necessários e, ao mesmo tempo, como a prática demonstrou, não piora significativamente o resultado.
Além da poda, há um limite de profundidade e um limite no número de exemplos por folha.
Uma árvore também é um classificador.
Espero que você encontre tempo para comparar a média e os melhores resultados na amostra do exame. Não para discutir teoricamente, mas para confirmar uma das variantes pela prática.
20 modelos treinados
Melhor:
Todos os 20:
50 modelos
100 modelos
melhores
todos
Mais uma vez, em 50 modelos:
Melhores
médias
Mais uma vez.