Caros silvicultores. É necessário fazer o equilíbrio de classes para árvores e florestas (igualar o número de exemplos de diferentes classes)?
Não
Não
Estou a ler: Flach P. - Machine Learning. A ciência e a arte de construir algoritmos que extraem conhecimento de dados - 2015
Há várias páginas dedicadas a este tema. Eis o que interessa:
O ponto 1 diz que o equilíbrio é útil.
Mas há também o ponto 2, do qual podemos concluir que com uma amostra grande, quando houver exemplos suficientes de uma classe pequena, então a amostra para ela se tornará representativa. E então o equilíbrio é desnecessário.
Quantos exemplos podem ser considerados representativos da BP?
E depois há o Pará. 3. mas é difícil saber se existe tal correção na implementação particular da árvore no programa escolhido para usar.
O ponto 1 diz que o equilíbrio é útil.
Mas há também o ponto 2, do qual podemos concluir que com uma amostra grande, quando houver exemplos suficientes de uma classe pequena, então a amostra para essa classe se tornará representativa. E então o equilíbrio é desnecessário.
E depois há o Pará. 3. mas é difícil saber se existe tal correção na implementação particular da árvore no programa escolhido para usar.
Na minha opinião, o afftar está a declarar a lei dos grandes números para o MO.
Claramente, se você tiver 10 observações para a primeira classe e 6 para a segunda, então adicionar 4 à segunda mudará o modelo (não necessariamente melhorá-lo), mas ele ainda não será representativo.
Quantos exemplos podem ser considerados representativos da BP? Eu normalmente não uso menos de 10000, classe pequena deve ter pelo menos 1000
Sim, ele estava apenas olhando para exemplos de 10 vs 8:2 vs 6:4. Mas nós temos muitos dados.
Quantos exemplos podem ser considerados representativos da BP?
HZ. Eu tirei o máximo, mas estava trabalhando em dados diários para árvores e florestas - um mínimo de 2 anos.
Pergunte A_K - ele usou a desigualdade de Chebyshev para determinar o ótimo (se bem me lembro), mas apenas para variáveis contínuas.
Tente começar pelo número de variáveis - pelo menos 100 para cada uma.
Em geral, se você está tentando encontrar um padrão "perpétuo", quanto mais, melhor. Se o "padrão" estiver flutuando, você precisa procurar a janela ideal.
Apesar de estarmos a adicionar milhares, e depois o modelo também pode mudar.
E talvez esteja certo. O mercado, como eles dizem, está mudando, então deixe o modelo mudar também.
Você usa madeira para isso?
Ainda não o uso, mas estou a preparar-me para o fazer. Ainda estou a ler a teoria para entender os seus prós e contras. Eu não estou satisfeito com os resultados, por isso decidi trabalhar com a floresta. Parece-me que é mais adequado para a BP.
Para análise da BP, a fim de ganhar dinheiro.
Há dois anos atrás escrevi aqui Maximka que NS é um brinquedo como uma bomba nuclear. Que se qualquer outro modelo der resultados pelo menos satisfatórios, não é recomendado o uso de NS - eles encontram algo que não existe e você não pode fazer nada sobre isso.
As árvores são uma coisa boa, mas é melhor usar andaimes.