Discussão do artigo "Gradient Boosting (CatBoost) no desenvolvimento de sistemas de negociação. Uma abordagem ingênua" - página 2
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
É melhor perguntar aos desenvolvedores
Não gosto de vídeos porque, para obter uma resposta a uma pergunta específica, é preciso ouvir muitas bobagens, e não há certeza de que a resposta será realmente encontrada. É claro que eu leio a documentação introdutória textual dos desenvolvedores, mas essa mesma nuance sobre a escolha da divisão com base no histograma eles elegantemente "pularam", embora todo o resto seja bastante completo.
As árvores são construídas independentemente umas das outras e, em seguida, a contagem é feita nas folhas (enumerando os preditores detrendidos) de forma que o erro de gradiente seja reduzido.
Ao selecionar preditores para a construção e divisão de árvores, são usados coeficientes aleatórios, o que possibilita, em teoria, aumentar a integridade (Recall) e evitar o treinamento excessivo.
Nada disso responde à pergunta de forma alguma.
Por exemplo, há uma página - https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus
Nela há a frase:
A busca pela melhor divisão agora é apenas um cálculo de histogramas, mostrado na figura 6.
É aí que surge a pergunta: o cálculo dos histogramas é claro, mas como chegar à "melhor divisão" depois disso? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.
Nada disso responde à pergunta de forma alguma.
Por exemplo, há uma página - https://catboost.ai/news/catboost-enables-fast-gradient-boosting-on-decision-trees-using-gpus
Ela diz:
É aqui que surge a pergunta: o cálculo do histograma é claro, mas como chegar à "melhor divisão" depois dele? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.
Ao dividir os dados por coluna, calculamos o quanto o bloco à direita e à esquerda ficou mais limpo de impurezas de outra classe.
De todas as divisões em todas as colunas, é escolhida a que oferece a melhor pureza. (Às vezes chamada de redução de impureza.)
Há diferentes fórmulas de limpeza/impureza, uma que melhora a limpeza em ambos os blocos de uma só vez e outra que busca um bloco o mais limpo possível.
A divisão mais limpa ocorre quando apenas exemplos de uma classe são deixados à esquerda e a outra à direita.
Como a amostragem aleatória é melhor do que uma constante?
Você pode obter um número diferente de negociações, diferentes combinações de negociações ao longo do tempo.
Originalmente, fiz isso por força bruta.
Engraçado, pensei que, se a expectativa fosse tão baixa, seria um graal de teste. Eu o executei no Saber, em um símbolo personalizado, quase o mesmo resultado.
Verifiquei o 17, com tendência de alta semelhante, e está drenando.
É uma peça de sorte da história ou você pode obter essa imagem para os últimos anos também? Sei que está perdendo no teste, mas lá era um mercado completamente diferente.
É aqui que surge a pergunta: o cálculo do histograma é claro, mas como chegar à "melhor divisão" depois dele? Em qualquer termo: em palavras gerais, pseudocódigo, fórmula.
Presumo que temos um cálculo para cada divisão e, em seguida, há uma soma dos intervalos, e obtemos uma matriz da qual o maior valor é selecionado - a precisão da divisão.
Em geral, o código deles é aberto; se você entender bem o C++, poderá informar os detalhes a todos os interessados!
Maxim, obrigado pelo artigo!
A validação cruzada tem algum efeito?
Você já tentou obter retornos diferentes de uma centena de misturas de períodos diferentes?