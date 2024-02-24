Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2255
Uma rara activação no Exame significa antes que o mercado mudou e o que muitas vezes aconteceu no comboio deixou de acontecer. E também não significa necessariamente que não houvesse muitas activações da folha lá.
Sim, concordo que também há um efeito de mudança no mercado.
Vamos ver o Train.
A situação é ligeiramente melhor, mas também há folhas com um raro número de ativações.
Observe como a aprendizagem acontece - uma árvore com um peso grande é construída - condicionalmente bem sucedida, e depois um conjunto com pesos pequenos, e depois grande novamente - tal torta, e se você remover as veias com pesos pequenos, então você obtém uma mudança na probabilidade.
O que acontecerá se você treinar um novo modelo neste diagrama?
Em geral a idéia é treinar o segundo modelo no "insides" do primeiro.
Porque estás a brincar com o carburador? Não estás a melhorar nada com isso.
Se você entender qual é o problema, você pode procurar uma solução. Obviamente, estas árvores têm desvantagens.
Mas eu concordo que não consigo descobrir o código CatBoost para fazer edições, infelizmente.
Contudo, há uma oportunidade de influenciar o modelo, talvez zerando em exemplos raros em folhas terá um efeito positivo, mas é desejável então recalcular os coeficientes das folhas - com ele é mais complicado, mas globalmente solvível.
Pegue uma simples rede neural sem folhas. Funcionará em novos dados tão mal como um impulso. O que é que isto te diz?
Concordo que também aí haverá efeitos de sobretreinamento, mas de natureza diferente - a questão é qual desses efeitos pode ser detectado e avaliado com mais precisão e qual é mais fácil de lidar.
Há uma excelente ferramenta SHAP para selecção e interpretação de características, mas está em python. Tudo isso foi feito para você há muito tempo).
Na verdade, a grande maioria destes métodos só fala do uso de preditores em modelos, mas não faz qualquer avaliação dos mesmos. Você precisa de estimativas de preditores independentes do modelo - estou trabalhando nisso, há modestos resultados positivos.
Claro que eu quero brincar com soluções prontas em python ou R, mas duvido que consiga lidar com uma nova sintaxe.
Este modelo no exemplo é de depósitos antigos, agora eu tenho 60k folhas nos modelos, o que, claro, é muito para formar uma amostra. Talvez tente reduzir significativamente o número de árvores. No entanto, noto que avaliei as folhas de CatBoost e elas são muito fracas em suas características individualmente em comparação com as folhas de uma árvore genética.
Nas folhas (milhares de folhas) da árvore genética que treinei - o desempenho métrico pode ser melhorado.
É o efeito das características sobre o comportamento de um determinado modelo que é avaliado ali.
Chegou à conclusão que adicionar 1 de cada vez (ou remover 1 de cada vez) é o melhor. Aqui está a minha pesquisa. Acho que já o viste.
Nunca vi isso antes - procurei - em geral, concordo que o efeito real pode ser alcançado através da remoção. O CatBoost tem um método de remover o preditor e de como pesar de novo o modelo sem ele, mas eu ainda não lidei com ele. Até agora eu me limitei a adicionar e remover preditores, mas não apenas um, mas em grupos.
e isso é bom.
você pode ver quais características estão com falhas nos novos dados
Eu não sei... talvez seja a minha experiência ou talvez seja a minha bebida...)
