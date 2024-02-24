Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3360
Não estou fazendo campanha alguma. Há muitas abordagens, a pergunta era sobre o conhecimento do MO
Bem, eu pessoalmente não associei a resposta do modelo à probabilidade de uma classe desistir, eu a considero como a confiança do modelo na definição da classe. A confiança é contada por folhas, e as folhas são contadas pela amostra de treinamento. Aqui, uma única folha mostrará a probabilidade de desistência da classe. Como cada folha não tem respostas em todos os pontos da amostra, verifica-se que a soma das probabilidades é distorcida na resposta final do modelo. Talvez haja uma maneira de corrigir nesse nível - e estou interessado nisso - e tentei direcionar a discussão para essa direção.
Em minha opinião, a solução é agrupar as folhas por pontos de resposta semelhantes e transformar ainda mais os resultados médios resumidos dos grupos....
Desculpe-me, mas sem referências a bibliotecas, cadernos ou artigos, eu ainda entendo isso da seguinte forma
Eh, tudo o que você precisa são pacotes...
Depois de calibrar qualquer classificador pelo método CV, você pode ver imediatamente o potencial desse modelo. Se ele não for capaz de nada, as probabilidades se agrupam em torno de 0,5 após esse procedimento. Embora antes disso ele fosse excessivamente confiante. Não é interessante continuar mexendo em um modelo como esse. Ele não pode ser aprimorado. Ou seja, ele não pode nem mesmo ser calibrado normalmente, pois não há peixes. É bastante conveniente.
Não há "corte quântico", em suas palavras, nenhuma faixa ou compartimento em que ele daria um lucro provável.
Ok, por fim, para encerrar o tópico. Consegui exportar a calibração sigmoidal para o metac.
Dado: gradient bousting retrained, depois calibrado para esse estado:
No limite 0,5, tudo é óbvio, você pode ver onde está o OOS:
Executo o limite e paro a otimização:
Obtenho todos os tipos de variações, as melhores nos limites 0,75-0,85. Até mesmo um pouco de dados novos está um pouco fora, embora com um limite de 0,5 não haja variantes normais.
É um brinquedo bastante divertido.
Se isso permite que você automatize a triagem de modelos, isso já é uma coisa boa.
Tenho uma visualização do modelo por seu índice de probabilidade-confiança com uma etapa de 0,05 e posso ver tudo de uma vez. O principal é a transformação do resultado na amostra de treinamento e em outras - aí as probabilidades estão se arrastando, por isso estou falando de não representatividade. É por isso que vejo a calibração como uma medida ineficaz em nosso caso. Se não houver um forte viés de amostra para amostra em seus modelos, isso é bastante surpreendente.
E observarei que apenas um modelo mal treinado produzirá probabilidades em um intervalo estreito.
Um modelo normalmente treinado geralmente se situará precisamente nas zonas de forte confiança. É por isso que faz sentido definir não um limite de classificação, mas uma janela. Por exemplo, de 0,55 a 0,65, considere a classe retornada como uma unidade e ignore o restante. Nas extremidades, o modelo é confiável, mas geralmente há muito poucas observações, portanto, a significância estatística é pequena.
