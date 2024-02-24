Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2381

Maxim Dmitrievsky:

catbust tem uma regularização bastante forte, especialmente se os sinais são categóricos, eles devem ser declarados no impulso

Nenhuma melhoria foi feita através da redução da regularização L2. Então, o Lasso funciona melhor.

 
elibrarius:

Talvez seja apenas uma boa amostra de exame. E você faz um ajuste a ele, selecionando o modelo com os melhores parâmetros para ele.

Agora eu sempre faço a validação cruzada (ou validação com valving-forward), não há ajuste para uma pequena seção, mas para todos os dados ao mesmo tempo, eu acho que esta é a melhor maneira de aprender.
O Doc também o aconselhou antes de desaparecer do fórum.

Primeiro de tudo, não posso ajustar o Lasso, por isso não há nenhum ajuste, é apenas a forma como os parâmetros são.

Em segundo lugar, é a mesma trama com o CatBoostom - e há 800 modelos para escolher e eu tomei praticamente as melhores opções.

Eu anexei o arquivo - tente você mesmo modelos diferentes, Lasso recomendado apenas para amostras binárias - isso é um truque.

 
Aleksey Vyazmikin:

Tente como é para a validação cruzada. Ciclo 10 vezes com diferentes parcelas desconhecidas de 1/10º dos dados totais. Será melhor estimar a seleção de catbust com alguns parâmetros ou laço com parâmetros padrão.

 
Maxim Dmitrievsky:


Tente da mesma forma. Funcionou bem no testador personalizado, há um problema na exportação do modelo, vou procurar por um erro mais tarde.

Se o MA está envolvido em treinamento, não deveria estar lá quando se aplica o modelo?

A essência do MAShka é do tipo partição - acima apenas de uma classe, e abaixo apenas da outra?

 
elibrarius:

Tente como é para a validação cruzada. Ciclo 10 vezes com diferentes parcelas desconhecidas de 1/10 dos dados totais. Esta será a melhor estimativa para selecionar catbust com alguns parâmetros ou laço com parâmetros padrão.

A binarização é feita por algum método de estimação por amostragem, portanto a validação cruzada mostrará melhores resultados nas principais parcelas de amostra.

A validação cruzada não é muito relevante para amostras que estão ligadas ao tempo, mas em caso de negociação é - o mercado muda gradualmente e o modelo deve encontrar padrões estáveis no tempo, e em caso de validação cruzada o intervalo de tempo de treinamento e verificação pode ser próximo ou fraturado a partir da amostra treinada.

Neste momento, eu realmente tenho CatBoost treinado em 60% de todos os dados - 20% vai para parar o controle e os últimos 20% para avaliar o modelo.

Se estamos a falar de 10% para treino, isso é uma amostra muito pequena.
 
Aleksey Vyazmikin:

A validação cruzada não é muito apropriada para amostras que estão ligadas ao tempo, mas no caso da negociação é - o mercado muda gradualmente e o modelo deve encontrar padrões estáveis ao longo do tempo, e no caso da validação cruzada o intervalo de tempo de treinamento e validação pode ser próximo ou subtraído da amostra a ser treinada.

Você está falando de algum tipo de validação cruzada padrão/ancientífica.
Primeiro, você não precisa misturar as linhas, e fazer bloqueios, pois existem 0-90 treinamento 90-100 teste, depois 10-100 treinamento, 0-10 teste, depois 20-100-10 treinamento 10-20 teste, etc.
Em segundo lugar, seguindo o conselho do Prado você tem que deixar um espaço de poda entre o trem e o teste, para manter a bandeja e as amostras de teste separadas. Exemplo de comboio adjacente a 10-100 exemplos de teste será a sua dica/pesquisador. Leia mais aqui
ou aqui está uma foto:

Aleksey Vyazmikin:

Neste momento o meu CatBoost está realmente treinado em 60% de todos os dados - 20% dele é controle de parada e os últimos 20% é avaliação do modelo.

Se falamos de 10% para treinamento, é muito pouco para amostragem.
Você pode fazer 20% ou o quanto quiser.

Finalmente, em vez da validação cruzada, você pode usar um rolamento para frente. Que não faz a secção de teste em círculo, mas apenas na frente.
Maxim Dmitrievsky

O que faz o parâmetro shuffle?Normalmente se for Falso, os resultados são muito piores do que quando é Verdadeiro. 

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

Uma foto explicando o avanço de despedida.

Evgeni Gavrilovi:

Qual é o parâmetro de embaralhamento responsável?Normalmente se for Falso, os resultados são muito piores do que se for Verdadeiro.

Baralha os exemplos para o teste e para o comboio, para que não sejam sequenciais.

 
Maxim Dmitrievsky:

mistura os exemplos para o triplet e o teste para que não sejam sequenciais?

aleatoriamente? Como aqui declarado? O teste numa amostra aleatória de 50%.

