Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 4

 
Maxim Dmitrievsky:

não é procurar padrões no futuro, mas procurar dependências em uma série. A sequência não é importante. Você pode pesquisar no meio e testar na frente e atrás, isso não mudará nada

É tão simples de entender que não precisa de mais explicações.

A vantagem é que o padrão encontrado pode desaparecer com o tempo. Nesse caso, é preferível aprender com dados recentes

Não é fácil. Sempre parece que quanto mais próximo, mais verdadeiro. Substituição de conceito. Na verdade, o mesmo para a tarefa de encontrar padrões).

 
Stanislav Korotky:

Essa não é uma série abstrata. Há "dependências" óbvias (a mesma palavra, mas o significado é diferente para compreensão) da esquerda para a direita (do passado para o futuro), mas não vice-versa. Quase não há publicações científicas sobre previsão de cotações, nas quais eles fariam testes no passado.

Se os sinais tivessem uma tendência linear ou qualquer outra dependência de tempo, isso estaria correto. O modelo do artigo não leva o tempo em consideração de forma alguma, a consistência não é importante

E se você observar abordagens econométricas mais recentes, como bootstrap ou redes neurais, as sequências estão misturadas. Ou seja, não há dependências de tempo.

 

В первую очередь необходимо провести кластеризацию исходных данных, включая метки классов

Acho que isso leva a uma busca.
Execute-o em uma conta demo com um sinal, por um mês, para testá-lo.

 
Stanislav Korotky:

Essa não é uma série abstrata. Há "dependências" óbvias (a mesma palavra, mas o significado é diferente para compreensão) da esquerda para a direita (do passado para o futuro), mas não vice-versa. Quase não há publicações científicas sobre previsão de cotações, nas quais eles fariam testes no passado.

Não encontrei nenhuma sobre previsão, mas sobre pesquisa há 13 anos em minutos 4 milhões de pontos. O índice CaP. De 84 a 96. O início da econofísica. Eles provaram sua não-estacionariedade, a presença de SB e sua semelhança com processos físicos.

 
elibrarius:

Acho que isso leva a uma busca.
Execute-o em uma conta demo com um sinal por um mês para testá-lo.

A fonte do bot está anexada, você pode testá-la.

Não há peeking.

 
Maxim Dmitrievsky:

O código-fonte do bot está anexado, você pode testá-lo.

Não há como espiar.

Pensei sobre isso. Concordo.

Outro ponto.
Você escolhe aquele que dá o melhor resultado no teste entre 50 treinamentos aleatórios. Isso poderia ser chamado de ajuste ao teste. Pode não ser tão bom em novos dados.
Em vez disso, você deve fazer a média de todos os 50 modelos.
 
elibrarius:
Pensei um pouco mais sobre isso. Concordo.

Outro ponto.
Você escolhe a que dá o melhor resultado no teste entre 50 sessões de treinamento aleatórias. Isso poderia ser chamado de ajuste ao teste. Pode não ser tão bom em dados novos.
Em vez disso, você deve calcular a média de todos os 50 modelos.

Executo outro teste em dados anteriores, um teste independente. Se o resultado for ruim, eu o descarto

Por exemplo, o treinamento é feito em 2 meses, o modelo é selecionado em um período de um ano. Em seguida, um teste independente - 5 a 10 anos.

Eu descrevi a abordagem no artigo, mas ainda há espaço para melhorias.

Não vejo a necessidade de calcular a média
 
Maxim Dmitrievsky:

Executo outro teste com os dados anteriores, de forma independente. Se o resultado for ruim, eu o descarto

Eu descrevi a abordagem no artigo, mas ainda há espaço para melhorias.

O pior modelo falha? E o intermediário?

 
elibrarius:

O pior modelo está drenando? E o do meio?

Diferentemente

 
Maxim Dmitrievsky:

de forma diferente

Então, definitivamente, você deve calcular a média. Caso contrário, ele será "diferente" nos novos dados.