Discussão do artigo "Algoritmo de aprendizado de máquina CatBoost da Yandex sem conhecimento prévio de Python ou R" - página 2

 
Andrey Dibrov:

Prestei atenção à duração do período de teste. Mas um resultado positivo estável - em um curto período adjacente ao período de treinamento - um mês - dois. Digamos que treinamos em um histórico de dois anos. Teste + um mês. Salve o resultado. Mudar (ou adicionar) para este mês - antes do treinamento (retreinamento). Teste + mês. Mantenha o resultado. E assim por diante.

Esse é um período pequeno?

Entendo sua ideia, eu mesmo pensei nisso - até criei um script, mas o treinamento será cego e com dados pequenos - é duvidoso que você consiga alguma coisa.

 
Aleksey Vyazmikin:

Esse período é pequeno?

Entendo sua ideia, eu mesmo estava pensando nisso - até criei um script, mas o treinamento será às cegas e com dados pequenos - é duvidoso que você consiga alguma coisa.

Tenho que testar, uma janela deslizante é como dados sempre novos).

 
Valeriy Yastremskiy:

Tenho que testá-lo, a janela deslizante é como dados sempre novos)

Quem precisa disso? Você pode determinar que o mercado mudou em qualquer métrica, mas mudou de uma forma que não era antes? Se for possível e esse evento tiver ocorrido, então sim, você precisa treinar um novo modelo levando em conta os novos dados. Quanto menor for o intervalo, mais adequado será o ajuste aos dados, pois nenhuma regularidade geral será revelada.

Para "sorte", sim, você pode fazer isso, agora o script cortará uma amostra e verá o que acontecerá se você treinar em uma janela de 12 meses a cada mês.

 
Aleksey Vyazmikin:

Quem precisa disso? Você pode determinar que o mercado mudou em qualquer métrica, mas mudou de uma forma que não era antes? Se for possível e esse evento tiver ocorrido, então sim - você precisa treinar um novo modelo levando em conta os novos dados. Quanto menor for o intervalo, mais adequado será o ajuste aos dados, pois não haverá regularidades gerais reveladas.

Quanto à "sorte", sim, você pode fazer isso, agora o script cortará uma amostra e verá o que acontecerá se você treinar em uma janela de 12 meses todos os meses.

Me))))) Apenas tentando descrever manualmente, pelo menos especificamente, diferentes estados de BP. Não posso dizer que seja fácil. E a janela deslizante apenas ajuda. É claro que há uma questão de largura, mas a triagem de emissões na janela é mais eficaz, em minha opinião, do que nos filtros. Embora eu possa estar errado)

 

Aqui está uma amostra do artigo

Demorou 2 anos para o treinamento, treinado a cada novo mês.

Aprendi 400 árvores - as configurações de todos os modelos são as mesmas.

E EURUSD - aqui eu aprendi sobre o histórico por um ano, também a cada mês


 
Não, cometi um erro acima - o exemplo no artigo é diferente - ele está arquivado - vou refazê-lo agora.
 
Aleksey Vyazmikin:
Não, cometi um erro acima - o exemplo no artigo é diferente - ele está arquivado - vou refazê-lo agora.


Esta é a versão correta.

Observe o Recall - você pode ver que os modelos não têm conhecimento do mercado, em outras palavras - o mercado é mais variável do que as informações na janela - especialmente perto de nossos dias.

Valeriy Yastremskiy:

Para mim))))) Apenas tentando descrever manualmente, pelo menos especificamente, diferentes estados da BP. Não posso dizer que seja fácil.) E a janela deslizante apenas ajuda. É claro que há uma questão de largura, mas a triagem de emissões na janela é mais eficaz, em minha opinião, do que nos filtros. Embora eu possa estar errado)

Aqui, acima, mostramos o que saiu se você pegar uma janela de 12 meses.

Com relação aos outliers, se o modelo for baseado em árvore e também usar quantificação, pelo contrário, quanto mais informações você fornecer, menos será afetado pelos outliers, porque estatisticamente eles serão pequenos.

 
Aleksey Vyazmikin:


É a coisa certa a fazer.

Observe o Recall - você pode ver que os modelos não têm conhecimento do mercado, em outras palavras - o mercado é mais variante do que as informações que chegam à janela - especialmente perto de nossos dias.

Aqui está o exemplo acima, que mostra o que saiu se você considerar uma janela de 12 meses.

Com relação aos outliers - se o modelo for baseado em árvore e também usar quantificação, ao contrário, quanto mais informações você fornecer, menos será afetado pelos outliers, porque estatisticamente eles serão pequenos.

A largura da janela é muito importante para o resultado do treinamento, dependendo do estado da série. E a largura é ideal. Um período muito grande de dados da janela deslizante é tão prejudicial quanto um período muito pequeno.

 
Valeriy Yastremskiy:

A largura da janela é importante para o resultado do aprendizado, dependendo do estado da linha. E a largura é ideal. Um período muito grande de dados da janela deslizante é tão prejudicial quanto um período muito pequeno.

Vamos passar das abstrações para os números. Quanto uma janela pequena será eficaz?

A questão é que você sugere pular atrás das condições de mercado, enquanto eu sugiro usar o conhecimento sobre diferentes condições de mercado. Quanto mais conhecimento for respaldado pelo histórico, mais lentamente os padrões construídos com base nele mudarão.

E então, como você define os hiperparâmetros em uma amostra pequena - quantas iterações de treinamento, no mínimo. Eu coloco o mesmo em todos os lugares.
 
Ah, tente repetir o mesmo experimento, adicionando apenas mais um ou dois meses de histórico à amostra de treinamento e, em seguida, compare os dois testes. Se a rede neural permanecerá estável, qual a influência dos movimentos de preços mais recentes sobre esse modelo...