Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2382

 
Evgeni Gavrilovi:

aleatoriamente? Ou seja, como indicado aqui? Teste numa amostra aleatória de 50%.

Sim, você pode lê-lo na documentação do sklearn.

testado da mesma forma (como no vídeo) na versão sazonal... não parece melhorar muito

 
elibrarius:

Você está falando de algum tipo de validação cruzada padrão/ancientífica.
Primeiro, você não precisa misturar e combinar linhas, pois existem 0-90 treinamento 90-100 teste, depois 10-100 treinamento, 0-10 teste, depois 20-100-10 treinamento 10-20 teste, etc.
Em segundo lugar, seguindo o conselho do Prado você tem que deixar algum espaço (poda) entre o trem e o teste, para evitar que exemplos adjacentes de trem e teste entrem no seu trabalho. Exemplo de comboio adjacente a 10-100 exemplos de teste será a sua dica/pesquisador. Leia mais aqui https://dou.ua/lenta/articles/ml-vs-financial-math/
ou aqui está uma foto:

Você pode fazer 20% ou o quanto quiser.

E finalmente, em vez de validação cruzada, você pode aplicar um rollicking forward. O que não leva o terreno de teste ao redor do círculo, mas apenas a frente.

Tudo o que você diz aqui já é usado por mim nas minhas experiências.

O objectivo destes truques, com a divisão da amostra em pedaços, é encontrar o pedaço onde o padrão inerente a toda a amostra é menos ruidoso. Quanto menos ruído/menos pronunciadas forem as regras que contribuem para a classificação, melhor será o modelo. Sim, este método tem direito à vida, mas é bom de usar quando se sabe que há mais preditores associados ao alvo, quanto mais aleatórios e quando o tamanho da amostra é suficientemente grande para acomodar o maior número possível de combinações de preditores entre eles, e quanto mais preditores, maior a amostra precisa ser. Meu tamanho de amostra raramente excede 20k linhas (100%) e os preditores são mais de 2k e obviamente todas as combinações não caberão na amostra em si e não serão levadas em conta pelo modelo, portanto sempre haverá uma Recall de não mais do que +-50%.

Então meu método de binarização é baseado em uma abordagem diferente - cada quantum da grade de predição é avaliado para estabilidade no tempo e predisposição para o alvo, então os quanta preditores selecionados são combinados em um preditor binário, assim se livrando dos quanta/partições preditoras ruidosas, a maioria dos preditores simplesmente não passa na seleção. Com base nos resultados da seleção, essa amostragem de binarização já está construída, como resultado temos comportamento semelhante de preditores em todos os locais de treinamento, o que deve ajudar na estabilidade do modelo em caso de ocorrência de eventos similares, que também estavam na história.

 
Aleksey Vyazmikin:

Tudo o que você diz aqui eu já uso nas minhas experiências.

O objectivo destes truques, com a divisão da amostra em pedaços, é encontrar o pedaço onde o padrão inerente a toda a amostra é menos ruidoso.

Não - encontrar as médias dos modelos (erro, etc.) em todos os trechos de teste. Ou a soma dos saldos.

A validação cruzada está bem para você se for aceitável usar as primeiras linhas como um teste.
Andar para a frente provavelmente já não é mais. 20000 filas é difícil de dividir em muitos pedaços para testar à frente.

O seu esquema é atípico, por isso não há muitos conselhos)
 
elibrarius:

Não - encontrar médias de modelos (erro, etc.) em todas as peças de teste. Ou a soma dos saldos.

Então, o que faria isso acontecer e você precisa identificar a trama onde as relações prevalecem, que será robusta mais tarde, os preditores significativos e o alvo.

elibrarius:

A validação cruzada será adequada se for aceitável o uso de linhas iniciais como teste.

A andar para a frente, talvez já não. 20000 linhas é difícil de dividir em muitos pedaços para testar à frente.

Você tem um esquema atípico, por isso não tem muitos conselhos)

O uso de cordas precoces é inaceitável pelo facto de ter sido usado para avaliar o quanta- a 60% da amostra. Aqui todo o procedimento de avaliação a fazer por pedaços individuais - mas qual é o objectivo disso - globalmente não há nenhum.

Método Lasso mostrou melhores resultados, CatBoost - Certamente vou comparar em outras amostras mais tarde, mas aparentemente ele permite generalizar os preditores binários com grande descarga, onde as unidades 10-20%. Mas como fazê-lo funcionar para a extracção de receitas é a questão.

 
Aleksey Vyazmikin:

Nenhuma melhoria foi feita através da redução da regularização L2. Então o Lasso acaba por ficar melhor.

É melhor... ambos são maus, e há uma diferença de alguns por cento.

 
Maxim Dmitrievsky:

Como é melhor... o que há de mau, e há uma diferença de alguns por cento

4% de precisão é muito em termos monetários - vai aumentar a sua rentabilidade e expectativa!

 
Quem tem o eur 5 min durante 10 anos, por favor envie-nos um txt ou csv.
 
Eu fiz previsões da rede neural no navegador. Tenho indicadores + tentei indicar pontos de entrada.
O link está no meu perfil.
 
mytarmailS:
Quem tem o eur 5min por 10 anos por favor envie-me um txt ou csv.

Não pode fazer o download do terminal?

Arquivos anexados:
 
Maxim Dmitrievsky:

Não pode fazer o download do terminal?

Testes com citações M5 durante 10 anos ... Você precisa esconder o terminal deles antes que eles causem problemas para o orçamento familiar.

Razão: