Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 743

 
Mihail Marchukajtes:

Ao misturar todos os dados, estamos a tentar tirar o verdadeiro potencial deste conjunto, em vez de uma feliz coincidência de ordenação. Então, quando embaralhamos os dados, vemos realmente o que os dados podem fazer... So....

A questão é que o modelo se sobrepõe se você não separar trem e teste a tempo. Um exemplo exagerado mas ilustrativo: incrementos absolutos sem transformações são usados como preditores. Usamos uma janela deslizante de largura 15, ou seja, cada vez que alimentamos 15 preditores incrementais, e deslocamos um valor para a direita. A classe dos conjuntos de dados vizinhos tem mais probabilidade de coincidir do que de diferir, ou seja, se a enésima cadeia tiver a classe 1, então a cadeia n+1 terá muito provavelmente a classe 1. As cadeias só podem diferir ligeiramente uma da outra, a cadeia n+1 só difere da enésima em um valor. Existem 14 valores correspondentes. Então, se você pegar a primeira linha desse conjunto de dados para treinar, e a segunda para testar, a terceira para treinar, etc., então o modelo funcionará muito bem, porque há muitas linhas em teste que realmente coincidem com os valores em que o modelo foi treinado no trem. Apenas o OOS do modelo será uma porcaria (se você quer dizer OOS real, que não inclui teste).
 
Vladimir Perervenko:

Quando se trata de estimar preditores usando modelos, eu acho que o pacote mais avançado é o RandomUniformForest. Trata em grande detalhe a importância dos preditores de diferentes pontos de vista. Eu recomendo dar uma olhada. Em um dos meus artigos eu o descrevi em detalhes.

Recusei-me a usar a selecção de modelos de preditores. Limitado às especificidades do modelo utilizado.

Boa sorte.

Continuo a escrever sobre algo completamente diferente: NÃO estou interessado na intensidade do uso do preditor na construção de um modelo, pois acredito que o preditor mais "conveniente" para construir um modelo é aquele que tem pouca relação com a variável alvo, uma vez que se pode sempre encontrar valores "convenientes" em tal preditor e, em última análise, a importância dos preditores irá reflectir a "conveniência" do modelo na sua construção

Estou sempre a escrever sobre o poder preditivo, o impacto do ... do preditor sobre a variável alvo. Uma das idéias foi expressa acima (informação mútua), eu já expressei minha idéia sobre isso muitas vezes. Estas são ideias matemáticas. Muito mais eficazes são as ideias económicas, porque aí você pode escolher os preditores para a variável alvo que estão à frente da variável alvo.


Então novamente: não estou interessado na IMPORTÂNCIA da variável para o modelo, estou interessado no IMPACTO do preditor sobre a variável alvo


PS.

Eu verifiquei o seu pacote recomendado: o resultado é quase o mesmo.

 
Slasher111:
A questão é que o modelo se sobrepõe se você não separar o trem e testar por tempo. Um exemplo exagerado mas ilustrativo: temos incrementos absolutos como preditores, sem qualquer transformação. Usamos uma janela deslizante de largura 15, ou seja, cada vez que alimentamos 15 preditores incrementais, e deslocamos um valor para a direita. A classe dos conjuntos de dados vizinhos tem mais probabilidade de coincidir do que de diferir, ou seja, se a enésima cadeia tiver a classe 1, então a cadeia n+1 provavelmente terá a classe 1. As cadeias só podem diferir ligeiramente uma da outra, a cadeia n+1 só difere da enésima em um valor. Existem 14 valores correspondentes. Então, se você pegar a primeira linha desse conjunto de dados para treinar, e a segunda para testar, a terceira para treinar, etc., então o modelo funcionará muito bem, porque há muitas linhas em teste que realmente coincidem com os valores em que o modelo foi treinado no trem. Apenas o OOS do modelo será uma porcaria (se você quer dizer OOS real, que não inclui teste).

É um ponto muito bom. Aquele resultado fantástico e graal que eu postei acima com sobre amostragem aleatória para testes de aprendizagem e validações é exatamente o que explica isso. E se excluirmos as observações próximas, que por acaso estão em conjuntos diferentes, obtemos tudo como eu obtive - um desastre.

 
Mihail Marchukajtes:

Lembre-se que eu disse que recebi um modelo que vem ganhando desde 01.31.2018 até os dias de hoje, e é assim que este modelo tem sido realizado nestas duas semanas de 03.05.2018 até os dias de hoje. Resultado do teste.

Muito bom para uma velhota treinada em 40 pontos e está no OOS há cerca de 1,5 meses.

E este é o seu OOS completo a partir de 01.31.2018.

E ainda pensas que é um ajuste???? Apenas um lembrete de que as imagens mostram a secção OOS.

Bem, onde está o backtest normal? você atinge uma tendência de alta em 3 meses, nas pausas que você vai sofrer

Você deve pegar alguma coisa simples, como comprar toda segunda-feira, e ficar surpreso que vai funcionar melhor do que a sua, à medida que o mercado sobe.

 

Você checa tudo para verificar se há excesso de treinamento e erros na própria amostra, é claro que é interessante para estatísticas e entender o que o algoritmo faz. mas a idéia final é pegar o dinheiro. então por que não verificar a previsibilidade no teste imediatamente? .... no meu teste, ele se revela 50/50, mas devido ao fato de eu definir a variável alvo em classes onde o alce é menos que o lucro, ele se revela um crescimento bastante suave no teste. e, a propósito, no teste é apenas um avanço sólido, a máquina foi treinada em dados antes do início da negociação.... Devo acrescentar que os mais importantes são os preditores de entrada, seu número e sua real capacidade de descrever o alvo.

aqui está uma fototeste

 
Muitas das abordagens discutidas estão terrivelmente ultrapassadas, foram relevantes nos anos 80...
 
Anatolii Zainchkovskii:

Você checa tudo para verificar se há excesso de treinamento e erros na própria amostra, é claro que é interessante para estatísticas e entender o que o algoritmo faz. mas a idéia final é pegar o dinheiro. então por que não verificar a previsibilidade no teste imediatamente? .... no meu teste, ele se revela 50/50, mas devido ao fato de eu definir a variável alvo em classes onde o alce é menos que o lucro, ele se revela um crescimento bastante suave no teste. e, a propósito, no teste é apenas um avanço sólido, a máquina foi treinada em dados antes do início da negociação.... Devo acrescentar que os mais importantes são os preditores de entrada, seu número e sua real capacidade de descrever o alvo.

No entanto, a reciclagem é muito importante, porque, por exemplo, no boosting (florestas gradientes) você pode obter um modelo com grande sucesso, mas no futuro será inútil, mas você mesmo sabe disso.

 
Aselecção do prognóstico é importante, mas os andaimes não sabem modelar os factores de relação entre eles, pelo que é um ajuste estúpido, e uma modelação inteligente com variações na forma de relações variáveis é infelizmente muito demorada
 
transcendreamer:

A reciclagem é ainda um ponto importante, porque, por exemplo, no boosting (florestas gradientes) você pode conseguir um modelo impressionante, mas no forward você terá um desbotamento, mas você mesmo sabe disso.

ninguém diz para usar para sempre, há um período em que você pode se reciclar e ir de novo))))

 
transcendreamer:
A seleção de prognósticos é importante, mas as florestas não sabem como modelar os fatores de relacionamento entre eles, então é um ajuste estúpido, e a modelagem inteligente com variação na forma de relações variáveis é, infelizmente, um caso muito demorado.

E essas conexões não podem ser encontradas matematicamente, então você tem que fazer uma adaptação idiota ou pesquisa de mercado :)

A montagem estúpida também é uma coisa legal, na verdade, se a generalização for usada.

Razão: