Discussão do artigo "Floresta de Decisão Aleatória na Aprendizagem por Reforço" - página 7

 
FxTrader562:

Você pode me fornecer um exemplo de código de um indicador sem lógica difusa e onde colocar o indicador na implementação atual do código?

Agora não consigo, mas tentarei hoje à noite.

 
mov :

Agora não consigo, tentarei à noite.

OK, obrigado. Vou esperar.

Basicamente, só quero saber como alimentar outros indicadores como MACD, SAR, MA etc. na matriz de políticas para atualizar a política e atualizar a recompensa em cada lucro e perda. Isso deve ser feito sem lógica difusa.

 

FxTrader562:

Basicamente, só quero saber como alimentar outros indicadores como MACD, SAR, MA etc. na matriz de políticas para atualizar a política e atualizar a recompensa em cada lucro e perda. Isso deve ser feito sem lógica difusa.

Dei uma olhada no meu código, que é uma mistura horrível de diferentes algoritmos sendo verificados. Para simplificar, acrescentei os pontos necessários para trabalhar sem a lógica difusa no código-fonte do artigo. Espero que o autor não fique ofendido. Eu verifiquei, parece funcionar e não esqueci de nada importante. O número de indicadores é definido por nIndicat.

 
mov :

Olhei para o meu código, uma bagunça terrível de diferentes algoritmos verificáveis. Para simplificar, apresentei os elementos necessários para o trabalho sem me preocupar com o código-fonte do artigo. Espero que o autor não fique ofendido. Eu verifiquei e parece que está funcionando. O número de indicadores especifica nIndicat.

Obrigado pelo código. Vou dar uma olhada nele.

A propósito, mais uma coisa. Se você tentou automatizar o processo de otimização do aprendizado iterativo, por favor, informe-me. Quero dizer, se você tiver alguma solução para executar o otimizador automaticamente, de modo que o EA chame automaticamente o otimizador a cada perda, informe-me.

O autor me disse que adicionará o recurso de otimização automática nos próximos artigos. Mas se alguém já tiver o código, será ótimo. Como o EA mantém automaticamente a política ideal nos arquivos de texto e, portanto, só é necessário executar o otimizador automaticamente em intervalos regulares, o que acredito ser fácil de implementar, mas não sei como fazer isso.

 
FxTrader562: Se você tentou automatizar o processo de otimização do aprendizado iterativo, por favor, informe-me.

Eu tentei, mas minha eficiência é muito menor. Como era de se esperar, um novo artigo do autor.

 
mov:

Eu tentei, mas minha eficiência é muito menor. Como seria de se esperar de um novo artigo do autor.

De qualquer forma, obrigado. Também estou tentando e aguardando a atualização do autor.

O código que você forneceu parece funcionar bem. Tentarei com várias combinações e poderei atualizá-lo novamente.

Muito obrigado novamente.

 
Olá pessoal,
Antes de mais nada, gostaria de parabenizar Maxim Dmitrievsky por seu artigo.
Em segundo lugar, gostaria de dizer que estou acompanhando o tópico, pois o assunto é muito interessante.
Em terceiro lugar, gostaria de tirar uma dúvida, pois não estou conseguindo entender como é feita hoje a execução da recompensa no EA de classificação, alguém poderia descrevê-la?

O que eu entendi é que quando o EA fecha a posição com um valor negativo ele faz uma alteração nos 2 índices do vetor (3 e 4).
Como saber se essa recompensa é boa, pois gostaria de aumentar as recompensas quando a operação for positiva e pegar uma certa quantidade de pontos.
//+------------------------------------------------------------------+
//||
//+------------------------------------------------------------------+
void updateReward()
  {
   if(MQLInfoInteger(MQL_OPTIMIZATION)==true)
     {
      int unierr;
      if(getLAstProfit()<0)
        {
         double likelyhood=MathRandomUniform(0,1,unierr);
         RDFpolicyMatrix[numberOfsamples-1].Set(3,likelyhood); // HERE 
         RDFpolicyMatrix[numberOfsamples-1].Set(4,1-likelyhood); // AND HERE 
        }
     }
  }


Obrigado.
Ps. Usei o Google Translate, desculpe se não estiver compreensível.
 
rogivilela:
O que eu entendi é que quando o EA fecha a posição com um valor negativo ele faz uma mudança nos 2 índices do vetor (3 e 4).
Como saber se essa recompensa é boa? porque eu gostaria de aumentar as recompensas quando a operação é positiva e pegar uma certa quantidade de pontos.

Você pega o texto do artigo, olha as postagens acima, há uma discussão constante sobre a melhor recompensa, há sugestões de recompensas mais eficazes.

 
rogivilela:

Como sei que esse prêmio é bom?

Se houver uma perda, o algoritmo deve tentar não negociar ou negociar na direção oposta; não sabemos como fazer isso corretamente, usamos um valor aleatório. Não há nenhum outro significado nessas linhas

 
mov:

Se houver perda, o algoritmo deve tentar não negociar ou negociar na direção oposta; não sabemos o caminho certo, usamos um valor aleatório. Não há nenhum outro significado nas linhas acima

o artigo em si e o algoritmo fornecido têm um caráter introdutório, para obter o resultado e não apenas no testador, você precisa preparar os dados de entrada. Recentemente, assisti a muitos vídeos no YouTube sobre esse tópico, aqui está um exemplo muito informativo e o canal como um todo.


Para começar, acho que devo treinar por horas, ou seja, 24 redes neurais treinadas, porque em diferentes momentos do dia a volatilidade é diferente, e então veremos.