Discussão do artigo "Redes neurais de maneira fácil (Parte 46): Aprendizado por reforço condicionado a metas (GCRL)"

MetaQuotes 2023.10.03 09:51

Novo artigo Redes neurais de maneira fácil (Parte 46): Aprendizado por reforço condicionado a metas (GCRL) foi publicado:

Convido você a conhecer mais uma abordagem no campo do aprendizado por reforço. É chamada de aprendizado por reforço condicionado a metas, conhecida pela sigla GCRL (Goal-conditioned reinforcement learning). Nessa abordagem, o agente é treinado para alcançar diferentes metas em cenários específicos.

Neste trabalho, decidimos abandonar o treinamento separado do autocodificador variacional e incorporamos seu codificador diretamente no modelo do Agente. Deve-se observar que essa abordagem viola um pouco os princípios de treinamento de um autocodificador. A ideia principal ao usar qualquer autocodificador é compactar dados sem vinculá-los a uma tarefa específica. No entanto, agora não temos a tarefa de treinar o codificador para resolver várias tarefas a partir dos mesmos dados iniciais.

O segundo ponto é que só alimentamos a entrada do codificador com o estado atual do ambiente. Em nosso caso, esses são dados históricos de movimento de preços do instrumento e indicadores analisados. Ou seja, excluímos informações sobre o estado da conta. Supomos que, com base nos dados históricos, o planejador (neste caso, o codificador) formará a habilidade a ser usada. Isso pode ser uma política de operação em mercados em alta ou baixa, ou até mesmo negociação em mercados laterais.

Já com base nas informações da conta, vamos criar uma sub tarefa para o Agente, que envolve encontrar pontos de entrada ou saída de posições.

Gráfico do teste

Um aspecto positivo do uso do método GCRL é a redução do tempo de retenção da posição. Durante o teste, o tempo máximo de retenção da posição foi de 21 horas e 15 minutos. O tempo médio de retenção da posição foi de 5 horas e 49 minutos. Lembro que, por não cumprir a tarefa de fechar a posição, aplicamos uma penalidade equivalente a 1/10 do lucro acumulado a cada hora de retenção. Ou seja, após 10 horas de retenção, a penalidade excedeu o lucro da posição.

Autor: Dmitriy Gizlyk

Nigel Philip J Stephens 2023.11.01 23:07 #1

Não consegui reproduzir seus resultados, com base nos arquivos de download do mql5 e nos intervalos de datas dos dados históricos e de teste.

Chris 2024.03.01 00:55 #2

Belo artigo.

Nigel, você não é o único.

Ele foi apresentado o suficiente para impedir a reprodutibilidade, a menos que você gaste muito tempo para depurar o código ou descobrir seu uso adequado.

Por exemplo:

"Depois de concluir o trabalho no EA para coletar o banco de dados de exemplo "GCRL\Research.mq5", nós o lançamos no modo de otimização lenta do testador de estratégia"

A pergunta simples é, na verdade, quais parâmetros devem ser otimizados?

É possível codificar um Sistema sem ajuste - [ARQUIVO!] Qualquer pergunta de

Dmitriy Gizlyk 2024.03.01 01:56 #3

Chris testador de estratégia".
A pergunta simples é, na verdade, quais parâmetros devem ser otimizados?

Todos os parâmetros são padrão. Você deve definir apenas o número do agente para otimizar. Ele é usado para definir o número de iterações do testador.

Chris 2024.03.02 12:22 #4

Dmitriy Gizlyk #:

Todos os parâmetros são padrão. Você deve definir apenas o número do agente para otimizar. Ele é usado para definir o número de iterações do testador.

Olá, Dmitriy,

Deve haver algo errado com sua biblioteca. Em vários testes, obtive os mesmos resultados, com as mesmas desvantagens.

A estratégia de teste gera duas séries de ordens separadas no tempo. Primeiro, ordens de compra e, depois, ordens de venda.

As ordens de venda nunca são fechadas, exceto no momento em que o período de teste termina.

O mesmo comportamento pode ser observado ao testar suas outras estratégias, portanto, o erro deve estar em uma classe comum às suas estratégias.

Outro motivo possível é a suscetibilidade ao estado inicial dos testes.

Veja em anexo um relatório de meu teste.

Arquivos anexados:

ReportTester-GCRL_graph.zip 2195 kb

Negociação de pares e [ARQUIVO!] Qualquer pergunta de [ARQUIVO] Qualquer pergunta de

Novo comentário