Discussão do artigo "Redes neurais de maneira fácil (Parte 46): Aprendizado por reforço condicionado a metas (GCRL)"
Belo artigo.
Nigel, você não é o único.
Ele foi apresentado o suficiente para impedir a reprodutibilidade, a menos que você gaste muito tempo para depurar o código ou descobrir seu uso adequado.
Por exemplo:
"Depois de concluir o trabalho no EA para coletar o banco de dados de exemplo "GCRL\Research.mq5", nós o lançamos no modo de otimização lenta do testador de estratégia"
A pergunta simples é, na verdade, quais parâmetros devem ser otimizados?
A pergunta simples é, na verdade, quais parâmetros devem ser otimizados?
Todos os parâmetros são padrão. Você deve definir apenas o número do agente para otimizar. Ele é usado para definir o número de iterações do testador.
Todos os parâmetros são padrão. Você deve definir apenas o número do agente para otimizar. Ele é usado para definir o número de iterações do testador.
Olá, Dmitriy,
Deve haver algo errado com sua biblioteca. Em vários testes, obtive os mesmos resultados, com as mesmas desvantagens.
A estratégia de teste gera duas séries de ordens separadas no tempo. Primeiro, ordens de compra e, depois, ordens de venda.
As ordens de venda nunca são fechadas, exceto no momento em que o período de teste termina.
O mesmo comportamento pode ser observado ao testar suas outras estratégias, portanto, o erro deve estar em uma classe comum às suas estratégias.
Outro motivo possível é a suscetibilidade ao estado inicial dos testes.
Veja em anexo um relatório de meu teste.
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso
Novo artigo Redes neurais de maneira fácil (Parte 46): Aprendizado por reforço condicionado a metas (GCRL) foi publicado:
Convido você a conhecer mais uma abordagem no campo do aprendizado por reforço. É chamada de aprendizado por reforço condicionado a metas, conhecida pela sigla GCRL (Goal-conditioned reinforcement learning). Nessa abordagem, o agente é treinado para alcançar diferentes metas em cenários específicos.
Neste trabalho, decidimos abandonar o treinamento separado do autocodificador variacional e incorporamos seu codificador diretamente no modelo do Agente. Deve-se observar que essa abordagem viola um pouco os princípios de treinamento de um autocodificador. A ideia principal ao usar qualquer autocodificador é compactar dados sem vinculá-los a uma tarefa específica. No entanto, agora não temos a tarefa de treinar o codificador para resolver várias tarefas a partir dos mesmos dados iniciais.
O segundo ponto é que só alimentamos a entrada do codificador com o estado atual do ambiente. Em nosso caso, esses são dados históricos de movimento de preços do instrumento e indicadores analisados. Ou seja, excluímos informações sobre o estado da conta. Supomos que, com base nos dados históricos, o planejador (neste caso, o codificador) formará a habilidade a ser usada. Isso pode ser uma política de operação em mercados em alta ou baixa, ou até mesmo negociação em mercados laterais.
Já com base nas informações da conta, vamos criar uma sub tarefa para o Agente, que envolve encontrar pontos de entrada ou saída de posições.
Um aspecto positivo do uso do método GCRL é a redução do tempo de retenção da posição. Durante o teste, o tempo máximo de retenção da posição foi de 21 horas e 15 minutos. O tempo médio de retenção da posição foi de 5 horas e 49 minutos. Lembro que, por não cumprir a tarefa de fechar a posição, aplicamos uma penalidade equivalente a 1/10 do lucro acumulado a cada hora de retenção. Ou seja, após 10 horas de retenção, a penalidade excedeu o lucro da posição.
Autor: Dmitriy Gizlyk