Obrigado, senhor @Dmitriy
//+------------------------------------------------------------------+
Olá a todos. Eu tenho esta versão, depois de cerca de 3-4 ciclos (coleta de banco de dados - treinamento - teste) começou a dar apenas uma linha reta nos testes. Os negócios não abrem. O treinamento fez todas as vezes 500.000 iterações. Outro ponto interessante - em um determinado momento, o erro de um dos críticos se tornou muito grande no início e, depois, gradualmente, os erros de ambos os críticos diminuíram para 0. E, por 2 a 3 ciclos, os erros de ambos os críticos estão em 0. E, nos testes, o Test.mqh apresenta uma linha reta e nenhuma transação. Nos passes do Research.mqh, há passes com lucro e negócios negativos. Também há passagens sem transações e com resultado zero. Houve apenas 5 passagens com um resultado positivo em um dos ciclos.
Em geral, isso é estranho. Tenho treinado estritamente de acordo com as instruções de Dmitry em todos os artigos e não consegui obter um resultado de nenhum artigo. Não entendo o que estou fazendo de errado....
Novo artigo Redes neurais de maneira fácil (Parte 51): ator-crítico comportamental (BAC) foi publicado:
Autor: Dmitriy Gizlyk
Baixei a pasta zipada, mas haviam muitas outras pastas dentro.
Se possível gostaria que explicasse como implantar e treinar.
Parabens pelo ótimo trabalho!
Agradeço e muito obrigado
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso
Novo artigo Redes neurais de maneira fácil (Parte 51): ator-crítico comportamental (BAC) foi publicado:
Nos últimos dois artigos, discutimos o algoritmo Soft Actor-Critic, que incorpora regularização de entropia na função de recompensa. Essa abordagem permite equilibrar a exploração do ambiente e a exploração do modelo, mas é aplicável apenas a modelos estocásticos. Neste artigo, exploraremos uma abordagem alternativa que é aplicável tanto a modelos estocásticos quanto determinísticos.
Vamos começar discutindo a necessidade de explorar o ambiente em geral. Acredito que todos concordamos com a importância desse processo. Mas para que serve especificamente e em que estágio?
Comecemos com um exemplo simples. Estamos entrando em uma sala com 3 portas idênticas e precisamos encontrar a saída para a rua. O que fazemos? Abrimos as portas uma a uma até encontrarmos a saída. Se voltarmos a entrar na mesma sala para sair novamente, não abriremos todas as portas, iremos direto para a saída conhecida. No entanto, se tivermos uma tarefa diferente, existem opções. Podemos abrir todas as portas novamente, exceto aquela que já sabemos ser a saída, e procurar a que precisamos. Ou podemos primeiro lembrar quais portas abrimos anteriormente ao procurar a saída e verificar se a que precisamos estava entre elas. Se lembrarmos da porta necessária, seguimos em direção a ela. Caso contrário, verificamos as portas que não foram abertas anteriormente.
Conclusão: A exploração do ambiente é necessária quando estamos em um estado desconhecido para escolher a ação correta. Após encontrar a rota necessária, a exploração adicional do ambiente pode apenas atrapalhar.
No entanto, ao alterar a tarefa em um estado conhecido, pode ser necessário explorar o ambiente adicionalmente. Isso inclui a busca por uma rota mais otimizada. No exemplo acima, se precisarmos passar por mais salas para sair ou sair do lado errado do prédio.
Portanto, precisamos de um algoritmo que permita intensificar a exploração do ambiente em estados não explorados e minimizar em estados previamente explorados.
Autor: Dmitriy Gizlyk