Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 45): Aprendizado por Reforço com Monte-Carlo"
Olá, Sr. Njuki,
Espero que você esteja bem.
Estou apenas perguntando sobre a otimização que foi realizada em 2022 para o consultor especialista. Você poderia explicar qual modelo de preço foi usado.
Atenciosamente,
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 45): Aprendizado por Reforço com Monte-Carlo foi publicado:
Com o algoritmo Monte Carlo, os Q-Values só são atualizados após a conclusão de um episódio. Um episódio é um lote de ciclos. Para este artigo, atribuímos esse número de ciclos ao parâmetro de entrada ‘m_episodes_size’, que é otimizável ou ajustável. O Monte Carlo é considerado bastante robusto à variabilidade do mercado porque consegue simular melhor uma ampla gama de cenários possíveis, permitindo que os traders determinem como diferentes estratégias se comportam sob várias condições. Essa variabilidade ajuda os traders a entender potenciais trade-offs, riscos e retornos, permitindo que tomem decisões mais informadas.
Essa vantagem, argumenta-se, decorre de sua “visão de desempenho de longo prazo”, que contrasta com métodos tradicionais que tendem a focar em resultados de curto prazo. O que isso significa é que as atualizações pouco frequentes realizadas pelas simulações de Monte Carlo — dado que só acontecem uma vez em um episódio — evitam o ruído de mercado no qual Q-Learning & SARSA inevitavelmente esbarram, já que executam suas atualizações com mais frequência. A avaliação do desempenho de longo prazo de estratégias de trading, medindo recompensas cumulativas ao longo do tempo, é portanto o que o Monte Carlo busca alcançar. Ao analisar múltiplos episódios, os traders podem obter insights sobre a lucratividade e a sustentabilidade geral de suas estratégias.
O algoritmo Monte Carlo calcula estimativas de valores de ação com base nos retornos médios de pares estado-ação ao longo de múltiplos ciclos dentro de um único episódio. Isso permite avaliar melhor quais ações (por exemplo, comprar ou vender) têm maior probabilidade de gerar resultados favoráveis com base no desempenho histórico. Essa atualização dos Q-Values decorre de o componente de recompensa desses Q-Values ser determinado da seguinte forma:
Onde:
Autor: Stephen Njuki