Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 45): Aprendizado por Reforço com Monte-Carlo"

 

Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 45): Aprendizado por Reforço com Monte-Carlo foi publicado:

Monte-Carlo é o quarto algoritmo diferente em aprendizado por reforço que estamos considerando com o objetivo de explorar sua implementação em Expert Advisors montados pelo wizard. Embora ancorado em amostragem aleatória, ele apresenta vastas formas de simulação que podemos explorar.

Com o algoritmo Monte Carlo, os Q-Values só são atualizados após a conclusão de um episódio. Um episódio é um lote de ciclos. Para este artigo, atribuímos esse número de ciclos ao parâmetro de entrada ‘m_episodes_size’, que é otimizável ou ajustável. O Monte Carlo é considerado bastante robusto à variabilidade do mercado porque consegue simular melhor uma ampla gama de cenários possíveis, permitindo que os traders determinem como diferentes estratégias se comportam sob várias condições. Essa variabilidade ajuda os traders a entender potenciais trade-offs, riscos e retornos, permitindo que tomem decisões mais informadas.

Essa vantagem, argumenta-se, decorre de sua “visão de desempenho de longo prazo”, que contrasta com métodos tradicionais que tendem a focar em resultados de curto prazo. O que isso significa é que as atualizações pouco frequentes realizadas pelas simulações de Monte Carlo — dado que só acontecem uma vez em um episódio — evitam o ruído de mercado no qual Q-Learning & SARSA inevitavelmente esbarram, já que executam suas atualizações com mais frequência. A avaliação do desempenho de longo prazo de estratégias de trading, medindo recompensas cumulativas ao longo do tempo, é portanto o que o Monte Carlo busca alcançar. Ao analisar múltiplos episódios, os traders podem obter insights sobre a lucratividade e a sustentabilidade geral de suas estratégias.

O algoritmo Monte Carlo calcula estimativas de valores de ação com base nos retornos médios de pares estado-ação ao longo de múltiplos ciclos dentro de um único episódio. Isso permite avaliar melhor quais ações (por exemplo, comprar ou vender) têm maior probabilidade de gerar resultados favoráveis com base no desempenho histórico. Essa atualização dos Q-Values decorre de o componente de recompensa desses Q-Values ser determinado da seguinte forma:

Onde:

  • R t+1 , R t+2 ,…,R T são as recompensas recebidas em cada passo após o tempo t.
  • γ /gamma é o fator de desconto (0 ≤ γ ≤ 1), que define em quanto as recompensas futuras são “descontadas” (isto é, valem menos do que recompensas imediatas).
  • T representa o passo de tempo no qual o episódio termina (estado terminal ou tamanho do episódio em ciclos).


Autor: Stephen Njuki

 
Olá, Sr. Njuki,

Espero que você esteja bem.

Estou apenas perguntando sobre a otimização que foi realizada em 2022 para o consultor especialista. Você poderia explicar qual modelo de preço foi usado.

Atenciosamente,