Discussão do artigo "Recursos do Assistente MQL5 que você precisa conhecer (Parte 43): Aprendizado por reforço com SARSA"

 

Novo artigo Recursos do Assistente MQL5 que você precisa conhecer (Parte 43): Aprendizado por reforço com SARSA foi publicado:

O SARSA (State-Action-Reward-State-Action, estado–ação–recompensa–estado–ação) é outro algoritmo que pode ser utilizado na implementação de aprendizado por reforço. Vamos analisar como esse algoritmo pode ser implementado como um modelo independente (e não apenas como um mecanismo de aprendizado) em Expert Advisors gerados no Wizard, de forma semelhante ao que fizemos nos casos de Q-learning e DQN.

O aprendizado por reforço (reinforcement learning, RL) permite que sistemas de negociação aprendam com base em dados do ambiente ou do mercado e, assim, melhorem suas capacidades de negociação ao longo do tempo. O RL possibilita adaptação a condições de mercado em constante mudança, tornando-o adequado para determinados mercados financeiros e ativos de natureza dinâmica. Os mercados financeiros são imprevisíveis, pois geralmente apresentam um alto grau de incerteza. O RL lida muito bem com a tomada de decisões nesse cenário, ajustando continuamente suas ações com base no feedback recebido (recompensas), o que é extremamente útil para traders que atuam em condições de mercado instáveis.

Essa abordagem pode ser comparada a um Expert Advisor anexado a um gráfico, que realiza sua própria otimização periodicamente com base no histórico recente de preços para ajustar precisamente seus parâmetros. O RL busca realizar algo semelhante. Em nossa série de artigos, abordamos o RL em sentido estrito, como a terceira abordagem de aprendizado de máquina, além do supervisionado e do não supervisionado. No entanto, ainda não o exploramos como um modelo independente que possa ser utilizado para previsão.

É exatamente isso que faremos neste artigo. Não apenas apresentaremos o algoritmo de RL SARSA, mas também buscaremos implementá-lo em uma nova classe personalizada de sinais para Expert Advisors gerados no Wizard, como um modelo de sinal independente. Quando utilizado como modelo de sinal, o RL automatiza o processo de tomada de decisões, reduzindo a necessidade de intervenção humana constante, o que, por sua vez (pelo menos em teoria), pode possibilitar negociações de alta frequência e reação em tempo real aos movimentos do mercado. Além disso, graças ao feedback contínuo do mecanismo de recompensas, modelos de aprendizado por reforço tendem a desenvolver uma melhor gestão de riscos. Isso ocorre por meio da penalização de ações de alto risco com recompensas baixas, e o efeito líquido é que o RL minimiza a exposição a operações voláteis ou potencialmente deficitárias.

As execuções de teste no período diário para o par EURJPY ao longo de 2022, feitas exclusivamente para demonstrar a facilidade de uso do Expert Advisor, produziram os seguintes resultados:

r1

c1


Autor: Stephen Njuki