Discussão do artigo "Recursos do Assistente MQL5 que você precisa conhecer (Parte 43): Aprendizado por reforço com SARSA"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Recursos do Assistente MQL5 que você precisa conhecer (Parte 43): Aprendizado por reforço com SARSA foi publicado:
O aprendizado por reforço (reinforcement learning, RL) permite que sistemas de negociação aprendam com base em dados do ambiente ou do mercado e, assim, melhorem suas capacidades de negociação ao longo do tempo. O RL possibilita adaptação a condições de mercado em constante mudança, tornando-o adequado para determinados mercados financeiros e ativos de natureza dinâmica. Os mercados financeiros são imprevisíveis, pois geralmente apresentam um alto grau de incerteza. O RL lida muito bem com a tomada de decisões nesse cenário, ajustando continuamente suas ações com base no feedback recebido (recompensas), o que é extremamente útil para traders que atuam em condições de mercado instáveis.
Essa abordagem pode ser comparada a um Expert Advisor anexado a um gráfico, que realiza sua própria otimização periodicamente com base no histórico recente de preços para ajustar precisamente seus parâmetros. O RL busca realizar algo semelhante. Em nossa série de artigos, abordamos o RL em sentido estrito, como a terceira abordagem de aprendizado de máquina, além do supervisionado e do não supervisionado. No entanto, ainda não o exploramos como um modelo independente que possa ser utilizado para previsão.
É exatamente isso que faremos neste artigo. Não apenas apresentaremos o algoritmo de RL SARSA, mas também buscaremos implementá-lo em uma nova classe personalizada de sinais para Expert Advisors gerados no Wizard, como um modelo de sinal independente. Quando utilizado como modelo de sinal, o RL automatiza o processo de tomada de decisões, reduzindo a necessidade de intervenção humana constante, o que, por sua vez (pelo menos em teoria), pode possibilitar negociações de alta frequência e reação em tempo real aos movimentos do mercado. Além disso, graças ao feedback contínuo do mecanismo de recompensas, modelos de aprendizado por reforço tendem a desenvolver uma melhor gestão de riscos. Isso ocorre por meio da penalização de ações de alto risco com recompensas baixas, e o efeito líquido é que o RL minimiza a exposição a operações voláteis ou potencialmente deficitárias.
As execuções de teste no período diário para o par EURJPY ao longo de 2022, feitas exclusivamente para demonstrar a facilidade de uso do Expert Advisor, produziram os seguintes resultados:
Autor: Stephen Njuki