Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 58): Aprendizado por Reforço (DDPG) com Padrões de Média Móvel e Oscilador Estocástico"

MetaQuotes 2026.06.12 10:35

Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 58): Aprendizado por Reforço (DDPG) com Padrões de Média Móvel e Oscilador Estocástico foi publicado:

A Média Móvel e o Oscilador Estocástico são indicadores muito comuns cujos padrões coletivos exploramos no artigo anterior, por meio de uma rede de aprendizado supervisionado, para verificar quais “padrões permaneceriam consistentes”. Levamos nossas análises daquele artigo um passo adiante ao considerar os efeitos que o aprendizado por reforço, quando utilizado com essa rede treinada, teria sobre o desempenho. Os leitores devem observar que nossos testes foram realizados em uma janela de tempo muito limitada. Ainda assim, continuamos a aproveitar os requisitos mínimos de codificação proporcionados pelo MQL5 Wizard para demonstrar isso.

A partir do nosso último artigo, testamos 10 padrões de sinal dos nossos 2 indicadores (MM e Oscilador Estocástico). Sete conseguiram passar pelo teste forward com base em uma janela de teste de 1 ano. No entanto, desses, apenas 2 conseguiram isso realizando tanto operações compradas quanto vendidas. Isso ocorreu devido à nossa pequena janela de testes, motivo pelo qual os leitores são incentivados a testar isso em um histórico maior antes de levar a ideia adiante.

Estamos seguindo uma tese na qual os três principais modos de aprendizado de máquina podem ser utilizados em conjunto, cada um em sua própria “fase”. Esses modos, recapitulando, são aprendizado supervisionado (SL), aprendizado por reforço (RL) e inferência/aprendizado por inferência (IL). Nos aprofundamos em SL no último artigo, onde padrões combinados da média móvel e do oscilador estocástico foram normalizados em um vetor binário de características. Esse vetor foi então alimentado em uma rede neural simples que treinamos no par EUR USD para o ano de 2023 e posteriormente submetemos a testes forward para o ano de 2024.

Como nossa abordagem se baseia na tese de que o RL pode ser utilizado para treinar modelos enquanto estão em uso, queremos demonstrar isso neste artigo utilizando nossos resultados e rede anteriores provenientes do SL. O RL, estamos propondo, é uma forma de retropropagação em tempo de execução que ajusta cuidadosamente nossas decisões de compra e venda para que elas não sejam baseadas apenas em mudanças projetadas de preço, como ocorria no modelo de SL.

Esse “ajuste fino”, como vimos em artigos anteriores sobre RL, combina exploração e aproveitamento. Assim, nossa rede de política, por meio do treinamento em um ambiente de mercado ao vivo, determinaria quais estados deveriam resultar em ações de compra ou venda. Pode haver casos em que um estado de alta não signifique necessariamente uma oportunidade de compra, e vice-versa. Isso significa que nosso modelo de RL atua como um filtro adicional para as decisões tomadas pelo modelo de SL. Os estados do nosso modelo de SL utilizavam valores contínuos unidimensionais, e isso será muito semelhante ao espaço de ações que utilizaremos.

Autor: Stephen Njuki

Novo comentário