Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 58): Aprendizado por Reforço (DDPG) com Padrões de Média Móvel e Oscilador Estocástico"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 58): Aprendizado por Reforço (DDPG) com Padrões de Média Móvel e Oscilador Estocástico foi publicado:
A partir do nosso último artigo, testamos 10 padrões de sinal dos nossos 2 indicadores (MM e Oscilador Estocástico). Sete conseguiram passar pelo teste forward com base em uma janela de teste de 1 ano. No entanto, desses, apenas 2 conseguiram isso realizando tanto operações compradas quanto vendidas. Isso ocorreu devido à nossa pequena janela de testes, motivo pelo qual os leitores são incentivados a testar isso em um histórico maior antes de levar a ideia adiante.
Estamos seguindo uma tese na qual os três principais modos de aprendizado de máquina podem ser utilizados em conjunto, cada um em sua própria “fase”. Esses modos, recapitulando, são aprendizado supervisionado (SL), aprendizado por reforço (RL) e inferência/aprendizado por inferência (IL). Nos aprofundamos em SL no último artigo, onde padrões combinados da média móvel e do oscilador estocástico foram normalizados em um vetor binário de características. Esse vetor foi então alimentado em uma rede neural simples que treinamos no par EUR USD para o ano de 2023 e posteriormente submetemos a testes forward para o ano de 2024.
Como nossa abordagem se baseia na tese de que o RL pode ser utilizado para treinar modelos enquanto estão em uso, queremos demonstrar isso neste artigo utilizando nossos resultados e rede anteriores provenientes do SL. O RL, estamos propondo, é uma forma de retropropagação em tempo de execução que ajusta cuidadosamente nossas decisões de compra e venda para que elas não sejam baseadas apenas em mudanças projetadas de preço, como ocorria no modelo de SL.
Esse “ajuste fino”, como vimos em artigos anteriores sobre RL, combina exploração e aproveitamento. Assim, nossa rede de política, por meio do treinamento em um ambiente de mercado ao vivo, determinaria quais estados deveriam resultar em ações de compra ou venda. Pode haver casos em que um estado de alta não signifique necessariamente uma oportunidade de compra, e vice-versa. Isso significa que nosso modelo de RL atua como um filtro adicional para as decisões tomadas pelo modelo de SL. Os estados do nosso modelo de SL utilizavam valores contínuos unidimensionais, e isso será muito semelhante ao espaço de ações que utilizaremos.
Autor: Stephen Njuki