Discussão do artigo "Recursos do Assistente MQL5 que você precisa conhecer (Parte 49): Aprendizado por reforço e otimização proximal de política"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Recursos do Assistente MQL5 que você precisa conhecer (Parte 49): Aprendizado por reforço e otimização proximal de política foi publicado:
Damos continuidade à nossa série de artigos sobre o Assistente MQL5, na qual, recentemente, alternamos entre padrões simples de indicadores conhecidos e algoritmos de aprendizado por reforço. Depois de analisarmos os modelos baseados em indicadores (Alligator de Bill Williams) no artigo anterior, agora voltamos ao aprendizado por reforço. Desta vez, vamos explorar a otimização proximal de política (Proximal Policy Optimization, PPO). Relatos indicam que esse algoritmo, publicado pela primeira vez há 7 anos, é o preferido no aprendizado por reforço usado no ChatGPT. Atualmente, essa abordagem de aprendizado por reforço tem se tornado bastante popular. O algoritmo PPO tem como objetivo otimizar a política (a função que define as ações do agente) de forma a melhorar o desempenho geral, evitando mudanças bruscas que poderiam tornar o treinamento instável.
Ele não atua sozinho, mas funciona em conjunto com outros algoritmos de aprendizado por reforço, alguns dos quais já analisamos nesta série, e que em termos gerais podem ser divididos em duas categorias. Algoritmos baseados em política e algoritmos baseados em valor. Já estudamos exemplos de cada um deles nesta série de artigos. Entre os algoritmos baseados em política estavam Q-learning e SARSA. O algoritmo de diferenças temporais é um algoritmo baseado em valor. Então, o que exatamente é o PPO?
Como já mencionado, o "problema" que o PPO resolve é impedir alterações muito grandes na política durante as atualizações. A ideia principal é que, se não houver controle sobre a frequência e a escala das atualizações, o agente pode: esquecer o que aprendeu, tomar decisões equivocadas ou apresentar desempenho inferior no ambiente. Dessa forma, o PPO garante que as atualizações sejam pequenas, mas relevantes. O PPO funciona partindo de uma política previamente definida com seus parâmetros. Aqui, política nada mais é do que funções que determinam as ações do agente com base nas recompensas e nos estados do ambiente.
Autor: Stephen Njuki