Discussão do artigo "Recursos do Assistente MQL5 que você precisa conhecer (Parte 47): Aprendizado por reforço (algoritmo de diferenças temporais)"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Recursos do Assistente MQL5 que você precisa conhecer (Parte 47): Aprendizado por reforço (algoritmo de diferenças temporais) foi publicado:
Vamos analisar em que o TD difere de outros algoritmos, como Monte Carlo, Q-learning e SARSA. O objetivo do artigo é esclarecer as dificuldades relacionadas ao treinamento com TD, destacando sua habilidade única de atualizar gradualmente as estimativas de valores com base em informações parciais dos episódios, sem precisar esperar a conclusão dos episódios, como acontece nos métodos de Monte Carlo. Essa diferença torna o treinamento TD uma ferramenta poderosa, especialmente em situações em que o ambiente é dinâmico e exige atualização imediata da política de aprendizado.
No artigo anterior sobre aprendizado supervisionado estudamos o algoritmo de Monte Carlo, que coletava informações de recompensas ao longo de vários ciclos antes de realizar uma única atualização para cada episódio. TD implica aprendizado a partir de episódios parciais e incompletos, de forma bastante semelhante aos algoritmos Q-learning e SARSA, que já analisamos aqui aqui e aqui.
Autor: Stephen Njuki