Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 55): SAC com Prioritized Experience Replay"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 55): SAC com Prioritized Experience Replay foi publicado:
Buffers de Prioritized Experience Replay (PER) e buffers de Replay típicos (para amostragem aleatória) são ambos utilizados em RL com algoritmos off-policy como DQN e SAC porque permitem armazenar e amostrar experiências passadas. O PER difere de um replay buffer típico na forma como experiências passadas são priorizadas e amostradas.
Com um replay buffer típico, as experiências são amostradas uniformemente e de forma aleatória, o que significa que qualquer experiência passada tem a mesma probabilidade de ser selecionada, independentemente de sua importância ou relevância para o processo de aprendizado. Com PER, as experiências passadas são amostradas com base em sua “prioridade”, propriedade frequentemente quantificada pela magnitude do erro de Diferença Temporal. Esse erro serve como um indicador do potencial de aprendizado. Cada experiência recebe um valor desse erro e experiências com valores altos são amostradas com maior frequência. Essa priorização pode ser implementada usando uma abordagem proporcional ou baseada em ranking.
Buffers de replay típicos também não introduzem nem utilizam qualquer viés. O PER introduz esse viés e isso pode distorcer injustamente o processo de aprendizado; por isso, para corrigir esse efeito, o PER utiliza pesos de importance sampling para ajustar o impacto de cada experiência amostrada. Buffers de replay típicos são, portanto, mais eficientes em termos de amostragem, pois realizam muito menos operações em segundo plano quando comparados ao PER. Por outro lado, o PER proporciona um aprendizado mais focado e construtivo, algo que buffers típicos não oferecem.
Consequentemente, implementar um PER é mais complexo do que um replay buffer típico; isso ocorre porque o PER requer uma classe adicional para manter a fila de prioridade frequentemente chamada de “sum-tree”. Essa estrutura de dados permite uma amostragem mais eficiente das experiências com base em sua prioridade. O PER tende a levar a convergência mais rápida e melhor desempenho, pois concentra o aprendizado nas experiências mais informativas ou desafiadoras para o agente.
Autor: Stephen Njuki