Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 54): Aprendizado por Reforço com SAC híbrido e Tensores"

 

Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 54): Aprendizado por Reforço com SAC híbrido e Tensores foi publicado:

Soft Actor Critic é um algoritmo de Aprendizado por Reforço que analisamos em um artigo anterior, onde também introduzimos Python e ONNX nesta série como abordagens eficientes para treinar redes. Retomamos o algoritmo com o objetivo de explorar tensores, grafos computacionais que frequentemente são utilizados em Python.

Soft Actor Critic (SAC) é um dos algoritmos utilizados em Aprendizado por Reforço ao treinar uma rede neural. Recapitulando, o aprendizado por reforço é um método emergente de treinamento em aprendizado de máquina, ao lado do aprendizado supervisionado e do não supervisionado.

O replay buffer é um componente muito importante do algoritmo off-policy SAC em Aprendizado por Reforço, pois mantém experiências passadas de estado, ação, recompensa, próximo estado e o indicador de término (para registrar se um episódio foi concluído ou continua) em mini-lotes de amostras para treinamento. Seu principal objetivo é descorrelacionar diversas experiências, permitindo que o agente aprenda a partir de um conjunto mais diverso de vivências, o que tende a melhorar a estabilidade do aprendizado e a eficiência de amostragem.

Na implementação do SAC, podemos usar a linguagem MQL5, mas as redes criadas não seriam tão eficientes para treinar quanto aquelas criadas em Python com bibliotecas open-source como TensorFlow ou PyTorch. Portanto, como vimos no último artigo sobre aprendizado por reforço, onde Python foi usado para modelar uma rede SAC rudimentar, continuamos com Python, mas desta vez buscando explorar e aproveitar seus grafos de tensores. Em princípio, há duas maneiras de implementar um replay buffer em Python. A abordagem manual ou a abordagem baseada em tensores. 


Autor: Stephen Njuki