Discussão do artigo "Técnicas do MQL5 Wizard que você deve conhecer (Parte 51): Aprendizado por Reforço com SAC"

 

Novo artigo Técnicas do MQL5 Wizard que você deve conhecer (Parte 51): Aprendizado por Reforço com SAC foi publicado:

Soft Actor Critic é um algoritmo de Aprendizado por Reforço que utiliza 3 redes neurais. Uma rede ator e 2 redes críticas. Esses modelos de aprendizado de máquina são combinados em uma parceria mestre-escravo onde as redes críticas são modeladas para melhorar a precisão de previsão da rede ator. Ao mesmo tempo em que introduzimos ONNX nesta série, exploramos como essas ideias podem ser colocadas à prova como um sinal personalizado de um Expert Advisor montado pelo wizard.

Soft Actor Critic é mais um algoritmo de aprendizado por reforço que estamos considerando, depois de já termos analisado alguns que incluíram proximal policy optimization, deep-Q-networks, SARSA e outros. Este algoritmo, contudo, assim como alguns que já analisamos, usa redes neurais, mas com uma ressalva importante. O número total de redes utilizadas é três, sendo elas: 2 redes críticas e 1 rede ator. As duas redes críticas fazem previsões de recompensa (Q-Values) quando recebem como entrada uma ação e um estado de ambiente, e o mínimo das saídas dessas 2 redes é usado na modulação da função de perda utilizada para treinar a rede ator.

As entradas da rede de atores são coordenadas do estado do ambiente, sendo a saída binária. Um vetor de médias e um vetor de log-desvio-padrão. Usando o processo Gaussiano, esses dois vetores são usados para derivar uma distribuição de probabilidade para as possíveis ações disponíveis ao ator. Assim, enquanto as 2 redes críticas podem ser treinadas tradicionalmente, a rede ator claramente é um caso à parte. Há bastante a abordar aqui, então vamos reiterar os fundamentos antes de prosseguir. As duas redes críticas recebem como entrada o estado atual do ambiente e uma ação. Sua saída é uma estimativa do retorno esperado (valor Q) para executar aquela ação naquele estado. O uso de duas redes críticas ajuda a reduzir o viés de superestimação, um problema comum no Q-learning.

Continuamos com o mesmo modelo que usamos até aqui, com 9 estados de ambiente e 3 ações possíveis. Para processar a distribuição de probabilidade das ações, precisamos da função de log-probabilidades cujo código foi compartilhado no início deste artigo. Compilar com o wizard e realizar um teste para os 4 meses restantes da janela de dados nos apresenta o seguinte relatório:

r1

c1


Autor: Stephen Njuki

 
Olá, Stephen, obrigado por seus artigos educativos. Sugiro que você acrescente dados históricos de nfp, cpi e taxas de juros dos calendários econômicos, pois esses dados influenciam muito o mercado.