Discussão do artigo "Redes neurais de maneira fácil (Parte 70): melhorando a política usando operadores de forma fechada (CFPI)"

Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 70): melhorando a política usando operadores de forma fechada (CFPI) foi publicado:
Neste artigo, propomos explorar um algoritmo que utiliza operadores de melhoria de política de forma fechada para otimizar as ações do Agente em um ambiente off-line.
A abordagem de otimização da política do Agente, considerando restrições em seu comportamento, tem se mostrado promissora na resolução de problemas de aprendizado por reforço off-line. Mediante transições históricas, treina-se uma política de comportamento do Agente voltada para maximizar o valor da função de valor.
As restrições no comportamento ajudam a evitar mudanças significativas na distribuição das ações do Agente, proporcionando confiança suficiente na avaliação do custo das ações. No artigo anterior, discutimos o método SPOT, que explora essa abordagem. Como continuidade do tema, propomos conhecer o algoritmo Closed-Form Policy Improvement (CFPI), apresentado no artigo "Offline Reinforcement Learning with Closed-Form Policy Improvement Operators".
Autor: Dmitriy Gizlyk