Discussão do artigo "Redes neurais de maneira fácil (Parte 61): O problema do otimismo no aprendizado por reforço off-line"

Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 61): O problema do otimismo no aprendizado por reforço off-line foi publicado:
Durante o aprendizado off-line, otimizamos a política do Agente com base nos dados da amostra de treinamento. A estratégia resultante confere ao Agente confiança em suas ações. Mas, essa confiança nem sempre é justificada, já que pode acarretar maiores riscos durante a utilização prática do modelo. Hoje vamos examinar um dos métodos para reduzir esses riscos.
Recentemente, os métodos de aprendizado por reforço off-line têm encontrado uma ampla acolhida, prometendo muitas perspectivas na resolução de tarefas de complexidade variável. Porém, um dos principais desafios enfrentados pelos pesquisadores é o otimismo que pode surgir durante o treinamento. O Agente otimiza sua estratégia se baseando nos dados da amostra de treinamento e adquire confiança em suas ações. Mas a amostra de treinamento muitas vezes não é capaz de cobrir todos os possíveis estados e transições do ambiente. Dada a estocasticidade do ambiente, tal confiança prova ser nem sempre fundamentada. Em tais casos, uma estratégia otimista do agente pode ocasionar aumento dos riscos e consequências indesejadas.
Quanto à solução para esse problema, seria bom prestar atenção ao aprendizado off-line. Obviamente, os algoritmos dessa área de pesquisa visam reduzir os riscos (aumentar a segurança dos usuários) e minimizar o aprendizado on-line. Um desses métodos é o SeParated Latent Trajectory Transformer (SPLT-Transformer), apresentado no artigo "Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning" (Julho de 2022).
Autor: Dmitriy Gizlyk