Discussão do artigo "Redes neurais de maneira fácil (Parte 69): restrição de política comportamental com base na densidade de dados off-line (SPOT)"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 69): restrição de política comportamental com base na densidade de dados off-line (SPOT) foi publicado:
No aprendizado off-line, utilizamos um conjunto de dados fixo, e isso não abrange toda a variedade do ambiente. Durante o processo de treinamento, nosso Agente pode gerar ações fora desse conjunto. Sem feedback do ambiente, a precisão dessas ações é duvidosa. Manter a política do Agente dentro do conjunto de treinamento se torna importante para confiar nos resultados. Vamos falar mais sobre isso aqui neste artigo.
Diversos métodos de aprendizado por reforço off-line para resolver essa tarefa utilizam parametrização ou regularização, que limitam a política do Agente a realizar ações dentro do conjunto de suporte do conjunto de treinamento. Construções detalhadas normalmente interferem nos modelos dos Agentes, o que pode levar a custos adicionais durante a utilização prática e não permite utilizar completamente os métodos estabelecidos de aprendizado por reforço online. Os métodos de regularização reduzem a divergência entre a política aprendida e o conjunto de treinamento, o que pode não corresponder à definição de suporte com base na densidade e, assim, evitar ineficazmente ações fora da distribuição.
Nesse contexto, destaca-se positivamente o método Supported Policy Optimization (SPOT), que foi apresentado no artigo "Supported Policy Optimization for Offline Reinforcement Learning". Seus métodos derivam diretamente da formalização teórica da restrição de política com base na densidade da distribuição do conjunto de treinamento. SPOT utiliza um estimador de densidade baseado em autocodificador variacional (VAE). Ele representa um elemento de regularização simples, mas eficaz. E pode ser incorporado em algoritmos de aprendizado por reforço existentes. O SPOT atinge o melhor desempenho da categoria em benchmarks padrão para RL off-line. Além disso, devido ao design flexível, os modelos pré-treinados no modo off-line usando SPOT também podem ser ajustados no modo online.
Autor: Dmitriy Gizlyk