Discussão do artigo "Redes neurais de maneira fácil (Parte 58): transformador de decisões (Decision Transformer — DT)"

Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 58): transformador de decisões (Decision Transformer — DT) foi publicado:
Continuamos a explorar os métodos de aprendizado por reforço. Neste artigo, proponho apresentar um algoritmo ligeiramente diferente que considera a política do agente sob a perspectiva de construir uma sequência de ações.
No contexto desta série de artigos, já examinamos uma ampla gama de diferentes algoritmos de aprendizado por reforço. E todos eles empregam a abordagem básica:
Esta sequência é baseada nos princípios do processo de Markov. E presume que o ponto de partida é o estado atual do ambiente. Há só uma saída ideal deste estado e não depende do caminho anterior.
No entanto, eu gostaria de apresentar a você uma abordagem alternativa, que foi introduzida pela equipe da Google no artigo "Decision Transformer: Reinforcement Learning via Sequence Modeling" (02/06/2021). A principal "característica" deste trabalho é o mapeamento do aprendizado por reforço para modelagem de sequência de ações condicionada por um modelo autorregressivo da recompensa desejada.
Autor: Dmitriy Gizlyk