Discussão do artigo "Redes neurais de maneira fácil (Parte 58): transformador de decisões (Decision Transformer — DT)"

 

Novo artigo Redes neurais de maneira fácil (Parte 58): transformador de decisões (Decision Transformer — DT) foi publicado:

Continuamos a explorar os métodos de aprendizado por reforço. Neste artigo, proponho apresentar um algoritmo ligeiramente diferente que considera a política do agente sob a perspectiva de construir uma sequência de ações.

No contexto desta série de artigos, já examinamos uma ampla gama de diferentes algoritmos de aprendizado por reforço. E todos eles empregam a abordagem básica:

  1. O Agente analisa o estado atual do ambiente.
  2. Realiza a ação ótima (dentro da Política aprendida — estratégia de comportamento).
  3. Transita para um novo estado do ambiente.
  4. Recebe uma recompensa do ambiente pela transição bem-sucedida para um novo estado.

Esta sequência é baseada nos princípios do processo de Markov. E presume que o ponto de partida é o estado atual do ambiente. Há só uma saída ideal deste estado e não depende do caminho anterior.


No entanto, eu gostaria de apresentar a você uma abordagem alternativa, que foi introduzida pela equipe da Google no artigo "Decision Transformer: Reinforcement Learning via Sequence Modeling" (02/06/2021). A principal "característica" deste trabalho é o mapeamento do aprendizado por reforço para modelagem de sequência de ações condicionada por um modelo autorregressivo da recompensa desejada.

Autor: Dmitriy Gizlyk

Razão: