Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 58): Transformador de decisión (Decision Transformer-DT)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 58): Transformador de decisión (Decision Transformer-DT):

Continuamos nuestro análisis de los métodos de aprendizaje por refuerzo. Y en el presente artículo, presentaremos un algoritmo ligeramente distinto que considera la política del Agente en un paradigma de construcción de secuencias de acciones.

En esta serie de artículos, ya hemos abarcado una gama bastante amplia de diferentes algoritmos de aprendizaje por refuerzo. Y todos ellos explotan el planteamiento básico:

  1. El agente analizará el estado actual del entorno.
  2. Realizará la acción óptima (dentro de la Política aprendida - estrategia de comportamiento).
  3. Pasará a un nuevo estado del entorno.
  4. Obtendrá una recompensa del entorno por una transición perfecta a un nuevo estado.

Esta secuencia se basará en los principios del proceso de Markov. Y se asumirá que el punto de partida es el estado actual del entorno. Solo hay un camino óptimo para salir de un estado dado y no dependerá del camino anterior.

Quiero presentarles un enfoque alternativo presentado por el equipo de Google en el artículo "Decision Transformer: Reinforcement Learning via Sequence Modeling" (2.06.2021) El principal "plato fuerte" de este trabajo consiste en la proyección de una tarea de aprendizaje por refuerzo en el modelado de una secuencia condicional de acciones condicionadas a un modelo autorregresivo de recompensa deseada.

Autor: Dmitriy Gizlyk

Razón de la queja: