Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 60): Online Decision Transformer (ODT)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 60): Online Decision Transformer (ODT):

En los 2 últimos artículos nos hemos centrado en el método Decision Transformer, que modela las secuencias de acciones en el contexto de un modelo autorregresivo de recompensas deseadas. En el artículo de hoy, analizaremos otro algoritmo para optimizar este método.

El algoritmo Decision Transformer online introduce modificaciones clave en el Decision Transformer para permitir un aprendizaje online eficaz. Y el primer paso será un objetivo de aprendizaje probabilístico generalizado. En este contexto, el objetivo consistirá en entrenar una política estocástica que maximice la probabilidad de repetir una trayectoria.

Una propiedad clave de un algoritmo de RL online será su capacidad para equilibrar el compromiso entre exploración y explotación. Incluso con políticas estocásticas, la formulación del DT tradicional no tiene en cuenta el exploración. Para abordar este problema, los autores del método ODT definen la exploración a través de la entropía de la política, que depende de la distribución de los datos en la trayectoria. Esta distribución es estática durante el entrenamiento offline previo, pero dinámica durante el ajuste online, ya que depende de los nuevos datos adquiridos durante la interacción con el entorno.

Al igual que muchos algoritmos de RL de entropía máxima existentes, como Soft Actor Critic, los autores del método ODT definen explícitamente un límite inferior en la entropía de la política para fomentar la exploración.

Autor: Dmitriy Gizlyk

Razón de la queja: