Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 60): Online Decision Transformer (ODT)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 60): Online Decision Transformer (ODT) :

Die letzten beiden Artikel waren der Decision-Transformer-Methode gewidmet, die Handlungssequenzen im Rahmen eines autoregressiven Modells der gewünschten Belohnungen modelliert. In diesem Artikel werden wir uns einen weiteren Optimierungsalgorithmus für diese Methode ansehen.

Der Online-Entscheidungstransformator-Algorithmus führt wichtige Änderungen am Entscheidungstransformator ein, um ein effektives Online-Training zu gewährleisten. Der erste Schritt ist ein verallgemeinertes, probabilistisches Trainingsziel. In diesem Zusammenhang besteht das Ziel darin, eine stochastische Strategie zu trainieren, die die Wahrscheinlichkeit der Wiederholung einer Trajektorie maximiert.

Die wichtigste Eigenschaft eines Online-RL-Algorithmus ist seine Fähigkeit, ein Gleichgewicht zwischen Erkundung und Ausbeutung herzustellen. Selbst bei stochastischen Strategien berücksichtigt die traditionelle DT-Formulierung die Exploration nicht. Um dieses Problem zu lösen, definieren die Autoren der ODT-Methode die Studie über die Entropie der Politik, die von der Verteilung der Daten in der Trajektorie abhängt. Diese Verteilung ist während des Offline-Pre-Trainings statisch, während der Online-Einrichtung jedoch dynamisch, da sie von neuen Daten abhängt, die während der Interaktion mit der Umgebung gewonnen werden.

Ähnlich wie bei vielen existierenden RL-Algorithmen mit maximaler Entropie, wie z.B. Soft Actor Critic, definieren die Autoren der ODT-Methode explizit eine untere Grenze für die Entropie der Politik, um die Exploration zu fördern.

Autor: Dmitriy Gizlyk