Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 71): Zielkonditionierte prädiktive Kodierung (Goal-Conditioned Predictive Coding, GCPC)"

MetaQuotes 2024.06.12 13:46

Neuer Artikel Neuronale Netze leicht gemacht (Teil 71): Zielkonditionierte prädiktive Kodierung (Goal-Conditioned Predictive Coding, GCPC) :

In früheren Artikeln haben wir die Decision-Transformer-Methode und mehrere davon abgeleitete Algorithmen besprochen. Wir haben mit verschiedenen Zielsetzungsmethoden experimentiert. Während der Experimente haben wir mit verschiedenen Arten der Zielsetzung gearbeitet. Die Studie des Modells über die frühere Trajektorie blieb jedoch immer außerhalb unserer Aufmerksamkeit. In diesem Artikel. Ich möchte Ihnen eine Methode vorstellen, die diese Lücke füllt.

Simuliertes Lernen (Behavioural Cloning (BC)) ist ein vielversprechender Ansatz für die Lösung verschiedener Offline-Verstärkungslernprobleme. Anstatt den Wert von Zuständen und Aktionen zu bewerten, trainiert BC direkt die Verhaltenspolitik des Agenten, indem es Abhängigkeiten zwischen dem gesetzten Ziel, dem analysierten Umgebungszustand und der Aktion des Agenten herstellt. Dies wird durch überwachte Lernmethoden auf zuvor gesammelten Offline-Trajektorien erreicht. Die bekannte Decision-Transformer-Methode und ihre abgeleiteten Algorithmen haben die Wirksamkeit der Sequenzmodellierung für das Offline-Verstärkungslernen bewiesen.

Bei der Verwendung der oben genannten Algorithmen haben wir zuvor mit verschiedenen Optionen für die Festlegung von Zielen experimentiert, um die von uns benötigten Agentenaktionen anzuregen. Wie das Modell jedoch die zuvor durchlaufene Trajektorie lernt, blieb außerhalb unserer Aufmerksamkeit. Es stellt sich nun die Frage, ob es sinnvoll ist, die Trajektorie als Ganzes zu untersuchen. Diese Frage wurde von den Autoren des Artikels „Goal-Conditioned Predictive Coding for Offline Reinforcement Learning“ behandelt. In ihrem Artikel gehen sie mehreren Schlüsselfragen nach:

Sind Offline-Trajektorien für die Sequenzmodellierung nützlich oder liefern sie einfach mehr Daten für überwachtes Policy Learning?
Welches wäre das effektivste Lernziel für die Darstellung der Trajektorie zur Unterstützung des politischen Lernens? Sollten Sequenzmodelle so trainiert werden, dass sie historische Erfahrungen, zukünftige Dynamiken oder beides kodieren?
Da dasselbe Sequenzmodell sowohl für das Lernen der Trajektorienrepräsentation als auch für das Lernen von Strategien verwendet werden kann, sollten wir dieselben Lernziele haben oder nicht?

Autor: Dmitriy Gizlyk

Neuer Kommentar