Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 61): Optimismusproblem beim Offline-Verstärkungslernen"

Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel Neuronale Netze leicht gemacht (Teil 61): Optimismusproblem beim Offline-Verstärkungslernen :
Während des Offline-Lernens optimieren wir die Strategie des Agenten auf der Grundlage der Trainingsdaten. Die daraus resultierende Strategie gibt dem Agenten Vertrauen in sein Handeln. Ein solcher Optimismus ist jedoch nicht immer gerechtfertigt und kann zu erhöhten Risiken während des Modellbetriebs führen. Heute werden wir uns mit einer der Methoden zur Verringerung dieser Risiken befassen.
In jüngster Zeit sind Methoden des Offline-Verstärkungslernens weit verbreitet, was viele Perspektiven für die Lösung von Problemen unterschiedlicher Komplexität verspricht. Eines der Hauptprobleme, mit denen die Forscher konfrontiert sind, ist jedoch der Optimismus, der beim Lernen entstehen kann. Der Agent optimiert seine Strategie auf der Grundlage der Daten aus dem Trainingssatz und gewinnt Vertrauen in seine Handlungen. Allerdings ist die Trainingsmenge oft nicht in der Lage, die gesamte Vielfalt der möglichen Zustände und Übergänge der Umgebung abzudecken. In einem stochastischen Umfeld erweist sich dieses Vertrauen als nicht ganz gerechtfertigt. In solchen Fällen kann die optimistische Strategie des Agenten zu erhöhten Risiken und unerwünschten Folgen führen.
Auf der Suche nach einer Lösung für dieses Problem lohnt es sich, der Forschung im Bereich des autonomen Fahrens Aufmerksamkeit zu schenken. Es liegt auf der Hand, dass die Algorithmen in diesem Bereich darauf abzielen, Risiken zu verringern (Erhöhung der Nutzersicherheit) und die Online-Schulung zu minimieren. Eine solche Methode ist SeParated Latent Trajectory Transformer (SPLT-Transformer), die in dem Artikel „Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning“ (Juli 2022) vorgestellt wurde.
Autor: Dmitriy Gizlyk