Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC) :

Hier werde ich den relativ neuen Algorithmus Stochastic Marginal Actor-Critic (SMAC) vorstellen, der es ermöglicht, Strategien mit latenten Variablen im Rahmen der Entropiemaximierung zu entwickeln.

Beim Aufbau eines automatisierten Handelssystems entwickeln wir Algorithmen für die sequentielle Entscheidungsfindung. Die Methoden des Verstärkungslernens sind genau auf die Lösung solcher Probleme ausgerichtet. Eines der Hauptprobleme beim Verstärkungslernen ist der Erkundungsprozess, wenn der Agent lernt, mit seiner Umgebung zu interagieren. In diesem Zusammenhang wird häufig das Prinzip der maximalen Entropie angewandt, das den Agenten dazu motiviert, Handlungen mit dem größtmöglichen Grad an Zufälligkeit auszuführen. In der Praxis trainieren solche Algorithmen jedoch einfache Agenten, die nur lokale Veränderungen um eine einzelne Aktion herum lernen. Der Grund dafür ist die Notwendigkeit, die Entropie der Agentenpolitik zu berechnen und sie als Teil des Trainingsziels zu verwenden.

Gleichzeitig besteht ein relativ einfacher Ansatz zur Erhöhung der Aussagekraft der Politik eines Akteurs (Actor) in der Verwendung latenter Variablen, die dem Akteur ein eigenes Inferenzverfahren zur Modellierung der Stochastizität von Beobachtungen, der Umgebung und unbekannter Belohnungen zur Verfügung stellen.

Durch die Einführung latenter Variablen in die Politik des Agenten können vielfältigere Szenarien abgedeckt werden, die mit historischen Beobachtungen vereinbar sind. Hier ist anzumerken, dass Politiken mit latenten Variablen keinen einfachen Ausdruck zur Bestimmung ihrer Entropie zulassen. Eine naive Entropieschätzung kann bei der Optimierung von Richtlinien zu katastrophalen Fehlern führen. Außerdem unterscheiden stochastische Aktualisierungen mit hoher Varianz zur Entropiemaximierung nicht ohne weiteres zwischen lokalen Zufallseffekten und multimodaler Exploration.

Eine der Möglichkeiten zur Behebung dieser Unzulänglichkeiten der Politik für latente Variablen wurde in dem Artikel „Latent State Marginalization as a Low-cost Approach for Improving Exploration“ (Latente Zustands-Marginalization als kosteneffizienter Ansatz zur Verbesserung der Erkundung). Die Autoren schlagen einen einfachen, aber effektiven Algorithmus zur Optimierung von Richtlinien vor, der eine effizientere und robustere Erkundung sowohl in vollständig beobachtbaren als auch in teilweise beobachtbaren Umgebungen ermöglicht.

Autor: Dmitriy Gizlyk

Grund der Beschwerde: