Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel Neuronale Netze leicht gemacht (Teil 41): Hierarchische Modelle :
Der Artikel beschreibt hierarchische Trainingsmodelle, die einen effektiven Ansatz für die Lösung komplexer maschineller Lernprobleme bieten. Hierarchische Modelle bestehen aus mehreren Ebenen, von denen jede für verschiedene Aspekte der Aufgabe zuständig ist.
Der Algorithmus Scheduled Auxiliary Control (SAC-X) ist eine Methode des Reinforcement Learning, die eine hierarchische Struktur für die Entscheidungsfindung verwendet. Es stellt einen neuen Ansatz zur Lösung von Problemen mit verringerter Belohnungen (sparse rewards) dar. Sie beruht auf vier Grundprinzipien:
Der SAC-X-Algorithmus nutzt diese Prinzipien, um verringerte Belohnungsprobleme effizient zu lösen. Belohnungsvektoren ermöglichen das Lernen aus verschiedenen Aspekten einer Aufgabe und schaffen mehrere Absichten, von denen jede ihre eigene Belohnung maximiert. Der Planer verwaltet die Ausführung von Absichten, indem er die optimale Strategie zur Erreichung externer Ziele wählt. Lernen findet außerhalb der Politik statt, sodass Erfahrungen aus unterschiedlichen Intentionen für effektives Lernen genutzt werden können.
Dieser Ansatz ermöglicht es dem Agenten, verringerte Belohnungsprobleme effizient zu lösen, indem er aus externen und internen Belohnungen lernt. Die Verwendung des Planers ermöglicht die Koordinierung von Aktionen. Dazu gehört auch der Austausch von Erfahrungen zwischen den Beteiligten, was die effiziente Nutzung von Informationen fördert und die Gesamtleistung des Agenten verbessert.
SAC-X ermöglicht ein effizienteres und flexibleres Agententraining in Umgebungen mit geringer Belohnung. Ein wesentliches Merkmal von SAC-X ist die Verwendung interner Hilfsbelohnungen, die das Problem der geringen Anzahl von Belohnungen lösen und das Lernen bei Aufgaben mit geringer Belohnung erleichtern.
Im SAC-X-Lernprozess hat jede Absicht ihre eigene Strategie, die die entsprechende Zusatzbelohnung maximiert. Der Planer bestimmt, welche Vorhaben zu einem bestimmten Zeitpunkt ausgewählt und ausgeführt werden. Dies ermöglicht es dem Agenten, aus verschiedenen Aspekten einer Aufgabe zu lernen und verfügbare Informationen effektiv zu nutzen, um optimale Ergebnisse zu erzielen.
Autor: Dmitriy Gizlyk