Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 41): Hierarchische Modelle"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 41): Hierarchische Modelle :

Der Artikel beschreibt hierarchische Trainingsmodelle, die einen effektiven Ansatz für die Lösung komplexer maschineller Lernprobleme bieten. Hierarchische Modelle bestehen aus mehreren Ebenen, von denen jede für verschiedene Aspekte der Aufgabe zuständig ist.

Der Algorithmus Scheduled Auxiliary Control (SAC-X) ist eine Methode des Reinforcement Learning, die eine hierarchische Struktur für die Entscheidungsfindung verwendet. Es stellt einen neuen Ansatz zur Lösung von Problemen mit verringerter Belohnungen (sparse rewards) dar. Sie beruht auf vier Grundprinzipien:

  1. Jedes Zustands-Aktionspaar wird von einem Belohnungsvektor begleitet, der aus (in der Regel spärlichen) externen Belohnungen und (in der Regel spärlichen) internen Hilfsbelohnungen besteht.
  2. Jedem Belohnungseintrag wird eine Strategie, ein sogenannter Intent, zugewiesen, der lernt, die entsprechende kumulierte Belohnung zu maximieren.
  3. Es gibt einen High-Level-Scheduler, der einzelne Absichten auswählt und ausführt, um die Leistung des externen Aufgabenagenten zu verbessern.
  4. Das Lernen findet außerhalb der Politik statt (asynchron zur Ausführung der Politik), und die Erfahrungen werden zwischen den Absichten ausgetauscht — für eine effektive Nutzung der Informationen.

Der SAC-X-Algorithmus nutzt diese Prinzipien, um verringerte Belohnungsprobleme effizient zu lösen. Belohnungsvektoren ermöglichen das Lernen aus verschiedenen Aspekten einer Aufgabe und schaffen mehrere Absichten, von denen jede ihre eigene Belohnung maximiert. Der Planer verwaltet die Ausführung von Absichten, indem er die optimale Strategie zur Erreichung externer Ziele wählt. Lernen findet außerhalb der Politik statt, sodass Erfahrungen aus unterschiedlichen Intentionen für effektives Lernen genutzt werden können.

Dieser Ansatz ermöglicht es dem Agenten, verringerte Belohnungsprobleme effizient zu lösen, indem er aus externen und internen Belohnungen lernt. Die Verwendung des Planers ermöglicht die Koordinierung von Aktionen. Dazu gehört auch der Austausch von Erfahrungen zwischen den Beteiligten, was die effiziente Nutzung von Informationen fördert und die Gesamtleistung des Agenten verbessert.


SAC-X ermöglicht ein effizienteres und flexibleres Agententraining in Umgebungen mit geringer Belohnung. Ein wesentliches Merkmal von SAC-X ist die Verwendung interner Hilfsbelohnungen, die das Problem der geringen Anzahl von Belohnungen lösen und das Lernen bei Aufgaben mit geringer Belohnung erleichtern.

Im SAC-X-Lernprozess hat jede Absicht ihre eigene Strategie, die die entsprechende Zusatzbelohnung maximiert. Der Planer bestimmt, welche Vorhaben zu einem bestimmten Zeitpunkt ausgewählt und ausgeführt werden. Dies ermöglicht es dem Agenten, aus verschiedenen Aspekten einer Aufgabe zu lernen und verfügbare Informationen effektiv zu nutzen, um optimale Ergebnisse zu erzielen.

Autor: Dmitriy Gizlyk

 

Der Berater eröffnete einen Kauf und fügte bei jeder Kerze etwas hinzu. Ich habe das schon einmal irgendwo gesehen.

Hat Actor einen negativen Fehler oder ist es nur ein Bindestrich?

 
Lieber Dmitriy Gizlyk. Sie haben uns einmal versprochen, Fractal_LSTM in Multithreading zu übersetzen. Wären Sie so freundlich, die Zeit dafür zu finden? Auf dieser Ebene verstehe ich noch etwas, aber darüber hinaus bin ich ein kompletter Versager. Und rein mechanisch wird es in diesem Fall wohl auch nicht gelingen. Ich denke, viele der hier Anwesenden werden Ihnen dankbar sein. Schließlich ist dies kein Forum für Programmierer.
 
star-ik #:
Lieber Dmitriy Gizlyk. Sie haben uns einmal versprochen, Fractal_LSTM in Multithreading zu übersetzen. Wären Sie so freundlich, die Zeit dafür zu finden? Auf dieser Ebene verstehe ich noch etwas, aber darüber hinaus bin ich ein kompletter Versager. Und rein mechanisch wird es in diesem Fall wohl auch nicht gelingen. Ich denke, viele der hier Anwesenden werden Ihnen dankbar sein. Dies ist überhaupt kein Forum für Programmierer.

LSTM-Schicht in OpenCL-Implementierung ist in dem Artikel"Neuronale Netze - es ist einfach (Teil 22) beschrieben:Lernen ohne Lehrer von rekurrenten Modellen"

Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
Нейросети — это просто (Часть 22): Обучение без учителя рекуррентных моделей
  • www.mql5.com
Мы продолжаем рассмотрение алгоритмов обучения без учителя. И сейчас я предлагаю обсудить особенности использования автоэнкодеров для обучения рекуррентных моделей.
 
Dmitriy Gizlyk #:

Die LSTM-Schicht in der OpenCL-Implementierung wird in dem Artikel"Neuronale Netze sind einfach (Teil 22)" beschrieben:Lernen ohne einen Lehrer für rekurrente Modelle"

Dies ist einer der EAs, die ich nicht geschafft habe, den Handel zu machen. Deshalb würde ich gerne Multithreading speziell in dem EA aus Teil 4 (Training mit einem Lehrer) sehen. Oder diese (22), aber mit einigen Handelsfunktion.