Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 54): Verstärkungslernen mit hybriden SAC und Tensoren"
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 54): Verstärkungslernen mit hybriden SAC und Tensoren :
Soft Actor Critic (SAC) ist einer der Algorithmen, die beim Reinforcement Learning für das Training eines neuronalen Netzes verwendet werden. Zusammenfassend lässt sich sagen, dass das Verstärkungslernen eine aufstrebende Trainingsmethode im Bereich des maschinellen Lernens ist, neben dem überwachten und dem unüberwachten Lernen.
Der „Replay Buffer“, ein Wiederholungspuffer, ist eine sehr wichtige Komponente des SAC-Off-Policy-Algorithmus im Reinforcement Learning, da er vergangene Erfahrungen mit dem Zustand, der Aktion, der Belohnung, dem nächsten Zustand und der Erledigt-Flag (um zu protokollieren, ob eine Episode abgeschlossen oder im Gange ist) für das Training in Mini-Stapeln speichert. Sein Hauptzweck besteht darin, verschiedene Erfahrungen zu dekorrelieren, sodass der Agent aus einer vielfältigeren Menge von Erfahrungen lernen kann, was die Lernstabilität und die Stichprobeneffizienz tendenziell verbessert.
Bei der Implementierung von SAC können wir die Sprache MQL5 verwenden, aber die erstellten Netze wären nicht so effizient zu trainieren wie die in Python mit Open-Source-Bibliotheken wie TensorFlow oder PyTorch erstellten. Wie wir im letzten Artikel über Reinforcement Learning gesehen haben, in dem Python zur Modellierung eines rudimentären SAC-Netzwerks verwendet wurde, fahren wir mit Python fort, aber diesmal mit dem Ziel, die Tensor-Graphen zu erforschen und zu nutzen. Es gibt prinzipiell zwei Möglichkeiten, einen Replay Buffer in Python zu implementieren. Der manuelle Ansatz oder der Tensor-basierte Ansatz.
Autor: Stephen Njuki