Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 54): Verstärkungslernen mit hybriden SAC und Tensoren"

 

Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 54): Verstärkungslernen mit hybriden SAC und Tensoren :

Soft Actor Critic ist ein Reinforcement Learning-Algorithmus, den wir bereits in einem früheren Artikel vorgestellt haben, in dem wir auch Python und ONNX als effiziente Ansätze für das Training von Netzwerken vorgestellt haben. Wir überarbeiten den Algorithmus mit dem Ziel, Tensoren, Berechnungsgraphen, die häufig in Python verwendet werden, zu nutzen.

Soft Actor Critic (SAC) ist einer der Algorithmen, die beim Reinforcement Learning für das Training eines neuronalen Netzes verwendet werden. Zusammenfassend lässt sich sagen, dass das Verstärkungslernen eine aufstrebende Trainingsmethode im Bereich des maschinellen Lernens ist, neben dem überwachten und dem unüberwachten Lernen.

Der „Replay Buffer“, ein Wiederholungspuffer, ist eine sehr wichtige Komponente des SAC-Off-Policy-Algorithmus im Reinforcement Learning, da er vergangene Erfahrungen mit dem Zustand, der Aktion, der Belohnung, dem nächsten Zustand und der Erledigt-Flag (um zu protokollieren, ob eine Episode abgeschlossen oder im Gange ist) für das Training in Mini-Stapeln speichert. Sein Hauptzweck besteht darin, verschiedene Erfahrungen zu dekorrelieren, sodass der Agent aus einer vielfältigeren Menge von Erfahrungen lernen kann, was die Lernstabilität und die Stichprobeneffizienz tendenziell verbessert.

Bei der Implementierung von SAC können wir die Sprache MQL5 verwenden, aber die erstellten Netze wären nicht so effizient zu trainieren wie die in Python mit Open-Source-Bibliotheken wie TensorFlow oder PyTorch erstellten. Wie wir im letzten Artikel über Reinforcement Learning gesehen haben, in dem Python zur Modellierung eines rudimentären SAC-Netzwerks verwendet wurde, fahren wir mit Python fort, aber diesmal mit dem Ziel, die Tensor-Graphen zu erforschen und zu nutzen. Es gibt prinzipiell zwei Möglichkeiten, einen Replay Buffer in Python zu implementieren. Der manuelle Ansatz oder der Tensor-basierte Ansatz. 


Autor: Stephen Njuki