Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 51): Verstärkungslernen mit SAC"

MetaQuotes 2025.04.24 08:43

Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 51): Verstärkungslernen mit SAC :

Soft Actor Critic ist ein Reinforcement Learning Algorithmus, der 3 neuronale Netze verwendet. Ein Netzwerk für den Actor und 2 Critic-Netze. Diese maschinellen Lernmodelle werden in einer Master-Slave-Partnerschaft gepaart, in der die Kritiker modelliert werden, um die Prognosegenauigkeit des Akteursnetzwerks zu verbessern. Während wir in dieser Serie auch ONNX vorstellen, untersuchen wir, wie diese Ideen als nutzerdefiniertes Signal eines von einem Assistenten zusammengestellten Expert Advisors getestet werden können.

Soft Actor Critic (SAC) ist ein weiterer Verstärkungslernalgorithmus, den wir in Betracht ziehen, nachdem wir bereits einige Algorithmen wie Proximal Policy Optimization, Deep-Q-Netze, SARSA und andere untersucht haben. Dieser Algorithmus verwendet jedoch, wie einige andere, die wir bereits untersucht haben, neuronale Netze, allerdings mit einigen wichtigen Einschränkungen. Insgesamt werden drei Netze verwendet, und zwar folgende: 2 Kritikernetze und ein Akteursnetz. Die beiden Netzwerte der Kritiker (Critic) machen Belohnungsvorhersagen (Q-Werte), wenn ihnen eine Aktion und ein Umgebungszustand eingegeben werden, und das Minimum der Ausgaben dieser beiden Netze wird zur Modulation der Verlustfunktion verwendet, die für das Training des Netzes des Akteurs (Actor) verwendet wird.

Die Eingaben für das Akteursnetz sind die Koordinaten des Umgebungszustands, die Ausgaben sind 2-fach. Einen Mittelwertvektor und einen Vektor der logarithmischen Standardabweichung. Mit Hilfe der Dichtefunktion wird aus diesen beiden Vektoren eine Wahrscheinlichkeitsverteilung für die möglichen Handlungen abgeleitet, die dem Akteur offen stehen. Während die beiden Kritikernetze auf herkömmliche Weise trainiert werden können, ist das Akteursnetz eine ganz andere Sache. Es gibt hier eine ganze Menge zu erklären, also lassen Sie uns zunächst die Grundlagen wiederholen, bevor wir weitermachen. Die beiden Kritikernetze für die Eingabe nehmen den aktuellen Zustand der Umgebung und eine Aktion. Ihr Ergebnis ist eine Schätzung des erwarteten Ertrags (Q-Wert) für die Durchführung dieser Aktion in diesem Zustand. Die Verwendung von zwei Kritikern trägt dazu bei, die Überschätzung zu reduzieren, ein häufiges Problem beim Q-Learning.

Wir bleiben bei dem bisher verwendeten Modell mit 9 Umweltzuständen und 3 möglichen Aktionen. Um die Wahrscheinlichkeitsverteilung der Aktionen zu verarbeiten, benötigen wir die Funktion „log probabilities“, deren Code zu Beginn dieses Beitrags vorgestellt wurde. Nach der Kompilierung mit dem Assistenten und der Durchführung eines Testlaufs für die verbleibenden 4 Monate des Datenfensters erhalten wir den folgenden Bericht:

Autor: Stephen Njuki

Neuer Kommentar