Diskussion zum Artikel "MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 49): Verstärkungslernen mit Optimierung der proximalen Politik"
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 49): Verstärkungslernen mit Optimierung der proximalen Politik :
Wir setzen unsere Serie über den MQL5-Assistenten fort, in der wir in letzter Zeit abwechselnd einfache Muster aus gängigen Indikatoren und Algorithmen des Reinforcement Learning verwenden. Nachdem wir uns im letzten Artikel mit Indikatormustern (Bill Williams' Alligator) beschäftigt haben, kehren wir nun zum Reinforcement Learning zurück, wobei wir uns diesmal mit dem Algorithmus „Proximal Policy Optimization“ (PPO) beschäftigen. Es wird berichtet, dass dieser Algorithmus, der vor 7 Jahren zum ersten Mal veröffentlicht wurde, der bevorzugte Verstärkungs-Lern-Algorithmus für ChatGPT ist. Es gibt also einen gewissen Hype um diesen Ansatz des Reinforcement Learning. Der PPO-Algorithmus zielt darauf ab, die Politik (die Funktion, die die Handlungen des Akteurs definiert) so zu optimieren, dass die Gesamtleistung verbessert wird, indem drastische Änderungen verhindert werden, die den Lernprozess instabil machen könnten.
Er tut dies nicht unabhängig, sondern arbeitet mit anderen Algorithmen des verstärkten Lernens zusammen, von denen wir einige in dieser Serie betrachtet haben und die im Großen und Ganzen in zwei Kategorien fallen. Richtlinienbasierte Algorithmen und wertbasierte Algorithmen. Wir haben uns in dieser Reihe bereits Beispiele für jede dieser Methoden angesehen, und um es noch einmal zusammenzufassen, die richtlinienbasierten Algorithmen, die wir gesehen haben, waren Q-Learning und SARSA. Wir haben nur eine wertbezogene Methode in Betracht gezogen, und zwar die zeitliche Differenz. Worum geht es also bei PPO?
Wie bereits angedeutet, besteht das „Problem“, das PPO löst, darin, zu verhindern, dass sich die Politik bzw. Handelsstrategie bei Aktualisierungen zu sehr verändert. Dahinter steht die These, dass der Agent, wenn er nicht eingreift, um die Häufigkeit und den Umfang der Aktualisierungen zu steuern, möglicherweise vergisst, was er gelernt hat, unberechenbare Entscheidungen trifft oder in der Umgebung schlechtere Leistungen erbringt. PPO stellt somit sicher, dass die Aktualisierungen klein, aber sinnvoll sind. Beim PPO geht man von einer Police aus, die mit ihren Parametern vordefiniert ist. Politiken sind einfach Funktionen, die die Handlungen der Akteure auf der Grundlage von Belohnungen und Umweltzuständen festlegen.
Autor: Stephen Njuki