Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 47): Verstärkungslernen mit Temporaler Differenz"

 

Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 47): Verstärkungslernen mit Temporaler Differenz :

Temporal Difference ist ein weiterer Algorithmus des Reinforcement Learning, der Q-Werte auf der Grundlage der Differenz zwischen vorhergesagten und tatsächlichen Belohnungen während des Agententrainings aktualisiert. Sie befasst sich speziell mit der Aktualisierung von Q-Werten, ohne sich um die Verknüpfung von Zustand und Aktion zu kümmern. Daher wollen wir sehen, wie wir dies, wie in früheren Artikeln, in einem mit einem Assistenten zusammengestellten Expert Advisor anwenden können.

Die Einführung in das temporale Differenzlernen (TD) beim Reinforcement Learning dient als Einstieg, um zu verstehen, wie sich TD von anderen Algorithmen wie Monte Carlo, Q-Learning und SARSA unterscheidet. Dieser Artikel soll die Komplexität des TD-Lernens entschlüsseln, indem er dessen einzigartige Fähigkeit hervorhebt, Wertschätzungen auf der Grundlage von Teilinformationen aus Episoden schrittweise zu aktualisieren, anstatt wie bei Monte-Carlo-Methoden auf den Abschluss von Episoden zu warten. Diese Unterscheidung macht das TD-Lernen zu einem leistungsstarken Instrument, insbesondere in dynamischen Umgebungen, die eine rasche Aktualisierung der Lernstrategie erfordern.

Im letzten Artikel über Reinforcement-Learning haben wir uns den Monte-Carlo-Algorithmus angesehen, der Informationen über die Belohnung über mehrere Zyklen hinweg sammelt, bevor er eine einzige Aktualisierung für jede Episode durchführt. Beim Temporal Difference Learning (TD) geht es jedoch darum, aus partiellen und unvollständigen Episoden zu lernen, ähnlich wie bei den Algorithmen von Q-Learning und SARSA, die wir bereits hier und hier behandelt haben.


Autor: Stephen Njuki