Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 47): Verstärkungslernen mit Temporaler Differenz"
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 47): Verstärkungslernen mit Temporaler Differenz :
Die Einführung in das temporale Differenzlernen (TD) beim Reinforcement Learning dient als Einstieg, um zu verstehen, wie sich TD von anderen Algorithmen wie Monte Carlo, Q-Learning und SARSA unterscheidet. Dieser Artikel soll die Komplexität des TD-Lernens entschlüsseln, indem er dessen einzigartige Fähigkeit hervorhebt, Wertschätzungen auf der Grundlage von Teilinformationen aus Episoden schrittweise zu aktualisieren, anstatt wie bei Monte-Carlo-Methoden auf den Abschluss von Episoden zu warten. Diese Unterscheidung macht das TD-Lernen zu einem leistungsstarken Instrument, insbesondere in dynamischen Umgebungen, die eine rasche Aktualisierung der Lernstrategie erfordern.
Im letzten Artikel über Reinforcement-Learning haben wir uns den Monte-Carlo-Algorithmus angesehen, der Informationen über die Belohnung über mehrere Zyklen hinweg sammelt, bevor er eine einzige Aktualisierung für jede Episode durchführt. Beim Temporal Difference Learning (TD) geht es jedoch darum, aus partiellen und unvollständigen Episoden zu lernen, ähnlich wie bei den Algorithmen von Q-Learning und SARSA, die wir bereits hier und hier behandelt haben.
Autor: Stephen Njuki