Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 43): Reinforcement Learning mit SARSA"

 

Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 43): Reinforcement Learning mit SARSA :

SARSA, eine Abkürzung für State-Action-Reward-State-Action, ist ein weiterer Algorithmus, der bei der Implementierung von Reinforcement Learning verwendet werden kann. Wie bei Q-Learning und DQN haben wir also untersucht, wie dies als unabhängiges Modell und nicht nur als Trainingsmechanismus in assistentengestützten Expert Advisors implementiert werden kann.

Bestärkendes Lernen (Reinforcement Learning, RL) ermöglicht es Handelssystemen, von ihrer Umgebung oder von Marktdaten zu lernen und so ihre Fähigkeit zum Handel im Laufe der Zeit zu verbessern. RL ermöglicht die Anpassung an sich ändernde Marktbedingungen und ist daher für bestimmte dynamische Finanzmärkte und Wertpapiere geeignet. Die Finanzmärkte sind unberechenbar, da sie oft mit einem hohen Maß an Unsicherheit behaftet sind. RL zeichnet sich dadurch aus, dass es Entscheidungen unter Unsicherheit trifft, indem es seine Handlungen kontinuierlich auf der Grundlage der erhaltenen Rückmeldungen (Belohnungen) anpasst, was für Händler sehr hilfreich ist, wenn sie mit volatilen Marktbedingungen umgehen müssen.

Ein paralleler Vergleich hierzu könnte ein Expert Advisor sein, der auf ein Chart gestartet worden ist und sich ebenfalls regelmäßig anhand der jüngsten Kursentwicklung selbst optimiert, um seine Parameter fein abzustimmen. RL zielt darauf ab, dasselbe zu tun, aber mit weniger Fanfare. In dem Teil dieser Serie, der sich mit RL befasst hat, haben wir es im Sinne seiner strengen Definition als dritten Ansatz für das Training beim maschinellen Lernen (neben überwachtem und unüberwachtem Lernen) verwendet. Wir haben es noch nicht als unabhängiges Modell betrachtet, das für Prognosen verwendet werden kann.

Das ändert sich in diesem Artikel. Wir führen nicht nur einen anderen RL-Algorithmus ein, SARSA, sondern versuchen, diesen innerhalb einer anderen nutzerdefinierten Signalklasse der von Wizard zusammengestellten Expert Advisors als unabhängiges Signalmodell zu implementieren. Als Signalmodell eingesetzt, automatisiert RL den Entscheidungsfindungsprozess und reduziert die Notwendigkeit ständiger menschlicher Eingriffe, was wiederum (zumindest theoretisch) den Hochfrequenzhandel und die Reaktion auf Marktbewegungen in Echtzeit ermöglichen könnte. Durch die ständige Rückkopplung mit dem Belohnungsmechanismus lernen RL-Modelle außerdem, Risiken besser zu steuern. Dies wird dadurch erreicht, dass risikoreiche Handlungen mit geringen Belohnungen bestraft werden, was im Endeffekt dazu führt, dass RL die Exposition gegenüber volatilen oder verlustreichen Geschäften minimiert.

Testläufe auf dem täglichen Zeitrahmen für EUR JPY für das Jahr 2022, die ausschließlich der Demonstration der Nutzbarkeit des Expert Advisors dienen, liefern uns folgende Ergebnisse:

r1


c1

Autor: Stephen Njuki