Diskussion zum Artikel "MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 58): Reinforcement Learning (DDPG) mit gleitendem Durchschnitt und stochastischen Oszillatormustern"

 

Neuer Artikel MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 58): Reinforcement Learning (DDPG) mit gleitendem Durchschnitt und stochastischen Oszillatormustern :

Der gleitende Durchschnitt und der Stochastik-Oszillator sind sehr gebräuchliche Indikatoren, deren kollektive Muster wir im vorangegangenen Artikel mittels eines überwachten Lernnetzwerks untersucht haben, um zu sehen, welche „Muster haften bleiben“ würden. Wir gehen mit unseren Analysen aus diesem Artikel noch einen Schritt weiter, indem wir die Auswirkungen des Reinforcement Learnings auf die Leistung untersuchen, wenn es mit diesem trainierten Netz eingesetzt wird. Die Leser sollten beachten, dass sich unsere Tests auf ein sehr begrenztes Zeitfenster beziehen. Nichtsdestotrotz nutzen wir weiterhin die minimalen Programmieranforderungen, die der MQL5-Assistent bietet, um dies zu zeigen.

In unserem letzten Artikel haben wir 10 Signalmuster aus unseren 2 Indikatoren (MA & Stochastik Oszillator) getestet.  Sieben waren in der Lage, auf der Grundlage eines 1-Jahres-Testfensters einen Vorwärtstest zu machen. Von diesen haben jedoch nur 2 sowohl Kauf- als auch Verkaufs-Handelsgeschäfte getätigt. Das lag an unserem kleinen Testfenster, weshalb wir den Lesern dringend empfehlen, das Programm mit mehr Daten zu testen, bevor sie es weiter verwenden. 

Wir verfolgen hier die These, dass die drei Hauptarten des maschinellen Lernens zusammen verwendet werden können, jede in ihrer eigenen „Phase“. Diese Modi sind, um es kurz zu machen, überwachtes Lernen (SL), Verstärkungslernen (RL) und Inferenzlernen (IL). Wir haben uns im letzten Artikel mit SL beschäftigt, wo kombinierte Muster des gleitenden Durchschnitts und des stochastischen Oszillators zu einem binären Merkmalsvektor normalisiert wurden. Diese Daten wurden dann in ein einfaches neuronales Netz eingespeist, das wir für das Paar EUR/USD für das Jahr 2023 trainierten und anschließend Vorwärtstests für das Jahr 2024 durchführten. 

Da unser Ansatz auf der These basiert, dass RL zum Trainieren von Modellen im laufenden Betrieb verwendet werden kann, wollen wir dies in diesem Artikel anhand unserer früheren Ergebnisse und des Netzwerks von SL demonstrieren. RL, so unsere These, ist eine Form der Rückvermehrung im Einsatz, die unsere Kauf-Verkaufs-Entscheidungen sorgfältig abstimmt, sodass sie nicht allein auf prognostizierten Preisänderungen beruhen, wie es im SL-Modell der Fall war. 

Bei dieser „Feinabstimmung“ werden, wie wir in früheren RL-Artikeln gesehen haben, Erkundung und Ausbeutung miteinander verbunden. Auf diese Weise würde unser Politiknetzwerk durch Training in einer realen Marktumgebung bestimmen, welche Zustände zu Kauf- oder Verkaufsaktionen führen sollten. Es kann vorkommen, dass ein Aufwärtstrend nicht unbedingt eine Kaufgelegenheit bedeutet und umgekehrt. Das bedeutet, dass unser RL-Modell als zusätzlicher Filter für die vom SL-Modell getroffenen Entscheidungen fungiert. Die Zustände aus unserem SL-Modell verwendeten eindimensionale kontinuierliche Werte, und dies wird dem Aktionsraum, den wir verwenden werden, sehr ähnlich sein.


Autor: Stephen Njuki