Diskussion zum Artikel "MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 45): Reinforcement Learning mit Monte-Carlo"

 

Neuer Artikel MQL5-Assistenten-Techniken, die Sie kennen sollten (Teil 45): Reinforcement Learning mit Monte-Carlo :

Monte-Carlo ist der vierte, alternative Algorithmus des Reinforcement Learning, den wir mit dem Ziel betrachten, seine Implementierung in assistentengestützte Expert Advisors zu untersuchen. Obwohl sie auf Zufallsstichproben beruht, bietet sie umfangreiche Simulationsmöglichkeiten, die wir ausnutzen können.

Mit dem Monte-Carlo-Algorithmus werden die Q-Werte erst nach Abschluss einer Episode aktualisiert. Eine Episode ist ein Stapel von Zyklen. Für diesen Artikel haben wir dieser Anzahl von Zyklen den Eingangsparameter „m_episodes_size“ zugewiesen und er ist optimierbar oder einstellbar. Der Methode Monte Carlo wird nachgesagt, dass sie sehr robust gegenüber Marktschwankungen ist, da sie ein breites Spektrum möglicher Marktszenarien besser simulieren kann, sodass die Händler feststellen können, wie verschiedene Strategien unter verschiedenen Bedingungen abschneiden. Diese Variabilität hilft den Händlern, potenzielle Kompromisse, Risiken und Renditen zu verstehen, sodass sie fundiertere Entscheidungen treffen können.

Dieser Vorteil, so wird argumentiert, ergibt sich aus der „langfristigen Leistungseinsicht", die im Gegensatz zu traditionellen Methoden steht, die sich eher auf kurzfristige Ergebnisse konzentrieren. Damit ist gemeint, dass die seltenen Aktualisierungen, die Monte-Carlo-Simulationen durchführen, da sie nur einmal in einer Episode stattfinden, dem Marktrauschen entgehen, dem Q-Learning und SARSA zwangsläufig ausgesetzt sind, da sie ihre Aktualisierungen häufiger durchführen. Die Beurteilung der langfristigen Leistung von Handelsstrategien durch die Bewertung der kumulierten Gewinne im Laufe der Zeit ist daher das Ziel von Monte Carlo. Durch die Analyse mehrerer solcher Episoden können Händler Erkenntnisse über die Gesamtrentabilität und Nachhaltigkeit ihrer Strategien gewinnen.

Der Monte-Carlo-Algorithmus berechnet Aktionswert-Schätzungen auf der Grundlage der durchschnittlichen Renditen von Zustands-Aktions-Paaren über mehrere Zyklen innerhalb einer einzigen Episode. Auf diese Weise können die Händler besser einschätzen, welche Aktionen (z. B. Kauf oder Verkauf) auf der Grundlage der historischen Performance am ehesten zu günstigen Ergebnissen führen. Diese Aktualisierung der Q-Werte ergibt sich daraus, dass die Belohnungskomponente dieser Q-Werte wie folgt bestimmt wird:

wobei: 

  • R t+1 , R t+2 ,...,R T sind die Belohnungen (rewards), die in jedem Schritt nach dem Zeitpunkt t erhalten werden.
  • γ /gamma ist der Abschlagsfaktor (0 ≤ γ ≤ 1), der festlegt, um wie viel zukünftige Belohnungen reduziert werden (d. h. weniger wert sind als unmittelbare Belohnungen).
  • T steht für den Zeitschritt, an dem die Episode endet (Endzustand oder Episodengröße in Zyklen).


Autor: Stephen Njuki