Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 46): Goal-conditioned reinforcement learning (GCRL, zielgerichtetes Verstärkungslernen)"
Schöner Artikel.
Nigel, Sie sind nicht der Einzige.
Es wurde genug präsentiert, um die Reproduzierbarkeit zu verhindern, es sei denn, man verbringt ziemlich viel Zeit damit, den Code zu debuggen oder seine richtige Verwendung zu entdecken.
Zum Beispiel:
"Nachdem wir die Arbeit an dem EA für die Sammlung der Beispieldatenbank "GCRL\Research.mq5" abgeschlossen haben, starten wir ihn im langsamen Optimierungsmodus des Strategietesters"
Die einfache Frage ist eigentlich, welche Parameter optimiert werden sollen?
Die einfache Frage ist eigentlich, welche Parameter sollen optimiert werden?
Alle Parameter sind voreingestellt. Sie müssen nur die Agentennummer für die Optimierung festlegen. Damit wird die Anzahl der Iterationen des Testers festgelegt.
Alle Parameter sind voreingestellt. Sie müssen nur die Agentennummer für die Optimierung einstellen. Damit wird die Anzahl der Testwiederholungen festgelegt.
Hallo Dmitrij,
irgendetwas muss mit deiner Bibliothek falsch sein. In mehreren Tests habe ich die gleichen Ergebnisse erhalten, mit den gleichen Nachteilen.
Die Teststrategie generiert zwei zeitlich getrennte Reihen von Aufträgen. Zuerst Kaufaufträge, dann Verkaufsaufträge.
Die Verkaufsaufträge werden nie geschlossen, außer in dem Moment, in dem der Testzeitraum vorbei ist.
Das gleiche Verhalten ist beim Testen Ihrer anderen Strategien zu beobachten, also muss der Fehler in einer Klasse liegen, die allen Ihren Strategien gemeinsam ist.
Ein weiterer möglicher Grund ist eine gewisse Anfälligkeit für den Anfangszustand der Tests.
Im Anhang finden Sie einen Bericht über meinen Test.
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Neuer Artikel Neuronale Netze leicht gemacht (Teil 46): Goal-conditioned reinforcement learning (GCRL, zielgerichtetes Verstärkungslernen) :
In diesem Artikel werfen wir einen Blick auf einen weiteren Ansatz des Reinforcement Learning. Es wird als Goal-conditioned reinforcement learning (GCRL, zielgerichtetes Verstärkungslernen) bezeichnet. Bei diesem Ansatz wird ein Agent darauf trainiert,
verschiedene Ziele in bestimmten Szenarien zu erreichen.
In dieser Arbeit haben wir beschlossen, auf ein separates Training des Variations-Autokodierers zu verzichten und den Kodierer direkt in das Agentenmodell zu integrieren. Es sei darauf hingewiesen, dass dieser Ansatz in gewisser Weise gegen die Grundsätze des Trainings eines Auto-Encoders verstößt. Der Hauptgedanke bei der Verwendung eines Auto-Encoders ist ja die Datenkompression ohne Bezug auf eine bestimmte Aufgabe. Aber jetzt stehen wir nicht mehr vor der Aufgabe, einen Encoder zu trainieren, um mehrere Probleme mit denselben Quelldaten zu lösen.
Außerdem liefern wir nur den aktuellen Zustand der Umgebung an den Encoder-Eingang. In unserem Fall handelt es sich um historische Daten über die Kursentwicklung des Instruments und die Parameter der analysierten Indikatoren. Mit anderen Worten: Wir schließen Informationen über den Kontostatus aus. Wir gehen davon aus, dass der Planer (in diesem Fall der Encoder) die zu verwendende Fähigkeit auf der Grundlage historischer Daten bildet. Dies kann eine Politik der Arbeit in einem steigenden, fallenden oder stagnierenden Markt sein.
Auf der Grundlage der Informationen über den Kontostatus erstellen wir eine Teilaufgabe für den Agenten, um nach einem Ein- oder Austrittspunkt zu suchen.
Zu den positiven Aspekten der GCRL-Methode gehört die Verkürzung der Zeit, die benötigt wird, um eine Position zu halten. Während des Tests betrug die maximale Haltezeit der Position 21 Stunden und 15 Minuten. Die durchschnittliche Verweildauer in einer Position beträgt 5 Stunden und 49 Minuten. Wie Sie sich vielleicht erinnern, haben wir eine Strafe in Höhe von 1/10 des kumulierten Gewinns für jede Stunde des Haltens festgelegt, wenn die Aufgabe, eine Position zu schließen, nicht erfüllt wird. Mit anderen Worten: Nach 10 Stunden des Haltens überstieg die Strafe die Einnahmen aus der Position.
Autor: Dmitriy Gizlyk