Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC)"
Dmitry, ich danke dir für deine harte Arbeit. Alles funktioniert.
Ich sammle Beispiele mit Expert Advisor Research für 100 Durchläufe, trainiere das Modell mit Expert Advisor Study und teste mit Test. Dann sammle ich wieder 50 Durchläufe, trainiere für 10 000 Iterationen und teste erneut.
Und so weiter, bis das Modell lernt. Nur habe ich bisher Test gibt ständig unterschiedliche Ergebnisse nach dem Zyklus und nicht immer positiv. Ich habe einen Zyklus laufen lassen, 2-3 Tests und die Ergebnisse sind unterschiedlich.
Ab welchem Zyklus wird das Ergebnis stabil? Oder ist es eine endlose Arbeit und das Ergebnis wird immer anders sein?
Ich danke Ihnen!
Und so weiter, bis das Modell lernt. Nur habe ich bisher Test gibt ständig unterschiedliche Ergebnisse nach dem Zyklus und nicht immer positiv. Das heißt, ich mache einen Zyklus, 2-3 Tests und die Ergebnisse sind unterschiedlich.
Bei welchem Zyklus wird das Ergebnis stabil werden? Oder ist es eine endlose Arbeit und das Ergebnis wird immer anders sein?
Ich danke Ihnen!
Der Expert Advisor trainiert ein Modell mit einer stochastischen Strategie. Das bedeutet, dass das Modell Wahrscheinlichkeiten für die Maximierung von Belohnungen für bestimmte Aktionen in bestimmten Zuständen des Systems erlernt. Bei der Interaktion mit der Umgebung werden die Aktionen mit den erlernten Wahrscheinlichkeiten abgetastet. In der Anfangsphase sind die Wahrscheinlichkeiten für alle Aktionen gleich, und das Modell wählt eine Aktion nach dem Zufallsprinzip aus. Im Laufe des Lernprozesses verschieben sich die Wahrscheinlichkeiten und die Wahl der Aktionen wird bewusster.
Dmitry hallo. Wie viele Zyklen hat es Sie wie Nikolay oben beschrieben, um ein stabiles positives Ergebnis zu erhalten nehmen?
Und eine weitere interessante Sache ist, dass, wenn ein Expert Advisor für den aktuellen Zeitraum lernt und wenn er zum Beispiel in einem Monat unter Berücksichtigung der neuen Daten neu trainiert werden muss, wird er dann komplett neu trainiert oder vor dem Lernen? Wird der Trainingsprozess vergleichbar mit dem ursprünglichen sein oder viel kürzer und schneller? Und wenn wir ein Modell auf EURUSD trainiert haben, wird es dann für die Arbeit auf GBPUSD genauso neu trainiert wie das ursprüngliche Modell, oder wird es schneller sein, wenn es nur vor dem Training trainiert wird? Diese Frage bezieht sich nicht auf diesen speziellen Artikel von Ihnen, sondern auf alle Ihre Expert Advisors, die nach dem Prinzip des Reinforcement Learning arbeiten.
Guten Tag.
Dimitri, ich danke Ihnen für Ihre Arbeit.
Ich möchte für alle klarstellen...
Was Dimitri postet, ist kein "Gral".
Es ist ein klassisches Beispiel für ein akademisches Problem, das die Vorbereitung auf wissenschaftliche Forschungstätigkeiten theoretischer und methodischer Art voraussetzt .
Und jeder möchte ein positives Ergebnis auf seinem Konto sehen, hier und jetzt....
Dmitry lehrt uns, wie wir (unser/mein/dein/deines) Problem mit allen von Dmitry vorgestellten Methoden lösen können.
Beliebte KI (GPT) hat über 700 Millionen Parameter!!!! Wie viel ist diese KI wert?
Wenn Sie ein gutes Ergebnis erzielen wollen, tauschen Sie Ideen aus (fügen Sie Parameter hinzu), geben Sie Testergebnisse an, usw.
Erstellen Sie einen separaten Chat-Raum und "holen" Sie sich dort das Ergebnis. Sie können hier prahlen :-) und so die Effektivität von Dmitrys Arbeit zeigen...
Erstellen Sie einen separaten Chat-Raum und "holen" Sie sich dort das Ergebnis. Du kannst hier prahlen :-) und so die Effektivität von Dmitrys Arbeit zeigen...
Kumpel, niemand wartet hier auf den Gral! Ich möchte nur sehen, dass das, was Dmitriy herausgibt, tatsächlich funktioniert. Nicht von Dmitriy's Worten in seinen Artikeln (er hat fast positive Ergebnisse in allen seinen Artikeln), sondern auf meinem Computer. Ich habe seinen Expert Advisor aus diesem Artikel heruntergeladen und habe bereits 63 Trainingszyklen (Datensammlung -> Training) durchgeführt. Und er verliert immer noch Geld. Während aller 63 Zyklen gab es nur ein paar Datensammlungen, bei denen von 50 neuen Beispielen 5-6 positiv waren. Alles andere ist Minus. Wie kann ich sehen, dass es wirklich funktioniert?
Ich habe Dmitriy in dem obigen Beitrag gefragt, er hat mir nicht geantwortet. Das gleiche Problem in anderen Artikeln - kein Ergebnis, egal wie viel man trainiert.....
Freund, wenn Sie ein stabiles Ergebnis haben, dann schreiben Sie, wie viele Zyklen Sie vor dem stabilen Ergebnis gemacht haben, zum Beispiel in diesem Artikel? Wenn zu ändern, was zu ändern, um das Ergebnis auf Ihrem Computer zu sehen, nur in den Tester? Nicht ein Gral, aber zumindest zu sehen, dass es funktioniert ...?
Erstellen Sie einen separaten CHAT und "holen" Sie sich dort das Ergebnis. Sie können hier prahlen :-), wodurch die Wirksamkeit von Dmitrys Arbeit ...
Hier sind die Parameter: (basierend auf Dmitry und einigen Recherchen.)
#include "FQF.mqh"
Die Länge der Nachricht sollte 64000 Zeichen nicht überschreiten
===ICH KÜRZE DIE LETZTEN TEILE, da Kommentare auf 64000 Zeichen begrenzt sind, aber Sie wissen ja, was zu tun ist... =)
Die Länge der Nachricht sollte 64000 Zeichen nicht überschreiten
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Neuer Artikel Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC) :
Hier werde ich den relativ neuen Algorithmus Stochastic Marginal Actor-Critic (SMAC) vorstellen, der es ermöglicht, Strategien mit latenten Variablen im Rahmen der Entropiemaximierung zu entwickeln.
Beim Aufbau eines automatisierten Handelssystems entwickeln wir Algorithmen für die sequentielle Entscheidungsfindung. Die Methoden des Verstärkungslernens sind genau auf die Lösung solcher Probleme ausgerichtet. Eines der Hauptprobleme beim Verstärkungslernen ist der Erkundungsprozess, wenn der Agent lernt, mit seiner Umgebung zu interagieren. In diesem Zusammenhang wird häufig das Prinzip der maximalen Entropie angewandt, das den Agenten dazu motiviert, Handlungen mit dem größtmöglichen Grad an Zufälligkeit auszuführen. In der Praxis trainieren solche Algorithmen jedoch einfache Agenten, die nur lokale Veränderungen um eine einzelne Aktion herum lernen. Der Grund dafür ist die Notwendigkeit, die Entropie der Agentenpolitik zu berechnen und sie als Teil des Trainingsziels zu verwenden.
Gleichzeitig besteht ein relativ einfacher Ansatz zur Erhöhung der Aussagekraft der Politik eines Akteurs (Actor) in der Verwendung latenter Variablen, die dem Akteur ein eigenes Inferenzverfahren zur Modellierung der Stochastizität von Beobachtungen, der Umgebung und unbekannter Belohnungen zur Verfügung stellen.
Durch die Einführung latenter Variablen in die Politik des Agenten können vielfältigere Szenarien abgedeckt werden, die mit historischen Beobachtungen vereinbar sind. Hier ist anzumerken, dass Politiken mit latenten Variablen keinen einfachen Ausdruck zur Bestimmung ihrer Entropie zulassen. Eine naive Entropieschätzung kann bei der Optimierung von Richtlinien zu katastrophalen Fehlern führen. Außerdem unterscheiden stochastische Aktualisierungen mit hoher Varianz zur Entropiemaximierung nicht ohne weiteres zwischen lokalen Zufallseffekten und multimodaler Exploration.
Eine der Möglichkeiten zur Behebung dieser Unzulänglichkeiten der Politik für latente Variablen wurde in dem Artikel „Latent State Marginalization as a Low-cost Approach for Improving Exploration“ (Latente Zustands-Marginalization als kosteneffizienter Ansatz zur Verbesserung der Erkundung). Die Autoren schlagen einen einfachen, aber effektiven Algorithmus zur Optimierung von Richtlinien vor, der eine effizientere und robustere Erkundung sowohl in vollständig beobachtbaren als auch in teilweise beobachtbaren Umgebungen ermöglicht.
Autor: Dmitriy Gizlyk