Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC)"

MetaQuotes 2024.02.08 13:28

Neuer Artikel Neuronale Netze leicht gemacht (Teil 57): Stochastic Marginal Actor-Critic (SMAC) :

Hier werde ich den relativ neuen Algorithmus Stochastic Marginal Actor-Critic (SMAC) vorstellen, der es ermöglicht, Strategien mit latenten Variablen im Rahmen der Entropiemaximierung zu entwickeln.

Beim Aufbau eines automatisierten Handelssystems entwickeln wir Algorithmen für die sequentielle Entscheidungsfindung. Die Methoden des Verstärkungslernens sind genau auf die Lösung solcher Probleme ausgerichtet. Eines der Hauptprobleme beim Verstärkungslernen ist der Erkundungsprozess, wenn der Agent lernt, mit seiner Umgebung zu interagieren. In diesem Zusammenhang wird häufig das Prinzip der maximalen Entropie angewandt, das den Agenten dazu motiviert, Handlungen mit dem größtmöglichen Grad an Zufälligkeit auszuführen. In der Praxis trainieren solche Algorithmen jedoch einfache Agenten, die nur lokale Veränderungen um eine einzelne Aktion herum lernen. Der Grund dafür ist die Notwendigkeit, die Entropie der Agentenpolitik zu berechnen und sie als Teil des Trainingsziels zu verwenden.

Gleichzeitig besteht ein relativ einfacher Ansatz zur Erhöhung der Aussagekraft der Politik eines Akteurs (Actor) in der Verwendung latenter Variablen, die dem Akteur ein eigenes Inferenzverfahren zur Modellierung der Stochastizität von Beobachtungen, der Umgebung und unbekannter Belohnungen zur Verfügung stellen.

Durch die Einführung latenter Variablen in die Politik des Agenten können vielfältigere Szenarien abgedeckt werden, die mit historischen Beobachtungen vereinbar sind. Hier ist anzumerken, dass Politiken mit latenten Variablen keinen einfachen Ausdruck zur Bestimmung ihrer Entropie zulassen. Eine naive Entropieschätzung kann bei der Optimierung von Richtlinien zu katastrophalen Fehlern führen. Außerdem unterscheiden stochastische Aktualisierungen mit hoher Varianz zur Entropiemaximierung nicht ohne weiteres zwischen lokalen Zufallseffekten und multimodaler Exploration.

Eine der Möglichkeiten zur Behebung dieser Unzulänglichkeiten der Politik für latente Variablen wurde in dem Artikel „Latent State Marginalization as a Low-cost Approach for Improving Exploration“ (Latente Zustands-Marginalization als kosteneffizienter Ansatz zur Verbesserung der Erkundung). Die Autoren schlagen einen einfachen, aber effektiven Algorithmus zur Optimierung von Richtlinien vor, der eine effizientere und robustere Erkundung sowohl in vollständig beobachtbaren als auch in teilweise beobachtbaren Umgebungen ermöglicht.

Autor: Dmitriy Gizlyk

star-ik 2023.09.06 07:27 #1

Nicht kompiliert.

Dateien:

2023-09-06_12-25-50.png 156 kb

Nikolai Fedotov 2023.09.06 21:21 #2

Ich kompiliere auch nicht. Das ist dasselbe.

Dmitriy Gizlyk 2023.09.07 15:16 #3

star-ik #:
Nicht kompiliert.

Das Archiv der Dateien im Artikel wurde aktualisiert.

Nikolai Fedotov 2023.09.08 14:02 #4

Dmitry, ich danke dir für deine harte Arbeit. Alles funktioniert.

Ich sammle Beispiele mit Expert Advisor Research für 100 Durchläufe, trainiere das Modell mit Expert Advisor Study und teste mit Test. Dann sammle ich wieder 50 Durchläufe, trainiere für 10 000 Iterationen und teste erneut.

Und so weiter, bis das Modell lernt. Nur habe ich bisher Test gibt ständig unterschiedliche Ergebnisse nach dem Zyklus und nicht immer positiv. Ich habe einen Zyklus laufen lassen, 2-3 Tests und die Ergebnisse sind unterschiedlich.

Ab welchem Zyklus wird das Ergebnis stabil? Oder ist es eine endlose Arbeit und das Ergebnis wird immer anders sein?

Ich danke Ihnen!

Diskussion zum Artikel "Neuronale Diskussion zum Artikel "Neuronale Diskussion zum Artikel "Neuronale

Dmitriy Gizlyk 2023.09.08 14:25 #5

Nikolai Fedotov Beispiele mit Expert Advisor Research für 100 Durchläufe, trainiere das Modell mit Expert Advisor Study, teste mit Test. Dann sammle ich wieder 50 Durchläufe, trainiere für 10 000 Iterationen und teste erneut.
Und so weiter, bis das Modell lernt. Nur habe ich bisher Test gibt ständig unterschiedliche Ergebnisse nach dem Zyklus und nicht immer positiv. Das heißt, ich mache einen Zyklus, 2-3 Tests und die Ergebnisse sind unterschiedlich.

Bei welchem Zyklus wird das Ergebnis stabil werden? Oder ist es eine endlose Arbeit und das Ergebnis wird immer anders sein?

Ich danke Ihnen!

Der Expert Advisor trainiert ein Modell mit einer stochastischen Strategie. Das bedeutet, dass das Modell Wahrscheinlichkeiten für die Maximierung von Belohnungen für bestimmte Aktionen in bestimmten Zuständen des Systems erlernt. Bei der Interaktion mit der Umgebung werden die Aktionen mit den erlernten Wahrscheinlichkeiten abgetastet. In der Anfangsphase sind die Wahrscheinlichkeiten für alle Aktionen gleich, und das Modell wählt eine Aktion nach dem Zufallsprinzip aus. Im Laufe des Lernprozesses verschieben sich die Wahrscheinlichkeiten und die Wahl der Aktionen wird bewusster.

Maschinelles Lernen im Handel: Diskussion zum Artikel "Neuronale [Archiv!] Jede Anfängerfrage, um

Viktor Kudriavtsev 2023.09.08 19:49 #6

Dmitry hallo. Wie viele Zyklen hat es Sie wie Nikolay oben beschrieben, um ein stabiles positives Ergebnis zu erhalten nehmen?

Und eine weitere interessante Sache ist, dass, wenn ein Expert Advisor für den aktuellen Zeitraum lernt und wenn er zum Beispiel in einem Monat unter Berücksichtigung der neuen Daten neu trainiert werden muss, wird er dann komplett neu trainiert oder vor dem Lernen? Wird der Trainingsprozess vergleichbar mit dem ursprünglichen sein oder viel kürzer und schneller? Und wenn wir ein Modell auf EURUSD trainiert haben, wird es dann für die Arbeit auf GBPUSD genauso neu trainiert wie das ursprüngliche Modell, oder wird es schneller sein, wenn es nur vor dem Training trainiert wird? Diese Frage bezieht sich nicht auf diesen speziellen Artikel von Ihnen, sondern auf alle Ihre Expert Advisors, die nach dem Prinzip des Reinforcement Learning arbeiten.

Maschinelles Lernen im Handel: Diskussion zum Artikel "Neuronale Diskussion zum Artikel "Metamodelle

Oleg_Filatov 2023.09.13 10:02 #7

Guten Tag.

Dimitri, ich danke Ihnen für Ihre Arbeit.

Ich möchte für alle klarstellen...

Was Dimitri postet, ist kein "Gral".

Es ist ein klassisches Beispiel für ein akademisches Problem, das die Vorbereitung auf wissenschaftliche Forschungstätigkeiten theoretischer und methodischer Art voraussetzt .

Und jeder möchte ein positives Ergebnis auf seinem Konto sehen, hier und jetzt....

Dmitry lehrt uns, wie wir (unser/mein/dein/deines) Problem mit allen von Dmitry vorgestellten Methoden lösen können.

Beliebte KI (GPT) hat über 700 Millionen Parameter!!!! Wie viel ist diese KI wert?

Wenn Sie ein gutes Ergebnis erzielen wollen, tauschen Sie Ideen aus (fügen Sie Parameter hinzu), geben Sie Testergebnisse an, usw.

Erstellen Sie einen separaten Chat-Raum und "holen" Sie sich dort das Ergebnis. Sie können hier prahlen :-) und so die Effektivität von Dmitrys Arbeit zeigen...

Kaufen Sie einen fertigen Fehler, Irrtümer, Fragen Diskussion zum Artikel "DeMarks

Viktor Kudriavtsev 2023.09.14 16:16 #8

Oleg_Filatov Testergebnisse an, usw.
Erstellen Sie einen separaten Chat-Raum und "holen" Sie sich dort das Ergebnis. Du kannst hier prahlen :-) und so die Effektivität von Dmitrys Arbeit zeigen...

Kumpel, niemand wartet hier auf den Gral! Ich möchte nur sehen, dass das, was Dmitriy herausgibt, tatsächlich funktioniert. Nicht von Dmitriy's Worten in seinen Artikeln (er hat fast positive Ergebnisse in allen seinen Artikeln), sondern auf meinem Computer. Ich habe seinen Expert Advisor aus diesem Artikel heruntergeladen und habe bereits 63 Trainingszyklen (Datensammlung -> Training) durchgeführt. Und er verliert immer noch Geld. Während aller 63 Zyklen gab es nur ein paar Datensammlungen, bei denen von 50 neuen Beispielen 5-6 positiv waren. Alles andere ist Minus. Wie kann ich sehen, dass es wirklich funktioniert?

Ich habe Dmitriy in dem obigen Beitrag gefragt, er hat mir nicht geantwortet. Das gleiche Problem in anderen Artikeln - kein Ergebnis, egal wie viel man trainiert.....

Freund, wenn Sie ein stabiles Ergebnis haben, dann schreiben Sie, wie viele Zyklen Sie vor dem stabilen Ergebnis gemacht haben, zum Beispiel in diesem Artikel? Wenn zu ändern, was zu ändern, um das Ergebnis auf Ihrem Computer zu sehen, nur in den Tester? Nicht ein Gral, aber zumindest zu sehen, dass es funktioniert ...?

Diskussion zum Artikel "Neuronale [WARNUNG GESCHLOSSEN!] Alle Fragen Die beste Lösung für

JimReaper 2023.09.22 06:11 #9

Oleg_Filatov Testergebnisse an, usw.
Erstellen Sie einen separaten CHAT und "holen" Sie sich dort das Ergebnis. Sie können hier prahlen :-), wodurch die Wirksamkeit von Dmitrys Arbeit ...

Viel Spaß <3

Hier sind die Parameter: (basierend auf Dmitry und einigen Recherchen.)

// Eingabeparameter für RSI

input group "---- RSI ----"

input int RSIPeriod = 14; // Zeitraum

input ENUM_APPLIED_PRICE RSIPrice = PRICE_CLOSE; // Angewandter Preis

// Eingabeparameter für CCI

Eingabegruppe "---- CCI ----"

input int CCIPeriod = 14; // Zeitraum

input ENUM_APPLIED_PRICE CCIPrice = PRICE_TYPICAL; // Angewandter Preis

// Eingabeparameter für ATR

Eingabegruppe "---- ATR ----"

input int ATRPeriod = 14; // Zeitraum

// Eingabeparameter für MACD

Eingabegruppe "---- MACD ----"

input int FastPeriod = 12; // Schnell

eingabe int LangsamPeriode = 26; // Langsam

Eingabe int SignalPeriod = 9; // Signal

input ENUM_APPLIED_PRICE MACDPrice = PRICE_CLOSE; // Angewandter Preis

// Eingabeparameter für Momentum

Eingabegruppe "---- Momentum ----"

input int MomentumPeriod = 14; // Zeitraum für Momentum

input ENUM_APPLIED_PRICE AppliedPrice = PRICE_CLOSE; // Angewandter Preis für Momentum

// Eingabeparameter für SAR

Eingabegruppe "---- SAR ----"

Eingabe float SARStep = 0.02f; // SAR-Schritt

input float SARMaximum = 0.2f; // SAR Maximum

// Eingabeparameter für Bänder

Eingabegruppe "---- Bands ----"

input int BandsPeriod = 20; // Zeitraum für Bands

input int BandsDeviation = 2.0; // Bandabweichung

eingabe int BandsShift = 0; // Bandverschiebung

#include "FQF.mqh"

//---

#define HistoryBars 72 //Tiefe des Verlaufs

#define BarDescr 14 //Elemente für 1 Bar Beschreibung

#define AccountDescr 12 //Kontobeschreibung

#define NActions 6 //Anzahl der möglichen Aktionen

#define NRewards 5 //Anzahl der Belohnungen

#define EmbeddingSize 64

#define Puffer_Größe 6500

#define DiscFactor 0.99f

#define Dateiname "zJimReaper_NNM_Neural_Network_"

#define LatentLayer 11

#define LatentCount 2048

#define SamplLatentStates 32

#define MaxSL 1000

#define MaxTP 1000

*define MaxReplayBuffer 500

#define StartTargetIteration 50000

#define fCAGrad_C 0.5f

#define iCAGrad_Iters 15

#define KNN 32

//+------------------------------------------------------------------+

//| |

//+------------------------------------------------------------------+

//| |

//+------------------------------------------------------------------+

bool CreateDescriptions(CArrayObj *Akteur, CArrayObj *Kritik, CArrayObj *Faltung)

{

//---

CLayerDescription *descr;

//---

if(!actor)

{

Akteur = new CArrayObj();

if(!Akteur)

return false;

}

if(!critic)

{

critic = new CArrayObj();

if(!critic)

return false;

}

if(!convolution)

{

faltung = new CArrayObj();

if(!faltung)

return false;

}

//--- Akteur

actor.Clear();

//--- Eingabeschicht

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

int prev_count = descr.count = (HistoryBars * BarDescr);

descr.activation = Keine;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 1

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBatchNormOCL;

descr.count = prev_count;

descr.batch = 1000;

descr.activation = Keine;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr. löschen;

return false;

}

//--- Schicht 2

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = BarDescr;

descr.window = HistoryBars;

descr.step = HistoryBars;

int prev_wout = descr.window_out = HistoryBars / 2;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 3

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = prev_count - 1;

descr.window = 7;

descr.step = 3;

descr.window_out = 32;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 4

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = prev_count - 1;

descr.window = 5;

descr.step = 2;

descr.window_out = 16;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

Die Länge der Nachricht sollte 64000 Zeichen nicht überschreiten

Discussing the article: "Neural Diskussion zum Artikel "Neuronale Diskussion zum Artikel "Neuronale

JimReaper 2023.09.22 06:14 #10

//--- Schicht 5

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = prev_count - 1;

descr.window = 3;

descr.step = 1;

descr.window_out = 8;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 6

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = BarDescr;

descr.window = HistoryBars;

descr.step = HistoryBars;

prev_wout = descr.window_out = HistoryBars / 2;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 7

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

prev_count = descr.count = prev_count;

descr.window = prev_wout;

descr.step = prev_wout;

descr.window_out = 32;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 8

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 2 * LatentCount;

descr.optimisation = ADAM;

descr.activation = LReLU;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 9

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

prev_count = descr.count = LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 10

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConcatenate;

descr.count = 4 * LatentCount;

descr.window = prev_count;

descr.step = AccountDescr;

descr.optimisation = ADAM;

descr.activation = SIGMOID;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 11

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronVAEOCL;

descr.count = 2 * LatentCount;

descr.optimise = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 12

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 2 * LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 13

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Ebene 14

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Ebene 15

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 2 * NActions;

descr.activation = SIGMOID;

descr.optimisation = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 16

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronVAEOCL;

descr.count = NActions;

descr.optimise = ADAM;

if(!actor.Add(descr))

{

descr löschen;

return false;

}

//--- Critic

critic.Clear();

//--- Eingabeschicht

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

prev_count = descr.count = 2 * LatentCount;

descr.activation = Keine;

descr.optimisation = ADAM;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 1

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConcatenate;

descr.count = 2 * LatentCount;

descr.window = prev_count;

descr.step = NActions;

descr.optimisation = ADAM;

descr.activation = LReLU;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 2

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 2 * LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 3

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 4

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = LatentCount;

descr.activation = LReLU;

descr.optimisation = ADAM;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Schicht 5

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = NRewards;

descr.optimisation = ADAM;

descr.activation = None;

if(!critic.Add(descr))

{

descr löschen;

return false;

}

//--- Faltung

// Gemeinsame Parameter definieren

int input_size = (HistoryBars * BarDescr) + AccountDescr;

int num_actions = NActions;

int embedding_size = EmbeddingSize;

// Erstellen eines neuronalen Netzwerks

convolution.Clear();

// Eingabeschicht 0

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 4 * input_size;

descr.activation = Keine;

descr.optimisation = ADAM;

if (!convolution.Add(descr))

{

descr löschen;

return false;

}

// Schicht 1

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = 2 * LatentCount;

descr.window = 2 * input_size;

descr.step = 2 * num_actions;

descr.activation = SIGMOID;

descr.optimisation = ADAM;

if (!convolution.Add(descr))

{

descr löschen;

return false;

}

// Schicht 2

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = LatentCount;

descr.window = input_size;

descr.step = num_actions;

descr.activation = SIGMOID;

descr.optimisation = ADAM;

if (!convolution.Add(descr))

{

descr löschen;

return false;

}

// Faltungsschichten

for (int i = 0; i < 6; i++)

{

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronConvOCL;

descr.count = 2 * LatentCount / (1 << i); // Halbierung der Anzahl bei jeder Schicht

descr.window = 64;

descr.step = 64;

descr.window_out = 32 / (1 << i); // Halbierung des window_out

descr.activation = LReLU;

descr.optimisation = ADAM;

if (!convolution.Add(descr))

{

descr löschen;

return false;

}

// Ausgabeschicht

if (!(descr = new CLayerDescription())) return false;

descr.type = defNeuronBaseOCL;

descr.count = embedding_size;

descr.activation = LReLU;

descr.optimisation = ADAM;

if (!convolution.Add(descr))

{

descr löschen;

return false;

}

// Erfolgreich das Netzwerk erstellt

return true;

}

#ifndef Studie

//+------------------------------------------------------------------+

//| |

//+------------------------------------------------------------------+

bool IsNewBar(void)

{
===ICH KÜRZE DIE LETZTEN TEILE, da Kommentare auf 64000 Zeichen begrenzt sind, aber Sie wissen ja, was zu tun ist... =)
Die Länge der Nachricht sollte 64000 Zeichen nicht überschreiten

-----------------------------------------------------+

Dateien:

Screenshot_2023-09-18_133537.png 100 kb

Screenshot_2023-09-12_223734.png 280 kb

Diskussion zum Artikel "Neuronale Diskussion zum Artikel "Neuronale Discussing the article: "Neural

1 2

Neuer Kommentar