Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 55): Contrastive Intrinsic Control (CIC)"

MetaQuotes 2024.01.18 11:32

Neuer Artikel Neuronale Netze leicht gemacht (Teil 55): Contrastive Intrinsic Control (CIC) :

Das kontrastive Training ist eine unüberwachte Methode zum Training der Repräsentation. Ziel ist es, ein Modell zu trainieren, das Ähnlichkeiten und Unterschiede in Datensätzen aufzeigt. In diesem Artikel geht es um die Verwendung kontrastiver Trainingsansätze zur Erkundung verschiedener Fähigkeiten des Akteurs (Actor skills).

Der Algorithmus der kontrastiven intrinsischen Kontrolle beginnt mit dem Training des Agenten in der Umgebung unter Verwendung von Feedback und der Ermittlung von Trajektorien von Zuständen und Aktionen. Das Training der Repräsentation erfolgt dann mit Contrastive Predictive Coding (CPC), das den Agenten dazu motiviert, Schlüsselmerkmale aus Zuständen und Aktionen abzurufen. Es werden Darstellungen gebildet, die die Abhängigkeiten zwischen aufeinanderfolgenden Zuständen berücksichtigen.

Intrinsische Belohnungen spielen eine wichtige Rolle bei der Entscheidung, welche Verhaltensstrategien maximiert werden sollten. CIC maximiert die Entropie der Übergänge zwischen den Zuständen, was die Vielfalt des Agentenverhaltens fördert. Dies ermöglicht dem Agenten, eine Vielzahl von Verhaltensstrategien zu erforschen und zu entwickeln.

Nach der Generierung einer Vielzahl von Fähigkeiten und Strategien verwendet der CIC-Algorithmus den Discriminator, um die Repräsentationen der Fähigkeiten zu instanziieren. Der Discriminator soll dafür sorgen, dass die Zustände vorhersehbar und stabil sind. Auf diese Weise lernt der Agent, seine Fähigkeiten in vorhersehbaren Situationen „einzusetzen“.

Die Kombination aus intrinsisch motivierter Erkundung und dem Einsatz von Fähigkeiten für vorhersehbare Handlungen schafft einen ausgewogenen Ansatz für die Entwicklung vielfältiger und wirksamer Strategien.

Der Algorithmus der kontrastiven prädiktiven Kodierung ermutigt den Agenten, eine breite Palette von Verhaltensstrategien zu erkennen und zu erlernen, und gewährleistet gleichzeitig ein stabiles Lernen. Nachfolgend sehen Sie die Visualisierung des nutzerdefinierten Algorithmus.

nutzerdefinierte Algorithmus-Visualisierung

Autor: Dmitriy Gizlyk

star-ik 2023.08.26 09:13 #1

Hallo. Ich kann kein positives Ergebnis in der Forschung erzielen. Es wird eine gerade Linie gezeichnet. Es scheint, dass es eine Einschränkung der Ergebnisse im Code gibt.

Dateien:

2023-08-26_14-08-26.png 147 kb

Dmitriy Gizlyk 2023.08.26 12:16 #2

star-ik #:
Hallo. Ich kann kein positives Ergebnis in der Forschung erzielen. Es wird eine gerade Linie gezeichnet. Es scheint, dass es eine Einschränkung der Ergebnisse im Code gibt.

In welchem Stadium? Beim ersten Durchlauf mit zufälligen Parametern? Nach der Ausführung von Pretrain? Oder Finetune?

star-ik 2023.08.26 13:17 #3

Ich stehe nicht in allen Phasen auf der Gewinnerseite.

Dmitriy Gizlyk 2023.08.26 13:36 #4

star-ik #:
Nicht in allen Phasen stehe ich auf der Gewinnerseite.

In den ersten Phasen gibt es ein Vortraining, bei dem es darum geht, die Umgebung zu erkunden und die Fähigkeiten des Akteurs zu erlernen. Hier werden überhaupt keine externen Belohnungen eingesetzt. Wir trainieren den Actor, um mehrere Fähigkeiten zu entwickeln. Daher erwarten wir keine positiven Passagen. Externe Belohnungen werden nur in der letzten Phase von Finetune eingesetzt, wenn wir den Planner trainieren, die Fähigkeiten des Actors für die anstehende Aufgabe zu steuern. Und die Ergebnisse sind direkt abhängig von der Vollständigkeit der ersten beiden Iterationen.

Maschinelles Lernen im Handel: Statistik als Blick in Fragen von Anfängern MQL5

star-ik 2023.08.26 13:47 #5

Welche Fehlerraten sind bei Finetune akzeptabel? Und wann wird die Datei in den Tester-Ordner geschrieben?

star-ik 2023.08.26 21:12 #6

Ich habe Forschung, ich bin auf der positiven Seite.

star-ik 2023.08.29 03:18 #7

Hallo nochmal. Ich kann einen Punkt nicht verstehen. Welchen Sinn hat es, den Take Profit zu setzen, wenn er mitgeschleppt wird? So wird es nie funktionieren.

Dmitriy Gizlyk 2023.08.29 10:01 #8

star-ik #:
Hallo nochmal. Ich kann einen Punkt nicht verstehen. Welchen Sinn hat es, den Take Profit zu setzen, wenn er mitgeschleppt wird? So wird es nie funktionieren.

Es ist in erster Linie ein Instrument des Risikomanagements. Es ist eine Verteidigung gegen starke Bewegungen. Außerdem trainieren wir damit das Modell. Theoretisch müssen Stop-Loss und Take-Profit nicht größer sein als die Größe der Kerze. Im Laufe des Trainings suchen wir nach der profitabelsten Strategie.

Strategien, die funktionieren Markttheorie Sperandeo-Indikator.

star-ik 2023.08.29 12:17 #9

Eine weitere Frage. Kann ich, nachdem Research auf die Plus-Seite gegangen ist, den Rest wiederholt mit diesen Daten durchführen? Das Problem ist, dass es wieder ins Minus geht und die Statistik verdirbt.

Probleme mit dem Forum. FOREX - Trends, Prognosen [Branche geschlossen!] EURUSD -

star-ik 2023.09.02 15:59 #10

Dimitri, Sie haben bereits einen neuen Artikel veröffentlicht und werden vielleicht nicht mehr hierher zurückkommen. Aber ich werde versuchen, Ihnen eine Frage zu stellen. Bitte sagen Sie mir, hat Ihr Expert Advisor Trades in beide Richtungen ausgeführt? Aus irgendeinem Grund habe ich nur einen Kauf. Lohnt es sich, sich weiter damit zu quälen?

[Archiv] Lernen Sie, wie Diskussion zum Artikel "Wie MetaEditor Build 1463

1 2

Neuer Kommentar