Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 55): Contrastive Intrinsic Control (CIC)"
Hallo. Ich kann kein positives Ergebnis in der Forschung erzielen. Es wird eine gerade Linie gezeichnet. Es scheint, dass es eine Einschränkung der Ergebnisse im Code gibt.
In welchem Stadium? Beim ersten Durchlauf mit zufälligen Parametern? Nach der Ausführung von Pretrain? Oder Finetune?
Nicht in allen Phasen stehe ich auf der Gewinnerseite.
In den ersten Phasen gibt es ein Vortraining, bei dem es darum geht, die Umgebung zu erkunden und die Fähigkeiten des Akteurs zu erlernen. Hier werden überhaupt keine externen Belohnungen eingesetzt. Wir trainieren den Actor, um mehrere Fähigkeiten zu entwickeln. Daher erwarten wir keine positiven Passagen. Externe Belohnungen werden nur in der letzten Phase von Finetune eingesetzt, wenn wir den Planner trainieren, die Fähigkeiten des Actors für die anstehende Aufgabe zu steuern. Und die Ergebnisse sind direkt abhängig von der Vollständigkeit der ersten beiden Iterationen.
Hallo nochmal. Ich kann einen Punkt nicht verstehen. Welchen Sinn hat es, den Take Profit zu setzen, wenn er mitgeschleppt wird? So wird es nie funktionieren.
Es ist in erster Linie ein Instrument des Risikomanagements. Es ist eine Verteidigung gegen starke Bewegungen. Außerdem trainieren wir damit das Modell. Theoretisch müssen Stop-Loss und Take-Profit nicht größer sein als die Größe der Kerze. Im Laufe des Trainings suchen wir nach der profitabelsten Strategie.
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Neuer Artikel Neuronale Netze leicht gemacht (Teil 55): Contrastive Intrinsic Control (CIC) :
Das kontrastive Training ist eine unüberwachte Methode zum Training der Repräsentation. Ziel ist es, ein Modell zu trainieren, das Ähnlichkeiten und Unterschiede in Datensätzen aufzeigt. In diesem Artikel geht es um die Verwendung kontrastiver Trainingsansätze zur Erkundung verschiedener Fähigkeiten des Akteurs (Actor skills).
Der Algorithmus der kontrastiven intrinsischen Kontrolle beginnt mit dem Training des Agenten in der Umgebung unter Verwendung von Feedback und der Ermittlung von Trajektorien von Zuständen und Aktionen. Das Training der Repräsentation erfolgt dann mit Contrastive Predictive Coding (CPC), das den Agenten dazu motiviert, Schlüsselmerkmale aus Zuständen und Aktionen abzurufen. Es werden Darstellungen gebildet, die die Abhängigkeiten zwischen aufeinanderfolgenden Zuständen berücksichtigen.
Intrinsische Belohnungen spielen eine wichtige Rolle bei der Entscheidung, welche Verhaltensstrategien maximiert werden sollten. CIC maximiert die Entropie der Übergänge zwischen den Zuständen, was die Vielfalt des Agentenverhaltens fördert. Dies ermöglicht dem Agenten, eine Vielzahl von Verhaltensstrategien zu erforschen und zu entwickeln.
Nach der Generierung einer Vielzahl von Fähigkeiten und Strategien verwendet der CIC-Algorithmus den Discriminator, um die Repräsentationen der Fähigkeiten zu instanziieren. Der Discriminator soll dafür sorgen, dass die Zustände vorhersehbar und stabil sind. Auf diese Weise lernt der Agent, seine Fähigkeiten in vorhersehbaren Situationen „einzusetzen“.
Die Kombination aus intrinsisch motivierter Erkundung und dem Einsatz von Fähigkeiten für vorhersehbare Handlungen schafft einen ausgewogenen Ansatz für die Entwicklung vielfältiger und wirksamer Strategien.
Der Algorithmus der kontrastiven prädiktiven Kodierung ermutigt den Agenten, eine breite Palette von Verhaltensstrategien zu erkennen und zu erlernen, und gewährleistet gleichzeitig ein stabiles Lernen. Nachfolgend sehen Sie die Visualisierung des nutzerdefinierten Algorithmus.
Autor: Dmitriy Gizlyk