Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2812
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Es wurde hier vor mehr als einem Jahr diskutiert, als ich RL-Algorithmen schrieb.
Ich möchte noch nicht zurückgehen, und ich auch nicht.Dies ist der Fall, wenn es viele Agentenstatus gibt, z. B. bei Spielen. Man hat nur 2-3 Kauf/Verkaufszustände usw.
Nein, das ist so primitiv, sonst würde es gar nicht in diese Richtung gehen.
Zustand ist nicht kaufen/verkaufen, kaufen/verkaufen ist eine Aktion, und Zustand ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Zustandscluster hat seine eigene Aktion...
Aber dieAktion muss nicht primitiv sein wie kaufen/verkaufen, sie kann zum Beispiel die Überlegungen des Agenten über die Zukunft sein....
Wenn ich z.B. jetzt bei [i] kaufe und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, warte ich auf die nächste Kerze [i+2], aber wenn der Preis noch tiefer fällt, mache ich einen Rückzieher, wenn nicht, bleibe ich bei buy[i...20].
Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung des bewussten poziya....
Aber es gibt eine Unzahl solcher Kombinationen von Argumentationsoptionen, und damit wir nicht alle durchgehen müssen, trainieren wir eine Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,
Das Q-Neuron oder die Matrix wird vorher trainiert...
So sehe ich das...
Das Lösungsschema ist einfach.
)))) Ja, sicher...
Ich habe Angst vor denen, die sagen "es ist einfach".
Nein, es ist so primitiv, sonst würde es nicht in diese Richtung gehen...
state ist kein by\sel, by\sel ist eine Aktion, und state ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Statuscluster hat seine eigene Aktion...
Aber dieAktion muss nicht primitiv wie ein Byte sein, sie kann zum Beispiel ein Gedanke des Agenten über die Zukunft sein....
Wenn ich z.B. jetzt bei [i] kaufe, und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, werde ich auf die nächste Kerze [i+2] warten, aber wenn der Preis noch tiefer fällt, werde ich umkehren, wenn nicht, werde ich buy[i...20] behalten.
Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung der realisierten Position....
Aber es gibt unzählige solcher Kombinationen von Argumentationsoptionen, und damit wir sie nicht alle durchgehen müssen, trainieren wir die Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,
Q-Neuron oder -Matrix wird vorher trainiert...
So sehe ich das...
Ich stimme zu, buy sell no trade ist kein Zustand. Es gibt eine ganze Reihe von Zuständen. ))))))
Ich stimme zu, kaufen verkaufen nicht handeln ist nicht Staaten. Es gibt eine ganze Reihe von Staaten. )))))
Es gibt nicht viele Zustände (wenn es ein Cluster ist).
Es gibt eine Vielzahl von Optionen, um über zukünftige Aktionen nachzudenken.
Aber es ist notwendig, die richtigen Handlungen in jedem Zustand zu finden, außerdem sollten sie bei jeder Kerze überprüft werden.
Nein, es ist so primitiv, sonst würde es nicht in diese Richtung gehen...
state ist kein by\sel, by\sel ist eine Aktion, und state ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Statuscluster hat seine eigene Aktion...
Aber dieAktion muss nicht primitiv wie ein Byte sein, sie kann zum Beispiel ein Gedanke des Agenten über die Zukunft sein....
Wenn ich z.B. jetzt bei [i] kaufe, und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, werde ich auf die nächste Kerze [i+2] warten, aber wenn der Preis noch tiefer fällt, werde ich umkehren, wenn nicht, werde ich buy[i...20] behalten.
Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung der realisierten Position....
Aber es gibt unzählige solcher Kombinationen von Argumentationsoptionen, und damit wir sie nicht alle durchgehen müssen, trainieren wir die Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,
Q-Neuron oder -Matrix wird vorher trainiert...
So sehe ich das...
Wenn man anfängt, es richtig zu sehen, verschwindet der "Wow-Faktor".
Sie beschreiben die Politik eines Agenten, einen mehrgleisigen Ansatz. Ich habe alles darüber geschrieben. Ich schreibe in Nerd-Sprache, damit es Sinn macht, und ich habe es vergessen.
Genau, es ist so primitiv.
Es gibt hier eine, die sich über Agenten echauffiert hat, bevor sie verbannt wurde).
Ich stimme zu, kaufen verkaufen nicht handeln ist nicht Staaten. Es gibt eine ganze Reihe von Zuständen. ))))
Agenten-Zustände oder Aktionen. Ich schlage vor, dass Sie ein paar Monate lang Bücher lesen, um zu verstehen, worüber Sie geschrieben haben, und zu denselben Schlussfolgerungen kommen) Ohne die Reaktion der Umwelt auf die Aktionen des Agenten gibt es nichts zu optimieren, das geschieht in einem Durchgang.