Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2413

 
Maxim Dmitrievsky:
Ich verstehe nicht ganz, warum das funktionieren könnte.

Angenommen, es gibt zufällige Prädiktoren in der Stichprobe, also Rauschen, so besteht das Ziel darin, das Rauschen zu bereinigen.

Glauben Sie, dass dies die Ergebnisse nicht verbessern wird?

 
Aleksey Vyazmikin:

Angenommen, es gibt zufällige Prädiktoren in der Stichprobe, d. h. Rauschen, so besteht das Ziel darin, das Rauschen zu beseitigen.

Glauben Sie, dass dies die Ergebnisse nicht verbessern wird?

Es ist einfacher, eine beliebige Chip-Ziel-Kombination zu nehmen und die Signale nach Zeit zu filtern, bis ein stabiles Signal gefunden wird. Und einen Bot aus solchen Modellen bauen
 
Maxim Dmitrievsky:
Es ist einfacher, ein beliebiges Chip-Ziel-Bündel zu nehmen und Signale nach Zeit zu filtern, bis ein stabiles Signal gefunden wird. Und einen Bot aus solchen Modellen bauen

Entweder verstehe ich den Punkt nicht, dann schreiben Sie genauer, oder ich verstehe nicht, wie sich die vorgeschlagene Maßnahme von der Hinzufügung eines zusätzlichen Prädiktors_2 mit Zeitinformationen zu Prädiktor_1 unterscheidet?

 
Aleksey Vyazmikin:

Ich habe darüber nachgedacht, wie man die Methode zur Auswahl von Prädiktoren/Attributen/Merkmalen durch Analyse des resultierenden Modells verbessern kann.

Ich habe einige Ideen für die Implementierung des Algorithmus, aber beschlossen, sie mit der angesehenen Gemeinschaft zu teilen, vielleicht gibt es einige konstruktive Kritik oder Ergänzungen/Verfeinerungen des Algorithmus, bevor wir an der Implementierung dieses Algorithmus arbeiten. Es ist interessant zu denken, dass nichts mit Rechtfertigung funktioniert.


Auswahl von Prädiktoren nach Häufigkeit der Verwendung (Merkmalsbedeutung) bei der Erstellung eines CatBoost-Modells
.

Die Idee ist, dass jeder Algorithmus seine eigenen Besonderheiten bei der Baumbildung hat und wir die Prädiktoren auswählen, die von dem Algorithmus am häufigsten verwendet werden, in diesem Fall CatBoost.

Um jedoch die Gleichmäßigkeit auf der Zeitskala zu schätzen, werden wir mehrere Stichproben verwenden und deren Daten in einer einzigen Tabelle zusammenfassen. Mit diesem Ansatz werden zufällige Ereignisse herausgefiltert, die einen starken Einfluss auf die Wahl des Prädiktors in einem der Modelle haben. Die Regelmäßigkeiten, auf denen das Modell aufbaut, sollten in der gesamten Stichprobe vorkommen, was eine korrekte Klassifizierung in den neuen Daten erleichtern kann. Dieses Merkmal gilt für Daten aus dem Markt, d. h. Daten ohne Vollständigkeit, einschließlich versteckter Zyklizität, d. h. nicht zeitlich, sondern ereignisbezogen. Dabei ist es wünschenswert, Prädiktoren zu bestrafen, die in einer der Grafiken nicht in den obersten 30-50% liegen, was die Auswahl von Prädiktoren ermöglicht, die am häufigsten für Modelle auf verschiedenen Zeithorizonten nachgefragt werden.

Um den Zufallsfaktor zu verringern, sollten wir außerdem Modelle mit unterschiedlichen Seed-Werten verwenden. Ich denke, es sollte zwischen 25 und 100 solcher Modelle geben. Ob der Koeffizient in Abhängigkeit von der Qualität des erhaltenen Modells hinzugefügt werden sollte oder ob einfach nur der Durchschnitt aller Ergebnisse nach Prädiktoren gebildet werden sollte, weiß ich noch nicht, aber ich denke, wir sollten mit der einfachen Variante beginnen, d.h. nur den Durchschnitt bilden.

Die Verwendung einer Quantisierungstabelle ist wichtig, da sie für die Auswahl der Prädiktoren entscheidend sein kann. Wenn die Tabelle nicht festgelegt ist, erstellt jedes Modell seine eigene Tabelle für die Unterstichprobe, so dass ein Vergleich der Ergebnisse unmöglich ist; die Tabelle muss also allen Stichproben gemeinsam sein.

Es ist möglich, eine Quantisierungstabelle zu erhalten:

  1. Durch die Einstellung von Hyperparametern für CatBoost über die Art und Anzahl der Partitionen in Quanten der gesamten Trainingsstichprobe und das Speichern der Ergebnisse in csv.
  2. Legen Sie die Hyperparameter für CatBoost nach Typ und Anzahl der Partitionen in Quanten fest, indem Sie einen der Stichprobenbereiche, z. B. den besten, auswählen, und speichern Sie die Ergebnisse im csv-Format.
  3. Ermitteln Sie eine Tabelle mithilfe eines separaten Skripts, das die besten Optionen aus einer Reihe von Tabellen auswählt.
Durch das erzwungene Laden der Tabellen während des Trainings werden für jede Probe die zuvor erhaltenen Tabellen verwendet.

Die Quantisierung kann vor der Einspeisung in den Booster selbst vorgenommen werden - so haben Sie alles unter Kontrolle.
Von 0 bis 0,00005 = 0,00005 von 0,00005 bis 0,00010 = 0,00010, usw.

 
elibrarius:

Sie können sich vor der Einspeisung in den Boost selbst quantifizieren - alles wird unter Ihrer Kontrolle sein.
0 bis 0,00005 = 0,00005 0,00005 bis 0,00010 = 0,00010 usw.

Die dritte Möglichkeit, eine Quantisierungstabelle zu erhalten, umfasst auch die Auswertung von benutzerdefinierten Quantisierungstabellen, die ich vorab generiere. Experimente zeigen, dass dies nicht immer die beste Option ist. Übrigens, da wir über numerische Sequenzen sprechen, welche anderen Schritte können außer linearen, Fibonacci- und Exponentialsequenzen verwendet werden?

 
Aleksey Vyazmikin:

Die dritte Möglichkeit, eine Quantifizierungstabelle zu erhalten, umfasst auch die Auswertung von benutzerdefinierten Quantifizierungstabellen, die ich vorab generiere. Experimente zeigen, dass dies nicht immer die beste Option ist. Übrigens, da wir über numerische Sequenzen sprechen, welche anderen Schritte außer linearen, Fibonacci, exponentiellen?

Sind 3 nicht genug für Sie? Ich habe die Zahl der Experimente bereits verdreifacht)), wo sonst?
 
Aleksey Vyazmikin:

Entweder verstehe ich den Punkt nicht, dann schreiben Sie mehr Details, oder ich verstehe nicht, wie sich die vorgeschlagenen Maßnahmen davon unterscheiden, einen zusätzlichen Prädiktor_2 mit Zeitinformationen zu Prädiktor_1 hinzuzufügen?

Es gibt Gründe, die Details nicht zu schreiben, aber sie werden irgendwann erscheinen. Teile des Systems wurden hier bereits beschrieben. Für mich ist das die einzig sinnvolle Option, die nicht an eine Auswahl von Attributen gebunden ist. Im Idealfall können die Attribute beliebig sein, ebenso wie die Tags. Die Aufgabe des Algorithmus besteht darin, diese zu kalibrieren und dabei die zeitliche Komponente zu berücksichtigen (Herausfiltern von Stellen, an denen diese Attribute nicht funktionieren). Beweise - Prado's Meta-Etikettierung mit einigen Anpassungen dieses Ansatzes. Sie befinden sich in einer völlig anderen Steppe, so dass Sie vielleicht kein Verständnis aufbringen können.
 
elibrarius:
Drei sind nicht genug für Sie? Die Zahl der Experimente hat sich bereits verdreifacht), was gibt es da noch zu tun?

Natürlich nicht genug :) Ich wähle nämlich für jeden Prädiktor die optimale Tabelle aus, und je mehr Nicht-Stichproben, desto besser. Die neueste Version des Skripts wählt die besten Intervalle aus allen Tabellen aus und kombiniert sie in einer Tabelle für jeden Prädiktor.

 
Maxim Dmitrievsky:
Es gibt Gründe, noch keine Details zu schreiben, aber sie werden eines Tages kommen. Teile des Systems wurden hier bereits beschrieben. Für mich ist das die einzig sinnvolle Option, die nicht an eine Schale von Auswahlmerkmalen gebunden ist. Im Idealfall können die Attribute beliebig sein, ebenso wie die Tags. Die Aufgabe des Algorithmus besteht darin, diese zu kalibrieren und dabei die zeitliche Komponente zu berücksichtigen (Herausfiltern von Stellen, an denen diese Attribute nicht funktionieren). Beweise - Prado's Meta-Etikettierung mit einigen Anpassungen dieses Ansatzes. Sie befinden sich in einer völlig anderen Steppe, so dass Sie vielleicht kein Verständnis aufbringen können.

Ja, was die Kalibrierung des Algorithmus angeht, ist es wirklich nicht klar. Selbst wenn Sie Ausbildungsplätze herausgefiltert haben, ist nicht klar, wie Sie diese Plätze bei der Bewerbung erkennen können.

 

Sind Sie ein Fan des Films The Matrix?

Was hat die Matrix damit zu tun?
Ich lese schlaue Leute, man kann in einer Stunde mehr Informationen bekommen als in 10 Jahren, in denen man alle möglichen Aufblähungen von Underdogs aus Übersee liest...
und nicht so sehr...
Grund der Beschwerde: