Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2413
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Ich verstehe nicht ganz, warum das funktionieren könnte.
Angenommen, es gibt zufällige Prädiktoren in der Stichprobe, also Rauschen, so besteht das Ziel darin, das Rauschen zu bereinigen.
Glauben Sie, dass dies die Ergebnisse nicht verbessern wird?
Angenommen, es gibt zufällige Prädiktoren in der Stichprobe, d. h. Rauschen, so besteht das Ziel darin, das Rauschen zu beseitigen.
Glauben Sie, dass dies die Ergebnisse nicht verbessern wird?
Es ist einfacher, ein beliebiges Chip-Ziel-Bündel zu nehmen und Signale nach Zeit zu filtern, bis ein stabiles Signal gefunden wird. Und einen Bot aus solchen Modellen bauen
Entweder verstehe ich den Punkt nicht, dann schreiben Sie genauer, oder ich verstehe nicht, wie sich die vorgeschlagene Maßnahme von der Hinzufügung eines zusätzlichen Prädiktors_2 mit Zeitinformationen zu Prädiktor_1 unterscheidet?
Ich habe darüber nachgedacht, wie man die Methode zur Auswahl von Prädiktoren/Attributen/Merkmalen durch Analyse des resultierenden Modells verbessern kann.
Ich habe einige Ideen für die Implementierung des Algorithmus, aber beschlossen, sie mit der angesehenen Gemeinschaft zu teilen, vielleicht gibt es einige konstruktive Kritik oder Ergänzungen/Verfeinerungen des Algorithmus, bevor wir an der Implementierung dieses Algorithmus arbeiten. Es ist interessant zu denken, dass nichts mit Rechtfertigung funktioniert.
Auswahl von Prädiktoren nach Häufigkeit der Verwendung (Merkmalsbedeutung) bei der Erstellung eines CatBoost-Modells
.
Die Idee ist, dass jeder Algorithmus seine eigenen Besonderheiten bei der Baumbildung hat und wir die Prädiktoren auswählen, die von dem Algorithmus am häufigsten verwendet werden, in diesem Fall CatBoost.
Um jedoch die Gleichmäßigkeit auf der Zeitskala zu schätzen, werden wir mehrere Stichproben verwenden und deren Daten in einer einzigen Tabelle zusammenfassen. Mit diesem Ansatz werden zufällige Ereignisse herausgefiltert, die einen starken Einfluss auf die Wahl des Prädiktors in einem der Modelle haben. Die Regelmäßigkeiten, auf denen das Modell aufbaut, sollten in der gesamten Stichprobe vorkommen, was eine korrekte Klassifizierung in den neuen Daten erleichtern kann. Dieses Merkmal gilt für Daten aus dem Markt, d. h. Daten ohne Vollständigkeit, einschließlich versteckter Zyklizität, d. h. nicht zeitlich, sondern ereignisbezogen. Dabei ist es wünschenswert, Prädiktoren zu bestrafen, die in einer der Grafiken nicht in den obersten 30-50% liegen, was die Auswahl von Prädiktoren ermöglicht, die am häufigsten für Modelle auf verschiedenen Zeithorizonten nachgefragt werden.
Um den Zufallsfaktor zu verringern, sollten wir außerdem Modelle mit unterschiedlichen Seed-Werten verwenden. Ich denke, es sollte zwischen 25 und 100 solcher Modelle geben. Ob der Koeffizient in Abhängigkeit von der Qualität des erhaltenen Modells hinzugefügt werden sollte oder ob einfach nur der Durchschnitt aller Ergebnisse nach Prädiktoren gebildet werden sollte, weiß ich noch nicht, aber ich denke, wir sollten mit der einfachen Variante beginnen, d.h. nur den Durchschnitt bilden.
Die Verwendung einer Quantisierungstabelle ist wichtig, da sie für die Auswahl der Prädiktoren entscheidend sein kann. Wenn die Tabelle nicht festgelegt ist, erstellt jedes Modell seine eigene Tabelle für die Unterstichprobe, so dass ein Vergleich der Ergebnisse unmöglich ist; die Tabelle muss also allen Stichproben gemeinsam sein.
Es ist möglich, eine Quantisierungstabelle zu erhalten:
Die Quantisierung kann vor der Einspeisung in den Booster selbst vorgenommen werden - so haben Sie alles unter Kontrolle.
Von 0 bis 0,00005 = 0,00005 von 0,00005 bis 0,00010 = 0,00010, usw.
Sie können sich vor der Einspeisung in den Boost selbst quantifizieren - alles wird unter Ihrer Kontrolle sein.
0 bis 0,00005 = 0,00005 0,00005 bis 0,00010 = 0,00010 usw.
Die dritte Möglichkeit, eine Quantisierungstabelle zu erhalten, umfasst auch die Auswertung von benutzerdefinierten Quantisierungstabellen, die ich vorab generiere. Experimente zeigen, dass dies nicht immer die beste Option ist. Übrigens, da wir über numerische Sequenzen sprechen, welche anderen Schritte können außer linearen, Fibonacci- und Exponentialsequenzen verwendet werden?
Die dritte Möglichkeit, eine Quantifizierungstabelle zu erhalten, umfasst auch die Auswertung von benutzerdefinierten Quantifizierungstabellen, die ich vorab generiere. Experimente zeigen, dass dies nicht immer die beste Option ist. Übrigens, da wir über numerische Sequenzen sprechen, welche anderen Schritte außer linearen, Fibonacci, exponentiellen?
Entweder verstehe ich den Punkt nicht, dann schreiben Sie mehr Details, oder ich verstehe nicht, wie sich die vorgeschlagenen Maßnahmen davon unterscheiden, einen zusätzlichen Prädiktor_2 mit Zeitinformationen zu Prädiktor_1 hinzuzufügen?
Drei sind nicht genug für Sie? Die Zahl der Experimente hat sich bereits verdreifacht), was gibt es da noch zu tun?
Natürlich nicht genug :) Ich wähle nämlich für jeden Prädiktor die optimale Tabelle aus, und je mehr Nicht-Stichproben, desto besser. Die neueste Version des Skripts wählt die besten Intervalle aus allen Tabellen aus und kombiniert sie in einer Tabelle für jeden Prädiktor.
Es gibt Gründe, noch keine Details zu schreiben, aber sie werden eines Tages kommen. Teile des Systems wurden hier bereits beschrieben. Für mich ist das die einzig sinnvolle Option, die nicht an eine Schale von Auswahlmerkmalen gebunden ist. Im Idealfall können die Attribute beliebig sein, ebenso wie die Tags. Die Aufgabe des Algorithmus besteht darin, diese zu kalibrieren und dabei die zeitliche Komponente zu berücksichtigen (Herausfiltern von Stellen, an denen diese Attribute nicht funktionieren). Beweise - Prado's Meta-Etikettierung mit einigen Anpassungen dieses Ansatzes. Sie befinden sich in einer völlig anderen Steppe, so dass Sie vielleicht kein Verständnis aufbringen können.
Ja, was die Kalibrierung des Algorithmus angeht, ist es wirklich nicht klar. Selbst wenn Sie Ausbildungsplätze herausgefiltert haben, ist nicht klar, wie Sie diese Plätze bei der Bewerbung erkennen können.
Sind Sie ein Fan des Films The Matrix?