Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1325

 
Farkhat Guzairov:

Alles oben genannte ist cool und sehr informativ, aber "Trainingskontrolle", was bedeutet das?

D.h. Sie trainieren das System z.B. auf einer Stichprobe von Daten aus dem Jahr 2014 und geben dann eine Stichprobe aus dem Jahr 2015 ein und wollen die Wahrscheinlichkeit von Mustern sehen? Wenn ja, dann brauchen Sie nichts auszutauschen, alles ist korrekt. Nur sehe ich hier kein Problem, wenn die Kontrolle andere Ergebnisse als die erwarteten liefert, das wird immer so sein.

Ich verwende CatBoost für das Training, es besteht die Möglichkeit, das Training auf einer Kontrollstichprobe (Validierung) zu stoppen, d.h. gleichzeitig erfolgt eine Fehlerreduktion auf einer Trainingsstichprobe und sofort wird auf der Kontrollstichprobe überprüft, wie sich das Ergebnis auf dieser verändert hat, wenn sich das Ergebnis auf der Kontrollstichprobe nicht um eine bestimmte Anzahl von Bäumen verbessert, dann wird das Training gestoppt und alle Bäume bis zur letzten Verbesserung werden abgeschnitten. Ja, die Chronologie ist so - ich bilde 2014 aus und kontrolliere die Ausbildung von 2015 bis 2018, prüfe das Ergebnis am 2018. Vielleicht ist es sinnvoll, die Plätze zu tauschen, weil die beim Training entdeckten Muster mit der Zeit nicht mehr funktionieren könnten und es vielleicht besser ist, mit Daten zu trainieren, die der Anwendung in der Realität näher sind - das ist eine offene Frage.

 
Farkhat Guzairov:

Wenn die praktische Anwendung von MO in Ihrem Fall meiner Meinung nach wie folgt aussieht.

Da 100% Wahrscheinlichkeit von wahren Ergebnissen einfach nicht realistisch ist, dann gehen Sie zu einer einfachen Methode, zum Beispiel das Verhältnis von wahren zu falschen Ergebnissen, wenn es etwa 50/50 ist, dann wieder müssen wir verstehen, welche Gewinne Sie mit diesen Ergebnissen zu bekommen, wenn 50% der Gewinn ist ein Durchschnitt von 100 Punkten und die restlichen 50% Verluste sind ein Durchschnitt von 50 Punkten, dann denke ich, Ihr System ist für den praktischen Einsatz geeignet.

Die Genauigkeit der Klassifizierung in der Tabelle ist die metrische Präzision - etwa 60 % (für die besten Modelle) erhalten korrekte Einträge, im Strategietester wird sie höher sein, da einige Positionen die Gewinnschwelle erreichen müssen, aber keinen Gewinn machen.

Es ist noch zu früh, um sich zu bewerben, wir sollten uns auf die nächste Phase vorbereiten - um die Modelle in Herbarien auszunehmen :)

 
Aleksey Vyazmikin:

Ich verwende CatBoost für das Training, es gibt eine Option, das Training an der Kontrollstichprobe (Validierung) zu stoppen, d.h. parallel Fehlerreduktion an der Trainingsstichprobe und sofortige Überprüfung an der Kontrollstichprobe, wie sich das Ergebnis an dieser verändert hat, wenn sich das Ergebnis an der Kontrollstichprobe nicht um eine bestimmte Anzahl von Bäumen verbessert, dann wird das Training gestoppt und alle Bäume bis zur letzten Verbesserung werden abgeschnitten. Ja, die Chronologie ist so - ich bilde 2014 aus und kontrolliere die Ausbildung von 2015 bis 2018, prüfe das Ergebnis am 2018. Vielleicht ist es sinnvoll, die Plätze zu tauschen, denn die beim Training erkannten Muster können mit der Zeit nicht mehr funktionieren, und es ist vielleicht besser, mit Daten zu trainieren, die der Anwendung in der Realität näher sind - eine offene Frage.

Das habe ich zum Beispiel bei mir selbst festgestellt. Je mehr Daten in die Ausbildung einfließen, desto "dichter" wird das System, d. h. Warum ist das so? Die Antwort, die Sie gegeben haben, ist, dass ein Modell in manchen Perioden ein positives Ergebnis liefert und dasselbe Modell in einer anderen Periode ein negatives Ergebnis liefert, was zur Folge hat, dass Sie das System in einen Stupor bringen, es wird, wie ich sagte, "eng", vielleicht intelligenter, aber das bedeutet nicht, dass das intelligente System wahrere Ergebnisse liefert, ich fürchte, die Verhältnisse bleiben dieselben, nur das System wird Ihnen seinen Standpunkt zur aktuellen Situation seltener mitteilen.

 
Aleksey Vyazmikin:

Zum Thema Boosting - es gab eine neuere Vorlesung (in Python mit catbust als Option) mit demselben Dozenten - kann ich nicht finden


Es ist interessant, dass GBM das Klassifizierungsproblem mit Regressionsbäumen löst.

Weiß das jemand? Gibt es andere Boosting-Methoden (Pakete), die dasselbe tun?

 
Aleksey Vyazmikin:

Und welche Schlussfolgerung lässt sich daraus ziehen? Es scheint, dass der optimale Umfang 60-70% der Validierungsstichprobe beträgt, d.h. das Training sollte auf einer kleineren Stichprobe als die Modellvalidierung stattfinden. Aber es ist unmöglich, den Zusammenbruch bei 30 % nicht hervorzuheben, auch dort ist das Ergebnis bei allen Indikatoren nicht schlecht, und die Misserfolge liegen bei 40 % und 50 %. Ich weiß nicht einmal, was sich mehr auf die Stichprobengröße oder den Inhalt auswirkt, und wie man es einrichtet...

Wenn 60-70 % gut und 30 % gut sind, besteht eine gewisse Wahrscheinlichkeit, dass diese Werte versehentlich erreicht werden.
Sie können versuchen, die Berechnungen vollständig zu wiederholen, und wenn es beim zweiten Mal dasselbe ist, können Sie es als Regelmäßigkeit betrachten. (Für eine höhere statistische Signifikanz sollte der Test 10 Mal wiederholt werden).
 
Farkhat Guzairov:

Was ich zum Beispiel bei mir selbst festgestellt habe. Je mehr Daten in die Ausbildung einfließen, desto "dichter" wird das System, d. h. Das ist der Grund, warum es eine geringere Wahrscheinlichkeit von Ergebnissen erzeugt, die Antwort ist, dass während bestimmter Zeiträume einige Modelle positive Ergebnisse zeigen und dieselben Modelle in einem anderen Zeitraum negative Ergebnisse zeigen, als Ergebnis gerät das System in einen Stupor und wie ich sagte, wird es "eng", aber es bedeutet nicht, dass das intelligente System mehr wahre Ergebnisse produzieren wird, ich fürchte, der Anteil bleibt der gleiche, aber das System wird Ihnen seine Meinung über die aktuelle Situation weniger häufig sagen.

Ich denke, es ist besser, weniger Signale im Handel zu haben, die präziser sind, und Modelle können in unabhängigen Ensembles kombiniert werden, dann wird die Genauigkeit der Klassifizierung hoch sein und die Vollständigkeit wird zunehmen (die Anzahl der Ereignisse, die als 1 qualifizieren). Die Hauptsache ist, dass man sich irgendwie daran gewöhnt, hervorragende Modelle zu erstellen, wiederum alternativ durch verschiedene Stichprobenaufteilungen.

 
elibrarius:

Interessanterweise löst das GBM das Klassifizierungsproblem mit Regressionsbäumen.

Weiß jemand Bescheid? Gibt es andere Boosting-Methoden (Pakete), die dasselbe tun?

Soweit ich weiß, wird dasselbe gemacht (an verschiedenen Stellen erwähnt). Aufgrund der Besonderheit der Ausbildung selbst gibt es keinen anderen Weg. Deshalb habe ich vorhin gesagt, dass die Reihenfolge der Bäume ihr Gewicht in der Antwort beeinflussen kann, und deshalb ist es sinnvoll, Ensembles von Blättern zu betrachten und sie in eine einzige Regel umzuwandeln.

 
elibrarius:
Wenn 60-70 % gut und 30 % gut sind, dann besteht die Möglichkeit, dass diese Zahlen versehentlich erreicht werden.
Sie können versuchen, die Berechnungen vollständig zu wiederholen, und wenn das Ergebnis beim zweiten Mal dasselbe ist, können Sie es als Muster betrachten. (Für eine höhere statistische Signifikanz sollte der Test 10 Mal wiederholt werden).

Wie machen Sie es noch einmal? D.h. es wird dasselbe sein, da das Saatgut festgelegt ist, kann man ein neues Saatgut nehmen - ich werde es später versuchen und sehen, was passiert.

Andererseits wurden pro Stichprobe 200 Modelle verwendet, was ebenfalls nicht wenig ist.
 
aus einer solchen Studie können auf einem nicht-stationären Markt keine Schlussfolgerungen gezogen werden
 
Maxim Dmitrievsky:
aus einer solchen Studie können auf einem nicht-stationären Markt keine Schlussfolgerungen gezogen werden

Die Stichprobe ist stationär, die Aufteilung für die Ausbildung hat sich geändert, aber für die unabhängige Bewertung bleibt sie gleich.

Bitte erläutern Sie Ihren Standpunkt.

Grund der Beschwerde: