Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2381

 
Maxim Dmitrievsky:

die Katbüste hat eine ziemlich starke Regularisierung, insbesondere wenn die Zeichen kategorisch sind, sollten sie im Boost so deklariert werden

Die Verringerung der L2-Regularisierung brachte keine Verbesserung . Lasso funktioniert also besser.

 
elibrarius:

Vielleicht ist es nur ein gutes Stück Prüfungsstoff. Und Sie passen es an, indem Sie das Modell mit den besten Parametern dafür auswählen.

Ich prüfe jetzt immer mit Kreuzvalidierung (oder Vorwärtsvalidierung), es gibt keine Anpassung an einen kleinen Ausschnitt, sondern an alle Daten auf einmal, ich denke, das ist der beste Weg zu lernen.
Auch Doc riet dazu, bevor er aus dem Forum verschwand.

Zunächst einmal kann ich Lasso nicht einstellen, es gibt also überhaupt keine Anpassung, sondern nur die Parameter.

Zweitens ist es die gleiche Handlung mit CatBoostom - und es gibt 800 Modelle zur Auswahl, und ich habe praktisch die besten Optionen genommen.

Ich habe die Datei angehängt - probieren Sie selbst verschiedene Modelle aus, Lasso wird nur für binäre Muster empfohlen - das ist ein Trick.

 
Aleksey Vyazmikin:

Erstens weiß ich nicht, wie man Lasso einstellt, also gibt es überhaupt keine Einstellungen - es ist einfach so, wie die Parameter sind.

Zweitens ist es dieselbe Website wie CatBoostom - und es gibt 800 Modelle zur Auswahl, von denen ich praktisch die besten ausgewählt habe.

Ich habe die Datei angehängt - probieren Sie verschiedene Modelle aus, Lasso wird nur für binäre Stichproben empfohlen - das ist der Trick.

Versuchen Sie es so, wie es ist, für die Kreuzvalidierung. Zyklus 10 Mal mit verschiedenen unbekannten Plots von 1/10 der Gesamtdaten. Es wird die beste Schätzung für die Auswahl von catbust mit einigen Parametern oder lasso mit Standardparametern sein.

 
Maxim Dmitrievsky:


Versuchen Sie es auf die gleiche Weise. Im benutzerdefinierten Tester hat es gut funktioniert, beim Exportieren des Modells gibt es ein Problem, ich werde später nach einem Fehler suchen.

Wenn MA an der Ausbildung beteiligt ist, sollte sie dann nicht auch bei der Anwendung des Modells dabei sein?

Das Wesen von MAShka ist Partitionierung Typ - oben nur eine Klasse, und unten nur die andere?

 
elibrarius:

Probieren Sie es so aus, wie es ist, um eine Kreuzvalidierung durchzuführen. Zyklus 10 Mal mit verschiedenen unbekannten Plots von 1/10 der Gesamtdaten. Dies ist die beste Schätzung, um catbust mit einigen Parametern oder lasso mit Standardparametern auszuwählen.

Die Binarisierung erfolgt durch eine Methode der Stichprobenschätzung, so dass die Kreuzvalidierung bessere Ergebnisse auf den Hauptstichprobenplots zeigt.

Die Kreuzvalidierung ist für zeitlich gebundene Stichproben nicht wirklich relevant, aber im Falle des Handels schon - der Markt ändert sich allmählich und das Modell muss im Laufe der Zeit stabile Muster finden, und im Falle der Kreuzvalidierung kann das Zeitintervall des Trainings und der Überprüfung nah an der trainierten Stichprobe liegen oder von ihr abweichen.

Im Moment habe ich CatBoost auf 60 % aller Daten trainiert - 20 % gehen in die Stoppkontrolle und die letzten 20 % in die Auswertung des Modells.

Wenn wir von 10 % für die Ausbildung sprechen, ist das eine zu kleine Stichprobe.
 
Aleksey Vyazmikin:

Die Kreuzvalidierung ist für zeitlich gebundene Stichproben nicht ganz geeignet, aber im Falle des Handels schon - der Markt ändert sich allmählich, und das Modell muss im Laufe der Zeit stabile Muster finden, und im Falle der Kreuzvalidierung kann das Zeitintervall von Training und Validierung nahe an der zu trainierenden Stichprobe liegen oder von ihr abgezogen werden.

Sie sprechen von einer Art Standard-/Antiquitäts-Kreuzvalidierung.
Erstens brauchen Sie die Zeilen nicht zu mischen, und nehmen Sie Blöcke, wie es 0-90 Training 90-100 Test, dann 10-100 Training, 0-10 Test, dann 20-100-10 Training 10-20 Test, usw. sind.
Zweitens müssen Sie, dem Rat von Prado folgend, einen gewissen Abstand (Pruning) zwischen Train und Test lassen, um zu vermeiden, dass benachbarte Beispiele aus Train und Test in Ihre Arbeit einfließen. Ein Beispiel aus dem Zug, das an 10-100 Beispiele aus dem Test angrenzt, wird ihr Hinweis/Sucher sein. Lesen Sie hier mehr https://dou.ua/lenta/articles/ml-vs-financial-math/
Oder hier ein Bild:

Aleksey Vyazmikin:

Im Moment wird mein CatBoost auf 60 % aller Daten trainiert - 20 % davon dienen der Stoppkontrolle und die letzten 20 % der Modellbewertung.

Wenn wir von 10 % für die Ausbildung sprechen, ist das zu wenig für Stichproben.
Sie können 20 % oder so viel wie Sie wollen.

Und schließlich können Sie anstelle der Quervalidierung auch ein Rolling Forward verwenden. Der nimmt den Testabschnitt nicht im Kreis, sondern nur vorne.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maxim Dmitrijewski

Was bewirkt shuffle?Wenn es False ist, sind die Ergebnisse normalerweise viel schlechter als wenn es True ist.

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

Ein Bild, das den Abschiedsgruß erklärt.

 
Evgeni Gavrilovi:

Wofür ist der Parameter shuffle verantwortlich?Wenn er auf False steht, sind die Ergebnisse in der Regel viel schlechter als wenn er auf True steht.

Mischt die Beispiele für den Test und das Training, so dass sie nicht aufeinander folgen.

 
Maxim Dmitrievsky:

die Beispiele für die Triole und den Test vertauscht, so dass sie nicht aufeinander folgen?

zufällig? wie hier angegeben? der Test an einer Zufallsstichprobe von 50%