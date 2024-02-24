Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2381
die Katbüste hat eine ziemlich starke Regularisierung, insbesondere wenn die Zeichen kategorisch sind, sollten sie im Boost so deklariert werden
Die Verringerung der L2-Regularisierung brachte keine Verbesserung . Lasso funktioniert also besser.
Vielleicht ist es nur ein gutes Stück Prüfungsstoff. Und Sie passen es an, indem Sie das Modell mit den besten Parametern dafür auswählen.
Ich prüfe jetzt immer mit Kreuzvalidierung (oder Vorwärtsvalidierung), es gibt keine Anpassung an einen kleinen Ausschnitt, sondern an alle Daten auf einmal, ich denke, das ist der beste Weg zu lernen.
Auch Doc riet dazu, bevor er aus dem Forum verschwand.
Ich habe die Datei angehängt - probieren Sie selbst verschiedene Modelle aus, Lasso wird nur für binäre Muster empfohlen - das ist ein Trick.
Erstens weiß ich nicht, wie man Lasso einstellt, also gibt es überhaupt keine Einstellungen - es ist einfach so, wie die Parameter sind.
Zweitens ist es dieselbe Website wie CatBoostom - und es gibt 800 Modelle zur Auswahl, von denen ich praktisch die besten ausgewählt habe.
Ich habe die Datei angehängt - probieren Sie verschiedene Modelle aus, Lasso wird nur für binäre Stichproben empfohlen - das ist der Trick.
Versuchen Sie es so, wie es ist, für die Kreuzvalidierung. Zyklus 10 Mal mit verschiedenen unbekannten Plots von 1/10 der Gesamtdaten. Es wird die beste Schätzung für die Auswahl von catbust mit einigen Parametern oder lasso mit Standardparametern sein.
Versuchen Sie es auf die gleiche Weise. Im benutzerdefinierten Tester hat es gut funktioniert, beim Exportieren des Modells gibt es ein Problem, ich werde später nach einem Fehler suchen.
Wenn MA an der Ausbildung beteiligt ist, sollte sie dann nicht auch bei der Anwendung des Modells dabei sein?
Das Wesen von MAShka ist Partitionierung Typ - oben nur eine Klasse, und unten nur die andere?
Probieren Sie es so aus, wie es ist, um eine Kreuzvalidierung durchzuführen. Zyklus 10 Mal mit verschiedenen unbekannten Plots von 1/10 der Gesamtdaten. Dies ist die beste Schätzung, um catbust mit einigen Parametern oder lasso mit Standardparametern auszuwählen.
Die Binarisierung erfolgt durch eine Methode der Stichprobenschätzung, so dass die Kreuzvalidierung bessere Ergebnisse auf den Hauptstichprobenplots zeigt.
Die Kreuzvalidierung ist für zeitlich gebundene Stichproben nicht wirklich relevant, aber im Falle des Handels schon - der Markt ändert sich allmählich und das Modell muss im Laufe der Zeit stabile Muster finden, und im Falle der Kreuzvalidierung kann das Zeitintervall des Trainings und der Überprüfung nah an der trainierten Stichprobe liegen oder von ihr abweichen.
Im Moment habe ich CatBoost auf 60 % aller Daten trainiert - 20 % gehen in die Stoppkontrolle und die letzten 20 % in die Auswertung des Modells.Wenn wir von 10 % für die Ausbildung sprechen, ist das eine zu kleine Stichprobe.
Sie sprechen von einer Art Standard-/Antiquitäts-Kreuzvalidierung.
Erstens brauchen Sie die Zeilen nicht zu mischen, und nehmen Sie Blöcke, wie es 0-90 Training 90-100 Test, dann 10-100 Training, 0-10 Test, dann 20-100-10 Training 10-20 Test, usw. sind.
Zweitens müssen Sie, dem Rat von Prado folgend, einen gewissen Abstand (Pruning) zwischen Train und Test lassen, um zu vermeiden, dass benachbarte Beispiele aus Train und Test in Ihre Arbeit einfließen. Ein Beispiel aus dem Zug, das an 10-100 Beispiele aus dem Test angrenzt, wird ihr Hinweis/Sucher sein. Lesen Sie hier mehr https://dou.ua/lenta/articles/ml-vs-financial-math/
Oder hier ein Bild:
Im Moment wird mein CatBoost auf 60 % aller Daten trainiert - 20 % davon dienen der Stoppkontrolle und die letzten 20 % der Modellbewertung.Wenn wir von 10 % für die Ausbildung sprechen, ist das zu wenig für Stichproben.
Und schließlich können Sie anstelle der Quervalidierung auch ein Rolling Forward verwenden. Der nimmt den Testabschnitt nicht im Kreis, sondern nur vorne.
Was bewirkt shuffle?Wenn es False ist, sind die Ergebnisse normalerweise viel schlechter als wenn es True ist.
Ein Bild, das den Abschiedsgruß erklärt.
Wofür ist der Parameter shuffle verantwortlich?Wenn er auf False steht, sind die Ergebnisse in der Regel viel schlechter als wenn er auf True steht.
Mischt die Beispiele für den Test und das Training, so dass sie nicht aufeinander folgen.
die Beispiele für die Triole und den Test vertauscht, so dass sie nicht aufeinander folgen?
zufällig? wie hier angegeben? der Test an einer Zufallsstichprobe von 50%