Diskussion zum Artikel "Fortschrittliches Resampling und Auswahl von CatBoost-Modellen durch die Brute-Force-Methode" - Seite 4

 
Maxim Dmitrievsky:

ist nicht die Suche nach Mustern in der Zukunft, sondern die Suche nach Abhängigkeiten in einer Reihe. Die Reihenfolge ist nicht wichtig. Sie können in der Mitte suchen und vorne und hinten testen, es wird nichts ändern

es ist so einfach zu verstehen, dass es keiner weiteren Erklärung bedarf.

Der Vorteil ist, dass das gefundene Muster mit der Zeit verblassen kann. In diesem Fall ist das Lernen aus aktuellen Daten vorzuziehen.

Es ist nicht einfach. Es scheint immer so zu sein: je näher, desto wahrer. Substitution des Konzepts. Eigentlich das Gleiche für die Aufgabe, Muster zu finden).

 
Stanislav Korotky:

Es handelt sich nicht um eine abstrakte Reihe. Es gibt offensichtliche "Abhängigkeiten" (das gleiche Wort, aber die Bedeutung ist für das Verständnis unterschiedlich) von links nach rechts (von der Vergangenheit zur Zukunft), aber nicht umgekehrt. Es gibt kaum wissenschaftliche Veröffentlichungen über die Vorhersage von Zitaten, in denen Tests für die Vergangenheit durchgeführt würden.

Hätten die Vorzeichen einen linearen Trend oder eine andere Zeitabhängigkeit, wäre es richtig. Das Modell aus dem Artikel berücksichtigt die Zeit in keiner Weise, Konsistenz ist nicht wichtig

Und wenn man sich neuere ökonometrische Ansätze wie Bootstrap oder neuronale Netze ansieht, werden dort Sequenzen durcheinander gebracht. D.h. es gibt keine zeitlichen Abhängigkeiten.

 

В первую очередь необходимо провести кластеризацию исходных данных, включая метки классов

Ich denke, es führt zu Peeking.
Führen Sie es auf einem Demo-Konto mit einem Signal, für einen Monat, um es zu testen.

 
Stanislav Korotky:

Es handelt sich nicht um eine abstrakte Reihe. Es gibt offensichtliche "Abhängigkeiten" (das gleiche Wort, aber die Bedeutung ist für das Verständnis unterschiedlich) von links nach rechts (von der Vergangenheit zur Zukunft), aber nicht umgekehrt. Es gibt kaum wissenschaftliche Veröffentlichungen über die Vorhersage von Zitaten, in denen Tests für die Vergangenheit durchgeführt würden.

Auf Prognosen bin ich nicht gestoßen, aber auf Forschung dann 13 Jahre auf Minuten 4 Millionen Punkte. Der CaP-Index. Von '84 bis '96. Der Beginn der Wirtschaftsphysik. Sie bewiesen seine Nicht-Stationarität, das Vorhandensein von SB, und seine Ähnlichkeit mit physikalischen Prozessen.

 
elibrarius:

Ich glaube, das führt zu Peeking.
Führen Sie es auf einem Demo-Konto mit einem Signal für einen Monat, um es zu testen.

Der Bot-Quellcode ist beigefügt, Sie können ihn testen.

Es gibt kein Peeking.

 
Maxim Dmitrievsky:

Der Bot-Quellcode ist beigefügt, Sie können ihn testen.

Es wird nicht geguckt.

Ich habe darüber nachgedacht. Ich stimme zu.

Ein weiterer Punkt.
Man wählt aus 50 zufälligen Trainings dasjenige aus, das im Test das beste Ergebnis liefert. Dies könnte man als Anpassung an den Test bezeichnen. Bei neuen Daten ist es vielleicht nicht so gut.
Sie sollten lieber einen Mittelwert aus allen 50 Modellen bilden.
 
elibrarius:
Ich habe noch einmal darüber nachgedacht. Ich stimme zu.

Ein weiterer Punkt.
Sie wählen aus 50 zufälligen Trainingseinheiten diejenige aus, die im Test das beste Ergebnis liefert. Dies könnte man als Anpassung an den Test bezeichnen. Bei neuen Daten ist es vielleicht nicht so gut.
Sie sollten lieber einen Mittelwert aus allen 50 Modellen bilden.

Ich führe einen weiteren Test mit früheren Daten durch, einen unabhängigen Test. Wenn das Ergebnis schlecht ist, werfe ich es weg.

Ein Beispiel: Das Training wird in 2 Monaten durchgeführt, das Modell wird über einen Zeitraum von einem Jahr ausgewählt. Dann ein unabhängiger Test - 5-10 Jahre.

Ich habe den Ansatz in dem Artikel skizziert, aber es gibt noch Raum für Verbesserungen.

Ich sehe nicht den Sinn einer Mittelwertbildung
 
Maxim Dmitrievsky:

Ich führe einen weiteren, unabhängigen Test mit den früheren Daten durch. Wenn das Ergebnis schlecht ist, werfe ich es weg

Ich habe den Ansatz in dem Artikel skizziert, aber es gibt noch Raum für Verbesserungen.

Scheitert das schlechteste Modell? Und das mittlere?

 
elibrarius:

Ist das schlechteste Modell entwässernd? Und das mittlere Modell?

anders

 
Maxim Dmitrievsky:

anders

Dann sollten Sie auf jeden Fall den Durchschnitt berechnen. Sonst wird es bei den neuen Daten "anders" sein.