Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 743

 
Mihail Marchukajtes:

Indem wir alle Daten mischen, versuchen wir, das wirkliche Potenzial dieses Satzes zu nutzen, und nicht nur eine glückliche Fügung der Ordnung. Wenn man die Daten mischt, sieht man erst richtig, was die Daten leisten können... So....

Der Punkt ist, dass das Modell zu gut passt, wenn man Training und Test nicht rechtzeitig trennt. Ein übertriebenes, aber anschauliches Beispiel: absolute Inkremente ohne Transformationen werden als Prädiktoren verwendet. Wir verwenden ein gleitendes Fenster der Breite 15, d.h. jedes Mal, wenn wir 15 inkrementelle Prädiktoren eingeben, verschieben wir einen Wert nach rechts. Die Klassen benachbarter Zeichenketten stimmen eher überein als dass sie sich unterscheiden, d. h. wenn die n-te Zeichenkette die Klasse 1 hat, dann hat die n+1-te Zeichenkette höchstwahrscheinlich auch die Klasse 1. Die Zeichenketten können sich nur geringfügig voneinander unterscheiden, die n+1-te Zeichenkette unterscheidet sich von der n-ten nur in einem Wert. Es gibt 14 übereinstimmende Werte. Wenn man also die erste Zeile aus einem solchen Datensatz zum Trainieren nimmt, die zweite zum Testen, die dritte zum Trainieren usw., dann wird das Modell sehr gut funktionieren, weil es viele Zeilen im Test gibt, die tatsächlich mit den Werten übereinstimmen, auf die das Modell in Train trainiert wurde. Nur das OOS des Modells wird schlecht sein (wenn Sie das echte OOS meinen, das keinen Test beinhaltet).
 
Vladimir Perervenko:

Wenn es um die Schätzung von Prädiktoren mit Hilfe von Modellen geht, ist RandomUniformForest meiner Meinung nach das am weitesten entwickelte Paket. Sie befasst sich sehr ausführlich mit der Bedeutung von Prädiktoren unter verschiedenen Gesichtspunkten. Ich empfehle Ihnen, einen Blick darauf zu werfen. In einem meiner Artikel habe ich sie ausführlich beschrieben.

Ich habe mich geweigert, eine Modellauswahl von Prädiktoren zu verwenden. Begrenzt auf die Spezifika des verwendeten Modells.

Viel Glück!

Ich schreibe immer wieder über etwas ganz anderes: Ich bin NICHT an der Intensität der Verwendung von Prädiktoren bei der Erstellung eines Modells interessiert, da ich der Meinung bin, dass der "bequemste" Prädiktor für die Erstellung eines Modells ein Prädiktor ist, der wenig Beziehung zur Zielvariablen hat, da man in einem solchen Prädiktor immer "bequeme" Werte finden kann und die Bedeutung der Prädiktoren letztendlich die "Bequemlichkeit" des Modells bei der Erstellung widerspiegelt.

Ich schreibe ständig über Vorhersagekraft, die Auswirkungen von ... des Prädiktors auf die Zielvariable. Eine der Ideen wurde weiter oben geäußert (gegenseitige Information), ich habe meine Idee dazu schon oft geäußert. Dies sind mathematische Ideen. Viel effektiver sind ökonomische Ideen, denn hier kann man Prädiktoren für die Zielvariable auswählen, die der Zielvariable voraus sind.


Also noch einmal: Mich interessiert nicht die WICHTIGKEIT der Variable für das Modell, sondern die AUSWIRKUNG des Prädiktors auf die Zielvariable.


PS.

Ich habe das von Ihnen empfohlene Paket geprüft: Das Ergebnis ist fast dasselbe.

 
Slasher111:
Der Punkt ist, dass das Modell zu gut passt, wenn Sie Training und Test nicht nach Zeit trennen. Ein übertriebenes, aber anschauliches Beispiel: Wir haben absolute Inkremente als Prädiktoren, ohne jegliche Transformationen. Wir verwenden ein gleitendes Fenster der Breite 15, d.h. jedes Mal, wenn wir 15 inkrementelle Prädiktoren eingeben, verschieben wir einen Wert nach rechts. Die Klassen benachbarter Zeichenketten stimmen eher überein als dass sie sich unterscheiden, d. h. wenn die n-te Zeichenkette die Klasse 1 hat, dann hat die n+1-te Zeichenkette höchstwahrscheinlich auch die Klasse 1. Die Zeichenketten können sich nur geringfügig voneinander unterscheiden, die n+1-te Zeichenkette unterscheidet sich von der n-ten nur in einem Wert. Es gibt 14 übereinstimmende Werte. Wenn man also die erste Zeile aus einem solchen Datensatz zum Trainieren nimmt, die zweite zum Testen, die dritte zum Trainieren usw., dann wird das Modell sehr gut funktionieren, weil es viele Zeilen im Test gibt, die tatsächlich mit den Werten übereinstimmen, auf die das Modell in Train trainiert wurde. Nur das OOS des Modells wird schlecht sein (wenn Sie das echte OOS meinen, das keinen Test beinhaltet).

Das ist ein sehr gutes Argument. Das verblüffende Ergebnis, das ich oben über Stichproben für Lerntests und Validierungen gepostet habe, ist genau das, was es erklärt. Und wenn man nahe Beobachtungen ausschließt, die sich zufällig in verschiedenen Sets befinden, kommt es einem so vor wie mir - eine Katastrophe.

 
Mihail Marchukajtes:

Erinnern Sie sich, dass ich gesagt habe, dass ich ein Modell erhalten habe, das vom 31.01.2018 bis zum heutigen Tag zugelegt hat, und so hat sich dieses Modell in diesen zwei Wochen vom 05.03.2018 bis zum heutigen Tag entwickelt. Testergebnis.

Ziemlich gut für eine alte Dame, die auf 40 Punkte trainiert und seit etwa 1,5 Monaten auf OOS ist.

Und das ist ihre vollständige OOS vom 31.01.2018

Und du denkst immer noch, es ist ein fit???? Nur zur Erinnerung: Die Screenshots zeigen den OOS-Bereich.

Nun, wo ist der normale Backtest? Sie schlagen einen Aufwärtstrend in 3 Monaten, auf die Pausen werden Sie leiden

Nehmen Sie etwas Einfaches, wie z. B. jeden Montag zu kaufen, und lassen Sie sich überraschen, dass es besser funktioniert als bei Ihnen, wenn der Markt ansteigt.

 

Sie überprüfen alles auf Übertraining und auf Fehler in der Stichprobe selbst, das ist natürlich für die Statistik und das Verständnis dessen, was der Algorithmus tut, interessant. aber letztlich geht es darum, das Geld zu nehmen. warum also nicht die Vorhersagbarkeit im Test überprüfen? .... in meinem Test stellt sich heraus, dass es 50/50, aber aufgrund der Tatsache, dass ich die Zielvariable in Klassen, wo Elch ist weniger als Gewinn, es stellt sich heraus, ganz glatt Wachstum im Test. und übrigens, im Test ist es nur eine solide vorwärts, die Maschine wurde auf Daten vor dem Start des Handels trainiert.... Ich sollte hinzufügen, dass das Wichtigste die Eingabeprädiktoren, ihre Anzahl und ihre tatsächliche Fähigkeit, das Ziel zu beschreiben, sind.

Hier ist ein BildTest

 
Viele der diskutierten Ansätze sind furchtbar veraltet, sie waren in den 1980er Jahren relevant...
 
Anatolii Zainchkovskii:

Sie überprüfen alles auf Übertraining und auf Fehler in der Stichprobe selbst, das ist natürlich interessant für die Statistik und um zu verstehen, was der Algorithmus tut. aber die letzte Idee ist, das Geld zu nehmen. warum also nicht gleich die Vorhersagbarkeit im Test überprüfen? .... in meinem Test stellt sich heraus, dass es 50/50, aber aufgrund der Tatsache, dass ich die Zielvariable in Klassen, wo Elch ist weniger als Gewinn, es stellt sich heraus, ganz glatt Wachstum im Test. und übrigens, im Test ist es nur eine solide vorwärts, die Maschine wurde auf Daten vor dem Start des Handels trainiert.... Ich sollte hinzufügen, dass das Wichtigste die Eingabeprädiktoren, ihre Anzahl und ihre tatsächliche Fähigkeit, das Ziel zu beschreiben, sind.

Allerdings ist das Nachtrainieren sehr wichtig, da man z.B. beim Boosting (Gradientenwälder) ein Modell mit großem Erfolg bekommen kann, das dann aber unbrauchbar wird, aber das wissen Sie ja selbst.

 
DieAuswahl der Prädiktoren ist wichtig, aber das Gerüst weiß nicht, wie die Beziehungsfaktoren zwischen ihnen zu modellieren sind, also ist es eine dumme Anpassung, und eine geschickte Modellierung mit Variation in Form von Variablenbeziehungen ist leider sehr zeitaufwändig
 
transcendreamer:

Umschulung ist immer noch ein wichtiger Punkt, denn z.B. beim Boosting (Gradientenwälder) kann man ein hervorragendes Modell erhalten, aber bei der Weiterleitung wird man einen Fade bekommen, aber das weiß man selbst

niemand sagt, für immer zu verwenden, gibt es einen Zeitraum, in dem Sie umschulen und wieder gehen können)))

 
transcendreamer:
Die Auswahl der Prädiktoren ist wichtig, aber die Wälder wissen nicht, wie sie die Beziehungsfaktoren zwischen ihnen modellieren sollen, also ist es eine dumme Anpassung, und eine intelligente Modellierung mit Variation in Form von Variablenbeziehungen ist leider eine sehr zeitaufwändige Angelegenheit.

Und diese Verbindungen können nicht mathematisch gefunden werden, also muss man dumme Anpassungen vornehmen oder Marktforschung betreiben :)

Dummes Anpassen ist eigentlich auch eine tolle Sache, wenn man verallgemeinert.