Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 897

 
Aleksey Vyazmikin:

Bewertung von oob (out of bag)

 
Maxim Dmitrievsky:

oob (out of bag) Schätzung

Ich habe hierhttps://habr.com/company/ods/blog/324402/ über diese Methode gelesen, aber ich konnte nicht erkennen, wie sich die Schätzung auf die Suche nach einem Muster in den geänderten Daten auswirken kann. Vielleicht spreche ich nicht richtig, aber hier ist ein einfaches Beispiel in einem Beispiel, das wir, sagen wir, ein Muster wie dieses haben

"

1+2=3

...

1+2=3,5

...

1+2=3,8

...

1+2=3,5

...

1+2=3

"

"..." - ist keine bestimmte Zeitspanne, nach der sich eine Regel ändert. Auch wenn es im Idealfall ein Muster von Regeländerungen gibt. Wie können sie diese Regelmäßigkeit finden, die besagt, dass eine Regel in n Beispielzeilen geändert wird und dann n*x Regeln in ihren ursprünglichen Zustand zurückkehren? Und was ist, wenn es sich bei der Art der Regeländerung nicht nur um ein Zeitintervall handelt, sondern um den Einfluss anderer Umstände, deren Daten in der Stichprobe enthalten sind, deren Regelmäßigkeit aber nur durch die Abfolge der Ereignisse (d. h. durch die Reihenfolge, in der jede Zeile mit Daten vorgelegt wird) geschätzt werden kann? Wie können sie nicht nur die horizontale Regelmäßigkeit (Menge der Prädiktoren), sondern auch die vertikale Regelmäßigkeit (Veränderung der Prädiktoren in Bezug auf die Vergangenheit n) erkennen?

 
Aleksey Vyazmikin:

Ich werde später am Abend antworten... ein plötzliches Verlangen nach Pizza und Blondie

 
Maxim Dmitrievsky:

Ich antworte später am Abend... ich habe plötzlich Lust auf Pizza und Blondie

Frühling - das könnte die Plötzlichkeit erklären :)

Ich werde auf eine Antwort warten. Danke, dass Sie sich die Zeit genommen haben, meine wahrscheinlich dummen Fragen zu stellen.

 
Aleksey Vyazmikin:

Frühling - das erklärt vielleicht die Plötzlichkeit :)

Ich freue mich darauf, von Ihnen zu hören, und danke, dass Sie sich die Zeit genommen haben, meine wahrscheinlich dummen Fragen zu stellen.

Im Gegenteil, das sind gute und logische Fragen, die ich mir vor kurzem selbst gestellt habe.

 
Aleksey Vyazmikin:

"..." - ist keine bestimmte Zeitspanne, nach der sich eine Regel ändert. Auch wenn es im Idealfall ein Muster von Regeländerungen gibt. Wie kann die Gerüstbildung diese Regelmäßigkeit finden, die besagt, dass eine Regel in n Beispielzeilen geändert wird und dann in n*x Zeilen zu ihrem Ausgangszustand zurückkehrt? Und was ist, wenn es sich bei der Art der Regeländerung nicht nur um ein Zeitintervall handelt, sondern um den Einfluss anderer Umstände, deren Daten in der Stichprobe enthalten sind, deren Regelmäßigkeit aber nur durch die Abfolge der Ereignisse (d. h. durch die Reihenfolge der Einreichung jeder Zeile mit Daten) geschätzt werden kann? Wie können sie nicht nur das horizontale Muster (Menge der Prädiktoren), sondern auch das vertikale Muster (Veränderung der Prädiktoren im Vergleich zur Vergangenheit n) erkennen?

Nun, das ist nicht gerade eine Änderung des Musters. Eher eine gröbere Annäherung. Wenn die Stichprobe groß genug ist, wird das Gerüst beispielsweise auf zufälligen Teilmengen trainiert, aus denen Chunks herausgezogen werden, ja, und auf oob (den verbleibenden Chunks) wird das Modell validiert und die Fehler werden verglichen. Wenn die Fehler +- gleich sind, dann ist das Gerüst nicht übertrainiert, so dass die Wahrscheinlichkeit korrekter Vorhersagen in der Zukunft höher ist. Wenn der Fehler bei oob nicht zufriedenstellend ist, können wir ein wenig mit den Einstellungen spielen, z. B. die Trainingsuntermenge reduzieren (dem Modell mehr Rauschen hinzufügen) und die Validierungsuntermenge erhöhen. Auf diese Weise wird das Modell bereits die Trainingsstichproben schlechter approximieren, der Fehler wird größer, aber bei neuen Daten besteht die Chance, genau den gleichen Fehler zu erhalten, d.h. das Modell wird auf beiden Teilstichproben stabil sein. Und da die Teilstichproben selbst nach dem Zufallsprinzip ausgewählt werden, wird eine große Anzahl von Unbekannten in der Teilstichprobe für die Ausbildung abgedeckt. Natürlich ist dies kein Allheilmittel, aber es bietet mehr Flexibilität bei der Arbeit im Gegensatz zu Bäumen. Dasselbe gilt für NS-Ensembles.

 
Maxim Dmitrievsky:

Nun, das ist nicht gerade eine Änderung des Musters. Eher eine gröbere Annäherung. Wenn die Stichprobe groß genug ist, wird das Gerüst beispielsweise auf zufälligen Teilmengen trainiert, wobei Stücke herausgezogen werden, ja, und auf oob (den verbleibenden Stücken) wird das Modell validiert, und die Fehler werden verglichen. Wenn die Fehler +- gleich sind, dann ist das Gerüst nicht übertrainiert, so dass eine höhere Wahrscheinlichkeit für korrekte Vorhersagen in der Zukunft besteht. Wenn der Fehler bei oob nicht zufriedenstellend ist, können wir ein wenig mit den Einstellungen spielen, z. B. die Trainingsuntermenge reduzieren (dem Modell mehr Rauschen hinzufügen) und die Validierungsuntermenge erhöhen. Dadurch wird das Modell bereits die Trainingsstichproben schlechter approximieren, der Fehler wird größer sein, aber bei neuen Daten besteht die Chance, genau den gleichen Fehler zu erhalten, d.h. das Modell wird auf beiden Teilstichproben stabil sein. Und da die Teilstichproben selbst nach dem Zufallsprinzip ausgewählt werden, wird eine große Zahl von Unbekannten in der Teilstichprobe für die Ausbildung abgedeckt. Natürlich ist dies kein Allheilmittel, aber es bietet mehr Flexibilität bei der Arbeit im Gegensatz zu einfachen Bäumen. Dasselbe gilt für NS-Ensembles.

Nun, ungefÀhr so dachte ich, wenn primitiv, dann gibt es einfach die PrÌfung der Regeln, auf der Probe jedes bedingt unabhÀngigen Baumes, und wegen des Kreuzungsfehlers wird gekauft, das Übertraining, aber auf die gleiche Weise werden alle zeitlichen RegelmÀßigkeiten ausgeschnitten, deren KausalitÀt nicht festgestellt werden konnte (und es war möglich, diese KausalitÀt nur zufÀllig festzustellen, wenn der Baum sein Ergebnis mit jener Probe prÌfte, wo die RegelmÀßigkeit bewahrt wurde).

Und wenn wir die Stichprobe aufteilen und in kleineren Abschnitten trainieren (z. B. ein Jahr in 12 Monate unterteilen und 2-3 Jahre nehmen) und dann, im Falle des Baums, alle Regeln von jedem Baum mit größerem Gewicht sammeln und sie mit 24 Stichproben abgleichen (wenn eine Regel für weniger als x % der Stichprobe funktioniert, wird sie verworfen), können wir dann nicht sehen, dass verschiedene Regeln für verschiedene Zeiträume funktionieren werden? Dann kann man von einer Zyklizität ausgehen, was auf den Finanzmärkten aufgrund des Timings (Finanzberichte) der Fall sein muss.

Viele Leute schreiben zum Beispiel über die Korrelationsanalyse als vorläufige Methode zur Schätzung von Prädiktoren, aber wenn ich mir die Tabelle ansehe, kann ich nicht verstehen, dass die Korrelation gering ist, aber der Baum diesem Element mehr Wert gibt, nachdem er erstellt wurde. Warum ist das so?


Wenn wir einen Prädiktor namens "arr_TimeH" nehmen und darüber nachdenken, ist es offensichtlich, dass wir ein unterschiedliches Verhalten des Marktes zu verschiedenen Zeiten erwarten können, z.B. um 10 Uhr bei der Eröffnung der Börse wird es eine starke Bewegung geben, da Informationen (akkumulierte Ereignisse) aus dem Moment der Abwesenheit des Handels verarbeitet werden, und zu anderen Zeiten kann die Situation anders sein, die gleichen geplanten Nachrichten können veröffentlicht werden, nach denen eine starke Marktbewegung sehr wahrscheinlich ist, auf der anderen Seite gibt es eine Abendsitzung, wo die Bewegung oft gegen den Vortag ändert, kann weniger amplitudinal sein, so dass die Zeit offensichtlich beeinflusst. Deshalb bin ich der Meinung, dass MO-Methoden für den Handel verwendet werden sollten, anstatt auf die bereits etablierten Traditionen zu vertrauen, einschließlich der Vorverarbeitung von Daten.


P. S. Ich habe die Tabellen in Photoshop gezeichnet, sie nach Belieben angekreuzt, um Farben zu zeigen, und war schockiert, als ich sah, dass die Farbe der Kontrollkästchen mit der Farbe der Bedeutungsskalen übereinstimmte - der Ton macht's! Wie kann das sein? Es hat sich herausgestellt, dass ich unbewusst darauf geachtet habe und dies meine Wahl beeinflusst hat. Vielleicht handeln die Menschen intuitiv auf die gleiche Weise, d. h. sie verwenden ein System, das ihnen nicht bewusst ist.

 
Aleksey Vyazmikin:

Zum Beispiel schreiben viele über die Korrelationsanalyse als vorläufige Methode zur Bewertung von Prädiktoren, aber wenn ich mir die Tabelle ansehe, kann ich nicht verstehen, dass die Korrelation gering ist, aber der Baum diesem Element mehr Bedeutung verleiht, nachdem er konstruiert wurde. Warum ist das so?

Vielleicht geht der Baum entsprechend der Kombination Ihrer Zeitvorhersagefaktoren (Monat, Woche, Tag, Stunde...) einfach zu einem bestimmten KAUFEN/VERKAUFEN-Balken.

Es ist, als würde man sich die Zeit der großen Balken merken und sie nutzen, um gewinnbringend mit der Geschichte zu handeln, obwohl die Korrelation dieses Attributs mit der Preisbewegung fast gleich Null sein wird.

 
Iwan Negreshniy:

Vielleicht geht der Baum durch die Kombination Ihrer Zeitprädiktoren (Monat, Woche, Tag, Stunde...) einfach zu einem bestimmten BUY/SELL-Balken.

Es ist, als ob man sich Zeitbalken merkt und sie für den Handel mit der Historie verwendet, obwohl die Korrelation dieses Attributs mit der Preisbewegung fast null ist.

Vielleicht, aber es gibt nur zwei Prädiktoren - Wochentag und Stunde, d.h. wir können 5*14=70 Gruppen mit einem solchen Attribut erhalten, während die Stichprobe 403933 Zeilen enthält, d.h. 5770 Zeilen fallen in diese Gruppe, auf der anderen Seite, das Ziel 33000 Zeilen, d.h. 471 Zielzeilen fallen in jede Gruppe. Und wenn wir dann noch berücksichtigen, dass es noch andere Prädiktoren gibt, haben wir schon eine Menge von Gruppen. Das ist so, als würde man einen Apfel in Scheiben schneiden, die Scheiben markieren und diejenigen aufzeichnen, die mehr von einem Merkmal aufweisen als die anderen, aber weil es so viele Scheiben gibt, wird es auch Scheiben mit nur einem Merkmal geben. Es stellt sich also die Frage, wie viele Prädiktoren es bei einer bestimmten Stichprobengröße geben sollte. Wie groß sollten die Apfelspalten sein?

Nun, es gibt ein Muster in den Tagen und Stunden, das von chronometrischen Faktoren beeinflusst wird - Eröffnung der Börsensitzung, Zeitraum der Börsensitzungen, Nachrichten (wirtschaftliche/statistische, die meist zur gleichen Zeit und am gleichen Wochentag veröffentlicht werden).

 
Aleksey Vyazmikin:

Es kann sein, aber es gibt nur zwei Prädiktoren - Wochentag und Stunde, so dass wir mit diesem Kriterium 5*14=70 Gruppen erhalten können, und die Stichprobe hat 403933 Zeilen, so dass die Gruppe 5770 Zeilen erhält, andererseits das Ziel 33000, so dass wir 471 Zielzeilen für jede Gruppe erhalten. Und wenn wir dann noch berücksichtigen, dass es noch andere Prädiktoren gibt, haben wir schon eine Menge Gruppen. Das ist so, als würde man einen Apfel in Scheiben schneiden, die Scheiben markieren und in eine Tabelle die Scheiben eintragen, die mehr von einem Merkmal aufweisen als die anderen, aber weil es so viele Scheiben gibt, gibt es auch Scheiben mit nur einem Merkmal. Es stellt sich also die Frage, wie viele Prädiktoren es bei einer bestimmten Stichprobengröße geben sollte. Wie groß sollten die Apfelspalten sein?

Es gibt jedoch ein Muster, das von chronometrischen Faktoren beeinflusst wird - Eröffnung einer Handelssitzung, Zeitraum der Handelssitzungen, Nachrichten (wirtschaftliche/statistische, die meist zur gleichen Zeit und am gleichen Wochentag veröffentlicht werden).

Maxim Dmitrievsky, wie lösen Sie dieses Problem?

Welche Möglichkeiten gibt es im Allgemeinen? Die Stücke des Apfels können unterschiedlich sein.
Für jedes ns aus dem Ensemble fügen Sie einen Kontext hinzu und verwenden diese Kontexte in einigen Kontroll-ns?
Mit Kontext meine ich zum Beispiel einen Link zu einer grundlegenden Definition, einem Konzept, einem Prädiktor und einigen Daten...

Grund der Beschwerde: