Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 56

 
Alexey Burnakov:
Ein paar Jahre. Hier im Thread ist ihr Ergebnis.
Bitte geben Sie mir den Link.
 
Vadim Schischkin:
Können Sie mir bitte einen Link geben?
Das ganze Thema ist das Ergebnis.
 
Yury Reshetov:

Zumindest bei einer strikten Trennung in eine Trainingsstichprobe und eine Teststichprobe nach Daten, anstatt die Stichproben mit einer gleichmäßigen Verteilung in der allgemeinen Stichprobe zufällig zu mischen und sie dann in Teile zu teilen. Es kann vorkommen, dass ein Teil der Stichprobe überwiegend vertikale Trends enthält, während der andere Teil seitliche Trends aufweist. Wenn wir eine Zufallsmischung anwenden, sinkt die Wahrscheinlichkeit, dass ähnliche Muster in verschiedenen Teilen der Stichprobe vorkommen.

Ein solcher Nachteil ist übrigens auch im eingebauten Strategietester von MetaTrader vorhanden, d.h. er trennt die Trainingsstichprobe und den Forward-Test strikt nach Daten. Aus diesem Grund kann die Änderung der Markttrends in der Nähe der Trennlinie zu einem absichtlichen Übertraining führen.

Dies ist der entscheidende Punkt bei der Versuchsplanung. In Wirklichkeit gibt es eine strikte zeitliche Trennung. Auf diese Weise wird das Modell im wahrsten Sinne des Wortes auf die Zukunft hin getestet.

Das habe ich auch: Bei der Validierung war der Markt überwiegend fallend und es gibt ein Übermaß an Shorts. Nun, sie könnte in Zukunft überwiegend steigen. Es kann alles passieren.
 
Vadim Schischkin:
Also haben Sie, wie jeder seriöse Händler, die Antwort gegeben.
Die Antwort des Universums, wenn Sie so wollen.
 
Alexey Burnakov:
Dies ist der wichtigste Punkt bei der Planung von Experimenten. In Wirklichkeit gibt es eine strikte zeitliche Trennung. Auf diese Weise wird das Modell im wahrsten Sinne des Wortes auf die Zukunft hin getestet.

Das habe ich auch: Bei der Validierung war der Markt überwiegend fallend und es gibt ein Übermaß an Shorts. Nun, sie könnte in Zukunft überwiegend steigen. Es kann alles passieren.

Dies wird als unausgewogene Stichprobe bezeichnet und ist ein Problem des maschinellen Lernens.

Um dies zu verdeutlichen, möchte ich Ihnen ein Beispiel geben. Angenommen, wir haben eine Trainingsstichprobe, in der Aufwärtstrends vorherrschen und daher Abwärtstrends in der Stichprobe weniger präsent sind als in den Aufwärtstrends, d. h. wir haben ein Ungleichgewicht.

Angenommen, wir haben in der Stichprobe 1.000 Abwärtsbewegungen und 10.000 Aufwärtsbewegungen. Und nehmen Sie an, dass der Klassifizierungsfehler für Aufwärtsbewegungen 10 % beträgt. Aber diese zehn Prozent bei 10.000 Beispielen entsprechen 1.000 falschen Signalen, die als Vorhersage von Abwärtsbewegungen eingestuft werden, und wir haben nur 1.000 Beispiele mit Abwärtsbewegungen in der Stichprobe. Das bedeutet, dass unabhängig davon, wie genau die Klassifizierung einer Abwärtsbewegung ist, der Fehler eines Klassifikators, der eine zukünftige Bewegung als potenziell absteigend vorhersagt, mindestens 50 % beträgt. Das heißt, je mehr Beispiele in der Trainingsstichprobe für eine Klasse unausgewogen sind, desto größer sind die Auswirkungen einer Fehlklassifizierung für diese Klasse auf die Qualität der Antworten des Klassifikators für eine andere Klasse.

Aus diesem Grund ist es sehr schwierig, seltene Phänomene vorherzusagen: Erdbeben, Vulkanausbrüche, Wirtschaftskrisen, usw. Wenn ein Phänomen sehr selten und in der Stichprobe nicht repräsentativ ist, wird der Fehler für Beispiele entgegengesetzter Klassen bei seltenen Phänomenen übermäßig groß.

Daher muss eine Trainingsstichprobe vorbalanciert sein, damit sie für alle Klassen die gleiche Anzahl von Beispielen enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. Das heißt, dass ein Ungleichgewicht bei den Prädiktoren und nicht nur bei den abhängigen Variablen vermieden werden soll.

 
Yury Reshetov:

Dies wird als unausgewogenes Sampling bezeichnet und ist ein Problem des maschinellen Lernens.

Um dies zu verdeutlichen, möchte ich Ihnen ein Beispiel geben. Angenommen, wir haben eine Trainingsstichprobe, in der Aufwärtstrends überwiegen, was bedeutet, dass es weniger Abwärtstrends als Aufwärtstrends gibt, d. h. wir haben ein Ungleichgewicht.

Angenommen, wir haben in der Stichprobe 1.000 Abwärtsbewegungen und 10.000 Aufwärtsbewegungen. Und nehmen Sie an, dass der Klassifizierungsfehler für Aufwärtsbewegungen 10 % beträgt. Aber diese zehn Prozent bei 10.000 Beispielen entsprechen 1.000 falschen Signalen, die als Vorhersage von Abwärtsbewegungen eingestuft werden, und wir haben nur 1.000 Beispiele mit Abwärtsbewegungen in der Stichprobe. Das bedeutet, dass unabhängig davon, wie genau die Klassifizierung einer Abwärtsbewegung ist, für jede Antwort eines Klassifikators, der eine zukünftige Bewegung als potenziell absteigend vorhersagt, sein Fehler mindestens 50 % betragen wird. Das heißt, je mehr Beispiele in der Trainingsstichprobe für eine Klasse ein Ungleichgewicht darstellen, desto größer sind die Auswirkungen einer Fehlklassifizierung für diese Klasse auf die Qualität der Antworten des Klassifikators für eine andere Klasse.

Aus diesem Grund ist es sehr schwierig, seltene Phänomene vorherzusagen: Erdbeben, Vulkanausbrüche, Wirtschaftskrisen usw. Denn wenn ein Ereignis sehr selten und in der Stichprobe nur spärlich vertreten ist, wird jeder Fehler für Beispiele entgegengesetzter Klassen bei seltenen Ereignissen zu groß.

Daher muss die Trainingsstichprobe vorbalanciert sein, damit sie für alle Klassen die gleiche Anzahl von Beispielen enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. D.h. Vermeidung von Ungleichgewichten bei den Prädiktoren und nicht nur bei den abhängigen Variablen.

Yury, ich verstehe den Punkt. Die Stichproben können sowohl beim Training als auch bei der Validierung tatsächlich unausgewogen sein. In Wirklichkeit handeln Sie aber mit der Zukunft, wo die Tendenz sehr stark sein kann. Und die Strategie muss für ein solches Ergebnis gerüstet sein.
 
Yury Reshetov:


Daher sollte die Trainingsstichprobe vorbalanciert sein, so dass sie Beispiele für alle Klassen in gleicher Anzahl enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. D.h. Vermeidung von Ungleichgewichten bei den Prädiktoren und nicht nur bei den abhängigen Variablen.

Caret-Paket

Ein Paar von Funktionen: downSample/upSample - Verringert/erhöht die Anzahl der Beobachtungen, um vollständig ausgeglichene Klassen zu erhalten. Die Abwärts-/Aufwärtsstichprobe basiert auf einem einfachen Zufallsstichprobenalgorithmus.

PS.

Reschetow!

Beginnen Sie mit dem Studium von R. Immer öfter verfallen Sie in Plattitüden.

 
SanSanych Fomenko:

Reschetow!

Beginnen Sie mit dem Studium von R. Sie gleiten immer öfter in Plattitüden ab.

Ich werde alles hinschmeißen und R-Adept werden, damit ich mit ernstem Gesicht mit Zahlen spielen kann.
 
Alexey Burnakov:
Yuri, ich verstehe die Idee. Die Stichprobe kann in der Tat sowohl beim Training als auch bei der Validierung unausgewogen sein. In Wirklichkeit handeln Sie aber mit der Zukunft, wo die Tendenz sehr stark sein kann. Und die Strategie sollte gegen ein solches Ergebnis resistent sein.
Sie müssen ein mögliches Überlernen verhindern, denn nur so können Sie Stabilität erreichen. Und eine unausgewogene Trainingsstichprobe ist eine mögliche Ursache für Übertraining bei nicht repräsentativen Klassen. Schließlich versucht der Lernalgorithmus, so zu handeln, wie er es für richtig hält, und nicht, wie er es tun muss, um die Verallgemeinerbarkeit zu erhöhen. Wenn die Stichprobe unausgewogen ist, werden die Lernfehler in den am wenigsten repräsentativen Klassen minimiert, weil es für diese Klassen nur wenige Beispiele gibt und es am einfachsten ist, sie auswendig zu lernen, anstatt zu verallgemeinern. Nach einem solchen Auswendiglernen ist es nicht verwunderlich, dass außerhalb der Trainingsstichprobe die Algorithmusfehler am ehesten in den weniger repräsentativen Klassen auftreten.
 

die Daten werden genau nach Datum getrennt (vor dem Tag X - Schulung, nach dem Tag X - Validierung)

Der Punkt ist einfach. In der realen Welt wird Ihnen niemand erlauben, eine gemischte Stichprobe mit Beobachtungen aus der Zukunft und aus der Vergangenheit zu nehmen, um die Qualität des realen Handels zu beurteilen. Alle Beobachtungen werden nach Tag x gelöscht.

Durch die Entnahme einer Mischprobe bei der Validierung (ohne Datumstrennung) wird die Qualitätskennzahl bei der Validierung also überbewertet. Das war's. Dann wird es unangenehme Überraschungen geben.

Grund der Beschwerde: