Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 56
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Ein paar Jahre. Hier im Thread ist ihr Ergebnis.
Können Sie mir bitte einen Link geben?
Zumindest bei einer strikten Trennung in eine Trainingsstichprobe und eine Teststichprobe nach Daten, anstatt die Stichproben mit einer gleichmäßigen Verteilung in der allgemeinen Stichprobe zufällig zu mischen und sie dann in Teile zu teilen. Es kann vorkommen, dass ein Teil der Stichprobe überwiegend vertikale Trends enthält, während der andere Teil seitliche Trends aufweist. Wenn wir eine Zufallsmischung anwenden, sinkt die Wahrscheinlichkeit, dass ähnliche Muster in verschiedenen Teilen der Stichprobe vorkommen.
Ein solcher Nachteil ist übrigens auch im eingebauten Strategietester von MetaTrader vorhanden, d.h. er trennt die Trainingsstichprobe und den Forward-Test strikt nach Daten. Aus diesem Grund kann die Änderung der Markttrends in der Nähe der Trennlinie zu einem absichtlichen Übertraining führen.
Also haben Sie, wie jeder seriöse Händler, die Antwort gegeben.
Dies ist der wichtigste Punkt bei der Planung von Experimenten. In Wirklichkeit gibt es eine strikte zeitliche Trennung. Auf diese Weise wird das Modell im wahrsten Sinne des Wortes auf die Zukunft hin getestet.
Dies wird als unausgewogene Stichprobe bezeichnet und ist ein Problem des maschinellen Lernens.
Um dies zu verdeutlichen, möchte ich Ihnen ein Beispiel geben. Angenommen, wir haben eine Trainingsstichprobe, in der Aufwärtstrends vorherrschen und daher Abwärtstrends in der Stichprobe weniger präsent sind als in den Aufwärtstrends, d. h. wir haben ein Ungleichgewicht.
Angenommen, wir haben in der Stichprobe 1.000 Abwärtsbewegungen und 10.000 Aufwärtsbewegungen. Und nehmen Sie an, dass der Klassifizierungsfehler für Aufwärtsbewegungen 10 % beträgt. Aber diese zehn Prozent bei 10.000 Beispielen entsprechen 1.000 falschen Signalen, die als Vorhersage von Abwärtsbewegungen eingestuft werden, und wir haben nur 1.000 Beispiele mit Abwärtsbewegungen in der Stichprobe. Das bedeutet, dass unabhängig davon, wie genau die Klassifizierung einer Abwärtsbewegung ist, der Fehler eines Klassifikators, der eine zukünftige Bewegung als potenziell absteigend vorhersagt, mindestens 50 % beträgt. Das heißt, je mehr Beispiele in der Trainingsstichprobe für eine Klasse unausgewogen sind, desto größer sind die Auswirkungen einer Fehlklassifizierung für diese Klasse auf die Qualität der Antworten des Klassifikators für eine andere Klasse.
Aus diesem Grund ist es sehr schwierig, seltene Phänomene vorherzusagen: Erdbeben, Vulkanausbrüche, Wirtschaftskrisen, usw. Wenn ein Phänomen sehr selten und in der Stichprobe nicht repräsentativ ist, wird der Fehler für Beispiele entgegengesetzter Klassen bei seltenen Phänomenen übermäßig groß.
Daher muss eine Trainingsstichprobe vorbalanciert sein, damit sie für alle Klassen die gleiche Anzahl von Beispielen enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. Das heißt, dass ein Ungleichgewicht bei den Prädiktoren und nicht nur bei den abhängigen Variablen vermieden werden soll.
Dies wird als unausgewogenes Sampling bezeichnet und ist ein Problem des maschinellen Lernens.
Um dies zu verdeutlichen, möchte ich Ihnen ein Beispiel geben. Angenommen, wir haben eine Trainingsstichprobe, in der Aufwärtstrends überwiegen, was bedeutet, dass es weniger Abwärtstrends als Aufwärtstrends gibt, d. h. wir haben ein Ungleichgewicht.
Angenommen, wir haben in der Stichprobe 1.000 Abwärtsbewegungen und 10.000 Aufwärtsbewegungen. Und nehmen Sie an, dass der Klassifizierungsfehler für Aufwärtsbewegungen 10 % beträgt. Aber diese zehn Prozent bei 10.000 Beispielen entsprechen 1.000 falschen Signalen, die als Vorhersage von Abwärtsbewegungen eingestuft werden, und wir haben nur 1.000 Beispiele mit Abwärtsbewegungen in der Stichprobe. Das bedeutet, dass unabhängig davon, wie genau die Klassifizierung einer Abwärtsbewegung ist, für jede Antwort eines Klassifikators, der eine zukünftige Bewegung als potenziell absteigend vorhersagt, sein Fehler mindestens 50 % betragen wird. Das heißt, je mehr Beispiele in der Trainingsstichprobe für eine Klasse ein Ungleichgewicht darstellen, desto größer sind die Auswirkungen einer Fehlklassifizierung für diese Klasse auf die Qualität der Antworten des Klassifikators für eine andere Klasse.
Aus diesem Grund ist es sehr schwierig, seltene Phänomene vorherzusagen: Erdbeben, Vulkanausbrüche, Wirtschaftskrisen usw. Denn wenn ein Ereignis sehr selten und in der Stichprobe nur spärlich vertreten ist, wird jeder Fehler für Beispiele entgegengesetzter Klassen bei seltenen Ereignissen zu groß.
Daher muss die Trainingsstichprobe vorbalanciert sein, damit sie für alle Klassen die gleiche Anzahl von Beispielen enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. D.h. Vermeidung von Ungleichgewichten bei den Prädiktoren und nicht nur bei den abhängigen Variablen.
Daher sollte die Trainingsstichprobe vorbalanciert sein, so dass sie Beispiele für alle Klassen in gleicher Anzahl enthält. Andernfalls ist es wahrscheinlicher, dass wenig repräsentative Klassen die Tests außerhalb der Trainingsmenge nicht bestehen. Darüber hinaus ist es bei der Aufteilung der allgemeinen Stichprobe in einen Trainings- und einen Testteil notwendig, Beispiele mit PRGPs mit einer gleichmäßigen Wahrscheinlichkeitsverteilung zu mischen, um eine Überlagerung von Beispielen mit ähnlichen Prädiktoren in einem Teil und unterschiedlichen Prädiktoren im anderen Teil zu vermeiden. D.h. Vermeidung von Ungleichgewichten bei den Prädiktoren und nicht nur bei den abhängigen Variablen.
Caret-Paket
Ein Paar von Funktionen: downSample/upSample - Verringert/erhöht die Anzahl der Beobachtungen, um vollständig ausgeglichene Klassen zu erhalten. Die Abwärts-/Aufwärtsstichprobe basiert auf einem einfachen Zufallsstichprobenalgorithmus.
PS.
Reschetow!
Beginnen Sie mit dem Studium von R. Immer öfter verfallen Sie in Plattitüden.
Reschetow!
Beginnen Sie mit dem Studium von R. Sie gleiten immer öfter in Plattitüden ab.
Yuri, ich verstehe die Idee. Die Stichprobe kann in der Tat sowohl beim Training als auch bei der Validierung unausgewogen sein. In Wirklichkeit handeln Sie aber mit der Zukunft, wo die Tendenz sehr stark sein kann. Und die Strategie sollte gegen ein solches Ergebnis resistent sein.
die Daten werden genau nach Datum getrennt (vor dem Tag X - Schulung, nach dem Tag X - Validierung)
Der Punkt ist einfach. In der realen Welt wird Ihnen niemand erlauben, eine gemischte Stichprobe mit Beobachtungen aus der Zukunft und aus der Vergangenheit zu nehmen, um die Qualität des realen Handels zu beurteilen. Alle Beobachtungen werden nach Tag x gelöscht.
Durch die Entnahme einer Mischprobe bei der Validierung (ohne Datumstrennung) wird die Qualitätskennzahl bei der Validierung also überbewertet. Das war's. Dann wird es unangenehme Überraschungen geben.