Diskussion zum Artikel "Bewertung und Auswahl von Variablen für Modelle für maschinelles Lernen" - Seite 2
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Alexey Oreshkin:
...und da ist es..... es ist nicht einmal interessant, mit solchen Leuten zu reden.
Der Artikel ist interessant. Danke an den Autor für seine harte Arbeit. Es wäre schön, wenn die beschriebenen Methoden an einem konkreten Beispiel demonstriert würden. Ich schlage ein solches Beispiel vor: Vorhersage des S&P500 für zwei Quartale im Voraus. Ich mache das schon seit langem und diskutiere meine Ergebnisse in einem anderen Thread. Ich habe meine eigene Methode zur Auswahl der Inputs und zu deren Normalisierung. Das alles ist dort beschrieben. Ich werde Ihnen und allen anderen eine Datei mit allen vierteljährlichen Wirtschaftsdaten seit 1960 zur Verfügung stellen. Ich kann auch die vierteljährlichen Durchschnittswerte des S&P500 für denselben Zeitraum angeben.
Aufgabe:
1. Wählen Sie die Eingabedaten aus. Zur Auswahl stehen sowohl Wirtschaftsdaten als auch alle bekannten Indikatoren der S&P500-Kursreihe selbst.
2. Normalisieren Sie die Daten.
3. Erstellen und trainieren Sie ein Modell zur Vorhersage der vierteljährlichen S&P500-Werte über den Zeitraum von 1960 bis einschließlich 1999. Der Beginn der Trainingshistorie kann beliebig gewählt werden.
4. Zeigen Sie das Verhalten des Modells außerhalb der Trainingshistorie, im Intervall 2000-heute.
5. Zeigen Sie den Vorhersagefehler zwei Quartale im Voraus für das Trainingsintervall und außerhalb. Der Fehler bei normalisierten Daten wird wie folgt berechnet:
Err = SQRT { SUM(Vorhersage[i] - Realwert[i])^2 / SUM(Realwert[i])^2 }
Die Berechnung des Vorhersagefehlers auf diese Weise ist sehr sinnvoll. Die allgemein anerkannte Methode zur Berechnung des Modellfehlers basiert auf dem RMS:
RMS_model_error = SUM(Vorhersage[i] - Realwert[i])^2
Banale Vorhersagen beruhen auf der Annahme, dass der nicht normalisierte Wert der vorhergesagten Variablen gleich dem letzten bekannten Wert ist. Wenn sie in Bezug auf den letzten bekannten Wert normalisiert wird, ist eine triviale Vorhersage einfach 0. Der RMS trivialer normalisierter Vorhersagen ist also:
RMS_ trivial = SUM(0 - Realwert[i])^2 = SUM(Realwert[i])^2
Die vorgeschlagene Formel zur Berechnung des Vorhersagefehlers Err ist einfach die Quadratwurzel aus dem Verhältnis SCO_model/SCO_basic. Wenn Err > 1 ist, dann ist das konstruierte Modell schlechter als die trivialen Vorhersagen.
Wenn Sie mein Vorschlag interessiert, werde ich hier die Tabellen der Wirtschaftsindikatoren und des S&P500 veröffentlichen. Die Details des Modells, die Normalisierung der Daten und die Auswahl der Daten interessieren mich nicht. Mich interessieren die Ergebnisse der Vorhersagen für den untrainierten Bereich 2000 - heute (Grafik der realen Werte und der vorhergesagten Werte und der mit meiner Formel Err berechnete Vorhersagefehler).
Der Artikel ist interessant. Danke an den Autor für seine harte Arbeit. Es wäre schön, wenn die beschriebenen Methoden an einem konkreten Beispiel demonstriert würden. Ich schlage ein solches Beispiel vor: Vorhersage des S&P500 für zwei Quartale im Voraus. Ich mache das schon seit langem und diskutiere meine Ergebnisse in einem anderen Thread. Ich habe meine eigene Methode zur Auswahl der Inputs und zu deren Normalisierung. Das alles ist dort beschrieben. Ich werde Ihnen und allen anderen eine Datei mit allen vierteljährlichen Wirtschaftsdaten seit 1960 zur Verfügung stellen. Ich kann auch die vierteljährlichen Durchschnittswerte des S&P500 für denselben Zeitraum angeben.
Aufgabe:
1. Wählen Sie die Eingabedaten aus. Zur Auswahl stehen sowohl Wirtschaftsdaten als auch alle bekannten Indikatoren der S&P500-Kursreihe selbst.
2. Normalisieren Sie die Daten.
3. Erstellen und trainieren Sie ein Modell zur Vorhersage der vierteljährlichen S&P500-Werte über den Zeitraum von 1960 bis einschließlich 1999. Der Beginn der Trainingshistorie kann beliebig gewählt werden.
4. Zeigen Sie das Verhalten des Modells außerhalb der Trainingshistorie, im Intervall 2000-heute.
5. Zeigen Sie den Vorhersagefehler zwei Quartale im Voraus für das Trainingsintervall und außerhalb. Der Fehler bei normalisierten Daten wird wie folgt berechnet:
Err = SQRT { SUM(Vorhersage[i] - Realwert[i])^2 / SUM(Realwert[i])^2 }
Die Berechnung des Vorhersagefehlers auf diese Weise ist sehr sinnvoll. Die allgemein anerkannte Methode zur Berechnung des Modellfehlers basiert auf dem RMS:
RMS_model_error = SUM(Vorhersage[i] - Realwert[i])^2
Banale Vorhersagen beruhen auf der Annahme, dass der nicht normalisierte Wert der vorhergesagten Variablen gleich dem letzten bekannten Wert ist. Wenn sie in Bezug auf den letzten bekannten Wert normalisiert wird, ist eine triviale Vorhersage einfach 0. Der RMS trivialer normalisierter Vorhersagen ist also:
RMS_ trivial = SUM(0 - Realwert[i])^2 = SUM(Realwert[i])^2
Die vorgeschlagene Formel zur Berechnung des Vorhersagefehlers Err ist einfach die Quadratwurzel aus dem Verhältnis SCO_model/SCO_basic. Wenn Err > 1 ist, dann ist das konstruierte Modell schlechter als die trivialen Vorhersagen.
Wenn Sie mein Vorschlag interessiert, werde ich hier die Tabellen der Wirtschaftsindikatoren und des S&P500 veröffentlichen. Die Details des Modells, die Normalisierung der Daten und die Auswahl der Daten interessieren mich nicht. Mich interessieren die Ergebnisse der Vorhersagen für den untrainierten Bereich 2000 - heute (Grafik der realen Werte und der vorhergesagten Werte sowie der Vorhersagefehler, der mit meiner Formel Err berechnet wird).
Alles, was Sie beschreiben, ist eine Regressionsvorhersage, d.h. es wird ein bestimmter Wert mit einem vorgegebenen Konfidenzintervall vorhergesagt
Ich verstehe nicht, welchen praktischen Wert solche Vorhersagen im Handel haben. Und zwar aus folgendem Grund.
Das Terminal unterstützt Kauf-/Verkaufsaufträge. Dabei handelt es sich um eine rein nominale Variable, die qualitative Werte annimmt.
Sie erinnern sich vielleicht, dass es auch Limit-Orders gibt. Aber auch diese basieren auf Kauf-/Verkaufsaufträgen.
Wenn wir den Wert anstelle von Kauf/Verkauf vorhersagen, stellt sich heraus, dass der Vorhersagefehler den letzten Wert der vorhergesagten Variablen überdecken kann und es nicht möglich ist, die Art des Kauf/Verkaufsauftrags zu bestimmen.
PS. Regressionsmodelle des maschinellen Lernens sind in der Wirtschaft weit verbreitet, in fast allen Unternehmen, zum Beispiel bei der Vorhersage von Verkaufszahlen. Auf den Devisenmärkten bei der Absicherung von Währungsrisiken (Komponenten für Währungen und Verkäufe für Rubel). Aber im Handel?
Alles, was Sie beschrieben haben, ist eine Regressionsvorhersage, d. h. ein bestimmter Wert wird mit einem vorgegebenen Konfidenzintervall vorhergesagt
Ich verstehe nicht, welchen praktischen Wert solche Vorhersagen im Handel haben. Und zwar aus folgendem Grund.
Das Terminal unterstützt Kauf-/Verkaufsaufträge. Dabei handelt es sich um eine rein nominale Variable, die qualitative Werte annimmt.
Sie erinnern sich vielleicht, dass es auch Limit-Orders gibt. Aber auch diese basieren auf Kauf-/Verkaufsaufträgen.
Wenn wir den Wert anstelle von Kauf/Verkauf vorhersagen, stellt sich heraus, dass der Vorhersagefehler den letzten Wert der vorhergesagten Variablen überdecken kann und es nicht möglich ist, die Art der Kauf/Verkaufsorder zu bestimmen.
PS. Regressionsmodelle des maschinellen Lernens sind in der Wirtschaft weit verbreitet, in fast allen Unternehmen, zum Beispiel bei der Vorhersage von Verkaufszahlen. Auf den Devisenmärkten bei der Absicherung von Währungsrisiken (Komponenten für Währungen und Verkäufe für Rubel). Aber im Handel?
Wenn der Output Kauf- oder Verkaufssignale liefert, wie bewerten wir dann die Bedeutung oder Eignung der Inputs gemäß diesem Artikel? Wie lässt sich der Erfolg des Modells quantifizieren? Auf der Grundlage des Gewinns? Auf der Grundlage des Drawdowns? PF? Ich habe solche Modelle hier schon oft gesehen, ich werde nicht mit dem Finger zeigen, die Autoren werden sich selbst erkennen. Die Wahl von Handelsindikatoren als Zielfunktion zur Bewertung der Inputs und des Modells ist mit der Tatsache behaftet, dass die Ersteller, anstatt die richtigen Inputs und das richtige Modell zu wählen, die Chemie mit verschiedenen Arten der Erfolgsmessung beginnen und mit EAs-Overeers/Slivators enden. Es gibt eine Menge kreativer Möglichkeiten zur Selbsttäuschung.
Bei der Regression gibt es Schätzungen, bei der Klassifizierung gibt es Schätzungen.
Die offensichtlichste Methode zur Bewertung der Leistung von Klassifizierungsmodellen ist der Prozentsatz der Übereinstimmung von Fakten- und Vorhersageklassen (Prozentsatz der richtig vorhergesagten Käufe/Verkäufe). In diesem Papier werden informativere Methoden zur Bewertung der Leistung von Klassifizierungsmodellen verwendet. Es werden nicht nur die Werkzeuge verwendet, sondern auch die Werkzeuge spezifiziert.
PS.
ROC ist die gängigste Methode.
Wo haben Sie die Regression gesehen? Der Artikel behandelt die binäre Klassifizierung:
Für die Regression gibt es eigene Schätzungen und für die Klassifizierung gibt es eigene Schätzungen.
Die naheliegendste Methode zur Bewertung der Leistung von Klassifizierungsmodellen ist der Prozentsatz der Übereinstimmung von Fakten- und Vorhersageklassen (Prozentsatz der richtig vorhergesagten Käufe/Verkäufe). In diesem Papier werden informativere Methoden zur Bewertung der Leistung von Klassifizierungsmodellen verwendet. Es werden nicht nur die Werkzeuge verwendet, sondern auch die Werkzeuge spezifiziert.
PS.
ROC ist die gängigste Methode.
Mit Klassifizierung meinen Sie die Einteilung der Barren in KAUFEN, VERKAUFEN, HALTEN, richtig? Eine solche Klassifizierung ist prinzipiell falsch, da sie inkonsistent ist. Man kann beispielsweise einen Balken als KAUFEN einstufen, auch wenn der Kurs danach gefallen ist, und dann argumentieren, dass das Signal richtig war, weil man den Drawdown hätte aussitzen sollen, bis man einen Gewinn erzielt. Derselbe Balken kann genauso gut als VERKAUF eingestuft werden, weil der Preis gefallen ist. Derselbe Balken kann als HALTEN eingestuft werden, wenn der Preis nach diesem Balken in einem Korridor schwankt, der geringer ist als der erwartete Gewinn. Wir erhalten also Mehrdeutigkeit. Bei einer solchen Klassifizierung müssen wir zusätzliche Bedingungen hinzufügen, z. B. wie viel Drawdown wir zulassen, wie lange wir warten, bis wir Gewinn machen, was das Gewinnziel ist, was wir bei Sitzungsschluss tun (warten wir auf Montag?).
Es ist viel einfacher, die Balken nach der erwarteten Richtung der Kursbewegung auf diesem Balken zu klassifizieren: aufwärts oder abwärts. In meinem oben beschriebenen Beispiel der S&P500-Prognose können wir uns auf die Vorhersage der Richtung der Kursbewegung beschränken, anstatt die quantitative Kursbewegung für zwei Quartale vorherzusagen. Dies wird eindeutig sein, und der Fehler kann als Prozentsatz der Korrektheit der Vorhersage der Bewegungsrichtung berechnet werden.
Meine obige Anregung ist nach wie vor gültig, aber ich habe den Eindruck, dass die Verfasser der Artikel hier weiterhin Methoden und Richtlinien für die Verwendung bestimmter Instrumente beschreiben, anstatt diese Instrumente an konkreten Beispielen zu demonstrieren. All dies ist Theorie, und Geld wird mit dem Schreiben von Artikeln und Büchern verdient, nicht mit der Anwendung dieser Instrumente beim Handel. Das Argument des praktischen Nutzens von Artikeln ist hier nicht neu.
Mit Klassifizierung meinen Sie die Einteilung der Barren in KAUFEN, VERKAUFEN, HALTEN, richtig? Eine solche Einteilung ist prinzipiell falsch, da sie inkonsistent ist. So kann man beispielsweise einen Balken als KAUFEN einstufen, auch wenn der Kurs danach gefallen ist, und dann argumentieren, dass das Signal richtig war, weil man den Drawdown hätte aussitzen sollen, bis man einen Gewinn erzielt. Derselbe Balken kann genauso gut als VERKAUF eingestuft werden, weil der Preis gefallen ist. Derselbe Balken kann als HALTEN eingestuft werden, wenn der Preis nach diesem Balken in einem Korridor schwankt, der geringer ist als der erwartete Gewinn. Wir erhalten also Mehrdeutigkeit. Bei einer solchen Klassifizierung müssen wir zusätzliche Bedingungen hinzufügen, z. B. wie viel Drawdown wir zulassen, wie lange wir warten, bis wir Gewinn machen, was das Gewinnziel ist, was wir bei Sitzungsschluss tun (warten wir auf Montag?).
Es ist viel einfacher, die Balken nach der erwarteten Richtung der Kursbewegung auf diesem Balken zu klassifizieren: aufwärts oder abwärts. In meinem oben beschriebenen Beispiel der S&P500-Prognose können wir uns auf die Vorhersage der Richtung der Kursbewegung beschränken, anstatt die quantitative Kursbewegung für zwei Quartale vorherzusagen. Dies wird eindeutig sein, und der Fehler kann als Prozentsatz der Korrektheit der Vorhersage der Bewegungsrichtung berechnet werden.
Meine obige Anregung ist nach wie vor gültig, aber ich habe den Eindruck, dass die Verfasser der Artikel hier weiterhin Methoden und Richtlinien für die Verwendung bestimmter Instrumente beschreiben, anstatt diese Instrumente an konkreten Beispielen zu demonstrieren. All dies ist Theorie, und Geld wird mit dem Schreiben von Artikeln und Büchern verdient, nicht mit der Anwendung dieser Instrumente beim Handel. Das Argument des praktischen Nutzens von Artikeln ist hier nicht neu.
1. Wenn Sie als Kind gelernt hätten, Bücher und Artikel zu lesen, hätten Sie verstanden, dass es bei dem, was ich und der Autor des Artikels geschrieben haben, und dem, was Sie geschrieben haben, um dieselbe Sache geht.
2. Hätte man Ihnen als Kind beigebracht, andere Menschen zu respektieren, hätten Sie sich nicht erlaubt, "Peeps" zu schreiben oder zu schreiben.
Ich wünsche Ihnen viel Glück beim Lesenlernen.
Mit Klassifizierung meinen Sie die Einteilung der Barren in KAUFEN, VERKAUFEN, HALTEN, richtig? Eine solche Einteilung ist prinzipiell falsch, da sie inkonsistent ist. So kann man beispielsweise einen Balken als KAUFEN einstufen, auch wenn der Kurs danach gefallen ist, und dann argumentieren, dass das Signal richtig war, weil man den Drawdown hätte aussitzen sollen, bis man einen Gewinn erzielt. Derselbe Balken kann genauso gut als VERKAUF eingestuft werden, weil der Preis gefallen ist. Derselbe Balken kann als HALTEN eingestuft werden, wenn der Preis nach diesem Balken in einem Korridor schwankt, der geringer ist als der erwartete Gewinn. Wir erhalten also Mehrdeutigkeit. Bei einer solchen Klassifizierung müssen wir zusätzliche Bedingungen hinzufügen, z. B. wie viel Drawdown wir zulassen, wie lange wir warten, bis wir Gewinn machen, was das Gewinnziel ist, was wir bei Sitzungsschluss tun (warten wir auf Montag?).
Es ist viel einfacher, die Balken nach der erwarteten Richtung der Kursbewegung auf diesem Balken zu klassifizieren: aufwärts oder abwärts. In meinem oben beschriebenen Beispiel der S&P500-Prognose können wir uns auf die Vorhersage der Richtung der Kursbewegung beschränken, anstatt die quantitative Kursbewegung für zwei Quartale vorherzusagen. Dies wird eindeutig sein, und der Fehler kann als Prozentsatz der Korrektheit der Vorhersage der Bewegungsrichtung berechnet werden.
Meine obige Anregung ist nach wie vor gültig, aber ich habe den Eindruck, dass die Verfasser der Artikel hier weiterhin Methoden und Richtlinien für die Verwendung bestimmter Instrumente beschreiben, anstatt diese Instrumente an konkreten Beispielen zu demonstrieren. All dies ist Theorie, und Geld wird mit dem Schreiben von Artikeln und Büchern verdient, nicht mit der Anwendung dieser Instrumente beim Handel. Das Argument des praktischen Nutzens von Artikeln ist hier nicht neu.
Zunächst wird die Definition der Klassifizierung auf Kindergartenniveau gegeben. Dann wird erzählt, dass Unsicherheit erzeugt wird(!?) und endet wie immer mit der Frage: "Wo ist der Schlüssel zu der Wohnung, in der das Geld liegt?".
Sie brauchen mehr theoretische Ausbildung. Studieren, studieren und nochmals studieren ... Sie wissen schon.
Und seien Sie bescheidener.
PS. Gib dein Angebot bei Freelance ein. Holen Sie sich ein echtes Produkt.
Ich habe Vladimir geantwortet.