Marktprognose basierend auf makroökonomischen Indikatoren - Seite 9

 
transcendreamer:


Ich würde immer noch widersprechen - Regression funktioniert mit allen Daten, nicht unbedingt besser als andere Methoden, aber immer noch gut genug, vor allem, wenn man bedenkt, dass der Bedarf an Rechenressourcen extrem gering ist


Die Regression funktioniert NICHT mit beliebigen Daten. Dies gilt insbesondere für die lineare Regression, die am Anfang dieses Themas erwähnt wurde.

Das Problem bei der Anwendung der linearen Regression kann in zwei Ebenen unterteilt werden.

1. Primäre Schätzung der Regressionskoeffizienten. Genau EVALUATION. Wenn wir y=a+inx schreiben, gibt es hier keine Genauigkeit, da die Regression keine Gleichung ist und die korrekte Eingabe y ~ a+inx ist, wobei das Tilde-Zeichen betont, dass die Koeffizienten keine Konstanten sind, sondern Schätzungen von Zufallsvariablen mit einer gewissen Genauigkeit, und daher können sie nicht addiert werden, wie Sie in Ihrem Beitrag vorschlagen.

Dementsprechend wird bei der Verwendung eines beliebigen Regressionsanpassungspakets jeder Koeffizient mit einer Reihe von Zahlen abgeglichen, die den angegebenen Koeffizientenwert als Zufallsvariable charakterisieren. Das Gesamtergebnis wird in der Spalte ganz rechts als Sternchen angezeigt. Drei Sternchen bedeuten, dass Sie den Wert des Koeffizienten als eine Konstante oder vielmehr als eine Schätzung eines Zufallswertes mit einem kleinen Fehler und einer kleinen Streuung betrachten können. Wenn keine Sternchen vorhanden sind, ist der angegebene Wert nichts und kann in keiner Weise verwendet werden.

Aber das ist noch nicht alles an Problemen. Und die Hauptprobleme sind folgende.

2. Die lineare Regression ist NUR auf stationäre Daten anwendbar, d. h. auf Daten mit annähernd konstantem Wert und konstanter Varianz. Die von Ihnen erwähnte Transformation, die zur Aufhebung des Trends führt, ist der Versuch, ihn in eine stationäre Form zu bringen. All dies wird in Form von ARIMA-Modellen verallgemeinert, aber es gibt solche Finanzreihen, und das sind die meisten, wenn ARIMA-Modelle keine Probleme lösen.

Wenn man nicht zwischen all diesen Feinheiten unterscheidet, sind die mit der linearen Regression erzielten Ergebnisse ein leeres Zahlenspiel.

 
faa1947:

Die Regression funktioniert NICHT mit beliebigen Daten. Dies gilt insbesondere für die lineare Regression, die am Anfang dieses Themas erwähnt wurde.

Das Problem bei der Anwendung der linearen Regression kann in zwei Ebenen unterteilt werden.

1. Primäre Schätzung der Regressionskoeffizienten. Genau EVALUATION. Wenn wir y=a+inx schreiben, ist das nicht mehr korrekt, denn die Regression ist keine Gleichung und der korrekte Eintrag y ~ a+inx, wobei das Tilde-Zeichen betont, dass die Koeffizienten keine Konstanten sind, sondern Schätzungen von Zufallsvariablen mit einer gewissen Genauigkeit, und daher können wir sie nicht addieren, wie Sie in Ihrem Beitrag vorschlagen.

Dementsprechend wird bei der Verwendung eines beliebigen Regressionsanpassungspakets jeder Koeffizient mit einer Reihe von Zahlen abgeglichen, die den angegebenen Koeffizientenwert als Zufallsvariable charakterisieren. Das Gesamtergebnis wird in der Spalte ganz rechts als Sternchen angezeigt. Drei Sternchen bedeuten, dass Sie den Wert des Koeffizienten als eine Konstante oder vielmehr als eine Schätzung eines Zufallswertes mit einem kleinen Fehler und einer kleinen Streuung betrachten können. Wenn keine Sternchen vorhanden sind, ist der angegebene Wert nichts und kann in keiner Weise verwendet werden.

Aber das ist noch nicht alles an Problemen. Und die Hauptprobleme sind folgende.

2. Die lineare Regression ist NUR auf stationäre Daten anwendbar, d. h. auf Daten mit annähernd konstantem Wert und konstanter Varianz. Die von Ihnen erwähnte Transformation, die zur Aufhebung des Trends führt, ist genau der Versuch, ihn in eine stationäre Form zu bringen. All dies wird in Form von ARIMA-Modellen verallgemeinert, aber es gibt solche Finanzreihen, und das sind die meisten, wenn ARIMA-Modelle keine Probleme lösen.

Wenn man nicht zwischen all diesen Feinheiten unterscheidet, sind die mit der linearen Regression erzielten Ergebnisse ein leeres Zahlenspiel.

bei mir funktioniert es einwandfrei )))) und es ist nur eine lineare Regression

Die Summierung der Koeffizienten ist eine grobe Methode, da stimme ich zu.

Ich habe versucht, die Signifikanz der Koeffizienten und die Varianzanalyse zu analysieren, aber in der Praxis scheint mir das wenig nützlich zu sein

es ist viel einfacher und bequemer, das Verhalten der endgültigen Kurve und die Übereinstimmung der theoretischen Werte mit den ursprünglichen Daten visuell auf dem Diagramm zu sehen

Deshalb nehme ich den Lösungsvektor so, wie er ist, und das reicht in den meisten Fällen aus.

Wenn es gut zu den Daten passt, ist alles in Ordnung.

Ich habe andere, bessere Lösungen, andere Methoden ausprobiert - das Ergebnis ist nicht viel anders als das der Regression

Ich habe festgestellt, dass einige Koeffizienten innerhalb gewisser Grenzen schwanken können, was die endgültige Kurve nicht wesentlich beeinflusst.

Aber das ist in Ordnung - diese Koeffizienten sind ohnehin instabil, sie werden sich im Laufe der Zeit allmählich verändern, so dass es keinen Sinn hat, sie zu bewerten

über die Stationarität - natürlich gibt es sie auf dem Markt nicht, was also tun?

es ist wahrscheinlich nicht akademisch, das zu tun, was ich tue

aber was soll man dann als Ersatz nehmen?

 
transcendreamer:

.....

aber was soll dann ersetzt werden?

Sie haben sich auf die lineare Regression beschränkt, aber Sie könnten die Frage auch so formulieren: Wählen Sie die am besten geeignete Art der Regression in Abhängigkeit von der Aufgabenstellung. Sie können all die vielen Regressionen (nicht nur die linearen) als einen Haufen schwarzer Kästen betrachten und sich bei der Bewertung der erzielten Ergebnisse auf sinnvolle Probleme konzentrieren.

Um aus einer linearen Regression wie aus einer kurzen Hose herauszukommen, muss man viel Zeit investieren.

Als Nächstes entscheiden Sie sich für die Art der Vorhersage: Wollen Sie den Wert vorhersagen, z. B. den Kurs eines Währungspaares, oder die Richtung des Kurses vorhersagen, eine Art qualitatives Merkmal von "Long-Short" oder andere Aufträge des Terminals.

Nun müssen Sie sich für eine Art von Zeitinvestition entscheiden.

In der ersten Phase empfehle ich Rattle als Tor zur Welt der mehr als 100 Modelle. Nach dem Niveau Ihrer Überlegungen zur linearen Regression zu urteilen, ist das ein oder zwei Tage Ihrer Zeit. Am Ende gibt es 6 Modelltypen, von denen einer fast Ihr Favorit ist und nur "generalisierte lineare" Modelle genannt wird, aber die anderen sind viel interessanter, mit denen Sie tatsächlich Vorhersagemodelle erstellen können.

 
faa1947:

Sie haben sich auf die lineare Regression beschränkt, aber Sie könnten die Frage auch so formulieren: Wählen Sie die am besten geeignete Art der Regression in Abhängigkeit von der Aufgabenstellung. Man kann sich die vielen Regressionen (nicht nur die linearen) als einen Haufen schwarzer Kästen vorstellen und sich auf die sinnvollen Probleme der Auswertung der Ergebnisse konzentrieren.

Um aus einer linearen Regression wie aus einer kurzen Hose herauszukommen, muss man viel Zeit investieren.

Als nächstes entscheiden Sie sich für die Art dessen, was Sie vorhersagen, nämlich: werden Sie den Wert vorherzusagen, zum Beispiel den Preis eines Währungspaares, oder sagen Sie die Richtung des Preises, eine Art von qualitativen Merkmal "Long-Short" oder andere Aufträge des Terminals.

Nun müssen Sie sich für eine Art von Zeitinvestition entscheiden.

In der ersten Phase empfehle ich Rattle als Tor zur Welt der mehr als 100 Modelle. Nach dem Niveau Ihrer Überlegungen zur linearen Regression zu urteilen, ist das ein oder zwei Tage Ihrer Zeit. Am Ende gibt es 6 Modelltypen, von denen einer fast Ihr Favorit ist und nur "generalisierte lineare" Modelle genannt wird, aber die anderen sind viel interessanter, mit denen Sie tatsächlich Vorhersagemodelle erstellen können.

Leider haben, wie gesagt, andere Optimierer im Vergleich zur linearen Regression keine signifikant besseren Ergebnisse gezeigt.

In einigen wissenschaftlichen Anwendungen können sie vielleicht einen Vorteil bringen, aber im Handel ist die genaue Vorhersage eine Illusion.

GLM wurde für Versicherungen entwickelt, wenn ich mich nicht irre, SVM und ADA sind zu eng gefasst, logistische Regression ist aus offensichtlichen Gründen nicht geeignet

Neuronale Netze und Zufallswälder sind vielseitig und vorteilhafter, da sie das Null-Wurzel-Problem umgehen und jede beliebige Zielfunktion angegeben werden kann

aber es ist ein echtes Kopfzerbrechen da draußen, zumindest für mich, einen Menschenfreund.

Die Methode der Hauptkomponenten war eine Entdeckung für mich, aber ich konnte sie noch nicht auf mein Problem (Portfolios) anwenden.

Die Zufallswälder sind auf jeden Fall eine Überlegung wert, und ich habe vor, sie nach einiger Zeit auszuprobieren, aber ich erwarte keine große Wirkung.

Schade, dass es kein GA in rattle gibt, sonst könnte ich es nicht finden.

 

Ich würde die lineare Regression nicht als "käsig" bezeichnen. Und es gibt keinen Grund anzunehmen, dass ich nicht schon eine Reihe anderer Modelle ausprobiert habe.

Jeder weiß, dass jedes nichtlineare Modell y = f(x1,x2,...) in eine Taylor-Reihe zerlegt werden kann:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Diejenigen, die sich in der Mathematik auskennen, wissen, dass es sich dabei um eine Zerlegung der Funktion f(x1,x2,...) in Polynom- (genauer: Monom-) Basen x, x^2, x^3 usw. handelt. Bei einer linearen Regression bleiben nur die linearen Terme dieser Expansion erhalten, es handelt sich also um eine Annäherung erster Ordnung. Nichtlineare Basen können aus verschiedenen bekannten Polynomen gewählt werden, z. B. Tschebyscheff, Hermite, Legendre usw. Die korrekte Methode zur Auswahl von Polynomen ist jedoch die QR-Zerlegung oder im allgemeineren Fall die Auswahl von orthogonalen Polynomen unter Berücksichtigung der statistischen Eigenschaften der Eingaben x1, x2, ... Neuronale Netze versuchen, dieselbe Zerlegung vorzunehmen, allerdings für exp-Funktionen von Eingaben gemäß dem Kolmogorov-Theorem. Diese Zerlegung ist recht umständlich, da die Exponentialfunktionen der Eingänge nicht orthogonal zueinander sind, was zu zahlreichen numerischen Problemen und Lösungsvarianten führt. In jedem Fall haben alle diese Zerlegungen unserer nichtlinearen Funktion ein lineares Modell als Approximation erster Ordnung. Wenn also eine lineare Annäherung (Regression) nicht das erwartete Ergebnis liefert, ist es sinnlos, zu höheren Graden der Nichtlinearität überzugehen. Auch die lineare Regression kann mit verschiedenen Methoden gelöst werden (RMS, MNM und andere beliebige Fehlerfunktionen), die ich alle ausprobiert habe.

Übrigens sind alle ökonometrischen ARMA-, ARIMA- und anderen Modelle Einzelfälle des obigen Modells y[n] = f(x1[n-d1],x2[n-d2],...), bei denen einige Inputs verzögerte Outputs sind, d. h. y[n-1], y[n-2], daher der Name "autoregressive" Modelle. Obwohl es nicht gesund ist, autoregressive Modelle mit RMS- oder CMM-Methoden zu lösen, weil die erhaltenen Koeffizienten zu oszillierenden Modellen führen. Wir brauchen Burg, modifizierte Kovarianz und so weiter. Aber ich habe dieses "autoregressive" Kapitel schon lange hinter mir gelassen und möchte nicht mehr zurückkehren. Mein Marktmodell erlaubt zwar die Auswahl eines verzögerten Ausstiegs als einen der Inputs. Bisher hat sie jedoch noch nie einen solchen "autoregressiven" Input gewählt, was bedeutet, dass die Wirtschaftsindikatoren für die Vorhersage des Preises besser geeignet sind als der Preis selbst in der Vergangenheit (der die Grundlage für die große Mehrheit der auf der technischen Analyse basierenden Methoden der Händler bildet).

 
faa1947:

Ich habe einen Vorschlag.

Legen Sie eine tsv.-Datei mit den Namen der Spalten ab. Geben Sie an, welche (welche) Spalten als Zielvariablen verwendet werden sollen. Natürlich sollte sich die Tabellenzeile auf einen Zeitpunkt beziehen.

Ich werde es in Rattle laufen lassen und mit Ihrer Erlaubnis werde ich das Ergebnis hier für 6 sehr anständige Modelle posten.


Vorschlag angenommen. Geben Sie ein akzeptables Datendateiformat an. Reicht eine Matte? Das sind eine Menge Daten, CSV wird die ganze Festplatte auffressen. MAT nur 6MB.

Aber ich habe eine Bedingung: Die Prognosen werden für den Zeitraum von 2000 bis 2015 erstellt, aber nur auf der Grundlage der Daten, die vor dem prognostizierten Datum verfügbar sind. Das heißt, wenn Sie Vorhersagen für das erste Quartal 2000 treffen, arbeiten Sie mit Daten bis zum ersten Quartal 2000. Die Auswahl von Prädiktoren aus allen verfügbaren Daten, einschließlich 2015, und ihre anschließende Verwendung zur Vorhersage des ersten Quartals 2000, selbst wenn die Modellkoeffizienten aus Daten vor dem ersten Quartal 2000 berechnet wurden, ist eine Vorausschau. Ich hatte diesen Fehler in der Vergangenheit und mein Modell hat erstaunlich genaue Vorhersagen gemacht. Kurz gesagt, meine Bedingung ist, dass Prädiktoren ausgewählt werden und das Vorhersagemodell selbst aus Daten VOR dem vorhergesagten Datum berechnet wird.

 
gpwr:

Angebot angenommen. Geben Sie ein akzeptables Datendateiformat an. Ist die Matte in Ordnung? Zu viele Daten, CSV frisst die ganze Festplatte. MAT nur 6MB.


Das erste Problem ist die Datei. Wir werden darüber nachdenken müssen. Ich bin sicher, MAT nimmt R - R und MATLAB sind sehr kompatibel, aber ich weiß nicht, wie man das macht. Sobald ich fertig bin, werde ich zurückschreiben.

 
gpwr:

Ich würde die lineare Regression nicht als "käsig" bezeichnen.



"Bedauernswert" für nicht-stationäre Daten.

Und um meine Beiträge zusammenzufassen: Das Werkzeug muss zum Problem passen.

Bei Regressionen ist die Nicht-Stationarität von Finanzreihen das eigentliche Problem. Bei der Auswahl eines Toolkits müssen Sie also darauf achten, wie das gewählte Tool das Problem der Nicht-Stationarität löst. Das von mir erwähnte ARIMA löst das Problem der Nicht-Stationarität bis zu einem gewissen Grad, aber ich habe noch nie gehört, dass Taylor-Reihen das Problem der Nicht-Stationarität lösen. Im Rahmen der Regressionen ist ARIMA nicht das einzige Instrument, obwohl es in den US-Regierungsstrukturen immer noch verwendet wird und nicht das fortschrittlichste ist. Von den bekannten wird ARCH mit einer Reihe von Änderungen erwähnt.

Das Ergebnis der Nicht-Stationarität ist ein Superfitting des Modells. Es zeigt sich darin, dass man ein Modell mit außerordentlicher Genauigkeit erstellen kann, das aber außerhalb der Trainingsstichprobe nicht funktioniert, und zwar heimlich: mal funktioniert es, dann wieder nicht. Was Sie über die Überlegenheit einfacher Modelle gegenüber komplexen Modellen sagen, ist bekannt und beruht auf der Tatsache, dass ein komplexes Modell viel leichter zu übertreffen ist als ein einfaches.

 
gpwr:

Ich würde die lineare Regression nicht als "käsig" bezeichnen. Und es gibt keinen Grund anzunehmen, dass ich nicht schon eine Reihe anderer Modelle ausprobiert habe.

Jeder weiß, dass jedes nichtlineare Modell y = f(x1,x2,...) in eine Taylor-Reihe zerlegt werden kann:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Diejenigen, die sich in der Mathematik auskennen, wissen, dass es sich dabei um eine Zerlegung der Funktion f(x1,x2,...) in Polynom- (genauer: Monom-) Basen x, x^2, x^3 usw. handelt. Bei einer linearen Regression bleiben nur die linearen Terme dieser Expansion erhalten, es handelt sich also um eine Annäherung erster Ordnung. Nichtlineare Basen können aus verschiedenen bekannten Polynomen ausgewählt werden, z. B. Tschebyscheff, Hermite, Legendre usw. Die korrekte Methode zur Auswahl von Polynomen ist jedoch die QR-Zerlegung oder im allgemeineren Fall die Auswahl von orthogonalen Polynomen unter Berücksichtigung der statistischen Eigenschaften der Eingaben x1, x2, ... Neuronale Netze versuchen dieselbe Zerlegung, allerdings auf der Grundlage von Exp-Funktionen der Eingänge gemäß dem Kolmogorov-Theorem. Diese Zerlegung ist recht umständlich, da die Exponentialfunktionen der Eingänge nicht orthogonal zueinander sind, was zu zahlreichen numerischen Problemen und Lösungsvarianten führt. In jedem Fall werden alle diese Zerlegungen unserer nichtlinearen Funktion ein lineares Modell als Näherung erster Ordnung haben. Wenn also eine lineare Annäherung (Regression) nicht das erwartete Ergebnis liefert, ist es sinnlos, zu höheren Graden der Nichtlinearität überzugehen. Auch die lineare Regression kann mit verschiedenen Methoden gelöst werden (RMS, MNM und andere beliebige Fehlerfunktionen), die ich alle ausprobiert habe.

Übrigens sind alle ökonometrischen ARMA-, ARIMA- und anderen Modelle Einzelfälle des obigen Modells y[n] = f(x1[n-d1],x2[n-d2],...), bei denen einige Inputs verzögerte Outputs sind, d. h. y[n-1], y[n-2], daher der Name "autoregressive" Modelle. Obwohl es nicht gesund ist, autoregressive Modelle mit RMS- oder CMM-Methoden zu lösen, da die erhaltenen Koeffizienten zu oszillierenden Modellen führen. Wir brauchen Burg, modifizierte Kovarianz und so weiter. Aber ich habe dieses "autoregressive" Kapitel schon lange hinter mir gelassen und möchte nicht mehr zurückkehren. Mein Marktmodell erlaubt zwar die Auswahl eines verzögerten Ausstiegs als einen der Inputs. Bislang hat sie jedoch noch nie einen solchen "autoregressiven" Einstieg gewählt, was bedeutet, dass die Wirtschaftsindikatoren für die Vorhersage des Kurses besser geeignet sind als der Kurs selbst in der Vergangenheit (was die Grundlage der meisten auf der technischen Analyse basierenden Methoden der Händler ist)

Ich denke, das habe ich gemeint: ))))

Ich führe eine Regression auf den Datensatz durch und erhalte "so-so"-Modelle, und andere Methoden ergeben fast immer ebenfalls "so-so"-Modelle

und wenn eine lineare Regression ein "mehr oder weniger" Modell ergibt, dann stelle ich fest, dass andere Methoden es vielleicht etwas verbessern

 
Es wäre hilfreich, eine klare Definition oder zumindest eine Klärung dessen zu geben, was mit "Vorhersage", "Prognose" usw. gemeint ist. Ohne dies sind "Prognosen" sinnlos. Denn je nach Horizont kann ein und dieselbe "Vorhersage" für einen Horizont richtig und für einen anderen falsch sein. Außerdem können sich solche Parzellen mehrmals abwechseln.
Grund der Beschwerde: