Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl)

 

Guten Tag!

Ich habe beschlossen, das von Alexey (Mathemat) in einem der Forumsthreads angesprochene Thema ein wenig weiterzuentwickeln.

Ich habe versucht, mit statistischen Methoden nach Abhängigkeiten in den Kursen eines Finanzinstruments zu suchen. Zunächst nahm ich den Dow Jones Industrial Index, tägliche Daten, und wandelte eine Reihe von Serien in eine Reihe von Prozentschritten um.

Der Artikel ist hier zu finden: http: //habrahabr.ru/blogs/data_mining/127394/

Ich würde gerne mit den FX-Kursen fortfahren und werde die Ergebnisse hier veröffentlichen.

 

Bravo, Alexey, ich hatte nicht erwartet, dass du derjenige sein würdest, der deinen Namensvetter überrascht (verzeih mir um Gottes willen, aber ich habe immer noch eine Vorstellung vom durchschnittlichen Reifegrad in unserem Forum).

Ich bin froh, dass Sie in etwa so vorgehen wie ich, nämlich mit gegenseitiger Information I() und grober Schätzung in Hundertstelsekunden. Es stimmt, ich habe keinen Kolmogorov-Smirnov-Test verwendet. Und ich habe nicht Tage, sondern Stunden gebraucht (es gibt mehr Daten und die Schlussfolgerungen sind zuverlässiger). И... Ich habe die Inkremente auf eine etwas andere Weise diskretisiert.

Das ist wirklich ein bisschen viel für einen Hubr, denke ich. Sie sind einfach nur IT-Leute, wenn auch sehr klug :) (Siehe den Kommentar von Cher, der mit +3 bewertet wurde, also die Höchstnote erhielt).

Ich habe ein paar Fragen an Sie - ich werde Ihnen später persönlich schreiben. In der Zwischenzeit beobachte ich hier: Vielleicht erfährt jemand anderes davon...

 

Alexey, ich danke dir... Ich freue mich, dass es Ihnen gefallen hat, denn nachdem ich die Zusammenfassung Ihrer Forschungsergebnisse gelesen hatte, war ich endlich von der Idee angetan.

Einige spezifische Aspekte der Forschung könnten natürlich geändert werden. Ich selbst habe lange darüber nachgedacht, wie man Werte besser diskretisieren kann, und bin bei einer so einfachen Methode wie dem Runden stehen geblieben.

Und ich habe die Analyse für EURUSD H1 auch schon gemacht. Ich habe ein Angebot von Alpari für 10 Jahre (64500 Barren) angenommen. Hier ist sie:

Und mit Pfeilen habe ich die wöchentlichen Verzögerungen markiert: Sie stechen meiner Meinung nach irgendwie hervor.

Und so sieht die Autokorrelationsfunktion für diese Reihe aus:

Alles in allem kann man eine strenge 24-Stunden-Zyklizität feststellen. Auch dies kann diskutiert werden.

Übrigens habe ich auch hier die Inkremente auf 10 Punkte aufgerundet (dadurch ergibt sich eine Entropie der Daten von etwa 2,5 Bits). Außerdem konnte ich mich nicht durch mehr Variablen durcharbeiten, wenn ich zum Beispiel in die Geschichte eines Jahres eintauchen wollte. Excel hält den Computer fest im Griff und verschlingt 4 GB RAM. Ich konnte es physisch nicht tun, aber der Gedanke war da.

 

Übrigens ergibt das Chi-Quadrat in etwa das gleiche Bild: Mit zunehmender Verzögerung beobachten wir alle 24 Balken einen ordentlichen Anstieg des Kriteriumswerts.

P.S. Ich möchte betonen, dass der ACF hier nicht durch eine Anzahl von Renditen berechnet wird, sondern durch den gemittelten Informationsfluss, der durch vergangene Notierungen zum Nullbarren geliefert wird. Wenn wir einen bestimmten Nulldurchgang für die Berechnungen nehmen, wird der Informationsfluss zu ihm anders berechnet.

 
alexeymosc:

Daraus lässt sich schließen, dass es in den natürlichen Finanzdaten (zumindest für den DJI-Index) statistisch signifikante willkürliche Beziehungen zwischen den Kurssteigerungen gibt. Das heißt, dass eine solche Datenreihe nicht als zufällig angesehen werden kann. Theoretisch ist es möglich, die zukünftigen Werte einer solchen Reihe vorherzusagen, zum Beispiel mit Hilfe neuronaler Netze.

Die Tatsache, dass ein Zusammenhang festgestellt wurde, lässt sich durch die bekannte Tatsache erklären, dass die Volatilität von früheren Werten abhängt. Sie können es sogar mit bloßem Auge an Ihrem Diagramm der Inkremente erkennen. Es gibt theoretische Modelle, die die Abhängigkeit von der Volatilität beschreiben - wie ARCH/GARCH.

Deshalb bilden sich innerhalb eines Tages Zyklen von 24 Stunden - der Ochse auf dem Devisenmarkt hat ein stationäres zyklisches Verhalten:

Das hat einfach mit den Öffnungs- und Schließungszeiten der verschiedenen Finanzzentren zu tun. Die Handelsaktivität ändert sich. Wenn Sie eine Münze als Datenquelle verwenden))), dann wird sie mal öfter, mal weniger oft geworfen.

Außerdem gibt es einen wöchentlichen Vol-Zyklus, der jedoch weniger ausgeprägt ist als bei den Aktienmärkten. Nur ein Rückstand von 5 in Tagesschritten ;)

Es ist also kein Argument, um die Richtung der Kursänderungen vorherzusagen (was uns interessiert). Der Vergleich sollte mit einer Zufallsreihe erfolgen, die aus der realen Volatilität (z. B. Tickvolumen) generiert wird. D.h. Abhängigkeit von der Streuung in der Verteilung während der Erzeugung. Ansonsten bestimmen viele statistische Tests genau die Abhängigkeit der Volatilität und nicht die Varianz der Inkremente

 
alexeymosc:

Im Allgemeinen ist ein strenger 24-Stunden-Zyklus zu beobachten. Auch dies kann diskutiert werden.

Was gibt es da zu diskutieren? Die Intraday-Zyklizität ist seit langem bekannt. Darauf haben sogar Leute hingewiesen, die von Mathematik überhaupt nichts verstehen, wohl aber vom Markt. Darüber hinaus gibt es selbst innerhalb der Handelssitzungen bestimmter Handelsplätze eine Zyklizität. Sie kommt nicht annähernd dem Verständnis dessen nahe, was an sich getan werden sollte. Allerdings lässt sich daraus ein kleiner Vorteil ableiten.
 
Avals:

Ansonsten bestimmen viele statistische Tests genau die Abhängigkeit der Volatilität und nicht die Korrekturen der Inkremente


Und das ist richtig. Ich bin auch gleich darauf gekommen, ich habe nur nicht alle meine Gedanken hier gepostet.
 
Mathemat:

Übrigens ergibt das Chi-Quadrat in etwa das gleiche Bild: Mit zunehmender Verzögerung beobachten wir alle 24 Balken einen ordentlichen Anstieg des Kriteriumswerts.

P.S. Ich möchte betonen, dass der ACF hier nicht durch eine Anzahl von Renditen berechnet wird, sondern durch den gemittelten Informationsfluss, der durch vergangene Notierungen zum Nullbarren geliefert wird. Wenn wir einen bestimmten Nulldurchgang für die Berechnungen nehmen, wird der Informationsfluss zu ihm anders berechnet.


Ja, das Histogramm wird anhand der Werte der gegenseitigen Information berechnet, und ich habe es nur erstellt, um die Idee der Zyklizität zu bestätigen.
 
HideYourRichess:
Was gibt es da zu besprechen? Die Intraday-Zyklizität ist seit langem bekannt. Darauf haben sogar Leute hingewiesen, die von Mathematik überhaupt nichts verstehen, wohl aber vom Markt. Darüber hinaus ist die Zyklizität auch innerhalb der Handelssitzungen bestimmter Handelsplätze gegeben. Sie kommt nicht annähernd dem Verständnis dessen nahe, was an sich getan werden sollte. Allerdings lässt sich daraus ein kleiner Vorteil ziehen.

Ich verstehe es. Wir sollten einen Zeitrahmen von einem Tag oder mehr einplanen.
 
alexeymosc:

Ich verstehe nicht, woher diese zyklische Schönheit kommt?

Hier ist das Ergebnis für die letzten 100 Tage.

Erste Karte:


Am Anfang scheint es einen Trend zu geben, oder einen Seitwärtstrend insgesamt. Probieren wir es mit dem Roast-Beer aus.

Es klingt lächerlich, aber die Wahrscheinlichkeit, dass die Verteilung normal ist, beträgt 80 %!

Schauen wir uns die Autokorrelation an:



Wo ist die Zyklizität? Ich sehe es nicht, aber ich sehe den Trend. Solange es einen Trend gibt, sind alle statistischen Überlegungen irrelevant. Führen wir eine Hodrick-Prescott-Glättung durch. Ergebnis:


Bitte beachten Sie das antitheoretische Lambda. Schauen wir uns nun den Rest an, der hier Zyklus genannt wird:

Der Rest der HP-Glättung ist, nun ja, ganz normal!

Es gibt keine Trends. Möglicherweise gibt es eine Zyklizität (3 - 13,14), aber dafür sind ernsthaftere Beweise erforderlich.


 

Erstens befindet sich die Zyklizität nicht auf dem Tages-, sondern auf dem Stundenchart! Dort habe ich übrigens geschrieben.

Und bei Tagesdiagrammen wird das Ergebnis nicht zyklisch sein, da haben Sie recht.

Grund der Beschwerde: