Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl) - Seite 20

 

Ich danke Ihnen! Ich habe es heruntergeladen und einen Blick darauf geworfen.

Ich werde also diskretisieren, indem ich eine Division durch ein Quantil verwende, so dass die Wahrscheinlichkeitsdichtefunktion einheitlich ist. Ich werde die gegenseitige Information für 500 Lags messen und ein Diagramm veröffentlichen.

 

Und für den Anfang:

Der Typ der Wahrscheinlichkeitsdichtefunktion für Ihre Rohdaten:

Entspricht einer Normalverteilung.

Anschließend wird ein Autokorrelogramm über die ursprüngliche Reihe Ihrer Werte bis zur Verzögerung 50 erstellt:

Sie können sehen, dass die Korrelationen im Allgemeinen nicht signifikant sind, auch wenn bei einigen Verzögerungen eine gewisse Korrelation durchscheint.

Schließlich habe ich die Werte Ihrer Reihe quadriert und ein Autokorrelogramm erstellt, um ausschließlich die Dichte der "Volatilität" zu betrachten:

Ich stelle fest, dass die Volatilität von den Werten der nahen Vergangenheit abhängt. All dies ähnelt den täglichen Notierungen von Aktienindizes und ein wenig den täglichen EURUSD-Notierungen (ich werde die Berechnung dafür später veröffentlichen).

Wir warten die Ergebnisse der I(X,Y)-Berechnung ab.

 
alexeymosc: Warten auf die Ergebnisse der Berechnung von I(X,Y).

Gut, wir warten, Alexey.

Nach Ihren Ergebnissen für I(X,Y) kann ich die Daten in mein Skript zur Chi-Quadrat-Berechnung laden. Ich glaube nicht, dass etwas Nützliches herauskommen wird (das ist meine a priori Annahme).

 

Ich entschuldige mich für die Verzögerung. Das Internet ist ausgefallen.

Ich werde mit dem methodischen Teil beginnen. Ich habe die Reihe in 5 Werte (Quantile) diskretisiert. Und warum? Wenn Sie die Kreuzhäufigkeiten für die Zielvariable und die abhängige Variable berechnen, erhalten Sie 25 Auswahlmöglichkeiten. Wenn Sie 10.000 durch 25 teilen, erhalten Sie 400. Dies ist eine statistisch signifikante Stichprobe. Sie können zwischen 3 und 7 wählen; ich habe mich für den Mittelweg entschieden.

Auf diese Weise wird die durchschnittliche Empfängerinformation (Zielvariable) berechnet;


Ich stelle fest, dass die Berechnung der durchschnittlichen Information für jede Verzögerung einen ähnlichen Wert ergibt (es sei denn, wir haben die unabhängigen Variablen in einem Alphabet unterschiedlicher Länge diskretisiert).

Dies ist die Berechnung der Kreuzentropie für die Ziel- und abhängigen Variablen:

Histogramm der Werte der gegenseitigen Information über die ursprüngliche Zeitreihe :

Ich kann nur die ersten Verzögerungen feststellen, die aus dem Gesamtbild herausragen. Es ist schwer, etwas über den Rest zu sagen.

Außerdem habe ich Folgendes getan. Da die Daten normal waren, habe ich in Echel 10.000 Zufallszahlen mit demselben Mittelwert und derselben Standardabweichung erzeugt. Ich habe die gegenseitigen Informationen für 500 Verzögerungen gezählt. Das ist dabei herausgekommen:


Sie können mit dem Auge sehen, dass die ersten Verzögerungen nicht mehr so informativ sind.

Der Rest der Metriken auf den resultierenden Stichproben der gegenseitigen Informationswerte sollte entfernt und verglichen werden. Also:

Summe der gegenseitigen Informationen für 500 Variablen für die ursprüngliche Reihe: 0,62. Für die Zufallsreihen: 0,62. Dies bedeutet, dass auch der Durchschnitt der Stichproben gleich ist. Setzen Sie das erste Häkchen bei der Annahme, dass sich die ursprüngliche Reihe nicht wesentlich von der Zufallsreihe unterscheidet (auch unter Berücksichtigung der Volatilitätsabhängigkeit).

Führen wir nichtparametrische Tests durch, um die Hypothese der Unwesentlichkeit der Unterschiede zwischen den beiden Stichproben zu bestätigen.

Kolmogorov-Smirnov-Test (für Stichproben ohne Berücksichtigung der Reihenfolge der Variablen und mit a priori unbekannten Wahrscheinlichkeitsdichtefunktionen): p > 0,1 bei 0,05 Signifikanzniveau. Wir lehnen die Hypothese ab, dass der Unterschied zwischen den Stichproben signifikant ist. Setzen Sie das zweite Häkchen.

Das Ergebnis: Die ursprüngliche Reihe unterscheidet sich nur unwesentlich von der Zufallsreihe, wie anhand der Statistik der gegenseitigen Information gezeigt wurde.

In diesem Fall hatte die Abhängigkeit von der Volatilität keinen großen Einfluss auf das Aussehen des Histogramms. Allerdings muss man bedenken, dass ich die Probenahme für den DJI anders durchgeführt habe.

 
Mathemat:

Nun gut, wir warten, Alexej.

Nach Ihren Ergebnissen für I(X,Y) kann ich die Daten in mein Skript zur Chi-Quadrat-Berechnung laden. Ich glaube nicht, dass etwas Nützliches herauskommen wird (das ist meine a priori Annahme).

Auch ich bringe a priori die Bayes'sche Plausibilität zum Schweigen...

Siehe die Verkürzungen.

:)

Lärm - wie er ursprünglich gesehen wurde.

Und Ihre Alexej-Recherchen sind klüger.

Aber Poisson ist mein Freund.

 
Der Mann-Whitney-Test ergab einen p-Wert von 0,46. Wir verwerfen auch die Hypothese, dass die Unterschiede zwischen den Stichproben signifikant sind.
 
Leute, ich werde nun die EURUSD-Tagebücher auf ähnliche Weise analysieren. Schauen wir mal!
 

Vielen Dank, Dougherty!

DU bist der Richtige!

Freut mich, Sie kennenzulernen.

 
alexeymosc:
Leute, ich werde jetzt die EURUSD-Tagebücher auf ähnliche Weise analysieren. Schauen wir mal!

Versuchen Sie stattdessen Watchbooks. Es gibt wenig gegenseitige Informationen im Tages-Chart.

P.S. Die vorläufige Zusammenfassung lautet wie folgt: GARCH(1,1) zeigte eine Art von Volatilitätsclusterung, ähnlich wie die eh... Heteroskedastizität, liefert aber erwartungsgemäß keine Informationen. Vielleicht sollten wir die Größenordnungen, d.h. die Argumente des Modells, erhöhen?

 

Daten vom A-ri-Server, EURUSD D1. Nimmt die Serieninkremente zu den benachbarten Close-Preisen. Diskretisiert durch 5 Quantile.

Schauen wir uns an, was die Berechnung der gegenseitigen Information ergeben hat:

Es ist zu erkennen, dass die nächsten 100-200 Verzögerungen mehr Informationen enthalten als die anderen.

Mischen wir nun die Inkremente nach dem Zufallsprinzip und erhalten eine Zufallsreihe. Lassen Sie uns den VI berechnen:

Wow. Es sind noch keine Informationen über die nächsten Verzögerungen zu sehen.

Wir wollen die Ergebnisse visuell vergleichen:

Die näheren Zeitabstände zeigen deutlich das Überwiegen der ursprünglichen (blauen) Reihe.

Ich habe einen gleitenden Durchschnitt mit Fenster 22 (Monat) auf die I-Werte für die ursprüngliche und die zufällige Reihe angewendet:

Es ist klar, dass die ursprüngliche (blaue) Serie einen anderen Informationsspeicher als die zufällige Serie hat (die Diskussion über die Art dieser Information überlassen wir dem Dessert), und zwar bei den nahen Verzögerungen bis zu etwa 200 Zählungen.

Was sagen die nichtparametrischen Tests aus?

Kolmogorov-Smirnov-Test:

p < 0,001

Mann-Whitney-Test:

p = 0,0000.

Wir lehnen die Hypothese ab, dass die Unterschiede zwischen den Stichproben nicht signifikant sind. Oder die EURUSD-D1-Renditenreihe unterscheidet sich stark von Zufallsdaten mit ähnlichen Merkmalen in Bezug auf Mittelwert und Streuung.

Igitt. Ich mache jetzt eine Rauchpause.

Grund der Beschwerde: