Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl) - Seite 2

 
alexeymosc:

Erstens befindet sich die Zyklizität nicht auf dem Tages-, sondern auf dem Stundenchart! Dort habe ich übrigens geschrieben.

Und für Tagescharts wird das Ergebnis nicht zyklisch sein, da haben Sie recht.

Verzeihung, wir wiederholen für den Stundenchart.

Die Originalkarte für 120 Stunden.

Ich kann in der Grafik keine Zyklizität erkennen, der Trend ist da. Prüfen wir auf Normalität:

Beim Roastbeer ist das überhaupt nicht normal. Prüfen Sie den ACF:

Es gibt einen Trend und keine Zyklizität - anderes Ergebnis.

Wenn es einen Trend gibt, ist eine statistische Analyse nicht erforderlich. Lassen Sie uns mit demselben Hodrick eine Umkehrung vornehmen:

Der Rest ist weißes Rauschen. Sehen Sie sich die Zyklen darin an:


Natürlich gibt es eine Welle, aber sie ist nicht solide und im Vergleich zu Ihrer überhaupt nicht schön. Ich denke, der ganze Unterschied liegt in der Abweichung. Ohne die Entfernung der abweichenden Komponenten ist es unmöglich, Statistiken zu erstellen.

 
Sie tun etwas Eigenes. Das hat überhaupt nichts mit meiner Arbeit zu tun ))) Beginnen wir mit der Tatsache, dass ich mit einer Reihe von Inkrementen arbeite. Nimmt man dann die Werte dieser Reihe modulo (d. h. Plus und Minus) und erstellt ein Autokorrelogramm, so ergibt sich bestimmt eine schöne Zyklizität mit Periode 24. Dies ist logischerweise näher an meinem Fall.
 
Gestern habe ich einem Hubra-Artikel einen Auszug über die Informationstheorie hinzugefügt. Es kann helfen, den Prozess der Suche nach wichtigen Variablen zu verstehen.
 
alexeymosc:
Sie machen etwas Eigenes. Das hat nichts mit dem zu tun, was ich tue ))) Beginnen wir mit der Tatsache, dass ich mit einer Reihe von Schritten arbeite. Nimmt man dann die Werte dieser Reihe modulo (d. h. Plus und Minus) und erstellt ein Autokorrelogramm, so ergibt sich eine schöne Zyklizität mit Periode 24. Das ist logischerweise näher an meinem Geschäft.

Ganz wie Sie wollen. Ich berechne das Inkrement als die Differenz zwischen den aufeinanderfolgenden und den vorherigen Werten. Ich erhalte ein Diagramm:

Für diese Inkremente berechne ich den ACF

Bitte beachten Sie, dass die letzte Spalte die Wahrscheinlichkeit angibt, dass keine Korrelation zwischen den Balken besteht.

Ich nehme das Quadrat der Inkremente. Hier ist das Diagramm:

Dies sind die Spitzen der Volatilität, was hat die Zyklizität der Zuwächse damit zu tun? Vielleicht die Zyklizität der Volatilität? Auch das ist interessant. Überprüfen wir die Zyklizität der Akkretion:

Nun, es gibt hier keine Zyklizität, und beachten Sie die letzte Spalte - eine extrem hohe Wahrscheinlichkeit, dass keine Korrelation besteht.

Zwei weitere Zahlen sind interessant. Überprüfen wir die Normalität der Inkremente:

Beachten Sie, dass nach Jarque-Bera die Wahrscheinlichkeit der Normalität gleich Null ist!

Was für eine Art der Verteilung ist das? Ich wünschte, es wäre normal. Ich habe die Idee, mit Inkrementen zu arbeiten, die sich aus der Differenz zwischen dem nächsten und dem vorhergehenden Schritt ergeben, immer für fragwürdig gehalten.

Endlich. Aus irgendeinem Grund kann ich Ihr Ergebnis nicht erhalten.

 

faa1947, Ihre Berechnungen haben nichts mit dem durchschnittlichen Informationsfluss zu tun, von dem der Themenstarter gesprochen hat. Sie verarbeiten Daten der letzten 5 Tage, während Alexejs Diagramm das Ergebnis der Verarbeitung von Uhrendaten aus einem Dutzend Jahren ist. Bei Alexej handelt es sich um eine Statistik, bei Ihnen dagegen um einen Einzelfall, der im Kontext der Diskussion nichts beweist.

Die vom Themenstarter gezeigte Periodizität hat nichts direkt mit der Volatilität oder den Renditen zu tun. Es handelt sich nicht um eine Preisperiodizität, sondern um eine In-Forma-tsion-na-na. Auf der Abszissenachse befindet sich die Verzögerung und auf der Ordinatenachse die durchschnittliche gegenseitige Information in Bits. Und das Autokorrelogramm wurde von Alexey erwähnt, um alle zu verwirren :) Es ist nicht die Autokorrelation der Renditen! Wir sprechen überhaupt nicht darüber, denn diese Informationsabhängigkeiten sind offensichtlich größtenteils nichtlinear und können durch ACF-Renditen überhaupt nicht erkannt werden.

Haben Sie den Artikel über Hubra aufmerksam gelesen? Das hat nichts mit der von Ihnen so geliebten Stationarität zu tun, auch nicht mit der Normalität des Renditestroms und nicht einmal mit der bedingten Periodizität der Volatilität. Natürlich wäre es schön, auch hier auf Stationarität zu prüfen, aber das wäre eine ganz andere Art von Information (wenn es eine gibt).

2 Avals: Ich fürchte, ich kann keinen tiefen Tickverlauf finden, um Ihre Volatilitätshypothese direkt zu testen. Ja, und die Berechnungen hier wären vom Umfang her völlig verrückt (sie sind schon ziemlich umfangreich). Wir werden beurteilen, was durch direkte Vorhersageversuche herausgefunden wird (wenn es funktioniert, natürlich; es gibt viele, viele Fallstricke).

 
Mathemat:

Bei Alexey handelt es sich um eine Statistik, bei Ihnen hingegen um einen Einzelfall, der im Kontext der Diskussion nichts beweist.

Ich möchte nur anmerken, dass die t-Statistik bei einer Anzahl von mehr als 30 Beobachtungen zur z-Statistik konvergiert. Es ist eine große Neuigkeit für mich, dass 10000 Beobachtungen unbedingt besser sind als 1000. Um die wöchentliche Periodizität für stündliche Daten aufzudecken, benötigen Sie mehrere Wochen in Stunden. Aber das tut nichts zur Sache.


Die vom Themenstarter aufgezeigte Periodizität hat nichts mit Volatilität oder Rendite zu tun. Es handelt sich nicht um eine Preisperiodizität, sondern um eine in-form-ma-tsion-na-na.

Viel wichtiger ist der methodische Wert des Ansatzes. Es ist für mich eine Selbstverständlichkeit, dass jede mathematische Berechnung eine qualitative wirtschaftliche Interpretation haben muss. Die Informationsperiodizität ist eine Formel, die eine Periodizität in den Daten aufzeigt, die von Natur aus eine inkrementelle Beziehung ist. Wenn wir zurückgehen, müssen wir in der Lage sein, zu den ursprünglichen Zeitreihen zurückzugehen, diese Stellen zu finden und eine wirtschaftliche Erklärung zu finden, d. h. wir müssen zu den Preisen zurückgehen, sonst ist es nur eine weitere mathematische Spitzfindigkeit. Deshalb habe ich dieses Thema mit den regelmäßigen Zyklen verknüpft.
 
Mathemat: Dies ist keine Autokorrelation der Renditen! Davon kann überhaupt keine Rede sein, da diese Informationsabhängigkeiten offensichtlich größtenteils nicht linear sind und durch ACF-Renditen überhaupt nicht erfasst werden können.

Eigentlich wurden die üblichen Methoden der mathematischen Statistik am Ende des Artikels angewandt.

Ich berichtige mein Missverständnis und nehme das Verhältnis der Nachbarpreise.

Graphische Darstellung des Preisverhältnisses:

Prüfung auf Normalität

Überraschenderweise wird die Normalität strikt abgelehnt.

Wir stellen den ACF dar - das sind die Abhängigkeiten zwischen den Lags + der partielle ACF, der von den Abhängigkeiten im ACF bereinigt wird

Beachten Sie die letzte Spalte - die Wahrscheinlichkeit, dass keine Abhängigkeiten bestehen, ist sehr hoch.

Ich habe eine klare wirtschaftliche Erklärung für diese Bilder, die durch die Tabelle mit den Anführungszeichen gut unterstützt wird. Wie wird dies in den ersten Angeboten bestätigt, was ist die wirtschaftliche Rechtfertigung? Ohne Antworten auf diese Fragen kann ich die Bedeutung der "Informationsabhängigkeit" nicht verstehen.

 
Die einfachste Antwort für Sie ist. Sie verwenden die Autokorrelation, d. h. Sie suchen nur nach linearen Abhängigkeiten. Die gegenseitige Information zeigt das Vorhandensein willkürlicher Abhängigkeiten an, woraus sich der ganze Unterschied ergibt. Außerdem habe ich mit statistisch redundanten Stichproben mit Tausenden und Zehntausenden von Inkrementen experimentiert, und Sie haben eine Woche gebraucht. Diese Woche kann alles Mögliche sein, sie ist ein Sonderfall. Ihre Ergebnisse sind nicht aussagekräftig.
 
faa1947: Die informationelle Periodizität ist eine Formel, die eine Periodizität in Daten aufzeigt, die von Natur aus eine inkrementelle Beziehung ist.

Grundlegend falsch. Von einer Periodizität der Daten im Sinne einer inkrementellen Beziehung kann keine Rede sein.

Es zeigt sich die Informationsabhängigkeit, die keineswegs zu einer Periodizität des Verhältnisses der Inkremente führen muss. Das ist das Besondere an Data Mining: Es ermöglicht die Identifizierung von Strukturen, die nicht an der Oberfläche liegen.

Wenn wir zurückgehen, müssen wir in der Lage sein, zu den ursprünglichen Zeitreihen zurückzugehen, diese Stellen zu finden und eine wirtschaftliche Erklärung zu finden, d. h. wir müssen zu den Preisen zurückgehen, sonst ist es nur eine weitere mathematische Spitzfindigkeit. Deshalb habe ich dieses Thema mit den regelmäßigen Zyklen verknüpft.

Ja, das sollten sie, das bestreite ich nicht. Es muss keine wirtschaftliche Erklärung geben. Es reicht, um auf die Preise zurückzukommen. Aber dass Sie dieses Phänomen mit normalen Zyklen in Verbindung bringen, ist falsch. Ich bin nicht so blind, dass ich das Fehlen einer ausgeprägten Periodizität im Diagramm nicht bemerke.

Alexey hat Ihnen bereits den Unterschied zwischen linearen und nicht-linearen Abhängigkeiten erläutert.

 
alexeymosc:
Die einfachste Antwort für Sie. Sie verwenden die Autokorrelation, d. h. Sie suchen ausschließlich nach linearen Abhängigkeiten. Die gegenseitige Information deutet auf das Vorhandensein von Abhängigkeiten beliebiger Art hin, was den Unterschied ausmacht. Außerdem habe ich mit statistisch redundanten Stichproben mit Tausenden und Zehntausenden von Inkrementen experimentiert, und Sie haben eine Woche gebraucht. Diese Woche könnte alles Mögliche sein, sie ist ein Sonderfall. Ihre Ergebnisse sind nicht aussagekräftig.

Außerdem habe ich mit statistisch redundanten Stichproben von Tausenden und Zehntausenden von Schritten experimentiert, und Sie haben eine Woche gebraucht. Diese Woche könnte alles Mögliche sein, sie ist ein Sonderfall. Ihre Ergebnisse sind nicht aussagekräftig.

Mir scheint, dass eine Erhöhung des Stichprobenumfangs nur im Rahmen des Grenzwertsatzes der Wahrscheinlichkeitskonvergenz zum Normalgesetz von Interesse ist. Ich möchte Sie enttäuschen, denn wenn wir uns kein solches Ziel setzen, bringt es nichts, einfach die Stichprobengröße zu erhöhen. Im Folgenden gebe ich ein Beispiel für eine 10-fache Erhöhung.

Die Grafik der Inkremente als Verhältnis zwischen dem nächsten und dem vorherigen Preis:

Das Quadrat dieses Diagramms:

Das Schaubild ist dem Ihren ähnlich. Ich hatte eine Frage zur wirtschaftlichen Interpretation dieser Grafik, aber Sie haben keine Antwort gegeben


Nächste:


Wenn Sie mit einer 10-mal kleineren Stichprobe vergleichen, hat sich nichts geändert!



Das ist neu: Die Wahrscheinlichkeit, dass keine Beziehung besteht, ist gleich Null.


Die gegenseitige Information deutet auf das Vorhandensein von Abhängigkeiten beliebiger Art hin, was den Unterschied ausmacht.

Ich wäre auch vorsichtig mit "Linearität" und "Nichtlinearität", denn diese Frage kann und sollte im Rahmen des Modells gestellt werden, mit dem Sie die Zeitreihe annähern. Aus der Analyse der Koeffizienten dieses Modells kann man schließen, dass es sich bei diesen Koeffizienten um Konstanten (oder Fast-Konstanten), deterministische Funktionen oder stochastische Funktionen handelt. Dies ist ein ganz konkreter und konstruktiver Prozess der Analyse der Art der Abhängigkeiten. Und was ist an der Entdeckung dieser Informationsabhängigkeit konstruktiv? Und noch einmal: Wie sehen Sie das in der ursprünglichen Zeitreihe?

Grund der Beschwerde: