Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl) - Seite 11

 
HideYourRichess:

Das Konzept der Informationsentropie wurde von Shannon für unabhängige Symbole eingeführt. Wenn Sie mir nicht glauben, konsultieren Sie ein akademisches Wörterbuch. Ich werde mich nicht mehr mit Ihnen über dieses Thema streiten. Man kann die Informationsentropie für den Markt nicht berechnen, weil man das Alphabet nicht kennt, die Häufigkeit der Symbole nicht kennt und auch die Unabhängigkeit der Symbole unbekannt ist.

Die nächste Frage, die bedingte Entropie, betrifft nur den Fall, dass es Abhängigkeiten zwischen dem ursprünglichen Alphabet gibt. Diese Sache ist nicht dasselbe wie die diskutierte Informationsentropie.

Ich verstehe nicht, welche Schlussfolgerungen Sie aus dem Beispiel des Archivars ziehen, aber ich will Folgendes sagen. Die Aufgabe des Archivars besteht darin, die bedingte Entropie in Informationsentropie umzuwandeln. Das heißt, ein perfekt definiertes, begrenztes Alphabet zu schaffen, dessen Zeichen in der resultierenden Folge so unabhängig wie möglich sind. Wenn man die geordnete Struktur eines literarischen Textes auf der Buchstabenebene durcheinanderbringt, werden diese Buchstabenfolgen natürlich unterbrochen und die Komprimierung verschlechtert sich. Das geht so weit, dass eine völlig zufällige Menge von Buchstaben nicht mehr komprimiert werden kann.


Ich finde Ihre Formulierung der Frage im ersten Moment paradox. Wenn wir als Ergebnis der Berechnung der gegenseitigen Information einen Wert ungleich 0 erhalten, dann haben wir ein Alphabet mit Abhängigkeiten genommen. Wenn wir unabhängige Werte untersuchen, dann ist die gegenseitige Information immer 0 (oder sehr nahe an diesem Wert).
 
Die gegenseitige Entropie ist nicht dasselbe wie die herkömmliche Entropie und nicht dasselbe wie die Informationsentropie.
 
TheXpert: Warum sind die Zahlen nicht alphabetisch geordnet?

Alphabet - aber kein Zahlensystem.

Wahl des Alphabets.

OK, so sei es. Ich habe das Alphabet auf diese Weise aufgebaut:

Ich finde die unbedingte Verteilung der Renditen über die gesamte Historie (EURUSD, H1, etwa 10 Jahre). Das Histogramm ist mehr oder weniger bekannt. Es handelt sich um eine Kurve, die einer Gauß'schen Glocke ähnelt, jedoch mit Differenzen nahe Null und in den hinteren Bereichen. Ich werde es hier nicht zeichnen.

Dann wähle ich aus, in wie viele Quantile ich die Verteilung einteilen will. Sagen wir, bis zum 30. Dies wird das Alphabet sein. Hier ist sie:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0.000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

Erläuterung: Zunächst ist die Anzahl der Quantile (von 0 bis 29) zu nennen. Dann kommt das Halbintervall, das die Grenzen des Quantils in fünfstelligen Punkten kennzeichnet. So entspricht beispielsweise das Quantil 22 einer positiven Rendite von 62 bis 80 Pips. Die letzte Zahl ist die Anzahl der Werte, die in dieses Quantil fallen (um die Korrektheit der Aufteilung in Quantile zu kontrollieren).

Ja, es ist nicht sehr schön für große Renditen, denn in Wirklichkeit können die Renditen bis zu 3000 neue Punkte betragen. Nun, das sind fette Schwänze, da kann man nichts machen...

Dieses Alphabet war für mich vor allem bei der Berechnung des Chi-Quadrat-Kriteriums praktisch. Das war praktisch, weil selbst bei sehr starken Abweichungen von der Unabhängigkeit die Mindesthäufigkeit der gemeinsamen Treffer nicht unter 5 lag (dies ist eine Bedingung für die Korrektheit des Chi-Quadrats). Vielleicht wäre eine andere Wahl des Alphabets besser.

Im Allgemeinen werden bei einer Anzahl von 50 Quantilen die inneren Grenzen der äußersten Quantile auf etwa 380 neue Punkte verschoben (anstelle der bisherigen 300). Das ist besser, aber immer noch nicht gut.

 
Mathemat:

Dann wähle ich aus, in wie viele Quantile ich die Verteilung einteilen möchte. Sagen wir 30. Dies wird das Alphabet sein. Das ist es, was es ist:

Wenn es Ihnen nichts ausmacht, könnten Sie mir sagen, wie man Daten mit Alphabet analysiert? Ich kämpfe gerade mit einem ähnlichen Problem, bisher analysiere ich es mit NS in Matlab.

Gibt es eine Möglichkeit, Daten, die als Alphabet dargestellt werden, abgesehen von NS, zu analysieren?

 
Mathemat:

Das ist ziemlich realistisch. Ich habe keine Einschränkungen festgestellt, aber Summen und Logarithmen können in MQL4 durchgeführt werden. Ich weiß nicht, was Sergejew getan hat. Aber soweit ich aus anderen Quellen weiß, war der schwierigste Teil der Berechnungen die Berechnung der Gamma-Funktion. Die TI kam nicht in Frage.


Der Indikator wurde in Anlehnung an den Artikel von Y. Sultonov "Universal regression model for market price forecasting" - hier in Kodobase - geschrieben.

Gibtes dort ähnliche Konstruktionen? Oder nicht?

 
HideYourRichess:
Die gegenseitige Entropie ist nicht dasselbe wie die herkömmliche Entropie und nicht dasselbe wie die Informationsentropie.

Sie weichen von der eigentlichen Frage ab. Welchen Sinn hat die Anwendung der Statistik der gegenseitigen Information, wenn wir voraussetzen, dass das System unabhängig von Zufallswerten ist? In diesem Fall ist die gegenseitige Information gleich Null. Das steht hier überall geschrieben.

Ich möchte auch sagen, dass die Einführung des Entropiekonzepts in die TZ typisch für die sowjetische Schule war. Die Amerikaner geben die folgende klassische Formel zur Berechnung der gegenseitigen Information an:

Das heißt, hier gibt es keine Entropie als Konzept.

 
HideYourRichess: Shannon führte das Konzept der Informationsentropie für unabhängige Symbole ein. Wenn Sie mir nicht glauben, konsultieren Sie ein akademisches Wörterbuch.

Ich habe einen Artikel über Informationsentropie gefunden (Wiki). Zitat 1 von dort:

DieEntropie ist die Menge an Informationen pro Elementarnachricht einer Quelle, die statistisch unabhängige Nachrichten produziert.

Das ist Entropie, ganz normale Entropie. Ist das die Definition, die Sie meinen?

Ja, ich stimme zu, dass die Buchstaben des Alphabets statistisch unabhängig sein müssen, damit es keine Redundanzen oder Abhängigkeiten gibt. Das ist in etwa das, was das Archivierungsprogramm tut: Es erstellt ein Alphabet, das sich deutlich von dem unterscheidet, das zur Erstellung des Textes verwendet wurde.

Aber das ist nicht das, was wir zählen! Was wir zählen, ist das Nächste.

Außerdem haben Sie bereits Zitat 2 von derselben Stelle erhalten:
Bedingte Entropie

Wenn die Reihenfolge der Symbole eines Alphabets nicht unabhängig ist (im Französischen folgt auf das "q" fast immer ein "u", und auf das Wort "Vorhut" in den sowjetischen Zeitungen folgte in der Regel "Produktion" oder "Arbeit"), ist die Menge an Informationen, die eine Folge solcher Symbole enthält (und folglich die Entropie), natürlich geringer. Die bedingte Entropie wird verwendet, um solchen Tatsachen Rechnung zu tragen.

Das ist anders, und Sie haben bereits darüber geschrieben:

HideYourRichess : Die nächste Frage, die bedingte Entropie, betrifft genau den Fall, dass es Abhängigkeiten zwischen Zeichen des ursprünglichen Alphabets gibt. Diese Sache ist nicht dasselbe wie die fragliche Informationsentropie.

In der Rede des Themenstarters (und auch in meiner) ging es nicht um Informationsentropie, sondern, verdammt, um gegenseitige Information (wieder Wiki)!!!

Diegegenseitige Information ist eine statistische Funktion zweier Zufallsvariablen, die den Informationsgehalt der einen Zufallsvariablen im Vergleich zur anderen beschreibt.

Die gegenseitige Information wird durch die Entropie und die bedingte Entropie zweier Zufallsvariablen wie folgt definiert [es folgt die Formel für I(X,Y)

Nun zu Ihrem letzten Argument:

HideYourRichess : Die Aufgabe des Archivars besteht darin, die bedingte Entropie in Informationsentropie umzuwandeln. Das heißt, ein perfekt definiertes, begrenztes Alphabet zu schaffen, dessen Zeichen in der resultierenden Folge so unabhängig wie möglich sind. Wenn man die geordnete Struktur eines literarischen Textes auf der Buchstabenebene durcheinanderbringt, werden diese Buchstabenfolgen natürlich unterbrochen und die Komprimierung verschlechtert sich. Das geht so weit, dass eine völlig willkürliche Menge von Buchstaben nicht mehr komprimiert werden kann. Na und? Was hat das mit dem Basar zu tun?

Das Argument ist, dass es nicht um das geht, was Sie Informationsentropie nennen, sondern um gegenseitige Information. Das war's. Voller Stopp. Der Streit ist vorbei.

 
IgorM:

Wenn es Ihnen nichts ausmacht, könnten Sie mir sagen, wie man Daten mit Alphabet analysiert? Ich kämpfe gerade mit einem ähnlichen Problem, bisher analysiere ich es mit NS in Matlab.

Gibt es neben NS noch andere Möglichkeiten, Daten in Form von Buchstaben zu analysieren?

Um ehrlich zu sein, verstehe ich Ihre Frage nicht wirklich. Wir ordnen einfach jedem Buchstaben des Alphabets eine Ordnungszahl zu - und werten die Zahlen dann wie üblich aus. Vielleicht gibt es etwas Bestimmtes, aber ich bin mir dessen nicht bewusst.

Roman: Die Leute haben den Indikator nach Sultonovs Artikel "The Universal Regression Model for Market Price Forecasting" geschrieben - hier in kodobase.

Gibt es ähnliche Konstruktionen, diedort verwendet werden? Oder nicht?

Es gibt nicht einmal einen Hinweis auf Terver/Statistik oder Informationstheorie! Yusuf hat seinen Beitrag in diesem Thread gepostet, aber er hat sich als nachträglicher Einfall herausgestellt, da er nichts mit dem Thema der Diskussion zu tun hat. Obwohl... ja, die Logarithmen schienen da zu sein...
 
Mathemat:

Es gibt nicht einmal einen Hauch von Terver/Statistik oder Informationstheorie! Obwohl... ja, es gab Logarithmen, glaube ich...

Ich will damit nur sagen, dass die Kurven und Schnörkel hier und hier für mich sehr ähnlich aussehen... :-))), einschließlich des Vorhandenseins einer Gamma-Verteilung, daher sollten die Lösungsansätze SIGNIFIKANT ähnlich sein.

Ist so etwas möglich, zumindest KONSTANTIEREND?

 

Der Punkt ist, dass die Gamma-Verteilungsfunktion in dem Artikel wie aus dem Nichts auftaucht, angeblich bei der Lösung eines deterministischen Bewegungsdiphys - aber nicht als Ergebnis einer statistischen oder terversiven Analyse. Roman, bis jetzt sehe ich keine Ähnlichkeit in den Lösungsansätzen - auch nicht auf konventionelle Weise.

Aber wenn man genau hinschaut, kann man doch einige Ähnlichkeiten finden - zum Beispiel in dem Wort "Vertrieb", das auch in Yusufs Artikel vorkommt :)