Diskussion zum Artikel "Anwendung des Verfahrens der eigenen Koordinaten auf die Analyse des Aufbaus einfacher statistischer Verteilungen" - Seite 2

 
alsu:

Was ich mit all dem meine. Nehmen wir an, wir haben ein bestimmtes Modell, und auf dessen Grundlage haben wir eine theoretische Funktion erhalten. Und es könnte sein, dass wir aufgrund unserer Unwissenheit einen sehr unbedeutenden, aber systematischen Faktor nicht berücksichtigt haben. In diesem Fall wird uns die Methode der Eigenkoordinaten wegen ihrer außerordentlichen Empfindlichkeit einen Klaps auf die Hand geben und sagen, dass die realen Daten nicht mit dem Modell übereinstimmen. Das ist aber nicht wahr! - Das Modell ist korrekt, aber es berücksichtigt nicht nur einen Faktor, und aus praktischer Sicht kann sich dieser Mangel als völlig unbedeutend erweisen (wie im gleichen Beispiel von Hilhorst-Schell, wo man den Unterschied nicht einmal mit dem Auge erkennen kann). Ich würde also "nur vom fundamentalen Standpunkt aus" als "eher vom fundamentalen Standpunkt aus" lesen, und zwar in dem Sinne, dass der Wert einer maximalen Genauigkeit der Entsprechung vielleicht nicht so sehr vom angewandten Standpunkt aus (für die Lösung eines praktischen Problems), sondern vom fundamentalen Standpunkt aus (des gründlichen Verständnisses aller ablaufenden Prozesse) wesentlich ist.

Aus angewandter Sicht ist der Wert der maximalen Anpassungsgenauigkeit nicht so wichtig, wenn man die Grenzen des Modells im Voraus kennt. Ein Beispiel: Es gibt experimentelle Daten und eine Theorie, die diese Daten in einem bestimmten Bereich gut beschreibt (jedes Modell hat seine Grenzen). Wenn sich dann plötzlich herausstellt, dass die Methode einen Tritt in den Hintern gegeben hat, wird dies außerhalb des Modells geschehen (z. B. unser Modell funktioniert nicht bei hohen/niedrigen Temperaturen), das werden wir sehen. Andererseits haben wir in der Regel Informationen über die Eigenschaften des Modells, z. B. dass es unter bestimmten Annahmen abgeleitet wurde und bei diesen Temperaturen andere Effekte auftreten, die im Modell nicht berücksichtigt werden. Daran ist nichts auszusetzen, das Modell hat einen Anwendungsbereich.

Der Fundamentalismus ist immer stärker, weil sein Anwendungsbereich größer ist. Um einen breiten Anwendungsbereich zu haben, muss man besondere Eigenschaften haben.

Außerdem gibt uns die Methode nur ein Urteil darüber, dass das Modell nicht zu den experimentellen Daten passt, sagt aber nichts über die Gründe für die Diskrepanz (wie in meinem Beispiel - wir können nicht feststellen, ob das Modell "im Allgemeinen" mit kleinen Fehlern korrekt ist oder ob es komplett überarbeitet werden sollte), und das ist ein Fehler.

Für solche Fälle gibt es eine kühlere Magie - es sind Symmetrieüberlegungen.

Es scheint mir, dass der architektonische Fehler der statistischen Mechanik kaum mit Hilfe der indikativen Verteilung korrigiert werden kann.

 

Quantum:

Es scheint mir, dass es mit Hilfe der indikativen Verteilung kaum möglich sein wird, den architektonischen Fehler der statistischen Mechanik zu korrigieren.

Es gibt keinen Fehler, versuchen Sie, mu=0, nu=1, a=gamma in Ihre Berechnungen einzusetzen (Absätze 2.3-2.4 des Artikels). Hier ist ein Auszug aus dem Artikel


In diesem Fall sind die Berechnungen fast trivial - nach der Ersetzung von 3 Koordinaten bleiben nur 2 übrig, aber Sie können feststellen, dass X1 und X2 linear abhängig sind, d.h. wir müssen tatsächlich eine weitere Koordinate eliminieren. Ersetzen Sie nun die realen Daten, z. B. mit EURUSD. Sie werden von den Ergebnissen (in Bezug auf die Linearität des Diagramms) angenehm überrascht sein. Das Interessanteste ist, dass es, soweit ich mich erinnere, Abweichungen von der Linearität nur im Bereich der "hohen Temperaturen" gibt (im Sinne von im Bereich der großen Modulrenditen), und überhaupt nicht in der Richtung, die man erwarten würde - in der Tat, wenn Sie alles sorgfältig aufzeichnen, werden Sie sehen, dass der "dicke Schwanz" der Verteilung am Ende stark ausdünnt (es ist schwer zu schätzen, es gibt nicht genug Punkte, aber so etwas wie exp(-x^3) oder exp(-x^4). Dies wirft die Frage auf, a) ob es möglich ist, ein einziges Modell zu erstellen, das in allen Regionen funktioniert (wahrscheinlich nicht, da nichtlineare Effekte im "Sättigungsmodus" eine vorherrschende Rolle spielen) und b) ob ein solcher Schwanz der q-Gaußschen Verteilung entspricht, wie eine Ziehharmonika einer Ziege.
.

Man kann es auch andersherum machen - die csv-Datei mit der realen Verteilung der Abweichungsmodule in das Skript aus Abschnitt 2.4 einspeisen und sehen, was passiert. Da das Problem stark überdeterminiert ist (einer der C3-Koeffizienten ist sehr nahe bei Null, und die beiden anderen C1 und C2 sind sehr linear abhängig), kann ich das Ergebnis nicht einmal vorhersagen (der MNC könnte überlaufen). Wenn Sie zu faul sind, warten Sie bis zum Abend, dann kann ich es selbst machen. Sobald wir die Bilder sehen, wird klar sein, wer Recht hat und worüber wir als nächstes reden müssen).

Übrigens behaupte ich nicht, dass die Exponentialverteilung ein Allheilmittel ist, im Gegenteil, in Bezug auf die Nicht-Extensivität unterstütze ich Sie und schlage vor, zu berechnen, welche Verteilung die Q-Entropie auf [0;+inf) maximiert (kennen Sie die Variationsrechnung? Ich kenne sie nicht sehr gut, aber im Prinzip kann ich es tun, es ist nicht sehr kompliziert). Es gibt theoretische Überlegungen (ich habe oben über Information geschrieben), wenn auch nicht ganz formalisiert, sowie etwas Intuition, wenn Sie möchten.

 
Ah, ja, ich hätte meinen Hintern hochkriegen und im Internet nachsehen sollen, und es stellte sich heraus, dass q-exponential bereits von freundlichen Menschen berechnet wurde. Wer wird die Anpassungen an den Zitaten vornehmen?
 

Besonders erfreulich ist, dass

Die q-exponentielle Verteilung wurde verwendet, um die Verteilung von Vermögen (Assets) zwischen Individuen zu beschreiben
 
alsu:

Und es gibt keine Verbindung, versuchen Sie in Ihren Berechnungen (Absätze 2.3-2.4 des Artikels) mu=0, nu=1, a=gamma zu ersetzen. Hier ist ein Auszug aus dem Artikel


In diesem Fall sind die Berechnungen fast trivial - nach der Substitution von 3 Koordinaten bleiben nur noch 2 übrig, aber Sie können feststellen, dass X1 und X2 linear abhängig sind, d.h. wir müssen tatsächlich eine weitere Koordinate eliminieren. Ersetzen Sie nun die realen Daten, z. B. mit EURUSD. Sie werden von den Ergebnissen (in Bezug auf die Linearität des Diagramms) angenehm überrascht sein. Das Interessanteste ist, dass es, soweit ich mich erinnere, Abweichungen von der Linearität nur im Bereich der "hohen Temperaturen" gibt (im Sinne von im Bereich der großen Modulrenditen), und überhaupt nicht in der Richtung, die Sie erwarten würden - in der Tat, wenn Sie alles sorgfältig aufzeichnen, werden Sie sehen, dass der "dicke Schwanz" der Verteilung am Ende stark ausdünnt (es ist schwer zu schätzen, es gibt nicht genug Punkte, aber etwas wie exp(-x^3) oder exp(-x^4). Dies führt zu der Frage, a) ob es möglich ist, ein einziges Modell zu erstellen, das in allen Regionen funktioniert (wahrscheinlich nicht, da nichtlineare Effekte im "Sättigungsmodus" eine vorherrschende Rolle spielen) und b) ob ein solcher Schwanz der q-Gaußschen Verteilung entspricht, wie eine Ziehharmonika einer Ziege.
.

Man kann es auch andersherum machen - die csv-Datei mit der realen Verteilung der Abweichungsmodule in das Skript aus Abschnitt 2.4 einspeisen und sehen, was passiert. Da das Problem stark überdeterminiert ist (einer der C3-Koeffizienten ist sehr nahe bei Null, und die beiden anderen C1 und C2 sind sehr linear abhängig), kann ich das Ergebnis nicht einmal vorhersagen (der MNC könnte überlaufen). Wenn Sie zu faul sind, warten Sie bis zum Abend, dann kann ich es selbst machen. Sobald wir die Bilder sehen, wird klar sein, wer Recht hat und worüber wir als nächstes reden müssen).

Übrigens behaupte ich nicht, dass die Exponentialverteilung ein Allheilmittel ist, im Gegenteil, in Bezug auf die Nicht-Extensivität unterstütze ich Sie und schlage vor, zu berechnen, welche Verteilung die Q-Entropie auf [0;+inf) maximiert (kennen Sie die Variationsrechnung? Ich kenne sie nicht sehr gut, aber im Prinzip kann ich es tun, es ist nicht sehr kompliziert). Es gibt theoretische Überlegungen (ich habe oben über die Information geschrieben), wenn auch nicht ganz formalisiert, sowie etwas Intuition, wenn Sie möchten.

Die Arbeit mit Modulen ist eine sehr gute Idee, es wäre interessant zu sehen, was passiert.

P1(x) ist schwächer als P2(x) - letzteres hat eine reichere Dynamik gemäß der Differentialgleichung, außerdem enthält P2(x) einen Gauß, was es universell macht (man kann alle Probleme korrigieren, bei denen er auftritt).

Ich denke, wir sollten uns P(U) zuwenden - es ist fast gaußförmig, aber mit einer kniffligen nichtlinearen Transformation des Arguments durch erf-1(x) - so wurden die Schwänze bei Scher abgeschnitten.

beim Differenzieren und Integrieren von P(U) gibt es Konstruktionen mit Argumenttransformation in der Form erf(a*erf-1(x)) - was dabei nicht ganz klar ist.

D.h. die Idee ist, aus bekannten exakten Lösungen (Scher hat ein zweites Beispiel Folie 25) durch Vergleich von Gleichungen die allgemeine Form der Differentialgleichung zu gewinnen, deren Lösungen in bestimmten Fällen (in Analogie zur hypergeometrischen Funktion) die Form von bekannten Funktionen annehmen werden.

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
Ah, ja, ich musste meinen Hintern hochkriegen und im Internet nachsehen, und es stellte sich heraus, dass q-Exponential bereits von netten Leuten berechnet worden war

Nicht minder freundliche Leute haben gezeigt, dass es eine globale Gabelung gibt (Gl. 32), bei der nach "spezifischer Wahl" h(x)=tanh(x) und lamda=1 g->q entsteht.

Ich frage mich, ob es mit der Option "Gauß" noch andere Optionen für die "spezifische Wahl" gibt. Ich denke, es muss sie geben - die Geburt einer neuen Qualität kann nicht auf der Grundlage von "keine besondere Rolle spielen" erfolgen - hier ist einfach Fundamentalität gefragt.

UPD: Es ist möglich, dass "keine besondere Rolle spielen" eine falsche Aussage ist, die auf der Grundlage mehrerer Sonderfälle getroffen wurde.

 
Quantum:

Aus der Sicht der Anwendung ist die Maximierung der Genauigkeit der Anpassung nicht so wichtig, wenn man die Grenzen des Modells im Voraus kennt.

Das Prinzip "man darf den Brei nicht mit Öl verderben" ist in der praktischen Modellierung sehr fragwürdig.

Wenn man sich nur auf wirtschaftliche Zeitreihen konzentriert, muss man neben der Notwendigkeit, andere Probleme zu lösen, immer auch das zweischneidige Problem der "Redundanz/Unzulänglichkeit" des Modells lösen. In diesem Fall wird, wenn die Modelle gleich sind, das einfachere gewählt. Um dieses Problem in der Statistik zu lösen, gibt es eine Reihe von Tests, mit denen man versuchen kann, dieses Problem irgendwie zu lösen.

Der gesamte Modellierungsmechanismus sollte ausgewogen sein. Sicherlich ist es interessant, an einigen Stellen Durchbrüche zu erzielen, aber es ist praktisch interessant, wenn andere Elemente der Modelle auf das Niveau dieses Durchbruchs gezogen werden.

Im Moment ist es noch ein Problem, dass es Knicke (Bruchstellen) im Alltag gibt, die in der Modellierung nicht berücksichtigt werden können. Solange dieses Problem nicht gelöst ist, sind alle Modellverbesserungen sinnlos.

 

Ja, vielleicht ist es besser, zunächst experimentelle Daten zu betrachten.

Betrachten wir ein klassisches Beispiel (Abb. 4 des Artikels) zur Erklärung der SP500-Verteilung mit Hilfe von q-Gauß (Funktion P2(x)).

Die täglichen Daten zu den SP500-Schlusskursen wurden dem Link entnommen: http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/.


SP 500 Schlusskurse

SP500 logarithmische Renditen

SP 500 logarithmische Renditeverteilung


Um die Datei SP500-data.csv zu prüfen, kopieren Sie sie in den Ordner \Files\ und führen dann CalcDistr_SP500.mq5 (Verteilungsberechnung) und anschließend q-gaussian-SP500.mq5 (Eigenkoordinatenanalyse) aus.

Berechnungsergebnisse:

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

Schätzungen des Parameters q durch die Eigenkoordinatenmethode (q=1+1/theta): q~1.55

Im Beispiel (Abbildung 4 des Artikels): q~1,4.

SP 500 Eigenkoordinaten X1 Y1

SP 500 Eigenkoordinaten X2 Y2

SP 500 Eigenkoordinaten X3 Y3

SP 500 Eigenkoordinaten X4 Y4

Schlussfolgerungen: Im Allgemeinen lassen sich diese Daten recht gut auf q-Gauß projizieren, die Daten wurden unverändert übernommen, aber die Mittelwertbildung ist immer noch vorhanden, da SP500-Index-Tool + Tages-Charts.

X1 und X2 sind von Natur aus empfindlich, bei X3 und X4 sind die Schwänze leicht verzerrt, aber nicht so sehr, dass q-gaussian nicht die richtige Funktion ist - man muss ein Beispiel mit einem ausgeprägteren Problem finden.

Sie können X1 und X2 verbessern, indem Sie sie durch JX1 und JX2 ersetzen, dann sollten sie gerader werden. Die Ausläufer von X3 und X4 können korrigiert werden, indem man die Menge der Eigenkoordinaten durch Verallgemeinerung der quadratischen Abhängigkeit erweitert, d. h. die Symmetrie um x0 aufgibt (+neue Parameter). Wir können den kubischen Fall von (1+a(x-x0)^3)^theta und seine Erweiterungen betrachten (+neue Parameter).

Erfordert die Untersuchung der Abhängigkeit von Instrument, Zeitintervall und Zeitrahmen.

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
Dateien:
 
faa1947:

Zurzeit gibt es noch das Problem der Bruchstellen im Kotir, die bei der Modellierung nicht berücksichtigt werden können. Solange dieses Problem nicht gelöst ist, sind alle Modellverbesserungen sinnlos.

Zu den Haltepunkten (wenn ich sie richtig verstanden habe).

Betrachten wir die Verteilung der logarithmischen Erträge für #AA, M5 (2011.12.01 21:15:00 -2012.06.29 18:10:00).

Die Berechnung wurde mit dem Skript CalcDistr.mq5 durchgeführt, 10000 Daten für das Symbol #AA, M5.

#AA

Die Verteilung der logarithmischen Renditen hat in diesem Fall (Skala M5) eine komplexe Struktur:

#AA Verteilung

Betrachtet man die Verteilung der logarithmischen Renditen~ die Wahrscheinlichkeit einer Bewegung in eine bestimmte Richtung, so liegt hier eindeutig eine Summe von Verteilungen vor - die Struktur der Verteilungen auf kleinen Skalen deutet auf Nicht-Stationarität hin.

Die aktuelle Dynamik wird durch die lokale Verteilung bestimmt, und an den Bruchstellen wird sie neu geordnet:

D.h. die Verteilung ist asymmetrischer Natur (|x| wird nicht passieren), sie besteht aus 2 Teilen/Verteilungen (positiv und negativ), die lokale Dynamik wird durch das größte Volumen im Becher bestimmt.

Dateien:
CalcDistr.mq5  4 kb
 

Interessantes Material, vielen Dank. Ich möchte die hier herrschende mathematische Nettigkeit nicht stören, aber ich kann nicht umhin, zwei einfache Fragen zu stellen:

1. Die Frage nach dem praktischen Wert dieser Verteilungen. Zu welchem Ergebnis sollen wir kommen? Beschreibung um ihrer selbst willen ist schön und gut, aber (ich entschuldige mich natürlich) es riecht nach Botanik.

2. Ist es sinnvoll zu versuchen, völlig unterschiedliche, in der Natur vorkommende Prozesse, die auf verschiedenen "Ebenen" des Marktes ablaufen, mit einer einzigen Verteilung zu beschreiben? Das Problem der "Knicke" wurde hier bereits erwähnt, aber das ist nur ein Teil der Probleme, die es gibt. Außerdem ändert sich in verschiedenen historischen Zeitintervallen die Zusammensetzung der Prozesse selbst erheblich, wie Sie das mit einer Verteilung beschreiben wollen, verstehe ich nicht.