Discussion de l'article "Application de la méthode des coordonnées propres à l'analyse structurelle de distributions statistiques non extensives" - page 2

 
alsu:

Ce que je veux dire par là. Supposons que nous disposions d'un certain modèle, sur la base duquel nous avons obtenu une fonction théorique. Il se peut que, par ignorance, nous n'ayons pas tenu compte d'un facteur très insignifiant mais systématique. Dans ce cas, la méthode des coordonnées propres, en raison de son extraordinaire sensibilité, nous donnera une tape sur les doigts en disant que les données réelles ne correspondent pas au modèle. Mais ce n'est pas vrai ! - Le modèle est correct, mais il ne tient pas compte d'un seul facteur et, d'un point de vue pratique, cette lacune peut s'avérer tout à fait insignifiante (comme dans le même exemple de Hilhorst-Schell, où il est difficile de remarquer la différence, même à l'œil nu). J'interpréterais donc "seulement du point de vue fondamental" comme "plutôt du point de vue fondamental" dans le sens où la valeur de la précision maximale de la correspondance peut ne pas être si essentielle du point de vue appliqué (pour résoudre un problème pratique), mais du point de vue fondamental (de la compréhension approfondie de tous les processus qui se déroulent).

D'un point de vue appliqué, la valeur de la précision maximale de l'ajustement n'est pas si essentielle si l'on connaît à l'avance les limites du modèle. Par exemple, il existe des données expérimentales et une théorie qui les décrit bien dans certains domaines (tout modèle a des limites). S'il s'avère soudain que la méthode a donné un coup de pied dans la fourmilière, cela se produira en dehors du modèle (par exemple, notre modèle ne fonctionne pas à haute/basse température) et nous le verrons. D'autre part, nous disposons généralement d'informations sur les propriétés du modèle, par exemple qu'il est dérivé de certaines hypothèses et qu'à ces températures, d'autres effets apparaissent qui ne sont pas pris en compte dans le modèle. Il n'y a rien de mal à cela, le modèle a un domaine d'applicabilité.

Le fondamentalisme est toujours plus fort, car son domaine d'application est plus large. Pour avoir un large champ d'application, il faut avoir des propriétés particulières.

En outre, la méthode nous donne seulement le verdict que le modèle ne correspond pas aux données expérimentales, mais ne dit rien sur les raisons de la divergence (comme dans mon exemple - nous ne pouvons pas déterminer si le modèle est "généralement" correct avec des défauts mineurs ou s'il devrait être complètement révisé), et c'est un défaut.

Il existe une magie plus froide pour de tels cas - il s'agit de considérations de symétrie.

Il me semble que le défaut architectural de la mécanique statistique peut difficilement être corrigé à l'aide de la distribution indicative.

 

Quantum:

Il me semble qu'au moyen de la distribution indicative, il est peu probable que l'on puisse corriger le défaut d'architecture de la mécanique statistique.

Et il n'y a pas de défaut, essayez de remplacer mu=0, nu=1, a=gamma dans vos calculs (paragraphes 2.3-2.4 de l'article). Voici un extrait de l'article


Dans ce cas, les calculs sont presque triviaux - après substitution de 3 coordonnées, il n'en reste plus que 2, mais vous pouvez remarquer que X1 et X2 sont linéairement dépendants, c'est-à-dire qu'en fait nous devons éliminer une coordonnée de plus. Ensuite, substituez des données réelles, par exemple avec l'EURUSD. Vous serez agréablement surpris par les résultats (en termes de linéarité du graphique). La chose la plus intéressante est que, autant que je me souvienne, il y a des déviations de la linéarité seulement dans la zone des "hautes températures" (dans le sens de la zone des grands retours de modules), et pas du tout dans la direction à laquelle on pourrait s'attendre - en fait, si vous tracez tout soigneusement, vous verrez que la "queue épaisse" de la distribution s'amincit fortement à la fin (c'est difficile à estimer, il n'y a pas assez de points, mais quelque chose comme exp(-x^3) ou exp(-x^4)). La question est de savoir a) s'il est possible de construire un modèle unique qui fonctionnerait dans toutes les régions (probablement pas, puisque les effets non linéaires dans le "mode de saturation" jouent un rôle prédominant) et b) si une telle queue correspond à q-Gaussien, comme un accordéon à une chèvre, d'ailleurs.
.

Vous pouvez procéder dans l'autre sens - introduire le fichier csv avec la distribution réelle des modules de déviation dans le script du paragraphe 2.4 et voir ce qui se passe. Comme le problème est fortement surdéterminé (l'un des coefficients C3 est très proche de zéro, et les deux autres C1 et C2 sont très linéairement dépendants), je ne peux même pas prédire le résultat (le MNC peut déborder). Si vous êtes paresseux, attendez le soir, je peux le faire moi-même. Une fois que nous aurons vu les images, nous saurons qui a raison et de quoi parler ensuite).

Au fait, je ne prétends pas que l'exponentielle soit la panacée, au contraire, en termes de non-extensibilité je vous soutiens et vous suggère de calculer quelle distribution maximise la Q-entropie sur [0;+inf) (vous connaissez le calcul des variations ? je ne le connais pas très bien, mais je peux le faire en principe, ce n'est pas très compliqué). Il y a des considérations théoriques (j'ai écrit plus haut à propos de l'information), bien qu'elles ne soient pas tout à fait formalisées, ainsi qu'une certaine intuition, si vous le souhaitez.

 
Ah, et bien oui, j'aurais dû me bouger le cul et regarder sur internet et il s'avère que la q-exponentielle a déjà été calculée par des personnes bienveillantes. Qui va faire les ajustements des citations ?
 

Il est particulièrement réjouissant de constater que

La distribution q-exponentielle a été utilisée pour décrire la répartition des richesses (actifs) entre les individus.
 
alsu:

Et il n'y a pas de joint, essayez de substituer dans vos calculs (paragraphes 2.3-2.4 de l'article) mu=0, nu=1, a=gamma. Voici un extrait de l'article


Dans ce cas, les calculs sont presque triviaux - après la substitution de 3 coordonnées, il n'en reste que 2, mais vous pouvez remarquer que X1 et X2 sont linéairement dépendants, c'est-à-dire qu'en fait, nous devons éliminer une coordonnée de plus. Ensuite, substituez des données réelles, par exemple avec l'EURUSD. Vous serez agréablement surpris par les résultats (en termes de linéarité du graphique). La chose la plus intéressante est que, autant que je me souvienne, il y a des déviations de la linéarité seulement dans la zone des "hautes températures" (dans le sens de la zone des grands retours de modules), et pas du tout dans la direction à laquelle on pourrait s'attendre - en fait, si vous tracez tout soigneusement, vous verrez que la "queue épaisse" de la distribution s'amincit fortement à la fin (c'est difficile à estimer, il n'y a pas assez de points, mais quelque chose comme exp(-x^3) ou exp(-x^4)). La question est de savoir a) s'il est possible de construire un modèle unique qui fonctionnerait dans toutes les régions (probablement pas, puisque les effets non linéaires dans le "mode de saturation" jouent un rôle prédominant) et b) si une telle queue correspond à q-Gaussien, comme un accordéon à une chèvre, d'ailleurs.
.

Vous pouvez procéder dans l'autre sens - introduire le fichier csv avec la distribution réelle des modules de déviation dans le script du paragraphe 2.4 et voir ce qui se passe. Comme le problème est fortement surdéterminé (l'un des coefficients C3 est très proche de zéro, et les deux autres C1 et C2 sont très linéairement dépendants), je ne peux même pas prédire le résultat (le MNC peut déborder). Si vous êtes paresseux, attendez le soir, je peux le faire moi-même. Une fois que nous aurons vu les images, nous saurons qui a raison et de quoi parler ensuite).

Au fait, je ne prétends pas que l'exponentielle soit la panacée, au contraire, en termes de non-extensibilité je vous soutiens et vous suggère de calculer quelle distribution maximise la Q-entropie sur [0;+inf) (vous connaissez le calcul des variations ? je ne le connais pas très bien, mais je peux le faire en principe, ce n'est pas très compliqué). Il y a des considérations théoriques (j'ai écrit plus haut à propos de l'information), bien qu'elles ne soient pas tout à fait formalisées, plus un peu d'intuition, si vous voulez.

Travailler avec des modules est une très bonne idée, il serait intéressant de voir ce qui se passe.

P1(x) est plus faible que P2(x) - cette dernière a une dynamique plus riche selon l'équation dif., de plus, P2(x) contient une gaussienne, ce qui la rend universelle (vous pouvez corriger tous les problèmes où elle apparaît).

Je pense que nous devrions creuser vers P(U) - elle est presque gaussienne, mais avec une transformation non linéaire délicate de l'argument à travers erf-1(x) - c'est ainsi que les queues ont été coupées à Scher.

lors de la différenciation et de l'intégration de P(U), il existe des constructions avec une transformation de l'argument sous la forme erf(a*erf-1(x)) - ce qui n'est pas très clair.

C'est-à-dire que l'idée est de récupérer des solutions exactes connues (Scher a un deuxième exemple slide 25) en comparant des équations la forme générale de l'équation différentielle, dont les solutions prendront la forme de fonctions connues dans des cas particuliers (par analogie avec la fonction hypergéométrique).

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
Ah, oui, j'ai dû me bouger le cul et regarder sur Internet, et il s'est avéré que l'exponentielle q avait déjà été calculée par des personnes bienveillantes

D'autres personnes non moins aimables ont montré qu 'il existe une bifurcation globale (eq. 32), à laquelle, après un "choix spécifique" h(x)=tanh(x) et lamda=1, on obtient g->q.

Je me demande s'il existe d'autres options de "choix spécifique" avec l'option "gaussienne". Je pense qu'il doit y en avoir - la naissance d'une nouvelle qualité ne peut pas se faire sur la base de "ne joue aucun rôle particulier" - la fondamentalité est tout simplement nécessaire ici.

UPD : Il est possible que "ne jouent aucun rôle particulier" soit une affirmation incorrecte faite sur la base de plusieurs cas particuliers.

 
Quantum:

Du point de vue de l'application, l'intérêt de maximiser la précision de l'ajustement n'est pas si important si l'on connaît à l'avance les limites du modèle.

Le principe "on ne peut pas gâcher la bouillie avec de l'huile" est très discutable dans la modélisation pratique.

Si l'on se concentre uniquement sur les séries temporelles économiques, il faut toujours, en plus de la nécessité de résoudre d'autres problèmes, résoudre le double problème de la "redondance/insuffisance" du modèle. Dans ce cas, lorsque les modèles sont égaux, c'est celui qui est le plus simple qui est choisi. Pour résoudre ce problème en statistique, il existe une série de tests qui permettent d'essayer de résoudre ce problème d'une manière ou d'une autre.

L'ensemble du mécanisme de modélisation doit être équilibré. Bien sûr, il est intéressant de faire des percées à certains endroits, mais il est pratiquement intéressant de tirer d'autres éléments des modèles jusqu'au niveau de cette percée.

À l'heure actuelle, l'existence de points de rupture dans le quotidien qui ne peuvent être pris en compte dans la modélisation reste un problème. Tant que ce problème n'est pas résolu, tout raffinement du modèle est dénué de sens.

 

Oui, il est peut-être préférable d'examiner d'abord les données expérimentales.

Considérons un exemple classique (Fig. 4 de l'article) d'explication de la distribution du SP500 à l'aide d'une fonction q-gaussienne (fonction P2(x)).

Les données quotidiennes sur les prix de clôture du SP500 ont été extraites du lien suivant : http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/.


Prix de clôture du SP 500

Rendement logarithmique du SP500

Distribution des rendements logarithmiques du SP 500


Pour vérifier le fichier SP500-data.csv, copiez-le dans le dossier \Files\, puis exécutez CalcDistr_SP500.mq5 (calcul de la distribution) et q-gaussian-SP500.mq5 ( analyse des coordonnées propres).

Résultats des calculs :

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

Estimations du paramètre q obtenues par la méthode des coordonnées propres (q=1+1/theta) : q~1.55

Dans l'exemple (figure 4 de l'article), q~1,4.

SP 500 coordonnées propres X1 Y1

SP 500 coordonnées propres X2 Y2

SP 500 coordonnées propres X3 Y3

SP 500 coordonnées propres X4 Y4

Conclusions : en général, ces données se projettent assez bien vers la q-gaussienne, les données ont été prises telles quelles, mais le moyennage est toujours présent, depuis l'outil SP500-index + graphiques quotidiens.

X1 et X2 sont sensibles par nature, sur X3 et X4 les queues sont légèrement déformées, mais pas au point que q-gaussienne ne soit pas la bonne fonction - il faut trouver un exemple avec un problème plus prononcé.

Vous pouvez améliorer X1 et X2 en les remplaçant par JX1 et JX2, ils devraient se redresser. Les queues sur X3 et X4 peuvent être corrigées en élargissant l'ensemble des coordonnées propres en généralisant la dépendance quadratique, c'est-à-dire en abandonnant la symétrie autour de x0 (+nouveaux paramètres). On peut s'intéresser au cas cubique de (1+a(x-x0)^3)^theta et à ses extensions (+nouveaux paramètres).

Nécessite l'étude de la dépendance de l'instrument, de l'intervalle de temps et du cadre temporel.

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
Dossiers :
 
faa1947:

Pour l'instant, il subsiste un problème de points d'arrêt dans le kotir, qui ne peut être pris en compte dans la modélisation. Tant que ce problème n'est pas résolu, tout affinement du modèle n'a pas de sens.

Concernant les points de rupture (si j'ai bien compris).

Considérons la distribution des rendements logarithmiques pour #AA, M5 (2011.12.01 21:15:00 -2012.06.29 18:10:00).

Le calcul a été effectué à l'aide du script CalcDistr.mq5, 10000 données pour le symbole #AA, M5.

#AA

La distribution des rendements logarithmiques dans ce cas (échelle M5) a une structure complexe :

#Distribution de l'AA

Si nous considérons la distribution des rendements logarithmiques~ probabilité de mouvement dans une certaine direction, il y a clairement une somme de distributions ici - la structure des distributions à petite échelle indique la non-stationnarité.

La dynamique actuelle est déterminée par la distribution locale et, aux points de rupture, elle est réorganisée :

C'est-à-dire que la distribution est asymétrique par nature (|x| ne passera pas), elle se compose de 2 parties/distributions (positive et négative), la dynamique locale est déterminée par le plus grand volume dans le bécher.

Dossiers :
CalcDistr.mq5  4 kb
 

Un matériel intéressant, merci. Je ne veux pas perturber la bienséance mathématique qui règne ici, mais je ne peux m'empêcher de poser deux questions simples :

1. La question de la valeur pratique de ces distributions. A quoi doit-on aboutir ? La description pour elle-même, c'est bien, mais (je m'excuse, bien sûr) cela sent la botanique.

2. Est-il raisonnable d'essayer de décrire par une distribution unique des processus de nature totalement différente se produisant à différents "niveaux" du marché ? Le problème des "coudes" a déjà été mentionné ici, mais ce n'est qu'une partie des problèmes qui existent. En outre, dans les différents intervalles de temps historiques, la composition même des processus change de manière significative, et je ne comprends pas comment vous voulez la décrire avec une seule distribution.