Discussione sull’articolo "Applicazione del metodo delle auto-coordinate all'analisi strutturale di distribuzioni statistiche non estensive" - pagina 2

 
alsu:

Cosa intendo con tutto questo. Supponiamo di avere un certo modello e di aver ottenuto, sulla base di esso, una funzione teorica. E che a causa della nostra ignoranza non abbiamo tenuto conto di qualche fattore molto insignificante ma sistematico. In questo caso, il metodo delle coordinate degli autovalori, a causa della sua straordinaria sensibilità, ci darà uno schiaffo, dicendo che i dati reali non corrispondono al modello. Ma non è vero! - Il modello è corretto, ma non tiene conto di un solo fattore, e dal punto di vista pratico questa carenza può rivelarsi del tutto insignificante (come nello stesso esempio di Hilhorst-Schell, dove è difficile notare la differenza anche a occhio). Quindi leggerei "solo dal punto di vista fondamentale" come "piuttosto dal punto di vista fondamentale", nel senso che il valore della massima accuratezza della corrispondenza può non essere così essenziale dal punto di vista applicato (per risolvere un problema pratico), ma dal punto di vista fondamentale (della comprensione approfondita di tutti i processi in atto).

Dal punto di vista applicato, il valore della massima precisione di corrispondenza non è così essenziale se si conoscono in anticipo i limiti del modello. Ad esempio, ci sono dati sperimentali, c'è una teoria che li descrive bene in un certo ambito (qualsiasi modello ha dei limiti). Se improvvisamente si scopre che il metodo ha dato un calcio nel sedere, lo farà al di fuori del modello (ad esempio, il nostro modello non funziona alle alte/basse temperature), lo vedremo. D'altra parte, di solito abbiamo informazioni sulle proprietà del modello, ad esempio che è derivato con alcune assunzioni, a queste temperature appaiono altri effetti che non sono considerati nel modello. Non c'è nulla di male in questo, il modello ha un'area di applicabilità.

Il fondamentalismo è sempre più forte, perché la sua area di applicabilità è più ampia. Per avere un'ampia area di applicabilità è necessario avere delle proprietà speciali.

Inoltre, il metodo ci dà solo il verdetto che il modello non si adatta ai dati sperimentali, ma non dice nulla sulle ragioni della discrepanza (come nel mio esempio - non possiamo determinare se il modello sia "generalmente" corretto con piccoli difetti o se debba essere completamente rivisto), e questo è un difetto.

In questi casi c'è una magia più fredda: si tratta di considerazioni sulla simmetria.

Mi sembra che il difetto architettonico della meccanica statistica non possa essere corretto con l'aiuto della distribuzione indicativa.

 

Quantum:

Mi sembra improbabile che attraverso la distribuzione indicativa si possa correggere il difetto architettonico della meccanica statistica.

E non c'è nessun difetto, provate a sostituire mu=0, nu=1, a=gamma nei vostri calcoli (paragrafi 2.3-2.4 dell'articolo). Ecco un estratto dell'articolo


In questo caso i calcoli sono quasi banali - dopo la sostituzione di 3 coordinate ne rimangono solo 2, ma si può notare che X1 e X2 sono linearmente dipendenti, cioè di fatto dobbiamo eliminare un'altra coordinata. Successivamente, sostituite i dati reali, ad esempio con EURUSD. I risultati (in termini di linearità del grafico) vi sorprenderanno piacevolmente. La cosa più interessante è che, per quanto ricordo, ci sono deviazioni dalla linearità solo nell'area delle "alte temperature" (nel senso di area di ritorno di grandi moduli), e non nella direzione che ci si aspetterebbe - infatti, se tracciate tutto con attenzione, vedrete che la "coda spessa" della distribuzione si assottiglia bruscamente alla fine (è difficile da stimare, non ci sono abbastanza punti, ma qualcosa come exp(-x^3) o exp(-x^4). Questo porta a chiedersi a) se sia possibile costruire un unico modello che funzioni in tutte le regioni (probabilmente no, dato che gli effetti non lineari nella "modalità di saturazione" giocano un ruolo predominante) e b) se tale coda corrisponda alla q-Gaussiana, come una fisarmonica a una capra, per intenderci.
.

Si può fare anche il contrario: inserire il file csv con la distribuzione reale dei moduli di deviazione nello script del paragrafo 2.4 e vedere cosa succede. Poiché il problema è altamente sovradeterminato (uno dei coefficienti C3 è molto vicino allo zero, e gli altri due C1 e C2 dipendono in modo molto lineare), non posso nemmeno prevedere il risultato (l'MNC potrebbe traboccare). Se siete pigri, aspettate fino a sera, posso farlo io stesso. Quando vedremo le immagini, sarà chiaro chi ha ragione e di cosa parlare in seguito).

A proposito, non sostengo che l'esponenziale sia una panacea, anzi, in termini non estensivi ti appoggio e ti suggerisco di calcolare quale distribuzione massimizza l'entropia Q su [0;+inf) (conosci il calcolo delle variazioni? Io non lo conosco molto bene, ma in linea di principio posso farlo, non è molto complicato). Ci sono considerazioni teoriche (ho scritto sopra sull'informazione), anche se non del tutto formalizzate, oltre a qualche intuizione, se volete.

 
Ah, beh, sì, avrei dovuto alzare il culo e cercare su internet e si scopre che il q-exponential è già stato calcolato da persone gentili. Chi farà gli aggiustamenti alle citazioni?
 

Particolarmente piacevole è che

La distribuzione q-esponenziale è stata utilizzata per descrivere la distribuzione della ricchezza (asset) tra gli individui
 
alsu:

E non c'è nessun giunto, provate a sostituire nei vostri calcoli (paragrafi 2.3-2.4 dell'articolo) mu=0, nu=1, a=gamma. Ecco un estratto dell'articolo


In questo caso i calcoli sono quasi banali - dopo la sostituzione di 3 coordinate ne rimangono solo 2, ma si può notare che X1 e X2 sono linearmente dipendenti, cioè di fatto dobbiamo eliminare un'altra coordinata. Successivamente, sostituite i dati reali, ad esempio con EURUSD. I risultati (in termini di linearità del grafico) vi sorprenderanno piacevolmente. La cosa più interessante è che, per quanto ricordo, ci sono deviazioni dalla linearità solo nell'area delle "alte temperature" (nel senso di area di ritorno di grandi moduli), e non nella direzione che ci si aspetterebbe - infatti, se tracciate tutto con attenzione, vedrete che la "coda spessa" della distribuzione si assottiglia bruscamente alla fine (è difficile da stimare, non ci sono abbastanza punti, ma qualcosa come exp(-x^3) o exp(-x^4). Questo porta a chiedersi a) se sia possibile costruire un unico modello che funzioni in tutte le regioni (probabilmente no, dato che gli effetti non lineari nella "modalità di saturazione" giocano un ruolo predominante) e b) se tale coda corrisponda alla q-Gaussiana, come una fisarmonica a una capra, per intenderci.
.

Si può fare anche il contrario: inserire il file csv con la distribuzione reale dei moduli di deviazione nello script del paragrafo 2.4 e vedere cosa succede. Poiché il problema è altamente sovradeterminato (uno dei coefficienti C3 è molto vicino allo zero, e gli altri due C1 e C2 dipendono in modo molto lineare), non posso nemmeno prevedere il risultato (l'MNC potrebbe traboccare). Se siete pigri, aspettate fino a sera, posso farlo io stesso. Quando vedremo le immagini, sarà chiaro chi ha ragione e di cosa parlare in seguito).

A proposito, non sostengo che l'esponenziale sia una panacea, anzi, in termini non estensivi ti appoggio e ti suggerisco di calcolare quale distribuzione massimizza l'entropia Q su [0;+inf) (conosci il calcolo delle variazioni? Io non lo conosco molto bene, ma in linea di principio posso farlo, non è molto complicato). Ci sono considerazioni teoriche (ho scritto sopra a proposito dell'informazione), anche se non del tutto formalizzate, oltre a qualche intuizione, se volete.

Lavorare con i moduli è un'ottima idea, sarebbe interessante vedere cosa succede.

P1(x) è più debole di P2(x) - quest'ultimo ha una dinamica più ricca secondo l'equazione dif. Inoltre, P2(x) contiene una gaussiana, il che lo rende universale (si possono correggere tutti i problemi in cui compare).

Penso che dovremmo orientarci verso P(U) - è quasi gaussiana, ma con una complicata trasformazione non lineare dell'argomento attraverso erf-1(x) - è così che le code sono state tagliate a Scher.

quando si differenzia e si integra P(U), ci sono costruzioni con trasformazione dell'argomento nella forma erf(a*erf-1(x)) - non è ben chiaro cosa sia.

Cioè l'idea è quella di recuperare da soluzioni esatte note (Scher ha un secondo esempio nella diapositiva 25) confrontando le equazioni la forma generale dell'equazione differenziale, le cui soluzioni assumeranno la forma di funzioni note in casi particolari (per analogia con la funzione ipergeometrica).

plot InverseErf - Wolfram|Alpha
  • www.wolframalpha.com
x
 
alsu:
Ah, sì, ho dovuto alzare le chiappe e cercare su Internet, ed è venuto fuori che il q-esponenziale era già stato calcolato da persone gentili

Persone non meno gentili hanno dimostrato che esiste una forchetta globale (eq. 32), in corrispondenza della quale dopo la "scelta specifica" h(x)=tanh(x) e lamda=1 si ottiene g->q.

Mi chiedo se esistano altre opzioni di "scelta specifica" con l'opzione "gaussiana". Penso che ci debbano essere: la nascita di una nuova qualità non può avvenire sulla base di "non gioca alcun ruolo speciale" - qui è semplicemente necessaria la fondamentalità.

UPD: È possibile che "non svolgere alcun ruolo speciale" sia un'affermazione errata fatta sulla base di diversi casi speciali.

 
Quantum:

Da un punto di vista applicativo, il valore di massimizzare l'accuratezza dell'adattamento non è così significativo se si conoscono in anticipo i limiti del modello.

Il principio "non si può rovinare il porridge con l'olio" è molto discutibile nella modellazione pratica.

Se ci si concentra solo sulle serie temporali economiche, oltre alla necessità di risolvere altri problemi, si deve sempre risolvere il duplice problema della "ridondanza/insufficienza" del modello. In questo caso, a parità di modelli, si sceglie quello più semplice. Per risolvere questo problema in statistica esistono una serie di test che permettono di cercare di risolvere in qualche modo questo problema.

L'intero meccanismo di modellizzazione dovrebbe essere equilibrato. Certo, è interessante avere delle scoperte in alcuni punti, ma è praticamente interessante quando si tirano su altri elementi dei modelli fino al livello di quella scoperta.

Al momento, è ancora un problema avere dei punti di rottura nel quotidiano che non possono essere presi in considerazione nella modellazione. Fino a quando questo problema non sarà risolto, qualsiasi perfezionamento del modello non avrà senso.

 

Sì, forse è meglio guardare prima ai dati sperimentali.

Consideriamo un esempio classico (Fig. 4 dell'articolo) di spiegazione della distribuzione dell'SP500 utilizzando la q-Gaussiana (funzione P2(x)).

I dati giornalieri sui prezzi di chiusura dell'SP500 sono stati presi dal link: http://wikiposit.org/w?filter=Finance/Futures/Indices/S__and__P%20500/.


Prezzi di chiusura dello SP 500

Rendimenti logaritmici dello SP500

Distribuzione dei rendimenti logaritmici dello SP 500


Per controllare il file SP500-data.csv, copiarlo nella cartella \Files\, quindi eseguire CalcDistr_SP500.mq5 (calcolo della distribuzione) e poi q-gaussian-SP500.mq5 ( analisi delle coordinate degli autovalori).

Risultati del calcolo:

2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: theta=1.770125768485269
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: theta=1.864132228192338
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: a=2798.166930885822
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: a=8676.207867097581
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2: x0=0.04567518783335043
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1: x0=0.0512505923716428
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C1=-364.7131366394939
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C2=37.38352859698793
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C3=-630.3207508306047
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    C4=28.79001868944634
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    1  0.00177913 0.03169294 0.00089521 0.02099064 0.57597695
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    2  0.03169294 0.59791579 0.01177430 0.28437712 11.55900584
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    3  0.00089521 0.01177430 0.00193200 0.04269286 0.12501732
2012.06.29 20:01:19    q-gaussian-SP500 (EURUSD,D1)    4  0.02099064 0.28437712 0.04269286 0.94465120 3.26179090
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    checking distibution cnt=2632.0 n=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Min=-0.1229089015984444 Max=0.1690557338964631 range=0.2919646354949075 size=2632
2012.06.29 20:01:09    CalcDistr_SP500 (EURUSD,D1)    Total data=2633

Stime del parametro q ottenute con il metodo delle coordinate agli autogeni (q=1+1/theta): q~1,55

Nell'esempio (Figura 4 dell'articolo), q~1,4.

SP 500 eigencoordinate X1 Y1

SP 500 eigencoordinate X2 Y2

SP 500 eigencoordinate X3 Y3

SP 500 eigencoordinate X4 Y4

Conclusioni: in generale, questi dati si proiettano abbastanza bene alla q-gaussiana, i dati sono stati presi così come sono, ma la media è ancora presente, dal momento che SP500-index tool+grafici giornalieri.

X1 e X2 sono sensibili in natura, su X3 e X4 le code sono leggermente distorte, ma non così tanto che la q-gaussiana non sia la funzione giusta - è necessario trovare un esempio con un problema più pronunciato.

È possibile migliorare X1 e X2 sostituendoli con JX1 e JX2: dovrebbero raddrizzarsi. Le code di X3 e X4 possono essere corrette ampliando l'insieme delle coordinate degli autogeni e generalizzando la dipendenza quadratica, cioè abbandonando la simmetria intorno a x0 (+ nuovi parametri). Possiamo esaminare il caso cubico di (1+a(x-x0)^3)^theta e le sue estensioni (+nuovi parametri).

Richiede lo studio dello strumento, dell'intervallo di tempo e della dipendenza dal tempo.

Quandl - Find, Use and Share Numerical Data
  • wikiposit.org
Browse pages curated by Quandl .
 
faa1947:

Al momento, esiste ancora un problema di punti di rottura nel kotir, che non può essere preso in considerazione nella modellazione. Finché questo problema non sarà risolto, qualsiasi perfezionamento del modello non avrà senso.

Per quanto riguarda i punti di rottura (se ho capito bene).

Consideriamo la distribuzione dei rendimenti logaritmici per #AA, M5 (2011.12.01 21:15:00 -2012.06.29 18:10:00).

Il calcolo è stato effettuato utilizzando lo script CalcDistr.mq5, 10000 dati per il simbolo #AA, M5.

#AA

La distribuzione dei rendimenti logaritmici in questo caso (scala M5) ha una struttura complessa:

Distribuzione #AA

Se consideriamo la distribuzione dei rendimenti logaritmici~ probabilità di movimento in una certa direzione, allora qui c'è chiaramente una somma di distribuzioni - la struttura delle distribuzioni a piccole scale indica la non stazionarietà.

La dinamica attuale è determinata dalla distribuzione locale, che nei punti di rottura si riorganizza:

Cioè la distribuzione è di natura asimmetrica (|x| non passa), è composta da due parti/distribuzioni (positiva e negativa), la dinamica locale è determinata dal volume più grande del becher.

File:
CalcDistr.mq5  4 kb
 

Materiale interessante, grazie. Non voglio disturbare il buonismo matematico imperante, ma non posso fare a meno di porre due semplici domande:

1. La questione del valore pratico di queste distribuzioni. A cosa dovremmo arrivare come risultato? La descrizione fine a se stessa va bene, ma (mi scuso, ovviamente) puzza di botanica.

2. È ragionevole cercare di descrivere con un'unica distribuzione processi completamente diversi in natura che si verificano a diversi "livelli" del mercato? Il problema delle "pieghe" è già stato menzionato, ma è solo una parte dei problemi esistenti. Inoltre, in diversi intervalli di tempo la composizione stessa dei processi cambia in modo significativo, e non capisco come si possa descriverla con un'unica distribuzione.