Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 31

 
Avals: Non c'è bisogno di prevedere tutto il tempo :) Solo in momenti discreti.

E più spesso il sistema dovrebbe dire: "sediamoci sulla barricata, ho una crisi del modello dell'universo". Suppongo che questa sia una qualità utile di qualsiasi sistema di trading intelligente, che riflette la realtà caotica del mercato: permette solo un leggero sguardo al futuro in certi momenti.

Candido: In generale, a giudicare dal fatto che i post restano sospesi nell'aria, il mio tempo in questo thread è passato o non è ancora arrivato :). Probabilmente è il momento di far riposare la fontana :).

Probabilmente non ancora :).

E onestamente non avevo ancora intenzione di attivare l'argomento, ma dopo che è venuto fuori, ho pensato che ci sarebbe stato circa questo sviluppo. Ma non me ne pento, perché la discussione ha chiarito alcune cose.

Candido: ho dato per scontato fin dall'inizio che la metodologia percepisca le dipendenze, sia utili per le previsioni che inutili. Per quanto riguarda la volatilità, ci sono prove certe a sostegno di tale ipotesi.

La volatilità è un giocatore serio in questo Gioco dell'Informazione, ma penso che non sia ancora il re e il dio.

 

Continuerò il tema, piuttosto per gli esteti. Forse questa sarà la fine dell'argomento. O forse se ne aprirà un altro.

Posterò i risultati dei miei esperimenti.

 

Un grafico che mostra la quantità di informazioni reciproche sui ritardi da 1 a 250 per la barra zero (più precisamente, gli incrementi di prezzo p[0] - p[1]) per EURUSD D1.




Poi, proviamo a mantenere la volatilità originale della serie (mantenendo i moduli di incremento) mentre mescoliamo i segni degli incrementi. Otteniamo.



Un grafico simile e la somma delle informazioni reciproche è molto simile. Significa che l'eliminazione del segno del gradiente non ha influenzato l'informazione reciproca. Per confermare l'insignificanza del segno, proviamo quanto segue. Lasciamo la sequenza dei segni degli incrementi come nel formato originale ma mescoliamo i moduli degli incrementi avendo rotto la struttura della volatilità. Ora abbiamo.




Il grafico ha un aspetto diverso. La somma è diminuita significativamente. Quindi, avendo rimosso la volatilità, con la presenza della sequenza originale di segni di incremento abbiamo molte meno informazioni sulla barra zero.


Ora confondiamo sia i segni di incremento che la sequenza del modulo di incremento, cioè eliminiamo la volatilità e la sequenza di segni che hanno luogo nella serie originale.




Otteniamo circa lo stesso, anche se la somma è più alta. Assumiamo che la serie senza volatilità sia quasi la stessa di una serie completamente casuale (che però ha la legge di distribuzione conservata).


Per non fare realizzazioni multiple per ogni esperimento, eseguiamo test statistici dell'ipotesi sulla differenza tra i valori ottenuti di mutua informazione per diverse serie.

Test di Kolmogorov-Smirnov per la mutua informazione delle serie originali e delle serie con volatilità conservata. p > 0,1. L'ipotesi della differenza è respinta.

Per le serie originali e le serie con mantenimento del segno degli incrementi: p < 0,01. L'ipotesi di una differenza è confermata.

Test per la serie con il segno conservato e la serie casuale. p < 0,1. Un risultato ambiguo, ma la somma delle informazioni reciproche per la serie casuale è ancora più grande, quindi sono propenso ad accettare l'ipotesi di una differenza, o almeno di nessuna superiorità rispetto alla serie casuale.

Conclusione: questa metodologia, lavorando con gli incrementi dei prezzi di chiusura, permette di rilevare le dipendenze della volatilità dei prezzi, mentre le dipendenze dei segni degli incrementi non sono rilevabili, se non in alcun senso. È impossibile prevedere la direzione del movimento dei prezzi con questa metodologia.

 

Sono stato fuori tema nell'ultimo mese: sono stato molto occupato con altre cose, quindi non ho avuto tempo per questo.

Sono d'accordo con il verdetto in linea di principio. Ma solo sui giorni. Ho già sospettato e detto prima (e non solo io) che c'è molto più caos nei giorni che nei periodi più brevi.

Si deve anche tener conto del fatto che le barre con informazioni eccessive non sono state scartate. Ho il sospetto che questo influenzi molto il risultato.

In breve, la selezione dei dati che eventualmente saranno forniti all'input della rete neurale dovrebbe essere affrontata molto più seriamente. Così si scopre che, per beneficiare della rete neurale, bisogna nutrirla con leccornie estremamente sporche. E in questo momento non è ancora una prelibatezza, ma uno storione stellato non catturato.

 
Mathemat:

Sono stato fuori tema nell'ultimo mese: sono stato molto occupato con altre cose, quindi non ho avuto tempo per questo.

Sono d'accordo in linea di principio con il verdetto. Ma solo sui giorni. Ho già sospettato e detto prima (e non solo io) che c'è molto più caos nei giorni che nei periodi più brevi.

Si deve anche tener conto del fatto che le barre con informazioni eccessive non sono state scartate. Ho il sospetto che questo influenzi molto il risultato.

In breve, la selezione dei dati che eventualmente saranno forniti all'input della rete neurale dovrebbe essere affrontata molto più seriamente. Così si scopre che per trarre beneficio dalla rete neurale, bisogna nutrirla con leccornie di punta estremamente prive di sporcizia. E al momento non è ancora una prelibatezza, ma uno storione stellato non catturato.

Alexei, prima di tutto, sono contento di vederti nel thread. Sono d'accordo con la sua opinione. Ho anche sentito e pensato alla grande quantità di caos nei diari. La mia opinione è la seguente: sui grandi TF la funzione delle serie temporali non è così liscia come su quelli a 1 minuto e 5 minuti, e ancor meno sui tick. Se uno impara a prevedere diverse barre in avanti su piccoli TF, ci sarà potenza. Naturalmente, posso calcolare l'informazione reciproca anche per i minuti, sarà ancora più interessante. Potrei farlo anche per le zecche, lo prenderò dal sito di Gain Capital. Ma il problema di usare le informazioni dell'insieme di barre non è risolto, sono bloccato su questo. Mi dispiace.

Sono completamente d'accordo sul fatto che lo "stellato" non sia stato preso. E il problema delle informazioni ridondanti è importante in questo senso. Se prendiamo informazioni su barre specifiche, stiamo, fondamentalmente, sollevando la questione dell'importanza di ogni ritardo preso.

Tutto sommato, ma ci vediamo di nuovo in onda.

 
alexeymosc: Naturalmente, posso calcolare le informazioni reciproche anche per i minuti, sarebbe addirittura interessante. Posso farlo anche per le zecche, le prenderò dal sito di Gain Capital.

Per minuti, molto meno tic, è probabilmente troppo dispendioso in termini di tempo e di utilizzo delle risorse del PC. Conto di prendere delle ore e contarle. Vedremo.

Il problema più grave qui non è in superficie, ma dentro: la storia passata non è una costante per la DC. Le barre appaiono e scompaiono di continuo. E i cambiamenti locali della storia passata possono influenzare seriamente il risultato (o piuttosto la Matrice). Sono estremamente a disagio con questo. Sto cercando un modo per risolvere il problema della permanenza della storia e, allo stesso tempo, ridurre il numero di calcoli di un ordine di grandezza.

 
alexeymosc:

Alexei, prima di tutto, sono contento di vederti nel thread. Sono d'accordo con la sua opinione. Ho anche sentito e pensato alla grande quantità di caos di questi giorni. La mia opinione è la seguente: su grandi TF la funzione delle serie temporali non è così liscia come sui minuti e sui cinque minuti, e ancor meno sui tick. Se uno impara a prevedere diverse barre in avanti su piccoli TF, ci sarà potenza. Naturalmente, posso calcolare l'informazione reciproca anche per i minuti, sarà ancora più interessante. Potrei farlo anche per le zecche, lo prenderò dal sito di Gain Capital. Ma il problema di usare le informazioni dell'insieme di barre non è risolto, sono bloccato su questo. Mi dispiace.

Sono completamente d'accordo sul fatto che lo "stellato" non sia stato preso. E il problema delle informazioni ridondanti è importante in questo senso. Se prendiamo informazioni su barre specifiche, stiamo, fondamentalmente, sollevando la questione dell'importanza di ogni ritardo preso.

Tutto sommato, ma ci vediamo di nuovo in onda.

Forse sui grandi TF la funzione della serie temporale non è così liscia come sui minuti e sui cinque minuti, e ancora di più sui tick, ma è più prevedibile. Sui TF più piccoli, soprattutto sui minuti, la funzione della serie temporale rivela un pattern, a mio avviso, entro poche centinaia o addirittura migliaia di barre, mentre entro dieci (-s) barre la proporzione di componenti casuali di un possibile pattern generale è molto alta.
 
yosuf:
Forse su grandi timeframe la funzione delle serie temporali non è così liscia come su quelli a 1 minuto e 5 minuti, e ancor meno sui tick, ma è più prevedibile. Su timeframe più piccoli, specialmente su quelli a 1 minuto, la funzione delle serie temporali mostra regolarità entro diverse centinaia o addirittura migliaia di barre, mentre entro decine (-s) di barre la proporzione di componenti casuali di un possibile pattern generale è molto alta.

Sono d'accordo, Yusuf. C'è anche questa opinione. A proposito, è per questo che ho preso le barrette giornaliere. Ma, curiosamente, la somma delle informazioni reciproche per lo stesso numero di ritardi è maggiore per le barre orarie che per quelle diurne. Anche se è soprattutto volatilità, ma un fatto è un fatto. Quindi forse i tempi più piccoli sono più adatti a un particolare modello di previsione.

 
Mathemat:

Per minuti, molto meno tic, è probabilmente troppo dispendioso in termini di tempo e di utilizzo delle risorse del PC. Conto di prendere delle ore e contarle. Vedremo.

Il problema più grave qui non è in superficie, ma dentro: la storia passata non è una costante per la DC. Le barre appaiono e scompaiono di continuo. E i cambiamenti locali della storia passata possono influenzare seriamente il risultato (o piuttosto la Matrice). Sono estremamente a disagio con questo. Sto cercando un modo per risolvere il problema della costanza della storia e, allo stesso tempo, ridurre il numero di calcoli di un ordine di grandezza.

Questo è un punto molto buono. Anche se io stesso non ho scavato il problema delle barre volatili nella storia, ma il punto è chiaro per me, Alexey. Penso che dovremmo misurare su qualche segnale derivato dalla serie temporale, piuttosto che sulla serie temporale stessa. Forse ha senso prendere il prezzo medio ponderato all'interno dell'orizzonte temporale, i picchi saranno smussati. A proposito, l'ho fatto una volta: ho preso la media ponderata del prezzo intraday calcolata dalla chiusura oraria (in effetti, è una MA con un periodo di 24, ma i valori di questa ondulazione distanziati di 24 passi sono usati per il calcolo). E ho calcolato l'informazione reciproca. Sono rimasto sorpreso. Il lag #1 ha mostrato il massimo delle informazioni, gli altri lag hanno mostrato 10 volte o più di informazioni in meno. Una netta differenza dalla serie originale di prezzi giornalieri...
 
Siete consapevoli dell'impatto del clustering della volatilità sui timeframe inferiori e tuttavia traete conclusioni che presumibilmente i timeframe superiori sono più rumorosi. L'unica base per questo è la vostra convinzione. Se volete davvero confrontare diverse scale temporali, allora confrontatele non direttamente, ma i loro residui dagli effetti della volatilità, altrimenti tutto assomiglia a una vostra convinzione.
Motivazione: