Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 13

 

No, il problema non è cambiato. È solo un problema atomico, indivisibile. E per avere il quadro generale, bisogna scansionare anche la variabile Lag.

Posso postare estratti dei miei risultati di qualche mese fa (ma li ho in forma di testo). Non è un'informazione reciproca, come quella del topicstarter, ma le frequenze di Matrix. Ci sono anche i risultati del calcolo della statistica del "test chi-quadrato per l'indipendenza delle variabili" (all'epoca non sapevo cosa fosse l'informazione reciproca, ma ero già preoccupato per una misura comune della dipendenza delle variabili e ho sperimentato diversi criteri). Tuttavia, queste cifre non sono affatto noiose.

Li posterò domani (beh, voglio dire oggi, ma più tardi), perché non ho accesso al computer su cui stavo calcolando.

P.S. Questo non ha niente a che vedere con la "regressione universale ecc: (18) è un approccio rozzamente meccanicistico al prezzo, mentre qui è fondamentalmente statistico.

 
Mathemat:

No, il problema non è cambiato. È solo un problema atomico, indivisibile. E per avere il quadro generale, bisogna scansionare anche la variabile Lag.

Posso postare estratti dei miei risultati di qualche mese fa (ma li ho in forma di testo). Non è un'informazione reciproca, come quella del topicstarter, ma le frequenze di Matrix. Ci sono anche i risultati del calcolo della statistica del "test chi-quadrato per l'indipendenza delle variabili" (all'epoca non sapevo cosa fosse l'informazione reciproca, ma ero già preoccupato per una misura comune della dipendenza delle variabili e ho sperimentato diversi criteri). Tuttavia, queste cifre non sono affatto noiose.

Li posterò domani (voglio dire oggi, ma più tardi), poiché al momento non ho accesso al computer su cui sono stati fatti i calcoli.

P.S. Questo non ha niente a che vedere con la "regressione universale ecc: (18) è un approccio rozzamente meccanicistico al prezzo, mentre qui è fondamentalmente statistico.

(18) in modalità ATS dà, anche se male, ma il risultato, senza utilizzare le fermate e TP, e portare il vostro approccio statistico fine a questo livello, poi ci confronteremo.

Oro dal 25.11.2009 al 02.09.2011, H4, 0.1 lotto, max drawdown 10.32%, MO 27,6

ׂ

 
Mathemat:

Nessuna discussione, tutto ha senso. Cominciamo con il punto 1.

1. "Definire esattamente ciò che prendiamo": prima - la cellula-task, poi l'indivisibile.

Fissare l'intero Lag. Sarà la "distanza tra le barre", cioè il modulo della differenza dei loro indici al timeframe specificato in MT4.

Obiettivo: determinare se esiste una relazione statistica tra le seguenti due variabili casuali: 1) il ritorno della barra "master" con indice sh, e 2) il ritorno della barra "slave" con indice sh+Lag.

Questo è ciò che prendiamo: tutte le coppie di barre con una distanza tra loro pari a Lag. È estremamente preciso.

Dove e cosa c'è da dubitare? Affrontiamo prima il primo punto. Se funziona - passiamo al secondo punto.

È quasi un ACF, ma la formula è diversa. L'ACF è parte integrante della statistica. È ottimo per cercare dipendenze di tutti i tipi. È stato usato sia nella teoria che nella pratica molto estesamente dall'avvento dell'ARIMA. Qualsiasi cosa nuova deve iniziare indicando le somiglianze e le differenze con cose simili comunemente conosciute e ben stabilite. Se questo non viene fatto, allora l'idea non è negoziabile nelle case più squallide di Londra. Questo è ciò di cui ho parlato in tutto questo thread. Si dovrebbe sempre iniziare con un riassunto della letteratura. Nessuna circonlocuzione - nessun bazar nella citazione del tuo post.

Avanti. Vedo sh, capisco che ACF si conta da sh=1, non da un posto arbitrario. Ma c'è un ACF. In che modo il tuo suggerimento assomiglia o differisce da questo. Basta non offuscare il punto (dipendenze in BP) con parole di TI.

 
faa1947: È quasi un ACF, ma la formula è diversa. L'ACF è parte integrante della statistica. È ottimo per cercare dipendenze di tutti i tipi.

Non è necessariamente un ACF. E hai torto marcio sul fatto che ACF cerca dipendenze di ogni tipo. Date un'occhiata alla correlazione. Ci sono i limiti dell'analisi di correlazione verso la fine dell'articolo, dove c'è la foto. Ecco perché ho rinunciato all'ACF. Le correlazioni lineari tra barre rilevate dalla correlazione di Pearson sono troppo deboli e di breve durata.

Si dovrebbe sempre iniziare con una rassegna della letteratura. Nessuna circonlocuzione - nessun bazar nella citazione del tuo post.

In questo modo non potremo muoverci per molto tempo. Ma in generale sono d'accordo con te: un certo tipo di argomentazione è ancora necessaria. Ci penserò - se non siete soddisfatti dell'ultima frase del paragrafo precedente, riguardante le dipendenze lineari.

Basta non offuscare il punto (dipendenze in BP) con parole di TI.

Quindi avete deciso di proibirmi di usare TI per trovare le dipendenze?

2 yosuf: Non ho intenzione di competere con te. Continua a migliorare il tuo strumento, ma non entrare in questo thread, per favore. Qui è un ripensamento.

 
Mathemat:

Ho trovato un articolo sull'entropia dell'informazione (Wiki). Citazione 1 da lì:

Questa è l'entropia, l'entropia convenzionale. È questa la definizione che stai interpretando?

Sì, sono d'accordo che le lettere dell'alfabeto dovrebbero essere statisticamente indipendenti in modo che non ci sia ridondanza o dipendenza. Questo è più o meno quello che sta facendo l'archivista, creando un alfabeto che è chiaramente diverso dall'alfabeto usato per creare il testo.

Ma non è questo che contiamo! Su ciò che contiamo, dopo.


Il discorso del topicstarter (e anche il mio) non era sull'entropia dell'informazione, ma, accidenti, sull' informazione reciproca (ancora Wiki)!!!

L'informazione reciproca è una funzione statistica di due variabili casuali che descrive la quantità di informazioni contenute in una variabile casuale rispetto all'altra.

L'informazione reciproca è definita attraverso l'entropia e l'entropia condizionata di due variabili casuali come [segue la formula per I(X,Y)

Solo per precisare, segue dalla stessa pedivica che la formula per calcolare l'informazione reciproca può essere la seguente:

Informazione reciproca (tra X e Y) = Entropia (X) - Entropia condizionata (tra X e Y)

Questo se non scriviamo formule dall'aspetto spaventoso da fonti americane, ma andiamo per definizioni.

Qui X e Y sono due sistemi diversi, e c'è una dipendenza tra loro, da X e Y.

Se vogliamo la Total Mutual Information, allora è come quella del topicstarter:

Informazione reciproca totale (tra X e Y) = Entropia (X) + Entropia (Y) - Entropia del sistema combinato (X e Y)

Perché si scrive "entropia del sistema combinato" e non "entropia condizionata", perché in effetti l'entropia totale del sistema di due sistemi può essere sia indipendente che condizionata. È chiaro che se X e Y non sono correlati, e indipendenti, allora si dovrebbe contare come probabilità congiunte (teorema dell'aggiunta di entropia), e se c'è una connessione, allora come condizionali.


Ora per i nostri interessi. Come tutto questo bypass può essere applicato al mercato. Supponiamo che il modello sia il seguente. C'è un sistema X - mercato (alfabeto), ha un numero finito e definito di stati (simboli) che appaiono con una certa frequenza (probabilità dei simboli). C'è un secondo sistema Y - un registro delle citazioni. Le citazioni (alfabeto) hanno anche un insieme limitato di simboli con certe frequenze. Cosa si può dedurre da tutto questo?

1. Bisogna conoscere l'alfabeto del mercato. Lì succede sempre qualcosa, si compra e si vende, qualcuno va in bancarotta, qualcuno si presenta con nuovi soldi, ha luogo un'isteria di massa, ecc. Cioè, l'alfabeto è molto vasto e difficilmente può essere descritto così facilmente.

2. Anche se è possibile descrivere l'alfabeto del mercato, c'è una questione sulla stazionarietà dei processi che hanno luogo nel mercato. Bisogna capire che TI è assolutamente orientato sulla costanza delle proprietà.

L'alfabeto del secondo sistema, le citazioni. È diverso dall'alfabeto del mercato. Probabilmente lo è già. E bisogna sapere quale. Se semplicemente dividiamo la gamma dei cambiamenti delle quotazioni su timeframe in quantili e li facciamo diventare alfabeto, cosa otteniamo. Più precisamente, otteniamo la mappatura completa o parziale delle informazioni dall'alfabeto del mercato nell'alfabeto delle quotazioni? Quale parte dell'informazione si perde? O forse non si perde nulla e l'alfabeto del mercato è solo ridondante. Ecc.

 
Mathemat:

Non è quasi, e nemmeno del tutto, un ACF. E ti sbagli sul fatto che ACF cerca dipendenze di ogni tipo. Guardate la correlazione. Ci sono i limiti dell'analisi di correlazione verso la fine dell'articolo, dove c'è la foto. Ecco perché ho rinunciato all'ACF. Le correlazioni lineari tra barre rilevate dalla correlazione di Pearson non mi interessano, perché sono troppo deboli e di breve durata.


L'elaborazione della correlazione è il suo lato forte, ma allo stesso tempo al lato debole lei ha attribuito i limiti noti della correlazione. Ma sono proprio queste limitazioni che ci permettono di ragionare in modo significativo su una quantità chiamata "ACF", la probabilità di fiducia in questa quantità, le condizioni per calcolare questa fiducia, e in generale di valutare la liceità di qualsiasi ragionamento su queste quantità, a seconda che le limitazioni di correlazione siano soddisfatte. Anche avendo imparato tutto, armati di uno strumento, nella pratica si incontrano gravi difficoltà e si cade costantemente nella fornicazione.

Provate a scrivere lo stesso sull'argomento dell'attualità.

ACF mostra le tendenze abbastanza concretamente, e insieme ad ACF cerca i cicli. E cosa cerca la "dipendenza dalle informazioni", che tipo di bestia è e come si manifesta tra virgolette o in incrementi? Ci sono molte pubblicazioni sulla psicologia del mercato, dove si può trovare una spiegazione della formazione delle tendenze e dei cicli, ma qual è la base psicologica della "dipendenza informativa", in quali pubblicazioni è scritta? e influenza le quotazioni? Su quali basi ci si può fidare delle immagini risultanti? Dove sono le probabilità di credibilità del risultato? Dove sono le condizioni per l'applicabilità di tutto questo? Solo domande. Questo argomento mi ricorda sempre di più l'argomento con hfenks (se ricordo bene), che si è anche piegato senza saperlo sull'argomento delle dipendenze.

Dal punto di vista della tesi, esclusivamente preliminare, ci sono segni di novità scientifica, ma senza confronto con la correlazione è tutta spazzatura vuota (scusate).

 
HideYourRichess:

Solo per far notare che segue dalla stessa pedivica che la formula per calcolare l'informazione reciproca potrebbe essere la seguente: [...]

Perché si scrive "entropia del sistema fuso" e non "entropia condizionata", perché in effetti l'entropia totale del sistema di due sistemi può essere sia indipendente che condizionata. È chiaro che se X e Y sono non correlati e indipendenti, si dovrebbe contare come probabilità congiunte (teorema dell'aggiunta di entropia), e se c'è una connessione, allora come condizionali.

Sospettavo che l'avresti fatto notare. Fortunatamente, in ogni caso, le formule scritte attraverso le probabilità (piuttosto che le entropie) rimangono le stesse - indipendentemente da ciò che c'è a seconda di cosa o meno. Quindi questo ragionamento non aggiunge nulla di nuovo.

C'è un sistema X - mercato (alfabeto), ha un numero finito e definito di stati (simboli) che appaiono con una certa frequenza (probabilità dei simboli). C'è un secondo sistema Y - un registro delle citazioni. Le citazioni (alfabeto) hanno anche un insieme limitato di simboli con determinate frequenze. Cosa si può dedurre da tutto questo?

Richiamo la vostra attenzione sul fatto che questo non è più il sistema che il topicstarter stava considerando. Non sono così ingenuo da suggerire seriamente che sia possibile imparare l'alfabeto del mercato. E cerco di pormi degli obiettivi realistici.
 
faa1947: L'elaborazione della correlazione è la sua forza, ma allo stesso tempo al lato debole lei ha attribuito i limiti noti della correlazione. Ma sono precisamente queste limitazioni che ci permettono di ragionare in modo significativo su una quantità chiamata "ACF", la probabilità di fiducia in questa quantità, le condizioni per calcolare questa fiducia, e in generale valutare la liceità di qualsiasi ragionamento su queste quantità, in funzione dell'adempimento delle limitazioni di correlazione.

Assolutamente giusto. La metà del terver/matstat parla dei teoremi del limite centrale e delle implicazioni su di essi, che riguardano specificamente la distribuzione normale. È una distribuzione perfettamente "elaborata". Tuttavia, ci sono alcune variabili casuali che non obbediscono ad essa nemmeno nel limite. Perché dovrei occuparmi specificamente della correlazione di Pearson solo perché è perfettamente elaborata?

ACF mostra in modo specifico le tendenze, e insieme a CHAKF cerca i cicli.

Né i cicli né le tendenze sono ancora interessanti nella fase del data mining. Sono le dipendenze che non sono rilevate da ACF in linea di principio che sono interessanti.

E cosa significa "dipendenza dalle informazioni", cos'è questa bestia e come si presenta tra virgolette o in incrementi? Ci sono molte pubblicazioni sulla psicologia del mercato, dove si può trovare una spiegazione della formazione delle tendenze e dei cicli, ma qual è la base psicologica della "dipendenza informativa", in quali pubblicazioni è scritta? e influenza le quotazioni? Su quali basi ci si può fidare delle immagini risultanti? Dove sono le probabilità di credibilità del risultato? Dove sono le condizioni per l'applicabilità di tutto questo? Questo thread mi ricorda sempre di più il thread con hfenks (se ricordo bene), che ha anche sputato inconsapevolmente sulle dipendenze.

Fai troppe domande. Vi chiederò: conoscete almeno un ricercatore che, prima di iniziare qualcosa di molto nuovo e molto strano, farebbe prima una completa e assoluta dimostrazione dell'applicabilità del nuovo - e poi procederebbe ad ottenere risultati, il cui accenno gli è balenato in testa in una frazione di secondo? Di solito è il contrario: prima si applica il nuovo senza tener conto della fondatezza e del rigore, e poi, se viene fuori qualcosa di interessante, inizia la fondatezza. Capite cosa voglio dire?

E parlando di hrenfx: ha fatto anche un'analisi basata sulla correlazione di Pearson.

Dal punto di vista della tesi, esclusivamente preliminare, ci sono segni di novità scientifica, ma senza confronto con la correlazione tutto questo è spazzatura inutile (scusate).

Niente di che. Beh, qui non stiamo discutendo una tesi di laurea, ma solo un'idea curiosa, da cui potrebbe uscire qualcosa in futuro. Sono ben consapevole che potrebbe non essere così. Allora perché perdere tempo con una giustificazione tesa?

 
Mathemat:

Assolutamente giusto. La metà del terver/matstat parla dei teoremi del limite centrale e delle implicazioni su di essi, che riguardano specificamente la distribuzione normale. È una distribuzione perfettamente "elaborata". Tuttavia, ci sono alcune variabili casuali che non obbediscono ad essa nemmeno nel limite. Perché dovrei occuparmi specificamente della correlazione di Pearson solo perché è perfettamente elaborata?

Non sono ancora interessanti né i cicli né le tendenze nella fase di estrazione dei dati. Sono le dipendenze che interessano che sono fondamentalmente non rilevabili da ACF.

Fai troppe domande. Chiederò anche a voi: conoscete almeno un ricercatore che, prima di iniziare qualcosa di molto nuovo e molto strano, farebbe prima una giustificazione completa e al cento per cento dell'applicabilità di questo nuovo - e poi procederebbe ad ottenere risultati, un accenno dei quali gli è balenato in testa in una frazione di secondo? Di solito è il contrario: prima si applica il nuovo senza tener conto della fondatezza e del rigore, e poi, se viene fuori qualcosa di interessante, inizia la fondatezza. Sai cosa voglio dire?

E parlando di hrenfx: ha anche fatto un'analisi basata sulla correlazione di Pearson.

Niente di che. Beh, qui non stiamo discutendo una tesi di laurea, ma solo un'idea curiosa, dalla quale potrebbe uscire qualcosa in futuro. Sono ben consapevole che potrebbe non essere così. Allora perché perdere tempo con una giustificazione tesa?

Perché dovrei occuparmi specificamente della correlazione di Pearson solo perché è perfettamente elaborata?

Praticamente prezioso. E si riesce a gestire processi casuali non stazionari con distribuzioni sconosciute.

Di solito, è il contrario: all'inizio, si applica il nuovo senza tener conto delle motivazioni e di ogni sorta di rigore, e poi, se si ottiene qualcosa di interessante, si fanno le motivazioni. Mi capite?

No. Prima si misura il guado e poi tutto il resto. In tutti i consigli scientifici a cui ho partecipato ai miei tempi il tuo discorso sarebbe l'ultimo per sempre.

Perché allora perdere tempo con giustificazioni stiracchiate?

L'allungamento non è necessario. Ma bisogna capire di cosa si sta parlando a livello di confronto con l'esistente.

 
Mathemat:

Sospettavo che l'avresti fatto notare. Fortunatamente, in ogni caso, le formule scritte attraverso le probabilità (piuttosto che le entropie) rimangono le stesse - indipendentemente da ciò che c'è a seconda di cosa o meno. Quindi questo ragionamento non aggiunge nulla di nuovo.

Secondo me, anche se errata, l'essenza della formula non può cambiare, così come le condizioni della sua applicabilità, per il fatto che è scritta da altri simboli.

Matematica:
Richiamo la vostra attenzione sul fatto che questo non è più il sistema che il topicstarter stava considerando. Non sono così ingenuo da parlare seriamente di imparare l'alfabeto del mercato. E cerco di pormi degli obiettivi realistici.
Un sistema più completo assomiglia a questo: alfabeto del mercato <-> alfabeto della quotazione -> alfabeto del compito. Il topikstarter ha considerato solo l'ultima coppia, la citazione è il compito.
Motivazione: