Correlazione zero del campione non significa necessariamente che non ci sia una relazione lineare - pagina 46

 

Tocca a me fare un esempio con un'immagine.

Supponiamo che ci sia un campione di due processi (non casuali, ma dopo tutto un processo non casuale è un caso degenerato di uno casuale, quindi andrà bene per un esempio) sull'intervallo t = -10 ... 10:

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), dove h(t) è il passo di Heaviside,

e la frequenza di campionamento del campione è abbastanza grande (molto maggiore della frequenza dei seni e dei coseni stessi) fd >> 1

Ecco i grafici di questi processi:


Ovviamente, a causa dell'ortogonalità di seno/coseno, il valore del coefficiente di correlazione istantaneo è zero in tutto il campione, tranne nel punto 0, dove il CQ è difficile da determinare in qualsiasi modo a causa della discontinuità del processo.

Tuttavia, quando stupidamente sostituiamo i processi dati nella formula per il coefficiente di correlazione lineare, otteniamo un'assurdità: la media aritmetica del tempo per il secondo processo durante il periodo di tempo risulta essere non 0 ma 1/2, e siamo costretti a scriverla nella formula, avendo in uscita un valore diverso da 0, e il campione più corto viene preso (per l'intervallo [-10;10] il coefficiente calcolato in tal modo sarà uno, e per l'intervallo, per esempio [-3;3], - un altro). Questo può essere facilmente controllato con la procedura QC integrata in qualsiasi pacchetto, anche in Excel.

Qui già intuitivamente ci dovrebbe essere una sensazione di contraddizione: se dividiamo un campione in due per un punto t=0 e allo stesso modo calcoliamo un KK per ogni parte, in entrambi i casi otteniamo 0, ma risulta che unendo due parti "zero" insieme non abbiamo zero? Come può essere?

La ragione è che la non stazionarietà del processo x2(t) non è presa in considerazione, e quindi il fatto che in questo caso non possiamo prendere la media aritmetica nel tempo come stima della media. Inoltre, per costruzione sappiamo come questa media cambia effettivamente nel tempo. Pertanto, la procedura di calcolo deve ridurre precisamente entrambe le parti, sulla base di una conoscenza a priori dei processi, in una forma che permetta di affermare la stazionarietà.

In altre parole, la formula per il CQ lineare non dovrebbe sostituire x1(t) e x2(t), ma x1(t) e x2'(t) = x2(t)-h(t), cioè isolare il termine stazionario dal secondo processo. Allora il risultato del calcolo della formula coinciderà con l'aspettativa.

 
Integer:

Non parlate di uno qualsiasi, siate specifici, nome del libro di testo, citatelo con la definizione. Anche così, sei sicuro di aver azzeccato la definizione, come puoi essere così sicuro? Non avete provato a toccare il coefficiente di correlazione con le vostre mani (sperimentare, giocare) per capire, realizzare, sentire cos'è?

Come si fa a diventare così arroganti da doversi abbassare così tanto?

Non so cosa sia un twist (a meno che non sia una danza di qualche tipo), ho cercato la definizione di correlazione su wikipedia:

Stai cercando di valutare criticamente ciò che è scritto da qualche parte sulla recinzione? Cosa ha a che fare questo con le variabili casuali? Solo uno stronzo avrebbe potuto scrivere questa definizione. Se è lo stesso in tutti i libri di testo di hip-hop o altro, allora tutti questi libri di testo sono stati scritti da stronzi che non capiscono cosa sia la correlazione e hanno fottuto il cervello degli studenti.


TViST (teoria della probabilità e statistica in breve) è la mia specializzazione, l'ho studiata nell'istituto e ho superato l'esame per 5 semestri, con lode. Beh, onestamente, non ho intenzione di autenticare gli screenshot qui. Chiunque voglia può aprire qualsiasi, ripeto, qualsiasi libro di testo, che apparirà a portata di mano, anche se nostro, anche se straniero, ed essere convinto, che a definizione di correlazione è una questione, e cosa no. Se si considera che tutti i libri sono stati scritti da stronzi, allora non si dovrebbe leggerli affatto? No, preferisco mettere questo forum nella categoria dei recinti e valutare criticamente prima quello che si scrive qui e poi quello che si scrive là.

 
alsu:


Qui già intuitivamente ci dovrebbe essere un senso di contraddizione: dopo tutto, se dividiamo il campione a metà per t=0 e calcoliamo il CQ per ogni parte allo stesso modo, otteniamo 0 in entrambi i casi, ma si scopre che cucendo due parti "zero" insieme, non abbiamo zero?? Come può essere?

No, non sto guardando. Zero per una metà, non zero per l'altra metà.
 
alsu:

TViST (teoria della probabilità e statistica in breve) è la mia materia principale, l'ho studiata nell'istituto e ho superato l'esame per 5 semestri, con lode. Beh, onestamente, non ho intenzione di autenticare gli screenshot qui. Chiunque voglia può aprire qualsiasi, ripeto, qualsiasi libro di testo, che apparirà a portata di mano, anche se nostro, anche se straniero, ed essere convinto, che a definizione di correlazione si dice, e cosa no. Se si considera che tutti i libri sono stati scritti da stronzi, allora non si dovrebbe leggerli affatto? No, preferisco mettere questo forum nella categoria dei recinti e valutare criticamente prima quello che si scrive qui e poi quello che si scrive là.

Stranamente, sembra che il mio professore, che mi ha insegnato all'istituto di correlazione, non abbia letto questi libri di testo... fortunato per i suoi studenti:)

 
alsu: ... Ovviamente, a causa dell'ortogonalità di seno/coseno il valore del coefficiente di correlazione istantaneo in tutto il campione è zero, tranne nel punto 0, dove il CC è difficile da determinare in qualsiasi modo a causa della discontinuità del processo.
Intero: No. Non guardare. Zero per una metà, non zero per l'altra metà.

Sì, per l'altra metà non zero. Inganno visivo.


Una domanda di follow-up:

Cari, quali dati per le serie temporali dei prezzi (FX) usate quando traete conclusioni su stazionarietà, distribuzioni, ergodicità, correlazione e altre cose statistiche? La domanda è senza cavilli. Basta prendere spesso una delle migliori letture della fascia quantificata dal tempo astronomico? Ma questo è ... come posso dire... inaccettabile. Ha senso analizzare la sequenza delle letture dei prezzi di scambi "reali", tenendo conto dei volumi reali. Forse è questo il punto - nella preparazione dei dati per l'analisi.

 

Discussione interessante. Forse arriveranno in fondo almeno qui.

Ho cercato ripetutamente di scoprire questa domanda, ho parlato con persone intelligenti (sembrerebbe), ma sembra che nessuno capisca, solo gonfiano le guance )))

Il significato fisico della correlazione è il coseno dell'angolo tra i vettori (dove le coordinate dei vettori sono entrambi campioni iniziali).

Quindi QC in realtà "confronta" solo le forme delle curve, non è influenzato dal ridimensionamento (cambiando la lunghezza del vettore) o dallo spostamento (spostando l'origine del vettore).

Non conosco le citazioni, ma nell'elaborazione dei segnali il QC è valido solo per I(1). In particolare, è abbastanza buono nel rilevare la periodicità del segnale.

Vorrei capire qual è il senso di usare QC per I(0), perché è un confronto di "forme" di due serie quasi completamente casuali, non ci può essere, per definizione, nessuna somiglianza di forme.

E questo è tutto per l'applicazione locale.


Separatamente, vorrei capire il significato di calcolare QC, distribuzioni e altre statistiche per tutta la serie in una volta sola. Questa è una temperatura media dell'ospedale per N anni, che senso ha?

Non c'è stazionarietà né in I(1) né in I(0) nel mercato.

 
airbas: Nel mercato, non c'è stazionarietà né in I(1) né in I(0).

Di quale I(1) e I(0) state parlando per il mercato?

I(0) è per definizione un processo stazionario . Dove si trova nelle citazioni?
 
Demi:
Sì? E una volta mi hanno insegnato che il coefficiente di correlazione di coseno e seno varia dolcemente da -1 a +1. Si scopre che è 0........

Da -1 a +1 la _funzione di correlazione incrociata_ cambia. E il coefficiente di correlazione campionaria è un _numero_. E questo numero è una costante per due campioni dati in anticipo. Se prendiamo come campioni i valori di una coppia di funzioni ortogonali su una griglia uniforme, il coefficiente sarà uguale a zero. Questo segue dalla definizione di funzioni ortogonali - l'integrale della definizione scritto come somma sarà sorprendentemente simile alla definizione di covarianza campionaria.

Intero:

Il coefficiente di correlazione non mostra altro e il calcolo della correlazione non ha niente a che vedere con la normalità o l'ergodicità o la stazionarietà. Che tipo di libri di testo stai leggendo?

Se la cosa principale per voi è sostituire i numeri nella formula e ottenere un numero, la stazionarietà e l'ergodicità non sono importanti.

La proprietà dell'ergodicità permette di stimare la funzione di correlazione per la popolazione generale sulla base di un campione di questa popolazione. Se questa proprietà non è soddisfatta, il numero ottenuto dalla formula può essere buttato via.

Con la stazionarietà, è più facile fare un esempio. Prendiamo una coppia di processi casuali, i cui differenziali stocastici hanno la forma:

dX(t) = mu_1 * dt + sigma_1 * dW_1;

dY(t) = mu_2 * dt + sigma_2 * dW_2;

dW_1, dW_2 sono processi di Wiener correlati (con correlazione rho);

mu_1, mu_2, sigma_1, sigma_2 sono costanti positive.

L'esempio è che il coefficiente di correlazione su una coppia di serie indifferenziate tenderà all'unità (per qualsiasi mu_1 e mu_2 - a sign(mu_1 * mu_2) ) con l'aumento della dimensione del campione, indipendentemente dalla correlazione tra gli incrementi. Il punto è che nel processo I(1) la media campionaria non converge ad una costante.

mu_1=0,01; mu_2=0,05; sigma_1=1; sigma_2=1; rho=0,5:

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

airbas:

Non so per le quotazioni, ma nell'elaborazione dei segnali QC è solo per I(1) ed è valido. In particolare, è abbastanza buono nel rilevare la periodicità del segnale.

Sa in quale università si è laureato? Saprò chi ha bisogno di essere controllato più a fondo per l'adeguatezza della percezione ai colloqui.

Integer, ho la stessa domanda per te, se non è troppo difficile.

GaryKa:

Caro, quali dati usi per le serie temporali dei prezzi (FX) quando trai conclusioni su stazionarietà, distribuzioni, ergodicità, correlazione e altre cose statistiche? La domanda è senza cavilli. Basta prendere spesso una delle migliori letture della fascia quantificata dal tempo astronomico? Ma questo è ... come posso dire... inaccettabile. Ha senso analizzare la sequenza delle letture dei prezzi di scambi "reali", tenendo conto dei volumi reali. Forse è questo il punto - nel preparare i dati per l'analisi.


Leggete le definizioni in qualsiasi libro di testo e avrete il succo. Non fa alcuna differenza se si usa bid/ask/midprice. Le caratteristiche numeriche possono essere leggermente diverse, ma le conclusioni sulla stazionarietà saranno le stesse.

 

Controllate voi stessi per l'adeguatezza dopo:

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
Anonimo, sai, leggo regolarmente il forum, quasi tutto, e non ho visto un solo post adeguato da parte tua.
Motivazione: