A correlação de amostra zero não significa necessariamente que não exista uma relação linear - página 46

 

É a minha vez de dar um exemplo com uma foto.

Suponha que haja uma amostra de dois processos (não aleatórios, mas afinal um processo não aleatório é um caso degenerado de um processo aleatório, assim fará por exemplo) no intervalo t = -10 ... 10:

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), onde h(t) é o passo Heaviside,

e a taxa de amostragem da amostra é bastante grande (muito maior do que a frequência dos pecados e dos próprios cossenos) fd >> 1

Aqui estão os gráficos desses processos:


Obviamente, devido à ortogonalidade do seno/coseno, o valor do coeficiente de correlação instantânea é zero em toda a amostra, exceto no ponto 0, onde o CQ é difícil de determinar de qualquer forma devido à descontinuidade do processo.

No entanto, quando substituímos estupidamente determinados processos em fórmulas por coeficientes de correlação linear, obtemos disparates: a média aritmética do tempo para o segundo processo durante o período de tempo passa a ser não 0, mas 1/2, e somos forçados a escrevê-lo na fórmula, tendo em um valor de saída diferente de 0, e a amostra mais curta é tomada (para intervalo [-10;10] o coeficiente calculado dessa forma será um, e para intervalo, por exemplo [-3;3], - outro). Isto pode ser facilmente verificado com o procedimento de CQ embutido em qualquer pacote, mesmo em Excel.

Aqui já intuitivamente deveria haver um sentimento de contradição: se dividirmos uma amostra em dois por um ponto t=0 e da mesma forma calcularmos um KK para cada parte, em ambos os casos obtemos 0, mas acontece que unindo duas partes "zero" não temos zero? Como isso pode ser?

A razão é que a não-estacionariedade do processo x2(t) não é levada em conta, e daí o fato de que neste caso não podemos tomar a média aritmética ao longo do tempo como uma estimativa da média. Além disso, por construção sabemos como esta média muda de fato com o tempo. Portanto, o procedimento de cálculo deve reduzir precisamente ambas as partes, com base no conhecimento a priori dos processos, a uma forma que permita afirmar a estacionaridade.

Em outras palavras, a fórmula para o CQ linear não deve substituir x1(t) e x2(t), mas x1(t) e x2'(t) = x2(t)-h(t), ou seja, isolar o termo estacionário do segundo processo. Então o resultado do cálculo da fórmula coincidirá com a expectativa.

 
Integer:

Não fale de ninguém, seja específico, nome do livro didático, cite-o com a definição. Mesmo assim, você tem certeza de ter a definição correta, como pode ter tanta certeza? Não tentou tocar o coeficiente de correlação com suas próprias mãos (experimentar, brincar) para entender, perceber, sentir o que é?

Como você pode ficar tão preso a ponto de ter que se abaixar tanto?

Não sei o que é uma reviravolta (a menos que seja uma dança de algum tipo), procurei a definição de correlação na wikipedia:

Você está tentando avaliar criticamente o que está escrito em algum lugar na cerca? O que isso tem a ver com valores aleatórios? Somente um idiota qualquer poderia ter escrito esta definição. Se é o mesmo em todos os livros didáticos sobre hip-hop ou qualquer outra coisa, então todos esses livros didáticos foram escritos por babacas que não entendem o que é correlação e foderam os cérebros dos estudantes.


TViST (teoria da probabilidade e estatística, resumindo) é minha especialidade, estudei-a no instituto e passei no exame durante 5 semestres, com honras. Bem, honestamente, não vou autenticar as telas aqui. Qualquer pessoa que desejar pode abrir qualquer, repito, qualquer livro didático, que aparecerá à mão, embora nosso, embora estrangeiro, e estar convencido do que, na definição de correlação, é uma questão, e o que não é. Se se considerar que todos eles foram escritos por babacas, então não se deve lê-los de jeito nenhum? Não, eu prefiro colocar este fórum na categoria de cercas e avaliar criticamente primeiro o que está escrito aqui e depois o que está escrito ali.

 
alsu:


Aqui já intuitivamente deveria haver uma sensação de contradição: afinal, se dividirmos a amostra ao meio por t=0 e calcularmos o CQ para cada parte da mesma forma, obtemos 0 em ambos os casos, mas acontece que costurando duas partes "zero" juntas, não temos zero??? Como isso pode ser?

Não. Não estou olhando. Zero para uma metade, não-zero para a outra metade.
 
alsu:

TViST (teoria da probabilidade e estatística, resumindo) é minha especialidade, estudei-a no instituto e passei no exame durante 5 semestres, com honras. Bem, honestamente, não vou autenticar as telas aqui. Qualquer pessoa que desejar pode abrir qualquer, repito, qualquer livro didático, que aparecerá à mão, embora nosso, embora estrangeiro, e estar convencido do que, na definição de correlação, é uma questão, e o que não é. Se se considerar que todos eles foram escritos por babacas, então não se deve lê-los de jeito nenhum? Não, eu prefiro colocar este fórum na categoria de cercas e avaliar criticamente primeiro o que está escrito aqui e depois o que está escrito ali.

Estranhamente, parece que meu professor, que me ensinou no instituto de correlação, não leu estes livros didáticos... sorte para seus alunos:)

 
alsu: ... Obviamente, devido à ortogonalidade do seno/coseno o valor do coeficiente de correlação instantânea em toda a amostra é zero, exceto no ponto 0, onde o CC é difícil de determinar de alguma forma devido à descontinuidade do processo.
Número inteiro: Não. Não olhando. Zero para uma metade, não zero para a outra metade.

Sim, para a outra metade não zero. Engano visual.


Uma pergunta complementar:

Queridos, que dados para as séries cronológicas de preços (FX) vocês utilizam quando tiram conclusões sobre estacionaridade, distribuições, ergodicidade, correlação e outras coisas estatísticas? A questão é sem dúvida alguma. Apenas tomando frequentemente uma das melhores leituras de banda quantificadas pelo tempo astronômico? Mas isso é ... como hei-de dizer... inaceitável. Faz sentido analisar a seqüência de leituras de preços de negócios "reais", levando em conta os volumes reais. Talvez seja essa a questão - na preparação dos dados para análise.

 

Discussão interessante. Talvez eles cheguem ao fundo da questão pelo menos aqui.

Eu tentei repetidamente descobrir esta questão, falei com pessoas inteligentes (ao que parece), mas parece que ninguém entende, apenas ensopa as bochechas ))))

O significado físico da correlação é o cosseno do ângulo entre os vetores (onde as coordenadas dos vetores são ambas amostras iniciais).

Portanto, o CQ realmente apenas "compara" formas de curva, não é afetado pela escala (alteração do comprimento vetorial) ou deslocamento (movimentação da origem vetorial).

Eu não sei sobre citações, mas no processamento de sinais o CQ só é válido para I(1). Em particular, é bastante bom em detectar a periodicidade do sinal.

Gostaria de entender qual é o sentido de usar QC para I(0), porque é uma comparação de "formas" de duas séries quase completamente aleatórias, não pode haver, por definição, nenhuma semelhança de formas.

E tudo isto é para aplicação local.


Separadamente, eu gostaria de entender o significado do cálculo de CQ, distribuições e outras estatísticas para toda a série de uma só vez. Esta é uma temperatura hospitalar média para N anos, para que serve?

Não há estacionaridade nem em I(1) nem em I(0) no mercado.

 
airbas: No mercado, não há estacionaridade em I(1) ou I(0).

De que I(1) e I(0) você está falando para o mercado?

I(0) é, por definição, um processo estacionário . Onde está nas citações?
 
Demi:
Sim? E uma vez me ensinaram que o coeficiente de correlação de co-seno e seno varia suavemente de -1 a +1. Acontece que é 0........

De -1 a +1 a correlação cruzada _função_ muda. E o coeficiente de correlação da amostra é um _número_. E este número é uma constante para duas amostras dadas com antecedência. Se tomarmos como amostras os valores de um par de funções ortogonais em uma grade uniforme, o coeficiente será igual a zero. Isto decorre da definição de funções ortogonais - o integral da definição escrita como uma soma será surpreendentemente semelhante à definição de covariância de amostra.

Inteiro:

O coeficiente de correlação nada mais mostra e o cálculo da correlação nada mais tem a ver com a normalidade ou ergodicidade ou estacionaridade. Que tipo de livros didáticos você lê?

Se o principal para você é substituir os números na fórmula e obter um número, a estacionaridade e a ergodicidade não são importantes.

A propriedade da ergodicidade permite estimar uma função de correlação para a população em geral com base em uma amostra dessa população. Se esta propriedade não for cumprida, o número obtido pela fórmula pode ser jogado fora.

Com a estacionariedade, é mais fácil dar um exemplo. Pegue um par de processos aleatórios, cujos diferenciais estocásticos têm a forma:

dX(t) = mu_1 * dt + sigma_1 * dW_1;

dY(t) = mu_2 * dt + sigma_2 * dW_2;

dW_1, dW_2 são processos de Wiener correlacionados (com correlação rho);

mu_1, mu_2, sigma_1, sigma_2 são constantes positivas.

O exemplo é que o coeficiente de correlação em um par de séries indiferenciadas tenderá à unidade (para qualquer mu_1 e mu_2 - assinar(mu_1 * mu_2) ) com o aumento do tamanho da amostra independentemente da correlação entre os incrementos. A questão é que no processo I(1) a média da amostra não converge para uma constante.

mu_1=0,01; mu_2=0,05; sigma_1=1; sigma_2=1; rho=0,5:

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

airbas:

Não sei para citações, mas no processamento de sinais o CQ é apenas para I(1) e é válido. Em particular, é bastante bom em detectar a periodicidade do sinal.

Você sabe de qual universidade você se formou? Saberei quem precisa ser verificado mais minuciosamente para a adequação da percepção nas entrevistas de trabalho.

Integer, eu tenho a mesma pergunta para você, se não for muito difícil.

GaryKa:

Caro, que dados você utiliza para as séries cronológicas de preços (FX) quando tira conclusões sobre estacionaridade, distribuições, ergodicidade, correlação e outras coisas estatísticas? A questão é sem dúvida alguma. Apenas tomando frequentemente uma das melhores leituras de banda quantificadas pelo tempo astronômico? Mas isso é ... como hei-de dizer... inaceitável. Faz sentido analisar a seqüência de leituras de preços de negócios "reais", levando em conta os volumes reais. Talvez seja essa a questão - na preparação dos dados para análise.


Leia as definições em qualquer livro didático e obtenha o essencial. Não faz nenhuma diferença se você usa bid/ask/midprice. As características numéricas podem ser ligeiramente diferentes, mas as conclusões sobre a estacionaridade serão as mesmas.

 

Verifique a si mesmo se é adequado depois:

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
Anônimo, você sabe, eu leio o fórum regularmente, quase todo ele, e não tenho visto um post adequado de você.
Razão: