Estatísticas de dependência entre aspas (teoria da informação, correlação e outros métodos de seleção de características) - página 2

 
alexeymosc:

Em primeiro lugar, a ciclicidade não está na tabela diária, mas na tabela horária! Escrevi lá, a propósito.

E para os gráficos diários o resultado não será cíclico, você está certo.

Perdoe-me, repetimos para a tabela horária.

A tabela original por 120 horas.

Não vejo ciclicalidade no gráfico, a tendência está lá. Vamos verificar a normalidade:

Na Cerveja Assada, não é nada normal. Verifique a ACF:

Há uma tendência e não há ciclicalidade - resultado diferente.

Se houver uma tendência, não há necessidade de fazer análises estatísticas. Vamos deter com o mesmo Hodrick:

O resíduo é o ruído branco. Veja os ciclos nele:


Claro que há uma onda, mas ela não é sólida e nada bonita em comparação com a sua. Eu acho que toda a diferença é dissuasiva. Sem a remoção de componentes detritos, é impossível fazer estatísticas.

 
Você está fazendo algo de seu próprio jeito. Sem nenhuma conexão com o que eu faço ))) Vamos começar com o fato de que trabalho com uma série de incrementos. Então, se você pegar os valores desta série modulo (i.e., valos e meros) e construir um autocorrelograma, eu aposto que você ganha uma boa ciclicidade com o período 24. Isto é logicamente mais próximo do meu negócio.
 
Ontem eu adicionei um extrato sobre teoria da informação a um artigo do Hubra. Pode ajudar na compreensão do processo de encontrar variáveis importantes.
 
alexeymosc:
Você está fazendo algo por conta própria. Sem relação alguma com o que estou fazendo ))) Comecemos pelo fato de trabalhar com uma série de incrementos. Então, se você pegar os valores desta série modulo (isto é, valores positivos e negativos) e construir um autocorrelograma, eu aposto que você terá uma boa ciclicidade com o período 24. Isto é logicamente mais próximo do meu negócio.

O que você disser. Calculo o incremento como a diferença de cada um dos sucessivos em relação ao anterior. Eu recebo um gráfico:

Para estes incrementos eu calculo ACF

Observe que a última coluna é a probabilidade de não haver correlação entre as barras.

Eu tomo o quadrado dos incrementos. Aqui está o gráfico:

Estes são os picos de volatilidade, o que a ciclicidade dos incrementos tem a ver com isso? Talvez a volatilidade cíclica? Isso também é interessante. Vamos verificar a ciclicidade do acreção:

Bem, aqui não há ciclicalidade, e note a última coluna - extremamente alta probabilidade de não haver correlação.

Duas outras figuras são interessantes. Vamos verificar a normalidade dos incrementos:

Note que, segundo Jarque-Bera, a probabilidade de normalidade é igual a zero!

Que tipo de distribuição é esta? Quem me dera que fosse normal. Sempre achei a idéia de trabalhar com incrementos derivados como a diferença do subseqüente ao anterior questionável.

Finalmente. Por alguma razão, não posso obter seu resultado.

 

faa1947, seus cálculos não têm nada a ver com o fluxo médio de informações de que o tópico inicial estava falando. Você está processando dados nos últimos 5 dias, enquanto o gráfico de Alexei é o resultado do processamento de dados sobre os relógios durante uma dúzia de anos. A de Alexei é uma estatística, enquanto a sua é um caso único e isolado que não prova nada no contexto da discussão.

A periodicidade mostrada pelo iniciador do tópico não tem nada diretamente relacionado à volatilidade ou retornos. Não é uma periodicidade de preços, mas uma in-forma-tsion-na-na-na. No eixo das abcissas é lag e no eixo das ordenadas é a média das informações mútuas em bits. E o autocorrelograma foi mencionado por Alexey para confundir a todos :) Não é a autocorrelação dos retornos! Não falamos sobre isso, porque essas dependências de informação são obviamente não lineares em sua maioria, e não podem ser detectadas pelos retornos da ACF.

Você já leu atentamente o artigo sobre hubra? Não tem nada a ver com sua amada estacionaridade, nem com a normalidade do fluxo de retorno, nem mesmo com a periodicidade condicional da volatilidade. Naturalmente, seria bom verificar a estacionaridade também aqui, mas seria de um tipo muito diferente, em termos de informação (se houver).

2 Avals: Receio não conseguir encontrar um histórico profundo de carrapatos para testar diretamente sua hipótese de volatilidade. Sim, e os cálculos aqui seriam completamente insanos em volume (eles já são bastante volumosos). Vamos julgar o que é encontrado por tentativas de previsão direta (se funcionar, é claro; há muitas, muitas armadilhas).

 
Mathemat:

A de Alexey é uma estatística, enquanto a sua é um caso único e isolado, o que não prova nada no contexto da discussão.

Quero apenas observar que quando o número de observações excede 30, as estatísticas t convergem para estatísticas z. É uma grande notícia para mim que 10.000 observações são necessariamente melhores que 1.000. Para revelar a periodicidade semanal dos dados horários - você precisa de várias semanas em horas. Mas isso não tem nada a ver com a questão.


A periodicidade mostrada pelo iniciador do tópico não tem nada a ver com volatilidade ou retornos. Não é uma periodicidade de preço, é uma periodicidade de formação na forma.

Muito mais importante é o valor metodológico da abordagem. É axiomático para mim que qualquer cálculo matemático deve ter uma interpretação econômica qualitativa. A periodicidade da informação é alguma fórmula que revela a periodicidade dos dados, que é inerentemente uma relação incremental. Voltando atrás devemos ser capazes de voltar às séries temporais originais, encontrar estes lugares e encontrar uma explicação econômica, ou seja, voltar aos preços é obrigatório, caso contrário, apenas mais uma esperteza matemática. É por isso que liguei este tópico a ciclos regulares.
 
Mathemat: Isto não é autocorrelação de retornos! Não estamos falando sobre isso de forma alguma, pois essas dependências de informação são obviamente não lineares em sua maioria e não são detectáveis pelos retornos da ACF.

Na verdade, os métodos usuais de estatísticas matemáticas foram aplicados no final do artigo.

Eu compenso meu mal-entendido e tomo a proporção dos preços vizinhos.

Gráfico da relação de preços:

Verificar a normalidade

Surpreendentemente, a normalidade é estritamente rejeitada.

Traçamos a ACF - são as dependências entre os desfasamentos + a ACF parcial que são limpas das dependências na ACF

Observe a última coluna - muito alta probabilidade de não haver dependências.

Tenho uma clara explicação econômica para estas fotos, bem suportada pelo gráfico de citações. Como é confirmado nas citações iniciais, qual é a justificação econômica? Sem respostas a estas perguntas, não consigo entender o significado de "dependência da informação".

 
A resposta mais fácil para você é. Você está usando a autocorrelação, ou seja, você só está procurando por dependências lineares. As informações mútuas indicam a presença de dependências arbitrárias, que é de onde vem toda a diferença. Além disso, experimentei amostras estatisticamente redundantes de milhares e dezenas de milhares de incrementos, e você levou uma semana. Essa semana pode ser qualquer coisa, é um caso especial. Não há nenhum significado em seus resultados.
 
faa1947: A periodicidade da informação é uma fórmula que revela a periodicidade dos dados que é inerentemente uma relação incremental.

Fundamentalmente errado. Não há nenhuma questão de periodicidade nos dados como uma relação incremental.

A dependência da informação é revelada, o que não tem que levar à periodicidade da relação de incrementos de forma alguma. Esse é o problema da Data Mining, ela torna possível identificar estruturas que não estão na superfície.

Voltando atrás devemos ser capazes de voltar às séries temporais originais, encontrar estes lugares e encontrar uma explicação econômica, ou seja, voltar aos preços é obrigatório, caso contrário, apenas mais uma esperteza matemática. É por isso que liguei este tópico a ciclos regulares.

Sim, eles deveriam, não estou discutindo. Não tem que haver uma explicação econômica. É suficiente voltar aos preços. Mas a ligação deste fenômeno com os ciclos normais está errada. Não sou tão cego a ponto de não notar a falta de uma periodicidade pronunciada na tabela.

Alexey já lhe falou sobre a diferença entre as dependências lineares e não lineares.

 
alexeymosc:
A resposta mais fácil para você. Você está usando a autocorrelação, ou seja, você está procurando exclusivamente dependências lineares. As informações mútuas indicam a presença de dependências de tipo arbitrário, daí toda a diferença. Além disso, experimentei amostras estatisticamente redundantes de milhares e dezenas de milhares de incrementos e você levou uma semana. Essa semana pode ser qualquer coisa, é um caso especial. Não há nenhum significado em seus resultados.

Além disso, eu estava fazendo experiências com amostras estatisticamente redundantes de milhares e dezenas de milhares de incrementos, e você levou uma semana. Essa semana pode ser qualquer coisa, é um caso especial. Não há nenhum significado em seus resultados.

Parece-me que aumentar o tamanho da amostra é de interesse apenas dentro do teorema limite da convergência de probabilidade com a lei normal. Quero decepcioná-lo que, se não estabelecermos tal objetivo, então simplesmente aumentar o tamanho da amostra não faz nada. Abaixo dou um aumento de amostra de 10 vezes.

O gráfico de incrementos como a relação entre o próximo preço e o anterior:

O quadrado deste gráfico:

O gráfico é um pouco semelhante ao seu. Eu tinha uma pergunta sobre a interpretação econômica deste gráfico, mas você não deu uma resposta


A seguir:


Se você comparar com uma amostra 10 vezes menor, nada mudou!



Algo novo aqui: a probabilidade de não haver relacionamento é zero.


As informações mútuas indicam a presença de dependências de tipo arbitrário, daí toda a diferença.

Eu também teria cuidado com a "linearidade" e a "não linearidade", porque esta questão pode e deve ser colocada no âmbito do modelo, pelo qual você se aproxima da série cronológica. Analisando os coeficientes deste modelo, pode-se concluir que estes coeficientes são: constantes (ou quase constantes), funções determinísticas ou funções estocásticas. Este é um processo perfeitamente concreto e construtivo de análise do tipo de dependências. E o que é construtivo para descobrir essa dependência de informações? E novamente, como você vê isso na série cronológica original?

Razão: