Estatísticas de dependência entre aspas (teoria da informação, correlação e outros métodos de seleção de características)

 

Boa tarde!

Decidi desenvolver ligeiramente o tópico abordado por Alexey (Mathemat) em um dos tópicos do fórum.

Tentei procurar por dependências nas cotações de um instrumento financeiro usando métodos estatísticos. Para começar, tomei o índice Dow Jones Industrial, dados diários, e transformei uma série de séries na série de incrementos percentuais.

O artigo está realmente aqui: http: //habrahabr.ru/blogs/data_mining/127394/

Gostaria de continuar para citações cambiais, publicarei os resultados aqui.

 

Bravo, Alexey, não esperava que você fosse o único a surpreender seu homônimo (perdoe-me pelo amor de Deus, mas ainda tenho uma idéia do nível médio de maturidade em nosso fórum).

Ainda bem que você está indo mais ou menos da mesma forma que eu, até a informação mútua I() e estimativa aproximada em centésimos de um pouco. É verdade, não usei o teste Kolmogorov-Smirnov. E eu não levei dias, mas horas (há mais dados e as conclusões são mais confiáveis). И... Eu discretizei os incrementos de uma maneira ligeiramente diferente.

É realmente um pouco íngreme para um hubr, eu acho. Eles são apenas pessoas de TI, embora muito inteligentes :) (Veja o comentário de Cher que obteve classificação +3, ou seja, máximo).

Tenho algumas perguntas para você - escreverei pessoalmente um pouco mais tarde. E aqui, por enquanto, vou observar: de repente alguém mais conhecedor surgirá...

 

Alexey, obrigado... Ainda bem que você apreciou, de fato, fiquei finalmente animado com a idéia depois de ler o resumo dos resultados de sua pesquisa.

Algumas especificidades da pesquisa poderiam ser alteradas, é claro. Eu mesmo tenho pensado há muito tempo em como discretizar melhor os valores, e parei em uma forma tão simples como o arredondamento.

E já fiz a análise para o EURUSD H1 também. Levou uma citação da Alpari por 10 anos (64500 barras). Aqui está:

E com flechas marquei os atrasos semanais: de alguma forma eles se destacam, em minha opinião.

E é assim que se parece a função de autocorrelação nesta série:

No total, você pode ver uma estrita ciclicidade de 24 horas. Isto também pode ser discutido.

A propósito, eu também arredondei os incrementos para 10 pontos (por causa disso, a entropia dos dados acabou sendo de cerca de 2,5 Bits). Além disso, eu não poderia arar mais variáveis, digamos no caso de mergulhar em um ano de história. O Excel pendura o computador apertado, engolindo 4GB de RAM. Não conseguia fazê-lo fisicamente, embora o pensamento estivesse certamente presente.

 

A propósito, o qui-quadrado dá aproximadamente o mesmo quadro: com um atraso crescente em algum lugar a cada 24 barras, há um pico decente de valor de critério.

P.S. Gostaria de enfatizar que aqui a ACF não é calculada por um número de retornos, mas pelo fluxo médio de informação, entregue por citações passadas à barra zero. Se tomarmos uma barra zero específica para os cálculos, o fluxo de informações para ela será calculado de forma diferente.

 
alexeymosc:

Pode-se concluir que nos dados financeiros naturais (pelo menos para o índice DJI) existem relações arbitrárias estatisticamente significativas entre os incrementos das cotações. Ou seja, tal série de dados não pode ser considerada aleatória. Teoricamente, há espaço para prever valores futuros de uma série desse tipo, por exemplo, usando redes neurais.

O fato de ter sido encontrada uma relação pode ser explicado pelo fato bem conhecido de que a volatilidade depende de valores anteriores. Você pode até vê-lo a olho nu pelo seu gráfico de incrementos. Há modelos teóricos que descrevem a dependência da volatilidade - como ARCH/GARCH.

É por isso que os ciclos de 24 horas são formados dentro de um dia - o boi no mercado de câmbio tem um comportamento cíclico estacionário:

Tem a ver simplesmente com os horários de abertura e fechamento de diferentes centros financeiros. A atividade comercial muda. Se você usar uma moeda como fonte de dados))), então ela começa a ser atirada com mais freqüência, depois com menos freqüência ao mesmo tempo.

Além disso, há um ciclo de volts semanal, mas é menos pronunciado do que para as bolsas de valores. Apenas um atraso de 5 em incrementos diários ;)

Portanto, não é um argumento para prever a direção das mudanças de cotação (que é o que nos interessa). A comparação deve ser feita com uma série aleatória gerada a partir da volatilidade real (por exemplo, volume do tick). Isto é, a dependência da dispersão na distribuição durante a geração. Caso contrário, muitos testes estatísticos determinam exatamente a dependência da volatilidade, não a variância dos incrementos.

 
alexeymosc:

Em geral, um ciclo rígido de 24 horas é visível. Isto também pode ser discutido.

O que há para discutir? Há muito tempo é um fato conhecido, a ciclicidade intradiária. Foi até apontado por pessoas que não entendem nada de matemática, mas que entendem o mercado. Além disso, há ciclicalidade mesmo dentro das sessões de negociação de pregões específicos. Não se aproxima do entendimento do que deve ser feito, por si só. Um pouco de borda pode ser extraído dele, no entanto.
 
Avals:

Caso contrário, muitos testes estatísticos determinam exatamente a dependência da volatilidade, em vez de correções de incrementos.


E isto é correto. Eu mesmo me dediquei a isso, só não coloquei aqui todos os meus pensamentos.
 
Mathemat:

A propósito, o qui-quadrado dá aproximadamente o mesmo quadro: com um atraso crescente observamos um pico decente de valor do critério em cada 24 barras.

P.S. Gostaria de enfatizar que aqui a ACF não é calculada por um número de retornos, mas pelo fluxo médio de informação, entregue por citações passadas à barra zero. Se tomarmos uma barra zero específica para os cálculos, o fluxo de informações para ela será calculado de forma diferente.


Sim, o histograma é calculado pelos valores de informação mútua e eu apenas o coloco para confirmar a idéia de ciclicidade.
 
HideYourRichess:
O que há para discutir? Há muito tempo é um fato conhecido, a ciclicidade intradiária. Foi até apontado por pessoas que não entendem nada de matemática, mas que entendem o mercado. Além disso, a ciclicidade existe mesmo dentro das sessões de negociação de pregões específicos. Não se aproxima do entendimento do que deve ser feito, por si só. Embora, um pouco de borda possa ser extraída dela.

Eu entendo isso. Devemos tomar o prazo de um dia ou mais.
 
alexeymosc:

Eu não entendo de onde vem esta beleza cíclica?

Aqui está o resultado para os últimos 100 dias.

Gráfico inicial:


Parece haver uma tendência no início, ou uma tendência lateral no conjunto. Vamos conferir com o Roast-Beer.

Parece ridículo, mas a probabilidade de que a distribuição seja normal é de 80%!

Vejamos a autocorrelação:



Onde está a ciclicidade? Não vejo isso, mas vejo a tendência. Enquanto houver uma tendência, todo raciocínio estatístico é irrelevante. Vamos fazer um alisamento Hodrick-Prescott. Resultado:


Por favor, observe a lambda antiteórica. Agora vamos olhar para o resíduo, que aqui é chamado de Ciclo:

O resíduo do alisamento HP é, bem, bastante normal!

Não há tendências. Talvez haja ciclicalidade (3 - 13,14), mas isto requer provas mais sérias.


 

Em primeiro lugar, a ciclicidade não está na tabela diária, mas na tabela horária! Escrevi lá, a propósito.

E para os gráficos diários o resultado não será cíclico, você está certo.

Razão: