Estatísticas de dependência entre aspas (teoria da informação, correlação e outros métodos de seleção de características) - página 11

 
HideYourRichess:

O conceito de entropia da informação foi introduzido por Shannon para símbolos independentes. Se você não acredita em mim, consulte um dicionário acadêmico. Não discutirei mais com você sobre este assunto. Você não pode calcular a entropia das informações para o mercado porque não conhece o alfabeto, não sabe a freqüência dos símbolos, e a independência dos símbolos também é desconhecida.

A próxima questão, a entropia condicional, é apenas o caso quando existem dependências entre o alfabeto original. Isto não é a mesma coisa que a entropia de informação discutida.

Não entendo que conclusões você tira do exemplo do arquivador, mas vou dizer o seguinte. A tarefa do arquivador é traduzir a entropia condicional em entropia informativa. Ou seja, para criar um alfabeto limitado perfeitamente definido, os caracteres dos quais, na seqüência resultante, seriam tão independentes quanto possível. Se você misturar a estrutura ordenada de um texto literário no nível da letra, é claro que essas seqüências de letras seriam quebradas e a compressão se deterioraria. Na medida em que um conjunto completamente aleatório de cartas não pode mais ser comprimido.


Acho sua formulação da pergunta paradoxal no início. Se obtivermos um valor diferente de 0 como resultado do cálculo de informações mútuas, então tomamos um alfabeto com dependências. Se estudarmos valores independentes, então a informação mútua será sempre 0 (ou muito próxima a esse valor).
 
A entropia mútua não é a mesma que a entropia convencional e não é a mesma que a entropia informativa.
 
TheXpert: Quais são os números que não estão em ordem alfabética?

Alfabeto - mas não um sistema numérico.

Escolha do alfabeto.

OK, que assim seja. Eu construí o alfabeto desta maneira:

Eu encontro a distribuição incondicional de retornos ao longo de toda a história (EURUSD, H1, cerca de 10 anos). O histograma é mais ou menos conhecido. É uma curva parecida com um sino gaussiano mas com diferenças próximas de zero e nas partes traseiras. Eu não vou desenhá-lo aqui.

Então eu escolho em quantas quantidades vou dividir a distribuição. Digamos, até 30. Este será o alfabeto. Aqui está:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0.000),2166
15: [0,000; 10,000),2166
16: [10,000; 20,000),2167
17: [20,000; 24,000),2166
18: [24,000; 30,000),2166
19: [30,000; 40,000),2166
20: [40,000; 50,000),2167
21: [50,000; 62,000),2166
22: [62,000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

Explicação: primeiro há o número de quantil (de 0 a 29). Depois vem o meio-intervalo que caracteriza os limites do quantil em pips de cinco dígitos. Por exemplo, o quantil 22 corresponde a um retorno positivo de 62 a 80 pips. E o último número é o número de valores que estão dentro desse quantil (para controlar a exatidão da divisão em quantis).

Sim, não é muito bonito para grandes retornos, pois na realidade os retornos podem chegar a cerca de 3000 novos pontos. Bem, esses são rabos gordos, não há como evitar...

Este alfabeto foi conveniente para mim especificamente ao calcular o critério do qui-quadrado. Era conveniente porque mesmo para desvios muito sérios da independência, a freqüência mínima de batidas conjuntas não era inferior a 5 (esta é uma condição para a correção do qui-quadrado). Talvez uma escolha diferente do alfabeto fosse melhor.

E em geral, digamos, com um número de quantitativos de 50, os limites internos dos quantitativos mais externos são empurrados de volta para cerca de 380 novos pontos (ao invés dos 300 anteriores). Isto é melhor, mas ainda não é grande.

 
Mathemat:

Então eu escolho em quantas quantidades quero dividir a distribuição. Digamos 30. Este será o alfabeto. Isso é o que é:

Se você não se importa, poderia me dizer como analisar os dados usando o alfabeto? Estou atualmente lutando com um problema semelhante, até agora estou analisando-o usando NS em Matlab.

Existe alguma forma de analisar os dados apresentados como alfabeto à parte do NS?

 
Mathemat:

É bastante realista. Não notei nenhum limite, mas é possível fazer somas e logaritmos na MQL4. Eu não sei o que Sergeev fez. Mas, tanto quanto sei de outras fontes, a parte mais difícil dos cálculos foi calcular a função gama. A TI estava fora de questão.


As pessoas escreveram o indicador de acordo com o artigo de Y.Sultonov "Modelo de regressão universal para previsão de preços de mercado" - aqui em Kodobase.

Existem construções similares usadas? Ou não?

 
HideYourRichess:
A entropia mútua não é a mesma que a entropia convencional e não é a mesma que a entropia da informação.

Você está se afastando da pergunta. Qual é a finalidade da aplicação de estatísticas de informação mútua se exigimos que o sistema seja independente de valores aleatórios? As informações mútuas serão zero nesse caso. Está escrito em todos os lugares.

Direi também que a introdução do conceito de entropia no TC foi típica da escola soviética. Os americanos dão a seguinte fórmula clássica de cálculo de informações mútuas:

Ou seja, não há aqui nenhuma entropia como conceito.

 
HideYourRichess: Shannon introduziu o conceito de entropia da informação para símbolos independentes. Se você não acredita em mim, consulte um dicionário acadêmico.

Encontrei um artigo sobre entropia da informação (Wiki). Citação 1 a partir daí:

Entropia é a quantidade de informação por mensagem elementar de uma fonte que produz mensagens estatisticamente independentes.

É entropia, entropia regular. É essa a definição de que você está falando?

Sim, estou disposto a concordar que as letras do alfabeto devem ser estatisticamente independentes para que não haja redundância ou dependências. Isto é aproximadamente o que o arquivador está fazendo, criando um alfabeto que é claramente diferente do alfabeto usado para criar o texto.

Mas não é isso que estamos contando! O que estamos contando é o seguinte.

Além disso, você já recebeu a citação 2 do mesmo lugar:
Entropia condicional

Se uma seqüência de símbolos alfabéticos não é independente (por exemplo, em francês"q" é quase sempre seguido por "u", e a palavra "vanguarda" nos jornais soviéticos era geralmente seguida por "produção" ou "trabalho"), a quantidade de informação, que uma seqüência de tais símbolos carrega (e conseqüentemente, entropia), é obviamente menor. A entropia condicional é usada para contabilizar tais fatos.

Isto é diferente, e você já escreveu sobre isso:

HideYourRichess : A próxima pergunta, entropia condicional, é exatamente o caso quando existem dependências entre os caracteres do alfabeto original. Esta coisa não é a mesma que a entropia de informação em questão.

O discurso do iniciante do tópico (e o meu também) não foi sobre entropia informativa, mas, caramba, informação mútua (Wiki novamente)!!!

Ainformação mútua é uma função estatística de duas variáveis aleatórias que descreve a quantidade de informação contida em uma variável aleatória em relação à outra.

A informação mútua é definida através da entropia e entropia condicional de duas variáveis aleatórias como [a seguir vem a fórmula para I(X,Y)

Agora para seu último argumento:

HideYourRichess : A tarefa do arquivador é traduzir a entropia condicional em entropia de informação. Ou seja, para criar um alfabeto delimitado perfeitamente definido, os caracteres dos quais, na seqüência resultante, seriam tão independentes quanto possível. Se você misturar a estrutura ordenada de um texto literário no nível da letra, é claro que essas seqüências de letras seriam quebradas e a compressão se deterioraria. Na medida em que um conjunto completamente aleatório de cartas não pode mais ser comprimido. E daí? O que isso tem a ver com o bazar?

O argumento é que não se trata do que você chama de entropia da informação, mas de informação mútua. É isso aí. Parada completa. O argumento está encerrado.

 
IgorM:

Se você não se importa, poderia me dizer como analisar os dados usando o alfabeto? Estou atualmente lutando com um problema semelhante, até agora estou analisando-o usando NS em Matlab.

Existem outras formas de analisar os dados representados sob a forma de alfabeto além do NS?

Para ser honesto, eu não entendo realmente sua pergunta. Basta atribuir um número seqüencial a cada caractere do alfabeto - e depois analisar os números como de costume. Talvez haja algo específico, mas eu não estou ciente disso.

Roman: As pessoas escreveram o indicador de acordo com o artigo do Sultonov "The Universal Regression Model for Market Price Forecasting" - aqui em kodobase.

Existem algumas construções similares usadas? Ou não?

Não há nem mesmo uma pitada de terver/statistics ou teoria da informação lá! Yusuf postou seu posto neste tópico, mas acabou sendo uma reflexão posterior, pois não tem nada a ver com o tópico de discussão. Embora... sim, os logaritmos pareciam estar lá...
 
Mathemat:

Não há nem mesmo uma pitada de terver/statistics ou teoria da informação lá! Embora... sim, havia logaritmos, eu acho...

Só estou dizendo que as curvas e os rabiscos aqui e aqui me parecem muito parecidos... :-))), incluindo a presença de uma distribuição gama, portanto as abordagens para a solução devem ser SIGNIFICAMENTE semelhantes.

Isso é possível, pelo menos CONSTANTIVAMENTE?

 

A questão é que a função de distribuição gama aparece no artigo como se estivesse fora do ar, supostamente resolvendo um movimento determinístico de difúria - mas não como resultado de uma análise estatística ou terversiva. Roman, até agora não vejo nenhuma semelhança nas abordagens da solução - mesmo convencionalmente.

Mas se você olhar com atenção, alguma semelhança ainda pode ser encontrada - digamos, na palavra "distribuição", que também é encontrada no artigo de Yusuf:)

Razão: