Matstat Econometria Matan

Roman  

Fórum sobre comércio, sistemas automatizados de comércio e testes de estratégia comercial

Da teoria à prática. Parte 2

Aleksey Nikolayev, 2021.05.05 22:38

Grosseiramente falando, a mistura enfraquece a dependência mas não a elimina completamente.
Na realidade, a dependência probabilística é a parte mais importante do teorema em termos de aplicações práticas.
Quando assisti a um curso de teorismo no youtube no MIT para engenheiros, foi tudo sobre isso.


Refere-se ao coeficiente de determinação r2 ?
Ou algo mais por dependência de probabilidades?

Tenho em conta r2 em tempo real, para estimar a "força de influência" da variável x em y
surpreendentemente, em algumas séries monetárias, ela mantém-se de forma bastante consistente em valores elevados

r2

Dmitry Fedoseev  
Não será a probabilidade simplesmente insuficiente? Se esta é a teoria da probabilidade...
Roman  
Dmitry Fedoseev:
Não será apenas a probabilidade insuficiente? Se é teoria da probabilidade...

Queria esclarecer que critério de avaliação se pretendia neste contexto.
Se a correlação convencional, então com r2 eles têm uma diferença no cálculo, estimativas correspondentemente diferentes.
Nas estatísticas, geralmente recomendam a utilização de r2 como mais fiável.

r

e literalmente dez minutos mais tarde

rr

Aleksey Nikolayev  
Roman:

Refere-se ao coeficiente de determinação r2 ?
Ou quer dizer algo mais por dependência de probabilidades?

A dependência provável (estocástica) é um dos conceitos mais importantes na teorização e matstat. O conceito é definido (via probabilidade condicional) primeiro para eventos aleatórios, e depois transferido para variáveis aleatórias, sob a forma de uma distribuição condicional. A dependência é a não-conformidade da distribuição condicional com a distribuição incondicional, enquanto a independência é a sua coincidência. Uma explicação popular para a dependência é - Saber qual o valor que um c.c. obteve transporta informação sobre o valor do outro c.c. A dependência situa-se entre os seus dois estados extremos - independência e ligação funcional rígida.

O sentido geral é que começamos sempre com uma distribuição conjunta de variáveis aleatórias, com base na qual todo o tipo de métricas de dependência específicas são construídas. Estas podem ser cópulas, entropia mútua, correlação, etc.

Correlação, R2, etc. só são razoavelmente aplicáveis quando a distribuição conjunta é multivariada normal. Na prática, são também aplicadas (devido à simplicidade) quando a normalidade não é certa, mas então a sua utilidade é apenas determinada pela experiência.

Roman  
Aleksey Nikolayev:

Probabilidade (estocasticidade) é um dos conceitos mais importantes na teorização e matstat. O conceito é definido (através da probabilidade condicional) primeiro para eventos aleatórios, e depois transferido para variáveis aleatórias, sob a forma de uma distribuição condicional. A dependência é a não-conformidade da distribuição condicional com a distribuição incondicional, enquanto a independência é a sua coincidência. Uma explicação popular para a dependência é - Saber qual o valor que um c.c. obteve transporta informação sobre o valor do outro c.c. A dependência situa-se entre os seus dois estados extremos - independência e ligação funcional rígida.

O sentido geral é que começamos sempre com uma distribuição conjunta de variáveis aleatórias, com base na qual todo o tipo de métricas de dependência específicas são construídas. Estas podem ser cópulas, entropia mútua, correlação, etc.

Correlação, R2, etc. só são razoavelmente aplicáveis quando a distribuição conjunta é multivariada normal. Na prática, são também aplicadas (devido à simplicidade) quando não há certeza de normalidade, mas depois a sua utilidade é apenas determinada pela experiência.

Ah isto é uma distribuição complicada, esqueço-me sempre disto ))
Então todos os modelos estatísticos exigem este critério?
E como não há normalidade nas séries de preços, assim começa a tortura de preparar os dados,
de modo a aproximá-los de uma distribuição normal, sem perder as propriedades originais.

A partir daí segue-se o problema de como preparar estes dados.
A padronização, cúspide, derivação, etc., como eu entendo, não conduz a resultados de qualidade.
Por isso, começam a emagrecer ou algo parecido. Que métodos existem em geral?

Assim, mais uma vez chego à conclusão de que a preparação de dados qualitativos para modelos estatísticos é um enorme tópico de estudo.
Procurei por tutoriais sobre este tópico, mas não encontrei nada, bigdata, MO, neuronka estão em todo o lado, mas como preparar dados qualitativos para eles, por alguma razão não é revelado.

Roman  

Não consigo compreender a seguinte anomalia, porque é que isto acontece.
Calculei um modelo ortogonal, que é suposto ser melhor do que o MNC.
Tenho os coeficientes de partida.
Depois, os parâmetros do modelo (coeficientes) são ajustados por algoritmo mediano, ou seja, uma espécie de robustez contra outliers.
O modelo descreve qualitativamente a série inicial.

Em azul - série original.
O cinzento é o modelo.

p1

Mas numa das secções da história, observo uma divergência que converge ainda mais para a exacta como na imagem de ecrã acima

p2


Não consigo ver a verdade, porque é que isso acontece? O que contribui para isso?
Os coeficientes são recalculados em cada passo e devem caber (x) a (y)
É um erro de ajuste? Compreendo que pode haver um erro em uma ou duas ou mesmo três etapas de cálculo,
mas parece estranho que o erro deva durar tanto tempo. Talvez não seja um erro de ajuste? Será algo mais?

Aleksey Nikolayev  
Roman:

Não consigo compreender a seguinte anomalia, porque é que isto acontece.
Calculei um modelo ortogonal, que é suposto ser melhor do que o MNC.
Tenho os coeficientes de partida.
Depois, os parâmetros do modelo (coeficientes) são ajustados por algoritmo mediano, ou seja, uma espécie de robustez contra outliers.
O modelo descreve qualitativamente a série inicial.

Em azul - série original.
O cinzento é o modelo.



Mas numa das secções da história, observo uma divergência que converge ainda mais para a exacta como na imagem de ecrã acima


Não consigo ver a verdade, porque é que isso acontece? E o que contribui para isso?
Os coeficientes são recalculados em cada passo e devem caber (x) a (y)
É um erro de ajuste? Compreendo que pode haver um erro em uma ou duas ou mesmo três etapas de cálculo,
mas parece estranho que o erro deva durar tanto tempo. Talvez não seja um erro de ajuste? Será algo mais?

Só posso aconselhar a encontrar algum pacote estatístico que implemente o vosso modelo (ou similar a ele) e ver como se comporta com os vossos dados. Isto pode ajudá-lo a compreender se o problema é um modelo defeituoso ou um erro de implementação.

secret  
Roman:

Como não há normalidade na série de preços, a tarefa tortuosa de preparar os dados,
, é de alguma forma aproximar-se de uma distribuição normal sem perder as propriedades originais.

Os incrementos logarítmicos não funcionariam?
Roman  
Aleksey Nikolayev:

Tudo o que posso sugerir é que encontre um pacote estatístico que implemente o seu modelo (ou um semelhante) e veja como se comporta com os seus dados. Pode ajudar a compreender se o problema é um modelo defeituoso ou um erro de implementação.

Obrigado pela ideia, não me apercebi disso.

Roman  
secret:
Logaritmizar os incrementos não vai funcionar?

Sim, é basicamente isso que estou a fazer como uma opção mais ou menos boa.
Noutro modelo semelhante, também observo por vezes pequenas divergências, como a divergência.
Mas não tão prolongado como na imagem acima, mas bastante efémero. Fez-me pensar porque é que isso acontece dessa forma.
Experimentei este modelo e vi uma divergência ainda mais prolongada.

Por isso, não compreendo de onde vem esta divergência. Não é um modelo correcto ou dados de baixa qualidade de fonte.
Não compreendo a lógica das acções.
Ou devo ajustar os dados iniciais aproximadamente ao normal,
, ou devo escavar modelos diferentes.
Mas tente escrever primeiro este modelo, não é tão fácil de verificar e deitá-lo fora ))

Razão: