Discussão do artigo "Abordagem econométrica para análise de gráficos" - página 7

[Excluído]  
faa1947:

Parabéns! Ótimo post, aborda muitas questões. Porém, alguns pontos podem ser criticados. Por exemplo, um deles - com base em que você decidiu que precisa remover os outliers? Eles não deveriam ser removidos.
 
-Alexey-:
Parabéns! Ótimo post, aborda muitas questões. Porém, alguns pontos podem ser criticados. Por exemplo, um deles - com base em que você decidiu que precisa remover os outliers? Você não pode removê-los.
Um outlier não é o mesmo que um outlier. É preciso dar uma olhada nas cotações. Se um outlier for relativamente raro, então você deve reduzi-lo a um limite (não excluí-lo). Se não for, não está claro o que fazer. Em princípio, os outliers distorcem muito as estatísticas. Qualquer pacote de estatísticas prevê essa possibilidade e fornece recomendações apropriadas.
[Excluído]  
faa1947:
Um outlier não é um outlier. É preciso dar uma olhada nas citações. Se um outlier for uma ocorrência relativamente rara, ele deverá ser cortado até o limite (não excluído). Se não for, não está claro o que fazer. Em princípio, os outliers distorcem muito as estatísticas. Qualquer pacote de estatísticas prevê essa possibilidade e fornece recomendações apropriadas.

Até onde sei, os outliers são removidos nas medições quando se sabe de antemão que os resultados são unidos por pelo menos alguma lei, ou seja, em outras palavras, quando o processo que gera o valor medido é não aleatório ou estacionário aleatório, e o outlier pode ser causado pela aleatoriedade (excedendo os limites da não aleatoriedade ou estacionariedade), e essa aleatoriedade, nesse caso, é uma distorção. Se estivermos lidando com uma série de preços, não estacionária, então a aleatoriedade de qualquer nível é uma parte da estatística (além da parte não aleatória, mas é difícil separá-las), e a remoção de uma parte da estatística, respectivamente, é uma distorção da estatística. Estou mais próximo da ideia de que, ao trabalhar com um processo aleatório não estacionário, não temos o direito de remover (cortar) algo. A propósito, você não respondeu qual acha que é o objetivo final, por exemplo, do corte. Os pacotes estatísticos provavelmente têm como objetivo trabalhar com séries estacionárias, e as recomendações para cortar valores anômalos são válidas nesse caso.

Se esse não for o caso, não está claro o que fazer.

O que você quer dizer com isso?
 
-Alexey-:

Até onde sei, os outliers são removidos ao fazer medições quando se sabe de antemão que os resultados são unidos por pelo menos alguma lei, ou seja, em outras palavras, quando o processo que gera o valor medido é não aleatório ou estacionário aleatório, e o outlier pode ser causado pela aleatoriedade (excedendo os limites da não aleatoriedade ou estacionariedade), e essa aleatoriedade, nesse caso, é uma distorção. Se estivermos lidando com uma série de preços, não estacionária, então a aleatoriedade de qualquer nível é uma parte da estatística (além da parte não aleatória, mas é difícil separá-las), e a remoção de uma parte da estatística, respectivamente, é uma distorção da estatística. Estou mais próximo da ideia de que, ao trabalhar com um processo aleatório não estacionário, não temos o direito de remover (cortar) algo. A propósito, você não respondeu qual acha que é o objetivo final, por exemplo, do corte. Os pacotes estatísticos provavelmente são destinados a trabalhar com séries estacionárias, e as recomendações para cortar valores anômalos nesse caso são válidas.

O que você quer dizer com isso?

Até mesmo o modelo ARIMA lida com séries não estacionárias, reduzindo-as a uma forma estacionária.

Parece-me que o problema de cortar cotações tem duas camadas: superficial e profunda.

Na superfície, há problemas, por exemplo, de derrubar stops, que não têm nada a ver com a não estacionariedade do mercado.

O problema mais profundo da aplicação de estatísticas matemáticas e econometria é que tanto os dados iniciais quanto os resultados intermediários e as conclusões precisam ser verificados por métodos intuitivos extra-matemáticos. A escolha do limite de corte (2, 3, 4 sigma ou outro) só é possível após a visualização do gráfico e refere-se ao problema de escolha dos intervalos de confiança. O maior problema da aplicação da estatística matemática é que sua aplicação não é concebível sem a arte do próprio estatístico. Ninguém formulará a regra "corte - não corte". Se você cortar, removerá a característica de não estacionariedade; se não cortar, distorcerá a verdadeira distribuição da população geral por meio de uma amostragem malsucedida.

O cerne da econometria é o teste de hipóteses, em que é possível cometer erros do primeiro e do segundo tipo: rejeitar a hipótese nula correta em favor da hipótese alternativa incorreta e rejeitar a hipótese alternativa correta em favor da hipótese nula incorreta.

Considerando o exposto acima, posso concordar e discordar de você ao mesmo tempo. É impossível responder à sua pergunta de forma inequívoca sem considerar uma amostra específica com antecedência.

[Excluído]  

Даже модель ARIMA работает с нестационарными рядами путем приведения их к стационарному виду.

E mesmo depois disso, as ordens do modelo podem mudar com o tempo. Conclusão - uma série de dados não estacionária foi ajustada a um modelo (método) projetado para trabalhar com uma série estacionária em algum momento. Sendo assim, é necessário investigar, de alguma forma, com que frequência fazer a busca e por quanto tempo ela funciona. Sem isso, como usar um modelo inadequado?

não cortou - distorceu a verdadeira distribuição da população geral pela amostra que falhou

Nesse ponto, acho que o raciocínio está errado. Uma série não estacionária não tem população geral, caso contrário, é uma série estacionária. E, como é, não há uma distribuição verdadeira.

Sobre o knockdown - como você sabe se foi ou não? É claro que, se você analisar os dados de vários DCs, perto de níveis fortes, até mesmo redondos, e vir que alguns deles derrubaram o stop (para o qual você precisa introduzir um critério), então concordo com você, parece haver alguns motivos quase objetivos para o corte. Mas estabelecer isso é um trabalho completo, uma grande pesquisa.

O problema mais profundo da aplicação da estatística matemática e da econometria é que tanto os dados iniciais quanto os resultados intermediários e as conclusões precisam ser verificados por métodos intuitivos extra-matemáticos. A escolha do limite de corte (2, 3, 4 sigma ou outro) só é possível após a visualização do gráfico e refere-se ao problema de escolha dos intervalos de confiança. O maior problema com a aplicação da estatística matemática é que sua aplicação não é concebível sem a arte do próprio estatístico.

Não é assim que eu a chamaria. A arte, ou talvez apenas o grau de treinamento do estatístico, é determinada pela maneira como ele é capaz de estimar os limites de aplicabilidade dos métodos orientados para trabalhar com uma série estacionária em relação a uma série não estacionária. Mas não intuitivamente para estimar, mas ainda quantitativamente (numericamente).
 
-Alexey-:

E mesmo depois disso, as ordens do modelo podem mudar com o tempo. Conclusão - uma série de dados não estacionária foi ajustada a um modelo (método) projetado para trabalhar com uma série estacionária, em algum local.

Raciocínio padrão em TA: a série não estacionária é uma soma de seções estacionárias com características diferentes. Se pegarmos a caixa de ferramentas do Matlab, essa questão não é considerada de forma alguma: considera-se que a BP tem várias diferenças em relação à distribuição normal e, então, lutamos com esses desvios. Nem todos eles são tratados.

Como esse é o caso, é necessário investigar, de alguma forma, com que frequência fazer a perseguição e por quanto tempo ela funciona. Sem isso, como usar um modelo inadequado?

Esse problema não existe. Há dois tipos de previsão: um passo à frente (para o próximo candle) e muitos passos à frente.

Nesse ponto, acho que o raciocínio está errado. Uma série não estacionária não tem uma população geral, caso contrário, ela já é uma série estacionária. E, como é, não há uma distribuição verdadeira.

Em princípio, eu discordo. A estacionariedade é uma característica da série, não o tamanho da população.

Sobre derrubar um stop - como você sabe se foi ou não? É claro que, se você analisar os dados de vários DCs, perto de níveis fortes, até mesmo redondos, e vir que alguns deles estouraram o stop (para o qual você precisa introduzir um critério), então concordo com você, aparecem algumas bases quase objetivas para o corte. Mas, para estabelecer isso, é necessário um trabalho completo, muita pesquisa.

Derrubar uma parada é apenas um exemplo. Ao revisar as cotações, temos que decidir o que vamos considerar como cotações e o que será descartado por motivos desconhecidos para nós.

Não é assim que eu chamaria isso. A arte, ou talvez apenas o grau de treinamento de um estatístico, é determinada pela sua capacidade de estimar os limites de aplicabilidade dos métodos orientados para trabalhar com uma série estacionária em relação a uma série não estacionária. Mas não intuitivamente para estimar, mas ainda quantitativamente (numericamente).

Eu discordo. É impossível chegar a uma série completamente estacionária. É daí que vêm os erros na definição das hipóteses.


[Excluído]  
faa1947:

Raciocínio padrão em TA: uma série não estacionária é a soma de seções estacionárias com características diferentes.

Há alguma base para esse raciocínio? Afinal, a série obtida pela soma mencionada pode ser obtida sem ela - por acaso, e pode ser obtida por outra soma de outros segmentos com outras leis. E já que é assim, então como ser (o que é verdade)?

Se usarmos a caixa de ferramentas do Matlab, essa questão não é considerada de forma alguma: considera-se que a PA tem algumas diferenças em relação à distribuição normal e que é preciso lidar com esses desvios.

Com base em que isso é considerado?

Não existe essa questão. Há dois tipos de previsão: um passo à frente (para a próxima vela) e muitos passos à frente.

O que isso tem a ver com o fato de que um modelo com parâmetros diferentes pode ser mais ideal nas próximas etapas?

Em princípio, eu discordo. A estacionariedade é uma característica da série, não do tamanho da população.

Isso não está claro - você pode descrever com mais detalhes o que quer dizer? Uma distribuição verdadeira caracteriza as propriedades de uma série, mas uma distribuição não estacionária é, por definição, aquela em que elas mudam. Portanto, não existe uma verdadeira que pertença à população em geral. A N.R. tem apenas uma verdadeira, em um determinado momento e para um número finito de candlesticks.

Derrubar um stop é apenas um exemplo. Ao analisarmos as cotações, precisamos decidir o que consideraremos como cotações e o que será descartado por motivos desconhecidos para nós.

E com que base você pode decidir algo se as razões são desconhecidas?

Eu discordo. É completamente impossível reduzir a uma série estacionária, daí os erros na definição de hipóteses.

Agora eu discordo em princípio. Com o próprio texto. Como uma série cujas características mudam aleatoriamente pode se tornar estacionária? Ou seja, essa abordagem não está fundamentada em nada, portanto, de que hipóteses podemos falar?
 
-Alexey-:

Há alguma base para esse raciocínio? Afinal de contas, a série obtida pela soma mencionada pode ser obtida sem ela - por acaso, e pode ser obtida por outra soma de outras parcelas com outras leis. E já que esse é o caso - qual é o caso (que é verdadeiro)?

Em minha postagem, argumentei que não há base para isso. no TA, simplesmente não há outra maneira.

Com base em que isso é considerado o caso?

Não é minha opinião - é nisso que toda a estatística matemática se baseia.

O que isso tem a ver com o fato de que um modelo com parâmetros diferentes pode ser mais ideal nas próximas etapas?

Não existe algo como "ótimo". Ou há um ajuste com algum nível de confiança ou não há. Existe um ajuste - existe uma previsão

Isso não está claro - você pode descrever com mais detalhes o que quer dizer?

O número de SVs no BP não está envolvido na determinação da estacionariedade.

E com base em que algo pode ser decidido se as causas são desconhecidas?

Esse é o padrão para processos aleatórios. Se as causas forem conhecidas, então é mais provável que seja um processo determinístico.

Agora eu discordo em princípio. Com o próprio texto. Como uma série cujas características mudam aleatoriamente pode se tornar estacionária? Ou seja, essa abordagem não está fundamentada em nada, de que hipóteses podemos falar?

GARCH é um modelo com volatilidade variável, por exemplo.

Temos uma discussão entre duas pessoas e ela se tornou muito abstrata. Nem mesmo o topkstarter está participando. Eu gostaria de ter alguma consistência na discussão e no desenvolvimento do artigo em discussão. Por exemplo, na primeira etapa, em um exemplo concreto, considerar em detalhes a análise preliminar dos dados e sua preparação para a modelagem. Por exemplo:

1. justificativa do tamanho da amostra.

2. justificativa da necessidade de transformação dos dados.

3. Escolha de como transformar os dados:

- Lidar com outliers e dados ausentes.

- Transformação de dados - remoção de tendências, ciclicidade

4. determinação dos tipos de tendências e sua contabilização

5. Ajuste da distribuição aos dados transformados.

6. Análise da estacionariedade dos dados transformados.

7. Contabilização da heterocedasticidade

Isso é suficiente por enquanto. Outro plano é perfeitamente admissível. Eu gostaria de organizar uma apresentação sistemática do problema de preparar o quociente para a modelagem descrita no artigo em discussão.
 

O Topikstarter[herringbones, ainda não foi chamado assim] está em uma pequena crise criativa :-))))

Mas ele está acompanhando a discussão....

Ele é grato a faa1947 por fazer comentários construtivos...

-Alexey, eu recomendaria que você estudasse a matriz...

Considerarei todos os comentários e, posteriormente, apresentarei meus contra-argumentos e argumentos...

[Excluído]  
denkir:


-Alexey, eu recomendaria que você estudasse a matriz ....

Quais seções você pode recomendar? Para cada uma de minhas afirmações (inclusive questionamentos), posso fornecer um link para a matriz.

P.S. E com qual momento a crise criativa está relacionada, se não for um segredo? :)