Discussão do artigo "Abordagem econométrica para análise de gráficos" - página 10

 
denkir:

Entendo, eu uso o conceito de "classe" ou "intervalo" para isso.

faa1947, em sua figura, vejo que a distribuição não é unimodal. Esse é outro problema.

Então, o número de classes (racks) também é calculado por alguma fórmula, regras... As mais famosas são:

A fórmula de Sturges, a regra de Freedman-Diaconis, a regra de Scott, a escolha da raiz quadrada etc.

Veja minha postagem acima -Alexey. Ainda assim, você deve começar com o tamanho da amostra, que é determinado pelo objetivo da previsão para o TS. Ou seja: o comprimento da amostra é suficiente para responder à pergunta: é possível entrar em uma pose (sair de uma pose) ou não? Muito provavelmente, o tamanho da amostra não será significativo (até cem) e distribuições fantásticas como a acima desaparecerão.
 
-Alexey-:

denkir :

Acho que você pode. Eles não devem afetar os parâmetros estatísticos da amostra de forma alguma (em particular, os parâmetros de distribuição). É por isso que eles são discrepantes.

Qual é a base para a afirmação acima? (A propósito, esse não é o motivo pelo qual eles são removidos, embora afetem os parâmetros).

Com base no fato de que o tamanho da amostra é grande o suficiente para não ser afetado por outliers. Esse é um dos motivos pelos quais sou a favor de um tamanho de amostra grande. Em seguida, o colega faa1947 disse, se não me engano, que outliers não são a mesma coisa que outliers. É claro que se você tiver, por exemplo, a taxa eurusd flutuando na amostra dentro do intervalo de US$ 1,20 a US$ 1,50 e, em seguida, houver algum erro no servidor que retorne o valor de US$ 15,77, esse valor atípico bagunçará todos os parâmetros estatísticos da amostra.


-Alexey-:

Uma distribuição verdadeira caracteriza as propriedades de uma série, mas uma distribuição não estacionária é, por definição, aquela em que elas mudam.

Mas diga-me, qual é a conexão entre a distribuição verdadeira e a estacionariedade? Confesso que não conheço essa conexão. De onde você a tirou, se não for um segredo? ;-)


 
faa1947:
См. мой пост выше -Alexey. Все-таки надо начинать с длины выборка, которая определяется целью прогноза для ТС. Т.е.: достаточна ли длина выборки для ответа на вопрос: можно входить  в позу (выходить из позы) или нельзя? Скорее всего длина выборки будет не значительной (до сотни) и исчезнут фантастические распределения, подобные выше приведенному.

O problema é o seguinte. Ao reduzir o tamanho da amostra, podemos perder um fenômeno como o agrupamento da volatilidade. Então, não faz sentido usar um modelo não linear. Portanto, podemos usar um modelo linear. E isso não reflete a natureza da série financeira, sua derivada (não confundir com a derivada na análise matricial).

E quais são esses dados com base nos quais você obteve a distribuição bimodal? Você poderia carregar um arquivo com os dados?

 
denkir:

O problema é o seguinte. Ao reduzir o tamanho da amostra, podemos perder um fenômeno como o agrupamento da volatilidade. Então, não faz sentido usar um modelo não linear. Portanto, podemos usar um modelo linear. E isso não reflete a natureza da série financeira, sua derivada (não confundir com a derivada na análise matricial).

Se adotarmos a abordagem sistêmica, devemos dançar a partir da meta: entrada/saída para a pose. Qual será o quociente no resíduo seco? Se pegarmos uma amostra limitada, não é necessário ter volatilidade ou não-estacionariedade, não é mesmo? O modelo precisa ser escolhido. O ARMA (nem mesmo o ARIMA) é amplamente utilizado. Não temos o objetivo de aplicar um determinado modelo. O objetivo é obter uma previsão com um nível razoável de limites de confiança. É interessante apenas calcular a previsão para, por exemplo, 100, 500, 1.000 candlesticks. Talvez vejamos algo.

E quais são esses dados com base nos quais você obteve uma distribuição bimodal? Você poderia carregar um arquivo com os dados?

EURUSD D1 de 1999/01/04 a 2011/01/13, 3063 candlesticks retirados do terminal.

[Excluído]  
denkir:

Com base no fato de que a amostra é grande o suficiente para não reagir a valores discrepantes. Esse é um dos motivos pelos quais sou a favor de um tamanho de amostra grande. Em seguida, meu colega faa1947 disse, se não me engano, que um outlier não é o mesmo que um outlier. É claro que se, por exemplo, a taxa do eurusd flutuou na amostra dentro do intervalo de US$ 1,20 a US$ 1,50 e, em seguida, houve algum erro no servidor que retornou o valor de US$ 15,77, então esse outlier bagunçará todos os parâmetros estatísticos da amostra.


Mas me diga, qual é a conexão entre a distribuição verdadeira e a estacionariedade? Confesso que nunca vi essa relação. De onde você tirou isso, se não for segredo? ;-)


Respondi a você na última página com uma citação do livro-texto. Se não estiver claro, explicarei com mais detalhes:

O conceito de uma população geral é, em certo sentido, semelhante ao conceito de uma variável aleatória (lei de distribuição de probabilidade, espaço de probabilidade), porque é completamente condicionado por um determinado conjunto de condições.

Um determinado conjunto de condições gera um processo estacionário. Se ele for indefinido, não haverá população geral nem distribuição verdadeira, respectivamente. A lógica é mais ou menos assim. Embora, é claro, eu possa estar errado.

De acordo com sua resposta, a resposta está errada. A propósito, eu esperava ver uma referência à matriz com base na qual você fez a afirmação acima. Se não a tiver (ou seja, se não souber por que os outliers são removidos e como eles afetam a distribuição), recomendo que você, como fez comigo anteriormente, aprenda o material. Tudo fica claro com os outliers grandes, e você está certo ao observar que deve haver uma verificação para eles (essa verificação pode detectar uma lacuna nas citações), mas a questão não é sobre eles, mas sobre 3-4-5 sigma. Também é interessante que, mesmo sem tocar na questão de se eles devem ser removidos ou não, a metodologia de sua remoção (pelo menos de acordo com o livro mencionado acima, embora ele não diga tudo) é um trabalho muito grande e longo, na minha opinião, e bastante complicado.

 
-Alexey-:

Um determinado conjunto de condições gera um processo estacionário. Se for incerto, não há uma população geral e, portanto, não há uma distribuição verdadeira. A lógica é mais ou menos assim. Embora, é claro, eu possa estar errado.

De acordo com a Wikipedia: a população geral é o conjunto de valores que um pesquisador selecionou para análise. Um pesquisador pode fazer uma amostragem da população geral por qualquer regra, incluindo algo tão duvidoso quanto a "estacionariedade". É normal quando uma regra é selecionada fora dos conceitos de estatística, por exemplo, "todas as transações de compra de euros por rublos". As transações são geradas por algum processo econômico que conhecemos apenas aproximadamente, não sabemos o número de transações. Essas duas circunstâncias nos fazem considerar a não-estacionariedade como a principal característica das cotações de moeda, e todo o restante são seus sinais.

Tudo fica claro com os grandes outliers, e você observou corretamente que deve haver uma verificação para eles (essa verificação pode detectar uma lacuna nas cotações), mas o discurso (e a pergunta) não é sobre eles, mas sobre 3-4-5 sigmas.

Além disso, trago histogramas de cotações D1 do par euro-dólar em uma quantidade de 100 candlesticks.

Aqui estão as estatísticas descritivas da amostra

Além disso, um dos valores de Close foi consistentemente alterado para 3 sigma, 5 sigma e 5 average.

Nós vemos:

1. cauda de canhoto em toda parte.

2. O número de colunas do histograma muda, mesmo que 20 intervalos por 100 candlesticks sejam especificados em todos os lugares

3. o valor p do ajuste à lei normal e, consequentemente, o intervalo de confiança do ajuste muda.

[Excluído]  
faa1947:
De acordo com a Wikipedia: Uma população é um conjunto de valores que um pesquisador selecionou para análise. Um pesquisador pode selecionar a população geral por qualquer regra, inclusive uma regra duvidosa como a "estacionariedade". É normal quando uma regra é selecionada fora dos conceitos de estatística, por exemplo, "todas as transações de compra de euros por rublos". As transações são geradas por algum processo econômico que conhecemos apenas aproximadamente, não sabemos o número de transações. Essas duas circunstâncias nos fazem considerar que a principal característica das cotações de moeda é a não-estacionariedade; todo o resto são seus sinais.

Metade está errada, a outra metade está subestimada e parte está correta. É por isso que é desejável verificar o Wiki com a literatura especializada e tê-lo - recomendado pelo Ministério da Educação e tudo o mais. Mais tarde, escreverei uma definição do dicionário enciclopédico de estatística. Acho que você está completamente confuso.

Uma população é um conjunto de valores que um pesquisador selecionou para análise.

Isso só acontece quando todos os dados existentes foram selecionados e sabe-se que não há outros. Caso contrário, se eu pegar 10 velas, essa é uma amostra de população, não uma população geral. Por exemplo, quando você mede o trabalho de uma máquina, sabe-se que amanhã haverá novos dados - não existe uma população geral. A população geral é avaliada por ela (amostra) - leia sobre avaliações, sobre amostragem. E, na estimativa, ela não é ajustada de acordo com a lei normal (se não se sabe que é assim), mas a lei é identificada por métodos especiais e, enquanto ela é desconhecida, como algo pode ser removido (eu lhe dei um link para o livro - está escrito sobre isso lá). Além disso, ela é avaliada não por uma amostra, mas por várias amostras, testes especiais são comparados, etc.
 
-Alexey-:

Metade está errada e a outra metade está subestimada, mas parte está correta. Portanto, é desejável verificar o Wiki com a literatura especializada e fazer com que ele seja recomendado pelo Ministério da Educação e tudo o mais. Mais tarde, escreverei uma definição do dicionário enciclopédico de estatística. Acho que você está completamente confuso.

Isso ocorre somente quando todos os dados existentes são obtidos e sabe-se que não há outros. Caso contrário, se eu pegar 10 velas, essa é uma amostra da população, não uma população geral. Por exemplo, quando você mede o trabalho de uma máquina, sabe-se que amanhã haverá novos dados - não há uma população geral. A população geral é avaliada com base nela (amostra) - leia sobre avaliações. E, na estimativa, ela não é ajustada à lei normal (se não se sabe que é assim), mas a lei é identificada por métodos especiais e, enquanto ela é desconhecida, como algo pode ser removido (eu lhe dei um link para o livro - está escrito sobre isso lá). Além disso, ela é avaliada não por uma amostra, mas por várias, testes especiais são comparados, etc.

Infelizmente, você se permitiu tirar do contexto frases separadas, sem tentar entender o significado da minha postagem. Mais uma vez. No forex, a regra para selecionar a população geral são todas as negociações que não são conhecidas por nós. Não estou interessado na definição da enciclopédia ou da Wiki - estou interessado na previsão, não nas propriedades estatísticas da população em geral. Sob sua pressão, quase entrei em fornicação botânica e fui até o pacote STATISTICS para ver a definição de "população geral": o pacote mundialmente famoso não considera esse conceito.

Limpeza de emissões. Forneceu detalhes específicos do efeito das emissões sobre o ajuste; observe atentamente. Se você não remover a emissão, obterá o ajuste errado, esse é o ponto principal, e muito possivelmente com características muito boas. Se você alterar o outlier, os parâmetros da lei ou a lei mudarão, tudo por causa de um ou dois valores na amostra. Após o ajuste, não há necessidade de limpar os dados.

Ainda assim, é muito desejável que você leia livros didáticos e a melhor documentação dos pacotes mat sobre econometria, e não sobre estatística matemática - isso melhorará sua compreensão. Qualquer pacote de econometria começa com a preparação dos dados para análise, e não vice-versa, primeiro o ajuste e depois a preparação dos dados.

[Excluído]  
OK, vou deixá-lo à vontade. Qualquer pacote é apenas uma ferramenta, nada mais. Parece que falamos idiomas diferentes :) Eu só não queria que os leitores fossem enganados, mas espero que aqueles que precisam dele entendam.
 
-Alexey-:
. :) Eu só não queria que os leitores fossem enganados, mas espero que aqueles que precisarem descubram.

Ok, vou deixar você com isso.

Não acho que seja a decisão correta

Qualquer pacote é apenas uma ferramenta, nada mais. Parece que estamos falando idiomas diferentes.

Perdoe-me por permitir que você dê conselhos sobre pacotes. Em argumentos teóricos, como teses e dissertações, sua abordagem é bastante válida e preferível à minha. Mas temos um problema prático e um pacote não é apenas uma ferramenta, mas um sistema no qual muitos conceitos são reunidos para produzir um resultado prático. Obtemos não apenas uma interpretação inequívoca dos termos, mas também seu cálculo inequívoco. O autor do artigo mencionou GARCH, e esse é um conceito muito amplo, muito menos inequívoco do que "população geral".

Espero que você continue a participar do tópico.