Previsão de mercado com base em indicadores macroeconômicos - página 9

 
transcendreamer:


Eu ainda discordo - a regressão funciona bem com qualquer dado, não necessariamente melhor do que outros métodos, mas ainda assim suficientemente boa, especialmente se você considerar sua extrema falta de demanda por recursos computacionais


A regressão NÃO funciona com nenhum dado. Isto é especialmente verdadeiro para a regressão linear, que é mencionada no início desta linha.

O problema da aplicação da regressão linear pode ser dividido em dois níveis.

1. Estimativa primária dos coeficientes de regressão. AVALIAÇÃO Exata. Se escrevermos y=a+inx, não há precisão aqui, pois a regressão não é uma equação e a entrada correta y ~ a+inx, onde o sinal til enfatiza que os coeficientes não são constantes, mas estimativas de variáveis aleatórias com certa precisão e, portanto, elas não podem ser somadas, como você sugere em seu post.

Assim, ao utilizar qualquer pacote de ajuste de regressão, cada coeficiente é combinado com algum conjunto de números que caracterizam o valor do coeficiente especificado como uma variável aleatória. O resultado total é exibido na coluna da extrema direita como asteriscos. Três asteriscos significam que você pode considerar o valor do coeficiente como uma constante, ou melhor, como uma estimativa de um valor aleatório com um pequeno erro e um pequeno spread. Se não houver asteriscos, o valor dado não é nada e não pode ser usado de forma alguma.

Mas o problema não é só esse. E os principais problemas são os seguintes.

2. A regressão linear é aplicável SOMENTE aos dados estacionários, ou seja, tendo aproximadamente mo constante e variância constante. A transformação que você mencionou, levando à eliminação da tendência, é a tentativa de levá-la a uma forma estacionária. Tudo isso é generalizado na forma dos modelos ARIMA, mas existem tais séries financeiras, e há a maioria delas, quando os modelos ARIMA não resolvem problemas.

Se você não distinguir todas essas sutilezas, os resultados obtidos com a regressão linear são um jogo de números vazios.

 
faa1947:

A regressão NÃO funciona com nenhum dado. Isto é especialmente verdadeiro para a regressão linear, que é mencionada no início desta linha.

O problema da aplicação da regressão linear pode ser dividido em dois níveis.

1. Estimativa primária dos coeficientes de regressão. AVALIAÇÃO Exata. Se escrevermos y=a+inx, não é mais preciso, porque a regressão não é uma equação e a entrada correta y ~ a+inx, onde o sinal til enfatiza que os coeficientes não são constantes, mas estimativas de variáveis aleatórias com certa precisão e, portanto, não podemos somá-las, como você sugere em seu post.

Assim, ao utilizar qualquer pacote de ajuste de regressão, cada coeficiente é combinado com algum conjunto de números que caracterizam o valor do coeficiente especificado como uma variável aleatória. O resultado total é exibido na coluna da extrema direita como asteriscos. Três asteriscos significam que você pode considerar o valor do coeficiente como uma constante, ou melhor, como uma estimativa de um valor aleatório com um pequeno erro e um pequeno spread. Se não houver asteriscos, o valor dado não é nada e não pode ser usado de forma alguma.

Mas o problema não é só esse. E os principais problemas são os seguintes.

2. A regressão linear é aplicável SOMENTE aos dados estacionários, ou seja, tendo aproximadamente mo constante e variância constante. A transformação que você mencionou, levando à eliminação da tendência, é exatamente a tentativa de levá-la a uma forma estacionária. Tudo isso é generalizado na forma dos modelos ARIMA, mas existem tais séries financeiras, e há a maioria delas, quando os modelos ARIMA não resolvem problemas.

Se você não distinguir todas essas sutilezas, os resultados obtidos com a regressão linear são um jogo de números vazios.

funciona bem para mim )))) e é apenas uma regressão linear

resumir os coeficientes é um método rudimentar, concordo.

Tentei analisar o significado dos coeficientes e a análise de variância, mas na prática me parece de pouca utilidade

é muito mais fácil e conveniente ver como se comporta a curva final e como ela se conjuga visualmente com os valores teóricos dos dados originais no gráfico

é por isso que eu tomo o vetor de solução como está, e para a maioria dos casos isso é suficiente

se se encaixa bem nos dados, tudo está bem.

Eu tentei outras soluções melhores, outros métodos - o resultado não é muito diferente do da regressão

tenho notado que alguns coeficientes podem flutuar dentro de certos limites, e isso não afeta muito a curva final

Mas tudo bem - esses coeficientes são instáveis de qualquer forma, eles mudarão gradualmente com o tempo, portanto não faz sentido avaliá-los.

sobre a estacionaridade - claro que não existe no mercado, então o que fazer?

provavelmente não é acadêmico fazer do jeito que eu faço.

mas então o que tomar como substituto?

 
transcendreamer:

.....

mas então o que deve ser substituído?

Você se limitou à regressão linear, mas poderia colocar a questão da seguinte forma: escolha o tipo de regressão mais apropriado, dependendo das tarefas em mãos. Você pode pensar em todas as grandes regressões (não apenas lineares) como um monte de caixas pretas e concentrar-se em problemas significativos na avaliação dos resultados obtidos.

Para sair de uma regressão linear como de calças curtas, você deve gastar muito tempo.

Em seguida, decida o tipo do que você está prevendo, a saber: você vai prever o valor, por exemplo o preço de um par de moedas, ou prever a direção do preço, algum tipo de característica qualitativa "curto prazo" ou outras ordens do terminal.

Agora você tem que decidir sobre algum tipo de investimento de tempo.

Na primeira etapa, recomendo o Rattle como porta para o mundo de mais de 100 modelos. A julgar pelo nível de seu raciocínio sobre a regressão linear, é um ou dois dias de seu tempo. Você acaba com 6 tipos de modelos, um deles quase seu favorito, chamado apenas de "linear generalizado", mas os outros são muito mais interessantes, com os quais você pode realmente fazer modelos de previsão.

 
faa1947:

Você se limitou à regressão linear, mas poderia colocar a questão da seguinte forma: escolha o tipo de regressão mais apropriado, dependendo das tarefas em mãos. Você pode pensar em todas as muitas regressões (não apenas lineares) como um monte de caixas pretas e concentrar-se nos problemas significativos de avaliação dos resultados.

Para sair de uma regressão linear como de calças curtas, você deve gastar muito tempo.

Em seguida, decida o tipo do que você está prevendo, a saber: você vai prever o valor, por exemplo o preço de um par de moedas, ou prever a direção do preço, algum tipo de característica qualitativa "curto prazo" ou outras ordens do terminal.

Agora você tem que decidir sobre algum tipo de investimento de tempo.

Na primeira etapa, recomendo o Rattle como porta para o mundo de mais de 100 modelos. A julgar pelo nível de seu raciocínio sobre a regressão linear, é um ou dois dias de seu tempo. Você acaba com 6 tipos de modelos, um deles quase seu favorito, chamado apenas de "linear generalizado", mas os outros são muito mais interessantes, com os quais você pode realmente fazer modelos de previsão.

infelizmente, como eu disse, outros otimizadores não mostraram resultados significativamente melhores em comparação com a regressão linear

talvez em algumas aplicações científicas elas possam dar uma vantagem, mas no comércio a previsão precisa é uma ilusão.

GLM foi desenvolvido para seguros, se não estou enganado, SVM e ADA são muito restritos, a regressão logística não é adequada por razões óbvias

as redes neurais e as florestas aleatórias são versáteis e mais vantajosas porque contornam o problema de raiz zero e qualquer função alvo pode ser especificada

mas é um verdadeiro arranha cabeças lá fora, pelo menos para mim, um humanitário.

o método dos componentes principais foi uma descoberta para mim, mas não fui capaz de aplicá-lo ao meu problema (portfólios)

as florestas aleatórias definitivamente merecem atenção e pretendo experimentá-las após algum tempo, mas não espero muito efeito.

Pena que não há AG no guizo, ou eu não consegui encontrar uma

 

Eu não chamaria a regressão linear de "queijinhos". E não há necessidade de supor que eu não tenha tentado um monte de outros modelos.

Todos sabem que qualquer modelo não-linear y = f(x1,x2,...) pode ser decomposto em uma série Taylor:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Aqueles bem versados em matemática sabem que isto é uma decomposição da função f(x1,x2,...) em bases polinomiais (mais precisamente monomiais) x, x^2, x^3 etc. Uma regressão linear retém apenas os termos lineares desta expansão, portanto, é uma aproximação de primeira ordem. As bases não lineares podem ser escolhidas entre vários polinômios conhecidos, por exemplo, Chebyshev, Hermite, Legendre, etc. Mas o método correto de seleção de polinômios é a decomposição QR ou, em casos mais gerais, a seleção de polinômios ortogonais, levando em conta as propriedades estatísticas dos insumos x1, x2, ... As redes neurais tentam fazer a mesma decomposição, mas em funções de exp de acordo com o teorema de Kolmogorov. Esta é uma decomposição bastante inconveniente, pois as funções exponenciais dos inputs não são ortogonais umas às outras, o que leva a muitos problemas numéricos e variantes de solução. Em qualquer caso, todas estas decomposições de nossa função não linear terão um modelo linear como primeira aproximação de ordem. Portanto, se uma aproximação linear (regressão) não nos dá o resultado esperado, então não faz sentido ir para graus mais altos de não-linearidade. Mesmo a regressão linear pode ser resolvida por diferentes métodos (RMS, MNM e outras funções de erro arbitrário), que eu experimentei todos eles.

A propósito, todos os modelos econométricos ARMA, ARIMA e outros modelos são casos individuais do modelo acima y[n] = f(x1[n-d1],x2[n-d2],...) onde algumas entradas são saídas atrasadas, ou seja, y[n-1], y[n-2], daí o nome de modelos "autoregressivos". Embora não seja saudável resolver modelos autoregressivos pelos métodos RMS ou CMM porque os coeficientes obtidos levam a modelos oscilatórios. Precisamos de Burg, Covariância Modificada e assim por diante. Mas eu passei este capítulo "autoregressivo" há muito tempo e não quero voltar. Embora meu modelo de mercado permita a seleção de uma saída atrasada como uma das entradas. Mas até agora nunca escolheu um insumo tão "autoregressivo", o que significa que os indicadores econômicos são mais adequados para prever o preço do que o próprio preço no passado (que forma a base da grande maioria dos métodos dos comerciantes baseados na análise tecnológica)

 
faa1947:

Tenho uma sugestão a fazer.

Solte um arquivo tsv.file com os nomes das colunas. Especifique quais (quais) colunas devem ser usadas como variáveis-alvo. Naturalmente, a linha da tabela deve se referir a um ponto no tempo.

Vou publicar o resultado em Rattle e, com sua permissão, publicarei o resultado aqui para 6 modelos muito decentes.


Sugestão aceita. Especifique um formato de arquivo de dados aceitável. O tapete serve? São muitos dados, o CSV vai devorar o disco inteiro. MAT apenas 6MB.

Mas tenho uma condição: as previsões são feitas para o período de 2000 a 2015, mas somente com base nos dados disponíveis antes da data projetada. Ou seja, se você fizer uma previsão para o 1T 2000, você opera com dados até o 1T 2000. Selecionar os preditores a partir de todos os dados disponíveis, inclusive 2015, e depois usá-los para prever o primeiro trimestre de 2000, mesmo que os coeficientes do modelo sejam calculados a partir de dados anteriores ao primeiro trimestre de 2000, está olhando para o futuro. Tive este erro no passado e meu modelo teve previsões surpreendentemente precisas. Em resumo, minha condição é que os preditores sejam selecionados e o próprio modelo de previsão seja calculado a partir dos dados ANTES da data prevista.

 
gpwr:

Oferta aceita. Especifique um formato de arquivo de dados aceitável. O tapete está bem? Demasiados dados, o CSV vai comer o disco inteiro. MAT apenas 6MB.


O primeiro problema é o arquivo. Teremos que pensar sobre isso. Tenho certeza que MAT leva R - R e MATLAB são muito amigáveis, mas eu não sei como fazer isso. Quando me preparar, vou escrever de volta.

 
gpwr:

Eu não chamaria a regressão linear de "queijinhos".



"Pobre" para dados não estacionários.

E para resumir meus cargos: a ferramenta tem que se ajustar ao problema.

Para regressões - a não-estacionariedade das séries financeiras é o problema subjacente. Portanto, ao escolher um conjunto de ferramentas, você precisa ver como a ferramenta escolhida resolve o problema da não-estacionariedade. Minha mencionada ARIMA resolve o problema da não-estacionariedade até certo ponto, mas nunca ouvi falar da série Taylor resolvendo o problema da não-estacionariedade. No âmbito das regressões, ARIMA não é a única ferramenta, embora ainda seja utilizada nas estruturas do governo dos EUA e não é a mais avançada. Das bem conhecidas, mencionarei a ARCH com um monte de modificações.

O resultado da não-estacionariedade é o superfitting do modelo. Ela se manifesta no fato de que se pode construir um modelo com extraordinária precisão, mas não funciona fora da amostra de treinamento, e sorrateiramente: então funciona, então não funciona. Suas palavras sobre a superioridade de modelos simples sobre modelos complexos é um fato bem conhecido e se baseia no fato de que um modelo complexo é muito mais fácil de ser super ajustado do que um modelo simples.

 
gpwr:

Eu não chamaria a regressão linear de "queijinhos". E não há necessidade de supor que eu não tenha tentado um monte de outros modelos.

Todos sabem que qualquer modelo não-linear y = f(x1,x2,...) pode ser decomposto em uma série Taylor:

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

Aqueles bem versados em matemática sabem que isto é uma decomposição da função f(x1,x2,...) em bases polinomiais (mais precisamente monomiais) x, x^2, x^3 etc. Uma regressão linear retém apenas os termos lineares desta expansão, portanto, é uma aproximação de primeira ordem. As bases não lineares podem ser escolhidas entre vários polinômios conhecidos, por exemplo, Chebyshev, Hermite, Legendre, etc. Mas o método correto de seleção de polinômios é a decomposição QR ou, em casos mais gerais, a seleção de polinômios ortogonais, levando em conta as propriedades estatísticas dos insumos x1, x2, ... As redes neurais tentam fazer a mesma decomposição, mas em funções de exp de acordo com o teorema de Kolmogorov. Esta é uma decomposição bastante inconveniente, pois as funções exponenciais dos inputs não são ortogonais umas às outras, o que leva a muitos problemas numéricos e variantes de solução. Em qualquer caso, todas estas decomposições de nossa função não linear terão um modelo linear como primeira aproximação de ordem. Portanto, se uma aproximação linear (regressão) não nos dá o resultado esperado, então não faz sentido ir para graus mais altos de não-linearidade. Mesmo a regressão linear pode ser resolvida por diferentes métodos (RMS, MNM e outras funções de erro arbitrário), que eu experimentei todos eles.

A propósito, todos os modelos econométricos ARMA, ARIMA e outros modelos são casos individuais do modelo acima y[n] = f(x1[n-d1],x2[n-d2],...) onde algumas entradas são saídas atrasadas, isto é, y[n-1], y[n-2], daí o nome de modelos "autoregressivos". Embora não seja saudável resolver modelos autoregressivos pelos métodos RMS ou CMM porque os coeficientes obtidos levam a modelos oscilatórios. Precisamos de Burg, Covariância Modificada e assim por diante. Mas eu passei este capítulo "autoregressivo" há muito tempo e não quero voltar. Embora meu modelo de mercado permita a seleção de uma saída atrasada como uma das entradas. Mas até agora nunca escolheu uma entrada tão "autoregressiva", o que significa que os indicadores econômicos são mais adequados para prever o preço do que o próprio preço no passado (que é a base da grande maioria dos métodos dos comerciantes baseados em análises técnicas)

Acho que era isso que eu queria dizer ))))

Eu construo regressão no conjunto de dados e obtenho modelos "mais ou menos", e outros métodos quase sempre dão também modelos "mais ou menos".

e se uma regressão linear der um modelo "mais ou menos", então noto que outros métodos podem melhorá-lo um pouco

 
Seria útil dar uma definição clara, ou pelo menos um esclarecimento do que se entende por "previsão", "predição", etc. Qual é o horizonte de uma "previsão"? Sem isso, "previsões" não têm sentido. Porque, dependendo do horizonte, a mesma "previsão" pode estar correta para um horizonte e incorreta para outro horizonte. Além disso, tais parcelas podem se alternar muitas vezes.