Etiqueta de mercado ou boas maneiras em um campo minado - página 81

 
Ao fazer este arredondamento, não se esqueça de dividir o número de valores igual a zero por 2 na distribuição.
 
Sim, entendi (+/-0).
 
Neutron >> :

A questão é que não estou digitando as estatísticas para a mesma amostra de treinamento, mas estou mudando uma amostra de cada vez em cada ciclo. Portanto, os resultados do treinamento não coincidem uns com os outros. Não me lembro por que o fiz, mas isso não muda a essência. Aparentemente, eu queria mostrar os processos quase estacionários no mercado e refletir sua influência sobre a velocidade de aprendizado.

Veja como são os resultados quando se faz uma média de 10 experiências na mesma amostra de treinamento (fig. à esquerda):

Você pode ver que não há variação estatística para pesos com inicialização zero.

A figura à direita é baseada em uma arquitetura de rede com 12 entradas, 5 neurônios na camada oculta e 1 neurônio na saída e com uma amostra de treinamento de 120 amostras, ou seja, é uma cópia do seu caso. As estatísticas foram coletadas a partir de 50 experiências numéricas independentes. Além disso, tudo funciona corretamente.

Não, eu usei a primeira diferença de preço de abertura como insumo (pensei que estava claro a partir do contexto). É claro que a média é zero. Previu a amplitude e o sinal da próxima diferença.

Quanto ao teorema, eu gostei. Mas, isso se relaciona com nossas redes como um caso especial!

Você provou o caso degenerado para o comprimento da amostra de treinamento que tende ao infinito. Realmente, neste caso para vetor de dados de entrada representando SV com MO zero, obtemos pesos zero - a melhor previsão para amanhã para SV integrado é o valor atual hoje! Mas, uma vez colhida uma amostra de treinamento de comprimento finito, os pesos treinados tenderão para o equilíbrio, minimizando o quadrado do erro. Como exemplo para provar esta afirmação, tome o caso do SLAE (o mesmo NS). Neste caso, os pesos são definidos exclusivamente, o erro de treinamento na amostra de treinamento é identicamente igual a zero (o número de incógnitas é igual ao número de equações) e os pesos (coeficientes nas incógnitas) obviamente não são iguais a zero.

Concordo com seu comentário sobre meu teorema. De fato, a redução do número de conjuntos no conjunto de treinamento irá desviar os pesos dos zeros. Mas acredito que o teorema é aplicável às redes, pois para calcular a correlação não preciso usar um número infinito de conjuntos de treinamento. A média estatística R(m)=E{x[i]x[i+m]} é calculada como a soma(x[i]x[i+m]) dos dados disponíveis. O teorema é significativo, pois mostra que a rede só terá poder de previsão se essas somas (correlações) forem significativamente diferentes de zero; caso contrário, os pesos convergirão para zeros. É por isso que é importante encontrar dados de treinamento com correlação não zerada entre entradas e saídas. As entradas que têm baixa correlação podem ser descartadas, pois não ajudarão a rede nas previsões.

Tanto quanto eu entendo, seu erro de treinamento nos gráficos acima não está dividido por 2 ou pelo número de conjuntos. Isso é correto? Gostaria de executar seus dados em minha rede para garantir que tudo funcione corretamente. Você poderia salvá-los em um arquivo à medida que são alimentados com as entradas e saídas da rede, e colocá-los aqui. Você poderia usar sua rede 5-4-1 com 40 amostras para reduzir a quantidade de dados.

 

Alocações do kagi de construção e ombros de série de transação para diferentes H


1. H = 1(um spread)


2. Н = 4


3. Н = 15


 
gpwr >> :

Concordo com seu comentário sobre meu teorema. De fato, a redução do número de conjuntos na amostra de treinamento irá desviar os pesos dos zeros. Mas eu acho que o teorema é aplicável às redes pela razão de que, para calcular a correlação, não é necessário usar um número infinito de conjuntos de treinamento. A média estatística R(m)=E{x[i]x[i+m]} é calculada como a soma(x[i]x[i+m]) dos dados disponíveis. O teorema é significativo, pois mostra que a rede só terá poder de previsão se essas somas (correlações) forem significativamente diferentes de zero; caso contrário, os pesos convergirão para zeros. É por isso que é importante encontrar dados de treinamento com correlação não zerada entre entradas e saídas. As entradas que têm baixa correlação podem ser descartadas, pois não ajudarão a rede nas previsões.

Pelo que entendi, seu erro de treinamento nos gráficos acima não está dividido por 2 ou pelo número de conjuntos de treinamento. Isso é correto? Gostaria de executar seus dados em minha rede para garantir que tudo funcione corretamente. Você poderia salvá-los em um arquivo à medida que são alimentados com as entradas e saídas da rede, e colocá-los aqui. Você pode usar sua rede 5-4-1 com 40 amostras para reduzir os dados.

Aumento da contagem de época para 1000 e ajustes do iProp+ para que a etapa de peso não se desvaneça rapidamente. Também eliminou a divisão do erro de aprendizagem por 2*Número de épocas. Isso me dá resultados mais satisfatórios, mais próximos do Neutron. O erro de aprendizagem para pesos aleatórios é 2-3 vezes menor do que para pesos zero, o que indica a presença de correlação entre entradas e saídas. Mas ainda não gostou disso da época 4 a 70, o erro de aprendizagem quase não mudou. Precisamos melhorar o algoritmo de aprendizagem. Embora a maioria dos pacotes NS comerciais utilizem o iProp+, por isso confio neste algoritmo. Isso deixa lento e complexo ML e BFGS.


 
gpwr >> :

Concordo com seu comentário sobre meu teorema.


Como você é tão bom em matemática, por que não tenta provar outro teorema sobre a dimensão ótima de entrada de rede em BPs de mercado (melhor não BPs, mas séries de transações de kagi) - isso é uma coisa realmente útil!

 
paralocus >> :

Como você é tão bom em matemática, por que não tenta provar outro teorema sobre a dimensão ótima de entrada da rede em BPs de mercado (de preferência não BPs, mas uma série de transações de kagi) - esse é o verdadeiro teorema!

Vou tentar.

 
gpwr писал(а) >>

Concordo com seu comentário sobre meu teorema. De fato, a redução do número de conjuntos no conjunto de treinamento irá desviar os pesos dos zeros. Mas acredito que o teorema é aplicável às redes, porque para calcular a correlação não preciso usar um número infinito de conjuntos de treinamento. A média estatística R(m)=E{x[i]x[i+m]} é calculada como a soma(x[i]x[i+m]) dos dados disponíveis. O teorema é significativo, pois mostra que a rede só terá poder de previsão se essas somas (correlações) forem significativamente diferentes de zero; caso contrário, os pesos convergirão para zeros. É por isso que é importante encontrar dados de treinamento com correlação não zerada entre entradas e saídas. As entradas que têm baixa correlação podem ser descartadas porque não ajudam a rede a fazer previsões.

Há também uma correlação não linear entre as amostras. Ele é pego por NS não linear e não é pego por discriminador linear, o teorema do limite para o qual você provou.

Tanto quanto entendi, seu erro de treinamento em determinados diagramas não está dividido por 2 ou pelo número de conjuntos. Correto? Eu gostaria de executar seus dados de entrada na minha rede para garantir que tudo funcione corretamente. Você poderia salvá-los em um arquivo à medida que são alimentados com as entradas e saídas da rede, e colocá-los aqui. Você pode usar sua rede 5-4-1 com 40 amostras para reduzir os dados.

Abaixo está o arquivo com as entradas que eu utilizei.

Arquivos anexados:
dif.zip  14 kb
 
Neutron >> :

Há também uma correlação não linear entre as amostras. Ele é pego por NS não linear e não é pego por discriminador linear, o teorema do limite para o qual você provou.

Abaixo, anexado um arquivo com os dados de entrada, que eu utilizei.

>> Obrigado. Há muito o que falar sobre correlação não-linear. Daqui a pouco vou pensar sobre isso. Entretanto, fico intrigado com sua interessante conclusão sobre a "cog girl". O fato de que a rede não-aprendida ("garota ternária") mostra previsões mais precisas sobre dados fora da amostra me alarma. A variação do estado não-aprendido é muito maior do que a variação do estado aprendido. E se o estado aprendido é o mínimo de entropia global (erro ao quadrado), então a variação de tal estado é zero, já que existe apenas um mínimo global. Como há muitos estados não-inflados na rede, haverá muitas previsões diferentes para os mesmos dados de entrada. Você pode ver isso em seus gráficos. Em resumo, uma conclusão interessante, mas alarmante.

 

É aqui que eu mesmo não tenho um entendimento completo.

De acordo com a declaração(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), há um comprimento ideal, no qual o erro de generalização Popt=w^2/d é minimizado, onde d é a dimensão da entrada NS, w é o número de todos os parâmetros sintonizáveis de NS. Portanto, deste ponto de vista, o NS está supertreinado se P<Popt o NS "se lembra" da amostra de treinamento. A variante P>Popt também não é boa, pois com um comprimento maior, há maior probabilidade de inversão da tendência de mercado, o que equivale a uma diminuição das correlações entre amostras.

Por outro lado, a NS pode ser "arrastada" no número excessivo de épocas de treinamento e, como consequência, o erro de generalização começará a crescer novamente, ou não será arrastada... Em geral, precisamos realizar experiências numéricas com um conjunto de estatísticas, o que em si mesmo é muito recorrente! Mas, isso tem que ser feito. Isso facilitará muito as coisas, para provar a equação acima para o comprimento ideal do vetor de treinamento. gpwr, você quer mexer?