Etiqueta de mercado ou boas maneiras em um campo minado - página 25

 
registred писал(а) >>

Cavalheiros, podem me dizer como lidam com os baixos baixos e os pesos iniciais curvos do vôo? Entendo que no início eles não têm efeito sobre o treinamento, mas mais tarde começam a afetar muito os resultados.

Fiz uma regra para a reciclagem da rede a cada passo. Obviamente, nesta configuração, a rede pode ocasionalmente estar "fora do lugar", mas no próximo passo, ela está exatamente onde precisa estar. Minha idéia se baseia no fato de que a probabilidade de a rede aprender a coisa "errada" é notavelmente menor que 1, e em geral, em uma grande amostra de reciclagem, a contribuição das "crianças loucas" é mínima.

paralocus escreveu >>.

Estou um pouco confuso sobre como reduzir o multiplicador de contribuição de outra época.... Tenho pesos de saída muito pequenos ao final do treinamento, e grandes pesos de camada oculta, ao contrário.

Alerta: W2 [0] = -0,0414 W2 [1] = 0,0188 W2 [2] = -0,0539

Alerta: W1[1,0]=-27.0731 W1[1,1]=-30.2069 W1[1,2]=37.6292 W1[1,3]=30.4359 W1[1,4]=-22.7556 W1[1,5]=-37.5899

Aqui você terá que pensar por si mesmo. Prevejo apenas os sinais dos aumentos de preços previstos (+/-1). Tem a ver com a especificidade do comércio (ver A Equação Básica do Comércio alguns postos acima), e o fato de que tentar prever a amplitude e o sinal simultaneamente torna-o catastroficamente difícil (o número de épocas de arquitetura e treinamento da TC está crescendo). Nenhuma energia de PC em casa seria suficiente aqui, mesmo que não refizéssemos a rede a cada passo! Assim, tradicionalmente, ao prever valores absolutos de BP, controla o erro de aprendizagem em cada época até que ele se torne menor que alguns. Este processo pode não convergir - a Grade fica pendurada em um loop infinito e são necessários mecanismos para tirá-la de seu estado comatoso. Quando experimentei isto, controlei a taxa de redução do erro de aprendizagem e quando a condição foi preenchida - redimensionei todos os pesos, ou seja, praticamente comecei a aprender tudo de novo. Naquele momento tive que descobrir o número aproximado de épocas necessárias para o aprendizado e o peso de cada época (coeficiente antes da correção de cada peso) diminuído pela lei 1-j/N. Onde j corre em valores de 1 a N. Após abandonar a amplitude preditiva, a rede começou a aprender rápida e eficientemente, de modo que se tornou possível introduzir um número fixo de épocas de treinamento sem monitorar o erro de aprendizagem.

Além disso, indo de previsão em previsão, para reduzir o número de épocas, mantive os valores de pesos da Rede sem aleatorizá-los. Algumas vezes tive um efeito de "colagem" de alguns pesos que se manifestavam em seu infinito aumento ou tendência a zero. Eu lidei com isso desta maneira: ao fazer uma nova previsão influenciei todos os pesos com o() operador. Funcionou eficientemente.

 
Neutron >> :
... Um número fixo de épocas de treinamento sem monitorar o erro de aprendizagem.

>> a questão foi resolvida!

 

ao Neutron

Estou no processo de reescrever todas as minhas duas camadas em uma forma mais compacta. Quero reduzir tudo isso a operações matriciais de duas ou três funções. Assim que eu terminar, eu a postarei.

Ao mesmo tempo, vou "cortar" a previsão de amplitude. Na verdade - o sinal é mais do que suficiente.

 
Neutron >> :

É aqui que você tem que pensar por si mesmo.

Você quer dizer pensar em como passar do cálculo do erro de amplitude para o cálculo do erro de sinal?

Você quer dizer aqui?

d_2_out = test - out;                                             // Ошибка на выходе сетки
 

Não. Eu estava falando em termos gerais. Obviamente, você vai seguir seu próprio caminho...

 

Há algumas perguntas que, a fim de evitar agitação desnecessária aqui, gostaria de fazer através de uma mensagem particular.

Eu sei que você não é um amador...

Posso?

 
Você pergunta!
 
Neutron >> :
Você pergunta!

>> ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::.)

 
Respondido.
 
Neutron >> :

Fiz uma regra para a reciclagem da rede a cada passo. Obviamente, nesta configuração, a rede pode às vezes estar "no lugar errado", mas na etapa seguinte já está no lugar certo. A idéia se baseia no fato de que a probabilidade de a rede ser treinada "errada" é muito menor que 1, portanto, no conjunto, em uma grande amostra de reciclagem a contribuição das "crianças loucas" é mínima.

Não sei bem o que você quer dizer com "requalificação a cada passo"?

Razão: