Como você praticamente avalia a contribuição de uma contribuição "específica" para o NS? - página 3

 
alexeymosc:
Há também uma situação oposta: teoricamente é possível que haja dois inputs com alta informatividade e um com baixa. Logicamente, você quer remover a terceira, mas se você a remover, a complexa relação quadro (três entradas - saídas) será destruída, e as duas entradas restantes não serão mais tão informativas.

Por isso, faço-o num exemplo pronto por assim dizer e vejo imediatamente a mudança no resultado da NS tanto na amostra de treinamento como fora dela. Se algo desmoronar, isso deve afetar o resultado final. Eu removi uma entrada e não houve degradação; removi outra entrada e houve uma degradação de menos de 1% do resultado final; removi a terceira entrada e houve uma degradação de 10%. Depois o mesmo com combinações de 2 entradas, 3 entradas, etc.

Só estou fazendo isso há algumas horas, mas já encontrei uma entrada em branco, duplicando completamente outra entrada (como resultado de um erro) e 2 entradas, cujo impacto é até mesmo um mínimo de décimos de um por cento. Acho que estas 3 entradas são exatamente desnecessárias.

Também encontrei 2 entradas cuja exclusão não piora o resultado, o que era claro, mas o melhora, o que é inesperado. Com eles eu deveria experimentar mais, as entradas obviamente não estão vazias e sua influência no resultado, mesmo que na direção oposta, pode provar isso.

Graças a todos vocês, eu realmente recebi alguns conselhos úteis.

 
Figar0:

Por isso, faço-o num exemplo pronto por assim dizer e vejo imediatamente a mudança no resultado da NS tanto na amostra de treinamento como fora dela. Se algo desmoronar, isso deve afetar o resultado final. Eu removi uma entrada e não houve degradação; removi outra entrada e houve uma degradação de menos de 1% do resultado final; removi a terceira entrada e houve uma degradação de 10%. Depois o mesmo com combinações de 2 entradas, 3 entradas, etc.


Esta é a forma mais confiável de selecionar insumos - força bruta. É difícil, mas é honesto. Boa sorte!
 

Para 20 entradas, uma varredura limpa é algo como 2^20 combinações, ou seja, um milhão.

A teoria da informação vem à mente novamente, mas eu não vou aconselhar nada.

 
Mathemat:

Para 20 entradas, uma varredura limpa é algo como 2^20 combinações, ou seja, um milhão.

Então, você pode passar "daqui até o jantar" ou "até ficar entediado"...
E depois um teste genético... ...teste de execução.
 

É possível determinar o "desnecessário" de uma entrada. Quanto mais próximo o peso de um neurônio está de 0, mais "desnecessário" ele é. Essencialmente, o valor de um neurônio é multiplicado por 0, eo que quer que esteja dentro dele resultará em 0, ou seja, sem nenhumaentrada.

A maior desvantagem de ter um neurônio tão desnecessário é um tempo de aprendizado desnecessariamente maior.

Mas tais neurônios "desnecessários" podem ocorrer não apenas na camada de entrada da grade, mas em qualquer uma de suas camadas.

Você pode automatizar o processo de busca de neurônios desnecessários após o treinamento de teste - tomar um valor modulo do peso do neurônio e se o valor for inferior a um determinado valor limiar, anulá-lo. Então você precisa analisar quais neurônios têm peso 0 e excluí-lo da rede e re-treinar - o treinamento será significativamente mais rápido e o resultado será o mesmo. E, é claro, usar posteriormente uma malha tão fina.

 
joo:

É possível determinar o "desnecessário" de uma entrada. Quanto mais próximo o peso de um neurônio está de 0, mais "desnecessário" ele é. Essencialmente, o valor de um neurônio é multiplicado por 0, eo que quer que esteja nele resultará em 0, ou seja,o input é como se não existisse de todo.


isto é verdade. mas de onde vem sempre o input igual a zero? não pode haver tal coisa.

Muito provavelmente, neste caso estamos falando de um sinal que é incomensuravelmente menor do que os outros sinais. isto pode ser facilmente corrigido através da escala do sinal.

O sinal da SSI será milhões de vezes maior do que o sinal da OsMA. Estes sinais são incomensuráveis e não podem ser usados sem escaloná-los na mesma escala.

 
joo:


Mas, tais neurônios "desnecessários" podem acabar não apenas na camada de entrada da malha, mas em qualquer camada da malha.


Isto não pode acontecer se as transformações nos neurônios forem não lineares.
 
mersi:

Isso é verdade. Mas de onde vem sempre o sinal de entrada igual a zero?

muito provavelmente, neste caso estamos falando de um sinal incomensuravelmente menor do que os outros sinais. isto pode ser facilmente corrigido através da conversão do sinal.

O sinal da SSI será milhões de vezes maior do que o sinal da OsMA. estes sinais são incomensuráveis e não podem ser usados sem que sejam reduzidos.

Pensei que para todos os neuronistas, trazer (escalar) sinais para a rede em uma faixa, adequados para alimentar a rede, é como o "Pai Nosso", mas eu estava errado, como vejo as coisas. :)

Assim, os sinais são escalonados e variam, digamos, na faixa [-1,0;1,0]. Mas um dos neurônios de entrada tem peso 0. O que isso significa? - Isso significa que a rede não se importa com o valor que este neurônio tem na entrada, o resultado da rede não depende desta entrada.

mersi:
isso não pode acontecer com transformações não lineares em neurônios

Isso pode muito bem acontecer. E isso acontece freqüentemente quando há mais neurônios em camadas internas do que é necessário para resolver um problema.

 
joo:

Pensei que para todos os neuronistas, trazer (dimensionar) os sinais para a rede em uma escala, adequada para alimentar a rede, era como o 'Pai Nosso', mas eu estava errado, como vejo as coisas. :)

Assim, os sinais são escalonados e variam, digamos, no intervalo [-1,0;1,0]. Mas um dos neurônios de entrada tem peso 0. O que isso significa?- Isto significa que a rede não se importa com o valor que este neurônio tem na entrada - o resultado da operação da rede não depende desta entrada.

Pode muito bem ser. E este é freqüentemente o caso quando há mais neurônios em camadas internas do que é necessário para resolver uma tarefa.

À primeira vista, esta afirmação não parece falsa.

Entretanto, os dados da entrada Xi são alimentados simultaneamente a vários neurônios e todas as suas sinapses não são necessariamente iguais a zero, portanto, excluindo a entrada Xi mudará completamente a saída da rede.

--------------

Quanto mais neurônios na rede, mais precisa e complexa a rede neural é capaz de resolver.

Os próprios desenvolvedores de NS limitam o número de neurônios em uma rede por razões de precisão suficiente do resultado para um tempo de aprendizado aceitável, já que o número de épocas necessárias para o treinamento da rede cresce em uma dependência de poder do número de neurônios.

 
Figar0:

Não é bem sexta-feira, mas ...

Há um NS, qualquer NS, há uma entrada A={A1, A2, .... A20}. Treine o NS e obtenha um resultado satisfatório. Como praticamente avaliamos a contribuição de cada elemento de entrada A1, A2, ... A20 a este resultado?

As opções fora do topo da minha cabeça são:

1) De alguma forma, somar e calcular todos os pesos com os quais o elemento passa através da rede. Não estou muito claro como fazê-lo, teria que mergulhar na operação da rede e calcular de alguma forma alguns coeficientes, etc.

2) Tente "zerar" de alguma forma, ou por exemplo, reverter um elemento do vetor de entrada e ver como ele afeta o resultado final. Até o momento, me acomodei a isso.

Mas antes de perceber esta segunda variante, decidi pedir meu conselho. Quem poderia estar pensando sobre este assunto há mais tempo do que eu? Talvez alguém possa me aconselhar um artigo de livro?

A aplicação de uma abordagem sólida baseada na ciência fora de seu contexto econométrico levanta questões infantis.

Fazendo uma regressão:

Lucro = s(1) * A0 + ... s(n) * A(n)

Estimamos os coeficientes desta regressão.

Imediatamente recebemos

probabilidade de que um coeficiente específico seja igual a zero - apagamos essa entrada

a probabilidade de que todos os coeficientes tomados em conjunto sejam iguais a zero

por elipses obtemos coeficientes de correlação

teste para entradas redundantes

realizar um teste de entradas em falta

teste de estabilidade dos valores de coeficiente (avaliar sua aleatoriedade)

Razão: