Redes neuronales híbridas. - página 16

 
Quiero saberlo por mí mismo.
 
gumgum >> :
Quiero saberlo yo mismo.

Kgm ... Creo que lo sé :) Cuando implementé por primera vez RPRop me encontré con una situación en la que el error empieza a crecer y el valor de dEdW (gradiente) llega a +Inf.

Limitar el número de épocas de aprendizaje a, por ejemplo, 10-15 o introducir la comprobación del valor superior del gradiente en el código, tengo ese código allí:


if (Math::Abs(this->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}


Esto significa que el algoritmo ha alcanzado un mínimo local o que se trata de un reentrenamiento de la red.

 
Por lo que entiendo, alimentar todos los ejemplos del conjunto de entrenamiento, calculando para cada dedw y luego dividiendo el dedw por el número de ejemplos de entrenamiento, ¿es así como funciona el modo batch?
 
gumgum >> :
Entiendo que alimentamos todos los ejemplos del conjunto de entrenamiento calculando para cada dedw y luego dividimos el dedw por el número de ejemplos de entrenamiento, ¿es así como funciona el modo batch?

El inconveniente de este algoritmo es que es discreto

 
gumgum >> :
Entonces, entiendo, para alimentar todos los ejemplos del conjunto de entrenamiento, calculando para cada dedw acumulamos la suma de la misma. y luego dividimos dedw por el número de ejemplos de entrenamiento? es así como funciona el modo batch?

Sí, pero no confundas gradiente local para una sola neurona y dEdW - tienes tantos gradientes locales como neuronas, en dEdW tienes tantas conexiones sinápticas con respecto al umbral de la función.

 
dentraf >> :

>> El inconveniente de este algoritmo es que es discreto.

hmm ... ¿Qué quiere decir con discreto? Este algoritmo no es peor para una serie de problemas que cualquier método de gradiente. Es inferior a los métodos cuasi-newtonianos o, por ejemplo, al LMA. Pero es más rápido que el simple gradiente.

 
rip >> :

hmm ... ¿qué se entiende por discreto? Este algoritmo no es peor para una serie de problemas que cualquier método de gradiente. Es inferior a los métodos cuasi-newtonianos o, por ejemplo, al LMA. Pero funciona más rápido que el simple gradiente.

No he dicho nada sobre la velocidad).

 
Una red neuronal, ya veo. ¿Cómo se prepara? ¿Qué tipo de datos utiliza? ¿Intervalos?
 
Gracias a todos.
 
rip писал(а) >>

hmm ... ¿qué se entiende por discreto? Este algoritmo no es peor para una serie de problemas que cualquier método de gradiente. Es inferior a los métodos cuasi-newtonianos o, por ejemplo, al LMA. Pero funciona más rápido que el simple gradiente.

Más detalles sobre los métodos cuasi-newtonianos y LMA.

Razón de la queja: