Reti neurali ibride. - pagina 16

 
Voglio saperlo da solo!
 
gumgum >> :
Voglio saperlo io stesso!

Kgm ... Penso di saperlo :) Quando ho implementato per la prima volta RPRop mi sono imbattuto in una situazione in cui l'errore inizia a crescere e il valore dEdW (gradiente) va a +Inf.

Limitare il numero di epoche di apprendimento a 10-15 o introdurre il controllo sul valore superiore del gradiente nel codice, ho un codice simile lì:


se (Math::Abs(this->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}


Questo significa che l'algoritmo ha raggiunto un minimo locale o che abbiamo a che fare con la riqualificazione della rete.

 
Così ho capito, per alimentare tutti gli esempi dal set di allenamento, calcolando per ogni dedw e poi dividendo dedw per il numero di esempi di allenamento, è così che funziona la modalità batch?
 
gumgum >> :
Ho capito che alimentiamo tutti gli esempi dal set di allenamento calcolando per ogni dedw accumuliamo la somma dei dedw. E poi dividiamo dedw per il numero di esempi di allenamento? È così che funziona la modalità batch?

Lo svantaggio di questo algoritmo è che è discreto

 
gumgum >> :
Quindi, ho capito, per alimentare tutti gli esempi dal set di allenamento, calcolando per ogni dedw si accumula la somma di esso. e poi dividere dedw per il numero di esempi di allenamento? è così che funziona la modalità batch?

Sì, ma non confondete il gradiente locale per un singolo neurone e dEdW - avete tanti gradienti locali quanti neuroni, in dEdW avete tante connessioni sinaptiche rispetto alla soglia della funzione.

 
dentraf >> :

>> il lato negativo di questo algoritmo è che è discreto.

hmm ... Cosa intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma è più veloce del semplice gradiente.

 
rip >> :

hmm ... cosa si intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma funziona più velocemente del semplice gradiente.

Non ho parlato di velocità).

 
Una rete neurale - vedo. Come si prepara? Su che tipo di dati lo fai funzionare? Intervalli?
 
Grazie a tutti!
 
rip писал(а) >>

hmm ... cosa si intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma funziona più velocemente del semplice gradiente.

Maggiori dettagli sui metodi quasi newtoniano e LMA.

Motivazione: