
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Voglio saperlo io stesso!
Kgm ... Penso di saperlo :) Quando ho implementato per la prima volta RPRop mi sono imbattuto in una situazione in cui l'errore inizia a crescere e il valore dEdW (gradiente) va a +Inf.
Limitare il numero di epoche di apprendimento a 10-15 o introdurre il controllo sul valore superiore del gradiente nel codice, ho un codice simile lì:
se (Math::Abs(this->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}
Questo significa che l'algoritmo ha raggiunto un minimo locale o che abbiamo a che fare con la riqualificazione della rete.
Ho capito che alimentiamo tutti gli esempi dal set di allenamento calcolando per ogni dedw accumuliamo la somma dei dedw. E poi dividiamo dedw per il numero di esempi di allenamento? È così che funziona la modalità batch?
Lo svantaggio di questo algoritmo è che è discreto
Quindi, ho capito, per alimentare tutti gli esempi dal set di allenamento, calcolando per ogni dedw si accumula la somma di esso. e poi dividere dedw per il numero di esempi di allenamento? è così che funziona la modalità batch?
Sì, ma non confondete il gradiente locale per un singolo neurone e dEdW - avete tanti gradienti locali quanti neuroni, in dEdW avete tante connessioni sinaptiche rispetto alla soglia della funzione.
>> il lato negativo di questo algoritmo è che è discreto.
hmm ... Cosa intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma è più veloce del semplice gradiente.
hmm ... cosa si intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma funziona più velocemente del semplice gradiente.
Non ho parlato di velocità).
hmm ... cosa si intende per discreto? Questo algoritmo non è peggiore per un certo numero di problemi di qualsiasi metodo del gradiente. È inferiore ai metodi quasi newtoniani o al LMA. Ma funziona più velocemente del semplice gradiente.
Maggiori dettagli sui metodi quasi newtoniano e LMA.