Galateo del mercato o buone maniere in un campo minato - pagina 81

 
Quando fate questo arrotondamento, non dimenticate di dividere il numero di valori uguali a zero per 2 nella distribuzione.
 
Sì, ho capito (+/-0).
 
Neutron >> :

Il punto è che non sto scrivendo le statistiche per lo stesso campione di allenamento, ma sto spostando un campione alla volta su ogni ciclo. Pertanto, i risultati dell'allenamento non coincidono tra loro. Non ricordo perché l'ho fatto, ma non cambia l'essenza. Apparentemente, volevo mostrare i processi quasi-stazionari nel mercato e riflettere la loro influenza sulla velocità di apprendimento.

Ecco come appaiono i risultati quando si fa la media di 10 esperimenti sullo stesso campione di allenamento (fig. a sinistra):

Si può vedere che non c'è variazione statistica per i pesi con inizializzazione zero.

La figura a destra si basa su un'architettura di rete con 12 ingressi, 5 neuroni nello strato nascosto e 1 neurone in uscita e con un campione di allenamento di 120 campioni, cioè è una copia del vostro caso. Le statistiche sono state raccolte da 50 esperimenti numerici indipendenti. Inoltre, tutto funziona correttamente.

No, ho usato la prima differenza di prezzo di apertura come input (pensavo fosse chiaro dal contesto). È chiaro che la media è zero. Prevede l'ampiezza e il segno della prossima differenza.

Per quanto riguarda il teorema, mi è piaciuto. Ma si riferisce alle nostre reti come caso speciale!

Avete dimostrato il caso degenerato per la lunghezza del campione di allenamento che tende all'infinito. Davvero, in questo caso per il vettore di dati di input che rappresenta SV con zero MO otteniamo zero pesi - la migliore previsione per domani per SV integrato è il valore attuale oggi! Ma, una volta che prendiamo un campione di allenamento di lunghezza finita, i pesi allenati tenderanno all'equilibrio, minimizzando il quadrato dell'errore. Come esempio per dimostrare questa affermazione, prendiamo il caso di SLAE (lo stesso NS). In questo caso, i pesi sono definiti in modo univoco, l'errore di formazione sul campione di formazione è identicamente uguale a zero (il numero di incognite è uguale al numero di equazioni) e i pesi (coefficienti alle incognite) non sono ovviamente uguali a zero.

Sono d'accordo con il suo commento sul mio teorema. Infatti, riducendo il numero di set nel set di allenamento, i pesi si discostano da zero. Ma credo che il teorema sia applicabile alle reti, perché per calcolare la correlazione non ho bisogno di usare un numero infinito di set di allenamento. La media statistica R(m)=E{x[i]x[i+m]} è calcolata come la somma (x[i]x[i+m]) dei dati disponibili. Il teorema è significativo in quanto mostra che la rete avrà potere predittivo solo se queste somme (correlazioni) sono significativamente diverse da zero; altrimenti i pesi convergeranno a zero. Questo è il motivo per cui è importante trovare dati di allenamento con una correlazione non nulla tra ingressi e uscite. Gli input che hanno una bassa correlazione possono essere scartati perché non aiuteranno la rete nelle previsioni.

Per quanto ho capito il tuo errore di formazione sui grafici di cui sopra non è diviso per 2 o per il numero di set. È corretto? Vorrei eseguire i vostri input sulla mia rete per assicurarmi che tutto funzioni correttamente. Potresti salvarli in un file come sono alimentati agli ingressi e alle uscite della rete, e metterli qui. Potresti usare la tua rete 5-4-1 con 40 campioni per ridurre la quantità di dati.

 

Assegnazioni dei kagi di costruzione e delle serie di transazioni per diversi H


1. H = 1 (uno spread)


2. Н = 4


3. Н = 15


 
gpwr >> :

Sono d'accordo con il suo commento sul mio teorema. Infatti, riducendo il numero di set nel campione di allenamento, i pesi si discostano da zero. Ma penso che il teorema sia applicabile alle reti per la ragione che per calcolare la correlazione non è necessario utilizzare un numero infinito di set di allenamento. La media statistica R(m)=E{x[i]x[i+m]} è calcolata come la somma (x[i]x[i+m]) dei dati disponibili. Il teorema è significativo in quanto mostra che la rete avrà potere predittivo solo se queste somme (correlazioni) sono significativamente diverse da zero; altrimenti i pesi convergeranno a zero. Questo è il motivo per cui è importante trovare dati di allenamento con una correlazione non nulla tra ingressi e uscite. Gli input che hanno una bassa correlazione possono essere scartati perché non aiuteranno la rete nelle previsioni.

Per quanto ho capito il tuo errore di formazione sui grafici di cui sopra non è diviso per 2 o per il numero di set di formazione. È corretto? Vorrei eseguire i vostri input sulla mia rete per assicurarmi che tutto funzioni correttamente. Potresti salvarli in un file come sono alimentati agli ingressi e alle uscite della rete, e metterli qui. Puoi usare la tua rete 5-4-1 con 40 campioni per ridurre i dati.

Aumentato il conteggio delle epoche a 1000 e modificato le impostazioni di iProp+ in modo che il passo del peso non svanisca rapidamente. Rimossa anche la divisione dell'errore di apprendimento per 2*Numero di epoche. Ora ottengo risultati più soddisfacenti, più vicini a Neutron. L'errore di apprendimento per i pesi casuali è 2-3 volte inferiore a quello per i pesi zero, il che indica la presenza di correlazione tra ingressi e uscite. Ma ancora non mi piace che dall'epoca 4 alla 70 l'errore di apprendimento sia quasi invariato. Dobbiamo migliorare l'algoritmo di apprendimento. Anche se la maggior parte dei pacchetti NS commerciali usa iProp+ quindi mi fido di questo algoritmo. Rimangono il lento e complesso ML e il BFGS.


 
gpwr >> :

Sono d'accordo con il suo commento sul mio teorema.


Visto che sei così bravo in matematica, perché non provi a dimostrare un altro teorema sulla dimensione ottimale dell'input della rete sui BP del mercato (meglio non BP, ma serie di transazioni kagi) - è una cosa davvero utile!

 
paralocus >> :

Visto che sei così bravo in matematica, perché non provi a dimostrare un altro teorema sulla dimensione ottimale dell'input della rete sui BP del mercato (preferibilmente non BP, ma una serie di transazioni kagi) - questa è la cosa vera!

Farò un tentativo.

 
gpwr писал(а) >>

Sono d'accordo con il suo commento sul mio teorema. Infatti, riducendo il numero di set nel set di allenamento, i pesi si discostano da zero. Ma credo che il teorema sia applicabile alle reti, perché per calcolare la correlazione non ho bisogno di usare un numero infinito di set di allenamento. La media statistica R(m)=E{x[i]x[i+m]} è calcolata come la somma (x[i]x[i+m]) dei dati disponibili. Il teorema è significativo in quanto mostra che la rete avrà potere predittivo solo se queste somme (correlazioni) sono significativamente diverse da zero; altrimenti i pesi convergeranno a zero. Questo è il motivo per cui è importante trovare dati di allenamento con una correlazione non nulla tra ingressi e uscite. Gli input che hanno una bassa correlazione possono essere scartati perché non aiutano la rete a fare previsioni.

C'è anche una correlazione non lineare tra i campioni. È catturato dal bilayer NS non lineare e non è catturato dal discriminatore lineare, il teorema limite per il quale avete dimostrato.

Per quanto ho capito il tuo errore di formazione sui diagrammi dati non è diviso per 2 o per il numero di set. Giusto? Vorrei eseguire i vostri dati di input sulla mia rete per assicurarmi che tutto funzioni correttamente. Potresti salvarli in un file come sono alimentati agli ingressi e alle uscite della rete, e metterli qui. Puoi usare la tua rete 5-4-1 con 40 campioni per ridurre i dati.

Qui sotto c'è il file con gli input che ho usato.

File:
dif.zip  14 kb
 
Neutron >> :

C'è anche una correlazione non lineare tra i campioni. È catturato dal bilayer NS non lineare e non è catturato dal discriminatore lineare, il teorema limite per il quale avete dimostrato.

Qui sotto, in allegato c'è un file con i dati di input, che ho usato.

>> Grazie. Si parla molto di correlazione non lineare. Darò i miei pensieri al riguardo tra un po'. Nel frattempo sono incuriosito dalla tua interessante conclusione sulla "tetra-ragazza". Il fatto che la rete non appresa ("ragazza ternaria") mostri previsioni più accurate su dati fuori campione mi allarma. La varianza dello stato non appreso è molto più grande della varianza dello stato appreso. E se lo stato appreso è il minimo globale di entropia (errore al quadrato), allora la varianza di tale stato è zero, poiché c'è solo un minimo globale. Poiché ci sono molti stati non gonfiati nella rete, ci saranno molte previsioni diverse per gli stessi dati di input. Lo si può vedere nei suoi grafici. Tutto sommato, una conclusione interessante ma allarmante.

 

È qui che io stesso non ho una comprensione completa.

Secondo la dichiarazione(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), c'è una lunghezza ottimale, alla quale l'errore di generalizzazione Popt=w^2/d è minimizzato, dove d è la dimensione dell'input NS, w è il numero di tutti i parametri sintonizzabili di NS. Quindi, da questo punto di vista, il NS è sovrallenato se P<Popt il NS "ricorda" il campione di allenamento. Anche la variante P>Popt non è buona, perché a una lunghezza maggiore, c'è più probabilità di inversione di tendenza del mercato, che equivale a una diminuzione delle correlazioni tra i campioni.

D'altra parte, NS può essere "trascinato" al numero eccessivo di epoche di addestramento e come conseguenza, l'errore di generalizzazione inizierà a crescere di nuovo, o non sarà trascinato... In generale, c'è bisogno di esperimenti numerici con una serie di statistiche, che di per sé è molto ricercato! Ma deve essere fatto. Sarà molto più facile dimostrare l'equazione di cui sopra per la lunghezza ottimale del vettore di addestramento. gpwr, vuoi armeggiare?

Motivazione: