Galateo del mercato o buone maniere in un campo minato - pagina 83

 
paralocus писал(а) >>

Il partizionamento ottimale di un tick BP con soglia H, dovrebbe essere considerato il partizionamento in cui c'è il numero minimo di spalle consecutive monocolore di una serie di transazioni.

Se la distribuzione della fila di transazioni risultante è tale che più del 50% delle spalle consecutive hanno colori diversi, allora perché NS?

Proprio così. In effetti, il caso che lei ha espresso corrisponde a un mercato inefficiente in cui si può e si deve guadagnare! Se tracciamo la serie delle transazioni (RT) in isolamento dal tempo terminale (solo il conto alla rovescia della serie), l'effetto è più evidente:

Esattamente queste aree (e sembrano le stesse per le strategie H+/-) sono pescate da TC basate su costruzioni Kagi descritte nella dissertazione di Pastukhov. Ma c'è un problema legato alla bassa redditività (in confronto alle commissioni di intermediazione) di tali TS. È collegato al fatto che la strategia classica usa la proprietà più semplice e accessibile della formazione di Kagi - l'inversione del PT, ma ci sono altre regolarità... questo è ciò che NS dovrebbe essere in grado di identificare!

 
Neutron >> :

ci sono altri modelli... Questo è ciò che l'NS dovrebbe essere in grado di rilevare!

Possiamo approfondire questo punto? Non riesco a pensare a nient'altro se non alla lunghezza delle spalle (se si pensa a NS e kagi)

Quindi sono un po' perplesso:

Supponiamo che ci sia un NS che è addestrato con un numero di: +1,-1,+1,-1,+1,-1,-1.... (cioè ingressi binari). In questo caso posso indovinare con circa l'80% di precisione da tre volte quello che imparerà. La non linearità del NS è irrilevante.

 

Vorrei quanto voi conoscere le risposte ad alcune domande!

Vediamo come funziona un NS binario. Supponiamo di avere un vettore di allenamento. Tutto ciò che un NS può fare per minimizzare l'errore di uscita è calcolare le probabilità di risultati per tutte le possibili combinazioni di input. Per chiarezza, abbiamo tre ingressi, poi tutte le combinazioni di ingressi si riducono ai seguenti schemi (per bellezza andremo da +/-1 a 0/1):

000

001

010

011

100

101

110

111

Lasciamo che il vettore di addestramento P sia molte volte più lungo del numero di ingressi d, allora l'NS calcolerà semplicemente la probabilità p di cadere 1 su ogni modello (la probabilità per lo zero è 1-p). Ma possiamo farlo senza NS! C'è una sottigliezza qui. Vale a dire, cosa farete quando non incontrerete nessuna combinazione nel vettore di allenamento? Cosa assegnerete in realtà a questo modello? - Niente! Dovrete aumentare la lunghezza del vettore P finché non lo incontrerete (il modello). E non è un fatto che tu abbia abbastanza dati disponibili, o anche se li hai, non è un fatto che non riuscirai ad uscire dalla lunghezza ottimale di apprendimento. Capite cosa intendo? È qui che entra in gioco il vantaggio di NS. Si scopre che non ha bisogno di tutto l'addestramento (per tutte le occasioni), ma è capace di generalizzare la conoscenza disponibile con la massima affidabilità di generalizzazione! In altre parole, ricostruisce il risultato più probabile per un modello da solo, anche se non c'era prima nel programma di allenamento. È come un adulto - non abbiamo bisogno di un precedente per prendere una decisione in questa o quella situazione.

Quindi, prenderà una decisione proiettando i dati disponibili (input) su una certa iper-superficie che costruisce nello spazio delle caratteristiche durante il suo allenamento. Questa superficie è multidimensionale (per numero di ingressi) e può essere un piano, o una superficie di ordine superiore (paraboloide, iperboloide per tre dimensioni, ecc.). La presenza di non linearità, permette topologie di superficie complesse, e non importa che l'input sia binario, ciò che conta è che sia proiettato su una superficie non banale.

Quindi, penso che la non linearità anche con un ingresso binario abbia un ruolo.

 
Sì, ho capito. C'è un'idea. Abbiamo bisogno di calcolare la probabilità che il modulo di proiezione della prossima leva di una serie di operazioni sull'asse Y sia n>1 spread. Poi calcola la dimensione della tangente come un MO della lunghezza della leva e lo stesso sarà l'arresto. Temo che questo sia tutto quello che le statistiche possono dare, ma è +.
 

Sono un po' confuso sul calcolo dell'errore per lo strato nascosto con FA non lineare. Potete controllare se sto prendendo correttamente l'errore dello strato nascosto?

Qui sono confuso dal fatto che l'errore all'uscita dello strato nascosto è uguale al valore della microcorrezione della corrispondente sinapsi dello strato di uscita

 

No, non va bene!

1. Trova l'uscita NS - OUT. Hai capito bene.

2. Calcolare l'errore del NS: dOUT=x-OUT. Conoscendo questo errore, trovare il valore dei pesi di correzione del neurone di uscita. Anche questo è corretto.

3. lo stesso errore è all'uscita di ogni neurone i-esimo dello strato nascosto (strato d'entrata), ricalcolarlo all'entrata con la formula: dIn[i]=dOUT*(1-out[i]^2), dove out[i] è l'uscita dell'i-esimo neurone dello strato nascosto. Conoscendo l'errore portato all'ingresso di ogni neurone(dIn[i]), si trova il valore dei pesi di correzione nello strato di ingresso.

 

Stavo dando 100 - 120 epoche per un singolo strato. Per un due strati, probabilmente non è sufficiente? Non dà ancora buoni risultati sul kotier.


 
paralocus писал(а) >>

Qualcosa di lei sulla kotira (orologi) non sta dando ancora buoni risultati.

Aspettarsi qualcosa di diverso?

 
Neutron >> :

Ti aspettavi qualcosa di diverso?

Onestamente, sì. Cioè, la cosa a un solo strato funzionava. Hai ragione, però, dovresti smetterla definitivamente con le tabelle di marcia.

 
paralocus писал(а) >>

Stavo dando 100 - 120 epoche per un singolo strato. Per un due strati, probabilmente non è sufficiente? Non sta ancora dando buoni risultati sul kotier (orologio).

Pensavo che avessi detto che il singolo strato...

Ho un doppio strato sulla cappella che dà costantemente th<=0.05, e un singolo strato intorno allo zero.